抓取豆瓣电影评论并生成词云
目标:抓取豆瓣电影评论生成词云
第一步:抓取评论
代码如下。具体见注释
1 | def getCommentsById(movieId, pageNum): |
第二步:将抓取的评论转换为字符串
代码如下。具体见注释
1 | commentList = [] |
第三步:使用正则去掉标点
代码如下。具体见注释
1 | # 使用正则去掉标点 |
第四步:使用结巴分词进行中文分词
代码如下。具体见注释
1 | # 用结巴分词进行中文分词 |
第五步:去掉停用词
代码如下。具体见注释
1 | # 去掉停用词。 |
第六步:统计词频
代码如下。具体见注释
1 | # 统计词频 |
第七步:用词云进行显示
代码如下。具体见注释
1 | # 用词云进行显示 |