序言

文中的文本及图片来自互联网,仅作学习培训、沟通交流应用,不具备一切商业行为,如有什么问题请立即在线留言以作解决。

前文內容

Python网络爬虫初学者课堂教学(一):爬取豆瓣影评排名信息内容

Python网络爬虫初学者课堂教学(二):爬取小说集

Python网络爬虫初学者课堂教学(三):爬取链家二手房数据信息

Python网络爬虫初学者课堂教学(四):爬取boss直聘招聘职位

Python网络爬虫初学者课堂教学(五):爬取B站视頻视频弹幕

基础开发工具

  • Python 3.6
  • Pycharm

有关控制模块的应用

  • jieba
  • wordcloud

安裝Python并加上到环境变量,pip安装必须的有关控制模块就可以。

上一篇文章爬取了B站视頻的视频弹幕数据信息 ,针对这些方面能够做一些视频弹幕词云剖析,让网络爬虫数据信息不会再过度简单 。

编码內容還是十分介绍的,看注解就可以懂了

import jieba
import wordcloud
# 读取文件內容
f = open('视频弹幕.txt', encoding='utf-8')
txt = f.read()
# jiabe 词性标注 切分语汇
txt_list = jieba.lcut(txt)
string = ' '.join(txt_list)
# 词云图设定
wc = wordcloud.WordCloud(
        width=1000,         # 图片的宽
        height=700,         # 图片的高
        background_color='white',   # 图片背景色
        font_path='msyh.ttc',    # 词云字体样式
        scale=15,
)
# 给词云输入文字
wc.generate(string)
# 词云图储存图片详细地址
wc.to_file('out.png')

 

 


由图中所显示 ,有很多的那样的 及时 那样的关键字,那样的关键字是没什么现实意义的,我们可以在词云设定中设定 停用词

stopwords={'及时'}

 

假如你要想键入的图片并不是方形的图片 ,要想设成自身要想的样子,必须先找一张 透明图
导进 imageio 控制模块

import jieba
import wordcloud
import imageio
# 导进imageio库文件的imread涵数,并且用这一涵数载入当地图片	,做为词云样子图片
py = imageio.imread('.\\0.jpg')  #  怎样你要想更改词云图的样子,能够加上
# 读取文件內容
f = open('B站视频弹幕.txt', encoding='utf-8')
txt = f.read()
# jiabe 词性标注 切分语汇
txt_list = jieba.lcut(txt)
string = ' '.join(txt_list)
# 词云图设定
wc = wordcloud.WordCloud(
        width=1000,         # 图片的宽
        height=700,         # 图片的高
        background_color='white',   # 图片背景色
        font_path='msyh.ttc',    # 词云字体样式
        mask=py,     # 所应用的词云图片
        scale=15,
        stopwords={'及时'},         # 停用词
        # contour_width=5,
        # contour_color='red'  # 轮廊色调
)
# 给词云输入文字
wc.generate(string)
# 词云图储存图片详细地址
wc.to_file('out.png')

 

 

文章来源于网络,如有侵权请联系站长QQ61910465删除
本文版权归趣快排SEO www.SeogurUblog.com 所有,如有转发请注明来出,竞价开户托管,seo优化请联系QQ▶61910465