序言
文中的文本及图片来自互联网,仅作学习培训、沟通交流应用,不具备一切商业行为,如有什么问题请立即在线留言以作解决。
前文內容
Python网络爬虫初学者课堂教学(一):爬取豆瓣影评排名信息内容
Python网络爬虫初学者课堂教学(二):爬取小说集
Python网络爬虫初学者课堂教学(三):爬取链家二手房数据信息
Python网络爬虫初学者课堂教学(四):爬取boss直聘招聘职位
Python网络爬虫初学者课堂教学(五):爬取B站视頻视频弹幕
基础开发工具
- Python 3.6
- Pycharm
有关控制模块的应用
- jieba
- wordcloud
安裝Python并加上到环境变量,pip安装必须的有关控制模块就可以。
上一篇文章爬取了B站视頻的视频弹幕数据信息 ,针对这些方面能够做一些视频弹幕词云剖析,让网络爬虫数据信息不会再过度简单 。
编码內容還是十分介绍的,看注解就可以懂了
import jieba import wordcloud # 读取文件內容 f = open('视频弹幕.txt', encoding='utf-8') txt = f.read() # jiabe 词性标注 切分语汇 txt_list = jieba.lcut(txt) string = ' '.join(txt_list) # 词云图设定 wc = wordcloud.WordCloud( width=1000, # 图片的宽 height=700, # 图片的高 background_color='white', # 图片背景色 font_path='msyh.ttc', # 词云字体样式 scale=15, ) # 给词云输入文字 wc.generate(string) # 词云图储存图片详细地址 wc.to_file('out.png')
由图中所显示 ,有很多的那样的 及时 那样的关键字,那样的关键字是没什么现实意义的,我们可以在词云设定中设定 停用词
stopwords={'及时'}
假如你要想键入的图片并不是方形的图片 ,要想设成自身要想的样子,必须先找一张 透明图
导进 imageio 控制模块
import jieba import wordcloud import imageio # 导进imageio库文件的imread涵数,并且用这一涵数载入当地图片 ,做为词云样子图片 py = imageio.imread('.\\0.jpg') # 怎样你要想更改词云图的样子,能够加上 # 读取文件內容 f = open('B站视频弹幕.txt', encoding='utf-8') txt = f.read() # jiabe 词性标注 切分语汇 txt_list = jieba.lcut(txt) string = ' '.join(txt_list) # 词云图设定 wc = wordcloud.WordCloud( width=1000, # 图片的宽 height=700, # 图片的高 background_color='white', # 图片背景色 font_path='msyh.ttc', # 词云字体样式 mask=py, # 所应用的词云图片 scale=15, stopwords={'及时'}, # 停用词 # contour_width=5, # contour_color='red' # 轮廊色调 ) # 给词云输入文字 wc.generate(string) # 词云图储存图片详细地址 wc.to_file('out.png')