文中的文本及图片来自互联网,仅作学习培训、沟通交流应用,不具备一切商业行为,著作权归创作者全部,如有什么问题请立即在线留言以作解决

下列文章内容来自腾讯云服务 创作者:Python神经病

一 、序言:

《灵笼》这一部动漫国漫里边制做算作精湛,可是故事情节有过多缺陷 。网民视频弹幕也是两极化 ,有点儿说故事情节好,有点儿说故事情节烂。也是有得说人物建模好有点儿也说差,今日大家就来爬取这一部中国动漫看一下网民到底在说啥?

二、爬取《灵笼》视频弹幕

1、构思
2 、采用的库
3、编码
4、词云

1 、构思

  • 根据网络爬虫爬取视频弹幕
  • 根据jieba分词对视频弹幕开展分词
  • 根据wordcloud绘图词云

2、采用的库

  • csv 用于csv文件的撰写
  • request 用于要求网站地址
  • re 正则表达式库用于获取html中的英文字母信息内容
  • jieba 用于中国汉字的分词
  • wordcloud 用于词云绘图

3、编码

# 爬取数据信息
import csv
# 数据信息要求库
import requests
# 正则表达式
import re
# 分词
import jieba
# 词云
import wordcloud

# 1.精准定位url
url='https://api.bilibili.com/x/v2/dm/history?type=1&oid=129528808&date=2020-08-28'

# 2.仿真模拟登录
# 设定h请求头避免 反扒阻拦
# 由于b站是登陆后查询视频弹幕	,因而这儿必须添加自身电脑上的cookie
headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:80.0) Gecko/20100101 Firefox/80.0',
    "Cookie":"_uuid=445F65D3-1530-41CF-09EC-C6029EF29EA659147infoc; buvid3=54281361-1A51-46A7-838B-7FB1215C81B953936infoc; CURRENT_FNVAL=16; LIVE_BUVID=AUTO9915845422486102; rpdid=|(u)~mYY~u0J'ul)RlRkkR); sid=4y2wx1oi; DedeUserID=229593267; DedeUserID__ckMd5=72ee797eb51fb8c3; SESSDATA=b7620543,1600240037,d737d*31; bili_jct=03269466eb702a213723a0585db59cbe; bp_t_offset_229593267=428995725967649604; CURRENT_QUALITY=80; PVID=1; _ga=GA1.2.1605929815.1586006097; bp_video_offset_229593267=428995725967649604; blackside_state=1; bfe_id=fdfaf33a01b88dd4692ca80f00c2de7f"
}
# 要求数据信息
resp = requests.get(url,headers=headers)
# 编解码数据信息,避免 错码
html=resp.content.decode('utf-8')
# 3.分析网页页面提取字幕
# 根据正则表达式,对回到html中的视频弹幕获取
res=re.compile('<d.*?>(.*?)</d>')
danmu=re.findall(res,html)

# 4.储存数据信息
for i in danmu:
    with open (r'D:\360MoveData\Users\cmusunqi\Documents\GitHub\R_and_python\python\词云和网络爬虫\视频弹幕.csv','a',newline='',encoding='utf-8') as f:
        writer=csv.writer(f)
        danmu=[]
        danmu.append(i)
        writer.writerow(danmu)

# 词云绘图============================================================
# 载入储存的csv文件
f = open (r'D:\360MoveData\Users\cmusunqi\Documents\GitHub\R_and_python\python\词云和网络爬虫\视频弹幕.csv',encoding='utf-8')
txt=f.read()
# jieba分词
txt_list=jieba.lcut(txt)
# 将分词后的目录根据空格符联接
string=' '.join(txt_list)
# 绘图词云	,内嵌主要参数需查询官方网编码
w=wordcloud.WordCloud(
    width=1000,
    height=700,
    background_color='white',
    font_path="msyh.ttc",
    scale=15,
    stopwords={" "},
    contour_width=5,
    contour_color='red'
)
# 导出来照片为png
w.generate(string)
w.to_file(r'D:\360MoveData\Users\cmusunqi\Documents\GitHub\R_and_python\python\词云和网络爬虫\ciyun.png')

 

4 、词云


汇总:绘图的词云较大 的字和是担心和措不及防,你担心还看个P呦。

文章来源于网络,如有侵权请联系站长QQ61910465删除
本文版权归趣KUAI排www.SEOguruBlog.com 所有,如有转发请注明来出,竞价开户托管,seo优化请联系QQ→61910465