python爬取《后浪》弹幕，对数据信息做个词云展示。

2020-12-18 23:25:54LanceLee数据爬虫230

- N +

文中的文本及图片来自互联网,仅作学习培训、沟通交流应用,不具备一切商业行为,著作权归创作者全部,如有什么问题请立即在线留言以作解决

文中来源于腾讯云服务，创作者：Python小二

前几日 B 站上线一个小视频《后浪》，在各大网站造成了热情反应，有称赞也是有指责，视频详细地址：https://www.bilibili.com/video/BV1FV411d7u7 ，文中大家爬一下视频视频弹幕来了解一下 B 站网民对视频的观点。

视频视频弹幕是存有 xml
文档中的，连接的文件格式为：http://comment.bilibili.com/ cid .xml，大家只必须取得视频的 cid
就可以，看一下获得方法，大家先开启视频连接 https://www.bilibili.com/video/BV1FV411d7u7，然后按
F12 键开启微信开发工具挑选 Network ，再更新一下网页页面，大家到 Filter 中键入 cid 就可以，以下所显示：

取得了 cid，我们可以了解视频弹幕文档连接为：http://comment.bilibili.com/186803402.xml ，开启连接看一下：

视频弹幕抓取的完成编码以下所显示：

url = "http://comment.bilibili.com/186803402.xml"
req = requests.get(url)
html = req.content
html_doc = str(html, "utf-8")  # 改动成utf-8
# 分析
soup = BeautifulSoup(html_doc, "lxml")
results = soup.find_all('d')
contents = [x.text for x in results]
# 储存結果
dic = {"contents": contents}
df = pd.DataFrame(dic)
df["contents"].to_csv("bili.csv", encoding="utf-8", index=False)

如今大家早已获得了视频弹幕数据信息，接下去再对数据信息做一个词云展现，完成编码以下所显示：

def jieba_():
    # 开启评价数据库文件
    content = open("bili.csv", "rb").read()
    # jieba 词性标注
    word_list = jieba.cut(content)
    words = []
    # 过虑掉的词
    stopwords = open("stopwords.txt", "r", encoding="utf-8").read().split("\n")[:-1]
    for word in word_list:
        if word not in stopwords:
            words.append(word)
    global word_cloud
    # 用分号分隔词句
    word_cloud = '	，'.join(words)

def cloud():
    # 开启词云背景
    cloud_mask = np.array(Image.open("bg.png"))
    # 界定词云的一些特性
    wc = WordCloud(
        # 背景切分色调为白
        background_color='white',
        # 情况样图
        mask=cloud_mask,
        # 显示信息较大 词量
        max_words=500,
        # 显示信息汉语
        font_path='./fonts/simhei.ttf',
        # 较大 规格
        max_font_size=60,
        repeat=True
    )
    global word_cloud
    # 词云涵数
    x = wc.generate(word_cloud)
    # 形成词云图片
    image = x.to_image()
    # 展现词云图片
    image.show()
    # 储存词云图片
    wc.to_file('cloud.png')

看一下实际效果：

文章来源于网络，如有侵权请联系站长QQ61910465删除

本文版权归去快排wWw.seogUrublog.com 所有,如有转发请注明来出,竞价开户托管,seo优化请联系qq❉61910465