文中的文本及图片来自互联网,仅作学习培训 、沟通交流应用,不具备一切商业行为,著作权归创作者全部,如有什么问题请立即在线留言以作解决
文中来源于腾讯云服务,创作者:Python小二
前几日 B 站上线一个小视频《后浪》 ,在各大网站造成了热情反应,有称赞也是有指责,视频详细地址:https://www.bilibili.com/video/BV1FV411d7u7 ,文中大家爬一下视频视频弹幕来了解一下 B 站网民对视频的观点 。
视频视频弹幕是存有 xml
文档中的,连接的文件格式为:http://comment.bilibili.com/ cid .xml,大家只必须取得视频的 cid
就可以 ,看一下获得方法,大家先开启视频连接 https://www.bilibili.com/video/BV1FV411d7u7,然后按
F12 键开启微信开发工具挑选 Network ,再更新一下网页页面 ,大家到 Filter 中键入 cid 就可以,以下所显示:
取得了 cid,我们可以了解视频弹幕文档连接为:http://comment.bilibili.com/186803402.xml ,开启连接看一下:
视频弹幕抓取的完成编码以下所显示:
url = "http://comment.bilibili.com/186803402.xml" req = requests.get(url) html = req.content html_doc = str(html, "utf-8") # 改动成utf-8 # 分析 soup = BeautifulSoup(html_doc, "lxml") results = soup.find_all('d') contents = [x.text for x in results] # 储存結果 dic = {"contents": contents} df = pd.DataFrame(dic) df["contents"].to_csv("bili.csv", encoding="utf-8", index=False)
如今大家早已获得了视频弹幕数据信息,接下去再对数据信息做一个词云展现,完成编码以下所显示:
def jieba_(): # 开启评价数据库文件 content = open("bili.csv", "rb").read() # jieba 词性标注 word_list = jieba.cut(content) words = [] # 过虑掉的词 stopwords = open("stopwords.txt", "r", encoding="utf-8").read().split("\n")[:-1] for word in word_list: if word not in stopwords: words.append(word) global word_cloud # 用分号分隔词句 word_cloud = ' ,'.join(words) def cloud(): # 开启词云背景 cloud_mask = np.array(Image.open("bg.png")) # 界定词云的一些特性 wc = WordCloud( # 背景切分色调为白 background_color='white', # 情况样图 mask=cloud_mask, # 显示信息较大 词量 max_words=500, # 显示信息汉语 font_path='./fonts/simhei.ttf', # 较大 规格 max_font_size=60, repeat=True ) global word_cloud # 词云涵数 x = wc.generate(word_cloud) # 形成词云图片 image = x.to_image() # 展现词云图片 image.show() # 储存词云图片 wc.to_file('cloud.png')
看一下实际效果: