文中的文本及图片来自互联网,仅作学习培训、沟通交流应用,不具备一切商业行为,如有什么问题请立即在线留言以作解决。
下列文章内容来自于Python小二,创作者:Python小二
文中以360手机小助手为例子,详细地址为:http://zhushou.360.cn/ ,相亲软件挑选 3 个较为时兴的,各自为:珍爱网、百合婚恋 、有缘网,大家应用 Python 抓取手机软件发表评论 ,看一下用户反馈状况 。
先看来一下这三款软件的下载量合好中恶意差评占有率状况(下面的图企业为一万次)。




下边刚开始抓取发表评论,以珍爱网为例子,最先 ,在输入框键入珍爱网开展检索,如下图所示:

然后,搜索网页到的手机软件进到其宝贝详情 ,如下图所示:

将网页页面往下拉就可以见到发表评论了,如下图所示:

这时开启微信开发工具并挑选Network项,点一下点击查看评价 ,随后能够见到getComments要求,如下图所示:

根据这一要求大家就可以动态性获得发表评论数据信息了,在其中主要参数star为刚开始的评价数据库索引,主要参数count为每一次载入的评价数量 ,能够根据主要参数callback、baike特定不一样运用,抓取编码完成以下:
headers = { "Accept": "*/*", "Accept-Encoding": "gzip, deflate, sdch", "Accept-Language": "zh-CN,zh;q=0.8", "Connection": "keep-alive", "Host": "comment.mobilem.360.cn", "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER" } def comment_spider(param, file_name): base_url = "http://comment.mobilem.360.cn/comment/getComments?c=message&a=getmessage&&count=50" start = 0 for i in range(1, 50): print("第{}页".format(i)) url = base_url param "&start=" str(start) r = requests.get(url, headers=headers) data = re.findall("{\"errno\"(.*)\);}catch\(e\){}", r.text) # 变为 Json 文件格式 jdata = json.loads("{\"errno\"" data[0]) for message in jdata["data"]["messages"]: content = message["content"] print(content) with open(file_name ".txt", "a", encoding="utf-8") as f: f.write(content) start = start 50 time.sleep(2)
大家将抓取的评价数据信息存来到 txt 文档中。
然后,大家将评价数据信息开展词云展现 ,编码完成以下:
with open("yy.txt", "r", encoding="utf-8") as f: content = f.read() stylecloud.gen_stylecloud(text=content, max_words=600, collocations=False, font_path="SIMLI.TTF", icon_name="fas fa-heart", size=800, output_name="yy.png") Image(filename="yy.png")
最终,根据词云看一下客户对所述手机软件的点评状况 。
珍爱网:

百合婚恋:

有缘网:
