Python爬虫实战演练：爬取微远大V的评论数据

- N +

文中的文本及图片来自互联网,仅作学习培训、沟通交流应用,不具备一切商业行为,如有什么问题请立即在线留言以作解决。

下列文章内容来自IT共享资源世家，创作者： IT共享资源者

理论篇

设想一个难题，假如我们要爬取某一微远大V新浪微博的评价数据信息，应当如何完成呢？非常简单的作法便是寻找微博api接口，随后根据更改主要参数来获得最新数据并储存。最先从微博api找寻爬取评价的插口，如下图所示。

可是很悲剧，该插口頻率受到限制，抓不上几回就遭禁了，都还没刚开始起降，就三生三世凉凉了。

接下去我又挑选新浪微博的手机端网址，先登陆，随后寻找大家要想爬取评价的新浪微博，浏览器打开内置流量统计专用工具，一直往下拉评价，寻找评价api接口，如下图所示。

以后点一下“主要参数”菜单栏，能够见到主要参数为下面的图所示的內容：

能够见到一共有4个主要参数，在其中第一、两个主要参数为此条新浪微博的id，如同人的身份证号码一样，这一等同于此条新浪微博的“身份证号码 ” ，max_id是转换页数的主要参数，每一次必须转变，下一次的max_id变量值在此次要求的回到数据信息中。

拥有前文的基本以后，下边大家刚开始撸编码，应用Python开展完成。

1、最先区别url，第一次不用max_id,第二次必须用第一次回到的max_id 。

2、要求的情况下必须携带cookie数据信息，新浪微博cookie的有效期限较为长，充足抓一条新浪微博的评价数据信息了，cookie数据信息能够从电脑浏览器分析工具中寻找。

3 、随后将回到数据交换成json文件格式，取下评价內容、审稿人呢称和评价時间等数据信息，輸出結果如下图所示。

4、为了更好地储存评价內容，我们要将评价中的小表情除掉，应用正则表达式开展解决，如下图所示。

5、以后然后把內容储存到txt文件中，应用简易的open涵数开展完成，如下图所示。

6 、关键来啦，根据此插口数最多只有回到16页的数据信息（每张20条），在网上也是有说回到50页的，可是插口不一样、回到的数据信息总数也不一样，因此你加了个for循环，一步到位，解析xml還是很贴心的，如下图所示。

7、这儿把涵数取名为job 。为了更好地可以一直取下全新的数据信息，大家可以用schedule给程序流程加个定时执行作用，每过十分钟或是半小时抓1次，如下图所示。

8 、对获得到的数据信息，做去重复解决，如下图所示。假如评价早已在里面得话，就立即pass掉，要是没有得话，再次增加就可以。

此项工作中到此就基础完成了。

文章来源于网络，如有侵权请联系站长QQ61910465删除

本文版权归趣营销www.SEOgUrublog.com 所有,如有转发请注明来出,竞价开户托管,seo优化请联系QQ卍61910465