#### 提前准备

要爬的网址是图虫网
专用工具:python 2.7,BeautifulSoup4

留意:BeautifulSoup4为第三方类库 ,假如在cmd下要pip安装出错 ,可立即去官方网站下载,缓解压力后拷到python安装文件中的lib文件目录下,根据cmd进到软件的文件目录 ,键入python setup.py install,就可以安裝 。

#### 剖析

爬虫的人口数量页为: [https://tuchong.com/explore/](https://link.jianshu.com?t=https://tuchong.com/explore/)

![image](//upload-images.jianshu.io/upload_images/1806043-a14cf87839b5a709.png?imageMogr2/auto-orient/strip|imageView2/2/w/1200/format/webp)

能够见到这页的每一张图片都意味着一个主题,点进来后就是这个主题下全部的相册图片,如下图 。

![image](//upload-images.jianshu.io/upload_images/1806043-618af894672d382e.png?imageMogr2/auto-orient/strip|imageView2/2/w/1200/format/webp)

打开相册后发觉相册图片里的图片全是用js载入的 ,应对这类状况能够自身剖析js,用Request推送要求读取数据。还可以用一些仿真模拟js个人行为的库来爬取数据信息,但那样对cpu和运行内存的耗费会扩大,爬取速率也比较慢 ,如不必要提议不应用。
下列是爬虫的关键编码,先分析出全部主题的url地址,随后爬虫循环系统抓取每一个主题的封面图 。

![image](//upload-images.jianshu.io/upload_images/1806043-b50f53795c7c28c9.png?imageMogr2/auto-orient/strip|imageView2/2/w/1200/format/webp)

#### 运作

下边使我们的爬虫跑起来 ,我运作在了网络服务器上,大伙儿能够立即根据电脑浏览器浏览抓取的結果。

![image](//upload-images.jianshu.io/upload_images/1806043-0cf8aa7d2525343e.png?imageMogr2/auto-orient/strip|imageView2/2/w/1200/format/webp)

![image](//upload-images.jianshu.io/upload_images/1806043-92b0b0ef00fc4384.png?imageMogr2/auto-orient/strip|imageView2/2/w/1200/format/webp)

一段时间后运作结束,开启形成的page文件夹名称,见到爬虫为大家形成的html网页页面 ,能够根据下边这一url浏览 (ps: 每一个网页页面大概50M ,总流量党勿进。)

[http://114.215.141.86/zs/spider/page/美少女.html](https://link.jianshu.com?t=http://114.215.141.86/zs/spider/page/美少女.html)

![image](//upload-images.jianshu.io/upload_images/1806043-fe3038e6d0cb7088.png?imageMogr2/auto-orient/strip|imageView2/2/w/1200/format/webp)

#### 最终

这一网址非常简单,不用登陆短信验证码,连请求头都无需写 ,爬虫都没有写的太暴力行为,仅仅储存了图片的url地址,并沒有爬取到当地 ,别对别人网络服务器导致工作压力麻 。


###如今也有大礼盒免费送
###强烈推荐一下我建的python交流学习QQqun:850973621,群内有免费的视频实例教程,开发环境 、
###电子书 、新项目源码分享。学习培训python web、python爬虫、数据统计分析 、互联网大数据 ,人工智能技术等
###技术性有不明白的能够添加一起学习交流,一起发展!

 

作者:钟响blog
连接:https://www.jianshu.com/p/15e2dd81636a
来源于:百度百家
版权归作者全部。商业服务转截请联络作者得到 受权,非商用转截请标明出處 。

文章来源于网络 ,如有侵权请联系站长QQ61910465删除
本文版权归去快排wWw.seogUrublog.com 所有,如有转发请注明来出,竞价开户托管,seo优化请联系qq❉61910465