沒有爬过的壁纸网站越来越少了，找到一个非常好的（附源码）

2020-11-10 00:16:15LanceLee数据爬虫358

- N +

序言

文中的文本及图片来自互联网,仅作学习培训、沟通交流应用,不具备一切商业行为,如有什么问题请立即在线留言以作解决。

此次总体目标

抓取娟娟壁纸网的照片

受难者详细地址

http://www.jj20.com/

自然环境

Python3.6

pycharm

爬虫代码

导进专用工具

import requests import parsel

请求头

headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36' }

分析总体目标网址的数据信息

for page in range(1, 17): url = 'http://www.jj20.com/bz/ktmh/list_16_cc_14_{}.html'.format(page) response = requests.get(url=url, headers=headers) selector = parsel.Selector(response.text) lis = selector.css('body > div:nth-child(7) > ul li') for li in lis: page_url = 'http://www.jj20.com/' li.css('a:nth-child(1)::attr(href)').get() title = li.css('a:nth-child(1) img::attr(alt)').get() get_img(page_url, title)

储存数据信息

def download(img_url, img_title): path = '储存详细地址' title '.jpg' response = requests.get(url=img_url, headers=headers) with open(path, mode='wb') as f: f.write(response.content) print(img_url, img_title)

运作結果

文章来源于网络，如有侵权请联系站长QQ61910465删除

本文版权归去快排wWw.seogUrublog.com 所有,如有转发请注明来出,竞价开户托管,seo优化请联系qq❉61910465