Python爬虫初学-urllib3

- N +

学习培训爬虫中，从近期自身写的爬虫微信小程序中抓截一点编码。加重下记忆力。

1.因为我早已安裝了Python3,因此应用了urllib3库。

2.要依据相匹配网页的数据类型开展编解码，有些是utf-8，有些是GB2312，自然将会也有其他。不然会出错。

import urllib3

import time

#因为我应用了Python3 ，因此应用urllib3库

http = urllib3.PoolManager()

response=http.request('GET','https://www.cnblogs.com/')

http_data = response.data.decode('utf-8') #GB2312

#在抓取的网页数据信息中搜索配对的数据信息

User = "齐妙不凡"

if (http_data.find(User,0,len(http_data)) != -1):

print("寻找【%s】的美文!"%User)

else:

print("找不着【%s】的美文!"%User)

#创建文档，储存每一次抓取到的网页的內容

data_filename=r'LOG\%s_data.log'%(time.strftime('%Y%m%d%H%M%S'))

web_data = open(data_filename,'w',encoding='utf-8')

web_data.write(http_data)

web_data.close()

文章来源于网络，如有侵权请联系站长QQ61910465删除

本文版权归趣快排SEO www.SeogurUblog.com 所有,如有转发请注明来出,竞价开户托管,seo优化请联系QQ▶61910465