学习培训爬虫中 ,从近期自身写的爬虫微信小程序中抓截一点编码。加重下记忆力 。

1.因为我早已安裝了Python3,因此应用了urllib3库 。

2.要依据相匹配网页的数据类型开展编解码 ,有些是utf-8,有些是GB2312,自然将会也有其他。不然会出错。


import urllib3
import time

#因为我应用了Python3 ,因此应用urllib3库
http = urllib3.PoolManager()
response=http.request('GET','https://www.cnblogs.com/') 
http_data = response.data.decode('utf-8') #GB2312

#在抓取的网页数据信息中搜索配对的数据信息
User = "齐妙不凡"
if (http_data.find(User,0,len(http_data)) != -1):
    print("寻找【%s】的美文!"%User)
else:
    print("找不着【%s】的美文!"%User)

#创建文档,储存每一次抓取到的网页的內容
data_filename=r'LOG\%s_data.log'%(time.strftime('%Y%m%d%H%M%S'))
web_data = open(data_filename,'w',encoding='utf-8')
web_data.write(http_data)
web_data.close()

文章来源于网络,如有侵权请联系站长QQ61910465删除
本文版权归趣快排SEO www.SeogurUblog.com 所有,如有转发请注明来出,竞价开户托管,seo优化请联系QQ▶61910465