文中的文本及图片来自互联网,仅作学习培训 、沟通交流应用,不具备一切商业行为,如有什么问题请立即在线留言以作解决。

下列文章内容来自python实例教程,创作者:毛毛雨

刚触碰Python的初学者、新手 ,能够拷贝下边的连接去免费在线观看Python的基本新手入门视频教学

https://v.douyu.com/author/y6AZ4jn9jwKW

序言

HTML文档是互联网技术上的关键文档种类,但还存有如TXT、WORD 、Excel、PDF、csv等各种类型的文档 。爬虫技术不但必须可以抓取HTML中的比较敏感信息内容,也必须有抓取其他类型文档的工作能力。下边简略纪录一些本人已经知道的根据python3的抓取方式 ,以便查看。

抓取TXT文档

在python3下,常见方式是应用urllib.request.urlopen方式立即获得 。以后运用正则表达式等方法开展敏感词汇查找。

 

假如抓取的是某一HTML,最好是先剖析 ,比如:

 

抓取CSV文档

 

抓取PDF文档

 

抓取word

方式:

(1)运用urlopen抓取远程控制word docx文档;

(2)将其变换为运行内存字节流;

(3)压缩包解压(docx是缩小后文档);

(4)将缓解压力后的文档做为xml载入

(5)找寻xml中的标识(文章正文內容)并解决

文章来源于网络,如有侵权请联系站长QQ61910465删除

本文版权归QU快排Www.seoGurubLog.com 所有,如有转发请注明来出,竞价开户托管,seo优化请联系QQ▲61910465