文中的文本及图片来自互联网,仅作学习培训、沟通交流应用,不具备一切商业行为,如有什么问题请立即在线留言以作解决 。
下列文章内容来自python实例教程 ,创作者:毛毛雨
刚触碰Python的初学者 、新手 ,能够拷贝下边的连接去免费在线观看Python的基本新手入门视频教学
https://v.douyu.com/author/y6AZ4jn9jwKW
序言
HTML文档是互联网技术上的关键文档种类,但还存有如TXT 、WORD、Excel、PDF 、csv等各种类型的文档 。爬虫技术不但必须可以抓取HTML中的比较敏感信息内容,也必须有抓取其他类型文档的工作能力。下边简略纪录一些本人已经知道的根据python3的抓取方式 ,以便查看。
抓取TXT文档
在python3下,常见方式是应用urllib.request.urlopen方式立即获得 。以后运用正则表达式等方法开展敏感词汇查找。
假如抓取的是某一HTML,最好是先剖析 ,比如:
抓取CSV文档
抓取PDF文档
抓取word
方式:
(1)运用urlopen抓取远程控制word docx文档;
(2)将其变换为运行内存字节流;
(3)压缩包解压(docx是缩小后文档);
(4)将缓解压力后的文档做为xml载入
(5)找寻xml中的标识(文章正文內容)并解决
文章来源于网络,如有侵权请联系站长QQ61910465删除
本文版权归趣快排www.sEoguruBlog.com 所有,如有转发请注明来出,竞价开户托管,seo优化请联系QQ✈61910465