Python网络爬虫(零):简介及安装

一、前言

最近一直在准备大数据的竞赛,接触了一些网络爬虫的知识 ,在网上查过一些资料,总觉得不是很系统,就在某宝上买了本Python网络爬虫的书。个人认为学习不应该是走马观花似的 ,并且一直以来都有想写博客的想法但又找不到持续更新的内容,正好接着这次学习网络爬虫的机会,用博客文章来记录学习过程 。

二 、开发工具

Anaconda:Anaconda就是可以便捷获取包且对包能够进行管理 ,同时对环境可以统一管理的发行版本。Anaconda包含了conda、Python在内的超过180个科学包及其依赖项。
所有参考代码都在Jupyter notebook上编写,相关章节的内容会以.ipynb文件形式出现并上传

三、参考用书

《Python3网络爬虫开发实战》 崔庆才 著

有关内容:
安装开发环境;学习爬虫之前需要了解的基础知识,如HTTP 、爬虫、代理的基本原理、网页基本结构等内容;最基本的爬虫操作 ,urllib 、requests和正则表达式的基本用法;页解析库的基本用法 ,包括Beautiful Soup、XPath、pyquery的基本使用方法;数据存储的常见形式及存储操作,包括TXT 、JSON 、CSV各种文件的存储,以及关系型数据库MySQL和非关系型数据库MongoDB、Redis存储的基本存储操作;Ajax数据爬取;动态渲染页面的爬取;Selenium、Splash等工具来实现模拟浏览器进行数据爬取的方法;验证码的相关处理方法 ,包括图形验证码 、极验验证码、点触验证码、微博宫格验证码的识别;代理的使用方法 、代理池的维护方法,以及ADSL拨号代理的使用方法;模拟登录爬取,最基本的模拟登录方法以及维护一个Cookies池;App的爬取 ,如何使用Charles、mitmproxy抓包软件的使用 。mitmdump对接Python脚本进行实时抓取的方法,以及使用Appium完全模拟手机App爬取的操作进行爬取;pyspider爬虫框架及用法;Scrapy爬虫框架及用法;分布式爬虫的基本原理及实现方法;分布式爬虫的部署及管理方法。

四、安装

学习Python网络爬虫要有一定Python基础,本系列重点在网络爬虫 ,不讲述Python基础,需要学习Python基础的可以参考以下链接网站:

菜鸟教程:https://www.runoob.com/python3/python3-tutorial.html
中国大学MOOC:https://www.icourse163.org/course/BIT-268001

1.Python3的安装

如果你学过Python基础那么就一定安装了Python了吧!如果没有安装,可以参考相关链接:

下载地址:https://www.python.org/downloads

2.Anaconda的安装

Anaconda的官网下载地址:https://www.anaconda.com/products/individual#Downloads
如果下载速度过慢 ,可以使用清华大学镜像。

3.请求库的安装

爬虫操作分为:抓取网页 、分析页面和存储数据这几步 。
在抓取页面的过程中,需要模拟浏览器向服务器发送请求,就会用到一些Python库来实现HTTP请求操作。

·requests的安装

requests属于第三方库 ,需要手动安装。如果你使用的是Anaconda ,在base环境下,已经为你集成了300多个库,所以不需要额外手动安装;如果你只装了Python ,可以打开终端(命令行)输入以下指令:

pip install requests

4.解析库的安装

在抓取网页代码之后,下一步就是从网页中提取信息 。提取信息的方式有多种多样,可以使用正则表达式 ,但是写起来相对比较麻烦 。Python有许多强大的解析库,比如lxml,BeautifulSoup、pyquery等。此外 ,还提供了非常强大的解析方法,如XPath解析和CSS选择器解析等,利用这些库可以高效便捷的从网页中提取信息。

(1)lxml的安装

lxml是Python的一个解析库 ,支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高 。
安装指令:

pip install lxml

安装完成之后 ,在Python命令行下测试:

$ python3
>>> import lxml

如果没有报错 ,则证明库已经安装好了。

(2)Beautiful Soup的安装

Beautiful Soup是Python的一个HTML或XML的解析库,我们可以用它来方便地从网页中提取数据。它拥有强大的API和多样的解析方式 。
安装指令:

pip install beautifulsoup4 

安装完成之后,可以运行下面代码验证:

from bs4 import BeautifulSoup
soup = BeautifulSoup('<p>Hello</p>', 'lxml')
print(soup.p.string)

运行结果如下:
Hello
如果运行结果一致 ,则证明安装成功。

注意,这里我们虽然安装的是beautifulsoup4这个包,但是在引入的时候却是bs4.这是因为这个包源代码本身的库文件夹名称就是bs4 ,所以安装完之后,这个库文件夹就被移入到本机Python3的lib里,所以识别到的库文件名就叫bs4。

(3)pyquery的安装

pyquery同样是一个强大的网页解析工具 ,它提供了和jQuery类似的语法来解析HTML文档,支持CSS选择器,使用非常方便 。
安装指令:

pip install pyquery

验证安装

$python3
>>> import pyquery

对于Python网络爬虫需要的几个基本库就是这些了 ,等后面学的更深入了会用到一些别的库。

本文版权归趣快排营销www.seoguRubloG.com 所有,如有转发请注明来出,竞价开户托管,seo优化请联系✚Qq61910465