Python网络爬虫（零）

2021-04-20 00:22:07LanceLee数据爬虫198

- N +

Python网络爬虫(零)：简介及安装

一、前言

最近一直在准备大数据的竞赛，接触了一些网络爬虫的知识，在网上查过一些资料，总觉得不是很系统，就在某宝上买了本Python网络爬虫的书。个人认为学习不应该是走马观花似的，并且一直以来都有想写博客的想法但又找不到持续更新的内容，正好接着这次学习网络爬虫的机会，用博客文章来记录学习过程。

二、开发工具

Anaconda：Anaconda就是可以便捷获取包且对包能够进行管理，同时对环境可以统一管理的发行版本。Anaconda包含了conda、Python在内的超过180个科学包及其依赖项。
所有参考代码都在Jupyter notebook上编写，相关章节的内容会以.ipynb文件形式出现并上传

三、参考用书

《Python3网络爬虫开发实战》崔庆才著

有关内容：
安装开发环境；学习爬虫之前需要了解的基础知识，如HTTP 、爬虫、代理的基本原理、网页基本结构等内容；最基本的爬虫操作，urllib 、requests和正则表达式的基本用法；页解析库的基本用法，包括Beautiful Soup、XPath、pyquery的基本使用方法；数据存储的常见形式及存储操作，包括TXT 、JSON 、CSV各种文件的存储，以及关系型数据库MySQL和非关系型数据库MongoDB、Redis存储的基本存储操作；Ajax数据爬取；动态渲染页面的爬取；Selenium、Splash等工具来实现模拟浏览器进行数据爬取的方法；验证码的相关处理方法，包括图形验证码、极验验证码、点触验证码、微博宫格验证码的识别；代理的使用方法、代理池的维护方法，以及ADSL拨号代理的使用方法；模拟登录爬取，最基本的模拟登录方法以及维护一个Cookies池；App的爬取，如何使用Charles、mitmproxy抓包软件的使用。mitmdump对接Python脚本进行实时抓取的方法，以及使用Appium完全模拟手机App爬取的操作进行爬取；pyspider爬虫框架及用法；Scrapy爬虫框架及用法；分布式爬虫的基本原理及实现方法；分布式爬虫的部署及管理方法。

四、安装

学习Python网络爬虫要有一定Python基础，本系列重点在网络爬虫，不讲述Python基础，需要学习Python基础的可以参考以下链接网站：

菜鸟教程：https://www.runoob.com/python3/python3-tutorial.html
中国大学MOOC：https://www.icourse163.org/course/BIT-268001

1.Python3的安装

如果你学过Python基础那么就一定安装了Python了吧！如果没有安装，可以参考相关链接：

下载地址：https://www.python.org/downloads

2.Anaconda的安装

Anaconda的官网下载地址：https://www.anaconda.com/products/individual#Downloads
如果下载速度过慢，可以使用清华大学镜像。

3.请求库的安装

爬虫操作分为：抓取网页、分析页面和存储数据这几步。
在抓取页面的过程中，需要模拟浏览器向服务器发送请求，就会用到一些Python库来实现HTTP请求操作。

·requests的安装

requests属于第三方库，需要手动安装。如果你使用的是Anaconda ，在base环境下，已经为你集成了300多个库，所以不需要额外手动安装；如果你只装了Python ，可以打开终端（命令行）输入以下指令：

pip install requests

4.解析库的安装

在抓取网页代码之后，下一步就是从网页中提取信息。提取信息的方式有多种多样，可以使用正则表达式，但是写起来相对比较麻烦。Python有许多强大的解析库，比如lxml，BeautifulSoup、pyquery等。此外，还提供了非常强大的解析方法，如XPath解析和CSS选择器解析等，利用这些库可以高效便捷的从网页中提取信息。

（1）lxml的安装

lxml是Python的一个解析库，支持HTML和XML的解析，支持XPath解析方式，而且解析效率非常高。
安装指令：

pip install lxml

安装完成之后，在Python命令行下测试：

$ python3
>>> import lxml

如果没有报错，则证明库已经安装好了。

（2）Beautiful Soup的安装

Beautiful Soup是Python的一个HTML或XML的解析库，我们可以用它来方便地从网页中提取数据。它拥有强大的API和多样的解析方式。
安装指令：

pip install beautifulsoup4

安装完成之后，可以运行下面代码验证：

from bs4 import BeautifulSoup
soup = BeautifulSoup('<p>Hello</p>', 'lxml')
print(soup.p.string)

运行结果如下：
Hello
如果运行结果一致，则证明安装成功。

注意，这里我们虽然安装的是beautifulsoup4这个包，但是在引入的时候却是bs4.这是因为这个包源代码本身的库文件夹名称就是bs4 ，所以安装完之后，这个库文件夹就被移入到本机Python3的lib里，所以识别到的库文件名就叫bs4。

（3）pyquery的安装

pyquery同样是一个强大的网页解析工具，它提供了和jQuery类似的语法来解析HTML文档，支持CSS选择器，使用非常方便。
安装指令：

pip install pyquery

验证安装

$python3
>>> import pyquery

对于Python网络爬虫需要的几个基本库就是这些了，等后面学的更深入了会用到一些别的库。

本文版权归趣快排营销www.seoguRubloG.com 所有,如有转发请注明来出,竞价开户托管,seo优化请联系✚Qq61910465