Python网络爬虫(零):简介及安装

一 、前言

最近一直在准备大数据的竞赛 ,接触了一些网络爬虫的知识,在网上查过一些资料,总觉得不是很系统 ,就在某宝上买了本Python网络爬虫的书 。个人认为学习不应该是走马观花似的,并且一直以来都有想写博客的想法但又找不到持续更新的内容,正好接着这次学习网络爬虫的机会 ,用博客文章来记录学习过程。

二、开发工具

Anaconda:Anaconda就是可以便捷获取包且对包能够进行管理,同时对环境可以统一管理的发行版本。Anaconda包含了conda、Python在内的超过180个科学包及其依赖项 。
所有参考代码都在Jupyter notebook上编写,相关章节的内容会以.ipynb文件形式出现并上传

三 、参考用书

《Python3网络爬虫开发实战》 崔庆才 著

有关内容:
安装开发环境;学习爬虫之前需要了解的基础知识 ,如HTTP、爬虫、代理的基本原理 、网页基本结构等内容;最基本的爬虫操作 ,urllib、requests和正则表达式的基本用法;页解析库的基本用法,包括Beautiful Soup、XPath 、pyquery的基本使用方法;数据存储的常见形式及存储操作,包括TXT 、JSON、CSV各种文件的存储 ,以及关系型数据库MySQL和非关系型数据库MongoDB、Redis存储的基本存储操作;Ajax数据爬取;动态渲染页面的爬取;Selenium 、Splash等工具来实现模拟浏览器进行数据爬取的方法;验证码的相关处理方法,包括图形验证码、极验验证码、点触验证码 、微博宫格验证码的识别;代理的使用方法、代理池的维护方法,以及ADSL拨号代理的使用方法;模拟登录爬取 ,最基本的模拟登录方法以及维护一个Cookies池;App的爬取,如何使用Charles、mitmproxy抓包软件的使用。mitmdump对接Python脚本进行实时抓取的方法,以及使用Appium完全模拟手机App爬取的操作进行爬取;pyspider爬虫框架及用法;Scrapy爬虫框架及用法;分布式爬虫的基本原理及实现方法;分布式爬虫的部署及管理方法。

四 、安装

学习Python网络爬虫要有一定Python基础 ,本系列重点在网络爬虫,不讲述Python基础,需要学习Python基础的可以参考以下链接网站:

菜鸟教程:https://www.runoob.com/python3/python3-tutorial.html
中国大学MOOC:https://www.icourse163.org/course/BIT-268001

1.Python3的安装

如果你学过Python基础那么就一定安装了Python了吧!如果没有安装 ,可以参考相关链接:

下载地址:https://www.python.org/downloads

2.Anaconda的安装

Anaconda的官网下载地址:https://www.anaconda.com/products/individual#Downloads
如果下载速度过慢,可以使用清华大学镜像 。

3.请求库的安装

爬虫操作分为:抓取网页、分析页面和存储数据这几步。
在抓取页面的过程中,需要模拟浏览器向服务器发送请求 ,就会用到一些Python库来实现HTTP请求操作。

·requests的安装

requests属于第三方库 ,需要手动安装 。如果你使用的是Anaconda,在base环境下,已经为你集成了300多个库 ,所以不需要额外手动安装;如果你只装了Python,可以打开终端(命令行)输入以下指令:

pip install requests

4.解析库的安装

在抓取网页代码之后,下一步就是从网页中提取信息 。提取信息的方式有多种多样 ,可以使用正则表达式,但是写起来相对比较麻烦。Python有许多强大的解析库,比如lxml ,BeautifulSoup、pyquery等。此外,还提供了非常强大的解析方法,如XPath解析和CSS选择器解析等 ,利用这些库可以高效便捷的从网页中提取信息 。

(1)lxml的安装

lxml是Python的一个解析库,支持HTML和XML的解析,支持XPath解析方式 ,而且解析效率非常高。
安装指令:

pip install lxml

安装完成之后 ,在Python命令行下测试:

$ python3
>>> import lxml

如果没有报错,则证明库已经安装好了。

(2)Beautiful Soup的安装

Beautiful Soup是Python的一个HTML或XML的解析库,我们可以用它来方便地从网页中提取数据 。它拥有强大的API和多样的解析方式。
安装指令:

pip install beautifulsoup4 

安装完成之后 ,可以运行下面代码验证:

from bs4 import BeautifulSoup
soup = BeautifulSoup('<p>Hello</p>', 'lxml')
print(soup.p.string)

运行结果如下:
Hello
如果运行结果一致,则证明安装成功。

注意,这里我们虽然安装的是beautifulsoup4这个包 ,但是在引入的时候却是bs4.这是因为这个包源代码本身的库文件夹名称就是bs4,所以安装完之后,这个库文件夹就被移入到本机Python3的lib里 ,所以识别到的库文件名就叫bs4 。

(3)pyquery的安装

pyquery同样是一个强大的网页解析工具,它提供了和jQuery类似的语法来解析HTML文档,支持CSS选择器 ,使用非常方便。
安装指令:

pip install pyquery

验证安装

$python3
>>> import pyquery

对于Python网络爬虫需要的几个基本库就是这些了,等后面学的更深入了会用到一些别的库。

本文版权归qu快排seo www.sEoguRuBlog.com 所有,如有转发请注明来出,竞价开户托管,seo优化请联系QQ√61910465