查看更多标签

当前位置：首页 - 数据爬虫 - 文章正文学而时习之，不亦说乎

站长工具大全,网站收录推送,伪原创

爬虫第一课

2020-07-09 23:18:20LanceLee数据爬虫947

- N +

1.http:(1)当⽤户在详细地址输⼊了⽹址推送⽹络请求的全过程是啥

(2)http的请求⽅式

get请求

(1)⽐较方便快捷

缺陷:不安全:明⽂

主要参数的⻓度有限定

post请求

(1)⽐较安全性

(2)数据总体沒有限定

(3)提交⽂件

put(不彻底的)

delete(删掉

⼀

些信息)

head(请求头)

推送⽹络请求(必须带

⼀

定的数据给网络服务器没有数据还可以)

请求头⾥⾯requestheader

回到数据:response

(1)Accept:⽂本的文件格式

(2)Accept

-

Encoding:编码格式

(3)Connection:⻓连接短网址

(4)Cookie:认证⽤的

(5)Host:网站域名

(6)Referer:标示从哪一个⻚⾯自动跳转回来的

(7)User

-

Agent:电脑浏览器和⽤户的信息

2.

爬⾍⼊⻔:使⽤编码仿真模拟⽤户大批量的推送⽹络请求大批量的获得数据

(1)爬⾍的使用价值:

1.

交易数据(⾼端行业价钱非常贵)2.

数据剖析:出数据分析报告

3.

总流量

4.

指数值阿⾥指数值,搜索指数

(3)合理合法:灰⾊产业链

政府部门沒有法律法规爬⾍是违反规定的,都没有法律法规爬⾍是合理合法的

企业定义:企业给你爬数据库(盗取商业机密)义务在企业

(4)爬⾍能够爬取全部东⻄?(并不是)爬⾍只有爬取⽤户能浏览到的数据

爱奇艺视频的视频(vip⾮vip)

1.

一般⽤户只有看⾮vip 爬取⾮vip的的视频

2.vip 爬取vip的视频

3.

一般⽤户要想爬取vip视频(⿊客)

爬⾍的归类:(1)通⽤爬⾍

1.

使⽤百度搜索引擎:百度搜索⾕歌 360 雅⻁搜狗搜索

优点:开放式速度更快

缺点:⽬规不确立

回到內容:大部分�是⽤户不用的

不清楚⽤户的要求在哪儿⾥

(2)聚焦点爬⾍(学习培训)

1.

⽬标确立

2.

对⽤户的要求⾮常精确

3.

回到的內容很固定不动

增加量式:翻⻚:从第

⼀

⻚请求到最终

⼀

⻚

Deep 深层爬⾍:静态数据数据:html css

动态性数据:js代码,数据加密的js

robots:是不是容许别的爬⾍(通⽤爬⾍)爬取一些內容

聚焦点爬⾍不遵循robots

爬⾍和反扒做⽃争:資源对等获胜的始终是爬⾍

爬⾍的⼯作基本原理:

1.

缺⼈你爬取⽬标底url是哪

⼀

个(找)

2.

使⽤python编码推送请求获得数据(java Go)

3.

分析获得到的数据(精准数据)(1)寻找新的⽬标(url)返回第

⼀

步(⾃动化)

4.

数据持久化

python3(原⽣出示的控制模块):urlib.rquest:

(1)urlopen :

1.

回到response目标

2.response.read()

3.bytes.decode(

"

utf

-

8

"

)

(2)get:传参

1.

中国汉字出错 :编译器ascii沒有中国汉字,url中国汉字转换格式

(3)post

(4)handleCPU的⾃界定

(5)urlError

python(原⽣出示的):urlib2

接下去将的知识要点:

5.request(第三⽅)

6.

数据分析:xpath bs4

7.

数据储存

本文版权归趣快排www.sEoguruBlog.com 所有,如有转发请注明来出,竞价开户托管,seo优化请联系QQ✈61910465

相关文章分类热门分类热评最新文章

•selenium中关于鼠标下滑window.scrollTo方法知乎爬虫数据采集实例

•全平台短视频无水印解析源码（支持超30好几个平台）

•第一个django运用--简易的 hello world 项目

•Python WEB开发用Python开展web开发必须学习什么?

•Python用27行代码绘制一幅满天星

•Django模板

•pip安装难题：There was a problem confirming ssl certificate

•Python XLRDError: Excel xlsx file; not supported解决方法

•Django view视图

•Python详细介绍及使用(基础篇)

上一篇百度搜索行发户是什么意思？百度搜索行发合适推广哪些产品？

下一篇 python DataFrame pct_change()

发表评论已有 1 人评论

SEO优化/竞价信息流托管/百度360搜狗推广开户/网站定制开发/建设推广流程

SEO优化/竞价信息流托管/百度360搜狗推广开户/网站定制开发/建设推广流程