搜索引擎抓取收录工作流程及原理分析

什么是搜索引擎蜘蛛?

搜索引擎蜘蛛是指搜索引擎公司所设立的一套自动抓取程序,简称蜘蛛人。

常见的蜘蛛有:百度蜘蛛(baiduspider) 谷歌(Gllgledot)

360蜘蛛(360spider) 搜狗蜘蛛(Sogou News Spider)等

搜索引擎抓取收录工作流程及原理分析

二、搜索引擎抓取收录工作流程

1、抓取 2、过滤 3、存放索引库 4、展示排序

抓取收录示意图

蜘蛛抓取——网站页面——存放临时索引库——排名情况(从索引库调取)

临时索引库并不是存放所有蜘蛛抓取的网站页面,它会根据蜘蛛抓取的页面质量进行筛选,过滤掉一些质量差的。再将好的页面。根据页面好坏质量进行排序。

三、搜索引擎抓取

蜘蛛spider顺着网页的超链接,在互联网中发现、收集网页信息

2、蜘蛛抓取规则

深度抓取(竖着抓取,先抓取完一个栏目的内容页,然再换个栏目以同样的方式抓取)

广度抓取(横着抓取,先抓取完每个栏目也,再抓取每个栏目页下面的内容页)

3 、抓取内容

链接 文字 图片 视频 JS CSS iframe蜘 蛛

4、影响抓取

链接:包含文字 参数过多 结构层次过多(3层最好) 链接过长

不识别内容

需要权限

网站打不开

四、处理网页(过滤)

为什么过滤:采集、内容价值过低 文不对题内容 没有丰富的内容

临时数据库:对蜘蛛抓取的内容,经过筛选后,将内容存放在一个临时的数据库调用。

五、展示排序

将存储索引库的内容,根据质量的高低进行排序,然后调用出来展现给用户。

1、检索器根据用户输入的查询关键词,在索引库中快速检索文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果展示出来反馈给用户。

2、当我们在搜索引擎看到的只是一结果,搜索根据各种算法进行排序,将质量最好的十个结果放在第一页

分享:/seoyouhua/

本文版权归趣营销www.SEOgUrublog.com 所有,如有转发请注明来出,竞价开户托管,seo优化请联系QQ卍61910465