什么是搜索引擎蜘蛛?
搜索引擎蜘蛛是指搜索引擎公司所设立的一套自动抓取程序,简称蜘蛛人 。
常见的蜘蛛有:百度蜘蛛(baiduspider) 谷歌(Gllgledot)
360蜘蛛(360spider) 搜狗蜘蛛(Sogou News Spider)等
二、搜索引擎抓取收录工作流程
1 、抓取 2、过滤 3、存放索引库 4 、展示排序
抓取收录示意图
蜘蛛抓取——网站页面——存放临时索引库——排名情况(从索引库调取)
临时索引库并不是存放所有蜘蛛抓取的网站页面 ,它会根据蜘蛛抓取的页面质量进行筛选,过滤掉一些质量差的。再将好的页面。根据页面好坏质量进行排序 。
三、搜索引擎抓取
蜘蛛spider顺着网页的超链接,在互联网中发现、收集网页信息
2 、蜘蛛抓取规则
深度抓取(竖着抓取 ,先抓取完一个栏目的内容页,然再换个栏目以同样的方式抓取)
广度抓取(横着抓取,先抓取完每个栏目也 ,再抓取每个栏目页下面的内容页)
3 、抓取内容
链接 文字 图片 视频 JS CSS iframe蜘 蛛
4、影响抓取
链接:包含文字 参数过多 结构层次过多(3层最好) 链接过长
不识别内容
需要权限
网站打不开
四、处理网页(过滤)
为什么过滤:采集 、内容价值过低 文不对题内容 没有丰富的内容
临时数据库:对蜘蛛抓取的内容 ,经过筛选后,将内容存放在一个临时的数据库调用。
五、展示排序
将存储索引库的内容,根据质量的高低进行排序 ,然后调用出来展现给用户。
1、检索器根据用户输入的查询关键词,在索引库中快速检索文档,进行文档与查询的相关度评价 ,对将要输出的结果进行排序,并将查询结果展示出来反馈给用户 。
2 、当我们在搜索引擎看到的只是一结果,搜索根据各种算法进行排序 ,将质量最好的十个结果放在第一页
分享:http://xhltp.com/seoyouhua/336.html
本文版权归趣快排营销www.SEOguruBLOG.com 所有,如有转发请注明来出,竞价开户托管,seo优化请联系QQ㊣61910465