MESSAGE在线留言
热线电话:
15659176979
首页
关于我们
福州网站建设资讯
福州seo资讯
在线留言
联系我们
seo

seo教程

当前位置:福州网站建设 > seo > seo教程 >

大唐传易了解不一样的搜索引擎蜘蛛

发布时间:2018-01-13
     首先我们要明白搜索引擎的基本工作原理:首先,在互联网中发现、搜集网页信息,同时对信息进行提取并组织建立索引库;其次,由检索器根据网络用户输入的关键词字,再由检索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。
   为什么本文说带你们来认知不一样的
搜索引擎蜘蛛呢?因为可能大家都存在对蜘蛛的有种深入的误解。
    蜘蛛也就是大家所说的爬虫或者机器人,是处于整个搜索引擎最上游的一个模块,用来爬行和访问网站页面的程序。只有蜘蛛抓回来的页面或者url才能被索引和参与排名。
    而人们对于蜘蛛的误区集中在“降权蜘蛛”由于蜘蛛抓取的网页太多,如果只有一只蜘蛛进行抓取作业,需要的计算量太大,同时也会耗费太大的时间。所以搜索引擎引进了分布式计算的概念,把庞大的抓取作业分割成多个部分,使用合理计算的服务器承载这一任务,完成对网页的快速抓取。现在大型搜索引擎都使用分布式计算技术,同样,蜘蛛也会进行分布式计算,这种蜘蛛就是分布式蜘蛛,它遵循分布式计算的主要规则,根据这些规则也就可以理解“降权蜘蛛”的工作方式。
    整个分布式蜘蛛系统要保证所有的蜘蛛不能重复抓取,就要使每个蜘蛛都有自己的抓取的范围,抓取制定类型的网页,而常规网页一般按照质量等级分为优秀站点、普通站点、垃圾站点、降权站点和屏蔽站点等。
   按照这种分类方式,会出现某一ip段的蜘蛛只会抓取权重高的网站,某一ip段的蜘蛛只会抓取已经降权的网站,这就是“降权蜘蛛”,不过并不是因为这只蜘蛛使得网站降权,而是因为网站已经被百度降权,这只所谓的“降权蜘蛛”才会出现。如果百度真的使用这种分布方式,那么对于百度蜘蛛ip段特性的总结就是很有价值的,u过还是不能非常肯定,因为百度分配任务的方式不可能只有这一种。由于搜索引擎对网站及网页的分类有很多个维度,每次抓取都可能会使用不同的维度,多个维度的出现,导致了问题的不确定性。
   影响蜘蛛爬行网站最主要的一种因素是网站权重,页面更新频率,导入链接,与首页的点击距离,你想你的网站与蜘蛛有更频繁的互动,完善这四大主要的,你的站点会有不一样的提升。