|
大站优先策略,这个思路很简单。被搜索引擎认定为“大站”的网站,定有着稳定的服务器、良好的网站结构、优秀的用户体验、及时的资讯内容、权威的相关资料、丰富的内容类型和庞大的网页数量等特征,当然也会相应地拥有大量高质量的外链。也是在定程度上可以认定这些网站的内容可以满足相当比例网民的搜索请求,搜索引擎为了在有限的资源内尽大的努力满足大部分普通用户的搜索需求,般会对大站进行“特殊照顾”。因此大家可以看到新浪、网易类网站上自主发布的内容儿乎都会被百度秒收,因为百度搜索的Spider 在这些网站上是7X24 小时不间断抓取的。如果有新站的链接出现在这些网站的重要页面上,也会相应地被快速抓取和收录。
[color=var(--theme-color)]
这两个策略与前面所讨论的广度优先策略和深度优先策略相结合的抓取方式是有共通点的。比如,从另个角度来看,如果Spider 按照前两个策略抓取,个页面获得的导入链接越多,被提前抓到的几率越大,也是和重要页面优先抓取是趋同的; 在Spider 资源有限的情况下广度优先策略和深度优先策略的结合分配本身会以站点的大小进行区别对待,大网站的页面有着先天的高重要程度,往往也容易获得更多的链接支持。所以宏观来看,这几个策略在抓取表现上有相近之处,在实际的抓取过程中相辅相成。
相对于整个互联网的网页来说,Spider的资源再充足也是有限的,所以优秀的Spider程序应该首先保证对重要网页的抓取,然后才是尽力抓取尽可能全的互联网网页信息。由此也可以看出依靠外部链接来引导Spider和提升网站权重,以及依靠内容长期运营网站权重的重要性。
本文地址:https://www.zscntv.cn/492208.html
|
|