欲知大道先学史,SEO博客在百度蜘蛛工作原理|百度收录原理一文中简单介绍了搜索引擎收录原理,今天SEO博客就一些细节问题对搜索引擎工作抓取排名原理进行说明。 搜索引擎通过抓取程序设定抓取任务,工作后带回抓取URL队列,根据一系列算法进行先后顺序排列。然后进行解析URL,如果解析成功就进入网站服务器,不成功则返回到待抓取URL队列。SEO博客提示:搜索引擎是通过IP访问服务器。推荐文章:搜索引擎算法|搜索引擎排名四大要素。 搜索引擎抓取程序进入服务器后,首先判断网站是否存在robots.txt文件,如果不存在,则返回404错误代码并且自由抓取;如果存在,则按相应规则抓取。 搜索引擎抓取程序判断通过判断URL是否有效,如果无效则返回待抓取URL队列,有效则按照设定的任务抓取; 搜索引擎抓取程序判断是否符合网页是否符合收录标准,提取内容和链接进行任务交接,把内容交给数据分析系统;提取URL把新链接加到待抓取URL集合。推荐文章:搜索引擎原理减少网站内容重复。 主流搜索引擎常见的抓取方式有两种:深度优先抓取和广度优先抓取。 深度优先抓取:沿着一条链接爬行,到链接的尽头,在回到起点,选择第二条链接,再爬行到尽头; 示例: A→A1→A2→A3→A4…… B→B1→B2→B3→B4…… C→C1→C2→C3→C4…… 好处:蜘蛛程序设计简单容易实现。 广度优先抓取:先把网页的链接全部爬行,然后再从每一条链接爬行。 示例: A→B→C→D→E…… A1→B1→C1→D1→E1…… A2→B2→C2→D2→E2…… 好处:搜索引擎爬虫程序可以并行处理,提高抓取效率。 SEO博客总结:蜘蛛一般对高权重的网站会进行深层次的抓取访问,普通的网站一般爬行不超过三层,所以就提醒网站建设URL规划要做扁平化的网站结构。推荐阅读:网站优化=SEO策略+网站结构+网站内容+网站链接+用户体验。搜索引擎机器人程序是通过网页之间的链接部分昼夜地爬行来抓取信息;搜索引擎进入服务器时候,第一时间查看robots.txt文件,如果robots.txt文件不存在,则返回404错误代码,但依然会继续爬行,如果定义了规则,则遵守索引。SEO博客建议网站必须有一个robots.txt文件。
|