搜索引擎两种爬行规律

121*** · 发表于 2012-7-26 16:09:19

搜索引擎两种爬行规律
蜘蛛爬行页面都是按照怎样规律爬行的呢？今天本篇文章北京网站建设对搜索引擎蜘蛛爬行页面规律跟大家简单分享一下，蜘蛛一般在访问完robots.txt文件之后就会进行网站进行爬行搜索，搜所到对自己有用的或是新鲜的内容就会提取出来内容和链接，然后把这些网页数据提交给我自己的数据分析系统，那么他们爬行规律是什么样的呢，由于由于互联网上的页面链接结构异常复杂，蜘蛛需要采用一定的策略才能爬行到网上的所有页面。最简单的搜索引擎抓取策略有两种：
1、广度优先策略：这个就是搜索引擎把一个页面所有的链接都爬行一遍，然后进入下个链接页面再进行同样的工作，即A页面链接这B、C、D页面，然后B页面链接着B1、B2、B3页面，搜索引擎都会一个不漏的爬行到并抓取自己有用的信息。
其实这两种爬行策略是同时进行的，这样就能够保证搜索引擎蜘蛛能够爬完所有的页面，但是蜘蛛爬行是有时间限制的，虽然理论上说只要有足够的时间蜘蛛绝对会把所有能够链接到的页面都爬完，但是有了时间限制的因素，所以一般来说权重越高的站蜘蛛爬行的时间就越长。
蜘蛛爬行的目的就是搜所到自己有用页面内容信息并收录，所以北京网站建设建议大家新站一定要不把网站做的链接层次过深，重要的内容及时更新的新鲜内容要放到网站首页或是三个点击就能出现的页面上，以免蜘蛛爬行不到新内容就被收录不到了。
2、深度优先策略：像搜索引擎有时候一定程度上就是一个缺心眼的孩子，只会认准一条路走到黑，哈哈，这样说搜索引擎不会一不高兴给我的站使点坏吧，其实简单来说就是搜索引擎沿着一条路线垂直深入的爬行下去，直至把所有页面内容都抓取到。

		自动登录	找回密码
密码			立即注册

[软文] 搜索引擎两种爬行规律

评分

站长推荐 /1