有哪些比较重要的页面因素呢

有点*** · 发表于 2013-3-29 10:52:54

在实际工作中，蜘蛛的带宽资源、时间都不是无限的，也不可能爬完所有页面。实际上最大的搜索引擎也只是爬行和收录了互联网的一小部分。
   深度优先和广度优先通常是混合使用的，这样既可以照顾到尽量多的网站（广度优先），也能照顾到一部分网站的内页（深度优先）。
   吸引蜘蛛由此可见，虽然理论上蜘蛛能爬行和抓取所有页面，但实际上不能也不会这么做。SEO人员要想自己的更多页面被收录，就要想方设法吸引蜘蛛来抓取。既然不能抓取所有页面，蜘蛛所要做的就是尽量抓取重要页面。哪些页面被认为比较重要呢？有几方面影响因素：
   网站和页面权重。质量高、资格老的网站被认为权重比较高，这种网站上的页面被爬行的深度也会比较高，所以会有更多内页被收录。
   页面更新度。蜘蛛每次爬行都会把页面数据存储起来。如果第二次爬行发现页面与第一次收录的完全一样，说明页面没有更新，蜘蛛也就没有必要经常抓取。如果页面内容经常更新，蜘蛛就会更加频繁地访问这种页面，页面上出现的新链接，也自然会被蜘蛛更快跟踪，抓取新页面。
   导入链接。无论是外部链接还是同一个网站的内部链接，要被蜘蛛抓取就必须有导入链接进入页面，否则蜘蛛根本没有机会知道页面的存在。高质量的导入链接也经常使页面上的导出链接被爬行深度增加。
   与首页点击距离。一般来说网站上权重最高的是首页，大部分外部链接是指向首页，蜘蛛访问最频繁的也是首页。离首页点击距离越近，页面权重越高，被蜘蛛爬行的机会也越大。
   地址库为了避免重复爬行和抓取网址，搜索引擎会建立一个地址库，记录已经被发现还没有抓取的页面，以及已经被抓取的页面。
   地址库中的URL有几个来源。
   1. 一是人工录入的种子网站。
   2. 二是蜘蛛抓取页面后，从HTML中解析出新的链接URL，与地址库中的数据对比，如果是地址库中没有的网址，就存入待访问地址库。
   3. 三是站长通过搜索引擎网页提交表格提交进来的网址。蜘蛛按重要性从待访问地址库中提取URL，访问并抓取页面，然后把这个URL从待访问地址库中删除，放进已访问地址库中。

		自动登录	找回密码
密码			立即注册

[杂谈] 有哪些比较重要的页面因素呢

浏览过的版块

站长推荐 /1