蜘蛛爬取过程与结果你清楚么

外推__*** · 发表于 2012-8-31 18:03:32

　　搜索引擎Spider一般要定期重新访问所有网页（各搜索引擎的周期不同，可能是几天、几周或几月，也可能对不同重要性的网页有不同的更新频率），更新网页索引数据库，以反映出网页文字的更新情况，增加新的网页信息，去除死链接，并根据网页文字和链接关系的变化重新排序。这样，网页的具体文字变化情况就会反映到用户查询的结果中。

　　互联网虽然只有一个，但各搜索引擎的能力和偏好不同，所以抓取的网页各不相同，排序算法也各不相同。大型搜索引擎的数据库储存了互联网上几千万至几十亿的网页索引，数据量达到几千 G 甚至几万 G。但即使最大的搜索引擎建立超过 20 亿网页的索引数据库，也占不到互联网上普通网页的30％，不同搜索引擎之间的网页数据重叠率一般在 70％以下。

　　人们使用不同搜索引擎的重要原因，就是因为它们能分别搜索到不同的网页。而互联网上有更大量的网页，是搜索引擎无法抓取索引的，也是无法用搜索引擎搜索到的。

　　使用超链分析的搜索引擎未能收录的网页有：Spider 未能正确处理的网页性质及文件类型（如 Flash、script、JS，某些动态网页及 Frame、数据库）；没有主动登录搜索引擎而且没有指向链接的孤岛网页；Spider 访问时因为某些原因正好是死链接的网页；被认为是劣质网页而不抓；因为色情、**、spam 等问题而不抓的非法网页；需要输入用户名、密码方可打开的网页；网站用 robots 协议拒绝搜索引擎抓取的网页；搜索引擎还未来得及抓取的新网页；go-pher、newsgroups、Telnet、np、wais 等非 http 信息的网页。

　　任何地址中带“?”和“&”号（及其他类似符号）的网页都会被“蜘蛛”程序挡在门外。这些网页通常由 CGL、PHP、ASP 等程序产生，技术上较先进，但不适合搜索引擎的“蜘蛛”程序。虽然目前有的大型搜索引擎（如 Google）已具备检索动态网页的能力，但相当一部分引擎还是不支持它的。而且即使是能够索引动态网页的 Google，也在多个场合中明确表示不保证检索全部的动态网页。
友情：深圳花店 http://www.szdinghua.com/ 游子礼品网 http://www.youzigifts.com/

		自动登录	找回密码
密码			立即注册

[杂谈] 蜘蛛爬取过程与结果你清楚么

浏览过的版块

站长推荐 /1