|
搜索引擎Spider一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反 映出网页文字的更新情况,增加新的网页信息,去除死链接,并根据网页文字和链接关系的变化重新排序。这样,网页的具体文字变化情况就会反映到用户查询的结果中。
互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排序算法也各不相同。大型搜索引擎的数据库储存了互联网上几千万至几十亿的网页索引,数据量达到几千 G 甚至几万 G。但即使最大的搜索引擎建立超过 20 亿网页的索引数据库,也占不到互联网上普通网页的30%,不同搜索引擎之间的网页数据重叠率一般在 70%以下。
人们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的网页。而互联网上有更大量的网页,是搜索引擎无法抓取索引的,也是无法用搜索引擎搜索到的。
使用超链分析的搜索引擎未能收录的网页有:Spider 未能正确处理的网页性质及文件类型(如 Flash、script、JS,某些动态网页及 Frame、数据库);没有主动登录搜索引擎而且没有指向链接的孤岛网页;Spider 访问时因为某些原因正好是死链接的网页;被认为是劣质网页而不抓;因为色情、**、spam 等问题而不抓的非法网页;需要输入用户名、密码方可打开的网页;网站用 robots 协议拒绝搜索引擎抓取的网页;搜索引擎还未来得及抓取的新网页;go-pher、newsgroups、Telnet、np、wais 等非 http 信息的网页。
任何地址中带“?”和“&”号(及其他类似符号)的网页都会被“蜘蛛”程序挡在门外。 这些网页通常由 CGL、PHP、ASP 等程序产生,技术上较先进,但不适合搜索引擎的“蜘蛛”程序。虽然目前有的大型搜索引擎(如 Google)已具备检索动态网页的能力,但相当 一部分引擎还是不支持它的。而且即使是能够索引动态网页的 Google,也在多个场合中明确表示不保证检索全部的动态网页。
友情:深圳花店 http://www.szdinghua.com/ 游子礼品网 http://www.youzigifts.com/
|
|