找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 828|回复: 0

[杂谈] 蜘蛛爬取过程与结果你清楚么

[复制链接]
发表于 2012-8-31 18:03:32 | 显示全部楼层 |阅读模式 来自 中国–广东–深圳
  搜索引擎Spider一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反 映出网页文字的更新情况,增加新的网页信息,去除死链接,并根据网页文字和链接关系的变化重新排序。这样,网页的具体文字变化情况就会反映到用户查询的结果中。

  互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排序算法也各不相同。大型搜索引擎的数据库储存了互联网上几千万至几十亿的网页索引,数据量达到几千 G 甚至几万 G。但即使最大的搜索引擎建立超过 20 亿网页的索引数据库,也占不到互联网上普通网页的30%,不同搜索引擎之间的网页数据重叠率一般在 70%以下。

  人们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的网页。而互联网上有更大量的网页,是搜索引擎无法抓取索引的,也是无法用搜索引擎搜索到的。

  使用超链分析的搜索引擎未能收录的网页有:Spider 未能正确处理的网页性质及文件类型(如 Flash、script、JS,某些动态网页及 Frame、数据库);没有主动登录搜索引擎而且没有指向链接的孤岛网页;Spider 访问时因为某些原因正好是死链接的网页;被认为是劣质网页而不抓;因为色情、**、spam 等问题而不抓的非法网页;需要输入用户名、密码方可打开的网页;网站用 robots 协议拒绝搜索引擎抓取的网页;搜索引擎还未来得及抓取的新网页;go-pher、newsgroups、Telnet、np、wais 等非 http 信息的网页。

  任何地址中带“?”和“&”号(及其他类似符号)的网页都会被“蜘蛛”程序挡在门外。 这些网页通常由 CGL、PHP、ASP 等程序产生,技术上较先进,但不适合搜索引擎的“蜘蛛”程序。虽然目前有的大型搜索引擎(如 Google)已具备检索动态网页的能力,但相当 一部分引擎还是不支持它的。而且即使是能够索引动态网页的 Google,也在多个场合中明确表示不保证检索全部的动态网页。
友情:深圳花店  http://www.szdinghua.com/  游子礼品网  http://www.youzigifts.com/

发帖求助前要善用【论坛搜索】功能,那里可能会有你要找的答案;

如何回报帮助你解决问题的坛友,好办法就是点击帖子下方的评分按钮给对方加【金币】不会扣除自己的积分,做一个热心并受欢迎的人!

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则 需要先绑定手机号

关闭

站长推荐上一条 /1 下一条

QQ|侵权投诉|广告报价|手机版|小黑屋|西部数码代理|飘仙建站论坛 ( 豫ICP备2022021143号-1 )

GMT+8, 2025-1-22 19:32 , Processed in 0.049410 second(s), 9 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表