浅谈搜索引擎蜘蛛人是如何抓取信息的

小*** · 发表于 2013-1-9 14:28:01

蜘蛛在我们的生活中很常见，但此蜘蛛非彼蜘蛛，今天我们要说的就是网络生活中的蜘蛛，也就是搜索引擎探测器。搜索引擎探测器有很多种学名，我们一般称之为spider(蜘蛛)、Crawler(爬行器)、robot（机器人）。这些形象的叫法恰到好处的描述了探测器的工作，就是部分昼夜的访问各个网站，并将网站的题目、图片、标签等内容抓取回来，然后按照搜索引擎的算法给它们指定索引。
Google 把它的探测器叫做Googlebot，百度就叫Baiduspider,Yahoo 称为Slurp，那么为什么各大搜索引擎都要开发这样一款探测器呢？简单购物网解释道，由于搜索引擎要知道网上的新鲜失误，那么就要有人出手整理，而网上事物数目巨大，如果利用人工的方式去收集，不管投入耗费多少的人力，这个工作任务也是不能完成的，所以搜索引擎的发明者就设计了这样的计算机程序，派探测器来执行这项任务。
网络蜘蛛通过网页的链接地址来寻找网页，从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站，那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。
当这些网页被搜索引擎探测器抓取到之后，由分析索引系统程序对收集回来的网页进行分析，提取相关网页信息（包括网页所在URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页的链接关系等），根据一定的相关度算法进行大量复杂计算，得到每一个网页针对页面文字中及超链中每一个关键词的相关度（或重要性），然后用这些相关信息建立网页索引数据库。
建立网页索引数据库后，当用户输入关键词搜索，由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好，所以只需按照现成的相关度数值排序，相关度越高，排名越靠前。最后，由检索器将搜索结果的链接地址和页面内容摘要等内容组织起来，返回给用户。
以上内容就是简单购物网针对搜索引擎探测器工作原理的介绍，希望这篇分享能帮助到大家。我们首先要了解这种搜索引擎蜘蛛要抓取的时候什么，对抓取内容的要求是什么，这样我们才能对症下手，做好每一步网站运营工作。

coc*** · 发表于 2013-1-9 15:38:54

谢谢楼主了，学习新的东西太难

		自动登录	找回密码
密码			立即注册

[杂谈] 浅谈搜索引擎蜘蛛人是如何抓取信息的

评分

浏览过的版块

站长推荐 /1