找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 619|回复: 0

[转载] 搜索引擎工作基本原理分析

[复制链接]
发表于 2013-3-18 13:46:41 | 显示全部楼层 |阅读模式 来自 中国–四川–成都
  第一步:搜索引擎抓取互联网的网页。
  抓取网页的程序我们称之为“蜘蛛”,我们长说的“百度蜘蛛”、“google蜘蛛”就是指的百度、谷歌的爬取程序。搜索引擎蜘蛛会按照你的URL进行爬取。每当搜索蜘蛛爬取一个网页的时候他看到一个新的URL就会顺着这个URL爬下去。他会把爬取的内容返回到搜索引擎的索引数据库。
  蜘蛛的主要作用就是爬取,蜘蛛爬取的是网站程序的代码。
  第二步:程序爬取的内容返回到索引数据库。
  索引数据库对网页信息进行处理,(包括网页所在URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页的链接关系等)。
  网页分析之后, 会对网页进行评价。
  如果是网上重复度太多的内容,索引数据库则舍弃这个网页。
  每个被收录的网站都会在搜索引擎的索引数据库中有相应的储存,我们在可以直接看到的 就是百度快照。 搜索引擎是按照 他的索引数据库上的信息对网站进行排序的。
  索引数据库中 还包含每个网站的导入链接 导出链接等信息。
  第三步:索引数据库中排序
  当用户输入一个关键词或者是一句话的时候,搜索引擎首先分析这个词或者这句话 ,他会对用户输入的关键词进行分词,然后在索引数据库中 进行相应的关键词排序结果输出。
  我总结一般搜索引擎会把用户输入的关键词分为三种。
  1.少于三个字的关键词
  2.常用词,比如:名人、电影名、地名等。
  3.四个或者四个以上的普通组合关键词。
  其中前两种都不不需要进行分词。 只有第三种需要分词. 大概总结流程就是 抓取 --- 分析、存储 -- 排序输出 。

发帖求助前要善用【论坛搜索】功能,那里可能会有你要找的答案;

如何回报帮助你解决问题的坛友,好办法就是点击帖子下方的评分按钮给对方加【金币】不会扣除自己的积分,做一个热心并受欢迎的人!

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则 需要先绑定手机号

关闭

站长推荐上一条 /1 下一条

QQ|侵权投诉|广告报价|手机版|小黑屋|西部数码代理|飘仙建站论坛 ( 豫ICP备2022021143号-1 )

GMT+8, 2024-11-22 21:13 , Processed in 0.039745 second(s), 9 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表