找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 691|回复: 1

[杂谈] 告诉你搜索引擎如何抓取和排名

[复制链接]
发表于 2012-9-11 11:25:01 | 显示全部楼层 |阅读模式 来自 中国–河北–邯郸
欲知大道先学史,SEO博客在百度蜘蛛工作原理|百度收录原理一文中简单介绍了搜索引擎收录原理,今天SEO博客就一些细节问题对搜索引擎工作抓取排名原理进行说明。
搜索引擎通过抓取程序设定抓取任务,工作后带回抓取URL队列,根据一系列算法进行先后顺序排列。然后进行解析URL,如果解析成功就进入网站服务器,不成功则返回到待抓取URL队列。SEO博客提示:搜索引擎是通过IP访问服务器。推荐文章:搜索引擎算法|搜索引擎排名四大要素。
搜索引擎抓取程序进入服务器后,首先判断网站是否存在robots.txt文件,如果不存在,则返回404错误代码并且自由抓取;如果存在,则按相应规则抓取。
搜索引擎抓取程序判断通过判断URL是否有效,如果无效则返回待抓取URL队列,有效则按照设定的任务抓取;
搜索引擎抓取程序判断是否符合网页是否符合收录标准,提取内容和链接进行任务交接,把内容交给数据分析系统;提取URL把新链接加到待抓取URL集合。推荐文章:搜索引擎原理减少网站内容重复。
主流搜索引擎常见的抓取方式有两种:深度优先抓取和广度优先抓取。
深度优先抓取:沿着一条链接爬行,到链接的尽头,在回到起点,选择第二条链接,再爬行到尽头;
示例:
A→A1→A2→A3→A4……
B→B1→B2→B3→B4……
C→C1→C2→C3→C4……
好处:蜘蛛程序设计简单容易实现。
广度优先抓取:先把网页的链接全部爬行,然后再从每一条链接爬行。
示例:
A→B→C→D→E……
A1→B1→C1→D1→E1……
A2→B2→C2→D2→E2……
好处:搜索引擎爬虫程序可以并行处理,提高抓取效率。
SEO博客总结:蜘蛛一般对高权重的网站会进行深层次的抓取访问,普通的网站一般爬行不超过三层,所以就提醒网站建设URL规划要做扁平化的网站结构。推荐阅读:网站优化=SEO策略+网站结构+网站内容+网站链接+用户体验。搜索引擎机器人程序是通过网页之间的链接部分昼夜地爬行来抓取信息;搜索引擎进入服务器时候,第一时间查看robots.txt文件,如果robots.txt文件不存在,则返回404错误代码,但依然会继续爬行,如果定义了规则,则遵守索引。SEO博客建议网站必须有一个robots.txt文件。

发帖求助前要善用【论坛搜索】功能,那里可能会有你要找的答案;

如何回报帮助你解决问题的坛友,好办法就是点击帖子下方的评分按钮给对方加【金币】不会扣除自己的积分,做一个热心并受欢迎的人!

发表于 2012-9-11 11:47:23 | 显示全部楼层 来自 中国–河北–廊坊
经典 值得学习

发帖求助前要善用【论坛搜索】功能,那里可能会有你要找的答案;

如何回报帮助你解决问题的坛友,好办法就是点击帖子下方的评分按钮给对方加【金币】不会扣除自己的积分,做一个热心并受欢迎的人!

回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则 需要先绑定手机号

关闭

站长推荐上一条 /1 下一条

QQ|侵权投诉|广告报价|手机版|小黑屋|西部数码代理|飘仙建站论坛 ( 豫ICP备2022021143号-1 )

GMT+8, 2024-11-27 13:23 , Processed in 0.041577 second(s), 10 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表