找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 721|回复: 0

[软文] 搜索引擎两种爬行规律

[复制链接]
发表于 2012-7-26 16:09:19 | 显示全部楼层 |阅读模式 来自 中国–河南–安阳
搜索引擎两种爬行规律
  蜘蛛爬行页面都是按照怎样规律爬行的呢?今天本篇文章北京网站建设对搜索引擎蜘蛛爬行页面规律跟大家简单分享一下,蜘蛛一般在访问完robots.txt文件之后就会进行网站进行爬行搜索,搜所到对自己有用的或是新鲜的内容就会提取出来内容和链接,然后把这些网页数据提交给我自己的数据分析系统,那么他们爬行规律是什么样的呢,由于由于互联网上的页面链接结构异常复杂,蜘蛛需要采用一定的策略才能爬行到网上的所有页面。最简单的搜索引擎抓取策略有两种:
1、广度优先策略:这个就是搜索引擎把一个页面所有的链接都爬行一遍,然后进入下个链接页面再进行同样的工作,即A页面链接这B、C、D页面,然后B页面链接着B1、B2、B3页面,搜索引擎都会一个不漏的爬行到并抓取自己有用的信息。
  其实这两种爬行策略是同时进行的,这样就能够保证搜索引擎蜘蛛能够爬完所有的页面,但是蜘蛛爬行是有时间限制的,虽然理论上说只要有足够的时间蜘蛛绝对会把所有能够链接到的页面都爬完,但是有了时间限制的因素,所以一般来说权重越高的站蜘蛛爬行的时间就越长。
   蜘蛛爬行的目的就是搜所到自己有用页面内容信息并收录,所以北京网站建设建议大家新站一定要不把网站做的链接层次过深,重要的内容及时更新的新鲜内容要放到网站首页或是三个点击就能出现的页面上,以免蜘蛛爬行不到新内容就被收录不到了。
2、深度优先策略:像搜索引擎有时候一定程度上就是一个缺心眼的孩子,只会认准一条路走到黑,哈哈,这样说搜索引擎不会一不高兴给我的站使点坏吧,其实简单来说就是搜索引擎沿着一条路线垂直深入的爬行下去,直至把所有页面内容都抓取到。

评分

参与人数 1金币 -35 收起 理由
天外飘仙 -35 非探讨性质

查看全部评分

发帖求助前要善用【论坛搜索】功能,那里可能会有你要找的答案;

如何回报帮助你解决问题的坛友,好办法就是点击帖子下方的评分按钮给对方加【金币】不会扣除自己的积分,做一个热心并受欢迎的人!

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则 需要先绑定手机号

关闭

站长推荐上一条 /1 下一条

QQ|侵权投诉|广告报价|手机版|小黑屋|西部数码代理|飘仙建站论坛 ( 豫ICP备2022021143号-1 )

GMT+8, 2024-11-28 00:21 , Processed in 0.048114 second(s), 15 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表