|
发表于 2012-10-8 10:02:17
|
显示全部楼层
|阅读模式
来自 中国–上海–上海–闵行区
对于一个新站来说,从网站上线和提交到百度后到什么时候收录,是每个站长日日夜夜关注的问题。特别是新站长,当网站正式提交到百度后,每一天至少两次查询百度对自己的新站收录情况,甚至连做梦都想着百度。但是这样的期盼往往让很多新站长失落,因为普遍的所谓真正收录实在是太漫长了。三天不收录我可以等到第六天,第六天还不收录我可以等多一个第六天。然而二六等于十二再加三就是十五,足足的半个月时间还没收录!呵呵,这个时候难道你不感到失落吗?
当你等到第十五天的时候我可以很明确的告诉你,其实你的网站早就被百度收录了,也许是在你提交的第二天或者第三天就被百度收录了。呵呵,这话听起来是不是感觉有点假?别说听起来有点假,看起来都有点假。既然说早就收录了,那为什么我在百度搜索里连影子都看不到呢?
推荐阅读:http://www.gzhenglin.com/ http://www.gzhenglin.com/jk/jkys/
这个就是百度的独特之处,也是百度为什么能在谷歌与雅虎的强烈竞争中稳坐老大之席的因素之一。谷歌的收录原则是来者不拒,只要能找到的,短时间内就能在谷歌的搜索引擎中出现。
而百度则是先大量的对你网站进行索引,这个索引工具俗称“百度蜘蛛”,在IIS日志中名称为“BaiduSpider”。当你把网址提交到百度后,“百度蜘蛛”就会在网络低潮时刻来访你的站点,大概是一天索引50条信息左右。IIS日志中可以查看到“BaiduSpider”的访问痕迹,其中主要的有cs-uri-stem(URI资源)、cs(User-Agent)、sc-status(协议状态)。cs-uri-stem(URI资源)记录被访问的文件名称及路径。cs(User-Agent)对应一栏中则可以看到来访者相关信息,如果是“百度蜘蛛”则显示有“BaiduSpider”字样。sc-status(协议状态)记录着的数据主要有三个:200(成功访问)、304(已索引或未更新)、404(访问失败)。当你的网站的某条数据有被“百度蜘蛛”访问过,并且sc-status(协议状态)显示的数字为200(成功访问),那么你的这条信息就已经成功的被收录了。如果sc-status(协议状态)显示的数字为304(已索引或未更新),就表示这条数据已经存在了。如果是404(访问失败)就说明蜘蛛无法成功访问这条信息,这样你就应该检查一下路径了。
好,现在我简单的给大家说一下百度的收录程序:蜘蛛来访索引——蜘蛛携带已访问到的数据返回——百度服务器判断数据并且返回信息——数据入库。
当数据成功入库之后就表明已经成功收录了,但为什么在百度的搜索引擎里找不到呢?因为百度收录了你的数据后不会马上就给你放出来,要经过一系列的审核过程,当审核通过了才能在搜索引擎中出现。
说到这里也许有朋友会问?百度的审核过程也太漫长了吧?我的一个新站近一个月后才出现在百度搜索引擎中,有的甚至要两个月。据我理解,当你的网站所有数据被百度收录到有70%左右的时候百度才开始审核你的数据。以一天收50条数据量来计算,1000条数据若要等收录到700条左右才开始审核,那么也要近半个月的时间。所以这就是为什么有些网站需要一个月,有些网站需要两个月了。
以前有很多朋友问过我这样一个问题:比如我是这个月1号提交网址到百度,等到20号的时候百度的搜索引擎中出现了我的网站索引。但是百度快照旁边显示的时间是3号的,这是为什么呢?
其实当你了解了百度的收录过程后就不难理解这个问题了,百度快照旁边显示的时间正是这条信息的收录或者更新时间,刚才已经讲过,只要蜘蛛成功访问到的信息就是已经收录了。而搜索引擎中显示的时间就是这条信息从蜘蛛索引到入库的时间。
|
评分
-
查看全部评分
|