找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 2835|回复: 2

[分享] 百度蜘蛛的抓取对流量一般会有哪些影响

[复制链接]
发表于 2012-3-31 15:56:33 | 显示全部楼层 |阅读模式 来自 中国–北京–北京
百度蜘蛛的抓取对流量一般会有哪些影响?首先要说明,百度蜘蛛抓取一般分为两种情况。自身系统问题、外界站长问题。这里主要是和各位站长的交流,所以着重说下“外界站长问题”导致的抓取失败,并且影响到站点从百度获得的流量问题。

目前百度spider 系统中能够统计到的失败分为几种:

1,   UA/IP封禁

对于百度的ua 或者IP 进行封禁,会导致百度不能成功抓取您的站点,从而不能成功抓取新网页,以及将之前已经抓到的页面判定为死链,并会进行清理,这样最终导致站点获得的流量减少。此外,还会有一些冒充百度spider的抓取和采集,可以使用DNS反查方式来确定抓取来源的ip是否属于百度,防止误封禁。

2,   压力过大的偶然封禁

首先,我们会根据站点的规模,访问量等信息,建立一个合理的站点抓取压力。但是会有一些例外,在压力控制不好的情况下,服务器会根据自身负荷进行保护性的偶然封禁,对于这样的情况,如果压力过大,请在返回码中尽量不要使用404,建议返回503(其含义是“Service Unavailable”)。这样百度spider会过段时间再来尝试抓取这个链接,如果那个时间站点空闲,那它就会被成功抓取了。

3,   站点服务不稳定&更换服务

尽量的保证您的网站稳定,如果需要暂时换服务,需要暂时让旧服务能够使用一段时间,并且做301 跳转,尽量减少改版带来的流量损失。虽然百度spider现在对301跳转的响应周期较长,但我们还是推荐大家这么做。

除了以上介绍的典型封禁,还有一些其他非典型的,比如:refer、ua作弊、js等,这些封禁都会导致百度失败,从而把已经抓到的页面进行删除,或者不能成功抓取新页面,这样会直接影响到网站的流量。

最后,希望站长尽量保持站点的稳定,对于暂时不想被百度抓取的页面,使用正确的返回码告知百度,如果确实不想被百度抓取或者索引,可以写robots信息告知。

希望站长们一定要注意以上几种方式,做的精通,做的细致,你的站永远在最前面。

发帖求助前要善用【论坛搜索】功能,那里可能会有你要找的答案;

如何回报帮助你解决问题的坛友,好办法就是点击帖子下方的评分按钮给对方加【金币】不会扣除自己的积分,做一个热心并受欢迎的人!

发表于 2012-3-31 17:38:57 | 显示全部楼层 来自 中国–广东–深圳
一般小型网站没有这么大的影响的

发帖求助前要善用【论坛搜索】功能,那里可能会有你要找的答案;

如何回报帮助你解决问题的坛友,好办法就是点击帖子下方的评分按钮给对方加【金币】不会扣除自己的积分,做一个热心并受欢迎的人!

回复 支持 反对

使用道具 举报

发表于 2012-4-3 09:48:11 | 显示全部楼层 来自 中国–广东–惠州
顶!!!!!!!

发帖求助前要善用【论坛搜索】功能,那里可能会有你要找的答案;

如何回报帮助你解决问题的坛友,好办法就是点击帖子下方的评分按钮给对方加【金币】不会扣除自己的积分,做一个热心并受欢迎的人!

回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则 需要先绑定手机号

关闭

站长推荐上一条 /1 下一条

QQ|侵权投诉|广告报价|手机版|小黑屋|西部数码代理|飘仙建站论坛 ( 豫ICP备2022021143号-1 )

GMT+8, 2024-11-24 03:17 , Processed in 0.047691 second(s), 9 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表