找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 4105|回复: 0

[分享] 如何判断伪装的百度蜘蛛?风火轮教你识别

[复制链接]
发表于 2013-4-5 09:37:41 | 显示全部楼层 |阅读模式 来自 中国–广东–广州
  很多人在查百度蜘蛛日记的时候,觉得带BAIDU字样的都是蜘蛛,其实也有很多是伪装的。
  作为一名SEOer总是习惯的查看空间主机的日志,分析爬虫爬过的网页,做好网站下一步的SEO的准备,有人问老林在查看蜘蛛爬行记录里,总会发现这2个百度蜘蛛(BaiDu Spider)IP中出现125.90.88.9**222.77.187.33,如图:
  通过IP查询地址查询,该IP是位于福建省福州市电信IP,而百度蜘蛛IP是位于北京的联通IP。
  还有一点就是该IP的抓取行为只抓取网站首页,经查询,这2个IP分别为站长工具的SEO信息查询功能和友情链接检测功能,2个功能都默认模拟百度蜘蛛程序抓取页面。
  SEO信息查询功能界面
  该工具域名“seo.chinaz.com”对应的IP为“125.90.88.96”,位于广东省茂名市。
  友情链接检测功能
  该工具域名“seo.chinaz.com”对应的IP为“222.77.187.33”,位于福建省福州市。大家可以反查证实,老林就不去截图了。
  百度蜘蛛IP(貌似百度官方给过,具体地址不记得了,但是老林记下来了)
  123.125.71.* Baiduspider/2.0(百度网页爬虫),也包括 Baiduspider-image(百度图片爬虫) ;61.135.186.* Baiduspider-cpro(百度联盟爬虫) 【最后一位是“*”代表IP段中的某一个IP。】
  老林在前面里说过关于SEO包含了什么,所以站长对搜索引擎爬虫(蜘蛛、Spider)数据对这些数据的分析,可以了解到搜索引擎是否爬过自己的网站,如果连爬都不爬,那何来收放(收录和放出页面)之说,更可以针对性分析搜索引擎的爬虫数据,有助于了解这些蜘蛛的爬行习惯,进一步改进网站。
  老林发现很多SEO人员或者新站长在网络上询问:
  (1)为什么百度蜘蛛(125.90.88.9**222.77.187.33)总是抓取的网站首页?
  (2)为什么百度蜘蛛(125.90.88.9**222.77.187.33)总是抓取而不是收录我的网站?
  (3)125.90.88.9**222.77.187.33这2个IP是不是百度蜘蛛的,怎么老是只爬首页?
  类似以上的问题在网络上很多,就不一一列举,但是这些假百度蜘蛛(BaiDu Spider)IP会影响SEO人员对搜索引擎蜘蛛程序行为分析的判断结果,从而可能会影响SEO决策,说重点可能会影响到站长的心情!
  还有一点就是,如果类似这些伪装百度蜘蛛的IP地址,抓取数量比较多,造成的影响则是耗尽自己的网站流量,大家就需要考虑是否在程序里或者robots.txt里设置屏蔽掉这些IP,避免各类的影响。

评分

参与人数 1金币 +50 收起 理由
天外飘仙 + 50 谢谢分享

查看全部评分

发帖求助前要善用【论坛搜索】功能,那里可能会有你要找的答案;

如何回报帮助你解决问题的坛友,好办法就是点击帖子下方的评分按钮给对方加【金币】不会扣除自己的积分,做一个热心并受欢迎的人!

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则 需要先绑定手机号

关闭

站长推荐上一条 /1 下一条

QQ|侵权投诉|广告报价|手机版|小黑屋|西部数码代理|飘仙建站论坛 ( 豫ICP备2022021143号-1 )

GMT+8, 2025-1-11 23:38 , Processed in 0.041773 second(s), 9 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表