找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 1117|回复: 1

[杂谈] 如何屏蔽假搜索引擎机器人爬取网站信息

[复制链接]
发表于 2013-1-8 18:07:32 | 显示全部楼层 |阅读模式 来自 中国–北京–北京
如何让我们的网站被广大用户熟知,大部分的功劳都要归功关于搜索引擎,当搜索引擎的机器人访问、索引网站的内容后,用户才能够通过该搜索引擎查询到我们的网站,需要注意的事,搜索引擎机器人的来访也不一定是好事。有些非法机器人会伪装成某主流搜素哦引擎漫游器对网站进行大规模的爬取,而这些非法机器人很多都是不遵循robots.txt规范走的,从而严重拖垮了被爬取网站的性能,有害而无益。因此,网站管理员必须要验证来访的机器人身份是否合法,接下来简单购物网来为大家介绍一下具体的验证方法。
在你的服务器日志文件中,可见每次访问的路径和相应的IP地址,如果是机器人来访,
则user-agent会显示Googlebot或MSNBot等搜索引擎漫游器名称,每个搜索引擎都有自己的
user-agent,但仅有这个还不足以证明这个机器人的合法性,因为很多垃圾制造者可能将他
们的机器人也命名为Googlebot,以伪装蒙混进入网站,大肆采掘内容。
目前,主流搜索引擎都建议网站管理员通过这种方式来辨别真实的机器人身份:通过
DNS反向查询找出搜索引擎机器人IP地址对应的主机名称;用主机名查找IP地址以确认该主
机名与IP地址匹配。
首先,使用DNS反向查询(Reverse DNS Lookup),找出机器人IP地址对应的主机名称。
主流搜索引擎的主机名称通常情况下应是这样的:
 Google : 主机名称应包含于googlebot.com 域名中, 如:
crawl-66-249-66-1.googlebot.com;
 MSN : 主机名称应包含于search.live.com 域名中, 如:
livebot-207-46-98-149.search.live.com;
 Yahoo:主机名称应包含于inktomisearch.com域名中,如:ab1164.inktomisearch.com。
最后,做一次DNS查询,用主机名查找IP地址(Forward DNS Lookup),以确认该主机
名与IP地址匹配。由此证明该机器人是合法的。
通过验证以上的内容个,你就可以知道,该搜索引擎机器人是否合法,如果非法,你就可以通过服务器上的设置来阻止它的爬行。上述内容就是货比百家站长对于如何屏蔽假冒搜索引擎访问的介绍,希望对广大站长有帮助。

发帖求助前要善用【论坛搜索】功能,那里可能会有你要找的答案;

如何回报帮助你解决问题的坛友,好办法就是点击帖子下方的评分按钮给对方加【金币】不会扣除自己的积分,做一个热心并受欢迎的人!

发表于 2013-1-8 18:16:49 | 显示全部楼层 来自 中国–四川–成都
很有用,谢谢分享,辛苦 了

发帖求助前要善用【论坛搜索】功能,那里可能会有你要找的答案;

如何回报帮助你解决问题的坛友,好办法就是点击帖子下方的评分按钮给对方加【金币】不会扣除自己的积分,做一个热心并受欢迎的人!

回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则 需要先绑定手机号

关闭

站长推荐上一条 /1 下一条

QQ|侵权投诉|广告报价|手机版|小黑屋|西部数码代理|飘仙建站论坛 ( 豫ICP备2022021143号-1 )

GMT+8, 2024-11-19 02:26 , Processed in 0.043825 second(s), 9 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表