找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 1037|回复: 0

[软文] 在robots.txt文件时我们容易出现的错误

[复制链接]
发表于 2012-5-21 13:25:26 | 显示全部楼层 |阅读模式 来自 山东省泰安市
   错误一:一行Disallow声明多个目录 
    这是一个比较常见的错误。我们发现很多网站在其robots.txt中,在一个Disallow指令行中放入了多个目录。譬如:Disallow: /css/ /cgi-bin/images/绝大多数的spiders对上述声明行都无法做出正确的解析,有些Spiders会忽略其空格而解析为/css//cgi-bin//images/,或只解析/images//css/,或者根本不予解析。
     正确的语法应为:  
Disallow: /css/   
Disallow: /cgi-bin/  
Disallow: /images/
错误二:屏蔽某一个页面时,页面名前没有带上斜杠“/
我想这一点很多站长也很容易忽视掉,打个比方,我们想要对搜索引擎屏蔽在根目录下的abcd.html这一页面,有的人在robots上可能会这么写:Disallow: abcd.html,表面上看可能没什么问题,但是笔者想要问一下你先告知搜搜引擎屏蔽的这一页面在什么目录下面?如果我们不带上的话,搜索引擎蜘蛛无法识别是在哪一个页面。
正确的写法是:Disallow: /abcd.html,这样才能真正的屏蔽位于根目录下面的abcd.html这一页面。
  错误三:禁止搜索引擎跟踪网页的链接,而只对网页建索引"如果您不想搜索引擎追踪此网页上的链接,且不传递链接的权重,请将此元标记置入网页的 <HEAD> 部分:" <meta name="robots" content="nofollow">如果您不想百度追踪某一条特定链接,百度还支持更精确的控制,请将此标记直接写在某条链接上:<a href="signin.php" rel="nofollow">sign in</a>[要允许其他搜索引擎跟踪,但仅防止百度跟踪您网页的链接,请将此元标记置入网页的 <HEAD> 部分:, t4 F3 e" l9 I) U<meta name="Baiduspider" content="nofollow">
     错误四:行前有大量空格例如,写成  Disallow:/cgi-bin/尽管在标准没有谈到这个,但是这种方式很容易出问题。
     错误写法四:404重定向到另外一个页面当 Robot访问很多没有设置robots.txt文件的站点时,会被自动404重定向到另外一个Html页面。这时Robot常常会以处理 robots.txt文件的方式处理这个Html页面文件。虽然一般这样没有什么问题,但是最好能放一个空白的robots.txt文件在站点根目录下。http://www.yhmiaopu.com/    上海苗木基地 首发,转载注明出处

发帖求助前要善用【论坛搜索】功能,那里可能会有你要找的答案;

如何回报帮助你解决问题的坛友,好办法就是点击帖子下方的评分按钮给对方加【金币】不会扣除自己的积分,做一个热心并受欢迎的人!

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则 需要先绑定手机号

关闭

站长推荐上一条 /1 下一条

QQ|侵权投诉|广告报价|手机版|小黑屋|西部数码代理|飘仙建站论坛 ( 豫ICP备2022021143号-1 )

GMT+8, 2024-5-2 14:26 , Processed in 0.085969 second(s), 10 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表