找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 469|回复: 0

[杂谈] robots的用法详解

[复制链接]
发表于 2013-12-5 13:43:46 | 显示全部楼层 |阅读模式 来自 中国–湖北–武汉
    robots.txt是一个纯文本文件,这一点大家看后缀名称就知道,当搜索引擎蜘蛛访问一个网站时,它首先会检查网站根目录下是否存在Robots.txt文件。如果有这个文件,蜘蛛就会按照该文件中的内容来确定访问的范围;如果该内容不存在,那么蜘蛛就是顺着链接来索引!
值得一提的是robots.txt必须放在一个网站的根目录下,并且文件名称要全部小写
那么如果你有些网页或者文件不想让蜘蛛访问,那该如何设置呢?说到这里,大家应该都知道,08年淘宝和百度决裂事件,之后不少人都发现在淘宝目录下出现了阻止百度搜索引擎抓取的命令。这样类似的指令是如何实现的呢?
首先要创建一个纯文本文件并命名为:robots.txt,在文件中声明网站中禁止蜘蛛访问的部分。把robots.txt文件放在网站根目录下。文件中可以使用“#”进行注释,文件中记录通常以一行或者多行user-agent开始,后面加上一些disallow行,详细情况如下:
user-agent
该项的值用于描述搜索引擎蜘蛛的名字。robots文件中,如果有多条user-agent记录的话,就表示有多个robots会受到该协议的限制。对于robots.txt至少要有一条user-agent记录。如果该项的值设为“*”,则该协议对任何robots都有效,在robots.txt文件中,user-agent:*这样的记录只能有一条。
disallow
该项的值用来描述不希望被访问到的一个URL,这个地址可以是一条完整的路径,也可以是一部分。任何以disallow开头的URL都不会被robots访问到。例如:disallow:/admin 对admin.html和admin/index.html都不允许搜索引擎访问,而disallow:/admin/ 则会允许访问admin.html 而不能访问admin文件下所有的文件、任何一条disallow记录为空时,说明该网站的所有内容都允许被访问。在robots.txt文件中,至少要有一条disallow记录。如果robots.txt是一个空文件,则对于所有的搜索引擎蜘蛛,该网站都是开放的!
下面列出一些robots.txt的用法:
Ps1:禁止所有搜索引擎访问网站的任何部分。
user-agent:*
disallow:/
Ps2:禁止百度搜索引擎的访问。
User-agent:
Baiduspider
Disallow:/
Ps3:允许百度搜索引擎的访问。
User-agent:
Baiduspider
Disallow:
User-agent:*
Disallow:/
Ps4:禁止访问特定的3个目录。目录文件里面的文件不允许访问
User-agent:*
Disallow:/admin/
Disallow:/js/
Disallow:/img/
值得注意的是对每一个目录都必须分开声明,而不能罗列在一起。
User-agent:后面的 * ,具有特殊的意义,它代表any robot,因此在该文件中不能有“disallow:/js/*“这样的记录出现。

网络转载不当之处请谅解!

发帖求助前要善用【论坛搜索】功能,那里可能会有你要找的答案;

如何回报帮助你解决问题的坛友,好办法就是点击帖子下方的评分按钮给对方加【金币】不会扣除自己的积分,做一个热心并受欢迎的人!

▶专业解决各类DiscuzX疑难杂症、discuz版本升级 、网站搬家 和 云服务器销售!▶有偿服务QQ 860855665 更多精品应用
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则 需要先绑定手机号

关闭

站长推荐上一条 /1 下一条

QQ|侵权投诉|广告报价|手机版|小黑屋|西部数码代理|飘仙建站论坛 ( 豫ICP备2022021143号-1 )

GMT+8, 2025-2-8 18:49 , Processed in 0.039036 second(s), 8 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表