robots的用法详解

wangwm · 发表于 2013-12-5 13:43:46

robots.txt是一个纯文本文件，这一点大家看后缀名称就知道，当搜索引擎蜘蛛访问一个网站时，它首先会检查网站根目录下是否存在Robots.txt文件。如果有这个文件，蜘蛛就会按照该文件中的内容来确定访问的范围；如果该内容不存在，那么蜘蛛就是顺着链接来索引！
值得一提的是robots.txt必须放在一个网站的根目录下，并且文件名称要全部小写。
那么如果你有些网页或者文件不想让蜘蛛访问，那该如何设置呢？说到这里，大家应该都知道，08年淘宝和百度决裂事件，之后不少人都发现在淘宝目录下出现了阻止百度搜索引擎抓取的命令。这样类似的指令是如何实现的呢？
首先要创建一个纯文本文件并命名为：robots.txt，在文件中声明网站中禁止蜘蛛访问的部分。把robots.txt文件放在网站根目录下。文件中可以使用“#”进行注释，文件中记录通常以一行或者多行user-agent开始，后面加上一些disallow行，详细情况如下：
user-agent
该项的值用于描述搜索引擎蜘蛛的名字。robots文件中，如果有多条user-agent记录的话，就表示有多个robots会受到该协议的限制。对于robots.txt至少要有一条user-agent记录。如果该项的值设为“*”，则该协议对任何robots都有效，在robots.txt文件中，user-agent：*这样的记录只能有一条。
disallow
该项的值用来描述不希望被访问到的一个URL，这个地址可以是一条完整的路径，也可以是一部分。任何以disallow开头的URL都不会被robots访问到。例如：disallow：/admin 对admin.html和admin/index.html都不允许搜索引擎访问，而disallow：/admin/ 则会允许访问admin.html 而不能访问admin文件下所有的文件、任何一条disallow记录为空时，说明该网站的所有内容都允许被访问。在robots.txt文件中，至少要有一条disallow记录。如果robots.txt是一个空文件，则对于所有的搜索引擎蜘蛛，该网站都是开放的！
下面列出一些robots.txt的用法：
Ps1：禁止所有搜索引擎访问网站的任何部分。
user-agent：*
disallow：/
Ps2：禁止百度搜索引擎的访问。
User-agent：
Baiduspider
Disallow：/
Ps3：允许百度搜索引擎的访问。
User-agent：
Baiduspider
Disallow：
User-agent：*
Disallow：/
Ps4：禁止访问特定的3个目录。目录文件里面的文件不允许访问
User-agent：*
Disallow：/admin/
Disallow：/js/
Disallow：/img/
值得注意的是对每一个目录都必须分开声明，而不能罗列在一起。
User-agent：后面的 * ，具有特殊的意义，它代表any robot，因此在该文件中不能有“disallow：/js/*“这样的记录出现。

网络转载不当之处请谅解！

		自动登录	找回密码
密码			立即注册

[杂谈] robots的用法详解

站长推荐 /1