|
1.合理的使用robots.txt文件,可以有效的避免用户从搜索引擎进入网站,不经过登录就能进行各种操作,因为有些网站需求必须登录才能操作,这样也方便管理用户。
2.allow,disallow,及通配符的匹配方式
我们把/也看做路径的一部分而不是分隔符 , 且不提目录的概念 , 则理解起来简单统一 , 即 以allow或disallow中路径开始的URL , 则匹配成功。例:disallow:/help/help/index.php匹配成功 , 因为URL是以/help/开始的 , 而/help、html刚匹配不成功 , 因为前缀没有和/help/相同。
3.Robots.txt编写的meta问题
在 Robots.txt编写规则中,有一个取最强参数法则,而且如果网站以及页面标签上同时出现robots.txt文件和meta标签,那么搜索引擎就会服从两个规则中较为严格的一个,即禁止搜索引擎对于某个页面的索引,当然如果robots.txt文件和meta标签不是出现一个文件中,那么搜索引擎就会遵循就近原则,就会索引meta标签前的所有文件。
4. Disallow: 描述不需要被索引的网址或者是目录。比如Disallow:/wp-不允许抓取url中带wp-的网址;要注意的是Disallow: /date/与Disallow: /date是不一样的;前者仅仅是不允许抓取date目录下的网址,如果data目录下还有子文件夹,那么子目录是允许抓取的,后者可以屏蔽date目录 下所有文件,包括起子文件夹。
5.对于一些初学者来说,robots.txt的语法不怎么熟悉,写的不正确或者不规范,可以直接在网站的根目录下上传一个空的文本文档 ,把文档的名称写为小写的robots.txt。
|
|