|
robots.txt 文件可限制抓取网页的搜索引擎漫游器对您网站的访问。这些漫游器是自动的,它们在访问任意网站的网页之前,都会查看是否存在阻止它们访问特定网页的 robots.txt 文件。(虽然某些漫游器可能会以不同的方式解释 robots.txt 文件中的指令,但所有正规的漫游器都会遵循这些指令。然而,robots.txt 不是强制执行的,一些垃圾信息发送者和其他麻烦制造者可能会忽略它。因此,我们建议对机密信息采用密码保护。)
一、 利用robots.txt来限制网页快照
很多搜索引擎都提供一个网页快照的功能。但是网页快照功能却有很多的弊端,例如事实内容在网页快照中更新不及时、索引网页快照浪费大量的服务器资源等。因此,我们有些时候可能并不需要搜索引擎来索引我们某个页面的网页快照。解决这样问题的办法很简单,只需要在你的网页元标记中(<head>和</head>之间)放置如下的一段代码。 <meta name=”robots” content=”noarchive”>以上的一段代码限制了所有的搜索引擎建立你的网页快照。如果我们需要仅仅限制一个搜索引擎建立快照的话,就可以像如下这样去写<meta name=”Baiduspider” content=”noarchive”>需要注意的是,这样的标记仅仅是禁止搜索引擎为你的网站建立快照,如果你要禁止搜索引擎索引你的这个页面的话,请参照后面的办法。
二、网站部分导航页面
网站底部的一些导航页面,如“市场合作”“网站声明”“付费方式”等都是针对客户的页面,几乎没有用户通过搜索引擎上搜索这些页面并到达网站,而且这些导航页面是全站显示的,所有的内容页面都存在,同样的也要分散这些页面的权重。
这部分页面都是位于同一目录/main下,该目录下除保留部分页面需蜘蛛进行抓取外,其他页面可以都禁止,保留页面为:“关于我们”(main/aboutus.asp),友情链接(main/friendlink.asp)。此外“资费标准”“付费方式”页面位于企业会员中心页面,这些页面也没有必要对搜索引擎开放。
三、将sitemap.xml写入robots文件
前面提到了,robots.txt文件是搜索引擎中访问网站要查看的第一个文件,那么,如果我们将sitemap.xml(网站地图)文件地址写入robots.txt文件里面,自然而然会被搜索引擎蜘蛛在第一时间发现,也增大了网站页面被快速抓取和收录的可能性。此种做法,对于新站作用明显,对于大站更具有积极和现实的作用。
具体写法示例如下:
所以,无论是新站还是老站,为了使得更多的页面被搜索引擎抓取,有必要将sitemap.xml写入robots.txt文件中。http://www.qing-ru.com.cn/ 美白祛斑产品 首发,转载注明出处
|
|