|
浅谈避开搜索引擎的抓取的几个方法 正如你所知道的,你不能总是依赖蜘蛛引擎在访问或者索引你的网站时能够十分有效的运作。完全依靠他们自己的端口,蜘蛛会产生许多重复内容,把一些重要页面当成垃圾,索引本不应该展示给用户的链接入口,还会有其他的问题。有一些工具可以让我们能够充分控制蜘蛛在网站内部的活动,如meta robots标签,robots.txt、canonical标签等。 今天,我讲一下机器人控制技术使用的局限。为了让蜘蛛不抓取某一个页面,站长们有时会使用多个机器人控制技术, 来禁止搜索引擎访问某个网页。不幸的是,这些技术能有时互相抵触从另一方面说这样的限制会把某些死链给隐藏掉了。 那么,当一个页面的robots文件中被禁止访问,或者被使用noindex tag 和 canonical tag时会发生什么? 快速复习 在我们进入主题之前,让我们看一下那些主流的robots的一些限制技巧吧: 元机器人标签 元机器人标签(Meta Robots Tag)为搜索引擎机器人建立页面等级说明。元机器人标签应放在HTML文件的头部。 规范标签(canonical tag) 规范标签(canonical tag)是一个位于网页HTML头部的页面等级的元标签。它告诉搜索引擎哪一个URL的显示是规范的。它的目的是不让搜索引擎抓取重复内容,同时将重复页面的权重集中在规范的那一个页面上。 代码是这样的:<link rel="canonical" 百度影音www.ya627.com > X机器人标签 自2007年以来,谷歌和其他搜索引擎已经支持把X-Robots-Tag作为一种方法来告诉蜘蛛爬行和索引的优先顺序,X-Robots-Tag位于头部,曾用于通知蜘蛛爬行和索引文件而用。该标签对控制那些非HTML文件的索引是很有用的,如PDF文件。 机器人标签 robots.txt允许一些搜索引擎进入网站内部,但是它并不能保证具体某个页面会不会被抓取和索引。除非出于SEO的原因,否则只有当确实有必要或者在站点上有需要屏蔽的robots时robots.txt才确实值得使用。我总是推荐使用元数据标签“noindex”来代替它。 |
|