找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 470|回复: 0

[杂谈] 浅谈巧妙的搜优化技巧之搜索引擎抓取

[复制链接]
发表于 2013-5-5 16:49:12 | 显示全部楼层 |阅读模式 来自 中国–辽宁–大连

浅谈避开搜索引擎的抓取的几个方法  正如你所知道的,你不能总是依赖蜘蛛引擎在访问或者索引你的网站时能够十分有效的运作。完全依靠他们自己的端口,蜘蛛会产生许多重复内容,把一些重要页面当成垃圾,索引本不应该展示给用户的链接入口,还会有其他的问题。有一些工具可以让我们能够充分控制蜘蛛在网站内部的活动,如meta robots标签,robots.txt、canonical标签等。   今天,我讲一下机器人控制技术使用的局限。为了让蜘蛛不抓取某一个页面,站长们有时会使用多个机器人控制技术, 来禁止搜索引擎访问某个网页。不幸的是,这些技术能有时互相抵触从另一方面说这样的限制会把某些死链给隐藏掉了。   那么,当一个页面的robots文件中被禁止访问,或者被使用noindex tag 和 canonical tag时会发生什么?  快速复习  在我们进入主题之前,让我们看一下那些主流的robots的一些限制技巧吧:   元机器人标签   元机器人标签(Meta Robots Tag)为搜索引擎机器人建立页面等级说明。元机器人标签应放在HTML文件的头部。  规范标签(canonical tag)   规范标签(canonical tag)是一个位于网页HTML头部的页面等级的元标签。它告诉搜索引擎哪一个URL的显示是规范的。它的目的是不让搜索引擎抓取重复内容,同时将重复页面的权重集中在规范的那一个页面上。   代码是这样的:<link rel="canonical" 百度影音www.ya627.com >   X机器人标签   自2007年以来,谷歌和其他搜索引擎已经支持把X-Robots-Tag作为一种方法来告诉蜘蛛爬行和索引的优先顺序,X-Robots-Tag位于头部,曾用于通知蜘蛛爬行和索引文件而用。该标签对控制那些非HTML文件的索引是很有用的,如PDF文件。   机器人标签  robots.txt允许一些搜索引擎进入网站内部,但是它并不能保证具体某个页面会不会被抓取和索引。除非出于SEO的原因,否则只有当确实有必要或者在站点上有需要屏蔽的robots时robots.txt才确实值得使用。我总是推荐使用元数据标签“noindex”来代替它。

发帖求助前要善用【论坛搜索】功能,那里可能会有你要找的答案;

如何回报帮助你解决问题的坛友,好办法就是点击帖子下方的评分按钮给对方加【金币】不会扣除自己的积分,做一个热心并受欢迎的人!

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则 需要先绑定手机号

关闭

站长推荐上一条 /1 下一条

QQ|侵权投诉|广告报价|手机版|小黑屋|西部数码代理|飘仙建站论坛 ( 豫ICP备2022021143号-1 )|网站地图

GMT+8, 2024-10-19 02:25 , Processed in 0.044097 second(s), 9 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表