找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 598|回复: 1

[杂谈] robots.txt机器人协议的使用小技巧

[复制链接]
发表于 2014-1-13 08:52:48 | 显示全部楼层 |阅读模式 来自 中国–江苏–南通
一、通过禁止爬行动态页或某些页面,减少重复收录
  首先就是很多人都知道的禁止蜘蛛爬行动态页,减少整个网站的重复收录问题。好处就是利于整个网站内容页面的权重集中,不容易因为重复收录导致内容页面权重分散等等。这是这个技巧对与常规网站的一般意义,但是对于商城站、资讯站、问答站等大型网站,这种规范意义却是十分大的。
  1、商城、B2B等大型网站条件过滤页
  在商城、B2B等大型网站中,常常会涉及到条件过滤的问题,即通过删选产品的规格、品牌等会出现大量相似页面。假如这个问题不能有效解决就会造成网站大量相似内容被重复收录等等,一般而言这种问题可以通过运用应针对行的进行一些URL屏蔽工作,或者考虑采用ajax形式。但效果而言,没有直接使用robots.txt机器人协议效果好,推荐还是在URL静态化规则做好的基础上通过robots.txt禁止抓取动态页面来进行处理。
  2、资讯站评论页面
  资讯站页面评论跟条件过滤页相似,也需要通过robots.txt配合URL规则设置屏蔽掉动态页面,防止重复收录等问题。
  3、其他类似情况
  在B2B、招聘、威客网站当中也会有类似的问题,这些情况都可以使用robots.txt来有效的规范蜘蛛爬行,从而规避重复收录等等。
  二、诱导蜘蛛爬行重要页面,提高蜘蛛爬行效率
  这个小技巧主要是配合网站地图和聚合页标签使用,为的是给这些重要页面提供更多入口方便蜘蛛爬行。网站地图、聚合页标签伪装的列表页等等是蜘蛛爬行最为快捷方便的地方,通过robots.txt协议中Allow命令的使用,让蜘蛛优先爬行这些页面,自然收录情况也就更好。
  三、调整网站权重分配
  通过robots.txt协议可以有效的调整网站的整体权重,配合nofflow标签等使用将权重导向网站的重点栏目或者重点页面,达到合理分配整站权重的作用。
  四、擦边球做法
在提高网站相关度的一种首发中,就是利用robots.txt协议。其在根目录中防置大量的TXT文档,在TXT文档中嵌入大批量的关键词,然后通过robots.txt诱导蜘蛛去爬行这些目录。
中高端模板定制开发找 江苏赛飞网,彰显独特个性,打造适合自己的互联网形象,有数据库及后台管理。http://www.saifeinet.com  


发帖求助前要善用【论坛搜索】功能,那里可能会有你要找的答案;

如何回报帮助你解决问题的坛友,好办法就是点击帖子下方的评分按钮给对方加【金币】不会扣除自己的积分,做一个热心并受欢迎的人!

发表于 2014-1-13 16:35:14 | 显示全部楼层 来自 中国–江苏–南通
robots.txt机器人不太了解,谢谢分享

评分

参与人数 1金币 +3 收起 理由
抢楼评分专号 + 3 很幸运,你获得了抢楼奖励!

查看全部评分

发帖求助前要善用【论坛搜索】功能,那里可能会有你要找的答案;

如何回报帮助你解决问题的坛友,好办法就是点击帖子下方的评分按钮给对方加【金币】不会扣除自己的积分,做一个热心并受欢迎的人!

回复 支持 反对

使用道具 举报

▶专业解决各类DiscuzX疑难杂症、discuz版本升级 、网站搬家 和 云服务器销售!▶有偿服务QQ 860855665 更多精品应用
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则 需要先绑定手机号

关闭

站长推荐上一条 /1 下一条

QQ|侵权投诉|广告报价|手机版|小黑屋|西部数码代理|飘仙建站论坛 ( 豫ICP备2022021143号-1 )

GMT+8, 2025-2-8 13:13 , Processed in 0.054330 second(s), 13 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表