一、通过禁止爬行动态页或某些页面,减少重复收录 首先就是很多人都知道的禁止蜘蛛爬行动态页,减少整个网站的重复收录问题。好处就是利于整个网站内容页面的权重集中,不容易因为重复收录导致内容页面权重分散等等。这是这个技巧对与常规网站的一般意义,但是对于商城站、资讯站、问答站等大型网站,这种规范意义却是十分大的。 1、商城、B2B等大型网站条件过滤页 在商城、B2B等大型网站中,常常会涉及到条件过滤的问题,即通过删选产品的规格、品牌等会出现大量相似页面。假如这个问题不能有效解决就会造成网站大量相似内容被重复收录等等,一般而言这种问题可以通过运用应针对行的进行一些URL屏蔽工作,或者考虑采用ajax形式。但效果而言,没有直接使用robots.txt机器人协议效果好,推荐还是在URL静态化规则做好的基础上通过robots.txt禁止抓取动态页面来进行处理。 2、资讯站评论页面 资讯站页面评论跟条件过滤页相似,也需要通过robots.txt配合URL规则设置屏蔽掉动态页面,防止重复收录等问题。 3、其他类似情况 在B2B、招聘、威客网站当中也会有类似的问题,这些情况都可以使用robots.txt来有效的规范蜘蛛爬行,从而规避重复收录等等。 二、诱导蜘蛛爬行重要页面,提高蜘蛛爬行效率 这个小技巧主要是配合网站地图和聚合页标签使用,为的是给这些重要页面提供更多入口方便蜘蛛爬行。网站地图、聚合页标签伪装的列表页等等是蜘蛛爬行最为快捷方便的地方,通过robots.txt协议中Allow命令的使用,让蜘蛛优先爬行这些页面,自然收录情况也就更好。 三、调整网站权重分配 通过robots.txt协议可以有效的调整网站的整体权重,配合nofflow标签等使用将权重导向网站的重点栏目或者重点页面,达到合理分配整站权重的作用。 四、擦边球做法 在提高网站相关度的一种首发中,就是利用robots.txt协议。其在根目录中防置大量的TXT文档,在TXT文档中嵌入大批量的关键词,然后通过robots.txt诱导蜘蛛去爬行这些目录。 中高端模板定制开发找 江苏赛飞网,彰显独特个性,打造适合自己的互联网形象,有数据库及后台管理。http://www.saifeinet.com
|