|
昨日小编讲到了首页不在百度收录的原因以及如何去应付这种情况的办法,如果你没有看过或者是印象不够深刻的话可以点这个链接《seo优化不求人_首页不见的原因》。今天我们同样是讲关于百度收录的知识。今天我们会讲影响百度收录的多种因素。
那么因素会影响百度收录?我们先来看以下几张图。
这是百度搜索引擎的抓取方式:
引擎的爬行过程:robots.txt→首页→栏目页→css/js→内容页
我们知道了引擎的工作原理后,就需要分析影响引擎抓取的因素了,我们先从内部因素进行分析:
影响引擎抓取的内部因素:
1、网站速度影响引擎访问;
机房→DNS服务器→CDN→出口带宽→硬件→操作系统→服务器软件→程序
2、nofollow标签的使用控制引擎抓取
nofollow是指不追踪此链接,屏蔽掉每个页面重复出现的链接和对SEO无价值的页面,减少引擎重复抓取每个页面内的链接,提高引擎抓取效率;
3、其他影响引擎抓取的因素
a、分隔硬盘:在服务器下安装多个虚拟机,硬盘转速慢,引擎访问不到网页;
b、多个返回码:一个链接返回多个返回码搜索引擎是不会抓取的;
c、防火墙规则、防攻击设置、防止采集设置规则:一个网站访问N次后,自动断开,引擎被拒;
影响引擎抓取的外部因素:
1、外部链接(外链)
发布外链的作用有两个,一个是吸引引擎来抓取,另外一个是提升排名:
就像上图这样,外链要有相关性、流行性和广泛性(给每个网页加外链,不要全部指向首页);
2、文章(在内容对收录的影响会具体分析)
文章的原创度、更新频率、独特性。原创文章一定会被收录,只是时间的问题了;
3、权重
权重是搜索引擎对网站的信任程度,权重高的网站引擎数量多、抓取也相对比较及时,权重高的网站有引擎长期“隐居”在此;
4、网站地图
网站地图促进引擎爬取,是增加收录的重要因素;
5、PR值
PR值是谷歌对于网站质量的衡量标准,但是PR对SEO的作用非常小,有些参考作用,但是意义并不是很大,就比如我的这个网站,PR值是0,丝毫不影响网站的排名;
技术对收录的影响
1、URL规范性
a、URL静态化、唯一化
网站中同一网页,只对应一个URL;如果网站上多种url都能访问同样的内容的话,就会有如下危险:搜索引擎会选一种url为标准,可能会和正版不同;用户可能为同一网页的不同url做推荐,多种url形式分散了该网页的权重;如果你的网站上已经存在多种url形式,建议按以下方式来处理:在系统中只使用正常形式url,不让用户接触到非正常形式的url;不把session id、统计代码等不必要的内容放在url中;不同形式的url,301永久跳转到正常形式防止用户输错而启用的备用域名.301永久跳转到主域名;使用robots.txt禁止百度蜘蛛抓取你不想向用户展示的形式;
b、URL带关键词(英文/拼音)
这样在排名上有一定的优势;
2、W3C标准
HTML代码要符合标准,结构层、表现层、行为层标签完整性,用开源程序就可以了,比如,我们使用wordpress程序搭建网站;
3、head信息正确性(服务器)
HttpWatch 网页数据分析工具,可分析打开网页时网页上每个元素所用的时间以及具体的交互记录,包括Cookies、消息头、字符查询等信息,是分析网站服务器性能的必备工具,HttpWatch 用来分析、优化网页结构非常不错,支持HTTPS及分析报告输出为XML、CSV等格式。HttpWatch 支持IE6至IE9的浏览器,也支持火狐浏览器2.0至7.0版本。
使用方法:打开IE浏览器,选择菜单“查看-浏览器栏”,再选择“HttpWatch Professional”即可。
内容对收录的影响
1、原创性
原创文章一定会被收录,但是只是时间的问题,原创性是影响网站权重的很重要的一个因素,其他因素没它重要;
原创影响权重,权重影响收录,收录影响排名,排名影响流量;
2、重复性
转载或采集的页面内容和之前页面都一样,url不统一也是重复,网页相识度很高就算重复页面,页面重复是SEO的负面因素
重复页面与总页面的比例要低于30%,网站大量重复会被惩罚;避免重复的方法:在网站的正文部分多调用些随机调用文章内容,URL唯一化,解决重复性的最佳办法就是原创;
本文由惠州seo优化原创,转载请注明出处: http://mlccom.com/index.php?c=article&id=307 | 惠州seo优化
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|