|
1、flash
搜素引擎室无法读取flash上的文字,也是不能读取flash的链接的;有的网站的首页点进去会看到一个flash动画,然后再出现真正的html版本的文字网站首页,搜索引擎是不能读取flash的,一般也没办法读取flash intro跟踪到html版本页面。就算首页需要也至少需要添加一个通往html版本的链接,这个链接在flash文件之外的代码中。
2、Session ID
有些网站使用Session ID来跟踪用户访问,每个用户访问网站时会生成唯一的Session ID加在链接中,蜘蛛来访问的时候也会生成唯一的id,这样蜘蛛每次访问的链接不一样,却得到的是同一个页面。当然搜索引擎蜘蛛遇到这种长长的Session ID,会尝试判断字符串是Session ID还是正常参数,成功判断出Session ID,就可以去掉Session ID,收录正常的URL,但是也是经常判建议跟踪用户访问使用Cookies,而不是生成Session ID,或者程序判断是蜘蛛还是普通用户,是蜘蛛则不生成Session ID。
3、各种跳转
除了301转向外(301转向--永久性转向,可以把页面的权重从旧网站转移到新网站),搜索引擎对其他的转向都比较敏感,对蜘蛛爬行是不利的。如302跳转(暂时性转移),meta refresh跳转,flash跳转。
4、框架结构
不利于蜘蛛的抓取。访问一个使用框架的网址所抓取的HTML只包含调用其他HTML文件的代码,并不包含任何文字信息,搜素引擎根本无法判定这个网站的内容是什么。虽然蜘蛛可以跟着框架中所调用的其他其他HTML文件,但是这些文件经常是不完整的页面,比如没有导航只有正文。搜素引擎也无法判断框架中的页面内容应该属于主框架还是属于框架调用的文件。
5、动态URL
指的是数据库驱动的网站所生成的,带有问号,等号以及参数的网址,动态url是不利于蜘蛛爬行的。
6、js链接
虽然搜素引擎在尝试解析js脚本,但是我们不要寄太多的希望,最好使用简单标准的html链接,使蜘蛛爬行变的容易。虽然有的引擎在技术上可以获得js脚本中包含的链接,甚至可以执行脚本并跟踪链接,但对一些权重比较低的网站,搜索引擎觉得没必要,不会费那个劲。
特殊用户:不希望目录、文件被收录(没有排名意义的页面,内容重复的页面),不希望传递权重的链接。
7、要求登录
有的网站内容放在需要用户登录以后才能看到。这样搜索引擎是无法看到的。
8、强制使用Cookies
蜘蛛相当于一个禁用了Cookies的浏览器,强制使用只能造成搜索引擎蜘蛛无法正常访问。
|
|