|
现在你需要一个日志分析工具,因为如果你的网站有几M或几十M甚至百M以上的日志数据时,你不可能一条条去看。再说,就算日志数据不多,一条条看也是不科学的。这里用光年seo日志分析工具为大家做个例子。
1.导入文件到您解析软件。
2.分析网站日志及时发现出现的问题
搜索引擎抓取您的网站有最快的方式是看在正在服务的服务器响应代码。404(找不到页面)可能意味着抓取那珍贵的资源被浪费了;302重定向请求的资源现在临时从不同的URI响应请求;500是服务器遇到了一个未曾预料的状况,导致了它无法完成对请求的处理,可以分析出服务器出现的问题。虽然网站管理工具提供了一些信息,这样的错误,会给你的网站造成一个非常大的影响。
分析的第一步是从您的日志数据,通过光年seo日志分析工具以产生一个数据表。在最基本的层面上,让我们看看哪些搜索引擎的爬虫在爬行这个网站:
通过报表我们想几个问题:
a.雅虎蜘蛛总抓取量占了全部的47.12%;那么我从流量统计器看到。没有一个流量是从雅虎搜索引擎过来的。那么这个蜘蛛可不可以禁止他再来访问呢?
b.百度蜘蛛(BaiDu Spider )的访问次数、停留的时间、总抓取量反应了什么呢?
c.其它搜索引擎的蜘蛛的访问次数、停留的时间、总抓取量那么少的原因是什么呢?有没有改善的方法呢?
接下来,让我们来看看在蜘蛛状态码分析,我们最关心的问题。
这是只显示这个日志有问题的蜘蛛状态码,而已正常200将不被分析。我们将要细看这个表格。总体而言,好到坏的比例看起来很健康,但有一些个别的问题让我们尝试弄清楚这是怎么回事。
302出现的问题数量是可以接受的,但是不代表可以放着不去处理,我们应该有更好的方法来处理这些问题,也许用一个robots.txt指令应排除这些页面被抓取。
404的出现达到109个。在几万的抓取量来说。网站的这个数据也算是可以的。但是也需要解决,找出潜在的问题是隔离404目录或者使用rel =”nofollow”注释这些404链接。当然404的页面也必须要有。
|
|