找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 753|回复: 1

[杂谈] 通过网站日志获得你想要的信息

[复制链接]
发表于 2013-5-13 16:30:45 | 显示全部楼层 |阅读模式 来自 中国–浙江–杭州
  现在你需要一个日志分析工具,因为如果你的网站有几M或几十M甚至百M以上的日志数据时,你不可能一条条去看。再说,就算日志数据不多,一条条看也是不科学的。这里用光年seo日志分析工具为大家做个例子。

  1.导入文件到您解析软件。

  2.分析网站日志及时发现出现的问题

  搜索引擎抓取您的网站有最快的方式是看在正在服务的服务器响应代码。404(找不到页面)可能意味着抓取那珍贵的资源被浪费了;302重定向请求的资源现在临时从不同的URI响应请求;500是服务器遇到了一个未曾预料的状况,导致了它无法完成对请求的处理,可以分析出服务器出现的问题。虽然网站管理工具提供了一些信息,这样的错误,会给你的网站造成一个非常大的影响。

  分析的第一步是从您的日志数据,通过光年seo日志分析工具以产生一个数据表。在最基本的层面上,让我们看看哪些搜索引擎的爬虫在爬行这个网站:

  通过报表我们想几个问题:

  a.雅虎蜘蛛总抓取量占了全部的47.12%;那么我从流量统计器看到。没有一个流量是从雅虎搜索引擎过来的。那么这个蜘蛛可不可以禁止他再来访问呢?

  b.百度蜘蛛(BaiDu Spider )的访问次数、停留的时间、总抓取量反应了什么呢?

  c.其它搜索引擎的蜘蛛的访问次数、停留的时间、总抓取量那么少的原因是什么呢?有没有改善的方法呢?

  接下来,让我们来看看在蜘蛛状态码分析,我们最关心的问题。

  这是只显示这个日志有问题的蜘蛛状态码,而已正常200将不被分析。我们将要细看这个表格。总体而言,好到坏的比例看起来很健康,但有一些个别的问题让我们尝试弄清楚这是怎么回事。

  302出现的问题数量是可以接受的,但是不代表可以放着不去处理,我们应该有更好的方法来处理这些问题,也许用一个robots.txt指令应排除这些页面被抓取。

  404的出现达到109个。在几万的抓取量来说。网站的这个数据也算是可以的。但是也需要解决,找出潜在的问题是隔离404目录或者使用rel =”nofollow”注释这些404链接。当然404的页面也必须要有。

发帖求助前要善用【论坛搜索】功能,那里可能会有你要找的答案;

如何回报帮助你解决问题的坛友,好办法就是点击帖子下方的评分按钮给对方加【金币】不会扣除自己的积分,做一个热心并受欢迎的人!

发表于 2013-5-13 16:31:58 | 显示全部楼层 来自 中国–浙江–杭州
通过网站日志可以观察网站最近的动态,搜索引擎有没有来等等信息

评分

参与人数 1金币 +5 收起 理由
抢楼评分专号 + 5 很幸运,你获得了抢楼奖励!

查看全部评分

发帖求助前要善用【论坛搜索】功能,那里可能会有你要找的答案;

如何回报帮助你解决问题的坛友,好办法就是点击帖子下方的评分按钮给对方加【金币】不会扣除自己的积分,做一个热心并受欢迎的人!

回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则 需要先绑定手机号

关闭

站长推荐上一条 /1 下一条

QQ|侵权投诉|广告报价|手机版|小黑屋|西部数码代理|飘仙建站论坛 ( 豫ICP备2022021143号-1 )

GMT+8, 2024-12-23 01:58 , Processed in 0.053760 second(s), 13 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表