找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 762|回复: 0

[杂谈] 怎么分析iss日志

[复制链接]
发表于 2012-8-17 10:59:16 | 显示全部楼层 |阅读模式 来自 中国–河南–商丘
日志的后缀名是log的我们用记事本打开,选择格式里的自动换行这样看起来方便,下面对于百度蜘蛛BaiduSpider和谷歌机器人Googlebot,中的日志进行分析。
一、百度蜘蛛BaiduSpidero
(1)220.181.108.182 - - [15/May/2012:01:04:09 +0800] "GET/htead-102-1-1.html HTPP/1.1"200 8264"_"Mozilla/5.0(compatible;baiduspider/2.0;+http://www.baidu.com/search/spider.html)"
“220.181.108.182” 表示:百度IP。一般有两个IP,这里把服务器IP隐藏了。
“[15/May/2012:01:04:09 +0800]” 表示:2012年5月12日,01点过4分9秒通过80断过访问。
“GET”表示:后面发生的事件,后面一般接的是访问的路径“/htead-102-1-1.html”
“200” 表示:HTTP状态码,“200”代表成功,
“8264” 表示:下载或者是上传的字节数,这里不一定,也许会有两个或三个。
“http://www.baidu.com/search/spider.html”表示:百度帮助页面。
“baiduspider/2.0”表示:百度蜘蛛。
(2)2012-05-15 00:13:16 W3SVC1534713699 118.145.18.125 GTE /huchou/zixun/13376.html - 80 - 123.125.71.79 Mozilla/5.0+(compatible;+baiduspider/2.0;+http://www.baidu.com/search/spider.html) 200 0 0 8733 350
“2012-05-15 00:13:16”表示:时间。
“W3SVC1534713699”表示:机器码,每个服务器所独有的识别码。
“118.145.18.125”表示:服务器IP,一般第一个IP都是服务器IP。
“GET”表示:后面发生的事件,后面一般接的是访问的路径“/huchou/zixun/13376.html”
“- 80 -”表示:通过80断过访问。
“123.125.71.79”表示:百度IP,一般第二个IP就是百度IP。
“200 0 0 ”表示:抓取正常。
“8733 350” 表示:上传和下载的字节数。
“http://www.baidu.com/search/spider.html”表示:百度帮助页面。
“baiduspider/2.0”表示:百度蜘蛛。
二、谷歌机器人Googlebot
2012-03-13 08:18:48 W3SVC177 116.255.169.37 GET /robots.txt – 80 – 222.186.24.26 Googlebot/2.1+(+ google /bot ) 200 0 0 985 31
“2012-03-13 00:47:10 ”蜘蛛什么时候访问了你网站
“W3SVC177 ”这个是机器码这个是惟一的 我们不去管它
“116.255.169.37” 这个IP地址是服务器的IP地址
“GET ”代表事件,后面就是蜘蛛爬取的网站页面,斜杠就代表首页
“80” 是端口的意思
“220.181.51.144”这个IP则是蜘蛛的IP。
“200 0 0 ”反应蜘蛛抓取正常
“985 31”最后两个数字则代表着访问和下载的数据字节数。
这里告诉大家一个鉴别真假百度蜘蛛的方法。怎么反查询抓取我们网站的IP是不是百度IP呢?我们电脑点击开始运行输入cmd打开命令提示符,输入nslookup空格加蜘蛛IP,回车,一般真百度蜘蛛都有baiduspider,而假蜘蛛则没有。如果有时候你发现你的空间很多情况下又冒充百度蜘蛛的假蜘蛛来频繁访问你的网站,那么这个时候我们就要好好的去屏蔽这个ip,过度去采集我们网站的内容。特别是chinaz的模拟蜘蛛,chinazIP一般是:125.90.88.96/125.90.88.81/125.90.93.141,遇到这几个IP,要马上进行屏蔽。
我们分析的时候先看看状态码 200代表下载成功,404表示页面不存在,也就是死链接,304代表页面未修改,500代表超时,其他的代码都可以在百度上搜一下就知道了。
三、从iss日志中我们能看出什么?
1.可以通过蜘蛛喜欢那些页面,来预计估测蜘蛛到底喜欢什么内容,以后可以判断我们到底该怎么写我们网站内容。
2.有时候我们可以发现蜘蛛在爬去我们网站的时候到底出现了那些问题,对症下药!
3.我们通过蜘蛛抓取的频率可以很好的分析出那些时间段,时间频段蜘蛛常来,然后我们赶在这个时间对岸前把我们的网站更新。
4.蜘蛛对于我们的页面的抓取是分等级的,是根据权重依次递减的,一般顺序为首页、目录页、内页。不同IP的蜘蛛他们的抓取频率也是不相同的
四、如何要把ISS日志数字化的东西形成图表。
(1)百度电信或联通蜘蛛的抓取次数。
(2)我们要知道每天对于每个目录的抓取次数。可以判断出哪个页面的权重高,更新频率高。
(3)找出404或301页面状况
(4)首页的抓取统计
(5)某个单页面的异常抓取分析
作为一个合格的seoer人员要养成看日志的习惯,在日志中可以很清楚的看到我们网站的一切! 网站的大部分问题都会显示在ISS日志当中。​
www.hagdjy.com   www.zimoshuijing.com www.china-moban.net 站长整理发布!

评分

参与人数 1金币 +12 收起 理由
晴天丶 + 12 学习了。

查看全部评分

发帖求助前要善用【论坛搜索】功能,那里可能会有你要找的答案;

如何回报帮助你解决问题的坛友,好办法就是点击帖子下方的评分按钮给对方加【金币】不会扣除自己的积分,做一个热心并受欢迎的人!

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则 需要先绑定手机号

关闭

站长推荐上一条 /1 下一条

QQ|侵权投诉|广告报价|手机版|小黑屋|西部数码代理|飘仙建站论坛 ( 豫ICP备2022021143号-1 )

GMT+8, 2024-11-24 01:27 , Processed in 0.046133 second(s), 9 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表