|
日志的后缀名是log的我们用记事本打开,选择格式里的自动换行这样看起来方便,下面对于百度蜘蛛BaiduSpider和谷歌机器人Googlebot,中的日志进行分析。
一、百度蜘蛛BaiduSpidero
(1)220.181.108.182 - - [15/May/2012:01:04:09 +0800] "GET/htead-102-1-1.html HTPP/1.1"200 8264"_"Mozilla/5.0(compatible;baiduspider/2.0;+http://www.baidu.com/search/spider.html)"
“220.181.108.182” 表示:百度IP。一般有两个IP,这里把服务器IP隐藏了。
“[15/May/2012:01:04:09 +0800]” 表示:2012年5月12日,01点过4分9秒通过80断过访问。
“GET”表示:后面发生的事件,后面一般接的是访问的路径“/htead-102-1-1.html”
“200” 表示:HTTP状态码,“200”代表成功,
“8264” 表示:下载或者是上传的字节数,这里不一定,也许会有两个或三个。
“http://www.baidu.com/search/spider.html”表示:百度帮助页面。
“baiduspider/2.0”表示:百度蜘蛛。
(2)2012-05-15 00:13:16 W3SVC1534713699 118.145.18.125 GTE /huchou/zixun/13376.html - 80 - 123.125.71.79 Mozilla/5.0+(compatible;+baiduspider/2.0;+http://www.baidu.com/search/spider.html) 200 0 0 8733 350
“2012-05-15 00:13:16”表示:时间。
“W3SVC1534713699”表示:机器码,每个服务器所独有的识别码。
“118.145.18.125”表示:服务器IP,一般第一个IP都是服务器IP。
“GET”表示:后面发生的事件,后面一般接的是访问的路径“/huchou/zixun/13376.html”
“- 80 -”表示:通过80断过访问。
“123.125.71.79”表示:百度IP,一般第二个IP就是百度IP。
“200 0 0 ”表示:抓取正常。
“8733 350” 表示:上传和下载的字节数。
“http://www.baidu.com/search/spider.html”表示:百度帮助页面。
“baiduspider/2.0”表示:百度蜘蛛。
二、谷歌机器人Googlebot
2012-03-13 08:18:48 W3SVC177 116.255.169.37 GET /robots.txt – 80 – 222.186.24.26 Googlebot/2.1+(+ google /bot ) 200 0 0 985 31
“2012-03-13 00:47:10 ”蜘蛛什么时候访问了你网站
“W3SVC177 ”这个是机器码这个是惟一的 我们不去管它
“116.255.169.37” 这个IP地址是服务器的IP地址
“GET ”代表事件,后面就是蜘蛛爬取的网站页面,斜杠就代表首页
“80” 是端口的意思
“220.181.51.144”这个IP则是蜘蛛的IP。
“200 0 0 ”反应蜘蛛抓取正常
“985 31”最后两个数字则代表着访问和下载的数据字节数。
这里告诉大家一个鉴别真假百度蜘蛛的方法。怎么反查询抓取我们网站的IP是不是百度IP呢?我们电脑点击开始运行输入cmd打开命令提示符,输入nslookup空格加蜘蛛IP,回车,一般真百度蜘蛛都有baiduspider,而假蜘蛛则没有。如果有时候你发现你的空间很多情况下又冒充百度蜘蛛的假蜘蛛来频繁访问你的网站,那么这个时候我们就要好好的去屏蔽这个ip,过度去采集我们网站的内容。特别是chinaz的模拟蜘蛛,chinazIP一般是:125.90.88.96/125.90.88.81/125.90.93.141,遇到这几个IP,要马上进行屏蔽。
我们分析的时候先看看状态码 200代表下载成功,404表示页面不存在,也就是死链接,304代表页面未修改,500代表超时,其他的代码都可以在百度上搜一下就知道了。
三、从iss日志中我们能看出什么?
1.可以通过蜘蛛喜欢那些页面,来预计估测蜘蛛到底喜欢什么内容,以后可以判断我们到底该怎么写我们网站内容。
2.有时候我们可以发现蜘蛛在爬去我们网站的时候到底出现了那些问题,对症下药!
3.我们通过蜘蛛抓取的频率可以很好的分析出那些时间段,时间频段蜘蛛常来,然后我们赶在这个时间对岸前把我们的网站更新。
4.蜘蛛对于我们的页面的抓取是分等级的,是根据权重依次递减的,一般顺序为首页、目录页、内页。不同IP的蜘蛛他们的抓取频率也是不相同的
四、如何要把ISS日志数字化的东西形成图表。
(1)百度电信或联通蜘蛛的抓取次数。
(2)我们要知道每天对于每个目录的抓取次数。可以判断出哪个页面的权重高,更新频率高。
(3)找出404或301页面状况
(4)首页的抓取统计
(5)某个单页面的异常抓取分析
作为一个合格的seoer人员要养成看日志的习惯,在日志中可以很清楚的看到我们网站的一切! 网站的大部分问题都会显示在ISS日志当中。​
www.hagdjy.com www.zimoshuijing.com www.china-moban.net 站长整理发布!
|
评分
-
查看全部评分
|