从做SEO开始老大就一直给我灌输:“要做科学的SEO,不管流量是涨还是降都要知道其中来源,而要了解这些同时判断网站流量的走向就必须要靠日志分析,而不是凭感觉的猜测是哪些因素使用流量发生变化”。因此从一开始就从数据入手,对于网站的数据时实监控,从数据中判断网站的问题所在,然后做出相应的改变。这也是我们网站能一直稳定发展从流量的直线下降到回升直到大涨的一个原因所在。 最近网站的流量一直涨得非常的快,但是网站某一部份的抓取量却直线下降,不过索引量还在不断的提升流量也在不断的上涨。也就因为这样在8月底就发现抓取量的下降,但一直被前眼的流量所迷惑没有对抓取下降做个数据分析,同时也是由于在做一些优化而忽略了抓取量这一块,一直到今天才对这一块的数据做了个初步的分析,下面就把一个简单的分析思路和结果分享给大家: 首先为了明确的知道具体哪一天抓取量出现了大的变化,同时和每个月有一个较明显的对比,因此首先统计了下日志里从6月份到9月17号的每天抓取量如下图: 根据这个统计图可以看出,在6月抓取量还是正常的波动,同时七月底抓取上有明显的上升,但是8月10号开始往下波动后就再也没有回到原来的至高点。同时9月8号左右开始呈直线下降趋势,从这个图就可以初步的看出,网站在7月26号开始做过对抓取方面的优化,同时10如果属正常波动的话那么11号12号左右网站应该做过调整,而这个调整是影响蜘蛛对网站的抓取的。网站从9月4号开始抓取量上升,同时8号开始下降,这两个时间点也是有待去分析的。 接下来按照以前分析网站的惯例首先分析了下网站的响应时间走势,如下图所示: 从上面两个图对比分析: 首先,9月份的响应时间曲线波动非常的大,而抓取量波动也很大,而且曲线的波时恰恰相反。 4号开始响应时间在下降,同时网站的抓取量在往上升,一直到8号响应时间降到了最低点在这个上抓取量也上升到最高点从9号开始响应时间上升,抓取量也开始下降,而且一直降,再也淌有回涨过,虽然13号开始网站的响应时间又下降,但是抓取量还是一直下降。 从上面对9月份的分析可以看出,9月份影响蜘蛛对网站抓取的最明显问题是网站的响应时间,这一段时间服随着流量的上涨,服务器的压力也在上升,导致网站的响应速度下降了很多而影响了蜘蛛对网站的抓取。但是13号开始抓取量还在降则可能除网站响应速度外还有其它的原因所在。因此接下来分析了下8月份的数据曲线图: 对于8月份,10号抓取量达到最高点以后抓就开始下降,且一直再也没有回到那个至高点,按道理来讲每天网站定期更新大批量的数据,抓取量应该是上升的,但是它在降。而对比下图发现,8月份的26号以前响应时间非常平稳,而且都比较快。从这一对比可以说明8月份抓取量的波动和网站的响应速度没有任何关系。 因此接下来就分析了下蜘蛛在8月份对网站抓取所返回的状态码:如下图: 从上图可以看出,蜘在8月份对网站的抓取过程中出现了2%的500状态码。而据数据统计,这时2%的数据全部来自于8月11号到13号。也就是说这三天网站出现过严重的网站内部错误,服务器不能完成请求。 因此分析了下在8月10号前后对网站的改动:通过对网站代码的分析(因为做技术的,网站代码的改动时间很容易找出),发现在8月11号的时候网站添加了一个功能,而这个功能取数涉及三张表,而在取数时忽略了一个环节,因此在网站功能更新后的三天内产生了很多错误页面直到三天后发现才改掉。 综合上面的两个分析可以看出近期的抓取量下降主要是两个原因: 1、网站访问量大导致响应速度下降。 2、网站内部的错误导致蜘蛛对网站产生一个新的不利的判断。 当然这只是初步分析后得出的两个结论,日志还得继续分析因为在后续的分析中还发现最近网站产生了很多垃圾链接,而这些链接的来源可能也是程序方面出现问题。所有的问题都从IIS日志的分析中慢慢的浮出水面。 原因找到了,解决方案已经非常简单,征对相应的问题做处理就是了。
|