|
蜘蛛爬取路径
在上网站日志中我们可以跟踪到特定IP的访谒路径,若是我们跟踪特定蜘蛛的会见路径则能发现对于本网站结构下蜘蛛的爬取路径偏好。由此,我们可以恰当的指导蜘蛛的爬取路径,让蜘蛛更多的爬取主要、有价值、新更新页面。其中爬取路径中我们双可以剖析页面物理机关路径偏好以及url逻辑结构爬取偏好。经由过程这些,可以让我们从SEO搜索引擎的视角去审阅自己的网站。
接见状况码
蜘蛛经常呈现的状态码如等,泛起这些状态码要实时措置,以避免对网站造成坏的影响。
页面抓取
在网站日志说明中,我们可以看到具体被蜘蛛爬取的页面。在这些页面中,我们可以分析出蜘蛛爬取了哪些需要被禁止爬取的页面、爬取了哪些无收录价值页面、爬取了哪些一再页面url等,为充实操作蜘蛛资本我们需要将这些地址在禁止爬取。
此外,我们还可以分析未收录页面原因,对于新文章,是因为没有被爬取到而未收录抑或爬取了但未放出。对于某些阅读意义不年夜的页面,可能我们需要它作为爬取通道,对于这些页面,我们是否应该做签等。但从另一方面讲,蜘蛛会弱智到靠这些无意义的通道页爬取页面吗,蜘蛛不懂
抓取时刻段
通过度析对比多个单日蜘蛛小时爬取量,我们可以体味到特定蜘蛛对于本网站在特按时间的活跃时段。通过对比周数据,我们可以看到特定蜘蛛在一周中的活跃周期。熟悉这个,对于网站内容更新时间有必然指导意义,而之前所谓小三大四等均为不科学说法。
蜘蛛访问IP
曾经有人提出过通过蜘蛛的ip段来判定网站的降权情形,笨鸟感受这个意义不大,因为这个后知性太强了。而且降权更多应该畴前三项数据来判断,用单单一个ip段来判断意义不大。IP分析的更多用途应该是判断是否存在采集蜘蛛、假蜘蛛、恶意点击蜘蛛等。
目录抓取统计
通过日志分析我们可以看到网站哪些目录受蜘蛛喜欢、抓取目录深度、重要页脸孔录抓取状况、无效页面目录抓取状况等。通过对比目录下页面抓取及收录情况,我们可以发现更多问题。对于重要目录,我们需要通过内外调整增添权重及爬取对于无效页面,在进行屏障。
另外,通过多日日志统计,我们可以看到站内外行为给目录带来的下场,优化是否合理,是否达到了预期效果。对于统一目录,以持久时间段来看,我们可以看到该目录下页面默示,按照行为猜测浮现的原因等。
|
|