找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 3549|回复: 0

[seo] 搜索引擎蜘蛛的种类和特点是什么

[复制链接]
发表于 2020-11-27 10:52:52 | 显示全部楼层 |阅读模式 来自 中国–浙江–宁波
般我们根据百度蜘蛛的爬取特点,可以将其分为三类: 批量型Spider、增量型Spider和垂直型Spider.

1.批量型Spider

   般具有明显的抓取范围和目标,设置抓取时间的限制、抓取数据量的限制,或抓取固定范围内页面的限制等。当Spider的作业达到预先设置的目标会停止。普通站长[color=var(--theme-color)]SEO人员使用的采集工具或程序,所派出的Spider 大都属于批量型Spider,般只抓取固定网站的固定内容,或者设置对某资源的固定目标数据量,当抓取的数据或者时间达到设置限制后会自动停止,这种Spider是很典型的批量型Spider.


[color=var(--theme-color)]


2.增量型Spider

   增量型Spider 也可以称之为通用爬虫。般可以称为搜索引擎的网站或程序,使用的都是增量型Spider,但是站内搜索引擎除外,自有站内搜索引擎般是不需要Spider的。增量型Spider和批量型Spider 不同,没有固定目标、范围和时间限制,般会无休止地抓取下去,直到把全网的数据抓完为止。增量型Spider 不仅仅抓取尽可能全的页面,还要对已经抓取到的页面进行相应的再次抓取和更新。因为整个互联网是在不断变化的,单个网页上的内容可能会随着时间的变化不断更新,甚在定时间之后该页面会被删除,优秀的增量型Spider 需要及时发现这种变化,并反映给搜索引擎后续的处理系统,对该网页进行重新处理。当下百度、Google 网页搜索等全文搜索引擎的Spider,般都是增量型Spider.

3.垂直型Spider

    垂直型Spider 也可以称之为聚焦爬虫,只对特定主题、特定内容或特定行业的网页进行抓取,般都会聚焦在某个限制范围内进行增量型的抓取。此类型的Spider 不像增量型Spider样追求大而广的覆盖面,而是在增量型Spider 上增加个抓取网页的限制,根据需求抓取含有目标内容的网页,不符合要求的网页会直接被放弃抓取。对于网页级别纯文本内容方面的识别,现在的搜索引擎Spider还不能地进行准确分类,并且垂直型Spider 也不能像增量型Spider 那样进行全互联网爬取,因为那样太浪费资源。所以现在的垂直搜索引擎如果有附属的增量型Spider,那么会利用增量型Spider 以站点为单位进行内容分类,然后再派出垂直型Spider 抓取符合自己内容要求的站点: 没有增量型Spider 作为基础的垂直搜索引擎,般会采用人工添加抓取站点的方式来引导垂直型Spider 作业。当然在同个站点内也会存在不同的内容,此时垂直型Spider 也需要进行内容判断,但是工作量相对来说已经缩减优化了很多。
本文地址:https://www.zscntv.cn/492215.html

发帖求助前要善用【论坛搜索】功能,那里可能会有你要找的答案;

如何回报帮助你解决问题的坛友,好办法就是点击帖子下方的评分按钮给对方加【金币】不会扣除自己的积分,做一个热心并受欢迎的人!

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则 需要先绑定手机号

关闭

站长推荐上一条 /1 下一条

QQ|侵权投诉|广告报价|手机版|小黑屋|西部数码代理|飘仙建站论坛 ( 豫ICP备2022021143号-1 )

GMT+8, 2024-11-22 15:31 , Processed in 0.035851 second(s), 9 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表