找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 1572|回复: 0

[广告] 大数据学习—Spark核心概念RDD

[复制链接]
发表于 2021-9-28 15:35:34 | 显示全部楼层 |阅读模式 来自 中国–四川–成都
在大数据当中,spark作为一个核心模块是很重要的,spark拥有速度更快、易用性的特点,而RDD作为spark的核心概念,就更应该重点学习,今天我们就来了解一下关于spark核心概念RDD的重要性。
src=http___5b0988e595225.cdn.sohucs.com_images_20180523_5589ea7202cf4e7e986d31b0.webp
Spark相对于hadoop所做的改进:
Spark 速度更快;
其次,Spark 丰富的API 带来了更强大的易用性;
最后,Spark 不单单支持传统批处理应用,更支持交互式查询、流式计算、机器学习、图计算等各种应用,满足各种不同应用场景下的需求。
而帮助spark获取这些的优势,关键的核心就是来于RDD,那么RDD到底是什么呢?今天加米谷小编就来给大家讲解一下。
RDD全称是Resilient Distributed Datasets,翻译过来就是弹性分布式数据集,似乎念起来有点绕口,我们先从简单一点的角度来理解。
RDD想象为一组数据,而Spark把要处理的数据、处理中间结果以及输出结果都定义成RDD,那么在Spark当中数据处理的流程就可以这样去理解——
从数据源读取数据,把输入生成一个RDD通过运算把输入RDD转换成另一个RDD再通过运算把生成的RDD转换成另一个RDD,重复需要进行的RDD转换操最后运算成结果RDD,处理结果
经过这样一个流程,就实现了对大规模数据的处理,而Spark对于数处理,因为本身没有分布式文件系统,所以可以与HadoopHDFS实现协同,完成数据存储。但是Spark当中的RDD默认是在内存当中进行存储的。只有当数据量大于Spark被允许使用的内存大小时,那么可以将数据spill到磁盘上。
接下来,就是RDD的接口问题。
RDD是连接Spark数据操作的核心,接口要解决的主要问题就是,为了生成这个RDD,它的上一个RDD是谁,以及生成过程使用的运算是什么。
举个简单的例子,数据A,经过运算F,转换成了数据B,那么如果问你如何得到B,那么需要数据A+运算B,这就是接口需要提供的东西。
所以其实RDD就是一个数据集,是一组数据被处理到一个阶段的状态,在Spark当中,根据数据处理任务,会有很多个RDDRDD彼此之间交互运算,完成最终的数据处理结果。
以上就是关于Spark核心概念RDD的介绍,随着大数据的不断发展,越来越多的人想要学习大数据。如果想了解更多详情,请点击成都加米谷大数据官网吧!成都大数据培训学校大数据开发培训、数据分析与挖掘,零基础班本月正在招生中,课程大纲及试学视频可免费获取!

发帖求助前要善用【论坛搜索】功能,那里可能会有你要找的答案;

如何回报帮助你解决问题的坛友,好办法就是点击帖子下方的评分按钮给对方加【金币】不会扣除自己的积分,做一个热心并受欢迎的人!

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则 需要先绑定手机号

关闭

站长推荐上一条 /1 下一条

QQ|侵权投诉|广告报价|手机版|小黑屋|西部数码代理|飘仙建站论坛 ( 豫ICP备2022021143号-1 )

GMT+8, 2024-11-24 01:50 , Processed in 0.047110 second(s), 8 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表