首页

文章

如何理解spark中RDD和DataFrame的结构

发布网友 发布时间:2022-03-24 14:25

我来回答

2个回答

懂视网 时间:2022-03-24 18:47

rdd的特点如下:

  1、RDD是Spark提供的核心抽象,全称为Resillient Distributed Dataset,即弹性分布式数据集。

  2、RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,分为多个分区,每个分区分布在集群中的不同节点上,从而让RDD中的数据可以被并行操作。

  3、RDD通常通过Hadoop上的文件,即HDFS文件或者Hive表,来进行创建;有时也可以通过应用程序中的集合来创建。

  4、RDD最重要的特性就是,提供了容错性,可以自动从节点失败中恢复过来。即如果某个节点上的RDD partition,因为节点故障,导致数据丢了,那么RDD会自动通过自己的数据来源重新计算该partition。这一切对使用者是透明的。

  5、RDD的数据默认情况下存放在内存中的,但是在内存资源不足时,Spark会自动将RDD数据写入磁盘。

  

热心网友 时间:2022-03-24 15:55

之前对RDD的理解是,用户自己选定要使用spark处理的数据,然后这些数据经过transaction后会被赋予弹性,分布特性的特点,具备这样特点的数据集,英文缩写就是RDD。但RDD再怎么有特性,还是数据集,在我的理解里就像关系型数据库里的表,里面是存储的数据,抓来就用。

但之后看到dataframe和下面这张图之后,我迷惑了。。
感觉似乎dataframe的结构才更符合我对rdd的理解。。好像transaction在赋予数据集弹性,分布特性的同时,还顺带把数据变成对象然后序列化存储了?如果是,那么是按照什么样的标准进行对象化的呢,是按照行,还是按照字段呢,还是按照非关系型数据库里的rowkey呢。。那么这些对象化的数据都是怎么进行后续处理然后参与运算的呢。。
土地入股的定义 ups快递客服电话24小时 贷款记录在征信保留几年? 安徽徽商城有限公司公司简介 安徽省徽商集团新能源股份有限公司基本情况 安徽省徽商集团有限公司经营理念 2019哈尔滨煤气费怎么有税? 快手删除的作品如何恢复 体育理念体育理念 有关体育的格言和理念 什么是体育理念 万里挑一算彩礼还是见面礼 绿萝扦插多少天后发芽 绿萝扦插多久发芽 扦插绿萝多久发芽 炖牛排骨的做法和配料 网络诈骗定罪标准揭秘 “流水不争先”是什么意思? mc中钻石装备怎么做 为什么我的MC里的钻石块是这样的?我想要那种。是不是版本的问题?如果是... 带“偷儿”的诗句 “君不见巴丘古城如培塿”的出处是哪里 带“奈何”的诗句大全(229句) 里翁行()拼音版、注音及读音 带“不虑”的诗句 “鲁肃当年万人守”的出处是哪里 无尘防尘棚 进出口报关流程,越详细越好。谢谢大家指教。 双线桥不是看化合价升多少就标多少的吗?为什么CL2+2KI=2KCL+I2中I失... 出师表高锰酸钾有画面了吗 2021年幼儿园新学期致家长一封信 电脑屏幕一条黑线怎么办? 销售代理商销售代理商的特点 商业代理商业代理的特征 如何看微信有没有开通微众银行 为什么微众没有开户 微众银行怎么开户 微众银行APP开户流程是什么? 唐古拉山海拔唐古拉山海拔是多少 怎么看待取消跳广场舞的人的退休金 如何选购新鲜的蓝田水柿? 恭城水柿柿树作用 创维洗衣机使用教程 创维全自动洗衣机怎么使用 自动开门器 狗羊属相婚姻相配吗 3岁的小孩不会说话怎么办 3岁孩子不会说话,应该挂什么科? 3岁小孩不会说话正常吗 鹿茸炖乌鸡怎么做? 新型冠状肺炎吃什么药可以预防 冰箱上电后一直响 RDD,DataFrame和DataSet的区别 谈谈RDD,DataFrame,Dataset的区别和各自的优势 为什么vivo手机没有小V vivo小v在哪里打开 oppo r9s怎么部分截屏 oppo r9s 截图功能怎么开启 oppor9s怎么截屏,截屏后怎么发 oppor9s怎么截长屏? oppo r9s如何超级截屏? OPPOR9s这么截屏? OPPOR9s截图怎么截 oppor9s怎么长截屏 oppo r9s怎么截图 “OPPO R9S”手机怎么截图? OPPOR9s如何截图 OPPO R9s手机怎么截屏? oppor9s怎么截屏 oppor9s怎么快速截屏 oppor9s的截图功能在哪里 oppo r9s怎么截屏 如何学习Spark大数据 Storm Spark Hadoop 这三个流行并行计算框架有什么不同 请简要描述一下hadoop,spark,mpi三种计算框架的特点以及分别适用于什么样的场景 如何把Spark RDD中的内容按行打印出来 hadoop,storm和spark的区别,比较 数据集的最基本组成单位是指rdd的什么属性 spark SQL和hive到底什么关系 Spark RDD,DataFrame和DataSet的区别 大数据技术是学什么的? 大数据专业成热门,该如何转行做大数据分析师 肝硬化晚期救治疗方 rc.conf和rc.local的区别 写秋天的特点的作文 早期的肝硬化可以逆转吗 手机屏幕显示原理是什么? 太阳能电池板可以直接接在蓄电池上给蓄电池充电吗? 太阳能板可以直接给电瓶充电吗 太阳能电池板能给汽车电瓶充电吗?我只有一个太阳能面板,可以直接给电瓶冲吗?需要什么配件吗?? 太阳能板可以直接接电瓶吗? 太阳能电池板能直接给12v电瓶充电吗
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com