范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

SparkRDDDataFrameDataSet详解

  在Spark的学习当中,RDD、DataFrame、DataSet可以说都是需要着重理解的专业名词概念。尤其是在涉及到数据结构的部分,理解清楚这三者的共性与区别,非常有必要。今天的大数据入门分享,我们就主要来讲讲Spark RDD、DataFrame、DataSet。
  RDD,作为Spark的核心数据抽象,是Spark当中不可或缺的存在,而在SparkSQL中,Spark为我们提供了两个新的抽象,分别是DataFrame和DataSet。
  DataFrame、DataSet和RDD有什么区别?
  首先从版本的产生上来看:
  RDD(Spark1.0)—>Dataframe(Spark1.3)—>Dataset(Spark1.6)
  如果同样的数据都给到这三个数据结构,他们分别计算之后,都会给出相同的结果。不同是的他们的执行效率和执行方式。
  在后期的Spark版本中,DataSet会逐步取代RDD和DataFrame成为唯一的API接口。
  RDD、DataFrame、DataSet三者的共性
  RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集,为处理超大型数据提供便利。
  三者都有惰性机制,在进行创建、转换,如map方法时,不会立即执行,只有在遇到Action如foreach时,三者才会开始遍历运算。
  三者都会根据spark的内存情况自动缓存运算,这样即使数据量很大,也不用担心会内存溢出。
  三者都有partition的概念。
  三者有许多共同的函数,如filter,排序等。
  RDD、DataFrame、DataSet三者的区别
  RDD:
  RDD一般和spark mlib同时使用。
  RDD不支持sparksql操作。
  DataFrame:
  ①与RDD和Dataset不同,DataFrame每一行的类型固定为Row,只有通过解析才能获取各个字段的值。
  ②DataFrame引入了schema和off-heap
  schema:RDD每一行的数据,结构都是一样的。这个结构就存储在schema中。Spark通过schame就能够读懂数据,因此在通信和IO时就只需要序列化和反序列化数据,而结构的部分就可以省略了。
  off-heap:意味着JVM堆以外的内存,这些内存直接受操作系统管理(而不是JVM)。Spark能够以二进制的形式序列化数据(不包括结构)到off-heap中,当要操作数据时,就直接操作off-heap内存。由于Spark理解schema,所以知道该如何操作。
  off-heap就像地盘,schema就像地图,Spark有地图又有自己地盘了,就可以自己说了算了,不再受JVM的限制,也就不再收GC的困扰了。
  ③结构化数据处理非常方便,支持Avro,CSV,Elasticsearch数据等,也支持Hive,MySQL等传统数据表。
  ④兼容Hive,支持Hql、UDF
  有schema和off-heap概念,DataFrame解决了RDD的缺点,但是却丢了RDD的优点。DataFrame不是类型安全的(只有编译后才能知道类型错误),API也不是面向对象风格的。
  Dataset:
  ①DataSet集中了RDD的优点(强类型和可以用强大lambda函数)以及Spark SQL优化的执行引擎。DataSet可以通过JVM的对象进行构建,可以用函数式的转换(map/flatmap/filter)进行多种操作。
  ②DataSet结合了RDD和DataFrame的优点,并带来的一个新的概念Encoder。DataSet通过Encoder实现了自定义的序列化格式,使得某些操作可以在无需序列化情况下进行。另外Dataset还进行了包括Tungsten优化在内的很多性能方面的优化。
  ③Dataset等同于DataFrame(Spark 2.X)
  RDD与DataFrame之间的互相转换
  Spark SQL支持两种RDDs转换为DataFrames的方式:
  ①使用反射获取RDD内的Schema。当已知类的Schema的时候,使用这种基于反射的方法会让代码更加简洁而且效果也很好。
  ②通过编程接口指定Schema。通过Spark SQL的接口创建RDD的Schema,这种方式会让代码比较冗长。这种方法的好处是,在运行时才知道数据的列以及列的类型的情况下,可以动态生成Schema。
  关于大数据入门,Spark RDD、DataFrame、DataSet,以上就为几个重要的概念作了基本的介绍了。Spark当中,从RDD到Dataframe、Dataset,其实是一个渐进发展的过程,由易到难会非常好上手。

全场景智慧影音从华为鸿蒙电视开始,未来不可小觑华为智慧屏HarmonyOS2开启不仅带来了全新的智慧生活,更开启了行业C位之旅,华为智慧屏未来市场不可小觑。如果说华为智慧屏的推出开始启发人们对于未来世界的想像,而随着Harmo促销狂欢季,华为智慧屏超值1500元优惠等你来领取华为自从2019年进入到电视领域,推出了首款华为智慧屏之后,在电视领域引起了轩然大波,这也让更多的厂家看到了商机,紧接着众多品牌先后也推出了各自的智慧屏幕,今年在华为智慧屏两周年之比亚迪王朝车友闪聚珠海,秦汉唐都是车主真爱话说十一黄金周往年都是所谓的金秋十月,秋高气爽。然而今年我在珠海度过黄金周,秋高气爽就谈不上了,前两天西安的车友还跟我聊天,说今年与雨水多,天气非常冷,真是一场秋雨一场寒,他还调侃鸿蒙3。0时代即将到来,华为HDC开发者大会现场精彩不容错过2021华为开发者大会上,鸿蒙OS3开发者预览版正式上线。华为消费者业务软件部总裁龚体当日表示,鸿蒙OS3开发者预览版让开发者能用更多更强大的工具,在更多类型的终端设备上进行创新。华为发布HarmonyOS3,鸿蒙生态达到了飞速发展的临界点华为的开发者大会,英文缩写HDC,但这个H看起来越来越像是代表了鸿蒙操作系统HarmonyOS,毕竟每一年的HDC都与鸿蒙发展史的里程碑时刻密切绑定。每一个大版本更新都会选择在每年动力必有惊喜,比亚迪宋ProDMi,能否稳居电动车销售榜首?近几年国内电动车行业中屈指可数的品牌除了小鹏,比亚迪也是相当优秀了。大家熟知的比亚迪汉,比亚迪唐,其销量非常不错。这不比亚迪品牌为了更好地占领电动车市场,将推出比亚迪宋ProDMi什么是高品质新法式生活?东风标致总经理罗明直播带你研究从品牌高管场景化诠释车型魅力,到CTCC史上最年轻双料年度总冠军化身新车助力官,再到神秘盲盒开启仪式拉满神秘感前不久,东风标致508L2022款亮相直播,一改汽车行业传统的营销思维既要神秘更要大气,坦克800,霸气亮相长城品牌一直在创造惊喜,我们熟知的坦克300深受众多越野者的喜爱。众所周知SUV在国内市场的热度相当高,作为长城旗下的坦克怎会错过,下文小编带您一起来欣赏这款高端SUV坦克800。拒绝从众,体验年轻潮品精髓,从东风标致2008THEONE开始近年来,我国小型SUV市场一直都处在激烈竞争的大环境中,不论是自主合资还是进口小型SUV,都为了销量争得头破血流。激烈的内卷,让大部分厂家的产品出现了高度同质化的特征,不论设计理念继续搭载V8动力,全新奔驰S级AMG曝光在6月份曝光了新款奔驰AMGS级后,就引发了很多人的关注,目前新车已处于最后测试阶段,近日又有外媒曝光了其在纽博格林赛道上测试谍照。从照片上我们可以看到,全新奔驰S级AMG前脸采用2022款迈锐宝XL,动力与颜值的结合之作10月28日,上汽通用汽车雪佛兰品牌宣布,2022款迈锐宝XL正式上市,新车共推出6款车型,作为年度改款,新车增加两种新外观配色,部分车型配置有一定增加,进一步满足了年轻用户个性化
iPhone12Pro实拍样张赏析,1200万像素不输安卓1亿像素?大家知道苹果从iPhone6s开始,一直到最新的iPhone12系列,都是在用1200万像素的传感器。而目前安卓这边1亿像素都很普遍。今天就带大家赏析一组由iPhone12Pro拍腾讯视频海外版扫黑风暴无超前点播?网友梦龙直呼内行前不久,联合利华回应梦龙雪糕事件闹得沸沸扬扬,现在又有厂商被曝双标。据巍岳钦禹爆料,腾讯视频独播的扫黑风暴可能存在海内外两个版本,即国内需要超前点播,而海外买了vip就不用额外花钱华为并不是孤军奋战,小米正在行动,我们误会它了华为此前遭受到那老美全方位的围追堵截,导致其华为的手机业务面对发展以来最大的困境。这种困境已经成为一个越来越大的窟窿,而华为不得不去想办法去填补上这个窟窿。因为华为虽然在此前有一定这个城市,首辆自动驾驶公交车正式上路,可免费试乘图源IT时报30秒快读1hr近日,上海第一辆自动驾驶公交车已经对公众开放,市民可预约试乘体验。2hr这辆临港新片区环湖一路智能网联公交车(简称环湖一路智能公交车)不久前在滴水湖畔正卖2。88万起,2022款朋克多多正式亮相,续航175KM,打得过谁?今日全新的2022款朋克多多新能源代步车正式亮相,车型续航175公里,卖2。88万起,整体的外观和设计理念采用了最新一代的新能源代步车的风格,而对于这款朋克多多,消费者了解的并不多重磅!亿纬锂能将成特斯拉4680电池供应商今日(8月31日),来自36氪的消息显示,特斯拉已经开始在国内寻找4680大圆柱电池的合作厂商,除了原有的电池供应商宁德时代和LG化学,特斯拉洽谈的大圆柱电池公司还包括了亿纬锂能等支付宝的钱需要提出来吗?风清扬的神坛跌落记最近的阿里可以说是丑闻缠身,先是闹得沸沸扬扬的阿里女员工案让大家质疑起阿里的企业文化和态度,接着赵薇的封杀引发的一系列联想让阿里不断地冲上热搜。大家肆意猜测阿里马云赵薇的一切,直到华为公开智能汽车技术领域新专利可实现多屏交互功能今日,华为技术有限公司公开一种多屏交互的方法装置终端设备和车辆专利,公开号为CN113330395A。我们了解到,该申请提供了一种多屏交互的方法装置终端设备和车辆,涉及智能汽车技术华为公共及政府事务部副总裁璩静加入百度任副总裁雷递网乐天8月31日报道雷递网从百度内部了解到,华为公共及政府事务部副总裁中国媒体事务部部长璩静已入职百度,任副总裁(VP),负责集团公众沟通部工作。璩静向百度集团副总裁袁佛玉汇报vivoX70超大杯将至,虽有骁龙888Plus芯片,但续航快充不如子品牌今年的手机市场可谓是变化多端,先是国产手机黑马一加成为了OPPO的子品牌,再有独立不久的荣耀将成立子品牌,名为星耀,变局还是比较大的。但不得不得不承认,如今各大国产行业巨头的子品牌英国反悔了?芯片巨头英伟达斥资400亿收购ARM公司的时间被推迟英国反悔了?芯片巨头英伟达(NVIDIA)斥资400亿美元收购英国半导体知识产权提供商ARM公司的交易日期被再次拖延,原计划在2022年的3月份,英伟达正式收购ARM,但英国政府的