范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

大数据入门SparkCore开发调优原则

  大数据计算引擎当中,Spark受到的重视是越来越多的,尤其是对数据处理实时性的要求越来越高,Hadoop原生的MapReduce引擎受到诟病,Spark的性能也需要不断调整优化。今天的大数据入门分享,我们就来讲讲SparkCore开发调优原则。
  Spark在大数据领域,能够实现离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,对于企业而言是低成本下的可靠性选择,但是想要真正用好Spark,实现真正的高性能,调优是不可或缺的手段。
  SparkCore开发调优原则
  1、避免创建重复的RDD
  通常来说,我们在开发一个Spark作业时,首先是基于某个数据源(比如Hive表或HDFS文件)创建一个初始的RDD;接着对这个RDD执行某个算子操作,然后得到下一个RDD;以此类推,循环往复,直到计算出最终我们需要的结果。
  我们在开发过程中要注意:对于同一份数据,只应该创建一个RDD,不能创建多个RDD来代表同一份数据。否则,我们的Spark作业会进行多次重复计算来创建多个代表相同数据的RDD,进而增加作业的性能开销。
  2、尽可能复用同一个RDD
  除了要避免在开发过程中对一份完全相同的数据创建多个RDD之外,在对不同的数据执行算子操作时还要尽可能地复用一个RDD。
  尤其对于类似这种多个RDD的数据有重叠或者包含的情况,尽量复用一个RDD,这样可以尽可能地减少RDD的数量,从而尽可能减少算子执行的次数。
  3、对多次使用的RDD进行持久化
  Spark中对于一个RDD执行多次算子的默认原理是这样的:每次你对一个RDD执行一个算子操作时,都会重新从源头处计算一遍,计算出那个RDD来,然后再对这个RDD执行你的算子操作。这种方式的性能是很差的。
  而对多次使用的RDD进行持久化,Spark就会根据你的持久化策略,将RDD中的数据保存到内存或者磁盘中。以后每次对这个RDD进行算子操作时,都会直接从内存或磁盘中提取持久化的RDD数据,然后执行算子,而不会从源头处重新计算一遍这个RDD,再执行算子操作。
  4、尽量避免使用shuffle类算子
  如果有可能的话,要尽量避免使用shuffle类算子。因为Spark作业运行过程中,最消耗性能的地方就是shuffle过程。shuffle过程,简单来说,就是将分布在集群中多个节点上的同一个key,拉取到同一个节点上,进行聚合或join等操作。
  比如reduceByKey、join等算子,都会触发shuffle操作。没有shuffle操作或者仅有较少shuffle操作的Spark作业,可以大大减少性能开销。
  5、使用map-side预聚合的shuffle操作
  如果因为业务需要,一定要使用shuffle操作,无法用map类的算子来替代,那么尽量使用可以map-side预聚合的算子。
  所谓的map-side预聚合,说的是在每个节点本地对相同的key进行一次聚合操作,类似于MapReduce中的本地combiner。map-side预聚合之后,每个节点本地就只会有一条相同的key,因为多条相同的key都被聚合起来了。其他节点在拉取所有节点上的相同key时,就会大大减少需要拉取的数据数量,从而也就减少了磁盘IO以及网络传输开销。
  6、使用高性能的算子
  除了shuffle相关的算子有优化原则之外,其他的算子也都有着相应的优化原则。
  比如说使用reduceByKey/aggregateByKey替代groupByKey;使用mapPartitions替代普通map;使用foreachPartitions替代foreach;使用filter之后进行coalesce操作;使用repartitionAndSortWithinPartitions替代repartition与sort类操作等。
  7、广播大变量
  在开发过程中,有时会遇到需要在算子函数中使用外部变量的场景(尤其是大变量,比如100M以上的大集合),那么此时就应该使用Spark的广播(Broadcast)功能来提升性能。
  在算子函数中使用到外部变量时,默认情况下,Spark会将该变量复制多个副本,通过网络传输到task中,此时每个task都有一个变量副本。如果变量本身比较大的话(比如100M,甚至1G),那么大量的变量副本在网络中传输的性能开销,以及在各个节点的Executor中占用过多内存导致的频繁GC,都会极大地影响性能。
  8、使用Kryo优化序列化性能
  在Spark中,主要有三个地方涉及到了序列化:
  在算子函数中使用到外部变量时,该变量会被序列化后进行网络传输。
  将自定义的类型作为RDD的泛型类型时(比如JavaRDD,Student是自定义类型),所有自定义类型对象,都会进行序列化。因此这种情况下,也要求自定义的类必须实现Serializable接口。
  使用可序列化的持久化策略时(比如MEMORY_ONLY_SER),Spark会将RDD中的每个partition都序列化成一个大的字节数组。
  对于这三种出现序列化的地方,我们都可以通过使用Kryo序列化类库,来优化序列化和反序列化的性能。
  关于大数据入门,SparkCore开发调优原则,以上就为大家做了简单的介绍了。SparkCore作为Spark的核心部分,要真正掌握Spark框架,那么核心部分一定要吃透。

一分钟资讯高通手机苹果VIVO小米,最新消息哈喽,我是毛小毛。关注我,每日带你了解最新数码资讯!一分钟资讯第71期,感谢你的阅读。高通联手华硕,推出了骁龙手机近日高通联手华硕,推出了骁龙InsidersSmartphone新小米印度新机宣布,全面对标一加Nord2,谁更胜一筹印度可以说是除了中国之外,第二大手机市场,所以各大手机厂商也都非常重视这个市场。从目前的情况来看,印度市场绝大部分份额都被中国企业给占领了。小米是印度市场的份额第一,一加在印度高端6月安卓手机性价比榜4000元以下已经看不到华为影子安兔兔根据后台数据,统计出了6月Android手机性价比榜,每个价位段都有,一起来看看有哪些手机上榜。首先是01999元价位段,1699元的RedmiNote10Pro(6128Gvivo新专利曝光让手机与无人机真正融合手机与无人机,可以说是两个性质不同的产品,除了都可以拍摄用来拍摄外,唯一的关联就是智能手机可以当作遥控器来操作无人机。近日,国产手机品牌vivo的一项手机专利曝光,让智能手机和无人一台小破路由器,竟然能卖一个亿近日,中国移动的一则集采通告把不少吃瓜群众看呆了22台路由器总预算金额18。251亿单台价格竟然小1个亿达到8300万着实刷新了大家的认知我们知道核心漏油器很贵但没想到这么贵高端路新MacBookPro或八月份发布Windows11系统惨遭泄露苹果或于8月初发布至少一款新MacBookProHello,大家好,这里是科技V报,我是Geek枫云,在WWDC2021开发者大会上苹果并没有发布任何新硬件,现在,根据爆料人Lea曝光iPad市场份额大增,iPadAir4让路新机一夜跌至白菜价苹果iPad系列再次称霸竞争,最新数据显示,2021年Q1苹果平板系列市场份额为37,相比2020年Q1,iPad系列占30的市场份额有明显提升。值得一提的是,由于iPad新机的曝什么是无线路由器?在5时代,手机套餐中所含的流量越来越多,单位价格也越来越便宜,即便如此,也难以毫无顾忌地刷剧。家庭宽带,按带宽收费,流量不限,通过无线路由器将其转化为WiFi信号,不但可供全家共享最赛博朋克的数码管手表太酷了作为一个相对简单的时代象征,数码管现在很罕见(最后一组数码管在90年代生产,然后被永久停用),它代表了一个科技产品手工制作复杂但价格低廉经久耐用的时代。与如今随意丢弃的科技文化相比台电首款8G平板来啦!强刷千元主流标准,不再是空谈运存大小重要嘛?不可否认,运存与储存都已成为用户购机的选择标准之一,前者联合芯片将决定系统运行速度,而文件是否能储放则取决于后者,可以说两者息息相关不可分割。就平板行业来讲,百元领一加9R小米10S口碑大比拼,一个百分点差在哪?今年应该是高通垄断了安卓处理器行业后,首次执行双旗舰处理器策略的一年。在主打骁龙888的前提之下,以骁龙870为辅,并且取得了非常不错的效果。各品牌也是双旗舰并行,诞生了很多骁龙8
家务清洁很累心?吉米上手把无线吸尘器帮你轻轻松松做家务为了能有一个干净舒适的家,家务清洁不可避免,然而快节奏的生活方式却难以拿出大量的时间来做清洁,不过室内的灰尘螨虫却不会因此放过家中的角角落落,卫生死角床铺被褥窗帘地毯其实都堆积着不雷军这小杯诚意如何?小米10青春版价格实诚,潜望镜惊喜此前27日,小米10青春版发布会上,雷军表示,此前小米10系列推出了中杯小米10,大杯小米10Pro,而小米10青春版算是小杯。这一点也能从小米10青春版的定价上看的出来,664G伊拉克局势要变天?最危险的男人有望上位,曾让美军死伤惨重根据环球网报道,伊拉克大选初步计票结果已经正式出炉,什叶派宗教领导人萨德尔极有可能成功赢得本次大选。萨德尔所在团体已经获得73个席位,而议会总席位仅为329个,可见,萨德尔有可能会大选刚结束,捷克议会就通过一项反华决议,要步立陶宛后尘?近段时间,立陶宛一直在反华一线冲锋陷阵,不断为美国出头挑衅中国。先前,立陶宛试图同中国台湾建立所谓官方关系,随后中国迅速表示反对,并且通过召回大使警告立陶宛,但是立陶宛却选择一错再南玻在宝能系操盘下发展如何了?技术已达国内领先国际先进水平古人云不忘初心,方得始终。初心是什么?大概是我们无论走在何方仍旧希望自己成为梦想中最初的模样,是让我们无论行在何处依旧能够心潮澎湃热泪盈眶的念想,是让我们甘愿卧薪尝胆逆流争先的动力边缘云服务商白山云通过CDN服务企业综合信用水平评估AAA级据悉,在CDN服务领域,边缘云服务提供商白山云一直都有卓越的表现。今年年初,白山云再次通过了CDN服务企业综合信用水平评估AAA级认证,这已经是该公司第三次获得该项权威认证,充分展海信阅读手机618盛典狂欢来袭新品旗舰齐上阵至高立减400元高考刚刚结束,端午节假期也马上到来,炎炎夏日,有什么能比吹着空调吃着西瓜,读一读书,看一看剧更舒适惬意的呢?恰逢618年中狂欢节,海信手机京东官方旗舰店开启海信阅读手机音阅年中盛典如何保养家用中央空调与传统空调相比,中央空调运行舒适能与装修相融合美观大方,因此,越来越多的人选择安装中央空调。当然,中央空调的保养也是重中之重,你知道如何保养家用中央空调吗?这篇文章将会给您带来几点618海信护眼阅读日至高立减400元新品海信TOUCH火热抢购中618年中狂欢进行时,海信手机京东官方旗舰店护眼阅读日活动钜惠来袭!超级新品海信TOUCH音乐阅读器火热开抢,全场护眼阅读产品享最高立减400元超值优惠力度,更有签到赢京东读书VI数字化转型迫在眉睫,云测试如何助力?中国的证券业自成立初始就是一个全面推行信息化的行业。从券商自身来说,随着金融科技的应用逐渐深入,券商自身也有转型财富管理和全能投行的需求,金融科技在证券业的发展将提速。新技术浪潮下Fido全球正式上线,领跑IPFS赛道Fido官方公告,Fido平台已于5月20日北京时间中午十二时正式上线。不同于内测期间,用户需通过链接的方式进入Fido界面。此次平台正式上线后,用户登陆火币钱包即可在Heco页面