大数据Spark框架Spark生态圈入门
在大数据计算引擎当中,Spark不能忽视的一个重要技术框架,Spark继承了Hadoop MapReduce的优势,同时实现了计算效率的提升,满足更加实时性的数据处理需求。今天我们就来讲讲Spark生态圈入门。
Spark在设计之初,就是围绕速度、易用性和复杂分析来研发的,当时的背景下,就是MapReduce在实时数据处理上有明显的不足,已经很难满足很多业务场景下的需求。Spark生态圈核心组件
围绕Spark,技术生态圈也不断完善,生态圈的各个组件,在Spark Core的支持下,能够满足更多实际业务场景下的数据处理需求。
Spark Core:
Spark Core作为Spark引擎的核心,提供基于内存的分布式计算,在Hadoop原生的MapReduce引擎的基础上,继承其优势,改善其不足,减少计算过程当中的迭代运算,大大提升计算效率。
Spark Core 引入了一个全新的概念 —— RDD。RDD(Resilient Distributed Datasets),全称是"弹性分布式数据集"。
本质上,RDD 是 Spark 用于对分布式数据进行抽象的数据模型。这种数据模型用于囊括、封装所有内存中和磁盘中的分布式数据实体。
任意的分布式作业都可以由 RDD 抽象之间的转换来实现。理论上,如果计算节点内存足够大,那么所有关于 RDD 的转换操作都可以放到内存中来执行,这便是Spark内存计算的由来。
Spark Streaming:
Spark Streaming基于微批量方式的计算和处理,可以用于处理实时的流数据。它使用DStream,简单来说就是一个弹性分布式数据集(RDD)系列,处理实时数据。
Spark SQL:
Spark SQL可以通过JDBC API将Spark数据集暴露出去,而且还可以用传统的BI和可视化工具在Spark数据上执行类似SQL的查询。用户还可以用Spark SQL对不同格式的数据(如JSON,Parquet以及数据库等)执行ETL,将其转化,然后暴露给特定的查询。
Spark MLlib:
MLlib是一个可扩展的Spark机器学习库,由通用的学习算法和工具组成,包括二元分类、线性回归、聚类、协同过滤、梯度下降以及底层优化原语。
Spark GraphX:
GraphX用于图计算和并行图计算。在这里,Spark的优势是既能处理表视图,也能处理图视图。生态圈其他组件
前面所讲的是Spark当中需要掌握的重点组件,而除此之外,还有Tachyon、BlinkDB、Mesos等组件,也提供相应的支持。
Tachyon:
以内存为中心的分布式文件系统,提供内存级别速度的跨集群框架(如Spark和MapReduce)的可信文件共享,可绕过HDFS,以更快地速度执行。
BlinkDB:
一个近似查询引擎,用于在海量数据上执行交互式SQL查询。BlinkDB可以通过牺牲数据精度来提升查询响应时间。
Mesos:
它的设计初衷是作为整个数据中心的一个可拓展的全局资源管理器,而在Spark当中,可以选择独立运行的Standalone 模式,也可以构建于 Yarn 或 Mesos 之上,由它们提供资源管理。
关于大数据Spark框架,Spark生态圈入门,以上就为大家做了一个简单的介绍了。Spark在大数据领域当中,占据着明显的市场规模,而学习大数据,Spark及其生态圈,是需要掌握的重点内容,需加以重视。
北京银行升级设立远程银行中心叶斯琦中国证券报中证网中证网讯(记者叶斯琦)1月12日,北京银行以远程智联慧聚京彩为主题,举行北京银行远程银行中心成立发布会,在原95526客服中心的基础上升级成立远程银行中心。发
曾经手机界的黑马,魅族是如何衰落的?有一家公司,做出了中国第一款电容式触屏手机。口碑超过当时的iphone3GS,出道即巅峰。第二款机型,被誉为国产机皇,让无数人彻夜排队,在专卖店前排起长龙,是中国最早具有粉丝文化的
大内存才是硬道理,小米MIX4彻底跳水,12512G版本售价亲民随着智能手机的发展,我们不难发现APP们也进化了,占用的内存是越来越多,即使是单纯的聊天软件,安装包也要好几百MB,确实是让人十分难顶,相信内存问题也是大家换手机的原因之一,因此拥
企业数据化管理怎么做?企业数据化管理是近几年受众多老板欢迎的新管理理念,毕竟最主要的是减少里企业的管理成本,提高了企业的业绩,对老板来说就是赚钱!这是最关键的原因。一套管理想导入企业当中,最大的阻碍不是
小米10S和荣耀60,哪款手机更值得购买?文小伊评科技开题先声明,某些粉丝不要一上来就谈所谓的优化,体验。我想请问一下大家,现阶段头部的几家手机公司哪一家品牌是等闲之辈?小米的MIUI12为什么被喷?不就是因为加的动效过多
哈萨克斯坦大饼已恢复大部分生产全球51国家禁止加密货币哈萨克斯坦主要比特币挖矿业务已恢复大部分生产全球共有51个国家禁止加密货币行业2021年NFT销售额达250亿美元币安创始人赵长鹏位列维基百科年度富人榜44位哈萨克斯坦新一届政府正
宁德时代正式入股氟化工企业永太高新天眼查APP显示,1月12日,邵武永太高新材料有限公司发生工商变更,原股东平潭盈科恒通创业投资合伙企业(有限合伙)退出,新增股东宁德时代新能源科技股份有限公司,持股25。官网显示,
关于iOS16的最新消息这都2022年了,随着iPhone14的外观疑似泄漏,iOS16也有了一些小道消息。iOS15还没有用爽的我已经开始期待iOS16了。重磅消息iOS16支持分屏。多少年了,果粉最期
资本野蛮生长时代的落幕杨元庆大幅减持联想股票关于联想的口诛笔伐此消彼长,一浪高过一浪没有平息的迹象。有试图给联想洗白的媒体,简单表白以后便销声匿迹,很多人也开始试图与联想进行切割。联想的未来到底会走向何
华为助力赞比亚迈入5G时代新华社哈拉雷1月11日电(记者张玉亮)卢萨卡消息移动通信运营商MTN(赞比亚)与中国华为公司合作,于11日正式推出第五代移动通信技术(5G)试点网络,赞比亚由此成为非洲较早拥有5G
iPhone15信号稳了?台积电代工,苹果自研5G基带已就位欧界欧界报道近日,日经亚洲在报道中表示,苹果预计在2023年推出首款自主研发的5G基带芯片,或将于台积电建立更紧密的合作,这也是高通最不愿意看到的事。采用台积电5nm制程,预计达到12