范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

大数据开发SparkStreaming消费Kafka数据

  在流处理领域,Spark和kafka作为两个重要的组件,在大数据学习当中的重要性不必多说。面对越来越大规模的实时数据流,Spark Streaming和Kafka的组合,在应用开发层面也愈加得到重用。今天的大数据开发分享,我们就主要来讲讲Spark Streaming消费Kafka数据的相关问题。
  首先,Spark Streaming有哪几种方式消费Kafka中的数据呢?不同的消费方式在实际运行当中又有何区别呢?
  一、基于Receiver的方式
  这种方式使用Receiver来获取数据。Receiver是使用Kafka的高层次Consumer API来实现的。receiver从Kafka中获取的数据都是存储在Spark Executor的内存中的(如果突然数据暴增,大量batch堆积,很容易出现内存溢出的问题),然后Spark Streaming启动的job会去处理那些数据。
  然而,在默认的配置下,这种方式可能会因为底层的失败而丢失数据。如果要启用高可靠机制,让数据零丢失,就必须启用Spark Streaming的预写日志机制(Write Ahead Log,WAL)。该机制会同步地将接收到的Kafka数据写入分布式文件系统(比如HDFS)上的预写日志中。所以,即使底层节点出现了失败,也可以使用预写日志中的数据进行恢复。
  二、基于Direct的方式
  这种新的不基于Receiver的直接方式,是在Spark 1.3中引入的,从而能够确保更加健壮的机制。替代掉使用Receiver来接收数据后,这种方式会周期性地查询Kafka,来获得每个topic+partition的最新的offset,从而定义每个batch的offset的范围。当处理数据的job启动时,就会使用Kafka的简单consumer api来获取Kafka指定offset范围的数据。
  优点如下:
  简化并行读取:如果要读取多个partition,不需要创建多个输入DStream然后对它们进行union操作。Spark会创建跟Kafka partition一样多的RDD partition,并且会并行从Kafka中读取数据。所以在Kafka partition和RDD partition之间,有一个一对一的映射关系。
  高性能:如果要保证零数据丢失,在基于receiver的方式中,需要开启WAL机制。这种方式其实效率低下,因为数据实际上被复制了两份,Kafka自己本身就有高可靠的机制,会对数据复制一份,而这里又会复制一份到WAL中。而基于direct的方式,不依赖Receiver,不需要开启WAL机制,只要Kafka中作了数据的复制,那么就可以通过Kafka的副本进行恢复。
  三、两种方式的对比
  基于receiver的方式,是使用Kafka的高阶API来在ZooKeeper中保存消费过的offset的。这是消费Kafka数据的传统方式。这种方式配合着WAL机制可以保证数据零丢失的高可靠性,但是却无法保证数据被处理一次且仅一次,可能会处理两次。因为Spark和ZooKeeper之间可能是不同步的。
  基于direct的方式,使用kafka的简单api,Spark Streaming自己就负责追踪消费的offset,并保存在checkpoint中。Spark自己一定是同步的,因此可以保证数据是消费一次且仅消费一次。在实际生产环境中,现在还是大都用Direct方式比较大。
  关于大数据开发,Spark Streaming消费Kafka数据,以上就为大家做了简单的介绍了。Spark Streaming与Kafka的配合,在处理实时数据流上,是不可多得的利器,也是现在市场主流的普遍选择之一。

Golang字符串比较Golang字符串比较字符串比较,可以直接使用进行比较,也可用用strings。Compare比较go中字符串比较有三种方式比较strings。Compare比较strings。E冬奥会最大的赢家是阿里巴巴,火炬是他们设计,云服务是他们提供冬奥会火炬设计来自阿里巴巴天猫精灵团队,由阿里巴巴研究院李剑叶天猫精灵设计师胡二参与设计,整个团队只有七个人。李剑叶一开始也是不以为然,后来去研究整个冬奥的视觉景观,看到源自千里江微信哪些平台可以投稿?我整理了一些我投过稿的平台,号主温柔,而且容易过稿。一片温柔急需大量稿件(长期征稿)征稿类型情感文干货文,稿费1050r篇(有阅读奖励)信件(内容真挚即可),稿费1050r篇图片0空调除湿模式有大用,老王告诉你为什么,没有想象中那么简单很多用户使用空调时,发现空调都带有除湿模式,但又不知道除湿模式是干什么的,本期文章结合空调的制冷原理说说除湿模式的功用。空调除湿模式有什么用?我们可以把空调的除湿模式理解为制冷模式货比三家,小米12才是我的菜早在2021年12月份就有换机的想法,但仔细一想这个时间点肯定能捡漏一些强机,不过心里还是想着买新不买旧的想法,就等了一等。此后高通骁龙8平台的机型都开始预热,于是个人在小米12系想换新手机,运存选择6G8G还是12G?内行人建议你这么选新的一年很多人都想要换一部新的手机,不过在各类品牌各类型号的机型面前,不知道该如何选择了,而且每部手机都有各种各样的优缺点,有时候看完这部很想买,但是看到另外一款又很纠结了。其实选观察是一种认知行为,它依赖于预先存在理解,一套系统信仰一些思想家试图阐明可作为科学之基础的公理化假设这是基础主义的一种形式。从事科研的科学家一般都怀有一些隐含哲学,即证实科学方法需要以下几条基本假设一存在一个客观事实,所有理性的观测者北京中轴线申遗数字中轴项目启动北京雨燕成亮点近日,北京市文物局和腾讯在北京正阳门箭楼联合举办数字中轴,点亮文明北京中轴线申遗数字中轴启动仪式,会上同时发布了北京市文物局北京中轴线申遗保护工作办公室联合腾讯为北京中轴线申遗打造新能源汽车跑不到宣称的续航里程,构成欺诈吗?能源人都在看,点击右上角加关注新能源汽车真实续航里程数和商家宣称里程数相比,常常出现打折,消费者买回了新车,却屡屡在距离宣称续航里程还有相当距离的时候,车子就要没电了。新能源汽车真研究芯片15年,一年花任正非4亿,何庭波备胎转正后一骑绝尘2019年5月17日,华为旗下子公司海思总裁向全体海思员工发表了一封信,信中说到此刻,估计您已得知华为被列入美国商务部工业和安全局(BIS)的实体名单(entitylist)。在中销量连续7年居世界首位新能源汽车有望加速增长2021年,我国新能源汽车产业快速发展,销量达352。1万辆,连续7年居世界首位,市场占有率达到13。4。中国汽车工业协会常务副会长兼秘书长付炳锋将2021年新能源汽车的发展态势,
深入拆解ampamp39搜索引擎ampamp39实现原理一初识ampamp39搜索引擎ampamp39搜索引擎对于很多大厂来说已经不是什么新鲜技术了,百度淘宝等大型网站的搜索功能通常使用搜索引擎技术实现。搜索引擎到底做了什么?它和普通的数据库搜索有什么区别?什么情况下才需要使用搜索深入拆解ampamp39搜索引擎ampamp39实现原理三搜索索引通过上一篇文章我们了解了搜索引擎是如何创建索引的于是通过索引便可以实现快速匹配搜索的内容。拿百度为例,我们试着搜索微信公众平台可以看到匹配结果数高达1000000000个,虽然匹配深入拆解ampamp39搜索引擎ampamp39实现原理二创建索引通过上一篇文章我们大致了解了搜索引擎的基本内容,包括搜索引擎的作用以及基本的实现过程拆分非结构化数据建立索引搜索索引上期回顾深入拆解搜索引擎实现原理一初识搜索引擎今天我们来拆解建立通吃Homekit与米家双平台,放心装随便用的Aqara智能窗帘电机B1当初自己这套老房翻新的动机,就是准备弄一套Aqara智能控制系统来体验HomeKit智能家居平台,但因为征地传言和官方停售HomePod的原因,搁置了直接安装全套Aqara智能控制GPU是怎么处理游戏画面?一文看懂显卡的工作原理,原来这么简单Hello大家好,我是兼容机之家的小牛!在电脑众多零部件里面,显卡是非常重要的一个部件。不管是核心显卡还是独立显卡,无论显卡性能怎么样,没有显卡就没法点亮机器,这就是显卡最基本的作翼联EDUP高增益天线的原理什么是dBi天线增益是否越高越好?在往期的文章中,我们有介绍过SMA和TNC天线接口的区别。那么,这一期,我们将为大家带来的是高增益天线的相关介绍。在无线路由器中,天线增益是一项比较重要的参数,因为它关乎路由器传输庭院设计5个用竹子做装饰的30小花园,颜值瞬间提升了一大截竹子,大家都不陌生,但是你有想过用竹子装饰私家花园吗,今天小谍为大家带来了五个竹子花园,简直是花园颜值的点睛之笔。案例一这是一个长方形的小花园,花园面积不大但是却做了高低差的设计,选实木家具,一定一定要知道这几点近年来发现人们越来越喜欢实木,其实对于实木的喜欢,一方面是装修对于甲醛的畏惧,危害非常大,天然环保的实木材料似乎更受欢迎,成为装修界的网红。其次是中国人对于实木有一种天然的好感,中全城沸腾还有2天,兰州蓝装家博会将霸气来袭不负所望,带着满腔热血与一颗帮你省钱省心省力装修的心,兰州第4届蓝装家博会将于2021年6月1920日与您再次相约甘肃国际会展中心超大规模展出面积,300多家家装大牌强势集结,多重ampampquot程序员应该注重专精?还是广度?ampampquot阿里前辈给出自己的看法究竟是专精一块技术方向,做到深耕其中所向披靡还是谋求什么都能略懂一点的广度,成为一个全方位的人才?关于上述问题不知道大家是否有相同的困扰以下是几位阿里前辈结合他们自身在小厂和大厂的2021全球50家最具创新力公司,华为阿里等5家中国公司上榜据波士顿咨询集团(BCG)最新发布的报告,在2021全球最具创新力的50家公司中,美国有着最多的入榜公司,达到27家。其中,苹果ALphabet谷歌亚马逊微软和特斯拉位居全球前五位