Flume采集Kafka数据存储到Hive
需求背景
将Kafka中的数据通过Flume收集并存储到Hive里。环境准备
这里是使用Apache社区版部署的环境,而非CDH、HDP等方式,可以先参考官方文档搭建好环境。配置Hive修改hivesite。xml文件,添加以下内容。propertynamehive。txn。managernamevalueorg。apache。hadoop。hive。ql。lockmgr。DbTxnManagervaluedescriptionSettoorg。apache。hadoop。hive。ql。lockmgr。DbTxnManageraspartofturningonHivetransactions,whichalsorequiresappropriatesettingsforhive。compactor。initiator。on,hive。compactor。worker。threads,hive。support。concurrency(true),andhive。exec。dynamic。partition。mode(nonstrict)。ThedefaultDummyTxnManagerreplicatespreHive0。13behaviorandprovidesnotransactions。descriptionpropertypropertynamehive。support。concurrencynamevaluetruevaluedescriptionWhetherHivesupportsconcurrencycontrolornot。AZooKeeperinstancemustbeupandrunningwhenusingzookeeperHivelockmanagerdescriptionpropertypropertynamehive。metastore。urisnamevaluethrift:localhost:9083valuedescriptionThriftURIfortheremotemetastore。Usedbymetastoreclienttoconnecttoremotemetastore。descriptionproperty创建hive数据库和表,需要注意,建表时需要分区、分桶、事务。CREATEDATABASEtestdb;CREATETABLEtestkafkatohive(timestring,typestring,valuestring,codestring)PARTITIONEDBY(partitiontimestring)CLUSTEREDBY(time)INTO2BUCKETSstoredASORCTBLPROPERTIES(transactionaltrue);配置Flume新建配置文件kafka2hive。conf,内容如下,更多相关的配置可以参考官方文档kafkasource和hivesink。创建source、channel、sinka。sourceskafkasourcea。channelsmemorychannela。sinkshivesinkkafka为souce的配置a。sources。kafkasource。typeorg。apache。flume。source。kafka。KafkaSourcea。sources。kafkasource。zookeeperConnectlocalhost:2181a。sources。kafkasource。bootstrap。serverslocalhost:9092a。sources。kafkasource。topicprocessedrealtimeDataa。sources。kafkasource。channelsmemorychannela。sources。kafkasource。consumer。timeout。ms1000a。sources。kafkasource。batchSize10hive为sink的配置a。sinks。hivesink。typehivea。sinks。hivesink。hive。metastorethrift:hosthivemetadatastore:9083a。sinks。hivesink。hive。databasetestdba。sinks。hivesink。hive。tabletestkafkatohivea。sinks。hivesink。hive。partitionYmda。sinks。hivesink。hive。txnsPerBatchAsk2a。sinks。hivesink。batchSize1a。sinks。hivesink。serializerJSONa。sinks。hivesink。serializer。fieldnamestime,type,value,codechannel的配置a。channels。memorychannel。typecom。my。flume。channel。JsonParsedMemoryChannela。channels。memorychannel。capacity1000a。channels。memorychannel。transactionCapacity100三者之间的关系a。sources。kafkasource。channelsmemorychannela。sinks。hivesink。channelmemorychannel拷贝Hadoop的配置文件coresite。xml和hdfssite。xml到Flume的conf目录里,编辑coresite。xml文件,添加以下内容。propertynamefs。hdfs。implnamevalueorg。apache。hadoop。hdfs。DistributedFileSystemvalueproperty运行Flume。binflumengagentc。conff。confkafka2hive。confnaDflume。root。loggerINFO,console注意事项运行过程中遇到很多类不存在或者找不到类等相关的异常,解决办法是把Hive和Hadoop的相关jar包拷贝到Flume的lib目录下,如下这些是部署过程中碰到的一些,具体可以根据实际情况来处理。Hivehcatalogsharehcataloghivehcatalogstreaming3。1。0。jarhcatalogsharehcataloghivehcatalogcore3。1。0。jarhcatalogsharehcataloghivehcatalogserverextensions3。1。0。jarhcatalogsharehcataloghivehcatalogpigadapter3。1。0。jarhcatalogsharehcataloghivehcatalogcore3。1。0。jarlibhivejdbc3。1。0。jarliblog4j1。2api2。10。0。jarliblog4japi2。10。0。jarliblog4jcore2。10。0。jarliblog4jslf4jimpl2。10。0。jarliblog4jweb2。10。0。jarlibhivestandalonemetastore3。1。0。jarlibhivecontrib3。1。0。jarlibhiveexec3。1。0。jarliblibfb3030。9。3。jarlibcalcitecore1。16。0。jarjdbchivejdbc3。1。0standalone。jarjdbchivejdbc3。1。0standalone。jarHadoopsharehadoopcommonhadoopcommon2。7。7。jarsharehadoopmapreducehadoopmapreduceclientcommon2。7。7。jarsharehadoopmapreducehadoopmapreduceclientcore2。7。7。jarsharehadoopcommonlibcommonsconfiguration1。6。jarsharehadoopcommonlibhadoopauth2。7。7。jarsharehadoophdfshadoophdfs2。7。7。jarsharehadoophdfslibhtracecore3。1。0incubating。jar
你多久没换手机了,小米11使用2年后,又被续命2年问一下,大家上一次换手机是什么时候?你的手机真的有必要换新吗?我们都知道,手机厂商每年都会推出十几,甚至是几十款新机。各种机型让大家看得眼花缭乱,一些新功能也是经常激起消费的购机欲
行程码下架48天了,曾记得,我为它而战2022年12月13日0时起,疫情期间,陪伴我们出行的行程码服务正式下线。这不禁让我想起,在这不久前,我还曾经为行程码,大战10086。时间的车轮是无情的,不管它多么辉煌过,都会随
FTX创始人被逮捕,三年创造的240亿美元身家归零FTX成立于2019年5月,破产前是仅次于币安的全球第二大加密货币交易所,估值达到320亿美元,年交易额达到7190亿美元,创始人萨姆班克曼弗里德(SamBankmanFried)
苹果全力开发A17,性能升级耗电较前代显著改进资料显示,苹果和高通在2019年4月曾宣布达成协议。当时曝光的线路图提到,2023年的iPhone或许会使用骁龙X70调制解调器,但彼时的分析师预测认为这样的可能性不高。因为苹果定
十八线小县城飞速触网春节快递量翻了20倍,网约车直接开到村口本文来源时代财经作者王婷乡村集市上的快递代收点图源时代财经1月28日,随着假期结束,乡村小县城送走近几年来最热闹的春节。经过三年蛰伏,移动互联网浪潮对县域经济的改变尽显。现在是快递
5000万主摄OLED屏苹果或推出iPhoneXR2023据此前的众多消息显示,苹果预计将在今年3月推出入门版新机iPhoneSE4,但据分析师郭明錤的报告显示,苹果已经取消了这部手机的发布计划,原因在于苹果自研基带的不给力。苹果原计划是
加密货币是否还能重现辉煌?如果比特币(Bitcoin)是拳击手,那一定是那种永远不肯放弃的强悍斗士。但在过去几周,随着数字资产行业巨头FTX的倒闭以及其创始人SamBankmanFried在加勒比地区被捕,
专业文章步步高的大招控制权变更的法律分析文蔡夏明律师湖南本土知名商业连锁企业步步高,从2022年四季度开始,通过关停并转从四川市场全面退出后,湖南江西广西也在逐渐瘦身。在公告2022年度预计亏损13亿元至19亿元(202
永泰产业结构更趋优化产业振兴是乡村振兴的重中之重,2022年永泰县不断强龙头补链条兴业态树品牌,推动产业全链条升级,增强市场竞争力和可持续发展能力,奏响跨越赶超的华章,农业产业化步伐加快。位于丹云乡的
房地产业如何高质量发展?汕头明确要这样干新的一年,我们将继续坚持房住不炒的定位,支持市民对住房的刚性需求和改善性需求,全力提振市场信心,疏解企业困难。展望新一年工作计划,汕头市住建局局长陈斌提出新的目标努力推动汕头房地产
快递业务量前50城市出炉!金华蝉联榜首,粤东小城亮了红星资本局注意到,近日,国家邮政局公布了快递业务量前50城市。金华(义乌)市广州市深圳市揭阳市杭州市东莞市上海市汕头市苏州市及泉州市位居前十。截图自国家邮政局官网这份排名与今年全国