专栏电商日志财经减肥爱情
投稿投诉
爱情常识
搭配分娩
减肥两性
孕期塑形
财经教案
论文美文
日志体育
养生学堂
电商科学
头戴业界
专栏星座
用品音乐

1。Sqoop入门

  1。1Sqoop简介
  Sqoop即SqlToHadoop
  一般来说数据仓库中的数据不应该只有行为数据,还需要有业务数据,而业务数据一般存放在关系型数据库(例如Oracle、Mysql、SqlServer等)中,而在以前,从关系型数据库中导出数据到Hadoop是非常困难的,市场上也需要一款可以方便导入和导出的工具,此时Sqoop、Datax、Kettle等工具应运而生。
  官网:https:sqoop。apache。org
  ApacheSqoop项目在2021年6月就已经进入Attic了,这意味着Sqoop移动到Attic后,是不会再修复任何的Bug、Release新版本了,并且也不会再重启社区,但从使用角度来说是完全不受影响的,ApacheAttic依旧会提供代码库的下载。
  虽然Sqoopy已经退役,但目前将Sqoop做数据迁移工具公司也不在少数,如果遇到问题,我们只能自己建个分支去fix了。
  Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、oracle。。。)之间进行数据的传递,可以将一个关系型数据库(例如:MySQL、Oracle、Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
  简单来说Sqoop的定位就是Hadoop生态存储和结构化存储之间的数据迁移。
  我们比较常见的场景就是HDFSHBaseHive和MySqlOracle之间的数据互导。Sqoop作为数据传输的桥梁,通过定义MapReduce的InPutFormat和OutPutFormat来对接源存储和目的存储。
  Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发,Sqoop独立成为一个Apache项目。
  Sqloop的版本
  目前Sqoop总体有两大版本分为Sqoop1和Sqoop2,Sqoop1的最新release是1。4。7;
  Sqoop2的最新Release是1。99。7;这里如果大家使用的话推荐使用Sqoop1,而Sqoop2虽然增加了CLI和Restapi,但实际上是一个半成品,跟Sqoop1也完全不兼容,并且无论是CDH还是之前Apache都是不建议生产使用的,自己随便玩玩还可以。
  请注意,2与1不兼容,且特征不完整,它并不打算用于生产部署1。2Sqoop原理
  将导入或导出命令翻译成mapreduce程序来实现。
  在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。
  整个Sqoop的迁移过程,都会对应着一个MapReduce作业,实际上只有Map阶段,而迁移大致分为5个部分,如下所示。
  Sqoop逻辑简图
  Initializer:整个Sqoop迁移的初始化阶段,完成迁移前的准备工作,如连接数据源,创建临时表,添加依赖的jar包等。
  Partitioner:源数据分片,根据作业并发数来决定源数据要切分多少片。
  Extractor:开启extractor线程,内存中构造数据写入队列之中;
  Loader:开启loader线程,从队列中读取数据并写入对应后端;
  Destroyer:整个迁移的收尾工作,断开sqoop与数据源的连接,完成资源回收;
  流程解析:
  当迁移任务启动后,首先会进入初始化部分,使用JDBC检查导入的数据表,检索出表中的所有列以及列的数据类型,并将这些数据类型映射为Java数据类型,在转换后的MapReduce应用中使用这些对应的Java类型来保存字段的值,在每次Sqoop的任务执行时,代码生成器使用这些信息来创建对应表的类,用于保存从表中抽取的记录,即xxxx。java文件。
  紧接着Partitioner会根据splitby或者m指定整个任务的分片数量,如不指定默认是4个分片(每一个partition对应着一个Mapper),然后编译成一个本地Jar包用于提交MapReduce作业。当任务提交到集群后,每个Mapper会分别启动一个Extractor线程和Loader线程,整个MapReduce的InputFormat实际上是通过JDBC读取原端数据写入到Context中,而Loader线程将从Context中读出写入对应的数据作为OutPutFormat迁移的目的端。当任务执行完成后,yarn资源释放,随之Destroyer回收所有与数据源的连接。
  这里主要讲述的是Import的过程,而export流程与import十分相似,是把数据解析为一条条insert语句,在此不过多解析。1。3Sqoop安装
  安装Sqoop的前提是已经具备Java和Hadoop的环境。
  本文使用的是三台集群环境,选取192。168。204。103这台主机进行安装。
  下载并解压
  1)下载地址:http:archive。apache。orgdistsqoop1。4。7
  2)上传安装包sqoop1。4。7。binhadoop2。6。0。tar。gz到虚拟机中
  optsoftsqoop1。4。7。binhadoop2。6。0。tar。gz
  3)解压sqoop安装包到指定目录,例如:
  〔rootnode103soft〕tarzxvfsqoop1。4。7。binhadoop2。6。0。tar。gzC。。module
  如果觉得目录名称过长,可以修改一下:〔rootnode103sqoop1。4。7。binhadoop2。6。0〕pwd
  optmodulesqoop1。4。7。binhadoop2。6。0
  〔rootnode103module〕mvsqoop1。4。7。binhadoop2。6。0sqoop
  〔rootnode103sqoop1。4。7。binhadoop2。6。0〕pwd
  optmodulesqoop
  修改配置文件
  Sqoop的配置文件与大多数大数据框架类似。
  可以在etcprofile中配置,导出为全局变量
  或者
  在sqoopenv。sh文件中配置,该文件在sqoop根目录下的conf目录中。(本文章用的是这个方式进行的配置)
  我们需要配置哪些内容呢?HADOOPHOME
  HIVEHOME
  HBASEHOME
  ZOOKEEPERHOME
  为什么是这些环境变量,因为后面案例中要实现的导入、导出功能有:RDBMSHDFS
  RDBMSHive
  RDBMSHBase
  HDFSRDBMS
  HiveRDBMS
  1)重命名或复制一个配置文件〔rootnode103conf〕mvsqoopenvtemplate。shsqoopenv。sh
  或
  〔rootnode103conf〕cpsqoopenvtemplate。shsqoopenv。sh
  2)修改配置文件
  sqoopenv。shexportHADOOPCOMMONHOMEoptmodulehadoop2。7。5
  exportHADOOPMAPREDHOMEoptmodulehadoop2。7。5
  exportHBASEHOMEoptmodulehbase1。3。1
  exportHIVEHOMEoptmoduleapachehive2。1。1bin
  exportZOOKEEPERHOMEoptmodulezookeeper3。4。9
  exportZOOCFGDIRoptmodulezookeeper3。4。9conf
  效果图如下:
  拷贝JDBC驱动
  拷贝jdbc驱动到sqoop的lib目录下,可以从之前Hive的安装目录下找到mysql驱动包:〔rootnode103lib〕pwd
  optmoduleapachehive2。1。1binlib
  〔rootnode103lib〕cpmysqlconnectorjava5。1。38。jaroptmodulesqooplib
  验证Sqoop
  我们可以通过某一个command来验证sqoop配置是否正确:〔rootnode103sqoop〕pwd
  optmodulesqoop
  〔rootnode103sqoop〕。binsqoophelp
  出现一些Warning警告(警告信息已省略),并伴随着帮助命令的输出:usage:sqoopCOMMAND〔ARGS〕
  Availablecommands:
  codegenGeneratecodetointeractwithdatabaserecords
  createhivetableImportatabledefinitionintoHive
  evalEvaluateaSQLstatementanddisplaytheresults
  exportExportanHDFSdirectorytoadatabasetable
  helpListavailablecommands
  importImportatablefromadatabasetoHDFS
  importalltablesImporttablesfromadatabasetoHDFS
  importmainframeImportdatasetsfromamainframeservertoHDFS
  jobWorkwithsavedjobs
  listdatabasesListavailabledatabasesonaserver
  listtablesListavailabletablesinadatabase
  mergeMergeresultsofincrementalimports
  metastoreRunastandaloneSqoopmetastore
  versionDisplayversioninformation
  SeesqoophelpCOMMANDforinformationonaspecificcommand。
  这里的输出信息中有一个HBase路径不正确,是因为做测试已经移除掉HBase,需要重新安装HBase即可(请参考Hbase系列)。
  测试Sqoop是否能够成功连接数据库
  〔rootnode103sqoop〕。binsqooplistdatabasesconnectjdbc:mysql:node103:3306usernamerootpassword123456
  出现如下输出:informationschema
  hive
  mysql
  test
  至此,Sqoop安装完毕!

为什么我们讨厌安倍晋三?并不只是因为他是日本人安倍遇刺身亡后,很多中国网民在网上发表自己的看法。而一些网民则站在道德制高点上,批评幸灾乐祸的人。其实,我们确实有讨厌安倍的理由。光我想到的,就有7条。一是因为他的祖辈就有侵华日军日本历史上安倍晋三不是唯一被刺杀致死的首相2022年7月8日安倍晋三在奈良士进行演讲时遭枪击,因伤重不治身亡。消息一出震惊世界。而安倍晋三,并不是第一位遭受刺杀的日本首相。日本历史上被刺杀的首相有9位,居然有7位死在刺客的关注实战化挂钩训练,淬炼过硬民兵战斗队文图王洪生矛不磨不利兵不练不强民兵作为我国武装力量的重要组成部分是打赢新时代人民战争的重要支撑为进一步提升民兵队伍应急应战和国防动员援战能力安徽省含山县人武部联合辖区现役部队开启实毒瘤尽除不再摆烂,曼联更衣室再次团结,布鲁诺马奎尔各有分工在曼联离开卡灵顿基地开启季前巡回赛之前,曼联主教练滕哈格接受了媒体的采访,滕哈格赞赏了曼联更衣室的氛围,表示这一批球员相互之间配合的非常好,而且都很想踢好比赛。这种氛围与上赛季频繁他曾是央视综艺盛典台柱,因同性恋丑闻退赛,现退役去了美国曾是央视综艺盛典的台柱,因同性恋丑闻退赛,现下落不明他叫顾斌,1981年出生于浙江杭州。作为一名央视新生代优秀男主持人,顾斌以其不同于其他男主持人的个性,迅速成为观众心目中最有能力原创小说国度国度引子人死后会去哪里?至今科学还无法解释。根据超弦理论,万物起源于空,如果我利用这一理论将宇宙万物归为高维空间的玩物,也就是所谓的弦动。那人死后会成为一些微粒子,这些微粒子通过扩原创小说国度(二)战斗国度(二)战斗炎炎烈日下,晴在修补着地上到处都是的裂口,只见她赤裸着身子,手里拿着一盆修补仪器,她带领着一群和她一样光着身子的人疯狂作业中。都加把劲,今天工程必须要把这几块裂缝修补天津推进放管服改革持续优化营商环境视频加载中8日,市政府新闻办召开发布会,介绍近期天津优化营商环境的举措。印发免申即享政策清单,涉及发展改革检验检疫生态环境城市管理工程建设民政税务等多方面的53项政策免予申报直接享你很瘦,却躲不开小肚腩?教你3招据说健身减肥的人里10个人有9个半都会有下面的问题腹部脂肪到底应该怎么减?体重下了不少,小肚腩依旧还在身体哪儿都不胖,单单肚子上脂肪不少。说好的体重无所谓,但说好的马甲线呢?为什么牢记千里之堤毁于蚁穴,动态清零绝不动摇7月8日,国务院联防联控机制召开新闻发布会,国家卫生健康委新闻发言人宣传司副司长米锋会上表示要毫不动摇坚持外防输入内防反弹总策略和动态清零总方针,严格执行第九版防控方案要求,从严落王毅会见加拿大外长乔利新华社印度尼西亚巴厘岛7月9日电(记者余谦梁)当地时间2022年7月8日,国务委员兼外长王毅在巴厘岛出席二十国集团外长会期间应约会见加拿大外长乔利。乔利表示,加方重视加中关系,愿同
现实又很骨感的经典句子,句句精辟在理一生活或许很苦逼,现实或许很骨感,但关键的是,你怂了!二理想是非常满,现实是骨头。我在中间打碎了。三很多梦想破灭的理由是现实的骨感,可他们却不知现实是梦想不可或缺的一部分。四生活可近3天主力资金最大买入100股及大幅卖出100股名单若不喜欢看表格,输入任何数字进入底部图片区域。更新日期9月8日收盘近3日主力资金大幅买入最多的100股序号代码名称最新价3日涨跌幅主力净流入主力净占比1hr601012hr隆基绿能1976年他接替受审的乔冠华,出任外交部长,官至国务院副总理1935年12月9日,北平大中学生数千人举行了规模宏大的示威游行,反对华北自治,反抗日本帝国主义对中国的侵略,称一二九运动。这次运动中,有一名来自燕京大学的热血青年,名叫黄华,一个1973年,毛主席下令八大军区对调,这三位将军竟是老乡1969年,中苏关系迅速恶化,苏联更是在我国边境陈兵百万,甚至还扬言要对我国进行核武打击。在如此严峻的国际形势下,毛主席却突然进行了调换军区司令的举动。那么,毛主席此举究竟有何深意A股唯一一只!特高压光伏煤炭黄金绿色电力,市盈率不到7倍今天看的这家公司,个人认为,是A股市场上唯一一只具备特高压光伏煤炭黄金绿色电力等多重热门赛道于一体的公司。而除了这诸多热门赛道傍身之外,公司自身的业绩也是表现非常亮眼的,去年公司业港股收评恒指跌1内房股下挫旭辉控股集团跌超13,腾讯跌超39月8日港股开盘后震荡下行,恒生指数恒生科技指数跌1,油气电池汽车股跌幅居前。内房股下跌,旭辉控股集团跌超13,碧桂园跌6,绿景中国跌超5。石油股下挫,中海油田服务跌超4。市场对欧石药集团再次入选中国民企500强9月7日,中华全国工商业联合会发布信息,公布2022中国民营企业500强发布报告。石药集团连续四年入选中国民营企业500强。今年民营企业500强中,研发人员占员工总数超过3的企业2人民币对美元接连贬值,会破7吗?怎么看?受美元指数持续走高影响,近期人民币对美元汇率出现了一轮较快贬值,引发市场广泛关注。人民币对美元汇率是否会破7?如果破7该怎么看?人民币资产还香吗?一起来看本期快问快答截图自中国外汇新版首发,Adobe20229月全家桶全新升级版来了!新增更多黑科技Adobe2022软件越新它的功能就越强大问题越少本期带来Adobe2022全家桶9月新版全套版本升级PS202223。5ACR14。5Bridge202212。0ACR14。5L是时候备几双适合秋天穿出门的鞋子了!这儿30套模板,请大家参考正值跨季,不少小姐姐们已经开始着手准备早秋单品了!眼光前卫的时尚达人们也已经争先恐后地为大家提供了无数参考模板。不过这篇文章的内容并不是循规蹈矩地教大家如何选单品,而是要告诉大家,Dior成2022秋季热度最高的奢侈品牌据Launchmetrics发布的最新报告显示,Dior2022秋季时装秀在社交媒体上的下载量达1。37万次,紧随其后的是Chanel和Valentino,下载量分别为11920次
友情链接:快好找快生活快百科快传网中准网文好找聚热点快软网