范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

大数据开发之数仓工具Hive(一)

  Hive产生的背景
  Hive的产生是基于mr计算框架的,简单的说就是mr学习过于复杂,成本过高,所以hive的初心是对mr做一层包装,让大家能利于sql的优势来处理数据。
  直接使用MapReduce处理大数据,将面临以下问题:
  1:MapReduce 开发难度大,学习成本高(wordCount => Hello World)
  2:Hdfs文件没有字段名、没有数据类型,不方便进行数据的有效管理
  3:使用MapReduce框架开发,项目周期长,成本高
  Hive是基于Hadoop的一个数据仓库工具,可以将  结构化的数据文件  映射为一张表(类似于 RDBMS中的表 ),并提供类SQL查询功能;Hive是由Facebook开源,用于解决海量结构化日志的数据统计。
  Hive本质是:将 SQL 转换为 MapReduce 的任务进行运算
  底层由HDFS来提供数据存储
  可以将Hive理解为一个: 将 SQL 转换为 MapReduce 任务的工具
  如题:数仓是什么?
  数据仓库(Data Warehouse)是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,主要用于管理决策。(数据仓库之父比尔·恩门,1991年提出)。
  1:数据仓库的目的:构建面向分析的、集成的数据集合;为企业提供决策支持
  2:数据仓库本身不产生数据,数据来源于外部
  3:存储了大量数据,对这些数据的分析和处理不可避免的用到Hive
  Hive和RDBMS对比
  由于 Hive 采用了类似SQL 的查询语言 HQL(Hive Query Language),因此很容易将Hive 理解为数据库。其实从结构上来看,Hive 和传统的关系数据库除了拥有类似的查询语言,再无类似之处。
  查询语言相似: HQL <=> SQL 高度相似
  由于SQL被广泛的应用在数据仓库中,因此,专门针对Hive的特性设计了类SQL的查询语言HQL。熟悉SQL开发的开发者可以很方便的使用Hive进行开发。
  数据规模: Hive存储海量数据;RDBMS只能处理有限的数据集;
  由于Hive建立在集群上并可以利用MapReduce进行并行计算,因此可以支持很大规模的数据;而RDBMS可以支持的数据规模较小。
  执行引擎: Hive的引擎是MR/Tez/Spark/Flink;RDBMS使用自己的执行引擎 ,Hive中大多数查询的执行是通过 Hadoop 提供的 MapReduce 来实现的。而RDBMS 通常有自己的执行引擎。
  数据存储: Hive保存在HDFS上;RDBMS保存在本地文件系统或裸设备,Hive 的数据都是存储在 HDFS 中的。而RDBMS是将数据保存在本地文件系统或裸设备中。
  执行速度: Hive相对慢(MR/数据量);RDBMS相对快;Hive存储的数据量大,在查询数据的时候,通常没有索引,需要扫描整个表;加之Hive使用MapReduce作为执行引擎,这些因素都会导致较高的延迟。而RDBMS对数据的访问通常是基于索引的,执行延迟较低。当然这个低是有条件的,即数据规模较小,当数据规模大到超过数据库的处理能力的时候,Hive的并行计算显然能体现出并行的优 势
  可扩展性: Hive支持水平扩展;通常RDBMS支持垂直扩展,对水平扩展不友好 Hive建立在Hadoop之上,其可扩展性与Hadoop的可扩展性是一致的(Hadoop集群 规模可以轻松超过1000个节点)。而RDBMS由于 ACID 语义的严格限制,行扩展非常 有限。目前最先进的并行数据库 Oracle 在理论上的扩展能力也只有100台左右。
  数据更新: Hive对数据更新不友好;RDBMS支持频繁、快速数据更新 Hive是针对数据仓库应用设计的,数据仓库的内容是读多写少的。因此,Hive中不建议对数据进行改写操作,所有的数据都是在加载的时候确定好的。而RDBMS中的数据需要频 繁、快速的进行更新。
  Hive的优缺点
  Hive的优点
  1:学习成本低。Hive提供了类似SQL的查询语言,开发人员能快速上手;
  2:处理海量数据。底层执行的是MapReduce 任务;
  3:系统可以水平扩展。底层基于Hadoop;
  4:功能可以扩展。Hive允许用户自定义函数;
  5:良好的容错性。某个节点发生故障,HQL仍然可以正常完成;
  6:统一的元数据管理。元数据包括:有哪些表、表有什么字段、字段是什么类型;
  Hive的缺点
  1:HQL表达能力有限;
  2:迭代计算无法表达;
  3:Hive的执行效率不高(基于MR的执行引擎);
  4:Hive自动生成的MapReduce作业,某些情况下不够智能;
  5:Hive的调优困难;
  Hive架构
  如上图:
  用户接口 CLI(Common Line Interface) :Hive的命令行,用于接收HQL,并返回结果; JDBC/ODBC :是指Hive的java实现,与传统数据库JDBC类似; WebUI :是指可通过浏览器访问Hive。
  Thrift Server :Hive可选组件,是一个软件框架服务,允许客户端使用包括Java、C++、Ruby和其他很多种语言,通过编程的方式远程访问Hive;
  元数据管理(MetaStore)  Hive将元数据存储在关系数据库中(如mysql、derby)。Hive的元数据包括:数据库名、表名及类型、字段名称及数据类型、数据所在位置等;
  解释器 (SQLParser)  :使用第三方工具(antlr)将HQL字符串转换成抽象语法树(AST);对AST进行语法分析,比如字段是否存在、SQL语义是否有误、表是否存在;
  编译器 (Compiler)  :将抽象语法树编译生成逻辑执行计划;
  优化器 (Optimizer)  :对逻辑执行计划进行优化,减少不必要的列、使用分区等;
  执行器 (Executr)  :把逻辑执行计划转换成可以运行的物理计划;
  Hive通过CLI,JDBC/ODBC或HWI接受相关的Hive SQL查询,并通过Driver组件进行编译,分析优化,最后编程可执行的MapReduce任务。
  如上图大家不好理解,也可根据下图查看具体的执行逻辑:
  原创作者:Flying Young
  推荐阅读:
  大数据开发之Hive
  大数据开发之数据仓库Hive
  大数据开发技术-Hive实战
  大数据开发技术之Hive的构架原理

2023芜湖航空马拉松3月26日鸣枪开跑一往芜前,飞向春天。芜湖航空马拉松组委会15日在北京召开的新闻发布会上表示,突出航空主题的2023芜湖航空马拉松将于3月26日鸣枪开跑。2023芜湖航空马拉松是由安徽省体育局和芜湖孙颖莎恩师每个人的成长道路上都离不开恩师。00后孙颖莎也一样,在孙颖莎的成长道路上也遇到了很多恩师。孙颖莎是幸运的,在省队她遇到了杨广弟,俗话说,千里马常有,而伯乐不常有。再好的千里马,如果火箭5换1正式追求布里奇斯!交易筹码诚意十足2223赛季NBA交易截止日期已经到来,联盟的球队无法再进行交易补强,只能在买断市场上寻找新的机会。毫无疑问,绿军得到穆斯卡拉之后,阵容的厚度进一步提升,残阵依旧能够和完全体雄鹿打为了吃,它们进化出了长脖子(不是长颈鹿)你可能见过长颈鹿,那你见过长颈虫吗?图古泽蛉生活环境重建(中央美术学院白冰洋副教授绘制)近日,我国古生物学者在内蒙古道虎沟生物群的化石中发现了一种虫子,生活在大约1。6亿年前的侏罗为什么荣耀80能够卖的那么好?体验一个月后我找到了答案根据IDC数据显示,2022年全年中国智能手机市场出货量约2。86亿台,同比下降13。2,创有史以来最大降幅,虽然整体市场还是处于比较低迷的状态,但是我们似乎看到了一个异类,在大多盘点采用曲面屏设计的荣耀手机,共23款1荣耀Magic搭载麒麟950处理器,采用台积电16nm的制程工艺,自主研发ISP引擎。吞吐率性能相比上代提升四倍,还内置i5协处理器,采用最新M7核心,性能更强,功耗更低正面是一穗龙一家亲文旅心连心游客在龙岩市永定区土楼景区观看民俗表演。新华社发穗龙情深共谋高质量发展广州日报讯(全媒体记者陈薇薇通讯员穗文广旅宣)2月14日,广州龙岩文旅对口合作座谈在广州举办,两地文旅部门和企2023年2月16日焦点图2月15日,2023年春运迎来最后一天。数据显示,今年春运,全国铁路公路水路民航累计发送旅客超过15亿人次。其中,广西累计发送旅客超过3400万人次。图为近日,一列动车行驶在柳州市春日里的中国春到赣鄱大地田园万象耕新央广网新余2月16日消息(记者邓玉玲)初春时节,乍暖还寒,乡间田野乡村公路间,目之所及之处皆是春天。赣鄱大地金灿灿的油菜花竞相开放,与村庄远山河流共同绘就出一幅美丽的乡村春景图。江彩云之南再行记十四迪庆州之十四香格里拉大龟山参观迪庆红军长征博物馆后,开始攀登独克宗古城最有代表性的景点大龟山(公园)。唐代仪凤调露年间(676年一679年)吐蕃就在大龟山顶建筑寨堡,名独克宗,建在石头上的城堡,即历史上著名灵秀山岳。厦门翔安。温婉曾溪曾溪,与其说是一个水库,我更愿意说她是一个美丽的湖泊。白云,碧水,远山,青草。。宛如温婉少女那般纯洁,清澈。白云,碧水,远山,青草。。宛如温婉少女那般纯洁,清澈。四季的曾溪,四季的
2022。10。02早安心语,正能量很潮语录周末特美早上好图片励志早上好,今天是2022年10月02日,星期日,农历九月初七,壬寅年虎年己酉月戊子日。新的一天,新的开始,迈开脚步就是路。学会善待自己懂得宽容他人始终保持淡然的心态,感受生活中积极美劳动报150平方米巨幅国旗亮相环球港南广场摘要150平方米巨幅国旗贺国庆今年是中华人民共和国成立73周年。10月1日,150平米的巨幅国旗在上海环球港南广场亮相,同时现场还邀请了近百位儿童共同唱响我和我的祖国,让爱国情怀飘国庆宅家手游篇从卡牌到MOBA,中世纪到二次元,总有一款适合你国庆节长假终于来了,连休七天,当下的状况出去嗨是不太方便了,找本地损友聚聚之后,总要有个三四天宅在家里,这时候玩游戏不就是首选了?这就给大家推荐一些不错的游戏消磨你难得的躺平时光,S12上单开始整活!呼吸哥被轻视,竟连遇提莫盖伦不久前,RNG完成了第四场S12入围赛,最终相对轻松地击败了IW。说起和IW的这场比赛,可以算是小虎的一场世仇。它之前在美服中与IW球员有一些摩擦,所以可以理解为什么RNG球员会死PS会员没被抛弃会免黑相集可免费升级次世代版日前,我们曾报道,PS基础会员领取的黑相集棉兰号无法升级至次世代版本,购买版本可以升级。而现在,通过会免领取的玩家也已经可以免费升级次世代版本了,还没玩过的朋友可以去试试。最近该作太吾绘卷Bug过多,主创团队甩锅对线前程序员文章来源小黑盒gdtop叁佰尊重原创,版权为原作者所有,如有侵权,请联系我们删除。9月21日,期待已久的太吾绘卷正式版发售,茄子重构游戏的底层代码架构,相比于先前的EA版,游戏的新Rng世界赛大战奇葩上单提莫盖伦头条创作挑战赛你觉得如今英雄联盟中谁最能配得上上路线霸的称号?想必每个人心中的答案都不止一个,像诺手腕豪铁男都有竞争的资本。就算是在是不太行的英雄,拳头也会对它进行重做,成功的案例重返猴岛曲终人亦散,灯火意阑珊Swordfightingisalittlelikemakinglove。Itsnotalwayswhatyoudo,butwhatyousay。CaptainSmirk论剑如此,时之奇旅妲己埋伏草丛的玩法思路,必须具备三件装备文卡哥游戏攻略大家好,我是卡哥。这一期咱们要重点来讨论讲解下妲己的玩法,主要是为了让喜欢妲己新皮肤(时之奇旅)的玩家能够一边体验皮肤带来的快乐,另外一方面是考虑到队友的情绪,希望大孩子身体进入猛涨期,3大信号父母不可忽视,把握好孩子长的更高尽管我们都一直强调,一个人内涵和气质更重要,心灵美才是美。但不可否认的是,没有人不会不介意自己长得丑,或者身高矮,内涵气质这些也大多是自我安慰。在这个短视频直播的时代,一个人颜值高听完这个真实故事,我再也不敢让娃轻易打回去了我要上头条育儿最近我在微信收到了一位妈妈的求助。这位妈妈说,儿子今年刚上一年级,因为从小体弱多病,长得比同龄孩子都要瘦小。所以,她最担心的就是孩子在学校受欺负。然而,就在前几天,她