大数据开发工程师Hive(Hive如何进行优化)
1数据存储及压缩优化
针对hive中表的存储格式通常有textfile和orc,压缩格式一般使用snappy。相比于 textfile格式存储,orc占有更少的存储。因为hive底层使用MR计算架构,数据流是hdfs到磁盘再到hdfs,而且会有很多次IO读写操作,所以使用orc数据格式和snappy压缩策略可以降低IO读写,还能降低网络传输量,这样在一定程度上可以节省存储空间,还能提升hql的执行效率;
2 Hive Job优化
① 调节Jvm参数,重用Jvm;
② 合理设置Map个数;
③ 合理设置Reduce个数;
3 Sql语法优化
① 建表优化:
1) Hive创建表的时候,可以建分区表,分桶表;
2) Hive创建表的时候,可以指定数据存储格式:TextFile、SequenceFile、RCfile 、ORCfile;
② 查询时优化:
1) 列裁剪,在查询时只读取需要的列,避免全列扫描,不要使用select * from table;
2) 分区裁剪:在查询时只读取需要分区的数据,避免全表扫描;
3) 开启谓词下推:set hive.optimize.ppd = true,默认是true:
a. 将Sql语句中的where谓词逻辑都尽可能提前执行,减少下游处理的数据量;
4) 大表join小表:
a. 开启MapJoin:set hive.auto.convert.join=true:
b. MapJoin是将Join双方比较小的那个表直接分发到各个Map进程的内存中,在 Map进程中进行Join操作,这样就不用进行Reduce步骤 ,从而提高了速度(大表left join小表才有效 ,小表left join大表会失效);
5) 大表join大表:
a. SMB Join :Sort Merge Bucket Join(数据不仅分桶了,而且每个桶数据是排好序了);
b. 开启SMB Join之后,底层是根据两个表join字段进行分桶存储,这样的话,两张表就变为了基于桶之间join关联查询,而不是基于整张表的join,减少了笛卡尔积;
6) 少用in,用left semi join替代in:
a. 原始写法:select a.id, a.name from a where a.id in (select b.id from b);
b. 用join改写:select a.id, a.name from a join b on a.id = b.id;
c. left semi join改写:select a.id, a.name from a left semi join b on a.id = b.id;
7) 用union all代替union,因为union all不需要去重,也不需要排序,效率高于union;
(每天1小题,进步1点点)
手机慢速度快门抓拍旋转9月20日下午六点半左右在小区北门路口拍摄平移跟拍同时也练习抓拍旋转照片分享如附图ISO200,S18sXHD,18。1MB,ISO926,S150s旋转稍微早一点,车辆尾部旋转变
手机慢速度快门抓拍旋转9月19日晚上七点左右在小区北门路口继续练习旋转(跟拍旋转,抓拍旋转)整理照片分享如附图。XHD,17。1MB,ISO227,S150sXHD,16。6MB,ISO256,S150
一则假新闻如何引发比特币2。16亿美元爆仓?基于信任的加密货币,如今欺诈和谎言缠身。名人一句话就能引领涨跌已不是新鲜事,甚至一件未经核实的事情也能推动行情巨幅震荡。莱特币近期(LTC)就历经了这一遭。美东时间9月13日,Ap
虚拟货币整治进行时,加密市场持续震荡虚拟货币整治进行时,加密市场持续震荡近一周以来,整个加密货币市场遭受重创,市值最大的加密货币比特币的价格一度跌破41000美元。USDT场外交易价格一度降至6。18元,人民币兑美元
木头姐比特币有望在5年内突破50万美元9月14日报道,方舟资本创始人木头姐CathieWood周一在天桥资本举办的SALT会议上称比特币有望在5年内突破50万美元。她说如果我们的预测是对的,企业继续将现金分散到加密货币
怡合达国内工业品一站式采购平台,成长之路道宽且长独立客观第三方研究,为您筛选优质上市公司证券代码301029综合评级AA一主营业务评分801业务分析公司主要产品分为自动化控制工厂客户(下文称FA工厂)在生产自动化生产线和设备中提
移远通信蜂窝通信龙头高速增长,头悬达摩克利斯之剑选股理由营收大幅增长蜂窝通信龙头新股证券简称移远通信评级AA数据截止日期2019年9月30日单位亿元证券代码603236成立日期2010年所在地上海一主营业务主营业务物联网领域蜂窝
环旭电子A股电子制造服务龙头,受益国产化大趋势选股理由业绩稳定增长大陆电子制造服务龙头成交量持续放大突破平台证券简称环旭电子评级A数据截止日期2019年9月30日单位亿元证券代码601231成立日期2003年所在地上海一主营业
拉夏贝尔折翼的天使坠入深渊,断臂求生亦难返天空选股理由股价大幅下滑底部放量上涨证券简称拉夏贝尔评级CC数据截止日期2019年9月30日单位亿元证券代码603157成立日期2001年所在地上海一主营业务主营业务上装下装裙装及配饰
顺络电子国内片式电感龙头,历史新高且涨且谨慎选股理由营收增长传感器概念历史新高成交量持续放大证券简称顺络电子评级BB数据截止日期2019年9月30日单位亿元证券代码002138成立日期2000年所在地深圳一主营业务主营业务片
邓增永花样卖茶十八式在茶行业时间稍长,就逐渐见识了一些花样卖茶的招式,有些还颇具难度。今日敲此简单文字,一是聊作记录,二是抛砖引玉,期待有心人补充。第一式茶农直销。山上有茶园,家里有口锅,炒炒就能买,