范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

排查问题提交hadoop作业偶尔失败

  用户反馈偶尔有作业提交失败,一般运行10-20分钟就出现失败提醒,作业是在系统A提交的hive sql语句,系统A的日志和hiveserver2的日志输出是一样的,都提示YarnException: Failed to submit application_xxx to YARN : Application application_xxx was killed by user xxx at 10.10.x.x
  hiveserver2日志如下: 2023-01-18T05:14:04,073 ERROR [HiveServer2-Background-Pool: Thread-917734] exec.Task: Job Submission failed with exception "java.io.IOException(org.apache.hadoop.yarn.exceptions.YarnException: Failed to submit application_xxx to YARN : Application application_xxx was killed by user userxxx at 10.x.x.x)" java.io.IOException: org.apache.hadoop.yarn.exceptions.YarnException: Failed to submit application_xxx to YARN : Application application_xxx was killed by user userxxx at 10.x.x.x 	at org.apache.hadoop.mapred.YARNRunner.submitJob(YARNRunner.java:345) 	at org.apache.hadoop.mapreduce.JobSubmitter.submitJobInternal(JobSubmitter.java:254) 	at org.apache.hadoop.mapreduce.Job$11.run(Job.java:1570) 	at org.apache.hadoop.mapreduce.Job$11.run(Job.java:1567) 	at java.security.AccessController.doPrivileged(Native Method) 	at javax.security.auth.Subject.doAs(Subject.java:422) 	at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1729) 	at org.apache.hadoop.mapreduce.Job.submit(Job.java:1567) 	at org.apache.hadoop.mapred.JobClient$1.run(JobClient.java:576) 	at org.apache.hadoop.mapred.JobClient$1.run(JobClient.java:571) 	at java.security.AccessController.doPrivileged(Native Method) 	at javax.security.auth.Subject.doAs(Subject.java:422) 	at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1729) 	at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:571) 	at org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:562) 	at org.apache.hadoop.hive.ql.exec.mr.ExecDriver.execute(ExecDriver.java:411) 	at org.apache.hadoop.hive.ql.exec.mr.MapRedTask.execute(MapRedTask.java:151) 	at org.apache.hadoop.hive.ql.exec.Task.executeTask(Task.java:199) 	at org.apache.hadoop.hive.ql.exec.TaskRunner.runSequential(TaskRunner.java:100) 	at org.apache.hadoop.hive.ql.Driver.launchTask(Driver.java:2183) 	at org.apache.hadoop.hive.ql.Driver.execute(Driver.java:1839) 	at org.apache.hadoop.hive.ql.Driver.runInternal(Driver.java:1526) 	at org.apache.hadoop.hive.ql.Driver.run(Driver.java:1237) 	at org.apache.hadoop.hive.ql.Driver.run(Driver.java:1232) 	at org.apache.hive.service.cli.operation.SQLOperation.runQuery(SQLOperation.java:255) 	at org.apache.hive.service.cli.operation.SQLOperation.access$800(SQLOperation.java:91) 	at org.apache.hive.service.cli.operation.SQLOperation$BackgroundWork$1.run(SQLOperation.java:348) 	at java.security.AccessController.doPrivileged(Native Method) 	at javax.security.auth.Subject.doAs(Subject.java:422) 	at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1729) 	at org.apache.hive.service.cli.operation.SQLOperation$BackgroundWork.run(SQLOperation.java:362) 	at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511) 	at java.util.concurrent.FutureTask.run(FutureTask.java:266) 	at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149) 	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624) 	at java.lang.Thread.run(Thread.java:750) Caused by: org.apache.hadoop.yarn.exceptions.YarnException: Failed to submit application_xxx to YARN : Application application_xxx was killed by user userxxx at 10.x.x.x 	at org.apache.hadoop.yarn.client.api.impl.YarnClientImpl.submitApplication(YarnClientImpl.java:304) 	at org.apache.hadoop.mapred.ResourceMgrDelegate.submitApplication(ResourceMgrDelegate.java:299) 	at org.apache.hadoop.mapred.YARNRunner.submitJob(YARNRunner.java:330) 	... 35 more
  提交了作业20分钟被kill了,YARN出错了?作业超时了?用户主动kill了?很难说,不清楚,hiveserver2提交作业是和Hadoop YARN交互,先检查下YARN日志再说。
  YARN日志如下: 23/01/18 05:13:37 INFO resourcemanager.ClientRMService: Allocated new applicationId: 449050 23/01/18 05:13:38 INFO rmapp.RMAppImpl: Storing application with id application_xxx 23/01/18 05:13:38 INFO rmapp.RMAppImpl: application_xxx State change from NEW to NEW_SAVING on event = START ... ... 23/01/18 05:13:44 INFO rmapp.RMAppImpl: Updating application application_xxx with final state: KILLED 23/01/18 05:13:44 INFO rmapp.RMAppImpl: application_xxx State change from NEW_SAVING to FINAL_SAVING on event = KILL 23/01/18 05:13:44 INFO rmapp.RMAppImpl: application_xxx State change from FINAL_SAVING to FINISHING on event = APP_UPDATE_SAVED
  日志没有异常信息,日志打印的原因仍然是收到kill event,和hiveserver2是一致的。经询问系统A本身没有kill功能,那为啥会提示kill,真是用户主动kill的?不敢随意质问用户,会不会超时了,超时会有timeout之类的日志吧,会不会某情况下触发了YARN内部机制然后kill了,先看看YARN源码吧,看看kill event的可能来源。直接搜索关键词"State change from",状态机变更一般都会在一个地方实现,不会搜出很多处
  找到变量定义STATE_CHANGE_MESSAGE,查找引用,找到打印日志的地方
  根据日志是收到了kill event,查看kill event的定义 public enum RMAppEventType {   // Source: ClientRMService   START,   RECOVER,   KILL,    // Source: Scheduler and RMAppManager   APP_REJECTED,
  查找所有引用kill的地方,发现2处调用(可能不全,未完整分析),一是来源RMAppKillByClientEvent,另外一个AbstractYarnScheduler
  RMAppKillByClientEvent来源ClientRMService,根据其类注释可知是给YARN客户端调用 /**  * The client interface to the Resource Manager. This module handles all the rpc  * interfaces to the resource manager from the client.  */ public class ClientRMService extends AbstractService implements
  从日志打印来看,和搜索到的日志是匹配的,是用户主动kill了?
  看看另外一处kill场景AbstractYarnScheduler:
  如果来源是AbstractYarnScheduler,日志会有diagnostic信息,且该方法是kill整个queue的作业,从日志来看不是kill不是来源于此,还是用户或某程序主动概率大。
  第二天用户告之,作业经常卡在NEW_SAVING状态,然后写了个shell用于kill NEW_SAVING状态的作业,这都可以…这么暴力…原因找打了。

XR技术打破空间壁垒!联想为元宇宙应用打造集成优化新算力中国信息通信研究院云计算与大数据研究所研究显示,近年来我国高性能计算机产业飞速发展,并从提供软硬件资源为主逐渐转变为提供算力服务打造高性能计算机应用服务生态为主。加速建立产业生态,Web3。0定义者谈元宇宙中的货币体系(简曰访谈之七)原创近日,王启亨先生作为Web3。0概念最早的提出者与践行者,应云简科技CEO俞洋先生之邀出席简曰直播间,与大家一起探讨元宇宙话题。期间,王启亨先生所谈及的内容涉及Web3。0和元宇宙广西办航空体育嘉年华促航空运动与文旅融合发展图为活动启动仪式现场武鸣区宣传部供图中新网南宁11月13日电(林浩古翔黄俊霖)希望此次赛事的举办,扩大关注航空体育的人群数量,让更多航空爱好者实现飞行梦想,拉动航空体育消费,促进航双11从地面打到天空,快递巨头抢干飞机生意!制空权背后大家在拼什么?文李婷石丹IDBMR2004双11狂欢进行时,快递行业也迎来了送货高峰期。11月3日,商学院记者从货运物流大数据平台了解到,随着双11活动的逐步升温,干线物流数据开启了跳升模式。线医生打人事件风向突变,小区居民力挺医生,都盼两家和解引言打架斗殴是一种非常不好的社会现象,有资料显示,自从人类诞生之日起,这种现象就开始存在,并且,一直延续至今。在原始社会当中,没有法律制度,人们均在不受约束的状态下生活,出于对利益自酿猕猴桃酒,香醇好喝,营养丰富,爱美的人都爱喝葡萄酒,很多人都爱喝,但是,我更爱喝猕猴桃酒,特别是自酿的猕猴桃酒,香醇甜蜜,悠远悠长每天喝一点,精神气爽!猕猴桃,富含维生素,是水果中比较有名气,又好吃的水果,常吃水果,比使用化亮剑中身为师长的李云龙,为何敢顶撞王副军长?在诸多革命题材的影视作品里,亮剑是一部不得不提的代表作,许多人对亮剑都非常喜欢,甚至看了好几遍。足见这部电视剧的魅力之大。主角李云龙也给观众们留下了非常深刻的印象,直到今天,网上还做股票投资可以实现财富自由写与2022年10月中旬直说重点想要在股市里实现财富自由,首先你要设置一个非常高的盈利目标,比如5个亿。你现在是不是要说我疯了,脑子进水了?没错就是要盈利5个亿,拿出20万的资金,内蒙古发现一处距今6000多年前仰韶文化遗址记者从内蒙古自治区乌兰察布市文化旅游体育局获悉,近日,考古人员在察哈尔右翼中旗发现一处新石器时代遗址,经专家初步确认,该遗址为距今6000多年前的仰韶文化庙底沟类型新石器时代遗迹。新住宿经济第一亚朵集团登录美股,有哪些看点?美东时间11月11日,亚朵成功登陆纳斯达克,高开超40。截至2335,亚朵报于每股14。63美元,市值超19亿美元,意味着亚朵成为自2021年6月30日滴滴登陆纽交所以来,第一家以煮冻饺子时切记不要直接下锅煮,牢记2点,和刚包的一样鲜玉衣裹起撑船肚,沸水催熟腹中珍。有才何须多开口,万般滋味肚中藏。饺子,在北方人心中的地位,绝对是数一数二的!开心吃饺子,过节吃饺子,嘴馋了依然还是吃饺子!记得老于小时候,最盼望的事
有哪些真实发生过的正能量故事?我哥哥曾经救过一个人的命,这家人为了感谢哥哥非的认哥哥当儿子。这件事发生了的有十年左右了,那时哥哥二十七岁,在县城边上一家木材厂上班。每天回家都的需要骑一个半小时的摩托车。这年夏天老人常说钱不借三地不走三酒不喝三,说的是啥?有道理?只听说过,事不过三。其他三没听说过。)钱不借三,地不走三,酒不喝三,这三句话你如果悟透了,在你人生的旅途中就会少了许多的烦恼。钱不借三,就是说当你手中有了多余的钱,这个时候你也有能撒贝宁说不要随便把父母接到身边,那不是孝顺。你怎么看?我把父母接到身边六年,父亲去年秋天安详地走了,给了我尽孝的机会和时间。从上大学算起常年在外已经三十多年了,每年回家的次数屈指可数,在家待的时间更是用小时计算也少得可怜,理由总是忙!行政拘留后对自己跟家人和孩子以后的生活有什么影响吗?谢谢邀请,很高兴来回答您的问题。行政拘留后对自己跟家人和孩子以后的生活有什么影响吗?在回答这个问题前,让我们先来了解一下什么是行政拘留?根据我国治安管理处罚法的规定,行政拘留是一种我一个朋友欠了一些网贷,现在还款困难。请问怎么办?我说下我的经历,我之前因为开手机店也是办了很多信用卡,刚开始用的时候感觉特别方便,感觉这些钱都是自己的,然后各种大手大脚,后来因经营不善,最后关了店没了收入后,一盘算自己信用卡的账为什么农村经常因为盖房子闹矛盾?因为邻居眼红,不想让别人比她过的好一是现在有钱了,在原居住的老基地扩建,涉及到自家兄弟或别家的地界而引起的矛盾,二是兄弟多分配不均匀引起的矛盾,三是兄弟合资修建所出的资金不平等而引全家户口都已经迁出农村,但是在农村还有房子,宅基地是不是还属于自己的?随着社会发展,很多农村户口的人到城里打工并且也到城里卖了房子,甚至为了让孩子上学方便还把户口也签到城里了,在我们这的县城,只要城里有自己的合法房子,就可以落户,但这也出现了一个问题不是低保户,也不是贫困户,但房子的墙裂缝了,棚也掉了下来,有补贴吗?不是低保户,也不是贫困户,但房子的墙裂缝了,棚也掉了下来,有补贴吗?你好,今年我国是有个危房改造政策的,危房有区分危险等级的,C级D级等。不同的危房等级补贴会不一样的,在我这里,最为什么农村的老人说没有虫鸣的深山,不要只身前往?村里一位拥有20年走山经验的老人和我说如果见到一座没有虫鸣鸟叫,一片死寂的山,立刻掉头折返,千万不要只身前往!我问为什么呢,他只是摆摆手说不听老人言,定会追悔莫及。我的家乡在一个山包头市气温这么低,天气这么冷。请问供热公司为什么不给送暖气?包头的供热公司非常不一般,就是天再冷不到时间绝对不给送暖,如果来年天变暖,就会早早的给停暖。这就是供暖公司的职责所在机智机智机智供暖公司供暖时间是有规定的,不是大家想供就供的,不能有的农民工工资一天300元,但是他们大多长年累月下来还是贫穷,为什么?农民工一天工资300元,一个月就是9000元,差点就月入过万了。一天工资300元,这个不假,但一个月9000元就不可能了。很多事情,我们不参与其中,没有去亲身经历,是无法看到本质的