范文健康探索娱乐情感热点
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

如何提高IT运维效率基于运维日志异常检测AIOps落地实践

  作者:京东科技 张宪波、张静、李东江
  基于 NLP 技术对运维日志聚类,从日志角度快速发现线上业务问题
  日志在 IT 行业中被广泛使用,日志的异常检测对于识别系统的运行状态至关重要。解决这一问题的传统方法需要复杂的基于规则的有监督方法和大量的人工时间成本。我们提出了一种基于自然语言处理技术运维日志异常检测模型。为了提高日志模板向量的质量,我们改进特征提取,模型中使用了词性(PoS)和命名实体识别(NER)技术,减少了规则的参与,利用 NER 的权重向量对模板矢量进行了修改,分析日志模板中每个词的 PoS 属性,从而减少了人工标注成本,有助于更好地进行权重分配。为了修改模板向量,引入了对日志模板标记权重的方法,并利用深度神经网络 (DNN) 实现了基于模板修正向量的最终检测。我们的模型在三个数据集上进行了有效性测试,并与两个最先进的模型进行了比较,评估结果表明,我们的模型具有更高的准确度。
  日志是记录操作系统等 IT 领域中的操作状态的主要方法之一,是识别系统是否处于健康状态的重要资源。因此,对日志做出准确的异常检测非常重要。日志异常一般有三种类型,即异常个体日志、异常日志序列和异常日志定量关系。我们主要是识别异常个体日志,即包含异常信息的日志。
  一般来说,日志的异常检测包括三个步骤:日志解析、特征提取和异常检测。
  1)解析工具提取的模板是文本数据,应将其转换为数字数据,以便于输入到模型中。为此,特征提取对于获得模板的数字表示是必要的。
  2)在模板特征提取方面,业界提出了多种方法来完成这一任务。独热编码是最早和最简单的方法之一,可以轻松地将文本模板转换为便于处理的数字表示,但是独热编码是一种效率较低的编码方法,它占用了太多的储存空间来形成一个零矢量,而且在使用独热编码时,忽略了日志模板的语义信息。除了这种方便的编码方法外,越来越多的研究人员应用自然语言处理 (NLP) 技术来实现文本的数字转换,其中包括词袋,word2vec 等方法。虽然上述方法可以实现从文本数据到数字数据的转换,但在日志异常检测方面仍然存在一些缺陷。词袋和 word2vec 考虑到模板的语义信息,可以有效地获得单词向量,但是它们缺乏考虑模板中出现的每个模版词的重要性调节能力。此外,深度神经网络 (DNN) 也被用于模板的特征提取。
  我们的模型主要改进特征提取,同时考虑每个标记的模版词语义信息和权重分配,因为标记结果对最终检测的重要性不同。我们利用两种自然语言处理技术即 PoS 和命名实体识别 (NER),通过以下步骤实现了模板特征的提取。
  具体来说,首先通过 FT-Tree 将原始日志消息解析为日志模板,然后通过 PoS 工具对模板进行处理,获得模板中每个词的 PoS 属性,用于权重向量计算。同时,通过 word2vec 将模板中的标记向量化为初始模板向量,并利用权值向量对初始模板向量进行进一步修改,那些重要的模版词的 PoS 属性将有助于模型更好地理解日志含义。对于标记完 PoS 属性的模版词,词对异常信息识别的重要性是不同的,我们使用 NER 在模版的 PoS 属性中找出重要性高的模版词,并且被 NER 识别为重要的模版词将获得更大的权重。然后,将初始模板向量乘以这个权重向量,生成一个复合模板向量,输入到 DNN 模型中,得到最终的异常检测结果。为了减少对日志解析的人力投入,并为权重计算做准备,我们采用了 PoS 分析方法,在不引入模板提取规则的情况下,对每个模板词都标记一个 PoS 属性。
  解析模板的特征提取过程是异常检测的一个重要步骤,特征提取的主要目的是将文本格式的模板转换为数字向量,业界提出了各种模板特征提取方法:
  One-hot 编码 :在 DeepLog 中,来自一组 k 模板 ti,i [0,k)的每个输入日志模板都被编码为一个 One-hot 编码。在这种情况下,对于日志的重要信息 ti 构造了一个稀疏的 k 维向量 V = [ v0,v1,... ,vk-1] ,并且满足 j 不等于 i, j [0,k),使得对于所有 vi= 1 和 vj = 0。
  ** 自然语言处理 (NLP):** 为了提取日志模板的语义信息并将其转换为高维向量,LogRobust 利用现成的 Fast-Text 算法从英语词汇中提取语义信息,能够有效地捕捉自然语言中词之间的内在关系 (即语义相似性) ,并将每个词映射到一个 k 维向量。使用 NLP 技术的各种模型也被业界大部分人使用,如 word2vec 和 bag-of-words 。
  ** 深度神经网络(DNN):** 与使用 word2vec 或 Fast-Text 等细粒度单元的自然语言处理 (NLP) 不同,LogCNN 生成基于 29x128codebook 的日志嵌入,该 codebook 是一个可训练的层,在整个训练过程中使用梯度下降进行优化。
  **Template2Vec:** 是一种新方法,基于同义词和反义词来有效地表示模板中的词。在 LogClass 中,将经典的加权方法 TF-IDF 改进为 TF-ILF,用逆定位频率代替逆文档频率,实现了模板的特征构造。
  3)一段原始日志消息是一个半结构化的文本,比如一个从在线支付应用程序收集的错误日志读取为: HttpUtil-request 连接失败,Read timeout at jave.net。它通常由两部分组成,变量和常量 (也称为模板)。对于识别个体日志的异常检测,目的是从原始日志解析的模板中识别是否存在异常信息。我们的模型使用 PoS 分析以及 NER 技术来进行更精确和省力的日志异常检测。PoS 有助于过滤标记有不必要的 PoS 属性的模版词,NER 的目标是将重要性分配给所有标记为重要的 PoS 属性的模版词。然后通过模板向量和权向量的乘积得到复合模板向量。
  我们的日志异常检测模型包括六个步骤,即模板解析、 PoS 分析、初始向量构造、基于 NER 的权重计算、复合向量和最终检测。检测的整个过程如图 1 所示:
  第一步:模板解析
  初始日志是半结构化的文本,它们包含一些不必要的信息,可能会造成混乱或阻碍日志检测。因此,需要预处理来省略变量,比如一些数字或符号,并提取常量,即模板。以前面提到的日志消息为例,原始日志 HttpUtil-request 连接 [wx/v1/pay/prepay] 的模板失败,Read timeout at jave.net。可以提取为: HttpUtil 请求连接 * 失败读取时间为 * 。我们使用简单而有效的方法 FT-Tree 来实现日志解析,我们没有引入复杂的基于规则的规则来去除那些不太重要的标记,比如停止词。
  第二步:PoS 分析
  上一步的模版解析结果只有英语单词、短语和一些非母语单词保留在解析好的模板中,这些模版词具有各种 PoS 属性,例如 VB 和 NN。根据我们对大量日志模板的观察,一些 PoS 属性对于模型理解模板所传达的意义很重要,而其他属性可以忽略。如图 3 所示,解析模板中的单词 "at" 在理论上是不必要的,相应的 PoS 属性 " IN" 也是不必要的,即使去掉 IN 的标记,我们仍然可以判断模板是否正常。因此,在我们得到了 PoS 向量之后,我们可以通过去掉那些具有特定 PoS 属性的模版词来简化模板。剩余的模版词对于模型更好地理解模板内容非常重要。
  第三步:初始模板向量构造
  在获得 PoS 矢量的同时,模板也被编码成数字向量。为了考虑模板的语义信息,在模型中使用 word2vec 来构造模板的初始向量。该初始向量将与下一步得到的权重向量相乘,得到模板的复合优化表示。
  第四步: 权重分析
  首先对模板中的模版词进行 PoS 分析处理,剔除无意义的模版词。至于其余的模版词,有些是关键的,用于传达基本信息,如服务器操作、健康状态等。其他的可能是不太重要的信息,比如动作的对象、警告级别等等。为了加大模型对这些重要模版词的学习力度,我们构造了一个权重向量来突出这些重要的模版词。为此,我们采用了 NER 技术,通过输入已定义的重要实体,学习挑选标记为重要实体的所有模版词。该过程如图所示:
  CRF 是 NER 通常使用的工具,它也被用于我们的模型识别模版词的重要性。也就是说,通过向模型提供标记为重要的模版词,模型可以学习识别那些未标注的日志的重要的模版词。一旦模板中的模版词被 CRF 识别出来,相应的位置就会赋予一个权重值 (2.0)。因此,我们得到一个权向量 W。
  第五步:复合向量
  在获得权重向量 W 之后,通过将初始向量 V’乘以权重向量 W,可以得到一个表示模板的复合优化向量 V。重要的模版词分配更大权重,而其他的模版词分配更小的。
  第六步:异常检测
  将第五步得到的复合矢量 v 输入到最终全连接层中,以便进行异常检测。完全连通层的输出分别为 0 或 1,表示正常或异常。
  •  模型评估
  我们通过实验验证了该模型对日志异常检测的改进效果。采用了两个公共数据集,以及一套我们内部数据集,来验证我们模型的实用性。我们将自己的结果与业界针对日志异常检测提出的两个 Deeplog 和 LogClass 模型进行了比较。
  CANet 的框架是用 PyTorch 构建的,我们在 35 个训练周期中选择新加坡随机梯度下降 (SGD) 作为优化器。学习速度设定为 2e4。所有的超参数都是从头开始训练的。
  **(1)数据集:** 我们选取了两套公共集和一套公司内部数据集进行模型评估,BGL 和 HDFS 都是用于日志分析的两个常用公共数据集:**HDFS: 是从运行基于 Hadoop 的作业的 200 多个 Amazon EC2 节点收集的。它由 11,175,629 条原始日志消息组成,16,838 条被标记为 "异常" 。BGL:** 收集自 BlueGene/L 超级计算机系统 ,包含 4,747,963 条原始日志消息,其中 348,469 条是异常日志。每条日志消息都被手动标记为异常或者正常。** 数据集 A:** 是从我们公司内部收集来进行实际验证的数据集。它包含 915,577 条原始日志消息和 210,172 条手动标记的异常日志。
  **(2)base 模型:** 我们将自己的模型在三个数据集上,与两个业界最先进的模型 (DeepLog 和 LogClass) 进行比较: DeepLog:  是一个基于深度神经网络的模型,利用长短期记忆 (LSTM) 来实现检测。DeepLog 采用一次性编码作为模板向量化方法。 LogClass:  LogClass 提出了一种新的方法 —— 逆定位频率 (ILF) ,在特征构造中对日志文字进行加权。这种新的加权方法不同于现有的反文档频率 (IDF) 加权方法。
  **(3)模型评估结果:** 我们从 Precision、Recall 和 F1-score 三个方面评估两个 base 模型和我们的模型的异常检测效果,在 HDFS 数据集上,我们的模型获得了最高的 F1 得分 0.981,此外,我们的模型在召回方面也表现最好。LogClass 在 Precision 上取得了最好的成绩,比我们的稍微高一点。在第二套数据集 BGL 上,我们的模型在召回率 Recall (0.991) 和 F1-score (0.986) 方面表现最好,但在 Precision 上略低于 LogClass。在第三套数据集 A 上三个模型的性能,我们的模型实现了最佳性能,其次是 LogClass。
  在所有的数据集中,我们的模型具有最好的 F1 得分和最高的召回率,这意味着我们的模型造成的不确定性更小。
  •Natural Language Processing-based Model for Log Anomaly Detection. SEAI.
  ・**ieeexplore 检索:**https://ieeexplore.ieee.org/abstract/document/9680175
  • Themis 智能运维平台智能文本分析功能视图:( http://jdtops.jd.com/ )

无法如约公布?外媒恒大初步重组方案出现新变数恒大许家印恒大集团重磅消息!距离7月底(7月31日)还剩下10天,许家印旗下恒大集团初步重组方案又双叒叕有了新的变数!能否如约公布?根据国内知名财经媒体(凤凰网财经)于今天(7月2普通人借势起一个盘,加上超强执行力,也能迅速变现赚大钱如果你是一个个体创业者,如果你想在互联网做一些项目或者说副业赚钱,或者是一个中小实体商家,面临流量少没客户的困境,想要通过互联网短视频破圈,记得关注我,一定会给带来意想不到的帮助。百万大佬遍地走?别傻了,50万存款已是人上人2022人生最大的幸运与不幸,大概就是不求脱单但求暴富,这简直就是同一个世界,同一个梦想。但是今年上半年大概拿的是跌宕起伏的剧本,我们经历了太多事,比如疫情反复股市大跌央妈降准房价油价调整消息今天7月22日,调价后全国92号95号汽油零售价今天2022年7月22日星期五,再过四天,就到7月份第2轮加油站汽油柴油零售价格调整的日子了。此次调价正朝着大家期待的方向发展,据监测到的数据显示截至国内成品油调价周期的第7个工作毒奶粉三鹿和君乐宝到底什么关系?安全的背后是改邪归正?毒奶粉三鹿和君乐宝到底是什么关系?一个是曾经的奶粉业巨头,一个是现在的乳品业巨头,那他们两家又有何渊源,今天就来讲一讲这背后的故事。三鹿奶粉和君乐宝同样从石家庄走出的两个企业,如今百年未有之大变局,百年前刚好发生过曹邦训工作室原创文章未经授权严禁转载本文不构成投资建议。正文最近半年来,国际国内发生了很多事,验证了百年未有之大变局的论断,局势确实很难,但不必过于悲观,类似的情况在人类数千年历史浙江位居第四,湖北紧追福建!中国半年度GDP十强出炉中国的经济发展,再一次进入了新的调整之中。疫情的反复国外的局势能源价格波动等因素,都开始影响了各地区的发展。在很多指标中,一些普通省份开始崭露头角。比如大家较为重视的财政收入排名中无论和谁交往,在这几件事上千万不要太大方大方,固然是一种美德,可以赢得他人的好感与尊重。可一旦过了头,好心却不一定有好报。不是所有人都值得我们大方,也不是所有事都能够大方。人生路上,别太大方了,学会拒绝,学会树立原则,学谈吐幽默,会让你更受欢迎幽默是一种才华,一种智慧,一种力量,富有幽默感的人本身就是一个强磁场,它能聚拢人脉扩大圈子,更容易成就一番事业。正如美国一位心理学家说的幽默是一种最有趣最有感染力最具有普遍意义的传向都挺好苏明玉学大女主格局,有这几条特质,你就能掌控人生我是用文字温暖你的夕言,点击上方蓝色按键关注我哦。我喜欢都挺好中的苏明玉,特别是她身上的正能量,总能让我在低谷时期有所感悟。其实每个人活着都不容易,也许我们不会像苏明玉一样遭遇那么A股比茅台更有发展潜力的企业,可能就是这5只储能绩优股储能是什么呢?储能通俗来讲就是通过某种介质或者是装备来储存能量,也就是将能量转换成电能储存起来,待到需要的时候再释放出来,一般包括机械储能电磁储能电化学储能等储能的行业前景是什么样
错了,不要为自己辩解谁都难免会在前进的途中出现这样或那样的过错?对于一个语达到即定目标走向成功的人来说,正确对待自己过错的态度应当是知过能改。人们都有一个大弱点,喜欢为自己辩护,为自己开脱,真正的打到三月流焱愿你在迷茫时,坚信你的珍贵愿你在被打击时,记起你的珍贵,抵抗恶意。愿你在迷茫时,坚信你的珍贵。爱你所爱,行你所行,听从你心,无问西东。Mayyourememberyourprecious,andresist满腹相思沉默,只有桂花香暗飘过秋分已过,淅淅沥沥的雨点终于带来了一丝肃杀的气氛。苏城又开始被一层若有若无的香气笼罩着。这是桂花,一年一度的的桂花又开放了。街角的公园,小区的花圃,太湖的东西山,光福的铜观音寺。初小因扎吉每名教练都有下课的风险,国米两粒丢球都不应该在此前结束的一场意甲比赛中,国际米兰12输给了罗马。本场比赛结束之后,国米主帅小因扎吉接受了DAZN的采访。小因扎吉在采访中这样表示我们知道周二将会有一场重要的欧冠比赛要踢,但在今高端住宅长租化趋势显现塔尖租赁市场前景如何?近日,新京报记者在房地产租售平台上看到,目前有不少月租金超10万元的高端住宅房源正在租赁中,包括上海汤臣一品和北京缘溪堂使馆壹号院万城华府等小区的房源。为何这些处于塔尖的高端住宅会亚洲最大红叶区,中国红叶第一山!你知道是哪里吗?有人说上帝打翻了调色盘,所以才有了光雾山,位于四川省巴中市南江县北部,这里曾是电视剧远山的红叶的拍摄地,光雾山最佳观赏红叶季节为10月中旬至11月中旬,光雾山赏秋有三个阶段,前期看孕期可做的运动动作怀孕期间,条件允许的情况下,医生会建议孕妈妈每天做一些运动,除了散步,还有很多运动,怀孕期间也是可以做的。下面有一些孕期基本动作,可以尝试去做一做1。肩部拉伸运动。缓解肩部压力。两历史上十位极具影响力的女性妇女常常被历史遗忘,但在历史中却扮演着不可或缺的角色。我们今天要回顾她们的经历,按照她的初衷讲述她们的故事。这些女士为人类的伟大铺平了道路,所以让我们向她们致敬。戴安娜王妃戴安娜是一碗淀粉加开水,教你做晶莹剔透的水晶包,皮薄馅大,太鲜美了头条创作挑战赛不知道大家吃过透明的包子没有,一般叫它水晶包,不同地方的叫法不一样,它跟广东的一道点心很像,那就是水晶虾饺。不过外观还有馅料上有一点差异。传统我们叫包子的食物都是发面组图建始金秋时节瓜果飘香湖北日报客户端讯(建始频道记者杨爱林通讯员葛进东)时下,建始县的关口葡萄猕猴桃火龙果等多种水果陆续进入采摘期,人们在大饱口福的同时又多了一个亲近自然的选择。近年来,建始县依托良好的秋分时节后,饮食建议少吃2冷,多喝3暖,早懂早受益秋分过后,可谓是一场秋雨一场寒。这时很多地区开始降温,伴随着昼夜温差的增大,天气也由原来的温燥转变为凉燥。因此,在秋分之后,不论男女老少,都不能再只要风度不要温度了,除了要多多增添餐桌上的中医之道女人肾虚怎么吃本网讯提到肾虚,很多人都以为这是男人的专利其实不然!肾虚,实际上它是中医的概念。中医认为,肾是先天之本,是人体健康的根本。肾气的虚实变化,主宰人一生的生长发育,控制骨髓脑髓的生长。黑色玫瑰,高贵典雅头条作者云开日初冷艳美,个性美,魅力四射黑色玫瑰,典雅,艺术之美高贵,优雅,矜持,端庄美有一种特别的美,那种内在的气质与魅力,让人流连忘返回味无穷无尽的美貌。艺术效果浓厚,冷艳美,蓝桉枯,释怀孤蓝桉已遇释槐鸟,不爱万物唯爱你!一种树叫蓝桉,有毒且霸道,会杀身边全部的植物,但它只允许一种鸟栖息在上面,鸟的名字叫释怀鸟。尽管一生中会遇到很多人,但能让我愿意停留和偏爱的只有一人隐忍,真的能换来生活中的风平浪静吗?曾看到这么一个故事。一位商人骑着骆驼去沙漠做生意。到了晚上,商人点起篝火,支起帐篷。这时骆驼把脑袋伸进帐篷说主人,我白天驼了你一天,现在这么冷,让我把头留在里面吧。商人同意了。过了迎国庆5首(一)雀跃欢呼道良辰,轻歌曼舞迎国庆。征途万里蓝图绘,砥砺前行美梦真。(二)飒爽英姿列阵容。星璨云飞溢彩虹。闪烁华灯车载路,狮龙腾跃颂丰功。(三)每逢十月故事多,共迎盛会舞婆娑。中中国人刻在DNA里面的四个大字艰苦奋斗我们中国人基因里刻着四个大字艰苦奋斗苦难就那么值得歌颂?曾经的年代,年轻人只要按部就班完成学业,就能获得一份不错的工作,获得房子资产。现在一人买房全家帮忙甚至还不得够?苦难就那么值每个脆弱的生命,都在告诉我们要健康地活着只有经历过生与死的离别,才能体会到生死离别时的悲痛。天堂虽没有病痛,但和世间相距太远,和那里的人永远见不上面,还要独自忍受肝肠寸断的思念。见惯了团聚的幸福,体会过幸福的团聚,也就不如果,人生可以选择,一切可以重来,记忆可以删除,那该多好如果,人生可以选择,一切可以重来,记忆可以删除,那该多好在我们的一生中,许多时候许多事,我们别无选择,只能让要来的,要走的,随意。不是我们不想阻止,也不是我们不想争取,更不是我们不鲨鱼哥逆袭的本质就是不认命,两个字让你快速走出人生困境大家好,我是鲨鱼哥!你的人生碰到了困境,负债累累,甚至走到了绝境,遇见了过不去的坎。到底该怎么翻身,怎么走出困境?怎么走出绝境呢?鲨鱼哥用我自己亲身的经历,频临破产三次,负债四五次华山论道大雨都不肯淋湿的人,你怎么舍得让她难过生活治愈了我们,我们也在治愈生活,我们彼此成就,我们会是彼此坚定的选择。我们从未分开,我们从未想过要分开。城市再拥挤也容得下你,不要用自己负能量的情绪去看待一个问题的表面,如果你觉三年学会说话,一生学会闭嘴慢慢发现一个规律,无论对孩子,对父母,对另一半,话都不能说多了,任何的苦口婆心谆谆教导,任何的千叮咛万嘱咐,任何的一百个不放心,最后大概率上都会,遭人厌倦,伤到自己的心。原因无外乎