童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

企业级监控告警产品专题(2):IaaS层监控设计概述

2月26日 飞凤谷投稿
  本文作为监控告警产品的专题系列的第二篇文章,主要讨论的是IAAS层的监控(服务器状态与性能、网络设备状态与性能、网络流量分析等等),从前文所述的监控类型来说,IAAS层一般来说属于基础监控层面
  前文回顾:监控告警产品专题(1):企业级监控产品设计基础
  庖丁解牛
  IaaS
  IaaS、PaaS、SaaS这三个概念想必大家是耳熟能详了,其实就是云计算的三个分层,InfrastructureasaService(IaaS)基础设施即服务,PlatformasaService(PaaS)平台即服务,SoftwareasaService(SaaS)软件即服务。
  IaaS层其实就是一些显性可见的资源对象,如运维小伙伴经常接触的服务器、网络设备与存储设备等等。用一座大厦类比的话IAAS层就好比是负责了最基础的水电通信等能力。上层的服务都是依赖于IaaS层,假定IaaS层管理不好,那么PaaS与SaaS的高效与可控管理其实也是非常难了,甚至可以说空谈了。IaaSI层的不稳定会直接导致企业对外的服务质量大打折扣。笔者以前在负责手机QQ业务运维的时候,名下有4k多的机器,如果没有一套高效与可度量的管理平台,光凭人肉去管理4K多的机器,那基本和噩梦差不多了。
  IaaS的监控
  对于IaaS层的监控,本质来说就是监控组成IaaS层的各个资源对象,那么资源对象代表什么呢?例如物理服务器、交换机、一条专线与一个公网IP等等都是一个个资源对象。通常来说对于资源对象的监控可以分为以下4个维度。
  状态的监控:通指设备的的状态,如设备的存活状态、网络设备的端口状态、电源、风扇状态等。
  性能监控:通指设备内存大小,端口流量包量、CPU利用率等等
  质量监控:通指设备的丢包率、错包率、网络访问的延时等等
  容量监控:通指设备的负载使用率、专线带宽使用率、网络设备的负载使用率、服务器的负载使用率等等。
  监控产品的分层结构
  对于绝大多数主流商用或者开源监控告警产品来说,一般都是采用这种类似的分层方式,当然这里是一种高度抽象后的产品分层架构。
  位于最底层的就是数据采集,采集到的原始数据是监控的最初的输入。
  数据采集
  通常来说企业级的监控系统应该是支持多种采集方式与多种采集对象的,例如可以用Agent主动上报、也要能支持SNMP、Xflow、IPMI等多种协议。而针对于IaaS层具体支持的采集对象应该不少于物理服务器、操作系统指标(windows)、网络设备、网络内会话信息、物理专线、网络出口等等。不同的采集对象采用的采集方式也是不同的,例如服务器系统指标可以用Agent上报、网络设备状态、流量、包量可以用SNMP采集等,具体采用哪种采集方式要看业务场景与所需场景的数据量与类别而定。织云同样也是支持多种采集方式与多种采集对象。
  在大数据的时代背景下,数据采集这部分建议针对某一个具体的对象尽量采集的大而全,可能有些数据暂时看采集上来没有直接用途,但是随着数据量级与数据间关联性的变化,对大量的原始数据,清洗、分析、加工后便能催生更多的数据消费场景。
  基础概念
  监控告警是对某一个具化的对象做采集、存储、分析、展示、告警、处理的过程。
  为了便于读者对于后文与后续系列文章的理解,这里笔者先集中描述一下设计织云监控告警平台时应用的一些概念。对于监控告警织云的理念是先纳管对象在监控对象,这也是海量运维的最佳实践。
  告警(监控)对象
  定义:CMDB中管理的一个具体资源对象或者是一个自定义逻辑CI
  示例:一台物理服务器、一个三级业务、一个TDSQL实例,这些均是对象
  备注:对象与对象之间也有是关联、包含、继承等关系
  告警(监控)指标
  定义:一个或多个特性id(或特性间的四则运算产生的结果)的集合
  示例:CPU使用率、内存使用率均是特性而例如成功率(成功的请求总数总请求数)100这个就是多个特性id的四则运算。
  备注:并不是所有监控指标都可以用来做有效的告警指标,这部分是按需所用。
  告警(监控)类型
  定义:确定了一部分的告警对象的告警指标采取一类的算法计算
  示例:单机性能告警(就包含了多个针对于服务器这个对象的监控告警指标,如cpu使用率、内存使用率、应用程序内容使用量等)
  告警规则
  定义:告警对象告警指标告警产生条件告警通知收敛规则(阈值、发生次数、统计时长等等),应用于告警策略
  示例:例如对某台交换机创建了,cpu使用率80时的告警规则
  告警策略
  定义:告警对象告警类型告警规则(可多个)对应一个告警策略
  示例:对一个三级业务下的全量服务器创建了一条基础告警策略,下图中的每一条都是一个告警规则,
  备注:对于告警策略,织云的理念的是对象精简化,为什么会这样说?在实际的生产环境汇中,一个运维同学负责几十个业务是常态,如果这几十个业务对应的不同的告警策略有上百个,在实际的运维过程中其实是不可量化的管理的。所以告警策略要同时包含不同的告警类型与具备可继承性。
  告警
  定义:告警对象的告警指标满足告警产生条件后产生的对象
  示例:〔腾讯织云〕〔ping告警〕〔15:38:10〕〔Ping192。192。192。192不可达〕
  限于篇幅这里先介绍以上最基础的概念,后续随着讨论的逐步深入,会在介绍告警分级、告警收敛、告警恢复、告警事件、告警订阅、告警合并等概念,下面主要讨论下网络设备监控、网络流量分析与服务器监控这几个业务运维同学们强关注的运维对象。
  网络流量
  对于网络出口与网络专线的有效监控与分析,即能有效的协助业务运维同学有效的定位业务异常、评估业务服务质量等,也能有效的度量业务整体运营成本,毕竟现在带宽的使用成本在整体运营成本中也是占比越来越大。相信运维同学多少都会遇到下面的场景
  例如这条专线当前利用率多少?
  在已经使用的流量中,某个ip使用了多少流量?
  这些所产生的流量是基于什么协议与方向?
  专线与网络出口的丢包率与时延是怎么样的?
  每条专线中主要是哪些务在用?哪个是“”地主客户“”?
  等等较高频的使用场景。对于网络流量的监控与分析来说主要依靠的FLOW。
  那么什么是FLOW呢?
  Flow是一种数据交换方式,其工作原理是:Flow利用标准的交换模式处理数据流的第一个IP包数据,生成Flow缓存,随后同样的数据基于缓存信息在同一个数据流中进行传输,不再匹配相关的访问控制等策略,Flow缓存同时包含了随后数据流的统计信息。
  一个Flow流定义为在一个源IP地址和目的IP地址间传输的单向数据包流,且所有数据包具有共同的传输层源、目的端口号。
  相对于会话(“Session”)而言,“Flow”具备更细致的标识特征,在传统的TCPIP五元组的基础上增加了一些新的域值,至少包括以下几个字段:源IP地址目的IP地址源端口目的端口IP层协议类型ToS服务类型(dscp)输入物理端口(ifindex)以上七个字段可以唯一地确定任意一个数据包属于哪个特定的Flow,换而言之任何一个字段出现了差异都意味着一个新Flow的发生
  对于FLOW的分析展示同样也是要基于多维度的,ip(目的与源)、port(目的与源)、业务、网络架构、城市、IDC等等众多的维度,具体所需的维度依赖于自己的业务场景。
  FLOW是厂商的私有协议,业界也有多种的Flow格式。例如CISCO、华为、juniper等等的主流厂商的flow也是均有一定差异性与优劣的,所以这部分的后台能力是需要有异构性的,织云基于腾云复杂的网络运维经验,目前是支持CISCO、华为、juniper的不同FLOW。
  网络设备
  对于网络设备的监控,也一般从设备性能、质量、状态等维度入手。对于每台网络设备来说运维同学一般会关注如下场景:
  网络设备的运行状态Syslog(设备运行日志)的监控与告警
  设备堆叠状态下的(例如交换机堆叠)的监控与告警
  网络设备上每个物理端口的、流量、包量、错包与端口状态的监控与告警。
  网络设备上逻辑端口(物理端口组合)的性能与状态
  等等高频场景。
  对于网络设备的syslog告警来说,同样也会面临不同的厂商、设备类型与设备型号日志标准不统一,所以对于网络设备syslog监控告警来说,首先是将众多的网络设备进行逻辑分组,以便于在一个分组内的设备均可以响应同一个告警关键字,并且这个分组粒度建议较细,这样才能保障告警关键字的有效性与独立性。在这里根据多年的运维经验,建议syslog告警的分组模型由四个维度组成厂商类型型号用途,例如CISCO交换机EX4300024T内网接入层交换机,通过这个公式就描述出一个设备的逻辑分组。
  服务器
  对于服务器的监控同样也是从状态、性能与容量这几个维度入手。虽然SNMP也可以用于服务器监控,但相对于agent主动上报指标与数据会少很多。服务器的状态监控主要包含服务器是否ping的通、agent上报是否超时与电源运行状态等等。对于性能与容量这两类维度,主要依赖当前OS的数据捕获,一般来说对于服务器监控来说在通用场景下主要关注cpu、内存、流量与包量这四个指标即可,但是别的指标也建议尽量捕获。单个监控对象的数据丰富了会有如下好处。
  避免对象的监控盲点
  不同的监控数据点可以部分对应出该服务器所承载的业务特性指标,例如存储类业务也会关注disktotalread、svctmtimemax、awaittimemax等等系统指标
  生产的数据足够丰富能够催生出更加丰富的运维数据消费场景。
  服务器监控相对是很标准的监控模型,针对于物理服务器与虚拟机都有共性指标。这部分主要做到采集的数据丰富与上报的准确性(算法准确)。
  后续文章主题预告
  数据银行CMDB的建设
  形态各异的公有云组件通用监控模型建设之路
  总结
  IAAS层的监控从IAAS层的组成这个维度来说,可以分为一个个独立的资源对象来分类监控,针对每一类对象可以分别从状态、性能、容量、质量这几个维度描述,将不同的数据综合为开发与运维的统一视角。监控告警产品的建设是任重而道远的过程,坑也非常多。要考虑多种因素,技术后台能力只是其中的一部分。例如在DevOps的文化下,需要从更高的层面来统一视角(开发视角运维视角)避免将监控做成”开发的监控”与”运维的监控”。也需要更多的考虑监控产品使用的双态(用户态系统态)与不同的权限(行业属性)如何分类设计。
  相关阅读
  监控告警产品专题(1):企业级监控产品设计基础
投诉 评论 转载

ToB支付如何合规?这里提供5种模式由于政策监管,ToB的支付需要保证合同流、发票流、现金流都一致才能合法合规,所以相比ToC的产品,需要在财务上做更多的考虑。本文以三流一致为讨论的出发点,列举5种常见的支付模式……浅析贷款产品的业务流程设计:授信申请与审核带来关于授信申请与审核的业务流程设计分享,希望能够对你有所启发。一、什么是现金贷现金贷具有小额度、高利息、面向低信用质量的用户群体(一般为年轻白领或蓝领)。特点是申……设计小结:帐户系统提升注册率的思考最近在做手机ROM账户改版的项目,目标是提升注册率,优化体验。本文结合项目实例说说在账户改版时的设计思考,欢迎各位点评指正。锁定问题手机系统账户注册通常来源于三个渠……AI机器人交互设计模型(二):五大具体措施本篇文章是系列文章“机器人高效能交互模型(被CMU和NASA多次引用)”的第二篇。点击此处查看系列文章目录。人和机器人交互的首要目的是提升人与机器人团队协作完成任务的效率……OTA推荐系统之用户体系这篇文章是《OTA推荐系统之实时用户意图》的姐妹篇,实时用户意图是基于短期的用户行为,找到用户的偏好,作为个性化推荐的策略之一,强调即时性。OTA行业是一个低频的行业,对……浅谈:APP截屏唤起功能的设计智能机时代,手机自带系统已支持截屏功能,截屏的方式有虚拟快捷键操作、有组合键操作、有手势操作等等,而本文主要介绍用户为什么截屏?APP内截屏后又会有怎样的设计?一、截屏是……谈会员卡系统的产品设计本文从会员卡生命周期的主要流程说起,然后再谈会员卡相关的基本逻辑的思考,最后介绍一套基本的会员卡管理系统模块和整体流程,希望对你有所帮助。作为一种大家喜闻乐见的营销手段,……电商后台:财务对账系统总结本文作者将结合自身经验与你分享:财务对账系统项目。enjoy进入这家公司做的第一个项目就是财务对账系统规划,当时对公司业务还不是特别了解,只是根据业务的需要梳理了一期的功……OTA推荐系统之实时用户意图实时用户意图是个性化推荐系统中的一个重要组成部分,本文通过WHAT,WHY,HOW三个方面讨论了实时用户意图,希望给大家以启示。之前的一篇文章《常见推荐策略及其在OTA上……企业级监控告警产品专题(2):IaaS层监控设计概述本文作为监控告警产品的专题系列的第二篇文章,主要讨论的是IAAS层的监控(服务器状态与性能、网络设备状态与性能、网络流量分析等等),从前文所述的监控类型来说,IAAS层一般来说……券商APP增值服务收费模式探究:现状、趋势及发展建议在互联网时代,手机APP功能或服务的“免费”使用似乎是所有行业的标配,这在我国互联网行业体现得尤为明显。大部分APP的发展模式都比较类似,都是先通过“免费”使用来吸引海量用户,……如何画出高质量的交互稿?如何能保证交互稿的完备性,防止信息的遗失呢?本文作者分享了自己的一套方法。交互稿是交互设计师的主要产出。在实际工作中,交互设计师的主要职责,就是根据产品提出的不同需求,用……
Boss直聘Vs拉勾:招聘类产品的核心需求、痛点产品冷思考:支付宝61事件,亿级用户产品的撩妹之道究竟是什么因素让共享经济走向冰火两重天?Pulltorefresh丨被忽视的下拉刷新原来有这么多种玩产品与运营不同的思路解析产品经理要诀保持饥渴学习的心态设计和产品开发中的“破窗理论”想成为优秀的产品经理?先合格了再说!迭代,才不是版本更新那么简单如何把控并推进项目时间进度?产品经理要诀不可缺少的创业心态干货丨身份证号码编码规则及其应用视频删除了怎么恢复回来?万兴恢复专家一键恢复误删视频!恋恋草原心歌词歌曲恋恋草原心歌词一加budsPro支持lhdc吗怎么设置lhdc八蜡庙会歌用昌黎汴泗交流韵爱尝鲜的罗振宇不玩儿了小程序并不适合内容服务爱较真的妈妈借一缕春暖,唤醒沉睡的文字发言稿格式(演讲稿怎么写格式)国内普通包裹查询(邮政快递包裹价格表)选购宝宝暖奶器有哪些注意事项六年级春游日记索爱X10i的CPU主频是多少

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界