保健励志美文体育育儿作文
投稿投诉
作文动态
热点娱乐
育儿情感
教程科技
体育养生
教案探索
美文旅游
财经日志
励志范文
论文时尚
保健游戏
护肤业界

关于SRE方法论的一些笔记

  写在前面阿里系列有一本《云原生操作系统Kubernetes》中作者在前言里讲到Google开源的Kubernetes和《SREGoogle运维解密》这本书是剑法和气功的关系换句话讲Kubernetes是术,SREGoogle运维解密是道作为云原生基础设施的Kubernetes小伙伴么应该多少有些了解但是对于SRE却很少有人谈及,和小伙伴分享一些SRE的基础知识博文主要为《SREGoogle运维解密》读书笔记整理主要为第一部分,摘一些感觉重要。
  傍晚时分,你坐在屋檐下,看着天慢慢地黑下去,心里寂寞而凄凉,感到自己的生命被剥夺了。当时我是个年轻人,但我害怕这样生活下去,衰老下去。在我看来,这是比死亡更可怕的事。王小波
  当前云原生是发展趋势,企业服务上云是大势所趋,在某乎上看到有Java大军是不是开始卷K8s了之类的话题,但是对K8s的认知,可能仅仅是作为首个CNCF孵化的开源项目,起源于Google内部的Borg项目,对计算资源进行了更高层次的抽象,作为一个容器编排工具,提供基本的部署、维护以及应用伸缩等功能,其主要实现语言为Go语言。具体一点常用的资源对象、控制器的使用,声明式API这些
  但是对于为什么要定义资源对象,资源控制器定义的标准依据是什么,比如RCRSDeploy变迁的原因,很少有人去寻找答案。希望通过对SRE方法论的学习或者说SRE工程师的认识可以深入的理解K8sSRE方法论的由来系统管理员模式
  雇佣系统管理员(sysadmin)运维复杂的计算机系统,也就是我们俗称的运维岗,是行业内一直以来的普遍做法。系统管理员的日常工作与研发工程师相差甚远,通常分属两个不同的部门:研发部(Dev)和运维部(Ops)。
  传统的研发团队和运维团队分歧的焦点主要在软件新版本、新配置的变更的发布速度上。研发部门最关注的是如何能够更快速地构建和发布新功能。运维部门更关注的是如何能在他们值班期间避免发生故障。
  由于绝大部分生产故障都是由于部署某项变更导致的不管是部署新版本,还是修改配置,甚至有时只是因为改变了用户的某些行为造成了负载流量的配比变化而导致故障。这两个部门的目标从本质上来说是互相矛盾的。Google的解决之道:SRE
  SRE这种模型是Google尝试着从根本上避免产生这种矛盾的结果。SRE团队通过雇佣软件工程师,创作软件系统来维护系统运行以替代传统模型中的人工操作。
  SRE就是让软件工程师来设计一个新型运维团队的结果,SRE方法论中的主要模块,就是SRE团队的构成。每个SRE团队里基本上有两类工程师。第一类,团队中5060是标准的软件工程师,符合Google软件工程师标准的一类人第二类,其他4050则是一些基本满足Google软件工程师标准(具备8599所要求的技能),但是同时具有一定程度的其他技术能力的工程师。
  SRE团队成员具有如下特点:对重复性、手工性的操作有天然的排斥感有足够的技术能力快速开发出软件系统以替代手工操作
  从本质上来说,SRE就是在用软件工程的思维和方法论完成以前由系统管理员团队手动完成的任务。这些SRE倾向于通过设计、构建自动化工具来取代人工操作。
  SRE团队的终极目标是推动整个系统趋向于无人化运行,而不仅仅是自动化某些人工流程。
  Google的经验法则是,SRE团队必须将50的精力花在真实的开发工作上。
  SRE模型不仅消除了传统模型中研发团队和运维团队的冲突焦点,反而促进了整个产品部门水平的整体提高。因为SRE团队和研发团队之间的成员可以自由流动,整个产品部门的人员都有机会学习和参与大规模运维部署活动,从中获得平时难以获得的宝贵知识。普通的开发人员有多少机会能将自己的程序同时跑在100万个CPU的分布式系统上呢?DevOps还是SRE?
  我们可以认为DevOps是SRE核心理念的普适版,可以用于更广范围内的组织结构、管理结构和人员安排。同时,SRE是DevOps模型在Google的具体实践,带有一些特别的扩展。SRE方法论
  一般来说,SRE团队要承担以下几类职责:可用性改进,延迟优化,性能优化,效率优化,变更管理,监控,紧急事务处理以及容量规划与管理。
  我想这也是K8s以及基于K8s生态相关组件做要担负的职责确保长期关注研发工作
  Google将SRE团队的运维工作限制在50以内。SRE团队应该将剩余时间花在研发项目上。
  SRE处理运维工作的一项准则是:在每812小时的oncall轮值期间最多只处理两个紧急事件。这个准则保证了oncall工程师有足够的时间跟进紧急事件,这样SRE可以正确地处理故障、恢复服务,并且要撰写一份事后报告。
  事后总结应该包括以下内容:事故发生、发现、解决的全过程,事故的根本原因,预防或者优化的解决方案。Google的一项准则是对事不对人,事后总结的目标是尽早发现和堵住漏洞,而不是通过流程去绕过和掩盖它们。在保障服务SLO的前提下最大化迭代速度。
  SLO(服务等级目标)指定了服务所提供功能的一种期望状态。SLO里面应该包含了所有能够描述服务应该提供什么样功能的信息。
  产品研发部门和SRE之间可以通过消除组织架构冲突来构建良好的合作关系。在SRE模型中,我们选择正面面对这种矛盾,使用的工具是错误预算。错误预算起源于这样一个理念:任何产品都不是,也不应该做到100可靠(显然这并不适用于心脏起搏器和防抱死刹车系统等)。一般来说,任何软件系统都不应该一味地追求100可靠。因为对最终用户来说,99。999和100的可用性是没有实质区别的。从最终用户到服务器之间有很多中间系统(用户的笔记本电脑、家庭WiFi、网络提供商和输电线路等),这些系统综合起来可靠性要远低于99。999。所以,在99。999和100之间的区别基本上成为其他系统的噪声。就算我们花费巨大精力将系统变为100可靠也并不能给用户带来任何实质意义上的好处。
  如果100不是一个正确的可靠性目标,那么多少才是呢?这其实并不是一个技术问题,而是一个产品问题。要回答这个问题,必须考虑以下几个方面:基于用户的使用习惯,服务可靠性要达到什么程度用户才会满意?如果这项服务的可靠程度不够,用户是否有其他的替代选择?服务的可靠程度是否会影响用户对这项服务的使用模式?
  通过引进错误预算的概念,我们解决了研发团队和SRE团队之间的组织架构冲突。
  SRE团队的目标不再是零事故运行,SRE团队和产品研发团队目标一致,都是在保障业务服务可靠性需求的同时尽可能地加快功能上线速度。这个改动虽小,意义却很大。一次生产事故不再是一件坏事,而仅仅是创新流程中一个不可避免的环节,两个团队通过协作共同管理它。
  某种意义上可以理解为将风险分化,由原来的部分承担,变成了全部承担监控系统
  监控系统是SRE团队监控服务质量和可用性的一个主要手段。
  监控系统不应该依赖人来分析警报信息,而是应该由系统自动分析,仅当需要用户执行某种操作时,才需要通知用户。
  一个监控系统应该只有三类输出。紧急警报(alert):意味着收到警报的用户需要立即执行某种操作,目标是解决某种已经发生的问题,或者是避免即将发生的问题。工单(ticket):意味着接受工单的用户应该执行某种操作,但是并非立即执行。系统并不能自动解决目前的情况,但是如果一个用户在几天内执行这项操作,系统不会受到任何影响。日志(logging):平时没有人需要关注日志信息,但是日志信息依然被收集起来以备调试和事后分析时使用。正确的做法是平时没人会去主动阅读日志,除非有特殊需要。应急事件处理
  可靠性是MTTF(平均失败时间)和MTTR(平均恢复时间)的函数。评价一个团队将系统恢复到正常情况的最有效指标,就是MTTR。
  通过事先预案并且将最佳方法记录在运维手册(playbook)上通常可以使MTTR降低3倍以上。初期几个万能的工程师的确可以解决生产问题,但是长久看来一个手持运维宝典经过多次演习的oncall工程师才是正确之路。
  GoogleSRE将大部分工作重心放在运维手册的维护上。变更管理
  SRE的经验告诉我们,大概70的生产事故由某种部署的变更而触发。变更管理的最佳实践是使用自动化来完成以下几个项目采用渐进式发布机制(比如基于K8s的蓝绿部署,deplay滚动更新)。迅速而准确地检测到问题的发生。当出现问题时,安全迅速地回退改动(deplay升级暂停回滚)。需求预测和容量规划
  需求预测和容量规划简单来说就是保障一个业务有足够的容量和冗余度去服务预测中的未来需求
  一个业务的容量规划,不仅仅要包括自然增长(随着用户使用量上升,资源用量也上升),也需要包括一些非自然增长的因素(新功能的发布、商业推广,以及其他商业因素在内)。
  容量规划有几个步骤是必需的:必须有一个准确的自然增长需求预测模型,需求预测的时间应该超过资源获取的时间。规划中必须有准确的非自然增长的需求来源的统计。必须有周期性压力测试,以便准确地将系统原始资源信息与业务容量对应起来。
  因为服务容量对可用性来说是极为重要的,很自然的,SRE应该主导容量规划的过程。同时,这也意味着SRE需要主导资源部署的过程。资源部署
  资源的部署(provisinging)是变更管理与容量规划的结合物。新资源的部署与配置是一个相对比较危险的操作,必须要小心谨慎地执行效率与性能
  高效地利用各种资源是任何赢利性服务都要关心的。因为SRE最终负责容量的部署和配置,因此SRE也必须承担起任何有关利用率的讨论及改进。
  因为一个服务的利用率指标通常依赖于这个服务的工作方式以及对容量的配置与部署上。如果能够通过密切关注一个服务的容量配置策略,进而改进其资源利用率,这可以非常有效地降低系统的总成本。
  一个业务总体资源的使用情况是由以下几个因素驱动的:用户需求(流量)可用容量软件的资源使用效率。
  SRE可以通过模型预测用户需求,合理部署和配置可用容量,同时可以改进软件以提升资源使用效率。通过这三个因素能够大幅度推动一个服务的效率提升(但是并非全部)
  软件系统一般来说在负载上升的时候,会导致延迟升高。延迟升高其实和容量损失是一样的。当负载到达临界线的时候,一个逐渐变慢的系统最终会停止一切服务。换句话说,系统此时的延迟已经是无穷大了。
  SRE的目标是根据一个预设的延迟目标部署和维护足够的容量。SRE和产品研发团队应该共同监控和优化整个系统的性能,这就相当于给服务增加容量和提升效率了。
  GoogleSRE代表了对行业现存管理大型复杂服务的最佳实践的一个重要突破。由一个简单的想法我是一名软件工程师,这是我如何来应付重复劳动的办法而生,
  SRE模型已经发展成一套指导思想、一套方法论、一套激励方法和一个拥有广阔空间的独立职业。

海信空调质量怎么样?11年左右买了两台海信变频空调,老婆当时极力想买格力,作为生活在济南的青岛人想支持家乡品牌就选择了海信。结果坑比道路开始了,到货后1,5匹室外机直接不工作,另一台1匹室内机嗡嗡……汽车变奏曲汽车变奏曲忽如一夜春风来,千树万树梨花开。汽车的发展用沧海桑田来形容一点也不为过,充分向人们说明了新时代的美。这一天,是我的破蛋日哦!爸爸决定带我去吃自助餐,我别提……我的春节600字作文10篇我的春节600字作文1嘭嘭嘭,啪啪啪随着这几声清脆的鞭炮声,我们又迎来了一年一度的春节!过大年是个全家团圆的日子,是个热闹的日子,在这一天,人们都会把家打扫的干干净净,在……想换手机,一直用魅族,怕换其他牌子特别不适应有什么好推荐的吗一说到魅族手机,除了别具一格的设计外,flyme系统也是最大的优势,这也是很多煤油用了魅族就回不去的原因所在,在安卓UI中,魅族确实是最细节、最人性化的系统,没有之一。小米的M……给学校领导的环保建议书小学作文尊敬的学校领导:您好。感谢您们在百忙之中抽出时间来看这封建议书。我是本校六年级五班的学生。我在这个美丽的校园学习、生活差不多有六年之久。我们的校园好似一座美丽……官方通报后,为何阿里事件受害女员工周某备受网友质疑?这个事件本来是有剧本的,结果最终因为王只猥亵没有进行下一步而失控了!很多网友纳闷为什么第二天一大早周打电话让张去她房间,而且张还带着避孕套来又带走周的内裤,很显然这两人是……100,是因为0乘以任何数字都等于0,还是因为1乘以任何数字记得这个问题在网络上曾经引起热议,但是没有最后权威标准答案。我认为,这两个答案都是对的,但是,必须把两个答案全部列出,才不会片面。理由如下:在这个问题中,被乘数1和……狮子合唱团Itamp039sMylife歌词从《Lion》到《你是我心爱的姑娘》,从《百年孤寂》到《你是我最深爱的人》,如果说前四期狮子合唱团在《歌手》舞台上的摇滚都是走ldquo;内敛rdquo;风,那么在本期节目中,……做软陶叙事作文今天,我来到了教辅中心学做软陶。用雪白的瓷砖上摆放着的花花绿绿的软陶可以做成形态各异的作品,我就十分激动!我开始尝试着做了起来,硬邦邦的软陶在手中搓来搓去。过了一会儿,它……善意不可失去合适表达高三作文每个人都不缺少善意,只是不会合适地表达善意。贫困的女大学生出于善意,兼职资助三名贫困生读完初中,面对上高中的请求,她力不从心。父亲却假借汤丽莎老师的身份将此事告知媒体,呼……上大学买什么笔记本电脑较好?专业不一样选择笔记本的配置不一样,先说动漫设计视觉传达室内设计等专业对笔记本配置要求比较高,只能选择游戏本。可能有点的同学说,我又不玩游戏为什么要买游戏本?游戏本又大,又厚,又……湖北电销企业内参电销机器人是合法的吗?机器人肯定是合法的项目,只是取决于使用者的用法。没有不合法的电话机器人,只有不合法的个人或企业使用者。首先,电话机器人是通过电网销结合销售的,它的出现能最大程度上助力企业……
爱国作文有关爱国的作文素材(2)爱国作文:有关爱国的作文素材(2)ldquo;我要回国,不要美金rdquo;1948年,李四光接受国际地质学会的邀请来到美国,发表了《新华夏海的诞生,轰动了欧州。一……C语言知识常量与变量奇妙知识季数据的表现形式:常量与变量常量:值不能被改变的量整型常量例如:101实型常量十进制小数形式例如:12。0指数形式例如:12。……懒散的作文400字考了有好久,终于可以休息一会了,即使今天班主任的一句你们绝对不能放松,因为考试才刚刚开始!令我清醒了一点,可我就像一个月零一天前一样,陷入了自己编织的梦幻里。忙碌了很久,即使我……有趣的童年作文400字篇一:记得我5岁的时候,一个艳阳高照的中午,我正坐在沙发上悠闲的看电视,妈妈下了一条圣旨:叫我去买白糖。我与妈妈讨价还价:妈妈,我把电视看完再去,行不行?不行,做事……我的妈妈作文350个字妈妈,一个多么温馨的词语,每当我想起我的妈妈一股暖流就涌上心头,我爱我的妈妈。下面我们来看看我的妈妈作文350个字,欢迎阅读借鉴。【篇一:我的妈妈】每个人都有妈妈,我也不……山西韵达快递带来的蝴蝶效应山西韵达快递工作人员被查出阳性之后,很快就在网上传开!1。首先,买家以前通常问,发什么快递?今天发货吗?我在哪哪哪,大概多久能到啊?现在,买家上来问,发什么快递?如果回答……我有一个可爱的小弟弟作文400字每每提起家里的事情,同学们都会兴致冲冲地谈论着自己的亲人,特别是自家的爷爷、奶奶、爸爸、妈妈、姐姐、哥哥、妹妹和弟弟。当然,我也不例外,对于来说,谈论得最多的是自己的小弟弟,因……我喜欢冬天扫雪作文我是真的喜欢下雪,它不仅仅带来的是清新的空气,而且能把深秋带来的那种荒凉转变成一个洁白的世界,让人感觉到灰秃秃的城市呈现出一种生机。儿时的雪天与其说是扫雪,不如说是玩雪,那时的……表示说的意思四字词语词的语体色彩包括口头语体色彩和书面语体色彩。口头语词平实朴素,通俗易懂,生动活泼,富于生活气息。书面语词庄重典雅,确切严谨。下面是小编收集的表示说的意思四字词语,欢迎大家参考。……微信小程序隐私指引完整填写范本为了分辨用户,开发者将在获取你的明示同意后,收集你的微信昵称、头像。为了显示距离,开发者将在获取你的明示同意后,收集你的位置信息。开发者收集你的地址,用于获取位置信……部编版三年级上册一单元作文猜猜他是谁七每天早晨,阳光洒在大地上的时候,都有一个背着黑色大书包的小男孩,迎着太阳上学去,他是谁?他是谁?被子说:他是个货真价实的大懒虫,每天早上都掀开我,跳下床,整理都不整理一下……刘昆支持原创性引领性科技攻关,继续加大基础研究投入4月16日消息,财政部部长刘昆在《求是》杂志撰文指出,大力推进科技创新,提升产业发展水平。支持原创性、引领性科技攻关,继续加大基础研究投入,保障关键核心技术攻关资金需求,推动实……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网