连通系统与机器学习的MLOps挑战在哪？这篇文章讲清楚了

　　机器之心报道
　　编辑：杜伟
　　机器学习彻底改变了人们使用数据以及与数据交互的方式，提升了商业效率，从根本上改变了广告业的格局，全面变革了医疗健康技术。但是，机器学习若要继续扩大其影响力和影响范围，开发 pipeline 必 须得到改进。通过将数据库系统、分布式计算和应用部署等领域数十年的工作引入机器学习领域，机器学习系统研究可以满足这一需求。此外，通过充分利用模型并行以及改进旧有解决方案，我们可以利用系统的重新设计来改进机器学习。
　　过去十年，机器学习（ML）已经成为各种领域中无数应用和服务的重要组成部分。得益于机器学习的快速发展，从医疗健康到自动驾驶等诸多领域已经出现了深刻的变革。
　　机器学习在实际应用中日益增加的重要性使人们开始关注一个专注于「实践中机器学习」的新领域，即机器学习系统（或简称 MLOps）。该领域连通计算机系统和机器学习，并从传统系统研究的视角考虑机器学习的新挑战。
　　那么机器学习的挑战究竟有哪些呢？加州大学圣地亚哥分校博士生 Kabir Nagrecha 使用 D. Sculley 2015 年的论文《 Hidden Technical Debt in Machine Learning Systems 》中提出的架构，来描述典型 ML 系统中的问题并一一分解其组件。
　　D. Sculley 论文中的 ML 系统架构，图源：https://papers.nips.cc/paper/2015/file/86df7dcfd896fcaf2674f757a2463eba-Paper.pdf
　　Kabir Nagrecha 重点分析了数据收集、验证和服务任务中的挑战，并探讨了模型训练中的一些问题，这是因为近年来模型训练已经成为系统开发中成本越来越高昂的部分。
　　接下来我们进行一一分析。
　　数据收集
　　虽然学界研究者对 CIFAR 或 SQuAD 等随时可用的数据集感到满意，但业界从业者往往需要在模型训练中手动标注并生成自定义数据集。但是，创建这类数据集，尤其是需要领域知识时，需要的成本可能非常高昂。
　　因此，这成为了 ML 系统开发者面临的一个主要挑战。
　　如何解决呢？该问题最成功的解决方案之一是借鉴系统与机器学习领域的研究。比如，通过结合数据管理技术与自监督学习工作，斯坦福大学研究者在 2017 年的论文《 Snorkel: Rapid Training Data Creation with Weak Supervision 》中提出了一种弱监督的数据编程方法。
　　他们提出的 SnorkelAI 将数据集创建视作一个编程问题，其中用户可以为弱监督标注指定函数，然后通过组合和加权操作以生成高质量的标签。这样一来，专家标注的高质量数据和自动标注的低质量数据可以进行融合和跟踪以确保模型训练实现准确加权，从而充分考虑到不同级别的标签质量。
　　SnorkelAI 结合了不同来源的标签，以允许模型大规模地聚合和改进混合质量的标签。图源：https://arxiv.org/pdf/1711.10160.pdf
　　这种方法令人联想到数据库管理系统的数据融合，将其应用到机器学习是一个支点和再设计，而不是仅仅针对 ML 的革命性创造。通过确认系统和 ML 领域的共有问题，并结合数据来源，传统的系统技术可以应用于机器学习设置中。
　　数据验证
　　数据验证是数据收集的后续操作。数据质量是机器学习 pipeline 中的关键问题。维护者如果想要为自己的系统生成高质量模型，则必须保证输入的数据也是高质量的。
　　调整机器学习方法并不能轻易地解决这一问题，因而需要对 ML 系统进行调整。幸运的是，虽然机器学习的数据验证是一个新问题，但数据验证不是。
　　引用 TensorFlow 数据验证（TFDV）相关论文《 Data Validation for Machine Learning 》中的表述：
　　数据验证既不是一个新问题，也不是机器学习独有的，所以我们可以借鉴数据库系统等相关领域中的解决方案。但是，我们认为数据验证在机器学习场景中面临着独特的挑战，因而需要重新思考现有解决方案。
　　再一次，通过确认机器学习系统和传统计算机系统之间的并行挑战，我们可以通过一些机器学习导向的修改来重新利用现有解决方案。
　　TFDV 的解决方案使用了数据管理系统中久经验证的解决方案——schemas。一个数据库强制执行属性以确保数据输入和更新遵循指定的格式。同样地，TFDV 的数据模式系统也对输入至模型的数据强制执行一些规则。
　　TFDV 的用于 ML 数据验证的模式系统使用户可以避免生成系统中数据馈送的异常现象。图源：https://mlsys.org/Conferences/2019/doc/2019/167.pdf
　　当然会有一些不同的地方，反映出了机器学习系统与传统范式的区别。ML 模式不仅需要与时俱进和实时调整以适应分布变化，而且需要考虑系统生命周期中模型自身可能出现的变化。
　　模型训练
　　ML 从业者可能感到惊讶的是将模型训练作为系统优化的一个领域。毕竟，如果机器学习应用中有一个领域真正依赖 ML 技术，那就是训练。但即使这样，系统研究依然可以发挥作用。
　　以模型并行化为例，随着 Transformer 崛起，各种应用 ML 领域在模型尺寸方面都出现了显著增加。几年前，BERT-Large 模型的参数达到了 3.45 亿，现在 Megatron-LM 增加到了 1 万亿以上。
　　这些模型的内存成本已经达到了数百 GB，没有一个 GPU 可以 hold 它们。传统解决方案——模型并行化采用了一种相对简单的方法，即在不同的设备上对模型进行划分以分配相应的内存成本。
　　传统模型并行化受到神经网络架构序列性的影响。高效的并行化计算机会是有限的。
　　但是，这种技术也存在问题，即模型本质上是连续的，并且训练模型需要在层间前向和后向地传递数据。因此，每次只能使用一个层和一个设备。这种情况将导致设备利用严重不足。
　　系统研究如何发挥助力作用呢？
　　以一个深度神经网络为例，如果将其分解为最小的组件，则它可以被视为一系列转换数据的算子。简单地训练意味着这样一个过程：通过算子传递数据，产生梯度，再次通过算子将梯度反馈回来，最后更新算子。
　　在这个层次分解之后，模型开始类似于其他阶段式操作，比如 CPU 的指令 pipeline。谷歌于 2019 年在论文《 GPipe: Easy Scaling with Micro-Batch Pipeline Parallelism 》中提出的 GPipe 系统和分布式任务处理系统 Hydra 试图通过这种 CPU 并行指令将系统优化应用于可扩展性和并行性实现。
　　其中，GPipe 系统通过这种 CPU 并行指令将模型训练转变成了一个 pipeline 问题。模型的每个分区都被视为一个 pipe 的不同阶段，并且 mini-batch 通过分区进行分级以实现利用效果最大化。
　　序列模型并行化中的 SOTA——pipeline 并行化可以并行处理 mini-batch 的训练。但是，同步开销非常高，尤其是在前向和后向传递的转换过程中。
　　但是请注意，反向传播通过相反的顺序复用这些阶段。这意味着：在前向 pipeline 完全畅通之前，反向传播无法启动。即便如此，这种技术可以将模型并行训练加速至一个很好的水平，在 8 个 GPU 时速度提升 5 倍。
　　Hydra 则采用了另外一种方法，它将可扩展性和并行性分割为两个不同的步骤。数据库管理系统中的一个常见概念是溢出（spilling），多余数据被发送至内存层级结构的较低层次。Hydra 充分利用模型并行中的序列计算，并观察到不活跃的模型分区不需要在 CPU 上处理。相反，Hydra 将不需要的数据溢出至 DRAM，在 GPU 上间断性地切换模型分区，以模拟传统的模型并行执行。
　　Hydra 的模型溢出技术将深度学习训练的成本转移至 DRAM 而不是 GPU 内存，同时保持了 GPU 执行的加速优势。
　　这样一来，一次只使用一个 GPU 就可以训练模型。因此，在顶端引入一定程度的任务并行性很简单。每个模型，无论它的大小如何，一次只需要一个 GPU，这样系统可以充分利用每个 GPU。在 8 个 GPU 时可以实现 7.4 倍以上的近乎最优加速。
　　但是，模型并行只是系统研究为模型训练所能带来的开始，其他有潜力的贡献包括数据并行（如 PyTorch DDP）、模型选择（如 Cerebro 或模型选择管理系统）、分布式执行框架（Spark 或 Ray）等。模型训练是系统研究优化的成熟领域。
　　模型服务
　　归根结底，构建机器学习模型最终是为了使用。模型服务与预测是最重要的机器学习实践领域之一，也是系统研究产生最大影响的领域之一。
　　预测可以划分为两个主要设置：离线部署和在线部署： 离线部署相对更加直接，它涉及到单一的、不定期运行的大批量预测工作。常见的设置包含商业智能、保险评估和医疗健康分析； 在线部署属于网络应用，如果用户想要自己的查询得到快速响应，则需要快速、低延迟的预测。
　　离线部署和在线部署具有各自的需求和要求。通常来说，离线部署需要高通量的训练过程以快速浏览大量的示例，在线部署在单一预测上需要极快的周转时间，而不是一次进行多个预测。
　　系统研究已经重新塑造了处理离线和在线部署任务的方式。以加州大学圣地亚哥分校的研究者在论文《 Incremental and Approximate Computations for Accelerating Deep CNN Inference 》中提出的 Krypton 工具为例，它将视频分析重新视作一项「多查询优化任务（multi-query optimization, MQO）」任务。
　　MQO 不是一个新的领域，它是数十年来关系数据库设计的一部分。总体思路很简单：不同的查询可能共享相关组件，然后可以保存和复用这些组件。Krypton 工具观察到，CNN 推理通常是在批量相关图像上完成，比如在视频分析中。
　　一般来说，视频是以高帧率生成，这样一来，相邻帧往往相对一致。帧 1 中的大部分信息依然出现在帧 2 中。这种情况与 MQO 明显相同，即一系列任务之间共享信息。
　　Krypton 在第一帧上运行常规推理，然后具象或保存 CNN 在预测过程中产生的中间数据。随后的图像与第一帧进行比较以确定图像中的哪些 patch 产生的变化足以值得重新计算。一旦确定了 patch，Krypton 通过 CNN 计算 patch 的「变化域」，以确定模型整个状态中哪些神经元输出发生了变化。这些神经元会根据变化的数据重新运行，其余的数据只需要从基础帧中复用即可。
　　结果就是在推理负载上实现 4 倍以上的端到端加速，并且过期数据只有很小的准确率损失。这种运行时改进对于安全录像视频分析等长时间运行的流媒体应用来说至关重要。
　　Krypton 并不是唯一一个专注于模型推理的工具。加州大学伯克利分校的研究者在论文《 Clipper: A Low-Latency Online Prediction Serving System 》中提出的 Clipper 和 TensorFlow Extended 等其他工具利用系统优化和模型管理技术提供高效和鲁棒的预测，从而解决了同样的高效预测服务问题。
　　原文链接：
　　https://thegradient.pub/systems-for-machine-learning/

票房就520万，离开黄渤后他跌落低谷，成了烂片王黄渤近几年来也开始在转型，尝试着做导演，而他所导演的那一部一出好戏在上映之后，也是获得了很多的好评。在这部电影当中，黄渤不仅是邀请了张艺兴这样的流量小生，并且还邀请了王迅参演。王迅她27岁一脱成名却无戏可拍，如今靠综艺翻红，成票房冠军艺术片很容易让导演和演员一起爆红，所以演了很多年戏，演技一直没得到专业人士认可的范冰冰，去演了苹果。不过苹果比较惨，这部戏除了拍摄尺度比较大之外，影片中所影射的内容也过于灰色，导致三只松鼠高管被捕喜茶618成绩出炉肯德基元气森林打造新饮品三只松鼠高管被捕据南方都市报报道，三只松鼠原物流参谋部总参谋蒋某伙同他人利用职务之便侵占废纸箱（价值684000元）牟利，，还收受贿赂并向行贿人索要宝马车一辆，非法收受和索取财物共科学家开发基于人体自然产生的弹性蛋白原的实验性伤口敷料据外媒NewAtlas报道，德国研究人员正在开发基于弹性蛋白原（tropoelastin）的定制生物医学适用材料。该材料结合了生物相容性耐用性生物降解性和类似于皮肤的良好机械性能。宝石说丨因为她带火整个翡翠业，才让翡翠昂贵到今天01hr翡翠由来Jadeorigin翡，赤羽雀也翠，青羽雀也中国最早的字典说文解字记载道翡翠鸟Halcyonpileata在中国古代翡翠是一种生活在南方的鸟毛色十分美丽一般这种鸟雄你知道吗？蓝宝石也不一定都是蓝色蓝宝石实在是一种很奇妙的宝石。它是世界五大宝石之一，更是除了红色外所有颜色的宝石级刚玉的统称。色彩篇蓝宝石（Sapphire）和红宝石都属于刚玉矿物，莫氏硬度9，是除了钻石以外地球新工具设计更复杂的DNA机器人俄亥俄州立大学的研究人员宣布开发了名为MagicDNA的新软件。该软件是一个新的开发工具，可以让科学家设计出比以前更复杂的DNA机器人和纳米设备。该软件使研究人员能够设计出将非常小重大喜讯！鱼香肉丝宫保鸡丁上天了5月29日20时55分，天舟二号货运飞船由长征七号运载火箭发射升空，标志着中国空间站开始了第一阶段的组建工作。在成功发射约8小时后，天舟二号货运飞船与天和核心舱完成了全自主快速交会迄今最全面的人类基因组测序完成20年前，科学家宣布读取了一个人的全部脱氧核糖核酸（DNA），其实，他们漏掉了少许。现在，由于读取DNA方法的改进，科学家终于可以从头到尾读取人类的全部基因组了！据生物预印本网站（突围！突围5月8日，中国中化集团与中国化工集团联合重组正式落地，中国中化控股有限责任公司在北京正式揭牌成立，这标志着一个资产1。4万亿，员工数22万人的巨无霸企业成立。重组后的中化，成为全球为什么我们的大脑里会出现磁铁？科学家尚不清楚我们的大脑中为什么会有磁铁矿晶体，但这可能与地球的磁场有关。在X战警系列作品中，万磁王是一个超级反派，X战警的头号死敌。在变种人当中，万磁王的超能力是顶级的存在，可以

<<<<<<－>>>>>>

解析15头大象为什么冒着生命危险去北漂？发现北迁可能的原因连日来，15头野生亚洲象在云南一路逛吃北迁的消息引起大家的关注，目前象群移动的脚步依旧没有停止，非常多人的关注的重点它们走到哪儿了？截止目前象群任然在云南省玉溪市峨山先逗留，距离昆80吨级！龙云发动机3次成功启动中美差距160吨，如何突破？一直以来，无论是汽车发动机，还是航天发动机，都是我国的一大短板。其主要原因是我国在该领域起步晚，起点低。加上各个国家对我国的技术封锁，导致我国在很多领域都需要自主研发，这将是一个非稳了！中国人造太阳最新突破技术碾压美国欧洲，成为世界第一28日，我国人造太阳之称的全超导托卡马克核聚变实验装置，创造世界纪录，实现颗重复的1。2亿摄氏度101秒和1。6亿摄氏度20秒等离子体运行新纪录。该纪录在可控核聚变中有着非常重要的一夜两次！四川人经历了什么？汶川4。8级地震暴雨预警升级为黄色7月14日，四川省气象台一天两次发布暴雨预警，将蓝色预警升级到了黄色预警，晚上23点36分汶川发生4。8级地震。虽然，地震等级没有2008年汶川地震等级强，但是发生在汶川，不少市民被降级后！距离成都88公里，发现野生大熊猫，对人有什么威胁？嘿！小家伙！脑壳抬起来！近日，邛崃市天台山相邻的火井镇大葫村六组，采药的山民拍到野生大熊猫。一只熊猫趴在树梢，模样憨态可掬。随后，熊猫还在树上拉起了粑粑。据了解，邛崃大葫村距离成都中国超级混泥土技术投入使用，坚硬度堪比钢材，创造世界之最图为修建的黄河大桥进入21世纪之后，中国在方方面面都得到了长足的发展，其中最具代表性的就是基建，因为中国制造物美价廉，而且技术高超，所以有很多国家都争先发出合作请求，如今中国基建已仅用5年，成都天府国际机场建造完成！比北京大兴机场还厉害？图为天府国际机场各位观众好，欢迎收看本期紫龙观察，我是大家的好朋友王婵，本期，我们关注的话题是仅用5年时间，中国又建成1超级机场此前，北京大兴机场的建成已经获得了全球的关注，这座超世界第一！中国科学家成功将光储存1小时涉及量子通信，颠覆认知近日，中国科学家发明一种有特殊的技术，可以将光储存在一个很小的晶体内，一个小时候放出，成功的刷新了德国的记录，成为世界第一。科学家在接受采访的时候，在记者的见证下，一束长600光的神舟十二号发射成功！三名宇航员就有两名老将谁记得备份航天员？6月17日9时22分长征二号F遥十二火箭搭载神舟十二号载人飞船成功发射，飞行乘组由航天员聂海胜刘伯明和汤洪波组成，聂海胜担任指令长。航天员聂海胜参加过神舟六号神舟十号载人飞行任务，4。3米！蟒蛇出动活吞3头羊网友蟒蛇的弱点是什么？如何吞动物？近日，云南楚雄一条大蟒蛇闯进村民羊圈，将3只羊吞进腹中。森警赶到后合力将巨蟒捕获，蟒蛇长度4。3米，重量25。39公斤，经鉴定该蛇属缅甸双带蟒，系国家二级保护动物，目前巨蟒已得到妥破坏25万亩！四川紧急发布红火蚁警示通报红火蚁的天敌却不能引入近日四川发布红火蚁警示通报，已扩散至6市14县63乡镇，目前发生面积为25万亩。近日，四川省林草防治检疫总站，发布了红火蚁在我省发生范围有进一步扩大趋势的警示通报。红火蚁入侵中国早