范文健康探索娱乐情感热点
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

微软发布高性能MoE库Tutel,针对大规模DNN模型开发提速

  IT之家 11 月 27 日消息,据微软亚洲研究院发布,作为目前唯一被证明能够将深度学习模型扩展到万亿以上参数的方法,MoE 能让模型学习更多信息,并为计算机视觉、语音识别、自然语言处理和机器翻译系统等提供支持。近期,微软亚洲研究院发布了一个高性能 MoE 库 ——Tutel,并在 8x 80GB NVIDIA A100 和 8x 200Gbps 的 InfiniBand 网络的 Azure NDm A100 v4 节点上进行了实验。让我们来看一看,这个用于促进大规模 DNN 模型开发的高性能 MoE 库有哪些优势?其表现又如何?
  混合专家(Mixture-of-Experts,简称 MoE)是一种深度学习模型架构,其计算成本与参数的数量呈次线性关系,因此更容易扩展。MoE 是目前唯一被证明能够将深度学习模型扩展到万亿以上参数的方法,它能让模型学习更多信息,并为计算机视觉、语音识别、自然语言处理和机器翻译系统等提供支持,从而以全新的方式为人类社会提供帮助。
  近日,微软亚洲研究院发布了一个用于促进大规模 DNN 模型开发的高性能 MoE 库 ——Tutel,并针对已普遍使用的新 Azure NDm A100 v4 系列进行了高度优化。借助 Tutel 多样化和灵活的 MoE 算法支持,AI 领域的开发人员可以更轻松、高效地执行 MoE。与最先进的 MoE 实现方式,如 fairseq(Meta 的 Facebook AI 研究院基于 PyTorch 的 Sequence to Sequence 工具包)相比,对于单个 MoE 层,Tutel 在具有 8 个 GPU 的单个 NDm A100 v4 节点上实现了 8.49 倍的加速,在具有 512 个 A100 GPU 的 64 个 NDm A100 v4 节点上实现了 2.75 倍的加速。在端到端性能方面,得益于 all-to-all 通信优化,Tutel 在 Meta(原 Facebook 公司)的 1.1 万亿参数的 MoE 语言模型中使用 64 个 NDm A100 v4 节点实现了 40% 以上的加速。
  Tutel 具有良好的兼容性和丰富的功能,确保了其在 Azure NDm A100 v4 群集上运行时可以发挥出色的性能。目前,Tutel 已开源,并已集成到 fairseq 中。
  Tutel GitHub 链接:https://github.com/microsoft/tutel Tutel MoE 的三大优势
  作为 fairseq、FastMoE 等其他高水平 MoE 解决方案的补充,Tutel 主要专注于优化面向 MoE 的计算和 all-to-all 通信,以及其他多样化和灵活的 MoE 算法支持。Tutel 具有简洁的接口,可以轻松集成到其他 MoE 解决方案中。当然,开发人员也可以从头开始,利用 Tutel 的接口将独立的 MoE 层合并到他们自己的 DNN 模型中,直接从高度优化的、最先进的 MoE 功能中受益。
  与现有的 MoE 解决方案相比,Tutel 具有以下三个主要优势:
  优化面向 MoE 的计算。由于缺乏高效的实现方法,目前基于 MoE 的 DNN 模型依赖于深度学习框架(如 PyTorch、TensorFlow 等)提供的多个现成 DNN 运算符的拼接来组成 MoE 计算。由于需要冗余计算,这种做法会导致显著的性能开销。Tutel 设计并实现了多个高度优化的 GPU 内核,为面向 MoE 的计算提供了运算符。例如,Tute l 将调度"输出选通(gating output)"的时间复杂度从 O (N^3) 降低到 O (N^2),显著提高了数据调度的效率。Tutel 还实现了快速 cumsum-minus-one 运算符(fast cumsum-minus-one operator),与 fairseq 实现方式相比,达到了 24 倍的加速。此外,Tutel 还利用 NVRTC(CUDA C++ 的运行时编译库)进一步实时优化了定制的 MoE 内核。
  图 1 对比了 Tutel 与 faireseq 在 Azure NDm A100 v4 平台上的运行结果,如前所述,使用 Tutel 的单个 MoE 层在 8 个 A100 GPU 上实现了 8.49 倍的加速,在 512 个 A100 GPU 上实现了 2.75 倍的加速。
  图 1:与 fairseq 相比,对于单个 MoE 层,Tutel 在具有 8 个 GPU 的单个 NDm A100 v4 节点上实现了 8.49 倍的加速,在具有 512 个 A100 GPU 的 64 个 NDm A100 v4 节点上实现了 2.75 倍的加速。详细设置为:batch_size = 32, sequence_length = 1,024, Top_K = 2, model_dim = 2,048, ands hidden_size = 2,048
  在 Azure NDm A100 v4 群集上实现底层 all-to-all 通信优化。Tutel 针对 Azure NDm A100 v4 群集上的大规模 MoE 训练,优化了 all-to-all 聚合通信(collective communication),其中包括 CPU-GPU 绑定和自适应路由(AR)调整。在非一致存储访问结构(NUMA)系统上,尤其是在 NDv4 VM 上,正确的 CPU-GPU 绑定对于 all-to-all 性能非常关键。但是,现有的机器学习框架(TensorFlow、PyTorch 等)并未提供高效的 all-to-all 通信库,导致大规模分布式训练的性能下降。
  Tutel 可以自动优化绑定,并为用户微调提供简洁的接口。此外,Tutel 在 NDm A100 v4 集群上使用了多路径技术,即 AR。对于 MoE 中的 all-to-all 通信,每个 GPU 通信的总数据流量规模并不会发生变化,但每个 GPU 之间的数据规模会随着 GPU 数量的增加而变小。而更小的数据规模会在 all-to-all 通信中产生更大的开销,导致 MoE 训练性能下降。借助 Azure NDm A100 v4 集群提供的 AR 技术,Tutel 提高了小消息组的通信效率,并在 NDv4 系统上提供了高性能的 all-to-all 通信。得益于 CPU-GPU 绑定和 AR 调整,Tutel 使用 512 个 A100 GPU,对通常用于 MoE 训练的每次交换的数百兆字节的消息,实现了 2.56 倍到 5.93 倍的 all-to-all 加速,如图 2 所示。
  图 2:在应用 Tutel 前后,具有 64 个 NDm A100 v4 节点(512 个 A100 GPU)的不同消息大小的 all-to-all 带宽。Tutel 使用 512 个 A100 GPU,对大小为数百兆字节的消息实现了 2.56 倍到 5.93 倍的 all-to-all 加速。
  多样、灵活的 MoE 算法支持。Tutel 为最先进的 MoE 算法提供了多样化且灵活的支持,包括:
  为 Top-K gating 算法设置任意 K 值(大多数实现方法仅支持 Top-1 和 Top-2 )。
  不同的探索策略,包括批量优先路由、输入信息丢失、输入抖动。
  不同的精度级别,包括半精度(FP16)、全精度(FP32)、混合精度等(下一个版本中将支持 BF16)。
  不同的设备类型,包括 NVIDIA CUDA 和 AMD ROCm 设备等。
  Tutel 将积极整合来自开源社区的各种新兴 MoE 算法。Tutel 与 Meta 的 MoE 语言模型集成
  此前,Meta 就开源了自己的 MoE 语言模型,并利用 fairseq 实现了 MoE。微软亚洲研究院与 Meta 合作将 Tutel 集成到了 fairseq 工具包中。Meta 也一直用 Tutel 在 Azure NDm A100 v4 上训练其大型语言模型,该模型中基于注意力的神经架构类似于 GPT-3。
  微软亚洲研究院的研究员们使用 Meta 的语言模型评估了 Tutel 的端到端性能。该模型有 32 个注意力层,每个层都有 32 个 128 维注意力头(32x128-dimension heads)。每 2 层中包含 1 个 MoE 层,而每个 GPU 都配有一名专家(expert)。表 1 总结了模型的详细设置参数,图 3 则显示了 Tutel 的加速效果。由于 all-to-all 通信成为瓶颈,所以随着 GPU 数量的增加,Tutel 带来的改进从 8 个 A100 GPU 的 131% 提升至 512 个 A100 GPU 的 40%。研究员们将在下一个版本中对此做进一步优化。
  表 1:512 个 A100 (80G) GPU 的 MoE 语言模型配置
  图 3:在端到端性能方面,Tutel 在 Meta 的 1.1 万亿参数的 MoE 语言模型中使用 64 个 NDm A100 v4 节点实现了 40% 以上的加速。
  MoE 技术前景广阔,它可以基于许多领域的技术,实现整体训练,例如系统路由、海量节点的网络平衡,甚至可以从基于 GPU 的加速中受益。微软亚洲研究院展示了一个高效的 MoE 实现方式 ——Tutel,它比 fairseq 框架有着显著的进步。
  现在,Tutel 也已集成到了 DeepSpeed 框架中。相信 Tutel 和相关的集成将使更多 Azure 服务受益,特别是对于那些希望高效扩展自有大型模型的客户。今天的 MoE 仍处于早期阶段,需要付出更多努力才能充分发挥 MoE 的潜力,因此研究员们也将继续优化 Tutel,希望未来可以给大家带来更多令人兴奋的研究和应用成果。

广汽丰田一汽丰田等召回逾13万辆国产及进口汽车,涉及威飒双擎RAV4荣放等车型IT之家4月22日消息,据国家市场监管总局网站,日前,广汽丰田汽车有限公司一汽丰田汽车有限公司四川一汽丰田汽车有限公司长春丰越公司丰田汽车(中国)投资有限公司根据缺陷汽车产品召回管盛美半导体上海18腔300mmUltraCVI单晶圆清洗设备投入量产IT之家4月22日消息,盛美半导体设备(上海)是一家半导体前道和先进晶圆级封装(WLP)应用提供晶圆工艺解决方案供应商,今天宣布,18腔300mmUltraCVI单晶圆清洗设备已成马斯克我若成功收购推特,董事会薪水直接变0元特斯拉CEO埃隆马斯克(ElonMusk)今日表示,如果他成功收购Twitter,意味着公司将不再需要董事会,每年相当于为Twitter节省约300万美元费用。今日早些时候,美国投中国成为世界上第三个具备开展深地核天体物理研究能力的国家IT之家12月19日消息,据国务院国资委新闻中心,我国首个深地核天体物理实验项目昨日在北京进行了展示。此举标志着中国核天体物理实验研究步入国际先进行列,中国成为世界上第三个具备开展华为开启服务感恩回馈季HarmonyOS升级尝鲜维修备件8。8折等IT之家12月28日消息,据华为终端官方微博,2021年12月28日至2022年3月31日,华为服务感恩回馈季开启,官方维修备件费8。8折优惠,HarmonyOS免费升级尝鲜等。据国家卫健委最新解答现有疫苗对奥密克戎变异株仍有一定的保护效果IT之家1月17日消息,今日,国家卫健委通过官方网站公布了关于奥密克戎的最新解答。IT之家了解到,国家卫健委表示,目前已有的研究结果显示,奥密克戎变异株对现有疫苗并未完全出现免疫逃智飞生物重组新冠疫苗(CHO细胞)对奥密克戎变异株依然有效IT之家12月13日消息,据智飞生物官网消息,针对奥密克戎变异株,重组新冠疫苗仍然可以提供很好的保护。由中科院微生物研究所组织开展的研究结果发现78受试者血清对奥密克戎变异株中和抗吴恩达创立在线教育公司Coursera明年有望上市,估值达50亿美元据报道,消息人士透露,互联网教育公司Coursera正考虑于2021年启动IPO(首次公开招股),估值可能达到50亿美元左右。根据消息人士的说法,Coursera正在与可能的IPO快手官宣春节活动瓜分22亿红包,19日晚8点上线IT之家1月19日消息,快手宣布,1月19日晚8点,快手春节活动主会场将正式上线。今年的红包玩法在地图闯关和集卡基础上,新增了倒转手机得红包玩跳一跳小游戏得红包守卫压岁钱等创新玩法重庆市以发展集成电路等为重点,进一步做优做强产业集群1月17日,重庆市第五届人民代表大会第五次会议在市人民大礼堂开幕。重庆市人民政府代市长胡衡华向大会作政府工作报告。2021年,电子信息产业加快补链成群,计算机年产量首次突破1亿台,发改委2021年集成电路产量较上年增长33。3,汽车产量持续4个月增加IT之家1月18日消息,国家发展改革委今日举行1月新闻发布会,会上公布了一些国家最新数据,包括2021年经济社会发展总体情况关于发用电和投资项目审批情况关于优化营商环境有关工作进展
华为郭平解决芯片问题是一个复杂的漫长过程,ToB业务连续性现在还有保障IT之家3月28日消息,华为今日举行2021年年度报告发布会。华为轮值董事长郭平以及华为公司副董事长CFO孟晚舟出席业绩说明会。在采访环节,被问及芯片时,华为轮值董事长郭平表示,美中汽协2月份新能源汽车销量33。4万辆同比上涨184。3,前两月累计销量同比上涨154。7IT之家3月11日闪讯速报,中国汽车工业协会表示,中国2月份新能源汽车销量33。4万辆,同比上涨184。3。12月份新能源车累计销量76。5万辆,同比上涨154。7。IT之家了解到乘联会2月新能源车销量榜宏光MINI依然第一,比亚迪独占234名,特斯拉跌出前五IT之家3月11日消息,乘联会(中国汽车流通协会汽车市场研究分会)公布了最新零售销量数据统计,包括2月新能源轿车销量排行榜。乘联会的数据显示,2022年2月新能源乘用车市场零售达到宁德时代曾毓群两会建言保障供应链安全加强自主创新和科技攻关,促进资源循环利用今年两会期间,全国政协委员宁德时代董事长曾毓群将提交四份提案,涉及锂资源保供稳价新型储能电池碳足迹和锂电池道路运输等议题。曾毓群在其推动国内锂资源保供稳价的提案中提出,当前锂资源供锂电材料继续上涨,电池级碳酸锂氢氧化锂等仍有望进一步上涨3月4日,上海钢联发布数据显示,部分锂电材料报价继续上涨,电池级碳酸锂涨5500元吨,均价报50万元吨氢氧化锂涨6000元吨7000元吨电解钴涨3200元吨镍豆涨6100元吨。下游UberEats推出点外卖分账功能多人点餐分别付钱,避免要钱的尴尬IT之家3月10日消息,Uber宣布在其UberEatsApp中推出账单拆分功能,可以让团队中的每个人都能承担订单的部分金额。通过账单拆分功能,用户可以与他们的朋友同事创建群组,从美团宣布改进骑手服务评价规则差评超时等情况处理从扣款改为扣分IT之家3月3日消息,美团今日在其官方微信号上发布公告表示,目前,绍兴太原昆明等15个城市正在试点新的服务星级激励机制,对骑手收差评超时等情况的处理从扣款改为扣分,根据全月累计积分最高法若外卖平台未尽审查义务,将承担连带责任IT之家3月2日消息,今日,最高人民法院发布最高人民法院关于审理网络消费纠纷案件适用法律若干问题的规定(一)。规定明确,网络餐饮服务平台经营者未依法对入网餐饮服务提供者进行实名登记饿了么对疫情中高风险地区餐饮商家实行佣金减免,不设任何门槛IT之家3月2日消息,饿了么今日发文称,公司将首批投入2000万元现金,为在2022年12月被列为疫情中高风险地区87个区县的所有餐饮商家实行佣金减免,不设置任何门槛,也无需平台额两部门支持深圳统一布局新能源汽车充换电基础设施,试点互联网处方药销售IT之家1月26日消息,据财联社消息,发改委商务部印发关于深圳建设中国特色社会主义先行示范区放宽市场准入若干特别措施的意见。意见表示,要在深圳加快推进综合改革试点,持续推动放宽市场小米集团深圳国际总部设计揭晓酷炫小米魔方,360度建筑环绕LED屏IT之家1月5日消息,昨日晚间,ennead建筑事务所宣布,在小米集团深圳国际总部国际设计公开竞赛招标中取得优胜,并担任该项目的主创建筑设计单位。小米深圳国际总部将与小米之家旗舰店