2天训练出15亿参数大模型国产开源项目力克英伟达MegatronLM

　　1 月 20 日消息，当今 AI 之势，影响纵深发展的矛盾是什么？
　　一方面，大模型风头正劲，效果惊艳，人人都想试试。但另一方面，硬件基础上动不动就是上万张 GPU 的大规模集群在日夜燃烧，钞能力劝退。
　　所以如果告诉你，现在只用一半数量的 GPU，也能完成同样的 GPT-3 训练呢？
　　你会觉得关键钥匙是什么？
　　不卖关子了。实现如此提升的，是一个名为 Colossal-AI  的 GitHub 开源项目。
　　而且该项目开源不久，就迅速登上了 Python 方向的热榜世界第一。
　　GitHub 地址：点击打开
　　不仅能加速 GPT-3，对于 GPT-2、ViT、BERT 等多种模型，Colossal-AI 的表现也都非常 nice：
　　比如半小时左右就能预训练一遍 ViT-Base / 32，2 天能训完 15 亿参数 GPT 模型、5 天可训完 83 亿参数 GPT 模型。
　　与业内主流的 AI 并行系统 —— 英伟达 Megatron-LM 相比，在同样使用 512 块 GPU 训练 GPT-2 模型时，Colossal-AI 的加速比是其 2 倍。而在训练 GPT-3 时，更是可以节省近千万元的训练费用。
　　此外在训练 GPT-2 时，显存消耗甚至能控制在 Megatron-LM 的十分之一以下。
　　Colossal-AI 究竟是如何做到的？
　　老规矩，我们从论文扒起。高效 6 维并行方法
　　简单来说，Colossal-AI 就是一个整合了多种并行方法的系统，提供的功能包括多维并行、大规模优化器、自适应任务调度、消除冗余内存等。
　　首先来看多维并行。
　　所谓＂多维＂是指，目前主流的分布式并行方案往往使用多种并行方法。
　　比如英伟达的 Megatron-LM 使用了 3 种方法：数据并行、流水并行和张量并行 。因此这种模式也被称为三维并行。微软的 DeepSpeed 调用 Megatron-LM 作为并行基础。
　　而 Colossal-AI 能将系统的并行维度，一下子拉升到 6 维  ——
　　在兼容数据并行、流水并行的基础上，基于该项目团队自研的 2 维 / 2.5 维 / 3 维张量并行方法，以及序列并行实现。
　　其中，高维张量并行 正是 Colossal-AI 提升大模型显存利用率和通信效率的关键所在。
　　其实张量并行并不新奇，只是过去我们常见的张量并行更多都是基于一维的。
　　它的原理是将模型层内的权重参数按行或列切分到不同的处理器上，利用分块矩阵乘法，将一个运算分布到多个处理器上同时进行。
　　比如英伟达的 Megatron-LM 就是一个典型的例子。
　　但这种并行方式存在一定弊端。
　　比如，每个处理器仍需要存储整个中间激活，使得在处理大模型时会浪费大量显存空间。
　　另一方面，这种单线方法还会导致每个处理器都需要与其他所有处理器进行通信。
　　这意味着假设有 100 个 GPU 的话，每个 GPU 都需要与其他 99 个 GPU 通信，每次计算需要通信的次数就高达 9900 次。
　　但如果将张量并行的维度扩展到 2 维，单次计算量能立刻下降一个量级 。
　　因为每个 GPU 只需与自己同行或同列的 GPU 通信即可。
　　同样还是 100 个 GPU 的情况，每个 GPU 需要通信的 GPU 个数就能降到 9 个，单次计算仅需 900 次。
　　实际上在此基础上，Colossal-AI 还包含 2.5 维、3 维张量并行方法，可以进一步降低传输成本。
　　相较于 2 维并行方法，2.5 维并行方法可提升 1.45 倍效率，3 维方法可提升 1.57 倍。
　　针对大图片、视频、长文本、长时间医疗监控等数据 ，Colossal-AI 还使用了序列并行的方法，这种方法能突破原有机器能力限制，直接处理长序列数据。
　　值得一提的是，Colossal-AI 的 API 接口是可以定制的，这使得它可以便捷添加新的并行维度。
　　其次，大规模优化器也是 Colossal-AI 的亮点。
　　上面我们也提到了，在分布式并行系统中会使用多种并行方法，数据并行则是另一种常见方法。
　　这种方法的原理不难理解，就是把训练数据划分成若干份，让不同的机器运算不同的数据，然后通过一个参数服务器（Paremeter Server）收集目标数据。
　　由此可以大幅提升 AI 模型训练过程中的批量大小，加速训练过程。
　　不过大批量训练有个＂通病＂，就是会产生泛化误差（Generalization Gap），导致网络泛化能力下降，进而导致 AI 模型准确度下降。
　　所以，Colossal-AI 在系统中使用了自研的 LAMB、LARS 等大规模优化器 。在保证训练精度的情况下，还将批大小从 512 扩展到 65536。
　　其中，LARS 优化器是通过逐层调整学习率，来减少因为学习率导致的无法收敛情况。
　　LAMB 优化器则是在 LARS 的基础上，将逐层调整学习率的思想应用到自适应梯度上。
　　由此，LAMB 能够很好解决此前 LARS 在 BERT 训练中存在差异的问题，最大批量达到了 64K。
　　此前，LAMB 优化器曾成功将预训练一遍 BERT 的时间，从原本的三天三夜缩短到一个多小时。
　　第三方面，Colossal-AI 使用自适应可扩展调度器来高效处理任务 。
　　与现有常见的任务调度器不同，Colossal-AI 不是静态地通过 GPU 个数来判断任务规模，而是根据批大小来动态、自动管理每个任务.
　　通过演化算法，该任务调度器还能不断优化调度决策，更大程度提升 GPU 利用率。
　　评估结果表明，与当前最先进的方法相比，该方法在平均 JCT（job completion time）上能够缩短 45.6% 的时间，优于现有的深度学习任务调度算法。
　　此外，这种自适应可扩展调度器还能通过 NCCL 网络通信实现高效的任务迁移。
　　最后，消除冗余内存也是加速 AI 训练的一种解决思路 。
　　在这方面，Colossal-AI 使用了 zero redundancy optimizer 技术（简称 ZeRO）。
　　这种方法主要通过切分优化器状态、梯度、模型参数，使 GPU 仅保存当前计算所需的部分，从而来消除数据并行、模型并行中存在的内存冗余。
　　尤其是在部署模型推理时，通过 zero offload 可以将模型卸载到 CPU 内存或硬盘，仅使用少量 GPU 资源，即可实现低成本部署前沿 AI 大模型。
　　综上不难看出，在技术层面 Colossal-AI 的加速效果非常明显。
　　而在应用层面，Colossal-AI 的设计也顾及了能耗问题和易用性两个维度。
　　考虑到数据移动会是能耗的主要来源，Colossal-AI 在不增加计算量的情况下尽可能减少数据移动量，以此来降低能耗。
　　另一方面，作为一个开源给所有人使用的系统，Colossal-AI 的使用门槛不高，即便是没有学习过分布式系统的人也能上手操作。
　　同时，只需要极少量的代码改动，Colossal-AI 就能将已有的单机代码快速扩展到并行计算集群上。最新实验结果释出
　　Talk is cheap，效果如何，还是得把实验结果展开来看。
　　Colossal-AI 近日释出的最新实验结果表明，这一大规模 AI 训练系统具有通用性，在 GPT-3、GPT-2、ViT、BERT 等流行模型上均有亮眼的加速表现。
　　注：以下 GPU 均指英伟达 A100。
　　GPT-3 训练速度提高 10.7%
　　英伟达的 Megatron-LM 在加速训练 GPT-3 时，至少需要 128 块 GPU 才能启动；而从下表可以看出，使用相同的计算资源，Colossal-AI 可以将每次迭代花费的时间从 43.1 秒降至 38.5 秒。
　　这也就意味着，Colossal-AI 可以将 GPT-3 的训练速度进一步提高 10.7%。
　　站在工程的角度，考虑到训练这样的大模型往往需要投入数百万美元，这一提升比例带来的收益不言而喻。
　　另外，通过系统优化，Colossal-AI 还能在训练速度损失不大（43.1→48.5）的前提下，将 GPU 数量从 128 块减少到 96 块 ，大幅降低训练成本。
　　而进一步启用 ZeRO3（零冗余优化器）后，所需 GPU 数量甚至能减少一半 —— 至 64 块。2 天内可完成 GPT-2 训练
　　在 GPT-2 的加速训练结果中，可以看到，无论是在 4、16 还是 64 块 GPU 的情况下，与 Megatron-LM 相比，Colossal-AI 占用的显存都显著减少。
　　也就是说，利用 Colossal-AI，工程师们可以在采用同等数量 GPU 的前提下，训练规模更大的模型，或设置更大的批量大小来加速训练。
　　从下表结果中还可以看出，随着批量大小的增加，Colossal-AI 的资源利用率会进一步提高，达到 Megatron-LM 速度的 2 倍。
　　研发团队在 256 块 GPU 上进行了实验，最终用时 82.8 个小时 完成了 15 亿参数版 GPT-2 的训练。
　　据此预估，后续在 512 块 GPU 上进行 GPT-2 预训练，Colossal-AI 能将训练时间加速到 45 小时。充分兼容多种并行模式
　　在 BERT 上进行的实验，则体现了 Colossal-AI 作为世界上并行维度最多的 AI 训练系统的优势。
　　与 Megatron-LM 相比，Colossal-AI 序列并行方法只需要更少的显存，就能够利用更大的批量大小来加速训练。同时，还允许开发者使用更长的序列数据。
　　Colossal-AI 的序列并行方法还与流水并行方法兼容。当开发者同时使用序列并行和流水并行时，可以进一步节省训练大模型的时间。
　　另外，在近期的学术热点 ViT 模型上，Colossal-AI 也展现了高维张量并行方法的优势。
　　在使用 64 张 GPU 的情况下，Colossal-AI 采用 2/2.5 维方式进行张量并行，充分利用更大的批量大小，达到了更快的处理速度。
　　背后团队：LAMB 优化器作者尤洋领衔
　　看到这里，是不是觉得 Colossal-AI 确实值得标星关注一发？
　　实际上，这一国产项目背后的研发团队来头不小。
　　领衔者，正是 LAMB 优化器的提出者尤洋。
　　在谷歌实习期间，正是凭借 LAMB，尤洋曾打破 BERT 预训练世界纪录。
　　据英伟达官方 GitHub 显示，LAMB 比 Adam 优化器快出整整 72 倍。微软的 DeepSpeed 也采用了 LAMB 方法。
　　说回到尤洋本人，他曾以第一名的成绩保送清华计算机系硕士研究生，后赴加州大学伯克利分校攻读 CS 博士学位。
　　2020 年博士毕业后，他加入新加坡国立大学计算机系，并于 2021 年 1 月成为校长青年教授（Presidential Young Professor）。
　　同样是在 2021 年，他还获得了 IEEE-CS 超算杰出新人奖。该奖项每年在全球范围内表彰不超过 3 人，仅授予在博士毕业 5 年之内，已在高性能计算领域做出有影响力的卓越贡献，并且可以为高性能计算的发展做出长期贡献的优秀青年学者。
　　与此同时，尤洋回国创办潞晨科技 —— 一家主营业务为分布式软件系统、大规模人工智能平台以及企业级云计算解决方案的 AI 初创公司。
　　其核心团队成员来自加州大学伯克利分校、斯坦福大学、清华大学、北京大学、新加坡国立大学、新加坡南洋理工大学等国内外知名高校，在高性能计算、人工智能、分布式系统方面有十余年的技术积累，并已在国际顶级学术刊物 / 会议上发表论文 30 余篇。
　　目前，潞晨科技已拿下创新工场和真格基金合投的超千万元种子轮融资。传送门
　　有关 Colossal-AI，今天就先介绍到这里。
　　最后，附上传送门，感兴趣的小伙伴，自行取用~
　　GitHub 地址：点击打开
　　参考链接：点击打开

部分苹果HomePodmini用户声称遇到WiFi连接问题重启也无法彻底解决IT之家11月24日消息虽然苹果在其进入的大部分业务中都取得了成功，但有一个行业却不算成功，那就是智能音箱行业。苹果的部分问题在于，其最初打造了一款定价过高的高端设备HomePod天猫精灵四款新品齐发高音质大尺寸统统有IT之家5月20日消息5月20日，天猫精灵举办了今年的春季新品发布会。发布会上，阿里宣布将在今年投入100亿元，围绕天猫精灵全面布局AIoT及内容生态领域。这是继今年1月天猫精灵升天猫精灵四川话版来了口头禅哦豁IT之家4月23日消息今日上午，天猫精灵官方表示，四川话版天猫精灵来了。用户在使用闹钟天气等日常生活及娱乐功能时，可以用四川方言对话。官方海报显示，四川话版天猫精灵口头禅为哦豁，还央视财经618服务机器人行业调查报告石头扫地机亮了618期间，CCTV2正点财经栏目报道了服务机器人行业大调查，调查报告显示，扫地机器人为代表的服务机器人产品市场持续火爆，今年二季度以来，受益于高客单价的消费需求拉动，扫地机销售额石头扫拖机器人T7SPlus避障功能体验AI结构光效果如何？随着人们生活水平的进步，如今很多家庭都会选择购入一款扫地机器人，来代替人去完成地面清扫这种繁琐的家务活。但是使用扫地机器人有一个问题，就是目前市面上很多产品不能很好地识别家中复杂的别被忽悠了，真正智能的扫地机器人这几点必不可少作为智能家居产品之一的扫地机机器人，从诞生之日起便承担起了解放人类双手的工作。如今的扫地机器人早已经走进千家万户，但是，即便是智能化如此发达的现在，仍有不少用户为各种扫地机器人产品爆料OPPO将于5月6日发布手机耳机手环新品三件套IT之家4月21日消息OPPO今日已经官宣将发布OPPOK9系列手机，此前曝光了一款EncoAir新品耳机，都将于5月6日发布。刚刚，数码博主差评帝爆料，还有一款新品手环也将在5月荣耀手环6海外发布1。47英寸AMOLED全面屏，售价50欧元IT之家3月24日消息荣耀手环6于去年11月份在国内正式发售，售价249元，现在该手环也在海外发布了。荣耀手环6搭载1。47英寸AMOLED臻彩大屏，高达64屏占比，采用2。5D弧华为智能生活馆6月6日开业外观科幻IT之家6月5日消息华为智能生活馆（深圳卓悦中心）即将于2020年6月6日在深圳市福田区正式开业，这是今年华为在中国区开业的首家旗舰店。该旗舰店以未来生活新感知为理念，这里有新潮时华为涉及医疗器械领域专利被授权可用智能体重秤测量心电图IT之家2月20日消息企查查App显示，2月19日，华为技术有限公司关于用于心电测量的装置和方法专利信息被授权公开，专利公开号为CN108601544B。本发明实施例涉及医疗器械技谷歌涂鸦庆祝农历新年用AI技术教用户玩皮影戏2月4日消息，据外媒报道，为庆祝中国农历新年，谷歌涂鸦采用人工智能技术和前置摄像头，用一种创新的玩法来教用户玩皮影艺术。据悉，谷歌将这种玩法移植到了一款基于浏览器的游戏中，以教用户

<<<<<<－>>>>>>

苹果遭反垄断诉讼，因AppleWatch心率监测不支持第三方AppIT之家5月30日消息苹果的AppleWatch智能手表一直搭载光学心率传感器，支持心率监测并提供预警服务，最新的第六代手表还支持血氧检测。根据外媒ubergizmo消息，近日一家天猫精灵发布超低价智能IoT芯片最低改造成本5元12月25日，天猫精灵宣布继续加码春雷计划，面向家电企业推出定制化AIoT芯片模组，最低仅需5元即实现电器智能化。通过该模组，中小家电中的天猫精灵可听懂语音指令，首批芯片模组将在宁三星人造人亮相！有情感，有记忆，绝不是AI助手北京时间1月8日早间消息，据国外媒体报道，本周一，在CES2020展会上，一家诞生于三星技术和高级研究实验室（又名STAR实验室）的神秘公司首次亮相。该公司将其最新的技术描述为一种LG全球首款可卷式电视下月上市，售价高达58万元IT之家9月28日消息据韩联社报道，世界首款可卷曲式电视LGSignatureOLEDTVR将于下月上市。报道称，这款电视新品的专题网站已经上线，正在接受贵宾（VVIP）邀请活动申来了！Redmi智能手表入网感谢IT之家网友肖战割割的线索投递！IT之家9月24日消息一款型号为REDMIWT01的蓝牙设备现已入网，申请单位为小米通讯技术有限公司，发证日期为2020年7月29日，核准代码2三星GalaxyWatch3钛金属版10月上市，比不锈钢版更轻IT之家9月15日消息上月，三星正式发布了GalaxyWatch3国行版，41mm蓝牙版2999元，45mmLTE版3799元，45mm蓝牙版3099元。现在根据外媒NeoWin的小米米家高速吹风机H900开启预售12种吹发模式，预售价999元IT之家11月4日消息小米米家高速吹风机H900现已开启小米双11预售，零售价1299元，预售价999元，11月11日正式开卖。米家高速吹风机H900一些卖点包括60米秒速干风速5首款AI研发药物即将用于人体试验治疗强迫症据悉，一款使用人工智能创造的OCD药物将在人类身上进行测试。英国初创公司Exscientia声称，他们已经开发出第一款使用人工智能创造的药物，将在人类身上进行临床测试。这种药物是用华为WatchGT21。0。9。38固件更新新增卡片自定义功能感谢IT之家网友百慕大的冰的线索投递！IT之家9月15日消息根据网友投稿，华为WatchGT21。0。9。38固件更新，新增卡片自定义功能，并进行了系统优化和Bug修复。华为Wat五部门运用人工智能大数据等新技术识别高校内替课替考等行为IT之家4月1日消息，今日，教育部网站发布了教育部等五部门关于加强普通高等学校在线开放课程教学管理的若干意见（以下简称意见）。意见指出，高校要严格学生在线学习规范与考试纪律。严禁出AI学会了用人眼看世界，甚至连人类瞳孔的细微缩放都能模拟为了搞清楚人类是怎么看世界的，计算机开始学着转动眼球了然后凭借转动的眼球搜集要观测的信息，再聚焦在文字或者图像上，开始收集数据不仅能正常读书看画，甚至能模拟人类在无聊兴奋紧张等各种