范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

一块英伟达3090单挑180亿参数大模型,国产开源项目这回杀疯了

  明敏 发自 凹非寺
  量子位 | 公众号 QbitAI
  什么?单块GPU 也能训练大模型了?
  还是20系就能拿下的那种???
  没开玩笑,事实已经摆在眼前:RTX 2060 6GB普通游戏本能训练15亿 参数模型;RTX 3090 24GB主机直接单挑180亿 参数大模型;Tesla V100 32GB连240亿 参数都能拿下。
  相比于PyTorch和业界主流的DeepSpeed方法,提升参数容量能达到10多倍。
  而且这种方法完全开源,只需要几行代码就能搞定,修改量也非常少。
  这波操作真是直接腰斩大模型训练门槛啊,老黄岂不是要血亏。
  那么,搞出如此大名堂的是何方大佬呢?
  它就是国产开源项目Colossal-AI 。
  自开源以来,曾多次霸榜GitHub热门第一。
  开源地址:https://github.com/hpcaitech/ColossalAI
  主要做的事情就是加速各种大模型训练 ,GPT-2、GPT-3、ViT、BERT等模型都能搞定。
  比如能半小时左右预训练一遍ViT-Base/32,2天训完15亿参数GPT模型、5天训完83亿参数GPT模型。
  同时还能省GPU。
  比如训练GPT-3时使用的GPU资源,可以只是英伟达Megatron-LM的一半。
  那么这一回,它又是如何让单块GPU训练百亿参数大模型的呢?
  我们深扒了一下原理~高效利用GPU+CPU异构内存
  为什么单张消费级显卡很难训练AI大模型?
  显存有限 ,是最大的困难。
  当今大模型风头正盛、效果又好,谁不想上手感受一把?
  但动不动就"CUDA out of memory",着实让人遭不住。
  目前,业界主流方法是微软DeepSpeed提出的ZeRO  (Zero Reduency Optimizer) 。
  它的主要原理是将模型切分,把模型内存平均分配到单个GPU上。
  数据并行度越高,GPU上的内存消耗越低。
  这种方法在CPU和GPU内存之间仅使用静态划分模型数据 ,而且内存布局针对不同的训练配置也是恒定的。
  由此会导致两方面问题。
  第一 ,当GPU或CPU内存不足以满足相应模型数据要求时,即使还有其他设备上有内存可用,系统还是会崩溃。
  第二 ,细粒度的张量在不同内存空间传输时,通信效率会很低;当可以将模型数据提前放置到目标计算设备上时,CPU-GPU的通信量又是不必要的。
  目前已经出现了不少DeepSpeed的魔改版本,提出使用电脑硬盘 来动态存储模型,但是硬盘的读写速度明显低于 内存和显存,训练速度依旧会被拖慢。
  针对这些问题,Colossal-AI采用的解决思路是高效利用GPU+CPU的异构内存 。
  具体来看,是利用深度学习网络训练过程中不断迭代 的特性,按照迭代次数将整个训练过程分为预热 和正式 两个阶段。
  预热阶段,监测采集到非模型数据内存信息;
  正式阶段,根据采集到的信息,预留出下一个算子在计算设备上所需的峰值内存,移动出一些GPU模型张量到CPU内存。
  大概逻辑如下所示:
  这里稍微展开说明下,模型数据由参数、梯度和优化器状态组成,它们的足迹和模型结构定义有关。
  非模型数据由operator生成的中间张量组成,会根据训练任务的配置(如批次大小) 动态变化。
  它俩常干的事呢,就是抢GPU显存。
  所以,就需要在GPU显存不够时CPU能来帮忙,与此同时还要避免其他情况下内存浪费。
  Colossal-AI高效利用GPU+CPU的异构内存,就是这样的逻辑。
  而以上过程中,获取非模型数据的内存使用量其实非常难 。
  因为非模型数据的生存周期并不归用户管理,现有的深度学习框架没有暴露非模型数据的追踪接口给用户。其次,CUDA context等非框架开销也需要统计。
  在这里Colossal-AI的解决思路是,在预热阶段用采样 的方式,获得非模型数据对CPU和GPU的内存的使用情况。
  简单来说,这是道加减法运算:
  非数据模型使用   两个统计时刻之间系统最大内存使用 — 模型数据内存使用
  已知,模型数据内存使用可以通过查询管理器得知。
  具体来看就是下面酱婶的:
  所有模型数据张量交给内存管理器管理,每个张量标记一个状态信息,包括HOLD、COMPUTE、FREE等。
  然后,根据动态查询到的内存使用情况,不断动态转换张量状态、调整张量位置,更高效利用GPU显存和CPU内存。
  在硬件非常有限的情况下,最大化模型容量和平衡训练速度。这对于AI普及化、低成本微调大模型下游任务等,都具有深远意义。
  而且最最最关键的是——加内存条可比买高端显卡划 算 多 了 。
  前不久,Colossal-AI还成功复现了谷歌的最新研究成果PaLM (Pathways Language Model),表现同样非常奈斯,而微软DeepSpeed目前还不支持PaLM模型。
  Colossal-AI还能做什么?
  前面也提到,Colossal-AI能挑战的任务非常多,比如加速训练、节省GPU资源。
  那么它是如何做到的呢?
  简单来说,Colossal-AI就是一个整合了多种并行方法的系统,提供的功能包括多维并行、大规模优化器、自适应任务调度、消除冗余内存等。
  目前,基于Colossal-AI的加速方案FastFold,能够将蛋白质结构预测模型AlphaFold的训练时间,从原本的11天,减少到只需67小时 。
  而且总成本更低,在长序列推理任务中,也能实现9~11.6倍的速度提升。
  这一方案成功超越谷歌和哥伦比亚大学的方法。
  此外,Colossal-AI还能只用一半GPU数量训练GPT-3。
  相比英伟达方案,Colossal-AI仅需一半的计算资源,即可启动训练;若使用相同计算资源,则能提速11%,可降低GPT-3训练成本超百万美元。
  与此同时,Colossal-AI也非常注重开源社区建设,提供中文教程、开放用户社群论坛,根据大家的需求反馈不断更新迭代。
  比如之前有读者留言说,Colossal-AI要是能在普通消费级显卡上跑就好了。
  这不,几个月后,已经安排好了~背后团队:LAMB优化器作者尤洋领衔
  看到这里,是不是觉得Colossal-AI确实值得标星关注一发?
  实际上,这一国产项目背后的研发团队来头不小。
  领衔者,正是LAMB优化器的提出者尤洋。
  他曾以第一名的成绩保送清华计算机系硕士研究生,后赴加州大学伯克利分校攻读CS博士学位。
  拿过IPDPS/ICPP最佳论文、ACM/IEEE George Michael HPC Fellowship、福布斯30岁以下精英(亚洲 2021)、IEEE-CS超算杰出新人奖、UC伯克利EECS Lotfi A. Zadeh优秀毕业生奖。
  在谷歌实习期间,凭借LAMB方法,尤洋曾打破BERT预训练世界纪录。
  据英伟达官方GitHub显示,LAMB比Adam优化器快出整整72倍。微软的DeepSpeed也采用了LAMB方法。
  2021年,尤洋回国创办潞晨科技 ——一家主营业务为分布式软件系统、大规模人工智能平台以及企业级云计算解决方案的AI初创公司。
  团队的核心成员均来自美国加州大学伯克利分校、哈佛大学、斯坦福大学、芝加哥大学、清华大学、北京大学、新加坡国立大学、新加坡南洋理工大学等国内外知名高校;拥有Google Brain、IBM、Intel、 Microsoft、NVIDIA等知名厂商工作经历。
  公司成立即获得创新工场、真格基金等多家顶尖VC机构种子轮投资。
  潞晨CSO Prof. James Demmel为加州大学伯克利分校杰出教授、ACM/IEEE Fellow,同时还是美国科学院、工程院、艺术与科学院三院院士。
  传送门:
  https://github.com/hpcaitech/ColossalAI
  参考链接:
  https://medium.com/@hpcaitech/train-18-billion-parameter-gpt-models-with-a-single-gpu-on-your-personal-computer-8793d08332dc
  — 完 —
  量子位 QbitAI · 头条号签约
  关注我们,第一时间获知前沿科技动态

做亚马逊测评前期需要做好哪些工作?做亚马逊测评,首先要找到有效的渠道。做站外测评,其实是一件特别费时的工作。站外找红人测评的话,一般第一步是到facebook,telegram,linkin等国外社交平台,在搜索框开发CRUD应用神器TaskBuilder现在市面上的很多开发工具更侧重代码编辑,针对数据库增删改查(CRUD)类的Web系统开发,在界面设计前后端数据交互等环节主要还是靠写代码,效率比较低而现在市面上很多所谓的低代码开发雷军再出手,小米2K折叠屏直降4000元,米粉等于送一台小米12还记得一年前,市面上做折叠屏手机的品牌只有三星和华为,且定价都在1。5万以上,这售价对于大部分网友来说,只能看看就好。然而,随着国产主流手机品牌均已推出折叠屏机型,特别是小巧机身以人社部颁布互联网营销师网约配送员等35个国家职业技能标准来源人民网社会频道原创稿人民网北京12月27日电(记者温璐)近日,人力资源社会保障部组织制定了35个国家职业技能标准,陆续予以颁布。其中,由人力资源社会保障部与有关部门联合颁布的国游戏币比特币,为何命运不同?2006年时,是否要立法保护网络虚拟财产,争议已经很大。那会儿常见的网络虚拟财产既有QQ账号游戏账号角色武器装备之类的虚拟商品,也有九城游戏币Q币大话币猫扑币之类的虚拟币。虚拟物品华为公布最新无线通信技术要消灭汽车线束电车汇消息今日上午,2021华为智能汽车解决方案生态论坛举办,星闪联盟副理事长华为Fellow华为智能汽车解决方案BU政策与标准专利部部长万蕾介绍了新一代无线短距通信技术星闪。万蕾大电池才是王道!这4款6000mAh超值手机,彻底消除你的续航焦虑不知道大家平常选择手机最看重什么?侃哥自己比较追求极致体验,所以更多时候选择的是高端旗舰手机,不过对于绝大部分人来说,高端旗舰手机价格实在太过昂贵,相比之下千元机和次旗舰更为靠谱些倪光南未来主流CPU架构格局中,RISCV将与x86Arm三分天下2021年12月20日,第十六届中国芯集成电路产业促进大会在珠海举行。中国工程院院士倪光南在会上指出,目前CPU市场主要被x86和Arm架构所垄断,而中国想要打破这个局面,实现自主北京同仁堂集团与腾讯公司签署战略合作协议12月14日,北京同仁堂集团与腾讯公司签署战略合作协议,双方将在电子商务文旅业务文娱业务等领域深入开展合作。北京同仁堂集团党委书记董事长王贵平,副总经理文勤饶祖海腾讯公司副总裁蒋杰农业农村部2020年我国农产品跨境电商零售进出口总额63。4亿美元12月10日,农业农村部信息中心联合中国国际电子商务中心在北京线上发布全国农产品跨境电子商务发展报告(20202021)(以下简称报告)。报告显示,2020年,我国农产品跨境电商零哈佛报告中国在人工智能5G通信量子技术方面领先美国据印度一周周刊网站报道,美国哈佛大学的一份报告指出,中国在多个尖端技术领域已经取得巨大进步。哈佛大学贝尔弗中心7日发表的这份报告指出,中国制造业的巨大发展推动了研发进步。报告说中国
加密货币大变局(何籽图)2021年5月21日,国务院金融稳定发展委会议提出,打击比特币挖矿和交易行为。此前的5月18日,中国互金协会中国银行业协会中国支付清算协会联合公告,称近期虚拟货币价格暴涨OPPOReno6新机正式发布,Reno4史无前例跌至白菜价5月27日,OPPOReno6系列正式发布。这次带来了OPPOReno6,Reno6Pro和Reno6Pro的三种型号。其中,OPPOReno6Pro售价为3999元,并在外观,图刘强东承诺,干满5年就买房,如今京东第一位快递员有房吗?想必大家都用过京东购物吧,眼见着又要到了618电商狂欢节,很多人是不是又准备剁手了?说到京东就不得不提它的创始人刘强东,刘强东之前说过,员工只要在京东干满5年就可以在老家买房。那么荣耀即将强势回归,低配高价根在芯片断供在近日高通5G技术与合作峰会上,荣耀终端有限公司CEO赵明确认,荣耀50系列将全球首发骁龙778G移动平台。另外,他称,荣耀的芯片6月将全面恢复,荣耀全新旗舰Magic系列也将采用互联网元老级大佬,31岁成首富,曾给美国捐款70亿?曾给美国捐款70亿,还公开放话说中国科技领域缺钱不怪他,可是现在却又要巴巴的回国发展,这是怎么回事呢?这个人又是谁呢?这个人就是今天小编要介绍的财经人物陈天桥,他于1973年出生于适合JAVA初学者看的书籍21天学通JavaPDF拿走不谢内容提要本书是初学者学习Java编程语言的畅销经典教程,循序渐进地介绍了Java编程语言知识,并提供了丰富的实例和练习同时全面涵盖了Java8这一新标准以及与Android开发相关RedmiNote10Pro开箱体验红米618打出的这张牌确实彪悍前几天,红米正式发布了RedmiNote10Pro,我们也做了一个外观开箱,但毕竟比较匆忙,可能很多细节部分大家还没看清楚。那么这次,我们再做一个详细版开箱,让你更好走进这款159OPPO正式发布全新人像视频手机Reno6系列5月27日,OPPO在河北秦皇岛正式发布全新Reno6系列手机。OPPOReno6系列提供OPPOReno6ProOPPOReno6Pro以及OPPOReno6可选,主打全新的夏日红米Note10系列发布,今年最香的千元机来了?果然,前不久托尼刚做了一篇千元机横评的文章,今天红米Note10系列它就来了!这机器在千元机市场有多强,早已远近闻名,它的出现,直接就斩断了其他厂商在千元机市场立足的企图心。毕竟这HR发招聘来撩我女同事,这是一家什么企业作者熊志5月27日,一张网易互娱HR徐某的朋友圈截图引发关注。截图显示,徐某不仅在朋友圈晒出女同事的团队照,还发表了帮忙撩女同事帮忙下药等言论。为了帮助企业招聘,这位HR可谓用心良嘉实基金王贵重科技未来,投资机会的四个关键词科技一直是投资界最为关注的话题之一。那么,中国科技企业投资逻辑又能否对标美国?关于这个问题,嘉实基金大科技研究总监基金经理王贵重用马克吐温的一句话来回答,历史不会简单的重复,但是总