千亿参数大模型首次被撬开!Meta复刻GPT3背刺OpenA
感谢IT之家网友Sancu的线索投递!
千亿级参数AI大模型,竟然真的能获取代码了?!
一觉醒来,AI圈发生了一件轰动的事情:MetaAI开放了一个重达1750亿参数的大语言模型OPT175B,不仅参数比GPT3的3750亿更少,效果还完全不输GPT3。
这意味着AI科学家们,终于可以撬开像GPT3这样的大模型,看看里面到底有些什么秘密了。之前GPT3虽然效果惊艳但不够开放,源代码独家授权给了微软,连马斯克都批评过OpenAI不够open。
虽然论文就在那里,想要在此之上做进一步研究的话就得先复现一个出来再说。而这一次,Meta从完整模型到训练代码、部署代码全部开放。有人甚至在官宣之前就摸到还没上传好的GitHub仓库去蹲点了。
还有人艾特OpenAI试图引战:
那么,Meta大模型有何特点、如何做到绿色低能耗,又为何要对外开放?一起来看看。用16块V100就能跑起来
OPT全称OpenPretrainedTransformerLanguageModels,即开放的预训练Transformer语言模型。相比GPT,名字直接把Generative换成了Open,可以说是非常内涵了。(手动狗头)在论文中,MetaAI也不避讳宣称OPT175B就是对标GPT3,还暗示一波自己更环保:
MetaAI对此解释称,OPT就是奔着开放代码去的,为了让更多人研究大模型,环境配置肯定是越经济越好。这不,运行时产生的碳足迹连GPT3的17都不到,属实省能又高效。为了方便研究人员量力而行,MetaAI搞出了各种大小的OPT模型,从125M参数到1750亿参数的不同大小模型都有。其中,660亿参数的模型还在制作中,马上也会和大伙儿见面:
所以,最大的OPT175B模型究竟有多高效,又是怎么做到的?
性能方面,MetaAI针对OPT175B和GPT3,用14个NLP任务进行了测试。结果表明,无论是零样本学习(zeroshot)还是多样本学习(Multishot),OPT在这些任务上的平均精度都与GPT3相差不大。其中虚线为GPT,实线为OPT:
左为零样本学习,右为多样本学习
再看具体任务。在对话任务中,采用无监督学习的方法训练OPT175B,效果和监督学习训练的几类模型相近:
仇恨言论检测任务上的效果,更是完全超过Davinci版本的GPT3模型(在GPT3的四个版本中是效果最好的):
训练硬件方面,MetaAI用了992块英伟达A100GPU(80GB)训练OPT,平均每块GPU的计算效率最高能达到147TFLOPs。
这个效率,甚至比英伟达自家研究人员用起来还高,大约超过17左右。MetaAI透露称,一方面是采用了自家推出的一款名叫FSDP(FullyShardedDataParallel)的GPU内存节省工具,使得大规模训练的速度比传统方法快上5倍左右;另一方面他们也借鉴了英伟达MegatronLM模型的张量并行方法,将一个运算分布到多个处理器上同时进行。甚至MetaAI表示,最低只需要16块英伟达V100GPU,就能训练并部署OPT175B模型。
已经有网友迫不及待地想要一试了:
当然,MetaAI也不避讳谈及OPT175B大模型面临的一些问题,例如更容易生成毒性语言(例如使用有攻击性的词汇、语言歧视等):
研究人员表示,希望能在开放后,有更多人参与进来研究,并真正解决这些问题。手把手教你复刻GPT3
上面提到,这一次的OPT模型系列,300亿参数及以下的版本都是可以直接下载,660亿版还在路上。只有完整的1750亿版需要额外填写一张申请表,包括工作单位、用途、相关发表工作等问题。
训练和部署的代码工具包metaseq发布在GitHub,并配有使用教程和文档。作为著名的fairseq工具包的一个分支,metaseq专注于1750亿规模大模型,删除了训练和使用大模型不需要的部分。
还有不少开发者特别看重一个与模型和代码同时发布的隐藏宝藏开发日志。里面详细记录了Meta团队在开发大模型过程中遇到的问题、解决的办法和决策的依据。
为自Pytorch诞生之前就存在的一系列机器学习研究中的痛点和困惑提供了大厂解法的一手资料。
如此的开放力度可以说是史无前例了,自然收到了不少赞美。比如同样在做开源大模型项目的HuggingFace首席科学家ThomasWolf。
不过针对1750亿参数版需要申请一事,还是有人表示怀疑。
我不是学者或从业者,他们会接受我的申请吗?
也有开发者建议Meta像OpenAI一样提供一些Demo,如果大家看到效果会更愿意参与研究改进,不然的话光是搭建开发环境就挺劝退的。
斯坦福大学基础模型研究中心主任、副教授PercyLiang对此发表了观点,将大模型的开放程度总结成4个层次,更高层次的开放能让研究者专注于更深的问题。
第一层论文开放,证明一些设想的可行性,并提供构建思路。
第二层API开放,允许研究人员探索和评估现有模型的能力(如推理能力)和限制(如偏见)
第三层模型权重开放和训练数据开放。允许研究人员逐步改进现有模型,开发更深入的可解释性技术和更有效的微调方法,让研究人员更好地理解训练数据在模型行为中的作用。
第四层计算能力开放,允许研究人员尝试新的体系结构、训练目标和过程、进行数据融合,并在不同的领域开发全新的模型。
PercyLiang认为更高层次的开放同时也会带来更多风险。也许是时候制定相关的社区规范了?OneMoreThing
Meta这次论文的的共同一作有三人,其中SusanZhang加入Meta之前正是来自OpenAI。
不过在OpenAI期间她并没有负责GPT3的开发,而是参与了玩Dota的OpenAIFive强化学习项目,以及多模态大模型的研究。
项目地址:
https:github。comfacebookresearchmetaseqtreemainprojectsOPT
论文地址:
https:arxiv。orgabs2205。01068
参考链接:
〔1〕https:ai。facebook。comblogdemocratizingaccesstolargescalelanguagemodelswithopt175b
〔2〕https:www。technologyreview。com202205031051691metaailargelanguagemodelgpt3ethicshuggingfacetransparency
〔3〕https:twitter。comMetaAIstatus1521489996145958914
智能电视制造商Vizio时隔6年再度申请上市富士康参股北京时间3月2日下午消息,据报道,富士康科技集团子公司支持的智能电视制造商Vizio再次提交IPO申请,该公司目前拥有一个处于增长阶段的娱乐平台。Vizio在周一提交的文……
军队士官入党转正申请书范文敬爱的党组织:xx年8月22日,是我终身难忘的日子,经党组织的批准,我实现了梦寐以求的愿望,成为一名光荣的中国共产党预备党员。一年来,我在这个团结求实、温暖友爱的集体里,……
这座高寒地区城市动真格长春市出租车和公务车不再增加燃油车,给IT之家3月2日消息据新华社报道,吉林省长春市政府将从今年起加速出行方式电动化步伐,出租车和公务车原则上不再增加或更新燃油车,努力为中国高寒地区和季节性冻土区推广新能源汽车做出……
LGOLED电视去年销量超200万台,同比大增23。83月1日消息,据国外媒体报道,在智能手机所需的OLED屏幕方面,LG显示虽然不及三星显示,但在用于电视的尺寸更大的OLED屏幕方面,他们却有较为明显的优势。得益于LG显示……
关于面试自我介绍技巧在竞争日趋增大的今天,学历早已不是用人单位考核求职者的唯一标准,更重要的是个人能力的体现。然而,在面试过程中,一段优秀的自我介绍,往往能给面试官留下不错的印象。下面是品学网小编……
美股周三全线收跌苹果跌逾2,百度跌近8美国时间周三,美股收盘全线下跌,科技股和非必需消费类股领跌,原因是美国国债收益率大幅上扬。同时,与经济重启相关的个股则为市场提供了一些支撑。道琼斯指数收于31270。09……
校园文化策划书模板撰写策划书就是用现有的知识开发想象力,在可以得到的资源的现实中最可能最快的达到目标。以下是小编整理的校园文化策划书模板,欢迎参考阅读!一、活动背景在建校15周年来临……
六年级班主任的计划在这万物复苏,欣欣向荣的美好季节,我们重新起航迎来了新学期。经过与学生们一学期的接触,对班级的同学也有了深入的了解,让我对工作有一个较清晰的思路,我希望在新的学期里能搞好班级工……
世界知识产权组织中国专利申请量连续两年超过美国IT之家3月3日消息据日经新闻今日报道,中国专利申请量连续两年超过美国,再次证明了中国引领科技创新的能力。根据世界知识产权组织(WIPO)的数据,去年中国的申请者提交了6……
产业链称,台积电已在优先扩大12英寸晶圆厂产能3月2日消息,据国外媒体报道,目前台积电、联华电子等众多芯片代工商的产能普遍紧张,汽车等领域的芯片供应,已无法满足需求,芯片代工商也急需扩大产能,以便生产更多的芯片,满足强劲的……
消息称台积电计划在美国建6座5nm厂,赴美员工薪资将翻倍据台媒最新报道,台积电计划在美国亚利桑那州建设共计6个5nm厂,且厂区占地面积为台积电大本营之一南科所有厂区的约2倍大。目前,台积电正通过共计12项措施,为亚利桑那厂招募人才。……
有关于我们的节日清明节的活动策划为弘扬中华传统文化,更好地运用传统节日弘扬民族优秀文化传统,努力建设和谐文化。今年清明节期间,我校将开展缅怀革命先烈,争当四好少年清明节主题活动。为使这项活动开展的既轰轰烈烈,……