范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

全球1000名科学家组成BigScience,超大NLP模型BLOOM来了

  编辑:拉燕 好困  【新智元导读】最近,由1000多位科学家组成的团队历时117天,搞出来了个超大的开源NLP模型。
  上半年,世界范围内1000多个科学家联合搞了个大团队。
  他们将会英勇地团结起来,一起反抗...
  众所周知,自然语言处理这一块的模型和数据库一直都被科技大厂牢牢地掌握在手里。从某种程度上讲,这算是一种技术垄断。
  这1000个科学家,有搞伦理的,有搞法律的,甚至还有搞哲学的。当然,也不乏来自Meta和谷歌的员工,不过他们都是以个人身份参与进来的。
  他们的目的也很简单,就是要整一个真正像样的NLP模型——公平,公平,还是**的公平。
  新的NLP模型取名叫BOOM,啊不是,是BLOOM。估计是希望这个模型能像花一样蓬勃绽开吧。
  不过,从前期投入来看,也确实应该有底气。
  据统计,来自公共的资助就有价值700万美元的训练时间,也就是说,没有这些机构的帮助,这笔钱就得自己花,才能完成训练。
  顺利的话,BLOOM足以和谷歌、OpenAI这种大厂掰掰手腕。而且更关键的是,还是开源的。此外,BLOOM将会是同等规模的模型中,第一个多语言模型。
  如今,BLOOM在训练了117天后,终于完事儿了。
  算力:蹭了价值300万欧元的
  不过说实在的,NLP大模型已经听腻了。
  毕竟说穿了它就是一种算法,模型会学习数十亿个单词和短语之间的统计学关联,然后执行各种任务,包括生成摘要、翻译、回答问题,以及对文本进行分类等等。
  尤其是,BLOOM在参数量上还没啥突破——为1760亿个参数。
  具体来说,BLOOM和GPT一样,使用的是decoder-only架构。
  甚至还是从英伟达的Megatron-LM和OpenAI的GPT2那儿改过来的。
  它拥有共70层,每层112个的注意力头(attention head),2048个token的序列长度,并采用了GeLU激活函数。
  同时,BLOOM还使用了13种编程语言,可以说主流的编程语言基本全用了。
  数据集方面,BLOOM算得上是多语言模型——其中包括了46种语言。数据集的容量达到了3416亿个token,相当于1.5TB的文本数据。
  硬件方面,384个A100 GPU用于训练,每一个都有80GB的内存。而一份模型需要48个GPU,每个GPU有60GB的内存。训练的吞吐量大约为150TFLOPs。
  团队预估的训练时间差不多是3~4个月,误差取决于训练过程中吞吐量的变化,以及可能出现的意外。
  今年的3月14日,BLOOM正式开始训练,用的是法国的巴黎郊外设立的Jean Zay国家超算。(感谢法国研究机构CNRS和GENCI提供的价值约300万欧元的计算拨款。)
  经过几天的优化,团队很快就将训练速度提到了149-150 TFLOPs/GPU。
  有一个非常有意思的点,刚开始模型还在按部就班的训着,基本保持每天1%的速度,稳步前进。
  6月29日的时候,进度条终于到了100%。
  就在大家都以为要结束的时候……
  进度条在6月30日 又涨了1%。
  网友们也是一脸懵逼,这都冒顶了,咋还在蹭蹭涨。
  好在,最终还是停在了102%。
  数据集:自己手搓的才靠谱
  虽说这类模型有些时候让人很满意,比如说生成诗歌,或是正确回答一些琐碎的问题等等,但说到底这些模型并不真的理解语言。这正是NLP模型也会生成一堆垃圾出来的原因。
  更令人担忧的是,语言模型还有可能宣扬错误的价值观,比方说种族主义,或是性别歧视。究其原因就是模型并不理解语言,给它塞什么就学什么。
  众所周知,数据集是开发模型时非常重要的一环。
  Hugging Face的机器学习研究院Yacine Jernite表示,现在存在的大多数模型都是直接从网络上抓取语言,包括Reddit等网站。
  而BLOOM却没有这么做。
  这群研究人员从500种来源中,人工挑选了341亿字的数据集的三分之二。其中包括Semantic Scholar,这是一个AI支持的学术出版物搜索引擎,其中就包括Nature等顶刊中的内容。
  换句话说,BLOOM模型的数据集基本是手搓出来的。
  其中,选取数据集的来源是开会讨论出来的,同时还参考了其它社区团体的建议,比如非洲NLP社区Masakhane,LatinX in AI和Machine Learning Tokyo。
  Jernite表示,我们想保证所有能应用这个模型的人,都能参与到数据集的选择当中。选取他们国家、他们语言中的内容。(然后引入了科学家自己的主观偏见)
  为此,BigScience团队使用多语言网络抓取的方式先把数据集的容量拉满,然后再对数据集的质量进行过滤,并对隐私政策进行了一些调整。
  该项目还减少了从色情网站中提取的内容量,这是为了避免最终模型会输出含有性别歧视的内容。
  同时Jernite也承认,BLOOM也不是说一点偏见就没有了。但是通过向它输入多文化和高质量的内容,BigScience团队还是想尽可能的改进现有的模型。
  最关键的是,正因为模型背后的代码和数据集是开源的,每个研究人员都可以进行尝试,了解哪些部分导致最终输出了负面的内容。这对未来的模型迭代很有好处。
  布朗大学的自然语言学习研究院Ellie Pavlick表示,对BLOOM的评估也将和此前的基准不同。除了将BLOOM与其它模型在回答问题的能力等方面作比较以外,研究人员还希望能考察更多的指标。
  例如,BLOOM对某些刻板印象的联想有多强,或者BLOOM对某种特定的语言有多么的偏向。
  Pavlick表示,因为现在BLOOM已经被训练成多语言模型了,那么它会对语言有更深的理解。这会帮助它对多样化任务的概括能力。
  同时,Leahy预测,鉴于语言数据集的规模不大,该模型在英语中的表现可能要比其它大模型略逊一点。但是,因为BLOOM在其它方面有别的优势,Leahy认为这应该能抹平这种差距。
  开源:但会随时调整
  亮点来了。
  前提到的以往的NLP模型由大厂掌控,所以BigScience团队才琢磨着要做这么一件事。
  其实NLP模型的训练过程可以说是大同小异,BLOOM之所以有它独特的意义,就是因为后续的开源环节。
  BLOOM团队表示,在训练完毕以后,所有相关研究人员都可以获得下载BLOOM的权限,不管是想用它做实验,或是为了别的目的用新的数据集给它做进一步的训练,都可以。
  但是,下载BLOOM,并且成功让它跑起来,对硬件能力提出了很高的要求。
  现在BLOOM只供一些大一点的研究团队使用,所以BigScience团队还没给小团队或是个人铺好路。以后,研发团队会发布小一点的、对硬件要求低一点的BLOOM版本。
  同时,还会开发一个分布式系统,能让各个实验室在各自的服务器上分享模型。
  此外,Hugging Face还会发布一个网页版应用,能让任何人都可以使用BLOOM,而无需下载。
  除了在AI领域的应用以外,Francesco de Toni还发现了在历史研究领域的应用。
  Toni来自西澳大学,这所大学坐落在澳大利亚珀斯。他是BigScience团队中的一名语言学家,领导BLOOM的一个小组。
  他们发现,BLOOM能够高效地从大量的历史资料中提取信息,而这是任何搜索引擎都做不到的。
  比方说,BLOOM可以从文艺复兴时期,商人之间往来的信件中提取所有的人名,或是出现的货物,以此来研究文艺复兴时期的历史。
  在发布BLOOM的同时,还发布了一份文件,描述了BLOOM的能力和一些局限性。
  在使用BLOOM之前,还需要签署一份会不断更新的法律许可,研究人员必须承诺不会把BLOOM用于恶意,或是不恰当的目的。比如生成假新闻。
  Giada Pistilli表示,该团队会一直监测模型的应用情况,并且会在必要的时候插手干预,调整许可证书和相关文件的内容。
  参考资料:
  https://www.nature.com/articles/d41586-022-01705-z
  https://bigscience.notion.site/BLOOM-BigScience-176B-Model-ad073ca07cdf479398d5f95d88e218c4
  https://mobile.twitter.com/bigsciencellm

山东不可错过的亲子游玩好去处在书本上认识世界,在旅行中了解世界,读万卷书,更要行万里路。尼山圣境子约诗意生活季,解锁不一样的亲子出游体验,大小朋友都好玩。在大自然自习室和夫子同窗阅享书香收获成长打卡地点尼山书北部湾航空冬春航季新开35条全新航线2022年10月30日起,海航航空集团旗下北部湾航空在冬春航季将新增35条航线,并对部分热门航班进行加密执飞频次。北部湾航空作为广西首家本土航司首次进驻湖北宜昌,将全力开展宜昌过夜郴州丨横亘空中的一座大桥,历时六年建成,获得7项世界第一好风光总是在路上!老靳在湖南郴州旅游的时候,其中的一站就是著名的红色旅游景点,半条被子的故事发生地沙洲。去往沙洲的路上,途经京港澳高速转厦蓉高速,在快到沙洲的路上,发现一座大桥威武东西问丨刘觖这座藏传佛教寺院为何被称高原小故宫?中新社西宁10月21日电题这座藏传佛教寺院为何被称高原小故宫?专访国家一级美术师刘觖中新社记者张添福青海瞿昙寺是中国西北保存完整规模宏阔质量精粹的明代官式建筑群,瞿昙寺隆国殿与北京洛杉矶,纽约回国,直飞航班pk香港转机美国回国是选择直飞还是选择香港转机?有什么差别?目前很多美国的华人朋友在咨询美国回国的航班的时候,都在对比两个行程,直飞好还是转香港机好?下面我就总接下两个路线的区别一落地城市的选映像银川一座抱湖而居的城市银川,虽然深居西北内陆,却是一座抱湖而居的城市。你看,银川典农河集防洪排水生态景观旅游等多项功能于一体,连接着华雁湖小西湖和阅海湖等10余个重要湖泊湿地。从高空俯瞰,1700多公顷新都桥十里摄影长廊,不可错过的川西绝美秋色有人说川西是追逐雪山最好的地方。确实,太多造型别致辨识度极高的雪山,都偏心在了川西。而有这么一个地方,能同时看到三座雪山,还可以看到全世界最美的夕阳,这里就是鱼子西,一个把落日诠释荷兰的夜晚有多放纵?少女看了会害羞,当地人却司空见惯荷兰到底有多开放,当地的夜生活让女游客羞涩不语,但荷兰人觉得很正常。众所周知,随着我国经济飞速发展,与各国之间的联系越来越密切,这也让我们有更多机会,了解异域风情,享受异国的生活方剑川看山剑川是山的故乡。在剑川,放眼高高低低的山,你的视野始终在山的怀抱,可你不必惊讶,你会在群山间领略剑川的秀美。P1远朓石宝山石窟剑川的山最耐看的当属石宝山。踏上石宝山,在古木参天的树走进三亚千古情,带你认识三亚的人文历史穿过神秘头像的大门,迎面而来的是满满的爱意,这就是三亚千古情内红红火火的爱情街。街道两旁饰有不同色彩条纹的柱子墙上看不懂的符号,使得这里既有民族风情,又有些许的神秘。一个比人高的锁路过龙城的春天作者鱼在心湖(龙城)殷子涵初春夜雨的手伸得又长又柔唤醒了我早已熟睡的窗从楼上探下身来我穿起春夜那黑色的衣裳借着彩虹桥路灯的光向沙河两岸的垂柳凝望轻问那棵棵岸柳明天是否生发出柳芽鹅黄甄嬛传难怪眉庄从不质疑甄嬛的双生子,你看她在甘露寺发现了啥在甄嬛传中,观众总以为甄嬛才是最后的赢家,实际上她这一路走来失去了太多太多至亲至爱,亲如姐妹的沈眉庄被陷害致死,此生挚爱果郡王为保全她与一对双生子服毒自尽在这场没有硝烟的宫斗之中,007之声邦德的背景音张海律随着无暇赴死结尾为了胜利,向我开炮式的死亡告别,丹尼尔克雷格总算以5部邦德电影,向世界证明,他是与肖恩康纳利罗杰摩尔皮尔斯布鲁斯南同样合格的007。回想他在2006年皇家赌场从李易峰事件,不难看出黄海波事件的蹊跷李易峰让我们再一次看到黄海波事件的蹊跷,跟李云迪和王安全三个安利的都是女主,都是行政拘留几天了事,而黄海波的涉案对象竟然是人高马大的男扮女装小马达,而黄海波后来还结婚了,取向正常。乐高将于12月推出机器人套件业务将重新定向到不同领域昨天,乐高集团宣布将于2022年底停止其Mindstorm品牌产品,正如BrickFanatics和其他几个乐高粉丝网站首次报道的那样。该公司在一份官方声明中表示,它将把其内部的头协同办公,华为败北头条创作挑战赛TOB虽然是华为的主场,但协同办公却需要大量的C端流量入口。作者何必出品新摘商业评论互联网大厂在协同办公领域厮杀正酣时,华为突然断线。近日,华为LinkNow官网宣布代码中被植入了恶意删除操作,太狠了背景在交接的代码中做手脚进行删库等操作,之前只是网上听说的段子,没想到上周还真遇到了,并且亲自参与帮忙解决。事情是这样的,一老板接手了一套系统,可能因为双方在交接时出现了什么不愉快Marvell抢人大战开始了,猎头人事跟拍电影一样Marvell裁员消息一出,最兴奋的是芯片行业的猎头和HR。作为Marvell的员工既可以拿到N3的赔偿,有能马上找到高薪工作,真的是爽美满电子(Marvell)将裁撤大部。之前从寒衣节忆父亲((余海軍)十月一,送寒衣。每年农历十月初一,是我国传统的祭祀节日寒衣节,相传起源于周代,流行于我国北方。所以,很多北方人会在这一天祭扫,纪念仙逝的亲人,谓之送寒衣。今年,由于疫情AllSaints携手李大奔,探索独一不二的型格创想AllSaints自1994年于英国东伦敦创立以来,一直致力于探索英伦摇滚乐的发展历程,表达个性态度和创造力的品牌核心理念。高音量和热烈激情的80年代摇滚乐节奏中迸发出的自我意识及韩国整容是什么样的韩风已经成为廉价代名词,韩国受欢迎仅针对和我同龄的,也没有见过世面的少部分80后与70后,给人最大的印象就是标准统一韩国选美前三名韩国做过手术的反馈是做完的即时效果最好,变化最大,彩虹岛手游游侠60级一转职业火枪手详解小伙伴们,大家好,随着时间的流逝,彩虹岛手游的大多数玩家也都快到了60级这个等级大关,这个时候想要继续升级就需要大家去做本职业的一转转职任务,本期就为大家讲解一下四大职业之一游侠转
核显本也能跑50帧夜之城?AMD这次干的好啊今天这个事情啊其实是这样的托尼我有个铁哥们人傻钱多家境不错的那种。前两天一个寸劲,踢球的时候把脚腕给整骨折了人倒是没什么大事,恢复的也很顺利,大家放心就是吧,有个小小的问题他这个人OPPO与一加开启双品牌策略未来三年百亿计划怎么投?21世纪经济报道记者骆轶琪广州报道国内手机市场自2016年左右接近5亿台年销量至今,整体规模在持续下滑,行业普遍认为,2022年中国手机市场规模将在2。7亿台左右换机周期也从约18LCK春季赛战队实力榜出炉!T1第1,HLE第2!DK第3,GEN跌至第4随着LCK各大战队大名单的出炉,外媒又开始给LCK战队安排各种评级了。最近对于明年春季赛LCK战队的预测已经公布,一起来看看结果是什么吧!首先是第一名给到了T1,T1的阵容和今年相九灵神域怎么当托九灵神域如何申请内部福利号手游托和内部号是怎么来的,又在哪里申请呢?本人从事游戏工作7年,对于游戏行业的事情都是比较了解的,今天就给大家详细科普一下,什么是托和内部号。大家经常都能看见,一些高充值的玩家,一因种种原因被迫中止开发的街机游戏,如今来看全是精品当年大家一直都觉得奇怪,为什么SNK的饿狼传说世界英雄风云默示录龙虎之拳这些游戏在九十年代火爆之后一直没有续作呢?为什么那么成功的拳皇系列,在12之前都没有打造过3D版本呢?归根结搬砖不能错过这些游戏,2023搬砖界还要看魔域手游2!谈到游戏最重要的体验,搬砖可谓是其中最最最重要的标签之一。在当下游戏市场中,有哪些游戏适合大众玩家搬砖呢?谁又能引领2023搬砖界风潮呢?接下来,就为大家推荐几款流行的搬砖游戏,希孕期四维彩超时,为什么有的宝宝很配合,有的却很折腾?FOURDimensional四维彩超孕检是准妈妈在孕期的必修课程,很多准妈妈到了一定的月份,医生就会建议准妈妈去做四维彩超。关于四维彩超的检查,很多准妈妈可能都还不是很了解。做吧女童拿气球烤火,突然爆炸燎起巨大火光!12月20日,福建莆田一女童将氢气球放在火锅炉子上烤下一秒气球爆炸监控显示因爆炸燎起了巨大火光女童被吓哭氢气球引发的爆炸事故时有发生案例一2021年12月,河南南阳,一大妈手中的数颐和园十七孔桥金光穿洞慢直播开启,将持续至本周五新京报讯(记者张璐)明天(12月22日)是二十四节气中的冬至,一年一度的颐和园十七孔桥金光穿洞景观近日上演,颐和园5G慢直播已经开启,每天下午带网友欣赏这一自然景观。颐和园金光穿洞临沂这条道路封闭延期一年!因建设翔宇旅游观光打卡地项目需要,李公街西段(三江领秀小区南门西侧至滨河东路段)进行了道路封闭,封闭时间段为2021年04月27日至2022年12月31日。现项目正在进行拱门钢结构春节手机销量会增长吗?华为的判断是错误的,谈谈华为开门红活动最近这段时间,不断有会员反馈华为在各地进行开门红的春节备货沟通工作。每逢春节,各个品牌都要提前进行春节期间的备货工作,这是这个行业的传统。各个品牌也都希望在春节,这个一年中最旺的销