范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

全球1000名科学家组成BigScience,超大NLP模型BLOOM来了

  编辑:拉燕 好困  【新智元导读】最近,由1000多位科学家组成的团队历时117天,搞出来了个超大的开源NLP模型。
  上半年,世界范围内1000多个科学家联合搞了个大团队。
  他们将会英勇地团结起来,一起反抗...
  众所周知,自然语言处理这一块的模型和数据库一直都被科技大厂牢牢地掌握在手里。从某种程度上讲,这算是一种技术垄断。
  这1000个科学家,有搞伦理的,有搞法律的,甚至还有搞哲学的。当然,也不乏来自Meta和谷歌的员工,不过他们都是以个人身份参与进来的。
  他们的目的也很简单,就是要整一个真正像样的NLP模型——公平,公平,还是**的公平。
  新的NLP模型取名叫BOOM,啊不是,是BLOOM。估计是希望这个模型能像花一样蓬勃绽开吧。
  不过,从前期投入来看,也确实应该有底气。
  据统计,来自公共的资助就有价值700万美元的训练时间,也就是说,没有这些机构的帮助,这笔钱就得自己花,才能完成训练。
  顺利的话,BLOOM足以和谷歌、OpenAI这种大厂掰掰手腕。而且更关键的是,还是开源的。此外,BLOOM将会是同等规模的模型中,第一个多语言模型。
  如今,BLOOM在训练了117天后,终于完事儿了。
  算力:蹭了价值300万欧元的
  不过说实在的,NLP大模型已经听腻了。
  毕竟说穿了它就是一种算法,模型会学习数十亿个单词和短语之间的统计学关联,然后执行各种任务,包括生成摘要、翻译、回答问题,以及对文本进行分类等等。
  尤其是,BLOOM在参数量上还没啥突破——为1760亿个参数。
  具体来说,BLOOM和GPT一样,使用的是decoder-only架构。
  甚至还是从英伟达的Megatron-LM和OpenAI的GPT2那儿改过来的。
  它拥有共70层,每层112个的注意力头(attention head),2048个token的序列长度,并采用了GeLU激活函数。
  同时,BLOOM还使用了13种编程语言,可以说主流的编程语言基本全用了。
  数据集方面,BLOOM算得上是多语言模型——其中包括了46种语言。数据集的容量达到了3416亿个token,相当于1.5TB的文本数据。
  硬件方面,384个A100 GPU用于训练,每一个都有80GB的内存。而一份模型需要48个GPU,每个GPU有60GB的内存。训练的吞吐量大约为150TFLOPs。
  团队预估的训练时间差不多是3~4个月,误差取决于训练过程中吞吐量的变化,以及可能出现的意外。
  今年的3月14日,BLOOM正式开始训练,用的是法国的巴黎郊外设立的Jean Zay国家超算。(感谢法国研究机构CNRS和GENCI提供的价值约300万欧元的计算拨款。)
  经过几天的优化,团队很快就将训练速度提到了149-150 TFLOPs/GPU。
  有一个非常有意思的点,刚开始模型还在按部就班的训着,基本保持每天1%的速度,稳步前进。
  6月29日的时候,进度条终于到了100%。
  就在大家都以为要结束的时候……
  进度条在6月30日 又涨了1%。
  网友们也是一脸懵逼,这都冒顶了,咋还在蹭蹭涨。
  好在,最终还是停在了102%。
  数据集:自己手搓的才靠谱
  虽说这类模型有些时候让人很满意,比如说生成诗歌,或是正确回答一些琐碎的问题等等,但说到底这些模型并不真的理解语言。这正是NLP模型也会生成一堆垃圾出来的原因。
  更令人担忧的是,语言模型还有可能宣扬错误的价值观,比方说种族主义,或是性别歧视。究其原因就是模型并不理解语言,给它塞什么就学什么。
  众所周知,数据集是开发模型时非常重要的一环。
  Hugging Face的机器学习研究院Yacine Jernite表示,现在存在的大多数模型都是直接从网络上抓取语言,包括Reddit等网站。
  而BLOOM却没有这么做。
  这群研究人员从500种来源中,人工挑选了341亿字的数据集的三分之二。其中包括Semantic Scholar,这是一个AI支持的学术出版物搜索引擎,其中就包括Nature等顶刊中的内容。
  换句话说,BLOOM模型的数据集基本是手搓出来的。
  其中,选取数据集的来源是开会讨论出来的,同时还参考了其它社区团体的建议,比如非洲NLP社区Masakhane,LatinX in AI和Machine Learning Tokyo。
  Jernite表示,我们想保证所有能应用这个模型的人,都能参与到数据集的选择当中。选取他们国家、他们语言中的内容。(然后引入了科学家自己的主观偏见)
  为此,BigScience团队使用多语言网络抓取的方式先把数据集的容量拉满,然后再对数据集的质量进行过滤,并对隐私政策进行了一些调整。
  该项目还减少了从色情网站中提取的内容量,这是为了避免最终模型会输出含有性别歧视的内容。
  同时Jernite也承认,BLOOM也不是说一点偏见就没有了。但是通过向它输入多文化和高质量的内容,BigScience团队还是想尽可能的改进现有的模型。
  最关键的是,正因为模型背后的代码和数据集是开源的,每个研究人员都可以进行尝试,了解哪些部分导致最终输出了负面的内容。这对未来的模型迭代很有好处。
  布朗大学的自然语言学习研究院Ellie Pavlick表示,对BLOOM的评估也将和此前的基准不同。除了将BLOOM与其它模型在回答问题的能力等方面作比较以外,研究人员还希望能考察更多的指标。
  例如,BLOOM对某些刻板印象的联想有多强,或者BLOOM对某种特定的语言有多么的偏向。
  Pavlick表示,因为现在BLOOM已经被训练成多语言模型了,那么它会对语言有更深的理解。这会帮助它对多样化任务的概括能力。
  同时,Leahy预测,鉴于语言数据集的规模不大,该模型在英语中的表现可能要比其它大模型略逊一点。但是,因为BLOOM在其它方面有别的优势,Leahy认为这应该能抹平这种差距。
  开源:但会随时调整
  亮点来了。
  前提到的以往的NLP模型由大厂掌控,所以BigScience团队才琢磨着要做这么一件事。
  其实NLP模型的训练过程可以说是大同小异,BLOOM之所以有它独特的意义,就是因为后续的开源环节。
  BLOOM团队表示,在训练完毕以后,所有相关研究人员都可以获得下载BLOOM的权限,不管是想用它做实验,或是为了别的目的用新的数据集给它做进一步的训练,都可以。
  但是,下载BLOOM,并且成功让它跑起来,对硬件能力提出了很高的要求。
  现在BLOOM只供一些大一点的研究团队使用,所以BigScience团队还没给小团队或是个人铺好路。以后,研发团队会发布小一点的、对硬件要求低一点的BLOOM版本。
  同时,还会开发一个分布式系统,能让各个实验室在各自的服务器上分享模型。
  此外,Hugging Face还会发布一个网页版应用,能让任何人都可以使用BLOOM,而无需下载。
  除了在AI领域的应用以外,Francesco de Toni还发现了在历史研究领域的应用。
  Toni来自西澳大学,这所大学坐落在澳大利亚珀斯。他是BigScience团队中的一名语言学家,领导BLOOM的一个小组。
  他们发现,BLOOM能够高效地从大量的历史资料中提取信息,而这是任何搜索引擎都做不到的。
  比方说,BLOOM可以从文艺复兴时期,商人之间往来的信件中提取所有的人名,或是出现的货物,以此来研究文艺复兴时期的历史。
  在发布BLOOM的同时,还发布了一份文件,描述了BLOOM的能力和一些局限性。
  在使用BLOOM之前,还需要签署一份会不断更新的法律许可,研究人员必须承诺不会把BLOOM用于恶意,或是不恰当的目的。比如生成假新闻。
  Giada Pistilli表示,该团队会一直监测模型的应用情况,并且会在必要的时候插手干预,调整许可证书和相关文件的内容。
  参考资料:
  https://www.nature.com/articles/d41586-022-01705-z
  https://bigscience.notion.site/BLOOM-BigScience-176B-Model-ad073ca07cdf479398d5f95d88e218c4
  https://mobile.twitter.com/bigsciencellm

狂掷一亿元一加和原神达成三年合作近日一加宣布将和原神达成三年战略合作技术方面,一加将投入一亿研发投入,成立一加原神体验优化实验室,对原神大版本持续进行特别优化,未来具有安卓更高的画质和帧率。老大哥OPPO给的百亿DNF巴卡尔Raid竞速之王诞生!似雨幽离辅助,第一元素称霸地下城与勇士DNF随着国服开放巴卡尔Raid,各路大神也是各显神通。近日似雨幽离的第一奶萝跨五第一元素胡萝卜,携手打出8分40多秒的优秀成绩,也是目前唯一一组打出8分多的好成绩的选物理博士生看流浪地球2是什么体验?流浪地球2确实是一部不错的科幻片。这里先给不了解故事背景的头条读者讲讲设定。按照电影制作手记1和预告片所展示的故事线早在1977年,就有天文学家根据太阳活动历史记录推测太阳核心聚变刘德华流浪地球2破130万美元,卡神阿凡达2累计6。2亿美元数字飙榜,北美十佳2023年1月29日(周日)北美大盘1804。1万美元TOP1詹姆斯卡梅隆导演,萨姆沃辛顿佐伊索尔达娜西格妮韦弗凯特温丝莱特和史蒂芬朗主演的科幻巨制阿凡达2水之道浙江青田3。8万侨胞回乡过年中西融合为文旅市场增色来源中国新闻网中新网丽水1月30日电(傅飞扬陈正威韦相宜)浙江丽水青田是中国著名侨乡,当地38万华侨华人分布在全球148个国家和地区。中新网记者了解到,随着疫情防控政策的不断优化调美国司法部起诉谷歌非法垄断数字广告市场科技战略美国司法部起诉谷歌非法垄断数字广告市场据华尔街见闻1月25日消息,美国司法部联合纽约州加利福尼亚州等8个州共同对谷歌公司发起反垄断诉讼,指控其非法垄断数字广告市场。司法部在58安居客研究院春节期间二手房市场呈现北热南冷中证网讯(记者董添)1月28日,58安居客研究院发布春节期间楼市成交数据。统计数据显示,2023年春节期间,全国70城二手房春节期间日均需求热度相比1月以来均值出现明显上涨。58安戴过贝雷帽的9位花旦女星,60后70后80后90后00后,谁惊艳了你?几十年前风靡的贝雷帽今年又流行了起来。前一段热播的风吹半夏,观众还沉浸在赵丽颖红毛绿衣烈焰红唇的美貌中,这几天热映的去有风的地方,又被天仙姐姐贝雷帽的新造型惊艳到了。女神们把贝雷帽vivoX90系列将推出告白配色!超大杯Dxomark分数排名靠后?2022年年底,vivo发布了全新的旗舰机型vivoX90系列,这个系列一发布就凭借优秀的性能,强大的影像以及超高的颜值等多种亮点获得了许多消费者的青睐。目前,关于vivoX90系苹果关闭iOS16。2验证通道,iPhone升级iOS16。3后无法降级IT之家2月1日消息,在上周(1月24日)发布iOS16。3正式版后,苹果公司今日停止了对iOS16。2的验证,即之前可用的iOS版本。这意味着更新到iOS16。3的用户无法再降级兰蔻我不要,奶茶我不要,富了做首饰,穷了当盘缠兰蔻我不要,奶茶我不要,包包我不要,我就爱它,别说我庸俗,因为它可以富了做首饰,穷了当盘缠。没错,它就是黄金首饰!扫金(图片源于网络,侵权即删)2013年初,中国大妈掀起了全球范围
逆水寒手游AI在某些领域超越ChatGPT?玩家一看,直呼没毛病2023年,人工智能ChatGPT出尽风头,它已经覆盖到各个领域,并对人类世界可能产生颠覆性影响。ChatGPT的火热,让国内公司也坐不住了,纷纷开始研发中国AI,希望能够迎头赶上对战游戏战争机器人9周年玩家总支出达7。5亿美元由Pixonic开发,My。Games发行的机甲对战游戏战争机器人(WarRobots)目前已经发行9周年,并宣布游戏终身玩家支出达到了7。5亿美元的新里程碑。游戏最早于2014年威利大冒险AdventuresofWillyDV1。10汉化版终于出了威利大冒险AdventuresofWillyD这款游戏在业界好评度极高,有精湛的3D人物模型!3D动画CG视觉!优美的场景音乐!丰富的文本剧情!内含全语音,有超多漂亮女主,而且是丝原神萌新攻略前期这样玩不刮痧!丽莎双超载!双超绽放!我的青春回忆录大灰灬原创大家好!这里是蒙德蒲公英酒,我是大灰,这边给大家分享一下原神前期萌新玩家不刮痧攻略!(不考虑抽到新角色)!遇到了很多萌新再为了伤害刮痧而烦恼,我会在以下尽可莱莎的炼金工房3第三弹付费DLC上线新外观服装莱莎的炼金工房3第三弹DLC今日(4月13日)正式上线,包含了三个付费DLC服装组合远东旅人配方扩充包炼金术之神秘配方扩充包冒险之精髓,可以单独购买,也可以通过季票获得。服装组合远欢乐颂4沦为打拳剧,女性应追求平权,而非复辟封建陋习近些年有这样一种观点,认为资本在刻意讨好女性,原因则非常简单,为了获取利益。譬如说,现在但凡是个节日,商家就会鼓吹男生要送女生礼物,不送就是不爱。至于送什么,自然早已被商家定义好了实践砺成长劳动最光荣周家庄人民公社菜园开展劳动实践课公社菜园四月春耕天,农忙正当时,周家庄人民公社菜园迎来又一批幼儿园小朋友开展劳动实践课程,进一步增强孩子劳动意识和能力,培养孩子热爱劳动爱惜劳动成果的优良品质。公社菜园老师与学生采简直离谱,印度制造的iPhone15售价高达2万?升级亮点抢先看最近看到一则热搜榜的消息,说iPhone15的顶配版本最高售价将达到2万元,简直离了个大谱。完全是天价了。虽然iPhone15系列的各种配置信息和升级亮点接二连三被扒出,不过这个价苹果发布tvOS和HomePod16。4。1更新IT之家4月13日消息,苹果于今天发布了适用于AppleTV的tvOS16。4。1更新,以及适用于HomePod和HomePodmini的HomePod16。4。1更新。本次Hom4月份新机消息汇总苹果小米大升级,ROG7性能再刷新进入3月份之后智能手机市场就新机不断,而到了4月份依然是战况激烈。除了已经发布的新机外,还有一大波在路上的新机。接下来就说说4月份比较热点的新机,让各位想要换购手机的朋友有一个更加巨大的龙云可能会解开大质量恒星形成之谜质量最大的恒星是如何形成的?天文学家对它们的起源争论了几十年。上图龙云复合体的内部核心。这些理论面临的最大问题之一是缺乏观测。大质量恒星相对稀少,所以,很难在形成过程中捕捉到它们。