范文健康探索娱乐情感热点
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

442个作者,100页论文一半都是参考文献,谷歌耗时2年发布开源大模型新基准BIGBench

  一篇 AI 论文,442 个作者,其中还专门留了一章节写作者贡献,100 页里超过一半都是参考文献……
  谷歌最新发布的论文 ——Beyond The Imitation Game: Quantifying And Extrapolating The Capabilities Of Language Models 作者那一栏就变成了这样……
  来自 132 个机构的研究学者,耗时两年提出了一个大语言模型新基准 BIG-bench 。并在此基础上评估了 OpenAI 的 GPT 模型,Google-internal dense transformer 架构等,模型规模横 6 个数量级。
  最终结果显示,模型性能虽然随着规模的扩大而提高,但跟人类的表现相差还很远 。
  对于这项工作,Jeff Dean 转发点赞:Great Work。
  大语言模型新基准
  来康康这篇论文究竟说了什么。
  随着规模的扩大,模型的性能和质量都有一定的改进,这当中可能还存在一些变革性影响,但这些性能此前都没有很好的描述。
  现存的一些基准都有一定的局限性,评估范围比较狭窄,性能分数迅速达到饱和。
  比如 SuperGLUE,在该基准推出后的 18 个月内,模型就实现了"超过人类水平"的性能。
  基于这样的背景,BIG-bench 就诞生了。
  目前它由 204 个任务组成 ,内容涵盖语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等方面的问题。
  此外还有个人类专家评审团,也执行了所有任务,以提供基线水平。
  为了方便更多机构使用,研究人员还给出了 BIG-bench Lite ,一个小型但有代表性的任务子集,方便更快地评估。
  以及开源了实现基准 API 的代码,支持在公开可用的模型上进行任务评估,以及新任务的轻量级创建。
  最终评估结果可以看到,规模横跨六个数量级,BIG-bench 上的总体性能随着模型规模的扩大、训练样本数量的增加而提高。
  但跟人类基线水平相比,还是表现得比较差 。
  具体在一些任务上,模型性能会随着规模的增加而平稳地提高。但有时候,会在特定规模上突然出现突破性表现。
  此外,它还可以评估模型存在的社会偏见。
  此外,他们还意外发现模型还可以 get 一些隐藏技能。比如,如何在国际象棋中合乎规则的移动。
  作者贡献写了 14 页
  值得一提的是,可能因为作者过多,论文最后还专门留了一章写作者贡献。洋洋洒洒的写了 14 页 ,其中包括核心贡献者、Review 的、提供任务的……
  剩下的,还有 50 页的参考文献 。
  好了,感兴趣的旁友可戳下方链接康康论文。
  论文链接:
  https://arxiv.org/abs/2206.04615
  GitHub 链接:
  https://github.com/google/BIG-bench

NASA的OSIRISREx探测器即将登陆小行星并采样经过4。5小时的缓慢降落,OSIRISREx探测器将在几秒钟内登陆小行星贝努并采样(想象图)北京时间9月28日消息,美国国家航空航天局(NASA)近日宣布,旨在进行小行星采样并返回NASA花2300万美元造太空马桶,能将宇航员尿液变再生水美国国家航空航天局(NASA)耗资2300万美元打造一种新型太空马桶,计划于下周将其发射升空送往国际空间站,据悉这种新型厕所未来还将于用于月球或火星任务。这个耗资2300万美元的太国际空间站险被撞,NASA太空垃圾危险美国当地时间22日,国际空间站不得不进行了机动以避免与太空碎片相撞,这已经是国际空间站今年第三次避让太空垃圾。图国际空间站22日不得不进行机动以避免与太空碎片相撞美国宇航局(NAS暗能量如何塑造宇宙可能在早期宇宙中也出现过目前最为流行的宇宙学模型认为,在宇宙加速膨胀的背后,是一种我们称为暗能量的神秘力量,而这种难以察觉的能量形式是恒定不变的。然而,根据一项新的研究,暗能量完全有可能在过去发生了变化。新模型揭示地磁场变化速率比预计的快10倍北京时间7月15日消息,在近期的新研究中,科学家通过模拟显示了10万年以来地磁场的动态变化,揭示地球磁场改变方向的速度要比原先预计的快得多。地磁场源自于地球内部,延伸至太空,就像一欧洲空间局过去200年,全球磁场强度下降了9北京时间6月9日消息,地球磁场中一个长期存在的强度弱值区正变得越来越奇怪,甚至可能会分裂成两个截然不同的异常区域。南大西洋异常区(SouthAtlanticAnomaly)是地球磁科学家在实验室制造微型超新星激波模拟粒子加速北京时间6月16日消息,在一项新研究中,研究人员在实验室里创造了微型的超新星激波,希望解决一个困扰科学家已久的宇宙之谜。当恒星死亡并以超新星的形式爆发时,会在周围的等离子体中产生强700光年外恒星突然变暗表现怪异,很可能即将爆炸北京时间1月21日消息,据国外媒体报道,天文学家最新观测显示,参宿四(Betelgeuse)这颗年轻明亮恒星近期表现有些怪异,正在突然变暗,该迹象很可能是因为它即将爆炸,另一种可能老龄化问题将逐步解决,人类预期寿命或超百岁北京时间8月9日消息,研究人员称,随着科技的进步,老龄化问题将逐步解决,100岁以上的预期寿命将很快变得司空见惯。美国银行的一份报告预测,延缓死亡的技术将成为未来十年最热门的投资领人类为什么曾经拥有尾巴,后来又没有了呢?尾巴几乎是动物界的标配。鱼的尾鳍可以为游泳提供推进力鳄鱼在尾部储备脂肪蜥蜴逃生的时候会舍弃尾巴当诱饵喵星人还可以抓住自己的尾巴转圈玩。从生命发展史来看,生命源于海洋,当鱼类从海中爬新理论暗物质如同子弹能穿透人体并造成伤害?北京时间8月1日消息,据国外媒体报道,宇宙的大约14是一种神秘的,科学家们还不了解其本质的所谓暗物质组成的,最近科学家脑洞大开,提出了一项新理论,暗物质的行为可能表现为一种极微小的
马斯克首次给SpaceX星舰装上6个发动机,有望开启太空飞行测试8月4日消息,太空探索技术公司(SpaceX)创始人马斯克今日在社交平台上晒出照片并配文6个发动机都安装在一艘轨道星舰飞船上。据悉,以往星舰飞船测试时只搭载三台海平面发动机进行起飞一箭双星,我国成功发射引力波暴高能电磁对应体全天监测器卫星IT之家12月10日消息据新华视点报道,12月10日4时14分,我国在西昌卫星发射中心用长征十一号运载火箭,以一箭双星方式将引力波暴高能电磁对应体全天监测器卫星送入预定轨道,发射获中国时速4000公里高速列车模型亮相珠海航展,北京到武汉仅需18分钟IT之家11月9日消息日前,正在举行的珠海航展上,中国航天科工集团研发的时速4000公里的高速飞行列车11模型亮相航展。航天科工集团通过多自由度平台控制技术视觉仿真技术和多媒体数字最新研究称中秋月亮都瘦了,今年中秋月最圆时刻公布IT之家9月27日消息即将到来的下一个假期就是国庆节和中秋节,今年很特殊,这两个节日将会在同一天。一个是10月1日,一个是八月十五。据央视财经报道,今年中秋将至,天文专家指出,由于月亮如何影响我们的情绪?睡眠也会随着月亮周期变化北京时间9月10日消息,据国外媒体报道,月亮似乎会对部分人的情绪造成很大影响,精神病医生戴维艾弗的一位患者就是这样的例子。这名患者当时35岁,是一名工程师。据艾弗里回忆,他很喜欢解天宫健身奥运会展示,神十二航天员现已在轨生活48天IT之家8月5日消息我国神舟十二号载人飞船于2021年6月17日发射升空,当日正式与我国空间站进行对接,聂海胜刘伯明汤洪波三名航天顺利进入天和核心舱,如今航天员在轨执行任务已接近5我国计划于9月发射天舟三号货运飞船,10月发射神舟十三号载人飞船IT之家7月10日消息今日新华社瞭望新媒体发表文章,回顾了我国的航天事业历程,并公布了未来我国空间站建设的路线图。目前我国已经发射了空间站天和核心舱天舟二号货运飞船,神舟十二号三名美国天鹅号货运飞船发射升空携超4吨物质无脑无神经系统生物飞往国际空间站8月11日消息,当地时间8月10日晚,一枚安塔瑞斯火箭搭载史上最重的天鹅号货运飞船从维吉尼亚州发射升空,将超过4吨的有效载荷运往国际空间站。此次任务被命名为NG16,是诺斯罗普格鲁聂海胜成为我国首位在轨满100天的航天员IT之家9月6日消息据央视军事报道,航天员聂海胜在轨天数已累积达到100天,成为我国首位在轨满100天的航天员。聂海胜曾于2005年10月12日至16日执行神舟六号载人飞行任务,2神舟十二号航天员乘组将于近日择机执行第二次出舱活动IT之家8月17日消息据中国载人航天工程办公室官方消息,神舟十二号航天员乘组将于近日择机执行第二次出舱活动。7月4日中国空间站航天员首次出舱,全景相机拍到地球绝美画面IT之家了解到俄罗斯科学号实验舱舱门打开,正式与国际空间站连为一体IT之家8月1日消息据俄罗斯卫星通讯社消息,7月31日,俄罗斯宇航员诺维茨基向地面指挥中心汇报说已经打开了舱门。这标志着国际空间站正式与科学号实验舱连成一体。目前,航天员已经进入了