范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

千亿参数大模型首次被撬开!Meta复刻GPT3背刺OpenAI,完整模型权重及训练代码全公布

  感谢IT之家网友 Sancu 的线索投递!
  千亿级参数 AI 大模型,竟然真的能获取代码了?!
  一觉醒来,AI 圈发生了一件轰动的事情:Meta AI 开放了一个"重达"1750 亿参数的大语言模型 OPT-175B,不仅参数比 GPT-3 的 3750 亿更少,效果还完全不输 GPT-3 。
  这意味着 AI 科学家们,终于可以"撬开"像 GPT-3 这样的大模型,看看里面到底有些什么秘密了。之前 GPT-3 虽然效果惊艳但不够开放,源代码独家授权给了微软,连马斯克都批评过 OpenAI 不够 open。
  虽然论文就在那里,想要在此之上做进一步研究的话就得先复现一个出来再说。而这一次,Meta 从完整模型到训练代码、部署代码全部开放。有人甚至在官宣之前就摸到还没上传好的 GitHub 仓库去蹲点了。
  还有人艾特 OpenAI 试图"引战":
  那么,Meta 大模型有何特点、如何做到绿色低能耗,又为何要对外开放?一起来看看。用 16 块 V100 就能跑起来
  OPT 全称 Open Pre-trained Transformer Language Models,即"开放的预训练 Transformer 语言模型"。相比 GPT,名字直接把 Generative 换成了 Open,可以说是非常内涵了。(手动狗头)在论文中,Meta AI 也不避讳宣称 OPT-175B 就是对标 GPT-3,还暗示一波自己更环保:
  Meta AI 对此解释称,OPT 就是奔着开放代码去的,为了让更多人研究大模型,环境配置肯定是越经济越好。这不,运行时产生的碳足迹连 GPT-3 的 1/7 都不到,属实省能又高效。为了方便研究人员"量力而行",Meta AI 搞出了各种大小的 OPT 模型,从 125M 参数到 1750 亿参数的不同大小模型都有。其中,660 亿参数的模型还在制作中,马上也会和大伙儿见面:
  所以,最大的 OPT-175B 模型究竟有多高效,又是怎么做到的?
  性能方面,Meta AI 针对 OPT-175B 和 GPT-3,用 14 个 NLP 任务进行了测试。结果表明,无论是零样本学习(zero-shot)还是多样本学习(Multi-shot),OPT 在这些任务上的平均精度都与 GPT-3 相差不大。其中虚线为 GPT,实线为 OPT:
  △ 左为零样本学习,右为多样本学习
  再看具体任务。在对话任务中,采用无监督学习的方法训练 OPT-175B,效果和监督学习训练的几类模型相近:
  仇恨言论检测任务上的效果,更是完全超过 Davinci 版本的 GPT-3 模型(在 GPT-3 的四个版本中是效果最好的):
  训练硬件方面,Meta AI 用了 992 块英伟达 A100 GPU(80GB)训练 OPT,平均每块 GPU 的计算效率最高能达到 147 TFLOP / s。
  这个效率,甚至比英伟达自家研究人员用起来还高,大约超过 17% 左右。Meta AI 透露称,一方面是采用了自家推出的一款名叫 FSDP(Fully Sharded Data Parallel)的 GPU 内存节省工具,使得大规模训练的速度比传统方法快上 5 倍左右;另一方面他们也借鉴了英伟达 Megatron-LM 模型的张量并行方法,将一个运算分布到多个处理器上同时进行。甚至 Meta AI 表示,最低只需要 16 块英伟达 V100 GPU,就能训练并部署 OPT-175B 模型。
  已经有网友迫不及待地想要一试了:
  当然,Meta AI 也不避讳谈及 OPT-175B 大模型面临的一些问题,例如更容易生成"毒性语言"(例如使用有攻击性的词汇、语言歧视等):
  研究人员表示,希望能在开放后,有更多人参与进来研究,并真正解决这些问题。手把手教你复刻 GPT-3
  上面提到,这一次的 OPT 模型系列,300 亿参数及以下的版本都是可以直接下载,660 亿版还在路上。只有完整的 1750 亿版需要额外填写一张申请表,包括工作单位、用途、相关发表工作等问题。
  训练和部署的代码工具包 metaseq 发布在 GitHub,并配有使用教程和文档。作为著名的 fairseq 工具包的一个分支,metaseq 专注于 1750 亿规模大模型,删除了训练和使用大模型不需要的部分。
  还有不少开发者特别看重一个与模型和代码同时发布的"隐藏宝藏"—— 开发日志。里面详细记录了 Meta 团队在开发大模型过程中遇到的问题、解决的办法和决策的依据。
  为自 Pytorch 诞生之前就存在的一系列机器学习研究中的痛点和困惑提供了大厂解法的一手资料。
  如此的开放力度可以说是史无前例了,自然收到了不少赞美。比如同样在做开源大模型项目的 HuggingFace 首席科学家 Thomas Wolf。
  不过针对 1750 亿参数版需要申请一事,还是有人表示怀疑。
  我不是学者或从业者,他们会接受我的申请吗?
  也有开发者建议 Meta 像 OpenAI 一样提供一些 Demo,如果大家看到效果会更愿意参与研究改进,不然的话光是搭建开发环境就挺劝退的。
  斯坦福大学基础模型研究中心主任、副教授 Percy Liang 对此发表了观点,将大模型的开放程度总结成 4 个层次,更高层次的开放能让研究者专注于更深的问题。
  第一层论文开放,证明一些设想的可行性,并提供构建思路。
  第二层 API 开放,允许研究人员探索和评估现有模型的能力(如推理能力)和限制(如偏见)
  第三层模型权重开放和训练数据开放。允许研究人员逐步改进现有模型,开发更深入的可解释性技术和更有效的微调方法,让研究人员更好地理解训练数据在模型行为中的作用。
  第四层计算能力开放,允许研究人员尝试新的体系结构、训练目标和过程、进行数据融合,并在不同的领域开发全新的模型。
  Percy Liang 认为更高层次的开放同时也会带来更多风险。也许是时候制定相关的社区规范了?One More Thing
  Meta 这次论文的的共同一作有三人,其中 Susan Zhang 加入 Meta 之前正是来自 OpenAI。
  不过在 OpenAI 期间她并没有负责 GPT-3 的开发,而是参与了玩 Dota 的 OpenAI Five 强化学习项目,以及多模态大模型的研究。
  项目地址:
  https://github.com/facebookresearch/metaseq/tree/main/projects/OPT
  论文地址:
  https://arxiv.org/abs/2205.01068
  参考链接:
  [1]https://ai.facebook.com/blog/democratizing-access-to-large-scale-language-models-with-opt-175b/
  [2]https://www.technologyreview.com/2022/05/03/1051691/meta-ai-large-language-model-gpt3-ethics-huggingface-transparency/
  [3]https://twitter.com/MetaAI/status/1521489996145958914

高德地图发布停车导航功能感谢IT之家网友云天河他哥SPCE的线索投递!IT之家4月4日消息,近日,高德地图宣布正式发布停车导航功能,帮助驾车用户尽可能地缓解在不同出行场景下的停车难问题。据了解,高德停车导高德地图发布2022全国十大司机如厕友好城市苏州杭州成都位居前三IT之家4月1日消息,近日,高德地图发布2022全国公共厕所图鉴(简称图鉴),依据近百个城市2021年公共厕所线上搜索和导航数据,选出了十大厕所数字化城市十大司机如厕友好城市等。今高德地图上线自定义行驶路线功能,支持用户涂鸦划线IT之家2月24日消息,近日,新版高德地图推出自定义路线功能,支持用户在地图上简单地用手指涂鸦划线,指定想走或者不想走的路段,高德智能路线引擎就会重新计算,规划出更符合用户个性化需微软IE浏览器6月16日正式退役,Edge浏览器官方被黑了这么多年终于要说再见啦感谢IT之家网友手写的从前的线索投递!IT之家5月16日消息,今天微软Edge浏览器官微发文提醒微软IE浏览器将于6月16日正式退役,并称被黑了这么多年,IE要正式跟大家说再见啦。亚马逊被美国纽约州告上法庭歧视怀孕员工和残疾工人新浪科技讯北京时间5月18日晚间消息,据报道,美国纽约州州长凯西霍楚尔(KathyHochul)今日宣布,该州人权署(DHR)已对亚马逊提起诉讼,指控亚马逊歧视怀孕员工和残疾工人。亚马逊推出新服务让客户知道在其它网站购买的包裹将在何时到达北京时间5月16日早间消息,据报道,Shopify和亚马逊最近都公布了一项新功能,那就是向消费者提供包裹的预计达到时间,两家电商巨头的消费者争夺战更加激烈。4月底,亚马逊推出了Bu咨询公司建议亚马逊股东否决高管天价薪酬计划和业绩不挂钩不合理北京时间5月13日早间消息,据报道,日前,美国两家颇具影响力的投资者顾问公司建议,亚马逊股东要坚决反对管理层的天价薪酬计划。这两家公司表示,在未来几年内,无论公司经营好坏,亚马逊管亚马逊解雇首个组建工会仓库管理层,被指打击报复北京时间5月7日早间消息,据报道,不久前,美国电商巨头亚马逊在纽约市斯塔滕岛的一家商品仓库,通过投票决定加入工会。当地时间周四,亚马逊解雇了这家仓库多名高级管理人员。据报道,亚马逊付费服务自动续订,亚马逊遭用户起诉北京时间5月6日午间消息,据报道,部分用户在一项诉讼中声称,亚马逊使取消服务订阅变得过于困难和不必要的混乱,他们称这家互联网零售商的这种做法违反了加州关于自动续订服务的规定。该诉讼亚马逊豪掷数十亿美元发射互联网卫星,要和SpaceX星链抢市场5月2日消息,作为电商和零售巨头,亚马逊正计划向近地轨道发射3236颗微型卫星以构建空基互联网,从太空提供网络接入服务。这个项目被称为柯伊珀计划(ProjectKuiper)。今年亚马逊实体零售副总裁宣布离职,曾管理KindleFirePhone项目北京时间11月25日早间消息,据报道,最近亚马逊又流失一位高管,这位高管掌控亚马逊实体店业务。周二时,亚马逊实体零售副总裁卡梅隆琼斯(CameronJanes)离开公司。他发消息称
徐盐连淮高铁正式开通运营江苏省市市通动车IT之家12月16日消息今日早晨,徐州至盐城高速铁路连云港至镇江高速铁路连云港至淮安段正式开通运营,苏北苏中地区接入全国高铁网,江苏省13个省辖市全部开行动车。据中国铁路消息,徐盐穗深城际铁路动车正式开通运营时速140公里的高级地铁IT之家12月15日消息据中国铁路消息,穗深城际铁路今天开通运营,成为沟通广州东莞深圳三市的快速轨道交通通道。穗深城际铁路在新塘南站经既有广深城际铁路接入广州东站,旅客从广州市内交创始人口述烧了8000万,我为何没挺过寒冬?朋恩属于中国进入日托领域较早的一批企业,快速拓张的发展模式,让其在三年内迅速建立了18家线下直营中心。2019年4月,由于资金链断裂,朋恩日托全面关停。本文由创始人自述,猎云网整理杭州创业失败最高可领30万保费补贴11月10日,2019年杭州国际人才交流与项目合作大会在杭州国际博览中心开幕,在余杭分会场,浙江第一款人才创业保险正式启用。它包括科研保创客保科创E保三款,保险年费率最低可至3,保又要融资30亿,华为境内发债第二单来了11月2日消息,根据上海清算所10月31日披露的债券信息显示,华为投资控股有限公司(以下简称华为)将于11月5日至6日发行第二期中期票据(19华为MTN002),发行金额为人民币3谷歌承诺提供1000万美元,支持低收入和少数族裔企业家创业两年前在宾夕法尼亚州匹兹堡的一个活动上,谷歌首席执行官SundarPichai透露,作为GrowwithGoogle的一部分,谷歌未来五年将投资10亿美元与非营利组织合作。该项目旨外媒印度手机厂商遇中国品牌强劲挑战,沦为代工商北京时间12月9日晚间消息,据国外媒体报道,面对中国智能手机厂商的强劲挑战,印度第二大本土手机厂商Intex正计划为中国手机品牌代工,以实现扭亏为盈。Intex董事凯沙夫班萨尔(K美团全资控股公司注册资本新增至29。4亿人民币,增幅约170凤凰网科技讯12月24日消息,据天眼查数据显示,12月19日,天津三快科技有限公司发生工商变更,注册资本由原来的10。9亿人民币新增至29。4亿人民币,增幅约170。天津三快科技有软银员工爆料公司有毒文化谄媚鲁莽和内斗北京时间19日消息,软银集团CEO孙正义向旗下愿景基金(VisionFund)的员工灌输了这样一种勤奋工作精神要么做大,要么回家。但据彭博商业周刊报道,软银和愿景基金的一些员工和前提前布局区块链腾讯申请借贷病历等区块链专利据天眼查数据显示,近日,腾讯科技(深圳)有限公司新增多条与区块链相关的专利信息,其中多条与区块链落地应用相关,如基于区块链的借贷信息处理方法装置设备和存储介质和基于区块链的病历数据QQ聊天在线状态能添加洗澡中吗?腾讯产品小姐姐不敢说话IT之家1月6日消息近期腾讯手机QQ8。2。6新版本的在线状态中新增了我的电量功能,用户可以自愿选择自动更新设备电量并展示给好友。不过大家不用担心隐私会泄露,不主动设置的话好友是没