范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

中英文最大AI模型世界纪录先后产生,大模型竞赛新阶段来了

  10 月 15 日消息,超大 AI 模型训练成本太高 hold 不住?连市值万亿的公司都开始寻求合作了。
  本周,英伟达与微软联合发布了 5300 亿参数的"威震天-图灵 "(Megatron-Turing),成为迄今为止全球最大 AI 单体模型 。
  仅仅在半个月前,国内的浪潮发布了 2500 亿参数的中文 AI 巨量模型"源 1.0" 。
  不到一个月的时间里,最大英文和中文 AI 单体模型的纪录分别被刷新。
  而值得注意的是:
  技术发展如此之快,"威震天-图灵"和"源 1.0"还是没有达到指数规律的预期。
  要知道,从 2018 年开始,NLP 模型参数近乎以每年一个数量级的速度在增长。
  ▲近年来 NLP 模型参数呈指数级上涨(图片来自微软)
  而 GPT-3 出现后,虽然有 Switch Transformer 等万亿参数混合模型出现,但单体模型增长速度已经明显放缓。
  无论是国外的"威震天-图灵",还是国内的"源 1.0",其规模和 GPT-3 没有数量级上的差异。即便"威震天-图灵"和"源 1.0"都用上了各自最强大的硬件集群。
  单体模型是发展遇到瓶颈了么?超大模型的三个模式
  回答这个疑问,首先得梳理一下近年来出现的超大规模 NLP 模型。
  如果从模型的开发者来看,超大规模 NLP 模型的研发随时间发展逐渐形成了三种模式。
  一、以研究机构为主导
  无论是开发 ELMo 的 Allen 研究所、还是开发 GPT-2 的 OpenAI(当时还未引入微软投资)都不是以盈利为目标。
  且这一阶段的超大 NLP 模型都是开源的,得到了开源社区的各种复现与改进。
  ELMo 有超过 40 个非官方实现,GPT-2 也被国内开发者引入,用于中文处理。
  二、科技企业巨头主导
  由于模型越来越大,训练过程中硬件的优化变得尤为重要。
  从 2019 年下半年开始,各家分别开发出大规模并行训练、模型扩展技术,以期开发出更大的 NLP 模型。英伟达 Megatron-LM、谷歌 T5、微软 Turing-NLG 相继出现。
  今年国内科技公司也开始了类似研究,中文 AI 模型"源 1.0"便是国内硬件公司的一次突破 ——
  成就中文领域最大 NLP 模型,更一度刷新参数最多的大模型纪录。
  "源 1.0" 不仅有高达 5TB 的全球最大中文高质量数据集 ,在总计算量和训练效率优化上都是空前的。
  三、巨头与研究机构或巨头之间相互合作
  拥有技术的 OpenAI 由于难以承受高昂成本,引入了微软 10 亿美元投资。依靠海量的硬件与数据集资源,1750 亿参数的 GPT-3 于去年问世。
  但是,今年万亿参数模型的 GPT-4 并没有如期出现,反而是微软与英伟达联手,推出了"威震天-图灵"。
  我们再把目光放回到国内。
  "威震天-图灵"发布之前,国内外涌现了了不少超大 AI 单体模型,国内就有阿里达摩院 PLUG、"源 1.0"等。
  像英伟达、微软、谷歌、华为、浪潮等公司加入,一方面是为 AI 研究提供大量的算力支持,另一方面是因为他们在大规模并行计算上具有丰富的经验。
  当 AI 模型参数与日俱增,达到千亿量级,训练模型的可行性面临两大挑战:
  1、即使是最强大的 GPU,也不再可能将模型参数拟合到单卡的显存中 ;
  2、如果不特别注意优化算法、软件和硬件堆栈,那么超大计算会让训练时长变得不切实际。
  而现有的三大并行策略在计算效率方面存在妥协,难以做到鱼与熊掌兼得。
  英伟达与微软合体正是为此,同样面对该问题,浪潮在"源 1.0"中也用了前沿的技术路径解决训练效率问题。
  从"源 1.0"的 arXiv 论文中,我们可以窥见这种提高计算效率的方法。
  在对源的大规模分布式训练中,浪潮采用了张量并行、流水线并行和数据并行的三维并行策略。
  "威震天-图灵"和"源 1.0"一样,在张量并行策略中,模型的层在节点内的设备之间进行划分。
  流水线并行将模型的层序列在多个节点之间进行分割,以解决存储空间不足的问题。
  另外还有数据并行策略,将全局批次规模按照流水线分组进行分割。
  三家公司运用各自的技术,将最先进的 GPU 与尖端的分布式学习软件堆栈进行融合,实现了前所未有的训练效率,最终分别打造出英文领域和中文领域的最大 AI 单体模型。
  训练超大规模自然语言模型成本升高,技术上殊途同归,形成研究机构与科技巨头协同发展,三种探索模式并驾齐驱的局面。中英 AI 模型互有胜负
  训练成本趋高,技术趋同,为何各家公司还是选择独自研究,不寻求合作?
  我们从 GPT-3 身上或许可见一斑。
  去年发布的 GPT-3 不仅未开源,甚至连 API 都是限量提供,由于获得微软的投资,今后 GPT-3 将由微软独享知识产权,其他企业或个人想使用完整功能只能望洋兴叹。
  训练成本奇高、道德伦理问题以及为了保证行业领先地位,让微软不敢下放技术。其他科技公司也不可能将自己的命运交给微软,只能选择独自开发。
  尤其对于中国用户来说,以上一批超大模型都不是用中文数据集训练,无法使用在中文语境中。
  中文语言的训练也比英文更难。英文由单词组成,具有天然的分词属性。
  而中文需要对句子首先进行分词处理,如"南京市长江大桥",南京市 | 长江 | 大桥、南京 | 市长 | 江大桥 ,错误的分词会让 AI 产生歧义。
  相比于英文有空格作为分隔符,中文分词缺乏统一标准,同样一个词汇在不同语境、不同句子中的含义可能会相差甚远,加上各种网络新词汇参差不齐、中英文混合词汇等情况,要打造出一款出色的中文语言模型需要付出更多努力。
  所以国内公司更积极研究中文模型也就不难理解了。
  即便难度更高,国内公司还一度处于全球领先,比如数据集和训练效率方面。
  据浪潮论文透露,"源 1.0"硬件上使用了 2128 块 GPU,浪潮共搜集了 850TB 数据 ,最终清洗得到 5TB 高质量中文数据集。
  其文字数据体积多于"威震天-图灵"(835GB),而且中文信息熵大大高于英文,信息量其实更大。
  在训练效率方面,"源 1.0"训练用了 16 天,"图灵威-震天"用了一个多月,前者数据量是后者 3 倍有余,耗时却只有后者一半 ——
  其专注中文,关注效率努力也可见一斑。
  大模型你来我往间能看出,发展已走入百花齐放互不相让的阶段,这给我们带来新的思考:AI 巨量模型既然不"闭门造车",那如何走向合作?多方合作可能才是未来
  表面上"威震天-图灵"(Megatron-Turing NLG)是第一次由两家科技巨头合作推出超大 AI 模型。
  其背后,双方不仅组成了"超豪华"硬件阵容,在算法上也有融合。强强联合成为超大 AI 模型落地的一种新方式,
  国外巨头开启先例,那么国内公司的现状又是如何呢?其实有机构已经迈出合作的第一步。
  诸如浪潮的"源 1.0",和当初的"威震天"一样,也是由硬件厂商主导开发的超大规模自然语言模型。
  浪潮透露,实际上 9 月 28 日的发布会上,他们邀请了国内的学者和数家科技公司共同探讨未来"源 1.0"合作的可能性。
  在产业界,浪潮早就提出了"元脑计划"的生态联盟,"源 1.0"未来将向元脑生态社区内所有开发者开放 API,所有加入生态的 AI 技术公司都可以利用"源 1.0"进行二次开发,从而制造出更强大的功能。
  国内超大规模自然语言模型合作的时代正在开启。
  合作开发巨量模型能带来什么?李飞飞等知名学者已经给出答案:当数据规模和参数规模大到一定程度时,量变最终能产生质变,GPT-3 就是先例。
  如今大模型越来越多,但未来关键还在于如何纵横捭阖,打造属于一套开放合作体系,让所有技术公司群策群力。
  而 AI 巨量模型在这样的生态体系下会带来怎样的变化,在"源 1.0"等一大批模型开放后,应该很快就能看见。

捷德收购全球物联网专家Pod集团,扩大连接产品组合感谢IT之家网友刺客的线索投递!IT之家7月12日消息全球安全技术集团捷德(GieseckeDevrient)近日收购了全球物联网网络专家Pod集团(EnterpriseNetwo工信部蜂窝物联网终端用户数量达到12。58亿IT之家6月24日消息近日,工信部发布了2021年15月通信业经济运行情况,报告称,今年前五月我国蜂窝物联网用户规模持续扩大,截至5月末,三家基础电信企业发展蜂窝物联网终端用户12取代劳力士,苹果AppleWatch成美国高收入青少年最受欢迎的手表品牌IT之家10月6日消息据MacRumors报道,PiperSandler的一项新调查显示,苹果成为美国高收入青少年中最受欢迎的手表品牌。青少年智能手表的拥有率从2020年秋季的30华为最大运动健康科学实验室在东莞松山湖揭牌与体育总局联合建设IT之家10月22日消息,华为开发者大会2021今日举办。官方宣布,继华为西安运动健康科学实验室之后,华为在东莞松山湖园区建设的运动健康科学实验室正式揭牌。这是华为在全球最大最新升揭秘小米智能眼镜或许只是过渡作用的信息提示器据说今年苹果秋季发布会上最令人失望的不是iPhone13系列升级程度太小,而是没有OneMoreThing。还有不少人期待,在最后这个传统环节上,库克会不会拿出个超级新品,让人们惊小米推出智能眼镜探索版概念新品接近传统外观,支持通话导航拍照等功能IT之家9月14日消息今天小米推出了一款概念新品小米智能眼镜探索版,其外观与普通眼镜几无区别,却有着神奇的体验。小米称,戴上它,画面跃然眼前。据介绍,小米智能眼镜探索版采用Micr30天免费用1199元小米米家扫拖机器人3C上架京东小米昨日推出米家扫拖机器人3C,支持LDS激光导航,拥有4000Pa吸力,预售价1299元,首发到手价1199元。京东现已开启预售,下单赠小米体重秤2(价值59元)30天免费试用1首发价1199元,小米米家扫拖机器人3C正式发布4000Pa吸力激光导航系统感谢IT之家网友不再投gao的线索投递!IT之家3月18日消息,今日,小米正式宣布推出米家扫拖机器人3C。这款扫地机器人支持LDS激光导航,拥有4000Pa吸力,预售价1299元,日本新干线E7系列自动驾驶试验顺利实施GoA4最高级别,110kmhIT之家11月18日消息,根据日本朝日新闻报道,11月17日,日本JR东公司成功进行了在新潟(x)市内实施的新干线自动驾驶试验。这一实验使用的是E7系列车型,试验在白天和夜间进行。华为路由AX2Pro曝光,支持WiFi6PlusIT之家5月6日消息华为去年4月份发布了AX3Pro路由器,该路由器搭载了凌霄四核1。4GHzCPU,支持160MHz大频宽,相较于传统WiFi6路由器其近距离速度提升近1倍,售价AI药物研发新模式,华为云发布盘古药物分子大模型IT之家9月24日消息昨日,华为全联接2021开幕。华为高级副总裁华为云CEO消费者云服务总裁张平安发布了华为云盘古药物分子大模型。今年4月,华为云发布了盘古系列预训练大模型,包括
中国人工智能专利排名超过美国中国企业过去3年在日经人工智能专利50强榜单上异军突起,领先于美国同行,扩大了他们在这个全球最重要高科技领域的触角。在2016至2018年间,该榜单中的上榜中国企业从8家增加到19患病祖父竟是被机器人告知生命垂危,家属怒了本周,加州某医院通过一台机器人向一名78岁的病人传达了其生命垂危的消息,这促使该病人的家人将他们的失望与恼怒公之于众。病人的孙女安纳莉丝雅威廉哈姆向今日美国透露,他的祖父欧内斯特昆一文了解AI芯片市场走向未来GPU收益或滑落第二曾是弃儿的人工智能,如今,已经蓬勃发展了很长一段时间了。现在,人们对提供高性能视觉识别匹配或甚至超越人类技能的产品和技术产生了浓厚的兴趣和投资。同样,语音和音频识别正变得越来越普遍孙正义人工智能将在30年内彻底改变人类生活方式据美国财经网站CNBC报道,软银CEO孙正义(MasayoshiSon)日前表示,人们应该为人工智能(AI)的发展做好准备,因为它将在30年内改变我们的生活方式。孙正义今日在接受C难倒笔迹鉴定专家?这位AI机器人能模仿任何人笔迹人类通常认为十分简单的日常任务,比如写字,对于机器人来说却代表着异常艰巨的挑战。现在,名为笔迹公司(TheHandwritingCompany)的初创企业希望帮助解决这个问题。笔迹太空探索的未来,看看这位不吃不喝不怕辐射的AI机器战士人工智能(AI)正以惊人的速度发展,并正迅速赶上人类智能(HI)。从单一用途的狭义人工智能(ANI)发展到通用人工智能(AGI),能够独立思考行动和做出决策的智能机器人将很快成为现带触控的俄罗斯套娃LG获得家用智能机器人专利美国专利商标局(USPTO)已授予LG电子设计一个家用机器人的专利,外观上像是我们小时候玩过的不倒翁,它的前面还有一个小小的屏幕来显示信息。作为一个现代家庭的智能机器人,LG还没有华为AI音箱新技能升级支持召唤小冰IT之家1月28日消息根据华为官方的消息,华为与微软展开在人工智能语音助手领域的合作,现在小艺可以召唤小冰。通过华为AI音箱,用户可以直接和微软小冰进行交流与互动。据介绍,不仅是华AI还原手冢治虫画风和思想明年或将出虚拟新作IT之家10月5日消息日前,东芝半导体功能公司公布了一项最新的AI技术TEZUKA2020(手冢2020),这项AI技术通过学习已故日本知名漫画家手冢治虫作品,学习其画风和思想,真计算资源持续垄断化,AI前沿研究何去何从?从大型机到个人电脑,从互联网到智能手机,计算机技术的每一个重大进步都为更多的人在数字前沿创造了机会。但越来越多的人担心,科技行业的新前沿人工智能,正在逆转这一趋势。计算机科学家表示618大促买智能音箱?这些天猫精灵们你不能错过618大促期间,天猫精灵官方旗舰店开启了促销活动,包括天猫精灵CC天猫精灵方糖R天猫精灵Queen智能语音美妆镜等等产品都有不同程度的促销降价,其中天猫精灵CC更是最高直降200元