专访唐杰万亿参数大模型只是一个开始

　　机器之心原创
　　作者：闻菲
　　智源悟道团队不仅会在「大」这条路上走下去，还将对构建「神经-符号结合模型」进行更深入和底层的探索。
　　图灵写于 1950 年的论述《计算机器与智能》被誉为人工智能的开山之作，他在文中不仅提出了「机器会思考吗？」这一经典问题，还给出了著名的「图灵测试」用以判断一台机器是否拥有「智能」。
　　但经过详细论证，在文章趋于收尾时，他又补充说：「与其尝试制作一个程序模拟成人的大脑（mind），何不尝试制作一个模拟儿童大脑的程序呢？」
　　在题为「会学习的机器」（Learning Machines）这最后一小节中，图灵写道，儿童的大脑就好比刚从文具店里买来的笔记本，里面没有任何结构（mechanism），全是大量空白的表格（sheets）。从计算机科学研究者的角度看，这样的形容简直再直白不过。
　　三四岁的孩子已经能够举一反三，简单推理，模仿父母最细微的姿态和动作，并且知道如何通过自己的行为影响他人。而这正是人工智能研究者迫切希望其构建的AI系统所能具备的。
　　如今，机器学习不仅是人工智能领域研究的重点，也正在成为整个计算机科学研究的热点。2020 年 5 月，OpenAI 发布了无监督转化语言模型 GPT-3，其展现出的从海量未标记数据中「学习」且不限于某一特定任务的「通用」能力，让 AI 研究者看到了基于大规模预训练模型探索通用人工智能的可能。
　　2021 年 6 月，北京智源人工智能研究院（以下简称「智源研究院」）发布「悟道2.0」巨模型，以 1.75 万亿的参数量成为迄今全球规模最大的预训练模型。不仅如此，悟道团队还基于 GPT 与 BERT 各自在自然语言生成（NLG）和自然语言理解（NLU）任务上的优点，成功将两者融合并提出通用语言模型 GLM，将所有自然语言任务都化归为生成任务进行统一处理，GLM 也成为首个在 NLU、NLG、Seq2Seq、不定长填空等任务中全部登顶的语言模型。
　　超大规模预训练模型是否代表了图灵所说的「会学习的机器」？不断增大的模型（以及不断增加的算力）最终能把我们带到哪里？预训练模型究竟从数据中学到了什么？未来的机器智能是否会改变我们对数据、信息、知识乃至智慧的定义？带着这些疑问，机器之心专访了智源研究院学术副院长、悟道项目负责人、清华大学计算机系教授唐杰。
　　智源研究院学术副院长、悟道项目负责人、清华大学教授唐杰，在 2021 北京智源大会上发布悟道 2.0。来源：智源研究院
　　唐杰早先从事数据挖掘和知识工程方面的研究，他曾经不愿意也不敢相信机器智能可以超越人，但大规模预训练模型改变了他的想法；如今，他开始反问为何机器智能不可以超越人。
　　唐杰表示，万亿参数大模型只是一个开始，作为一种科学上的探索，智源悟道团队将坚持在「大」这条路上走下去，探索其边界，因为他们已经在大模型上观察到了以往小模型上所不曾有过的现象。
　　但他同时也指出，单靠增加训练数据量或模型参数规模不足以实现「智能」，悟道团队目前践行的「知识+数据双轮驱动」，正是尝试将知识这种符号信息与神经网络相结合，构建所谓的「神经-符号结合模型」，从而赋予机器认知能力。
　　在更远期的规划中，唐杰希望让悟道模型拥有自学习的能力，以及作为一个主体与现实世界交互的能力，正如人类儿童在成长中所经历的那样。
　　至于眼下，一个重点将是基于悟道 2.0 构建一个平台和生态，让企业、开发者和研究人员真正用起来——用他的话说就是「大规模预训练模型不是用来作秀的」，并根据用户的反馈优化和迭代。不过，这方面的工作将由其他团队牵头完成。
　　悟道团队将持续聚焦，这也是唐杰个人的研究风格——专注、专注再专注，直到拿出严谨、可靠和有力的成果。
　　他说：「更重要的是各种任务精度的提升，算法的优化，运行效率，以及对整个人工智能软件和硬件应用及架构的再考察。」
　　要让机器从数据中学出所有的人类知识，现在所谓的「大数据」根本少得可怜
　　深度学习常为人诟病的一点在于其不可解释性。然而，存储在人类大脑中的知识亦然，只不过我们能够借助语言进行表达。
　　但即便如此，还是有很多无法用言语描述进而抽象为知识的东西。
　　英国皇家结构工程师学会的某位大师曾在演讲中自嘲：「结构工程是这样一门艺术，将我们尚未充分理解的材料，做成我们无法精确分析的形状，去承受我们无法正确评估的力，以致公众没有理由怀疑我们的无知程度。」据他自己所说，每次他在演讲中提及这句话时，都能从现场观众那里得到不错的反应。果然懂的人都懂。
　　很大程度上，现阶段的深度学习也是如此，大规模预训练模型确实从数据中学到了什么，但其具体过程或数理机制尚不明晰。
　　在拥有 1.75 万亿参数的悟道 2.0 上，唐杰团队观察到模型不需要训练数据，可以自动从未标记的数据中学出一些人类知识，有的机器学习出的知识图谱比人工标注的质量还要好。
　　「只要模型足够大，也许会达到一个奇点，不需要人类知识，机器只用数据就能学出人类有史以来所有的知识，」唐杰说：「因为人类的知识也是经过历史慢慢演化，经过案例学习和不断试错总结归纳出来的。」
　　但他认为，这种纯数据驱动的方法还有很长的路要走，至少未来十年都难以见到突破。原因也很简单，就看一点，如果真要让机器从数据中学出所有的人类知识，现在所谓的「大数据」根本少得可怜——计算机发明至今也不过 70 多年，物联网数据才刚刚兴起，还有其他各种类型的数据，光是要收集那么多的数据就需要很长的时间。
　　悟道团队采用「知识+数据双轮驱动」方法，因为人类知识经过高度抽象，不仅精度高且质量好，利用好了能大幅加速机器学习的过程，有效提升训练效果。
　　或许有一天我们就从预训练模型中探索到类似牛顿三大定律这样的东西呢？
　　不同于传统意义上的知识，存储在神经网络中的知识由模型的参数及架构决定，一般难以被人理解。
　　唐杰与他在清华和智源的合作者将这种从数据中学习获取，存储于神经网络模型中的知识称之为「连续型知识」，而他们则尝试从「连续型知识的存储和管理」角度来展开对超大规模预训练模型的探索。
　　换句话说，超大规模预训练模型就好比一种全新的知识库，只不过里面存储的是不能直接被人所理解的连续型知识。这些连续型知识可以像 OpenAI 的 GPT 那样，存在一个超强的大模型里，也可以像 Google AI 的 Switch Transformers 那样，由多个混合专家模型（MoE）合并而成。但是，这两种方法都对算力和存储提出了巨大的需求，而且无论是数据还是知识，都是在不断增加和更新的。
　　对此，清华大学的研究人员提出了「通用连续型知识库」的概念。这个通用连续型知识库存储的不是模型，而是模型中的连续型知识。通过将不同模型中的连续型知识都存储在这样一个库里，一定程度上能减轻对计算和存储的负担。但这需要先把连续型知识从模型中分离出来，还涉及不同模型的连续型知识的导入和导出。因此，通用连续型知识库存储架构和接口的设计，还有各种连续型知识的融合与区分，都需要更深入的探索。
　　对于超大规模预训练模型的发展，唐杰认为有三个方面值得注意。首先，算法还有很大的改进空间，包括效率的提升，如何将知识这种符号信息与神经网络相结合，构建「神经-符号结合模型」，以及如何更高效地从数据中提炼出连续型知识。
　　「GPT 本身是很简单的，但事实证明简单并不一定不好，或许有一天我们就从预训练模型中探索到了类似牛顿三大定律这样的东西呢？然后再把这些喂给模型，不断优化，最终实现大一统也不是没有可能。」他说。
　　「虽然很多人反对这种大一统的模型架构，但算法本身是有很大探索空间的，也值得我们去探索。在牛顿三大定律出现之前，我们也在认识这个世界，后来爱因斯坦的相对论出来推翻了前者，我们又重新认识了世界，算法也是这样，会经历一个长期演化的过程，而且不一定非得达到终点才能使用。」
　　二是预训练模型走向更多的应用，把信息和人、车、物等等都联系起来，尤其是加入人的动态，由此带来的复杂度和搜索空间都会指数级提升，这就要求研究人员在构建模型时考虑更多的维度。
　　在更长远的未来，唐杰认为模型需要具有自学习的能力，因为人是会不断反思、不断复盘的，模型也要能够自我优化，并且作为一个主体与世界交互，通过外界的反馈不断改进和持续学习。
　　悟道团队会在一直往「大」做上去，直至其边界
　　从悟道 1.0 到 2.0，历时不到 3 个月，模型参数量增长了千倍，规模也做到了全球引领。
　　有人问唐杰为什么他们能在这么短的时间内拿出这么多成果，「因为我们早就开始做了呀」，他笑着说。
　　「作为一种科学研究，悟道团队会在一直往『大』做上去，直至其边界，以探索人工智能所能达到的极致。」
　　不过，他认为没有必要在「大」这件事情上过分纠结。模型并非越大越好，尤其在实际应用场景，要优先考虑成本和速度，而最关键的是精度，如何用 10 亿级别的小模型在某些任务上取得更优的性能，加快实际部署，也是悟道团队当前的一个研究重点。
　　对于悟道 2.0 做平台化跟产业界对接，唐杰表示大力支持，「因为大规模预训练模型不是用来作秀的，要把模型真正用起来，我们需要业界的反馈」。
　　悟道 2.0 也确实在产业界引起了反响，作为一个证明，唐杰告诉机器之心：「1.0 发布的时候很多企业都在观望，今天 2.0 发布，我台上刚讲完，就有好几家公司表示愿意加入，积极性很强。」
　　不过，企业也并非完全没有门槛，正如之前采访中唐杰说的那样，所有参与方都是带着资源与情怀参与到悟道项目中来，本着开源开放，合作共享的精神与理念。目前，悟道团队大约百人，对于这样一个大型科研项目而言，在人手和资源上其实并不算多。因此，应用开发和产业化落地相关的工作，将由合作企业和智源的其他团队牵头完成。
　　从悟道 1.0 到 2.0，唐杰作为项目负责人，感受最深的地方是如今科研试错的成本更大了，因此战略布局的眼光也要更精准。例如，以前模型有了问题可以重头再来，而现在不管是时间成本还是经济成本都不允许方向性的误判。在什么阶段决定做什么也很重要，一方面是预判技术或产业的发展，另一方面是资源有限，什么都做很可能什么都做不好。
　　此外，悟道 2.0 全部在国产 CPU 上完成训练，唐杰认为这也表明了超大规模预训练模型从应用层面拉动了对超算和智能计算的探索，从某种程度上补齐了我国在超算应用方面的短板，也有助于未来智能超算中心的规划和建设。
　　他并不担心国内其他团队在超大规模预训练模型上的跟进，对于眼下大模型频出的状况也十分理解。「当你从事一个方向，有人跟进总比没人跟进要好，对吧？」唐杰反问说：「而且大部分的事情发展都这样，起先热一点，然后有些太过了，就自然会冷静下来，往回收一些。」
　　悟道出现在北京并非偶然，「因为这里有最高的人工智能软件和硬件人才密度」，与建设超算中心一样，构建超大规模预训练模型也要因地制宜，量力而行。「要想清楚为什么做，你的条件适不适合做。」唐杰说。
　　2020年，ACM SIGKDD 将「时间检验应用科学奖」授予了唐杰等人在 2008 年写的论文「ArnetMiner」。经过十几年的发展，这个最初跑在唐杰笔记本上的算法，已经成为如今的在线科技情报挖掘平台 AMiner。
　　接下来，唐杰将专注于超大规模预训练模型的研究，至于是否能由此实现通用人工智能，有一点可以肯定，只要我们对「通过计算能够实现智能」这个大前提没有弄错的话，剩下的应该只是时间问题。

薛之谦消失一个月首发声，短短两个字引无数网友热评薛之谦李雨桐互撕事件闹得沸沸扬扬，薛之谦人气一路下滑，9月21日发完最后一条微博后，薛之谦就一直保持沉默，即便李雨桐扔出录音照片等实锤，薛之谦也没有再做出任何回应。近日，薛之谦参加这些古装剧里面的广告，你看过几个？杨幂和李易峰主演的古剑奇谭，那句我原本是山中一颗包治百病的板蓝根简直把小编震得七荤八素，这年头板蓝根都能成精了。青云志里面的同城镖局，竟然是58同城，刷新了小编的三观，原来58已经杜明礼要倒霉，终于落入周莹和赵白石的生丝圈套那年花开月正圆赵白石通过挟持杜明礼，得以直接见到王爷，并向王爷进献了500万两银票以及洋人十年的生丝买卖契约，凭此获得了王爷的好感。王爷将生丝生意交由杜明礼操持，杜明礼本想从中捞一那年花开月正圆剧终后，还有这些电视剧值得追1猎场类型都市职场励志爱情剧主演胡歌，祖峰，孙红雷，张嘉译等主要剧情讲述了主人公郑秋冬既不是豪门出身，也没有显赫背景，凭借着自己的拼搏努力，在职场上一路打拼解决公司危机的故事。上映张炜的诗音乐和神话张炜全部小说的核心可以用一个字来概括，那就是诗。不从这个角度出发，就没有办法理解张炜。说到诗，我们必须十分小心，正如张炜自己所说，当我们极力去理解诗和诗意的时候，倒往往离它的本质愈美国总统曾想开战，美军高层力挽狂澜一连给中国打了两个电话在2020年中的弗洛伊德暴乱事件中违抗特朗普总统的军令在全世界人民面前上演了一把独走下克上戏码的美国军队，最近被爆料又开始独走了！9月15日，曾经爆料水门事件的著名调查记者鲍勃伍德历史上的丘处机西行万里，一言止杀，拯救华夏文明在国人的记忆中，一提到西行，首先想到的是经历九死一生的高僧玄奘。当年玄奘带着三个动物历尽九九八十一难，最后终于取来了所谓的真经。但取来之后又怎么样呢？玄奘说要拯生民于水火之中，让全感悟了凡四训18过不可怕，知过改过就好。善恶皆有前兆了凡四训第二章改过之法。俗话说人非圣贤，孰能无过？过则勿惮改。过，本身并不可怕。可怕的是一是不知自己有过。二是知道是过而不改。三是不断地制造新过。古人闻过则喜。之所以如此，一是能够思辨为什么好人不长寿？是世道错了？还是这个话错了？小时候听到这句话，便感觉这个世界不公平，既充满了深深的失望，也增添了若干迷惑既然做好人不得好报，为什么还要教育我做好人呢？现在我明白了，这句话是不对的。不对的原因在于所谓的好人并不感悟了凡四训9生命的长短没有区别？无我才是真道理原文孟子论立命之学，而曰夭寿不贰。夫夭寿，至贰者也。当其不动念时，孰为夭，孰为寿？细分之，丰歉不贰，然后可立贫富之命穷通不贰，然后可立贵贱之命夭寿不贰，然后可立生死之命。人生世间，感悟了凡四训3命运有定数，能逃脱约束吗？后天命运谁改？问其故？曰人未能无心，终为阴阳所缚，安得无数？但惟凡人有数极善之人，数固拘他不定极恶之人，数亦拘他不定。汝二十年来，被他算定，不曾转动一毫，岂非是凡夫？译文我便问这句话的原因。禅师

<<<<<<－>>>>>>

美国联合32个国家进行联合军演，韩国带头拒绝，巴基斯坦却参加了6月28日，以美国为首的32国在黑海举行了代号为海上微风2021的联合军演，这场军演是十多年来规模最大的军事演习活动，32个国家总共派出了5000多名军人32艘舰艇40架军机还有1顶级光刻机为何只有荷兰能造？中国芯片最大的痛点国产光刻机7月1日，中国科学院网站发布了这样一则消息，苏州纳米技术与纳米仿生研究所张子旸研究员与国家纳米中心刘前研究员合作，成功研制了一种新型5nm（纳米）超高精度激光光刻加工方法。这消息一2008年萨卡什维利硬刚普京，普京顺势打败格鲁吉亚，5天结束战争乌克兰一个最不像主权国家的主权国家，前段时间，在美国的挑拨下，顿巴斯地区战火重燃，乌克兰内政部长顾问在接受电视台采访时还说乌克兰准备采取措施收复顿巴斯领土。自从苏联解体后，乌克兰就20年越南战争白打了？越南为美国开绿灯，引狼入室租借金兰湾？自从2021年7月2日美国将大量驻扎在阿富汗巴格拉姆空军基地的美军撤走后，美国撤军的速度大大加快，美国一声不响地撤军是世界各国都没想到的，毕竟美国已经在这块帝国坟场呆了二十年之久。美国第六代发动机突然曝光，中国涡扇20能否赶上，发动机间的战争前不久，我国自主研发的大型运输机运20B搭载国产发动机涡扇20成功完成了首飞，运20B的成功面世对我国来说，可不仅仅是一款运输机大获成功那么简单，它更是对我国国产发动机的一场检验。苏伊士运河搁浅货船的船尾开始移动，船下的水已正在流动。欢迎点击右上方关注，第一时间获取国际军事资讯和国内外热点新闻。报道称，救援人员已经能够移动船尾，并成功使舵和螺旋桨工作。苏伊士运河管理局负责人奥萨马表示船尾已开始移动，这是一个积极伊朗革命卫队军舰遭以色列袭击欢迎点击右上方关注，第一时间获取国际军事资讯和国内外热点新闻。目前，美国和伊朗正在维也纳就恢复核协议进行艰难的间接会谈，同时，以色列总理内塔尼亚胡高调反对会谈并誓言会保护自己安全。联合国秘书长更加担忧全球随着2大经济体分裂成2个部分联合国秘书长古特雷斯在达沃斯论坛上表示，他越来越担忧世界会随着2大经济体分裂成2个部分，拥有自己的贸易规则和主要货币。世界经济论坛的视频会议于1月25日开始，将持续至1月29日，与没有以色列特工偷不到的东西米格21，飞弹快艇，从法国到苏联世界四大情报机构，（CIA），（FSB），（MI6），以色列摩萨德（MOSSAD），其中最为神秘，最为人所不知的就是以色列摩萨德，虽然从公布的数据来看，他的人数最少，但一直以大胆，运河塞船火车相撞大楼倒塌意外多到埃及人超毛法老诅咒巨型货轮长赐号在苏伊士运河搁浅，埃及当地意外频传，让不少当地人都怀疑是法老王的诅咒。近日埃及意外频传，包含长荣海运承租的巨型货轮长赐号搁浅，导致苏伊士运河大塞船索哈杰省发生火车相撞俄罗斯专家评论美国上将有关在太空与俄罗斯战争的言论莫斯科国立国际关系学院军事政治研究中心主任阿列克谢波德别列兹金在与RT电视台对话中评论了美国太空司令部司令约翰雷蒙德上将有关俄罗斯在太空的能力的言论。此前雷蒙德说，俄罗斯和中国研发