现在做 AI 的公司很多,但在 AI 上倾注全力还能够每天让数亿用户频繁使用到的,在大公司中也屈指可数。AI 也不只是「一种技术」,而是「多个技术的最终集合体」,其中有任何一个技术出现短板都会影响 AI 技术水平的上限。但 AI 自己要突破最终的天花板还是要靠「自然语言理解」(即常说的 NLP) 能力的发展,这也意味着语言与知识等认知层面的技术突破将进一步促进 AI 深入发展。它就像你学习语言的能力,能理解的知识越多,语言能力越丰富,就越能展示出你出色的能力,否则就是「墙上芦苇,头重脚轻根底浅;山间竹笋,嘴尖皮厚腹中空」。 8 月 25 日,百度 CTO 王海峰发表主旨演讲,解读百度语言与知识技术的发展历程与最新成果,并首次发布了百度大脑语言与知识产品全景图。 「在百度语言与知识技术的布局和发展中,我们始终在注意把握两个趋势,即技术发展趋势和产业发展趋势,并力争引领趋势,」王海峰讲道,「语言与知识技术是人工智能认知能力的核心,以语言和知识为研究对象,让机器像人一样掌握知识、理解语言的自然语言处理技术,对于人工智能发展至关重要。」 历经近十年发展,百度已经构建了完整的语言与知识技术布局,包括知识图谱、语言理解与生成技术,以及上述技术所支持的包含智能搜索、机器翻译、对话系统、智能写作、深度问答等在内的的应用系统。 其中,知识图谱是机器认知世界的基础。机器认知能力的突破,越来越依赖对知识和大规模知识图谱的运用。百度打造了世界上最大的多源异构知识图谱,拥有超过 50 亿实体和 5500 亿事实,并在不断演进和更新,已应用于各行各业,每日调用次数超过 400 亿次。 王海峰全面分享了百度语言与知识技术完整布局和最新成果。 不仅如此,针对不同应用场景和知识形态,百度还建立起多样化的知识图谱类型,既有基础的实体知识图谱,也有行业知识图谱、事件图谱、关注点图谱等,以及融合语音、视频、图片的多模态知识图谱。这背后,是百度创建的包括无标签大数据开放知识挖掘技术、知识体系自扩展的知识图谱自学习技术、以及融合多源异构数据的知识补全与整合技术在内一整套知识图谱构建方法。 首先,知识图谱是机器认知世界的重要基础,百度打造了世界上最大规模知识图谱,拥有超过 50 亿实体和 5500 亿事实,并在不断演进和更新。百度知识图谱应用于各行各业,每天的调用次数超过 400 亿次。 其次,在融入知识的基础上,语言理解能力不断增强。2019 年 3 月,百度提出知识增强的语义理解框架 ERNIE,在深度学习的基础上融入知识,同时具备持续学习能力,曾一举登顶全球权威数据集 GLUE 榜单,首次突破 90 分大关,刷新榜单历史。基于知识图谱和语义表示,突破了阅读理解、对话理解以及跨模态深度语义理解等技术。 通过 ERNIE 系统增加了百科知识、对画质是、篇章结构知识等,使得模型性能能够得以提升。 第三,语言生成是语言与知识技术中的重要组成部分。基于预训练技术的成功经验,百度提出基于多流机制的语言生成预训练技术,兼顾词、短语等不同粒度的语义信息,显著提升生成效果。百度也探索了多文档摘要生成,通过图结构语义表示引入篇章知识,在单文档和多文档摘要生成效果都有提升。 百度翻译支持 200 多种语言,每天响应超过千亿字符的翻译请求,支持超过 40 多万家第三方应用,技术上,提出了多智能体联合学习、基于语义单元的同传模型、稀缺语种分组混合训练算法等。 语言与知识技术的全面突破,在搜索、翻译、对话系统等各类产品、应用中得到突出体现。王海峰介绍,通过知识图谱、语言理解和跨模态语义理解等技术,智能搜索帮助用户更加高效、精准、便捷地获取知识和信息。智能搜索再进一步发展,搜索将无处不在。 百度提出了知识图谱驱动的对话控制技术,以及首个基于隐空间的大规模开放域对话模型 PLATO 等,并推出智能对话定制和服务平台 UNIT,可帮助开发者高效构建智能对话系统,实现规模化应用。百度翻译支持 200 多种语言,每天响应超过千亿字符的翻译请求,支持超过 40 多万家第三方应用,技术上,提出了多智能体联合学习、基于语义单元的同传模型、稀缺语种分组混合训练算法等。 此外,百度语言与知识技术的成果,也在源源不断通过开源开放平台对外输出,在互联网、金融、医疗、教育等诸多领域发挥作用,提升产业智能化水平的同时,也得到了各方认可,这是近十年来百度语言与知识技术不断进步的最佳证明。 百度在 NPL 上再进一步,百度集团副总裁吴甜接续发布语义理解技术与平台文心、智能文档分析平台 TextMind 和 AI 同传会议解决方案 3 大新产品,同时发布了 6 项升级,包括智能创作平台的 3 个场景方案、以及智能对话定制与服务平台 UNIT 的 3 项全新升级。 「我们一直致力于将语言与知识技术凝聚成一系列技术平台和产品,在应用中产生大量价值,为广大开发者和产业实践者提供以语言与知识技术为核心驱动的系列产品。」吴甜表示。 百度研制了知识增强的跨模态深度语义理解方法,通过知识关联跨模态信息,运用语言描述不同模态信息的语义,进而让机器实现从「看清」到「看懂」、从「听清」到「听懂」,即图像和语言、语音和语言的一体化理解。而融合场景图知识的跨模态语义理解预训练技术,则大幅提升了跨模态推理能力。 在机器理解自然语言之外,要与人进行交互,语言生成的任务也必不可少。百度基于多流机制的语言生成预训练技术,在语言生成的过程中,兼顾词、短语等不同粒度的语义信息,提升了生成效果。而多文档摘要生成,则通过图结构语义表示,引入篇章结构知识,增强长文本语义表示能力的同时,解决了跨文档领域关系建模难题。结合语言生成技术和其他语言与知识技术,百度打造了智能创作平台,已被 20 多家媒体所采用,日调用量超过 35 万次。 百度推出的语义理解技术与平台「文心」,基于深度学习平台飞桨打造,依托领先的语义理解核心技术,集成优秀的预训练模型、全面的 NLP 算法集、端到端开发套件和平台,提供一站式 NLP 开发与服务,让开发者更简单、高效地定制企业级 NLP 模型。文心经过了大量真实应用场景的淬炼,具备优秀的工业级落地实力。 「文心」全面降低了开发者 90% 的数据标注时间、90%的算力投入和 85% 的模型开发时长。在现场演示中,百度将 100 条带有情感导向的商品评论注入到「文心」中。结束后还可以对模型效果进行评估,开发者可以通过 API 直接调用该模型,非常方便。 全新发布的智能文档分析平台 TextMind,基于 OCR、NLP 技术,以文档解析为核心能力,支持文档对比与文档审核,具备「多快好省」的核心优势,促进企业办公智能升级。可以让之前需要 3-5 个工作日的工作 1 分钟完成;公司相应的人力成本可以降低 80% 以上。 百度大脑智能创作平台针对媒体应用场景再升级,全新推出智能策划、智能采编、智能审校三大媒体场景方案,进一步助力媒体人更快、更好地创作,可谓切中媒体人的「痛点」。 智能对话定制与服务平台 UNIT 升级 3 大特性:更智能的任务式对话理解、极致便捷的表格问答和融合通用的新对话引擎。此次 UNIT 全新升级的三大能力,将进一步降低任务式对话、智能问答的定制成本,并融合通用对话能力,提升交互体验。 全新发布的 AI 同传会议解决方案,覆盖会议全场景、全流程,旨在打造用户随身的"会议同传专家"。吴甜现场展示了如何只用一台电脑和一部手机快速搭建一套同传服务,只需点点鼠标、打几个字,就能快速获得专业的同传服务。 数据匮乏、算力不足历来是语言与知识技术研发中面临的瓶颈。为突破瓶颈,百度联合中国计算机学会、中国中文信息学会发起中文自然语言处理数据共建计划——千言,解决数据稀缺问题。千言一期由来自国内11家高校和企业的数据资源研发者共同建设,已涵盖开放域对话、阅读理解等7大任务,20余个中文开源数据集。 百度技术委员会主席吴华表示,「未来,我们希望有更多的数据集作者能够参与共建千言,共同推动中文信息处理技术的进步,建设世界范围的中文信息处理影响力。我们计划在未来 3 年,面向 20 多个任务,收集和建设不少于 100 个中文自然语言处理数据集,覆盖语言与知识技术全部领域。」