WAIC2021好未来副总裁吴中勤多模态机器学习与自动生成技术

　　机器之心报道
　　机器之心编辑部
　　在 WAIC 2021 AI 开发者论坛上，好未来集团技术副总裁吴中勤发表主题演讲《多模态机器学习及大规模自动生成技术：算法框架、行业实践》，他主要介绍了多模态深度学习以及大规模自动生成技术在教育领域的实践与应用，并介绍了好未来 AI 研究院的最新研究成果及成功案例。
　　以下为吴中勤在 WAIC 2021 AI 开发者论坛上的演讲内容，机器之心进行了不改变原意的编辑、整理：
　　非常高兴来到上海和大家一起交流人工智能算法和行业实践的一些工作，今天选取了与工作中非常相关的多模态深度学习、大规模自动生成技术，以及在行业中实践的案例，给大家带来相对更听得懂的演讲。
　　多模态机器学习
　　所谓的多模态就是机器和人可以感受到的电子信号的输入，包括声音、图象、自然对话的语言，甚至包括更多电子传感器信号。从中可以看到，多种模态的综合可以解决单一模态无法解决的问题，或者多模态可以更好的解决问题。
　　举例来说，人们早前的研究发现，如果单纯做语音识别，单从声音信号来做会损失一些信息，如果结合强大的识别唇语的能力，能够看到说话的画面，这样就会猜到说话的含义。所以，结合视觉与听觉识别的 AVSR 模型，是可以在更高的信噪比情况下取得更为鲁棒的识别效果。
　　多模态的问题，其实在整个现实生活当中，有非常多的研究涉及这一块。比如我们做的一些表情工作，一些媒体分析的工作，特别是前几年比较火热的 Image captioning、Video captioning，还有基于视觉、视频的自动问答系统，还包括整体的动作识别。比较经典的例子就是我们在看长视频的时候，如果有包含字幕就是典型的多模态问题。
　　多模态研究内容
　　多模态整个技术研究方向包括以下：表征，多个模态联合去做事物或者语义的联合表征；转换，在模态之间实现转换，例如输入文字出现画面，输入声音出现文字；融合，在做单模态识别之后做后端融合，把整个模态在分类阶段、工作阶段加以融合；对齐，比如一段文字、一个视频，怎么把其中物体和关系做对应；此外还包括模态之间的协同。
　　以实际工作来举例， 好未来目前是国内比较大的 K12 的教育机构，课堂上其实会面临很多问题，许多授课是由老师和学生进行的，如果想要了解整节课堂运作下来整个授课质量如何、学生和老师之间交互如何，需要有打破物理世界到虚拟数字空间的一套算法加以映射，才能够解构课程教学黑匣子。
　　我们使用了 GodEye 这样一套教学辅助系统，这套系统是基于多模态深度学习理念打造的，可以针对课堂当中老师和学生各类行为进行智能识别，通过辅助授课老师在授课中视频片段、关键行为去定位老师和学生在课堂中的交互，最后提升学习效果。所以在画面当中可以看到整节课解构成一段段视频片段，在这个阶段老师和学生是怎么互动的？是做题、还是讲题、还是在讲知识点都可以进行解构。我们从右侧可以看到，在学生端可以在学习完成之后得到专属于自己的个性化学习报告，报告会包含你在课堂上参与了哪些环节，有哪些环节举手了、发言了、做题了，准确率怎么样，还包括在课堂中情绪曲线和关注度曲线。
　　如果把这个工作进一步聚焦，我们会发现有个问题，优秀的老师和教的一般老师有很大差异性。我们就在探索有没有可能打造一套帮助老师成长的 AI 系统，能够随着授课越来越好，人工智能给予更好的帮助，因此在刚才工作基础上，我们对老师的授课做了一个全面的质量分析和解构。
　　整个画面的声音、课件、动作、行为的交互可以用多模态深度学习方法，这样一来给老师以更详细的指导，对老师的上课、练课、磨课有更大帮助。为什么有些老师授课比较好，是因为在上课之前他们会用这套系统在线下做非常多的磨课。机器系统会自动告诉老师，你这节课应该在哪里加以改进。通过分析，系统会给老师打上各种各样风格标签，比如这位老师具有什么样的风格，喜欢说什么口头禅，话语流利程度，甚至说话的情感变化，以及在这一讲具体涉及到的知识点和讲课方法，是不是使用了举一反三方式、反问方式，还是引导提问的方式。
　　多模态情绪分类
　　人的情绪是一个非常微妙的、多变的、难以实时捕捉的、细粒度的工作，我们的研究聚焦到老师授课当中，通过多模态的方式对情感做一个细粒度的分类，这其中包括非常多的类型、类别。在这项工作中怎么做？我们推出时间对齐的池化机制，从而可以捕捉每一个字词之间的情感因素，同时利用多模态深度学习方法，其中有多模态的交叉刺激模块，可以通过多个模态使用里面的语义单元，去激活和增强在声音情感分类当中的信息，从而实现更好的效果。这项研究发布在 InterSpeech2021，在多个数据上取得非常好的效果。
　　除了在课堂上对老师情感分析，再就是一对一的个性化业务，老师单独针对一个人做教学沟通交流服务。一对一课堂往往是个体与个体之间沟通，对于教学管理、质量监控、提升老师授课能力、衡量这节课质量，是非常难的。传统方式有摄像头、麦克风，有后台老师在后面查看，一是防止出现不当情况，二是也能提高授课效果。
　　1V1 课堂说话人分离
　　实际上靠人的精力和观察很难做，现在有一个经过老师和学生授权的电子设备，这个设备会做很多课堂分析的事情，在课后形成报告给学生和老师。这里面涉及一个问题，麦克风持续在听说话声音的时候，其实要区分哪一段是老师在提问，哪一段是学生在回答，哪一段是学生在提问，哪一段是老师在回答，可能还包括知识点的讲解，还有可能包括翻转课堂（就是学生给老师讲课），所以这些问题需要从技术角度、在设备上做说话人分离。说话人分离这个任务可以做声文的输入和录入，一方面涉及隐私，另一方面对学生和老师的配合有要求，那么有没有算法不依赖于设备，在软件层面、算法层面可以自动实现说话人分离，而不需要任何预先输入。
　　我们做了这样一个工作，该工作发表在 ICASSP 2020，在这个工作里我们有一个大胆的假设，学生和老师之间的声音分离，可以通过对话内容大概猜出来这段话应该是什么角色说的，我们使用了融合语音和文本以及课件的注意力机制深度学习网络，在网络里面通过同时捕捉声音和各种信号，能够实现注意力对语义内容和声音内容同时长时期语义依赖捕捉。通过这个工作可以有效实现课堂说话分离，能够更好输出教学报告和学前报告，在各项实验上取得比较好的成果。
　　技术趋势在算法层面基本有三个，如果排除硬件，一个是多模态，二是大规模预训练模型。预训练模型大家比较熟悉的是单模态的预训练，比如大家熟知的 GPT-3，它拥有超大规模的文本来学习知识。我们也推出基于 transformer 跨静态的预训练模型，其特点是跨模态的预训练模型，是综合了文本和声音做的预训练。预训练的优化目标是对音频的帧做 mask，此外也对文本的内容做 mask，这样学习的目标是最大可能还原出来被屏蔽的内容，使得有更好的预训练模型能够捕捉声音跟文本之间的关联。在很多任务上用预训练模型做实验，通过一些具体的任务、小的语料在大规模预训练模型上进行优化，可以发现我们提出的模型在情绪识别、话者分离上取得较好的效果。
　　目前这篇论文已经提交 EMNLP2021，发表之后会开源相关的成果。
　　大规模自动生成
　　以上多是关于多模态机器学习的，下面讲一下自动生成相关的技术。AI 技术在前 5、6 年里更多的聚焦于识别和理解。最近几年人们开始聚焦到 AI 能不能做智能化内容生产，能不能产生传统上来说需要艺术参与、需要老师参与、需要学生参与的很多内容。
　　在文本研究中，大规模自动生成可以去做一些文章生成。文章生成对于教育领域也非常有意义，例如目前 GPT-3 是一个英文的模型，在中国怎么做自己的大规模预训练模型？好未来跟智源研究院一起合作，在智源中文 GPT-3 的基础之上，通过叠加大量教育领域的资料、学习模式、标注语料，推出可应用于教育场景的大规模 GPT 模型。
　　这样的模型可以做什么？例如可以自动出题，大家知道在学习期间练习题非常重要，甚至学习课后自己解读一些题目，这些题目需要老师手动加工出来，甚至用一些信息化软件加工出来，这些题目需要教研人员、教研主任、教研老师的智慧。有没有可能通过 AI 自动生成题目？可以实现千人千面的练习、个性化的辅助。另外，写作文也是比较困难的地方，能不能用 AI 写出符合小朋友、小学生、中学生认知水平的作文呢？我们也试着解决这种问题。比如在文本生成上使用这样的技术去做语文练习题的自动生成。
　　有了大规模预训练模型之后，只要教研老师输入知识大纲，接下来在输入易错、易混淆的知识点，比如有些字音近、有些字有共同偏旁部首，这是都是小朋友容易搞混的，把易错的输进去以后，通过预训练模型叠加具体的模型，就可以快速生成一道题。
　　目前这种功能已经在学习软件题拍拍 APP 上线了，学生针对薄弱项去定制学习。一个小时之内可生成几十万道题，针对个性化去生成针对性的题目，生成题目速度超越人类千倍、万倍，生成题目也具有多样性和广泛性，而且我们发现随着学生的使用量越来越大，年限越来越强，学生都在一点点的进步。
　　另外，除了生成题目，该模型还能生成作文。大家来看下面的 Demo，自动写作文，输入一个主题，选择一下是几年级风格水平，接着选一下文章的风格是什么，写景还是叙事，模型几秒钟就能生成对应的作文，而且还生成很多相关文章，这都是 AI 自动生成的作文，可以发现在生成的作文里，第三篇还是不错的，然后我们就试着把这个作文转化成多模态生产的问题，用学生最喜欢的 IP 把这篇作文读出来。
　　在已经具有大规模的 3D 物料、动作库、形象库的情况下，AI 自动在一秒钟写了几十万篇的作文，学生在个性化选择适合自己学历水平的文章，通过自己喜欢的形象自动生产出来。
　　好未来 AI 近期成果
　　好未来和世界人工智能大会还是很有渊源的，2019 年在世界人工智能大会开幕式上，科技部宣布依托好未来构建智慧教育新一代人工智能平台，目前好未来是智慧教育领域唯一一家 AI 国家队，国家对我们有很大的支持。我们在 2020 年的时候，因为特别重视教育的公平性和普适性，被联合国教科文组织做了奖项的授予。在刚刚过去云原生产业大会上，AI 平台获评 2021 年度优秀云原生案例。
　　在学术研究上，过去的 INTERSPEECH 2021 中，好未来在非母语儿童语音识别上面取得所有双项赛道的冠军；在 CVPR 2021 也有四项赛事冠军，都跟教育高度相关，比如暗光下的人脸检测和识别、场景里面人和物体的关系。识别人和物体的关系，可以用来在课堂上去看兼职人员，比如有没有人在玩手机；最后一个就是在人工智能教育大会上，今年有五篇论文揭示 AI 和教育之间的关系。

揭秘恐龙的诞生，对恐龙的了解很少？这些恐龙知识你都知道吗？地球诞生于近50亿年前，发生了许多重大事件。大约44亿年前，地壳形成，40亿年前，地球上出现了生命，30亿年前，地球上的植物进化出光合作用，逐渐形成了臭氧层。十亿年前，许多细胞植物人类首次抵达雅浦海沟8919米深渊底部上海交大四人深海科考团队采回200多个珍贵深渊样本人民网上海12月6日电（葛俊俊）12月5日，由上海交大四人深海科考团队搭乘探索一号科考船，结束了在西太平洋海域的深渊科考任务，顺利返航抵达三亚。本航次中，上海交大深部生命国际研究中费米悖论的纠结你认为会存在外星文明吗？还是说生命不是常态在那遥远的宇宙深处，似乎隐藏着很多未知的谜团，夜空中闪闪的繁星，犹如幽灵倒计时一般既美丽又冷酷，仿佛在时刻提醒着人类，我们的生存环境实在来之不易。在夜空之下，一个人站在辽阔的大草原NASA新图火星撞击坑内似现水波纹火星表面的一个撞击坑内有着类似水波纹的图案。美国宇航局（NASA）的火星勘测轨道飞行器（MRO）最近发回一张很特别的照片一个撞击坑里面的图案很有规律，看上去像水面的波纹一样，有着类胡峻南红色星球火星作者成都市教科院附属学校东区五年级（5）班胡峻南在太阳系中有一颗鲜红似火的星球，那就是火星。火星是太阳系由内往外数的第4颗行星，因外表酷似一团红色的火焰而得名。火星的质量要比地球小人类有多渺小，宇宙又有多大？232亿公里外的探测器给了我们答案综述从人类这个族群拥有记忆与文化以来，我们一直生活在地球上面，脚踩着富饶的土壤，抬头是日月星辰构建的天穹。天空之外的世界到底是什么样子的呢？古人曾经也这样发问过，并做出了推测，但是日冕物质抛射耀斑电流片新特征揭示记者7日从中国科学院云南天文台了解到，该台研究人员与合作者一道，通过磁流体动力学数值模拟，探究了日冕物质抛射耀斑电流片的动力学演化问题，揭示了新的重要特征。研究成果发表在2022年语用和语义哲学解析的三个词条黑洞一词不中听，不准确，可以使用黑体黑星和黑球等替代性词汇，黑星一词汇既文雅，又准确。黑洞这一术语的使用容易引起误解，有天文学家和天空爱好者期待在某一天找到黑洞的洞口，从一个洞口进人为什么会死？物种为什么会灭绝？生物进化为什么无法阻止死亡？死亡，是几乎所有生命都无法抗拒的必然归宿，从生命开启进化的一瞬间，死亡和灭绝就已经在进化道路的尽头静静等待！在生物学上，进化是种群里遗传性状在世代之间的变化，生物繁殖过程中，基因经老武奇闻又一喜讯传来，人类初探雅浦海沟，发现了什么？就在近日，一则喜讯传来，12月5日，上海交大深部生命国际中心主任肖教授所带领的深海科考队，顺利归来。据悉，这是人类首次抵达雅浦海沟底部，那么他们发现了什么呢？人类初探雅浦海沟雅浦海看到的太多成挑战，让全球科学家在华排起长队，中国天眼有多牛？现代航天学和火箭理论的奠基人，苏联科学家康斯坦丁齐奥尔科夫斯基曾说过，地球是人类的摇篮，但是人类不能永远生活在摇篮里。尽管进入21世纪以后，世界各国在航天探索方面取得了长足的发展，

<<<<<<－>>>>>>

预测维克兰特号必然会宣布年内服役在维克兰特号公开首航后，有部分专家认为维克兰特号的完成度明显太低，在1到2年内不可能达到可以实际部署的状态。因此说维克兰特号服役时间仍然遥遥无期。而瀚海狼山（匈奴狼山）个人的看法是高速公路隐蔽战备跑道，有哪些特殊要求？高速公路基本是1930年代以后才兴起的新事物。当然全球的所谓高速公路，也并非是都可以达到新兴大国在1980年代以后才修建的标准全封闭高速公路的水平。因此在罗斯福新政以后，在超级大国美军对被击落飞行员的救护能力，有哪些值得学习的地方？最近几十年，要说因为本方的飞行员被击落后又被公开的羞辱，而导致一场战争行动完全失败的战例，恐怕非当年美军在索马里的黑鹰坠落行动莫属。在此战中，美军当即损失十多人，而且被击落的黑鹰直轰炸机上都有飞行员弹射逃生装置，为何客机上至今不装？现代化的作战飞机虽然表面上还是带翅膀的飞行器，实际上早就成了高度智能化的飞行机器人。飞机本身越来越高端复杂，那么驾驶飞机的飞行员的个人能力也必须同步提高。现在航校毕业的学员都是一本伊尔112V，别200和苏57的首席原型机，都坠毁了在北方大国，有一架试飞中的中型涡桨运输机的右侧引擎突然在空中起火。而且很快火势越烧越大，虽然飞行员努力想控制住飞机，并且用单发迫降。不过似乎快速蔓延的火势已经导致全机的操控或者整体超级大国是如何把正常撤军，砸锅成了一场闹剧？超级大国在历史上大多数撤军行动都不算特别成功，有些简直是经典的形象闹剧甚至是悲剧。比如早在二战中，从东南亚某国的紧急撤退，其实只有最高指挥官麦克阿瑟一个人坐潜艇溜之大吉。结果手下数C17上为何会往下掉人？很多观众可能感到奇怪，为何已经宣布了大赦，为何某中亚国家机场里想跑路的，仍然人满为患，一片混乱。实际上瀚海狼山（匈奴狼山）简单地回顾一下历史。就会发现一个凡是维持过一段时间的政Q突一艘海狼级水平的攻击核潜艇，造价为何顶至少3艘万吨神盾？瀚海狼山（匈奴狼山）曾经谈到，早在30年前，海狼级攻击核潜艇刚刚开始建造，超级大国的预算部门，就着实被海狼的造价给吓着了。一开始认为海狼级可以控制在30亿到35亿美元一艘。结果实际这个第5代洲际导弹发射井，果然很不一般洲际导弹固定发射井的热度并未完全消退。因此不妨再总结一下。前几天瀚海狼山（匈奴狼山）已经解释了为何固定发射的弹道导弹有最高的打击精度。根本就在于原始发射点在全球大地坐标系中的精准度生产1艘10万吨级航母的钱，可以造几艘攻击核潜艇？（完整篇）当今的大国海军，要想能力出类拔萃。必须同时装备数量可观的巨型航母和先进的核潜艇才行。这个道理几乎所有大国都懂得。但是实际上让巨型航母和核潜艇同步大规模发展和装备的，却只有2个顶尖大拜登恐怕没想到，深陷下跪风波之际，儿子成自己最大拦路虎如今很多人都认为拜登应该去进行一下治疗，因为他的一些行为太过于奇怪了。根据美媒报道，拜登在前段时间在白宫会面冠军队伍的时候，又在拍照环节展现了自己的才艺下跪，当时哈里斯也在场，虽然