范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

WAIC知乎CTO李大海基于AI的智能社区多模态数据融合研究与实践

  机器之心报道
  机器之心编辑部
  在 WAIC 2021 AI 开发者论坛上,知乎合伙人兼 CTO 李大海发表主题演讲《基于 AI 的智能社区多模态数据融合研究与实践》。在演讲中,他主要介绍了知乎在智能社区时代多模态数据融合中的研究以及实践进展。
  以下为李大海在 WAIC 2021 AI 开发者论坛上的演讲内容,机器之心进行了不改变原意的编辑、整理:
  我今天的主题是基于 AI 的智能社区多模态数据融合应用实践。
  多模态最近很火,刚刚「好未来」的吴总也讲了这个主题。虽然都是多模态,但大家业务场景不同,使用的侧重面不一样。我们更侧重于对比学习利用多模态把视频和文本对齐这个角度上做工作。
  简单说一下「知乎」,知乎是一个以问答为主的在线社区,今年已经是知乎上线的第十个年头,在十年里面,经历了四个阶段,第一个阶段是封闭阶段,封闭运营,运营两年,从 2013 年开始开放,就不断的在拓展讨论的场景和讨论话题,用户规模不断扩大。2018 年知乎提出了智能社区的概念跟战略,通过技术升级把人工智能技术全面应用在内容生产、内容分发、社区治理等领域里面。
  这也是我第二次带参加 AI 开发者大会,去年因为疫情关系,通过直播参与。这两年我们也看到,也是由于疫情和 5G 技术的发展,视频、直播等的形态越来越普及。知乎上也是一样,有越来越多用户,在知乎上通过视频分享自己的知识、经验、见解。在这个过程中我们也认识到视频跟图文有各自的优缺点和适用场景,视频会更直观,图文有非线性的结构,喜欢用户可以快速略过,可以在不同模块之间进行跳动,两个适用场景不一样。
  一、图文多模态预训练
  当知乎决定把视频当成主要的媒介形态时,我们希望通过媒介升级,让它变成知乎内容的重要承载形式。这个是我们的一个认知,进行这样的工作在技术上需要对视频进行智能化。
  从业务和产品上来看,视频在知乎的发展,不是凭空出现的,是从一个个问题和图文回答中逐步涌现出来的,因此,在技术上,我们也不应该从零搭建针对视频的算法体系,那样既不经济,还需要考虑图文和视频两套系统之间的兼容性问题。举个例子,经过这么多年的发展,知乎已经有一个超过 50 万话题的话题树,我们没有必要在视频上放弃这套系统,那样既会增加产品复杂度,也需要考虑两套话题系统的对齐问题。
  在规划视频智能化技术工作的时候,很自然的就考虑以多模态为核心工作,后面逻辑很简单,因为利用多模态的算法对齐能力,能够很快地把知乎过去积攒数据的能力和积攒的各种数据用起来,在工作里面首先做最基本的图文多模态的预训练。
  预训练模型采用的是双流对比学习框架,很像是在推进里面用的双塔模型,左边是图像流,右边是文本流。
  文本流这边会采用成熟的自然语言预训练模型 Bert/Roberta。左边的图像流我们做了较多的尝试。大家看到右侧模型是当前做完尝试以后,在线上发现效果比较好的,是由三部分组成。
  第一部分是用 ResNet 预训练模型去提取图像全局的信息,第二部分是利用 Detectron2 预训练模型去抽取图像的对象检测位置跟边界信息,第三部分是在图像里面进行对象检测以后得到的文本信息。对三个信息进行融合以后,作为图片流的输出;这部分输出与文本流的输出进行比对,将画面中的目标位置、目标类别与文本描述进行对齐,利用知乎上的上亿级图片及图片附加的描述信息作为训练样本,可以实现较好的对图片的理解能力。
  图文的多模态预训练模型在视频领域已经可以有很好的应用了。下面展示产品化其中一个工作,在去年下半年发布了一款图文一键转视频工具,内部也叫做 PPT 视频创作工具,是给我们的图文创作者使用的。知乎上的图文创作者可以利用这样一个工具,快速把自己的文字回答或者文章转化成为一个视频。
  这个转化过程中,主要思路就是把文章里每一段话或者每一个句子通过模型找到相对应的图片或者动图或者一段短视频,通过预训练模型可以把每一段文字跟素材库里面的图片进行相关性计算。相关性高的可以主动拿出来,通过这种方式可以去生成还不错的 PPT 视频。
  同时还有另一个应用,创作者可以主动输入关键词,在素材库里面找到和关键词匹配度最高图片,让它自己主动构建视频素材流。
  二、视频搜索相关性
  完成了这些基础的工作以后,就具备了文本跟图片的对齐能力,可以开始基于能力去构造视频跟文本的对齐功能,形成对齐网络。
  在实际工作中会把视频里面的关键帧抽取出来,通过训练模型对每个关键帧生成表示,通过 Transformer 模型进行转化,转化完以后再用搜索的 query 进行预训练,就可以得到搜索 query 和视频相关性的预测。在线上实际结果,使用模型会比线上的用户搜索满意度提高 1% 的绝对值,效果还是非常显著的。
  三、视频话题匹配与排序
  知乎本身经过这么多年发展,构建了超过 50 万的话题数。除了视频搜索之外,在用户发布一条视频的时候,我们也希望视频能够跟 50 万个话题产生关系,能够自动标注出视频跟哪个话题相关。有了这样一个标注后,对于后续视频的分发,视频的理解以及其他用户可见的产品特性都是非常有帮助的,尤其是基于前面的模型构建视频与话题的匹配度的应用。
  这个应用首先的基础关键帧抽取没有变化,但同时还会利用视频的标题,再去融合到一个 Encoder 中。然后会跟话题进行相关性的计算,这是一个 Ranking 的部分,在 Ranking 之前有 50 万的话题基础,可以说是一个极限多匹配的典型场景。
  在这个场景里面,真实落地会有召回动作。在实操上综合使用多种索引方式去做召回,有 PMI 的索引,有 Embedding 的索引,以及简单的 Lablel Name 的索引。这些索引用的都是视频的标题,在我们的产品里面,视频可以是视频实体,本身就有标题,也可以是视频回答,视频回答本身是跟问题相关的。
  不管怎么样都会有对应文本信息,例如搜索「饭后吃苹果的八大好处」「吃苹果都会有什么好处」,可以通过基本的文本信息,从几十万的话题里面招回几百个话题再进行精排。
  四、后深度学习时代的 AI 应用
  这次的主题是《后深度学习时代的 AI 应用》,其实在对比后深度学习时代和前深度学习时代,可以看到业界、学术界的进展更多聚焦在相对底层的领域,比如学习框架、调参的方法论,模型结构都在不断往前发展。但是到最近一两年,方法论加上数据结合在一起产生的预训练模型,也生产出了大量的计算结果。
  知乎更偏向于利用 AI 技术去开发应用,那么在后深度学习时代 AI 技术怎么用?基于 AI 技术的应用要如何做?这是我们要面临的挑战。
  我们需要用到预训练模型,用到抽象程度更高的,业界公认的最好的训练成果。刚刚展示的我们的产品和工作成果中,大量运用了各种各样的预训练模型。用了预训练模型以后,再针对场景去构建自己的训练样本,并基于目标做微调,这是在知乎内部重点做的工作。
  「在 AI 时代,重要的是前人栽树,后人乘凉。」我们也在思考,用优秀的预训练模型完成自己工作的同时,能为后人带来什么呢?在我今天的分享里面提到的模型都是已经上线,已经产生收益的具体模型,知乎还在不断去构建综合图文、视频还有声音等媒介统一的大型预训练模型,这样预训练模型基于知乎积累的大量图文视频数据会越来越成熟。
  希望当我们工作做的比较成熟的时候,可以把这些模型完全开放出来,提供给学界和工业界更多的开发者朋友们使用。
  当然,在整个知乎视频智能化工作中,光有多模态学习也是不够的,我们还做了很多其他工作,这里我简单介绍下一项技术:语音复刻技术。这项技术是在我们推出的一个图文一键转视频的工具上。通过批量化复刻语音,提高生产效率。
  下面请知乎的吉祥物刘看山来展示一下我们做的语音合成工作,画面是做的动态模拟,声音是复刻我本人的声音。请大家观看。
  视频加载中...

广东严控学生近视,书面作业完成时间要合理12月7日,由省教育厅联合省卫生健康委起草的广东省综合防控儿童青少年近视实施方案(征求意见稿)公布。实施方案提出,将儿童青少年近视防控工作总体近视率和体质健康状况等纳入政府绩效考核广东现在读高一的学生,这是你们的新高考方案最近召开的广东省普通高中学生综合素质评价信息管理平台应用展示活动暨操作使用培训会议确定了广东省新高考方案采用312方案,即三大科(语数英)是必考的,考生必须从物理历史两科里面选一科轻松阅读多校出手,教育部发文!本硕博毕业难度升级多校出手,教育部发文!本硕博毕业难度升级来源本文经授权转载自微信公众号软科(IDzuihaodaxue)微信平台编辑周悦熬到博士,头发稀疏。功亏一篑,直面清退。没有延期毕业的硕士,轻松阅读最有钱的省都在争!这类大学,要崛起了最有钱的省都在争!这类大学,要崛起了新闻来源综合整理自各高校官网网络公开报道等来源微信公众号软科(IDzuihaodaxue)微信平台编辑周悦近日,据深圳商报报道,深圳海洋大学目前CPTPP研究王辉耀申请加入CPTPP,时间在中国一边王辉耀申请加入CPTPP,时间在中国一边作者王辉耀,全球化智库(CCG)主任来源2021年9月22日环球时报第15版中国与全球化智库微信平台编辑周悦商务部部长王文涛近日向全面与进步美国研究阿富汗大溃逃,美国情报失败败在何处阿富汗大溃逃,美国情报失败败在何处来源世界知识2021年第18期世界知识微信平台编辑周悦8月31日,美国完成自阿富汗的全部撤军,撤得极不体面。拜登政府不仅对塔利班攻占阿全境之迅速缺美国研究曾向红从撤军阿富汗看美国中亚政策的调整曾向红从撤军阿富汗看美国中亚政策的调整作者曾向红,兰州大学中亚研究所教授兰州大学政治与国际关系学院副院长来源当代世界2021年第9期当代世界微信平台编辑周悦2021年8月16日,美阿富汗研究闫伟阿富汗塔利班崛起的历史逻辑闫伟阿富汗塔利班崛起的历史逻辑作者闫伟,西北大学中东研究所教授博士生导师来源现代国际关系2021年第8期第一智库微信平台编辑周悦2021年8月,塔利班在美国撤军的背景下,以令人惊愕地缘政治鲁传颖孟晚舟回归或可缓解数字地缘博弈僵局鲁传颖孟晚舟回归或可缓解数字地缘博弈僵局作者鲁传颖,上海国际问题研究院网络空间国际治理研究中心秘书长研究员来源中美聚焦微信平台编辑周悦全球化推动的数字技术发展红利正在被地缘政治博弈联合国安理会通过决议延长联合国在阿富汗行动当地时间9月17日,联合国安理会以15票赞成,全票通过授权联合国延长阿富汗援助团(UNAMA)在阿富汗的行动。决议授权阿富汗援助团继续保护平民协助人道援助确保女性权益等。中国常驻联卫星图像显示喀布尔机场发生两次爆炸在8月31日的最后期限之前,美国一直在从该地区撤离人员。在2021年8月26日拍摄的这张卫星图像中,人群聚集在阿富汗喀布尔哈米德卡尔扎伊国际机场的修道院门附近。周四(8月26日)发
地球生命真的起源于地下深处吗?北京时间5月10日消息,据国外媒体报道,地球上的生命出现于至少35亿年前,但具体的起源地点一直是个未解之谜。传统科学一直认为,生命可能起源于温暖的淡水池塘或海底热泉。但30年前,学美国宇航局将在6月初进行第四次月球火箭加注燃料测试美国宇航局工程师正在解决Artemis1月球探索任务所使用的太空发射系统(SLS)运载火箭遇到的问题,这些问题使SLS运载火箭三次加注燃料的倒计时彩排均失败。美国宇航局的管理人员表天舟四号货运飞船与空间站组合体完成自主快速交会对接据中国载人航天工程办公室消息,天舟四号货运飞船入轨后顺利完成状态设置,于北京时间2022年5月10日8时54分,采用自主快速交会对接模式,成功对接空间站天和核心舱后向端口。据介绍,天文学家在太阳系之外发现了一个巨大的环形系统,里面有一颗恒星天文学家在遥远的星球上取得了令人难以置信的发现。在研究天空时,荷兰莱顿天文台的天文学家发现了一个巨大的环形系统,里面有一颗恒星和一颗行星。直到2012年EricMamajek和Ma詹姆斯韦伯望远镜在首次亮相科学图像之前达到完美对准望远镜的第一张科学图像于7月下降。美国宇航局的斯皮策太空望远镜(左)和新的詹姆斯韦伯太空望远镜(右)看到的大麦哲伦星云项目官员在周一(5月9日)的新闻电话会议上表示,NASA詹姆斯美国航天局前首席科学家人类将在几年内同外星人近距离接触来源海外网美国国家航空航天局拍摄的太阳图片(资料图)海外网5月10日电据英国广播公司9日消息,美国国家航空航天局首席科学家吉姆格林近日在该媒体访谈节目HARDtalk中表示,人类将天舟4号太空快递已安全抵达,为祖国点赞,为航天人点赞2022年5月10日凌晨1点56分,天舟四号于文昌航天发射场发射并取得圆满成功,并在8时54分与空间站天和核心舱成功对接,一切进展顺利。这是我国空间站建设从关键技术验证阶段转入在轨最美80后女宇航员王亚平,从农村姑娘到两入太空,还是北大博士最近,到外太空出差半年的三位航天员成功返回地球的新闻刷爆各大新闻网站,这也是我国航天史上又一大历史性突破,首次实行太空组出差半年任务圆满完成,再一次向世界展现了中国的综合实力之强。马斯克的资本骗局马斯克绝对是美国历史上最大的忽悠专家。他都忽悠到火星上去了,也成功忽悠成了世界首富。第一,马斯克说他最大的梦想是移民火星,他现在所做的都是围绕这个目标去做的。现阶段移民火星应该还是神舟十四号载人飞船将于今年6月发射IT之家5月10日消息,据央视新闻,除了天舟四号货运飞船,接下来中国空间站后续在轨建造任务也有了时间表。6月,神舟十四号载人飞船将发射,3名航天员将进入中国空间站组合体,并在轨驻留如果地球突然停止转动,会给人类带来哪些后果?如果地球突然停止转动,给人类带来的将是灭顶之灾,巨大的惯性将会将地球表面的物体全部都甩飞出去,之后将会引发全球性的地质灾害,甚至会使整个人类文明灭亡。了解天文知识的人都知道地球在不