范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

再次刷新单模型纪录!快手登顶多模态理解权威榜单VCR

  机器之心报道
  编辑:蛋酱
  多模态理解领域的权威排行榜纪录,又被来自国内的技术团队刷新了。
  近日,多模态理解领域国际权威榜单 VCR(视觉常识推理,Visual Commonsense Reasoning)刷新了排名,来自国内短视频平台快手研究团队MMU(Multimedia understanding)自研的 VLUA 多模态模型以两个单项成绩「82.3、87.0」和总成绩「72.0」的分数登上榜首。
  快手自研 VLUA 多模态模型登顶 VCR 榜单。
  近年来,多模态理解技术在视频内容社区、电商等领域有着广泛的应用场景,VCR 榜单由华盛顿大学等研究机构于 2018 年发起,基于大规模图文多模态数据集,旨在将图像和自然语言理解二者结合,验证多模态模型高阶认知和常识推理的能力,让机器拥有「看图说话」的能力,是多模态理解领域最权威的排行榜之一。
  VCR 任务设置了问答 (question answering) 和解释 (rationale) 两个子任务。具体而言,在问答任务中,给定一张图片,计算机要回答一个用自然语言描述的和图片相关的问题;在解释任务中,计算机将在给出答案的基础上,给出为什么选择这个答案的原因。
  比如在上图示例中,第一轮需要选出「person 4 为什么指着 person 1」的答案,第二轮则需要解释选择的理由。
  一直以来,国内外众多企业和学术机构都围绕这一领域开展了深入的研究工作。因此,榜单自发布起成绩不断被刷新,来自百度、腾讯、英特尔、卡内基梅隆大学、加州大学伯克利分校等企业和研究机构都在围绕榜单做技术探索。
  如图所示,分别为机器眼中的世界、人眼中的世界,以及通过 VLUA 后机器眼中世界的变化。
  快手自研 VLUA,有何过人之处?
  快手团队自主研发的 VLUA(Vision and Language Understanding via a Unified Architecture)多模态算法模型采用单流的 transformer 结构,针对视觉特征和文本特征输入的多样性,设计了统一的多模态特征处理模块,构建了图像背景和前景的信息互补策略,支持局部、全局、浅层、高层等各个维度的特征抽取。
  相比目前主流的多模态算法模型,VLUA 设计了自适应的预训练任务范式单元,不仅能够支持多模态混合训练,也能够支持单模态的独立训练。预训练任务上包含文本预训练任务、视觉预训练任务及跨模态对比学习,VLUA 改进了模型的训练流程,通过隐性地引入代表图像全局的抽象信息以及多任务学习,使得模型可以从不同视角学习数据的特征,从而避免模型陷入局部最优解和过拟合。在训练方式上,VLUA 使用了噪声对抗学习,进一步提高了模型的鲁棒性。
  快手研究团队将基于大规模图文多模态和单模态数据训练得到的 VLUA 预训练模型在 VCR 数据集上进行迁移学习。现有的 VCR 方法均使用 BUTD 算法提取的前景特征作为视觉特征,除了前景信息,快手的研究者们认为背景信息对于理解图片内容也具有至关重要的作用。在实践中,VLUA 使用网格特征对图片的整体信息进行提取,让模型可以更好地理解图片内容。
  VLUA 通过统一化的输入特征及模型架构设计,不仅能够支持视觉、文本模态的融合,也支持音频、用户行为等更多跨域的模态特征融合。除了能够应用在视觉常识推理的任务上,VLUA 在视觉问答,跨模态检索、caption 生成等任务上都能够快速的迁移及获得效果的提升,最终以「82.3,87.0,72.0」的成绩登顶 VCR 榜单。
  世界纪录背后,是一支什么样的队伍?
  VLUA 来自快手的 MMU(Multimedia understanding)团队。作为国民级的短视频社区平台,快手每天有海量的短视频上传、直播开播,MMU 是快手的核心的 AI 技术团队,使命是通过多模态内容理解技术,让机器像人类一样理解视频内容及用户生产的各种内容,理解内容后会应用在搜索、推荐、广告、垂类运营、生态分析、内容安全等多个场景。
  面向快手生态下内容的规模庞大、多模态、高实时性、形式丰富等多种特点,MMU 在多个技术领域广泛布局,比如视觉方向,在视频、直播、图像的分析和理解、视觉检索、视频生成等技术上有成熟应用和投入;音频方向,在语音识别 & 合成、音乐理解与生成、音频前端与分类等技术上达到行业先进水平,同时也有知识图谱、NLP、智能创作、内容商业价值理解等多种能力,为实现跨模态内容理解奠定坚实基础。
  目前,VLUA 已应用于快手视频审核、推荐、搜索、创作等多个业务场景,能够根据应用场景的不同灵活的产出子模型及不同维度的多模态特征。 在视频审核业务中,基于 VLUA 产出的视频内容质量理解模型将视频内容质量进行分层,精确的识别了劣质视频和优质视频,极大了提升了视频审核的效率和社区内优质内容的供给; 在视频推荐业务中,以冷启动场景为例,基于 VLUA 产出的多模态内容理解特征,大幅提升了冷启动的效率,帮助更多的优质内容及优质作者在社区内获得更好的成长; 在视频搜索场景,通过 VLUA 提供的视觉文本对齐的多模态特征,大幅提升了搜索召回的相关性; 在视频创作方面,通过 VLUA 对视频多模态信息实现高层次的理解,为智能创作过程提供更加精准的素材检索能力,提升生成内容的流畅性及可读性。例如在直播场景,定位直播中的精彩片段,混剪形成有趣、高密度的短视频;在商业化场景,通过分析广告主广告素材或者挖掘站内优质素材,混剪形成新的创意广告,丰富广告数量。
  据统计,MMU 团队有数百名算法工程师,博士占比 15%,硕士及以上占比 95%,拥有人工智能领域专利 394 件,每年发表论文数十篇。
  如果你也希望和这些业内顶尖的技术人才共事,并且向往简单、开放、追求卓越的技术氛围,欢迎加入快手MMU团队,成为人工智能领域的探索者和先行者。
  招聘邮箱:zhangyelingmei@kuaishou.com

传感器技术的突破为绘制地下世界地图铺平道路利用量子技术找到一个隐藏在地下的物体这是一个期待已久的里程碑,对工业人类知识和国家安全具有深远的影响。英国国家量子技术中心的伯明翰大学研究人员在自然上报告了他们的成就。这是世界上第MaxSys900激光气体分析仪的工作原理MaxSys900激光气体分析仪是一种使用了单行分子吸收光谱的气体分析仪。一个激光二极管发出一束接近红外激光,它被传送通过过程气体并被一个接收器单元检测到。激光二极管发出的激光波长时间是什么?时间如何在宇宙运作?宇宙中的一切都在发生变化,时间是少数拥有规律,而且难以改变的事物之一。时间具有稳定向前发展的特性,因此时间可以帮助我们探索过去体验现在预测未来,时间的本质非常复杂,但是时间的作用非春天来了新的证据表明当恐龙杀手小行星撞击时结束恐龙统治的希克苏鲁伯小行星是地球历史上最重大的撞击灾难之一,科学家们现在已经确定了这一致命事件发生的时间。新的证据表明,小行星在北半球的春季撞击,而对于南半球的撞击,这将是秋季熵增与时间地球也是个熵增的整体,动物的意识也是熵增过程中化学反应的宏观体现。想象一下,冰山河流湖泊海洋连成一线。冰山是太阳,河流类似光子的能量传输,湖泊是能量的蓄水池,逆熵过程就类比河流在某乘坐哈雷彗星直播太阳系(附哈雷彗星所有出现时间)乘哈雷彗星旅游太阳系华夏2060年新闻联播我国科学家制造的天宇1号飞船将于近期接近哈雷彗星,并择机释放瓜瓜探测器登陆彗星表面。该探测器是我国著名科学家北极狼先生呕心沥血研制的,可以科学研究的世界是越来越明朗了吗?并不是,无止境的科学等着我们对于科学素养稍有认识的朋友都知道,我们现代的科学技术越来越发达,我们所探索的领域也越来越广阔。在宏观领域,人类正在探寻我们可观测宇宙的边缘,宇宙尺度的空间成为研究的目标,甚至多宇宙原子内部99都是真空的?里面到底隐藏了哪些秘密?世界之大,无奇不有,在我们所认知的世界中,隐藏着很多我们不知道的秘密,曾经人类以为地球就是唯一的世界,但是随着人类科技的进步,现在人类知道了地球并不是唯一的世界,在地球的外面还有宇100万年后的人类多强大?科学家拟出草图,人类不再惧怕死亡综述我们的地球有着46亿年的历史,但是人类只在这个蓝色的星球上生存了几十万年,这个跨度差是相当大的,但是就是在这几十万年里,人类从饮毛茹血的原始动物逐渐进化成了一个有着相当实力的文这个奇怪倾斜的黑洞可能会颠覆我们对它们如何形成的理解黑洞可以成为整个宇宙中最迷人的现象的有力证明,科学家们不断发现更多关于它们工作和行为方式的信息包括它们最初是如何产生的。现在,一项对距地球约10,000光年的异常错位的新研究提供了影响世界科学的10个顶级物理学家,中国只占1位人类是地球上最有智慧的生命,人类从诞生以后就开始探索世界的奥秘,经过几千年的探索,人类终于对宇宙有了大概的认识,不过这一切都离不开伟大的科学家,在人类历史上,有很多伟大的科学家,他
火星探测开启新征程来源人民网人民日报海外版荧惑(中国对火星的古称)已至,求索无疆。5月15日,中国首次火星探测任务天问一号着陆巡视器安全到站,着陆乌托邦平原,红色火星第一次留下了中国印迹。从2020深埋地下的对撞机怎样洞悉微观世界的秘密5和3分别对应于科学结论发现了新现象和找到了新现象存在的迹象,是科学家们宣告新发现的重要依据。对于基础性的重大发现,科学界极为严谨严苛,不光要求实验发现的统计显著度达到5,还要能经伽马射线暴你了解吗?它的威力有多大伽马射线暴是阻止宇宙生命进化成高级物种的头号杀手,他在几分钟内释放的能量相当于太阳上半亿年发出的光的能量总和,这是宇宙中真实存在的现象,并且真真切切地跟地球上所有生命生死存亡相关。在火星上探测到的生命实际上可能源自NASA实验室据一位常青藤盟校的科学家称,美国宇航局可能已经用生命污染了火星。在这颗红色星球上发现的生命可能起源于美国宇航局的实验室,克里斯托弗梅森说。他在BBC的一篇文章中写道,当微生物到达一ArtemisI月球任务进入火箭发射准备阶段据外媒报道,ArtemisI绕月飞行任务的碎片正在堆砌。巨大的空间发射系统(SLS)火箭将展开猎户座(Orion)飞船的首次无人测试飞行,其由EuropeanServiceModu中国航天飞发展驶入快车道,今明两年11连发日前航天科技集团五院载人航天工程空间站系统总设计师天和核心舱责任总设计师杨宏表示中国空间站工程在今明两年将接续实施11次飞行任务,包括3次空间站舱段发射4次货运飞船发射以及4次载人火星,你好!我们探测器刚到,但我们人类的艺术已经遍布全宇宙火星,你好!中国探测器祝融号于北京时间5月15日早8时20分,确认成功登陆火星。标志着中国探索宇宙的一个新阶段。未来即将到来,人类终将走向世界走向宇宙走向未来。在未来的探索上,艺术天问着陆,科技腾飞15日,祝融号探测器成功着陆于火星乌托邦平原南,我国首次火星探测任务取得圆满成功。请允许我科普一下祝融号登陆火星的难点,以窥视其科技含量。火星着陆是行星探索失败率最高的,目前美国成量子信鸽预携带纠缠量子实现超光速通信,火星探测实时控制前几天中国火星探测器祝融号经过长途跋涉,抵达火星表面。探测器分离降落火星地表时,改用探测器程序自我判断降落。为什么不能直接操控呢,火星与地球通信光速仍然需要4分钟,根本无法从地球判你知道吗,人类探测火星从上世纪六十年代就开始了?中国首次!天问一号成功降落火星一篇了解天问一号的前世今生和历史使命1。为什么要探测火星呢?在太阳系的八大行星中,火星与地球距离较近。在很多方面,火星与地球都有相似的特点。火星跟地球百年未有大变局,千载重现道德经15大家好,我是无心真人,这一节我们继续上一个话题,宇宙大爆炸产生了几十种基本粒子,而且量子力学建立的物理标准模型,预言了62种基本粒子。也证实了这一说法。到目前为止,科学家们已经发现