革命性的人工智能系统会学习视频音频和文本中的共享概念
人类通过不同模式的组合来观察世界,如视觉、听觉和我们对语言的理解。另一方面,机器则通过算法可以处理的数据来解释世界。因此,当机器"看到"一张照片时,它必须将照片编码为它可以用来执行图像分类等任务的数据。当输入有多种格式,如视频、音频片段和图像时,这个过程变得更加复杂。
"这里的主要挑战是,机器如何能将这些不同的模式对齐?作为人类,这对我们来说很容易。我们看到一辆汽车,然后听到汽车驶过的声音,我们知道这些是同一件事。但是对于机器学习来说,这就不是那么简单了。"计算机科学与人工智能实验室(CSAIL)的研究生、解决这一问题的论文的第一作者Alexander Liu说。
Liu和他的合作者开发了一种人工智能技术,可以学习以一种捕捉视觉和听觉模式之间共享的概念的方式来表示数据。例如,他们的方法可以学习到视频中婴儿哭泣的动作与音频片段中的口语单词"哭泣"有关。
利用这些知识,他们的机器学习模型可以识别视频中某个动作发生的位置,并对其进行标注。
它在跨模式检索任务方面比其他机器学习方法表现得更好,跨模式检索任务涉及寻找一段数据,如视频,与用户以另一种形式(如口头语言)给出的查询相匹配。他们的模型也使用户更容易看到为什么机器认为它检索的视频与他们的查询相匹配。
这项技术有朝一日可以被用来帮助机器人通过感知来学习世界上的概念,更像人类的方式。
与Liu一起撰写论文的还有CSAIL的博士后SouYoung Jin;研究生Cheng-I Jeff Lai和Andrew Rouditchenko;CSAIL的高级研究科学家和麻省理工学院-IBM Watson人工智能实验室主任Aude Oliva;以及高级作者James Glass,CSAIL的高级研究科学家和口语系统组负责人。这项研究将在计算语言学协会的年会上发表。
学习表征
研究人员将工作重点放在表征学习上,这是机器学习的一种形式,旨在转换输入数据,使其更容易执行分类或预测等任务。
表征学习模型采用原始数据,如视频及其相应的文字说明,并通过提取特征,或对视频中的物体和行动的观察对它们进行编码。然后,它将这些数据点映射到一个网格中,即所谓的嵌入空间。该模型将类似的数据作为网格中的单个点聚在一起。这些数据点中的每一个,或称向量,都由一个单独的词来表示。
例如,一个人玩杂耍的视频片段可能被映射到一个标有"杂耍"的向量。
研究人员对该模型进行了限制,使其只能使用1000个词来标记向量。该模型可以决定它想把哪些动作或概念编码到一个矢量中,但它只能使用1000个矢量。模型会选择它认为最能代表数据的词。
他们的方法不是将来自不同模式的数据编码到不同的网格上,而是采用了一个共享的嵌入空间,在这个空间里,两种模式可以一起编码。这使该模型能够学习两种模式的表征之间的关系,比如显示一个人在玩杂耍的视频和一个人说"杂耍"的音频记录。
为了帮助系统处理来自多种模式的数据,他们设计了一种算法,引导机器将类似的概念编码到同一个向量中。"如果有一个关于猪的视频,模型可能会把"猪"这个词分配到1000个向量中的一个。然后,如果模型听到有人在音频片段中说"猪"这个词,它应该仍然使用同一个向量来编码,"Liu解释说。
更好的检索器
他们使用三个数据集对该模型进行了跨模式检索任务的测试:一个包含视频片段和文字说明的视频-文本数据集,一个包含视频片段和语音说明的视频-音频数据集,以及一个包含图像和语音说明的图像-音频数据集。
例如,在视频-音频数据集中,该模型选择了1000个词来代表视频中的动作。然后,当研究人员向其提供音频查询时,该模型试图找到与这些口语最匹配的片段。
"就像Google搜索一样,你输入一些文字,机器就会试图告诉你你正在搜索的最相关的东西。只不过我们是在矢量空间里做这个工作,"Liu说。
他们的技术不仅比他们所比较的模型更有可能找到更好的匹配,而且也更容易理解。
因为该模型只能使用总共1000个词来标记向量,用户可以更容易地看到机器用哪些词来得出视频和口语相似的结论。Liu说,这可能使该模型更容易应用于现实世界的情况,在这种情况下,用户理解它是如何做出决定的,这一点至关重要。
该模型仍有一些局限性,他们希望在未来的工作中加以解决。Liu说,首先,他们的研究集中在一次来自两种模式的数据,但在现实世界中,人类同时遇到许多数据模式。
"而且我们知道1000个字在这种数据集上是有效的,但我们不知道它是否可以被推广到现实世界的问题上,"他补充说。
此外,他们的数据集中的图像和视频包含简单的物体或直接的动作;现实世界的数据要混乱得多。他们还想确定他们的方法在有更广泛的输入多样性的情况下的扩展性如何。
家族信托合纵圈渠道本报记者樊红敏北京报道家族信托业务拓展,正在从得客户者得天下转向得渠道者得天下。导致上述布局的核心逻辑在于,当前留给信托公司的转型之路只有一条回归本源,而回归本源,就意味着要做与受
彩电大王黄宏生的跨界造车梦本报记者郭阳琛张家振上海报道随着小米华为恒大和富士康等不同领域的龙头企业先后入局,跨界造车俨然已成为国内汽车行业中的一股潮流。从在江苏省南京市创立开沃新能源汽车集团股份有限公司(以
坚实业绩是股市定心丸近段时间,受外围市场等因素影响,A股出现波动,上市公司接连出手护盘,有的选择增持股票,有的终止减持计划。据不完全统计,9月以来,近30家上市公司重要股东宣布提前终止减持计划,其中还
通胀和物价上涨让美国人勒紧腰包重新考虑旅行计划中新网10月8日电据纽约邮报报道,财务咨询公司Bankrate最新调查显示,由于通货膨胀和物价上涨,79的受访者准备调整假日旅游计划,选择在感恩节圣诞节或新年旅行中减少或缩短假期。
中车金租拟引战增资年内多家金租公司股权拟变更中国网财经10月8日讯(记者鹿凯)上月末,中车金租拟通过引入新投资者完成增资。截至9月底,今年已有6家金融租赁公司传出股权变更消息。9月末,北京产权交易所披露,中车金租拟引入新投资
财政部18月全国发行地方政府债券60474亿元财政部网站10月8日消息,财政部公布2022年8月地方政府债券发行和债务余额情况。一全国地方政府债券发行情况(一)当月发行情况。2022年8月,全国发行新增债券642亿元,其中一般
美国楼市退烧拖累经济表现新华社记者刘亚南美国最新行业数据显示,随着美联储激进加息推升房屋贷款利率,美国月度房屋价格水平出现连续下跌,持续2年多的房地产市场高烧显著降温。市场人士认为,美国房地产行业正成为美
中国地级市GDP十强揭晓!浙江仅入围1个,河北福建实力突出2022年第一季度的时候,中国地级市GDP十强有个惊人的现象,那就是江苏占到了一半。此外,我国GDP总量靠前的地级市,基本都是位于了东部沿海地区。来到今年第二季度,中国地级市最新的
会否成为下一个雷曼兄弟?危急时刻下瑞信宣布30亿瑞郎回购计划记者陈靖近日,瑞信是否会破产,是否将成为下一个雷曼兄弟正成为市场关注焦点,与之对应的是,瑞信股价连日遭遇重挫,创下历史新低。10月7日,瑞信宣布,将以大约30亿瑞郎的现金回购部分运
田惠宇被双开大搞权力与资本勾连,靠金融吃金融来源政知圈撰文高语阳十一假期结束后第一天,中央纪委打虎。10月8日,招商银行股份有限公司原党委书记行长田惠宇严重违纪违法被开除党籍和公职。田惠宇于今年4月22日落马。长期在银行系统
日本外汇储备减少创纪录的540亿美元日本的外汇储备减少了创纪录的540亿美元,至1。24万亿美元日本的外汇储备在9月份创纪录地下降,中国的外汇储备跌至接近3万亿美元,因为美元飙升打击了世界上两个最重要的央行资产池。日