近日,人民中科中科院自动化所团队联合推出了面向高通量小样本条件下的基于压缩域视频识别新方法,相关成果已被人工智能国际权威学术会议IJCAI2022接受。此方法对昔日人海战术的视频标签,分类,审核是一项重要的技术突破。 随着视频技术、网络技术、5G的发展,尤其是短视频的发展,给传播模式、交流模式、沟通方式带来了根本性的变化。从几岁的小孩到老人都会刷短视频,我们的交流模式、传播模式越来越视频化。 内容无处不在,内容安全隐患就无处不在。伴随着视频的崛起、视频流量的快速增长,内容安全问题成为了视频网站头上挥之不去的阴影。用户每天都会观看、上传和分享海量的视频〔5〕〔6〕,随着平台用户基数不断扩大,视频内容的迸裂式暴增,审核不严带来的问题也日益凸显。 视频分类和识别在视频监控与检索、网络直播、推荐系统等行业中有着广泛的应用,是深度学习在视频分析领域中最底层的问题之一。基于先进的人工智能技术,精准识别各类视频场景中涉政、色情、暴恐、垃圾广告、Logo水印等违规内容,可以提前防御内容风险,提高审核效率,净化网络环境,提升用户体验。 然而,传统的视频识别方法面临两大挑战:一是处理效率低,对海量视频的计算成本高;二是当类别定义发生变化时需要收集大量数据重新训练,难以根据少量样本快速适应新类别。 针对这些问题,人民中科与中科院自动化所国家模式识别实验室的研究团队提出了一种基于压缩域的小样本视频识别新方法。 图1互联网上有海量的视频数据,且总量每天都在快速增长 一hr背景知识 研究团队要解决的第一个问题是海量互联网压缩视频的处理。为了节省空间和带宽,互联网视频几乎总是以压缩视频的形式存在。常见的压缩算法比如MPEG〔3〕和H。264〔4〕都以运动预测技术进行视频压缩编码。 视频的相邻几帧之间往往比较相似,如图2所示,压缩算法利用这一特点把视频划分为一系列图像群组(GOP),每个GOP内只保存第一帧(称为I帧)的RGB图像,同时记录后续的帧(称为P帧)相对于I帧的运动向量(MV)和残差。 MV描述P帧的像素块相对I帧最相似像素块的位移,残差则是这两个像素块的色彩差别。通过I帧、MV和残差就能完整恢复P帧RGB图像,这个过程称为全解码,I帧、MV和残差统称为压缩域信息。 图2一个图像群组(GOP)的示意图 传统视频识别方法需要完整解码I帧和P帧的RGB图像作为输入,研究团队此次提出的方法则只需要解码I帧、MV和残差作为输入,无需全解码,这个过程称为半解码。在很多应用中,视频编解码都是最耗时的部分,而在视频编解码过程中运动预测补偿耗时占比可达6080〔1〕。 相比全解码,半解码不需要运动补偿,因此能大大节省视频处理时间。然而半解码会得到多个模态的数据,需要在后续处理流水线中进行信息融合。 研究团队要解决的第二个问题是小样本视频分类。传统视频分类方法要求训练数据和测试数据具有相同的类别,如果类别发生改变则需要重新进行训练,而训练时需要大量数据。 在实际应用中,类别定义可能是动态的,并且每个类别能提供的示例很有限。当需求发生变化时,需要根据少量示例样本快速适应新需求,这一问题可以抽象为少样本分类问题:每类给出少量示例样本(称为支撑样本),对未知类别样本(称为查询样本)进行分类。 二hr方法介绍 图3整体框架图 方法的总体框架如图3所示。第一部分是压缩域信息的提取。与传统方法不同,通过半解码从视频封装文件中取出I帧、MV和残差后,可以利用MV与运动的相关性,筛选最优最强运动的帧。在进一步输入网络之前,需要从I帧到被选取帧对MV和残差进行累积和对齐,获得更显著的特征,建立当前帧MV、残差与I帧像素的直接空间对应关系,得到如图4所示压缩域信息。 图4压缩域信息示意图 随后将提取的压缩域信息输入骨干网络进行融合、提取压缩域特征。以I帧和MV为例,分别采用分级结构的卷积网络(如ResNet50与ResNet18〔2〕)提取特征,在每一级之间对I帧和MV特征进行融合交互。由于I帧和MV在同一GOP内具有最强的相关性,这样的交互仅发生在属于同一GOP的帧之间。 图5小样本分类模块示意图 最后,根据压缩域特征进行小样本分类。为了进行小样本分类,需要计算查询视频与支撑视频之间的距离度量,判断查询视频与哪类支撑视频最接近。首先通过视频内部自注意力对视频的特征进行长时融合。用查询视频的各帧对支撑视频的各帧计算自注意力,为每个支撑视频类别构造一个原型(prototype)作为这类支撑视频的代理,最后计算查询视频到这些原型的欧式距离,根据最近邻原则进行分类。 三hr实验结果 上述方法设计了一套包含两个骨干网络以及一系列注意力机制的架构,比传统的单流RGB网络架构更复杂。但是,由于视频中表观信息存在很大的冗余性,连续数帧在外表上往往变化不大,因此可以通过输入少量I帧和较多的MV、残差,并对I帧使用大网络、对MV、残差使用小网络,实现计算量的减少。由于运动和变形信息能被中间帧的运动向量和残差捕捉,这一设置并不会带来精度的显著损失,并且在相同算力限制下可以堆叠更多的结构、取得更好的效果。 表1为多个数据集、多种支撑样本数量设置下的分类精度,可以看到研究团队提出的方法通过实验验证达到了当前最好的性能。 表1不同数据集、不同支撑样本数量设置下的分类精度 表2将压缩域信息与光流进行对比,将MV替换为光流后,性能出现下降,而且处理时间有数量级的增加,这一方面说明了压缩域信息的高效性,另一方面则说明针对压缩域信息特有GOP结构所提出的方法与传统双流网络结构是不同的,传统双流方法中的光流并不适应所提出的结构。 表2将MV替换为光流后的处理时间和分类精度 四hr总结 研究团队提出了一种针对海量压缩视频的小样本分类方法,利用压缩域信息的高效性,针对压缩视频特有结构设计网络架构,取得了当前最好的小样本视频分类性能。与传统RGB信息相比,压缩域信息解码速度快,包含直接的运动预测信息,既能加快前端视频处理速度,也能降低中端网络计算量、在有限的算力下容许更多的结构,还能辅助后端分类,提高分类精度。 该成果目前也正逐步应用于人民中科跨模态搜索引擎白泽中,将极大地提高白泽对海量视频数据的识别效率,以及提升其对小样本视频的识别性能。网络信息化时代,内容安全至关重要。面对海量的非结构化内容,人海战术早已无能为力,白泽让我们看到了一条内容智能治理的康庄大道。 相关成果发表于: W。Luo,Y。Liu,B。Li,W。Hu,Y。Miao,andY。Li,LongShortTermCrossTransformerinCompressedDomainforFewShotVideoClassification,InInternationalJointConferenceonArtificialIntelligence,2022。 参考文献: 1。Li,Yufeng,JufeiXiao,andWeiWu。MotionEstimationBasedonH。264VideoCoding。In20125thInternationalCongressonImageandSignalProcessing,pp。104108。IEEE,2012。 2。He,Kaiming,XiangyuZhang,ShaoqingRen,andJianSun。DeepResidualLearningforImageRecognition。InProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition,pp。770778。2016。 3。LeGall,Didier。MPEG:AVideoCompressionStandardforMultimediaApplications。CommunicationsoftheACM34,no。4(1991):4658。 4。Wiegand,Thomas,GaryJ。Sullivan,GisleBjontegaard,andAjayLuthra。OverviewoftheH。264AVCVideoCodingStandard。IEEETransactionsonCircuitsandSystemsforVideoTechnology13,no。7(2003):560576。 5。Geyser,Werner。TiktokStatistics63TiktokStatsYouNeedtoKnow〔2022Update〕。InfluencerMarketingHub,March31,2022。https:influencermarketinghub。comtiktokstats。 6。YouTubeforPress。blog。youtube。AccessedMay25,2022。https:blog。youtubepress。 关于人民中科 人民中科智能技术有限公司,是人民网与中科院自动化所共同发起设立的人工智能技术引擎和科技成果转化平台,拥有世界领先的内容理解技术,核心产品是跨模态智能搜索引擎白泽,初始应用场景是数字世界的安全,目标是成为全球内容科技领导企业。