范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

CoText对比表征学习实现实时端到端视频文本识别

  本篇论文收录于eccv2022
  论文题目:Real-time End-to-End Video Text Spotter with Contrastive Representation Learning
  论文地址:
  https://arxiv.org/abs/2207.08417
  摘要
  视频文本识别(VTS)是一项需要同时实时检测、跟踪和识别视频中的文本。视频和文本识别方法通常会有复杂的pipeline以及多个模型,这对于实时应用来说不友好。本文提出了一种具有对比功能的表示学习(CoText)实现 实时端到端视频文本识别。贡献有三方面:1)CoText同时处理三个任务(检测、跟踪、识别)。2)在对比学习中,建模了文本 长期依赖关系和跨多个帧学习时间信息。3) 简单、轻便结构设计,包括GPU并行检测和后处理、基于CTC的识别具有掩码RoI的识别头。大量实验表明,该方法具有优越性和可靠性。CoText实现了视频文本的定位任务在视频 数据集ICDAR2015上实现41.0 FPS,ID F1为72.0%,和以前的最佳方法相比提升 分别为10.5%和32.0%。
  1 导言
  视频文本识别是许多计算机视觉应用中的一项基本任务,如视频检索、视频字幕和视觉问答。尽管该任务最近取得了巨大进展,现有方法仍有一些局限性。首先,视频文本识别任务要求在视频中 同时检测、跟踪和识别文本。但大多数现有的工作将这三个子任务作为单独的任务来处理。例如TransVTSpotter处理文本检测任务的每个帧,然后将类似的文本实例在相邻帧中 通过IoU匹配,最后,使用单独的识别模型重新识别每个文本,复杂pipeline设计导致推理速度慢,妨碍实时应用的部署,其次,大多数现有方法仅处理相邻帧的时序信息,不利于长时间的跟踪。
  因此,如何设计简单而有效的端到端视频文本识别框架是一个尚未解决的巨大挑战。最近,基于对比学习的研究显示了对比学习解决视频和文本跟踪任务 问题的潜力,但这些工作只关注在没有长距离时间信息的相邻帧中 解决跟踪问题,本文中,提出了一种具有对比表示学习的视频文本识别器(Cotext),它在实时端到端可训练框架中 处理三个子任务(检测、跟踪和识别)。
  与现有视频文本识别方法相比 ,提出的方法具有三个优点。首先,如图1所示,与前面使用复杂pipeline的方法不同使用的pipeline相当简单(三个子任务只有一个统一模型),没有许多冗余组件,即NMS、CNN特征提取器用于识别任务。CoText支持端到端的可训练视频文本识别,有三个头,即检测头、跟踪头和识别头;第二,与以前使用两帧信息的工作不同,CoText 建模长期依赖关系,并跨多帧 对比学习(超过10帧)。明确地对比学习用于最大限度地提高相同文本之间的一致性,并最大化不同文本之间的差异(负样本对)在整个视频的长距离中;最后,为了实现高效率,设计了一种简单、轻量级的架构,以实现有效和准确的性能,一种用于像素聚合的GPU并行后处理,一种轻量级识别具有掩码RoI和少量计算的跟踪头(对比学习)用于CoText 。
  为了证明CoText的有效性,在三个任务(即文本检测、跟踪和端到端视频文字识别)的四个具有挑战性的基准数据集进行了实验。在ICDAR2015(视频)数据集上,CoText的端到端文本定位IDF1达到72.0%,比先前的SOTA方法TransVTSpotter推理速度快了4倍,对于输入图像的短边 640像素,CoText达到59.5fps,比最好的快50.5fps,在端到端视频文本识别IDF1为67.6%,高于先前的SOTA方法。
  主要贡献总结如下。
  1) 第一次端到端可训练框架 同时处理三个子任务(文本检测、跟踪、识别)
  2) 与现有的工作不同,CoText模型具有长期依赖性以及跨多帧(多于10个帧)对比学习 学习时间信息。
  3) 通过简单、轻量级的架构,CoText在四个公共数据集上以更快的速度实现了最先进的性能。特别是在ICDAR2015视频文本跟踪任务 上实现72.0%的IDF1和41 FPS,与以前的SOTA方法相比,性能提高了10.5%。
  2 相关工作
  2.1文本检测和跟踪
  基于深度学习的最新方法带来文本检测的巨大进步。CTPN采用fasterRCNN和修改的RPN来检测水平文本,EAST用FCN以anchor-free方式预测文本得分图、距离图和角度图,PSENet和PAN将文本实例视为具有不同尺度的核,并在后处理中重构整个文本实例,基于视频的文本检测方法侧重于具有时间信息的有效视频文本检测,Free和YORO通过选择来自文本流的最高质量文本实现 视频文本检测,SAVTD通过引入了字符中心分割和分类分支 方式检测视频文本。
  现有的文本跟踪方法遵循匹配跟踪,首先检测视频中的每个帧,然后将通过各种匹配策略(IoU、转录)实现相似文本关联,ASGD引入了一个新的字符中心分割分支,并提取了语义特征,对字符的类别和位置进行编码,SVRep利用识别的语义序列特征跟踪文本,这些方法被设计用于单独解决视频文本跟踪问题,通常没有文本识别结果,它们的推理速度很慢,无法实时应用程序。本文的方法不仅提高了文本跟踪识别性能 ,还集成了识别模块,提出的框架用于构建视频文本识别的统一模型。
  2.2 端到端视频文本识别
  视频文本识别需要同时检测识别文本。如图1所示,典型的基于场景和文本的深度学习方法,TransVTSpotter介绍了一种基于转换器的文本跟踪器,它通过基于IoU的最佳匹配来关联文本,然后用另一个单独的识别模型识别最终文本内容,上述方法包括多个模型和组件(例如NMS、匹配策略),与这些方法不同,如图1所示,提出的CoText是第一个具有统一可训练模型的实时端到端视频文本识别框架,该框架提供了一个非常简单的pipeline。
  2.3 对比学习
  长期以来,对比学习一直是针对视觉的研究任务。这些方法通过增加负样本对距离和压缩正样本对距离来学习视觉表示,SimCLR学习合成数据增强后对比图像 特征,MoCo是另一种训练前的方法,重点是构建动态字典,以促进对比学习,对于视频文本跟踪任务,SVRep和ASGD采用对比学习,通过最大化视频中相同文本之间的一致性 来关联文本实例,在这项工作中,我们首先尝试使用对比学习对视频序列中的长距离相关性进行建模来 解决端到端视频文本识别任务。
  3 本文方法
  3.1 总体架构
  与之前的工作不同,CoText是一种端到端可训练的视频文本识别任务框架。整个pipeline如图2,该架构包括一个主干(即ResNet18)、FPN,上采样、掩码roi和三个头,即检测头、跟踪头,识别头。FPN、上采样和roi分别来自DB、PAN++,在推理阶段,对于一个视频序列,每个帧图像首先送到特征金字塔主干(ResNet18)和FPN,然后上采样到相同比例并级联以产生特征F,其大小为H/4×W/4×512。对于文本检测,特征F通过GPU并行输入检测头用于预测文本区域。
  在文本识别中,首先将特征图F的通道数减少为128,通过3×3卷积,然后使用掩码RoI提取带有旋转文本框 特征,最后,轻量级识别head用于识别每个文本块的文本内容,对于文本跟踪,首先从识别头获取语义特征,从掩码RoI的特征块提取特征,提取检测框坐标中的位置特征,三个特征的大小相同128,将它们合并以获得最终的特征表示R,然后最终的跟踪结果可以通过对相邻帧中每个文本对的特征R 使用Kuhn-Munkres(KM)算法得到,结合这三个头,CoText可以同时预测多方向框、跟踪id和识别结果形成一个统一模型,在训练期间,使用三个损失函数(即Ldet、Lrec和Ltrack)进行优化,使用Ltrack 学习远程时序信息,使用对比学习来最大化相同文本之间的一致性。
  3.2 文本检测
  根据基于分割的方法,kernel representation用于检测文本。对于每个给定的文本行,首先通过文本定位它内核(文本行的中心区域),然后,像素聚合(PA)算法通过以下方式重建文本行的完整形状:聚合文本内核周围的文本像素,与原始像素聚合不同,我们提出了一种GPU并行像素聚合,它在保持相同性能的同时,提供了更快的推断速度,算法1总结了GPU并行像素聚合算法的细节,提出的GPU并行象素聚合主要有两个区别和改进:1)GPU加速连接组件标记(CCL),用于区分不同的文本核;2) 与原始像素不同具有低效像素队列搜索(CPU操作)的聚合算法,提出的PA算法采用单指令多数据(SIMD)执行像素聚合,是一种多线程并行计算。
  3.3 文本跟踪与对比学习
  现有的视频文本跟踪器主要关注没有长距离时间信息的相邻帧 内容的文本匹配问题。与这些方法不同,作者建议对跨多个帧的长期相关性进行建模,给定的文本实例ti它们属于跟踪序列Tm,Tm包含多个文本实例{tm0,…,tml},其中l是跟踪的序列长度,对于输入视频序列帧V,一组文本实例I={t0,…,tN}可以从它们对应的跟踪T={T}0,…,T}中采样,将同一跟踪中的任何两个文本定义为正样本对,对于不同跟踪的任何两个文本,我们称之为负样本对,如图3所示
  CoText通过建立长期依赖关系模型增加负样本对距离并压缩正样本对距离,对于L跟踪序列的N个文本实例,正样本对的对比损失函数定义为:
  这个公式就是对比学习的基础损失函数infonce,其中ti和tj是同一跟踪Tm中的正样本对。[tk/∈Tork=j]和[ti,tj∈Tm]是指示函数,τ表示温度参数,控制向量之间的余弦相似性的缩放,S(i)表示整个批次中所有正对的数量,而sim(u,v)表示两个向量u和v之间的余弦相似性,类似于SVRep,Fθ(·)是判别函数,学习高维特征嵌入R,如图2和图3所示,每个文本具有检测和识别头的语义和视觉表示,总结其形式如下:
  其中R是最终特征输出,其大小为128×1×1.Fp(·)Fv(·)和Fs(·)表示位置编码器、视觉编码器和语义编码器,对于文本实例ti,Posti是一个4维向量(xLT、yLT、xRB、yRB),分别表示左上和右下,RoIti为来自掩码Roi文本ti的固定大小特征块(大小:128×8×32),Seqti是文本ti的顺序特征,从识别头中的BiLSTM的输出中提取,conv和Concat分别是卷积和连接操作。
  不同于先前的相邻水平对比学习方法(SVRep、ASGD),我们的方法覆盖整个视频片段,如图3所示,相同跟踪中所有文本的特征嵌入R在嵌入空间中应趋于接近。例如,跟踪序列T0包括六个文本实例,即"USH"、"USHIP"、"USHIP"、"USHIP "、"SHIP"、"SHIP",呈现相同的语义信息,尽管一些文本对(例如"USH"和"SHIP")有巨大的信息差异,人类仍然可以将它们联系起来,我们期望模型通过对比正对,学习文本的合适特征嵌入R,与SVRep类似,融合文本三个属性(即位置、语义和视觉信息)的判别函数Fθ(·),受益于共享主干网,跟踪头是一个轻量级模块,包括三个编码器共有6层卷积。
  3.4 文本识别
  与之前使用基于注意力的识别头的图像级文本识别器不同,例如PAN++和ABCNet,我们建议使用基于CTC的识别分支。使用基于CTC的识别有两个好处:1)使用并行解码的推理时间更短。2) 更好的跟踪性能得益于Seqti更丰富的语义表示。稀疏语义表示Seqti(固定尺寸:w×nclass),基于注意力的识别的头通常缺乏丰富的语义,序列长度远小于w,这对跟踪任务不利。基于CTC的对应序列是一个密集序列,具有重复标签和"空白"的特征,这是丰富的相关语义信息。实验中提供了相关消融研究章节和补充材料。
  如表1所示,受益于共享主干功能和掩码RoI,基于CTC的识别分支非常轻量,包括2个卷积层中,1个双向LSTM(BiLSTM)和1个全连接层。为来自掩码的文本提供一个特征块(大小:n×128×h×w),对于RoI,我们首先使用2个卷积层将h减小到0,然后使用1个BiLSTM层 提取序列特征Seqti。最后,使用全连接层,使用CTC训练识别头。类似于ABCNet和PAN++,在训练中,使用box GT提取RoI特征以进行稳定优化。在推理阶段,用检测到的框替换RoI区域。
  3.5 损失函数
  损失函数如等式4
  其中Ldet、Lrec和Ltrack是文本检测、识别和跟踪的损失函数。σ1、σ2和σ3是三个可学习的参数,σ1+σ2+σ3是噪声项的正则化因子。Ldet是PAN++中的分割损失。
  4 实验
  视频文字检测
  视频文字跟踪
  端到端视频文字识别
  视频序列长度消融实验
  不同识别头
  速度测试
  V100 GPU的速度
  5 结论
  提出了一种实时的端到端视频文本对比表征学习识别框架 。CoText同时处理文本检测、跟踪和识别 三个任务,具有轻量级架构,主干、有效检测头、跟踪头和识别头,CoText在跟踪任务 实现了68.6%的IDF1,用于视频ICDAR2015上的文本识别任务的IDF1达到了72.0% ,分别比先前的SOTA方法 改进了2.5%和11.5%。希望高性能方法可以应用于更多的视频和语言任务。
  总结
  最近在想视频中的目标识别怎么综合利用视频信息,就看到了这么一个端到端的网络,但是还是有点臃肿,只适合服务器用,期待更多轻量级的工作。

死刑犯为何一律由看守所羁押?看守所的存在意义就是关押没有判决定罪的,还有就是刑期一年但是已经不足一年刑期的短期犯人,再有就是死刑犯,死刑犯为什么不去监狱,因为判刑后要关押不到4个月的时间,因为不满一年的关押期福建晋江结婚,男方不出彩礼,女方大额陪嫁吗,和印度一样吗?我是土生土长的北京人,老公是福建晋江人,坐标北京,结婚婆家一分钱不掏,我家不穷,也没要彩礼,婚礼上的改口费也是各存各的,因为公婆给我1001元,我父母给老公999元,还让我还给老公为什么汉中本地人,都觉得汉中收入低,消费高?汉中收入低消费高是个不争的事实。看汉中地区工人的平均工资也就是2000元左右,但你就看早歺吧要吃饱得8元上下。哪在南方工资4000元左右早歺也就是8元上下。你说我们的消费高不高?我父亲与叔伯打架,父亲要我出手,我该怎么办?父亲被大伯连同他儿子打的躺了一个月,我和弟弟当时还小,什么忙也帮不上,我们两个心里暗暗发誓,等我们俩长大了,一定要让他们俩血债血偿。几年后父亲因为旧伤复发去世,可他去世前的遗言让我刚毕业的大学生,进入国企6000工资含五险一金,很低吗?恭喜你进入国企,开始你稳定的事业,我分享一下我的经历,你就知道6000元的工资是水平已经不低了。2013年,大学本科毕业,也就是普通二类本科,没有光宗耀主,也没有敢踏入北上广深等大投票惠州常住人口突破600万,你支持建地铁吗?常住人口600万是包含所有市区县城农村的,国家要求是市区常住人口满300万,就是惠城区惠阳区大亚湾经济技术开发区仲恺区加起来满300万,明显没有达到支持看来还是把地铁建起来吧!深圳下岗职工档案丢失?视同缴费年限无法证明?怎么补救?职工档案,是职工办理退休的最重要材料之一。职工档案里面记载了职工的上学就业经历,必须要材料齐全才可以办理退休。如果档案材料缺失,就会导致很多重要信息无法确认。比如说出生年月特殊工种安徽桐城在历史上出过哪些名人?我也是桐城人,这个问题我来回答。方苞(1668年5月25日1749年9月29日),字灵皋,亦字凤九,晚年号望溪,亦号南山牧叟。汉族,江南桐城人(今安徽省桐城市凤仪里)人,生于江宁府杭州公租房补贴,你领到了吗?2022年杭州公租房补贴申请条件,你也可以申请!在杭州工作生活的人都知道,杭州的消费水平还是不低的,面对高昂的生活压力,租房压力,杭州也出台了一系列的补贴政策,帮助大家减轻工作和生古代哪些行业的人死后不入祖坟?老一辈人都讲究落叶归根,这个归根基本上说的就是埋入祖坟。一般情况下埋有爷爷辈人的坟地,才能被称得上是祖坟。那么古代什么样的人埋不进祖坟?什么样的人进不了祖坟?这六种人进不了!没有嫁为什么白领不管工作几年只要达到月入过万就会被认为薪水不错?在上海,有辆35万车,无房,我和老婆刚结婚,夫妻俩上班族每月到手加起来2。5万,80平精装房租4300,公积金每月近6000,取出2000交房租,自己掏2300。手里有200万现金
西甲,巴列卡诺巴伦西亚西甲,巴列卡诺巴伦西亚这场比赛时间比较友好,我们可以看看球,然后也不耽误下面的德甲英超盛宴。我们先了解一下双方的狭义基本面巴列卡诺跨赛季十个主场,3平7负,本赛季开局一个主场,02格林也许你不愿承认,真正统治过联盟的球员仅五人,詹奥不够格格林在自己主持的一档节目中表示,NBA在统治力这块最有代表性的球员有,乔丹,拉塞尔,魔术师,库里,贾巴尔。詹姆斯和奥尼尔不能排进去,詹姆斯最多是属于间接性的统治,奥尼尔没有科比,他2022年初代AppleWatch是否仍值得购买?今年五月,我购入了我的第一款苹果手表,也是苹果的第一款智能手表初代Applewatch。经过三个月的使用,我总结了一份我的使用体验分享给和我一样想要购入一款Applewatch但又华为旗舰发布会时间确定,Mate50系列共五款机型作为国产大厂,华为旗舰机型的发布会,一直以来都是备受关注的重点,目前华为旗舰手机秋季发布会时间已确定,将在9月6号发布,届时将会发布5款机型。据最新爆料消息,此次秋季发布会发布的五掘墓者是黑科技英雄?小超梦绝活让圣枪哥傻了,冠军上单也折服了想必大家都对小超梦这个出色的主播不陌生,作为国服第一上单,他也拥有非常强悍的技术水平,更重要的是他在玩游戏的时候,经常分享各种英雄的操作和技巧,这也让大家爱上了这个主播。而且在直播00后奥运冠军现状杨倩捞金,管晨辰发福退役!全红婵还在苦练最近关于杨倩的话题再度引人关注,一方面因为她落选了世锦赛名单,另一方面也因为她才22岁的年纪就被破格评为思政导师和特聘名师,而且杨倩在成名后简直是女大十八变整个人的气质全变了,从一萌!国乒冠军夫妇带孩子游玩,骑爸爸肩头与恐龙合影,全程不敢动近日,中国乒乓球的运动员刘燚和自己的妻子以及孩子在恐龙园区进行游玩,在最近发布的照片中可以看到刘燚非常的兴奋,能够在这个美好的节日和自己的家人一起度假是非常难得的事情。刘燚是中国乒阿根廷夺得美洲杯冠军!半决赛击败美国队!这才是咱们该学的篮球美洲杯决赛,阿根廷7573巴西夺得美锦赛冠军,这是阿根廷史上第三次在美锦赛夺冠。阿根廷男篮还在半决赛中以8273击败美国男篮,这也是阿根廷男篮历史上第三次击败美国队!提起阿根廷男篮爆冷!冠军热门出局,马尔卡宁封神,字母哥摊牌,东契奇坐收渔利好饭不怕晚,男篮欧洲杯延期一年举行,精彩不断。此前,西班牙斯洛文尼亚法国波兰率先锁定一个8强席位经过短暂的休息过后,另外四组八分之一比赛如期开打,具体战况为塞尔维亚8694爆冷不敌爆大冷!张本智和01输球,国乒世界冠军被打崩,丹羽孝希赢球9月11日,日本T联赛继续进行,日本一哥张本智和领先的琉球队,与丹羽孝希率领的冈山队相遇,经过五局的鏖战,琉球队23落败,张本智和决胜局未能救主。张本智和所在的琉球队内,还有吉村和超外回归!CBA第1中锋再出山冠军球队送顶薪一人挑战男篮3代高塔要说如今在CBA联赛效力年限最长的外援,除了哈德森以外,哈达迪绝对榜上有名。这名老将从201314赛季入驻CBA,如今已经过了9个年头。然而38岁的他仍然老当益壮,即便胡子花白在篮