专栏电商日志财经减肥爱情
投稿投诉
爱情常识
搭配分娩
减肥两性
孕期塑形
财经教案
论文美文
日志体育
养生学堂
电商科学
头戴业界
专栏星座
用品音乐

CoText对比表征学习实现实时端到端视频文本识别

  本篇论文收录于eccv2022
  论文题目:RealtimeEndtoEndVideoTextSpotterwithContrastiveRepresentationLearning
  论文地址:
  https:arxiv。orgabs2207。08417
  摘要
  视频文本识别(VTS)是一项需要同时实时检测、跟踪和识别视频中的文本。视频和文本识别方法通常会有复杂的pipeline以及多个模型,这对于实时应用来说不友好。本文提出了一种具有对比功能的表示学习(CoText)实现实时端到端视频文本识别。贡献有三方面:1)CoText同时处理三个任务(检测、跟踪、识别)。2)在对比学习中,建模了文本长期依赖关系和跨多个帧学习时间信息。3)简单、轻便结构设计,包括GPU并行检测和后处理、基于CTC的识别具有掩码RoI的识别头。大量实验表明,该方法具有优越性和可靠性。CoText实现了视频文本的定位任务在视频数据集ICDAR2015上实现41。0FPS,IDF1为72。0,和以前的最佳方法相比提升分别为10。5和32。0。
  1导言
  视频文本识别是许多计算机视觉应用中的一项基本任务,如视频检索、视频字幕和视觉问答。尽管该任务最近取得了巨大进展,现有方法仍有一些局限性。首先,视频文本识别任务要求在视频中同时检测、跟踪和识别文本。但大多数现有的工作将这三个子任务作为单独的任务来处理。例如TransVTSpotter处理文本检测任务的每个帧,然后将类似的文本实例在相邻帧中通过IoU匹配,最后,使用单独的识别模型重新识别每个文本,复杂pipeline设计导致推理速度慢,妨碍实时应用的部署,其次,大多数现有方法仅处理相邻帧的时序信息,不利于长时间的跟踪。
  因此,如何设计简单而有效的端到端视频文本识别框架是一个尚未解决的巨大挑战。最近,基于对比学习的研究显示了对比学习解决视频和文本跟踪任务问题的潜力,但这些工作只关注在没有长距离时间信息的相邻帧中解决跟踪问题,本文中,提出了一种具有对比表示学习的视频文本识别器(Cotext),它在实时端到端可训练框架中处理三个子任务(检测、跟踪和识别)。
  与现有视频文本识别方法相比,提出的方法具有三个优点。首先,如图1所示,与前面使用复杂pipeline的方法不同使用的pipeline相当简单(三个子任务只有一个统一模型),没有许多冗余组件,即NMS、CNN特征提取器用于识别任务。CoText支持端到端的可训练视频文本识别,有三个头,即检测头、跟踪头和识别头;第二,与以前使用两帧信息的工作不同,CoText建模长期依赖关系,并跨多帧对比学习(超过10帧)。明确地对比学习用于最大限度地提高相同文本之间的一致性,并最大化不同文本之间的差异(负样本对)在整个视频的长距离中;最后,为了实现高效率,设计了一种简单、轻量级的架构,以实现有效和准确的性能,一种用于像素聚合的GPU并行后处理,一种轻量级识别具有掩码RoI和少量计算的跟踪头(对比学习)用于CoText。
  为了证明CoText的有效性,在三个任务(即文本检测、跟踪和端到端视频文字识别)的四个具有挑战性的基准数据集进行了实验。在ICDAR2015(视频)数据集上,CoText的端到端文本定位IDF1达到72。0,比先前的SOTA方法TransVTSpotter推理速度快了4倍,对于输入图像的短边640像素,CoText达到59。5fps,比最好的快50。5fps,在端到端视频文本识别IDF1为67。6,高于先前的SOTA方法。
  主要贡献总结如下。
  1)第一次端到端可训练框架同时处理三个子任务(文本检测、跟踪、识别)
  2)与现有的工作不同,CoText模型具有长期依赖性以及跨多帧(多于10个帧)对比学习学习时间信息。
  3)通过简单、轻量级的架构,CoText在四个公共数据集上以更快的速度实现了最先进的性能。特别是在ICDAR2015视频文本跟踪任务上实现72。0的IDF1和41FPS,与以前的SOTA方法相比,性能提高了10。5。
  2相关工作
  2。1文本检测和跟踪
  基于深度学习的最新方法带来文本检测的巨大进步。CTPN采用fasterRCNN和修改的RPN来检测水平文本,EAST用FCN以anchorfree方式预测文本得分图、距离图和角度图,PSENet和PAN将文本实例视为具有不同尺度的核,并在后处理中重构整个文本实例,基于视频的文本检测方法侧重于具有时间信息的有效视频文本检测,Free和YORO通过选择来自文本流的最高质量文本实现视频文本检测,SAVTD通过引入了字符中心分割和分类分支方式检测视频文本。
  现有的文本跟踪方法遵循匹配跟踪,首先检测视频中的每个帧,然后将通过各种匹配策略(IoU、转录)实现相似文本关联,ASGD引入了一个新的字符中心分割分支,并提取了语义特征,对字符的类别和位置进行编码,SVRep利用识别的语义序列特征跟踪文本,这些方法被设计用于单独解决视频文本跟踪问题,通常没有文本识别结果,它们的推理速度很慢,无法实时应用程序。本文的方法不仅提高了文本跟踪识别性能,还集成了识别模块,提出的框架用于构建视频文本识别的统一模型。
  2。2端到端视频文本识别
  视频文本识别需要同时检测识别文本。如图1所示,典型的基于场景和文本的深度学习方法,TransVTSpotter介绍了一种基于转换器的文本跟踪器,它通过基于IoU的最佳匹配来关联文本,然后用另一个单独的识别模型识别最终文本内容,上述方法包括多个模型和组件(例如NMS、匹配策略),与这些方法不同,如图1所示,提出的CoText是第一个具有统一可训练模型的实时端到端视频文本识别框架,该框架提供了一个非常简单的pipeline。
  2。3对比学习
  长期以来,对比学习一直是针对视觉的研究任务。这些方法通过增加负样本对距离和压缩正样本对距离来学习视觉表示,SimCLR学习合成数据增强后对比图像特征,MoCo是另一种训练前的方法,重点是构建动态字典,以促进对比学习,对于视频文本跟踪任务,SVRep和ASGD采用对比学习,通过最大化视频中相同文本之间的一致性来关联文本实例,在这项工作中,我们首先尝试使用对比学习对视频序列中的长距离相关性进行建模来解决端到端视频文本识别任务。
  3本文方法
  3。1总体架构
  与之前的工作不同,CoText是一种端到端可训练的视频文本识别任务框架。整个pipeline如图2,该架构包括一个主干(即ResNet18)、FPN,上采样、掩码roi和三个头,即检测头、跟踪头,识别头。FPN、上采样和roi分别来自DB、PAN,在推理阶段,对于一个视频序列,每个帧图像首先送到特征金字塔主干(ResNet18)和FPN,然后上采样到相同比例并级联以产生特征F,其大小为H4W4512。对于文本检测,特征F通过GPU并行输入检测头用于预测文本区域。
  在文本识别中,首先将特征图F的通道数减少为128,通过33卷积,然后使用掩码RoI提取带有旋转文本框特征,最后,轻量级识别head用于识别每个文本块的文本内容,对于文本跟踪,首先从识别头获取语义特征,从掩码RoI的特征块提取特征,提取检测框坐标中的位置特征,三个特征的大小相同128,将它们合并以获得最终的特征表示R,然后最终的跟踪结果可以通过对相邻帧中每个文本对的特征R使用KuhnMunkres(KM)算法得到,结合这三个头,CoText可以同时预测多方向框、跟踪id和识别结果形成一个统一模型,在训练期间,使用三个损失函数(即Ldet、Lrec和Ltrack)进行优化,使用Ltrack学习远程时序信息,使用对比学习来最大化相同文本之间的一致性。
  3。2文本检测
  根据基于分割的方法,kernelrepresentation用于检测文本。对于每个给定的文本行,首先通过文本定位它内核(文本行的中心区域),然后,像素聚合(PA)算法通过以下方式重建文本行的完整形状:聚合文本内核周围的文本像素,与原始像素聚合不同,我们提出了一种GPU并行像素聚合,它在保持相同性能的同时,提供了更快的推断速度,算法1总结了GPU并行像素聚合算法的细节,提出的GPU并行象素聚合主要有两个区别和改进:1)GPU加速连接组件标记(CCL),用于区分不同的文本核;2)与原始像素不同具有低效像素队列搜索(CPU操作)的聚合算法,提出的PA算法采用单指令多数据(SIMD)执行像素聚合,是一种多线程并行计算。
  3。3文本跟踪与对比学习
  现有的视频文本跟踪器主要关注没有长距离时间信息的相邻帧内容的文本匹配问题。与这些方法不同,作者建议对跨多个帧的长期相关性进行建模,给定的文本实例ti它们属于跟踪序列Tm,Tm包含多个文本实例{tm0,,tml},其中l是跟踪的序列长度,对于输入视频序列帧V,一组文本实例I{t0,,tN}可以从它们对应的跟踪T{T}0,,T}中采样,将同一跟踪中的任何两个文本定义为正样本对,对于不同跟踪的任何两个文本,我们称之为负样本对,如图3所示
  CoText通过建立长期依赖关系模型增加负样本对距离并压缩正样本对距离,对于L跟踪序列的N个文本实例,正样本对的对比损失函数定义为:
  这个公式就是对比学习的基础损失函数infonce,其中ti和tj是同一跟踪Tm中的正样本对。〔tkTorkj〕和〔ti,tjTm〕是指示函数,表示温度参数,控制向量之间的余弦相似性的缩放,S(i)表示整个批次中所有正对的数量,而sim(u,v)表示两个向量u和v之间的余弦相似性,类似于SVRep,F()是判别函数,学习高维特征嵌入R,如图2和图3所示,每个文本具有检测和识别头的语义和视觉表示,总结其形式如下:
  其中R是最终特征输出,其大小为12811。Fp()Fv()和Fs()表示位置编码器、视觉编码器和语义编码器,对于文本实例ti,Posti是一个4维向量(xLT、yLT、xRB、yRB),分别表示左上和右下,RoIti为来自掩码Roi文本ti的固定大小特征块(大小:128832),Seqti是文本ti的顺序特征,从识别头中的BiLSTM的输出中提取,conv和Concat分别是卷积和连接操作。
  不同于先前的相邻水平对比学习方法(SVRep、ASGD),我们的方法覆盖整个视频片段,如图3所示,相同跟踪中所有文本的特征嵌入R在嵌入空间中应趋于接近。例如,跟踪序列T0包括六个文本实例,即USH、USHIP、USHIP、USHIP、SHIP、SHIP,呈现相同的语义信息,尽管一些文本对(例如USH和SHIP)有巨大的信息差异,人类仍然可以将它们联系起来,我们期望模型通过对比正对,学习文本的合适特征嵌入R,与SVRep类似,融合文本三个属性(即位置、语义和视觉信息)的判别函数F(),受益于共享主干网,跟踪头是一个轻量级模块,包括三个编码器共有6层卷积。
  3。4文本识别
  与之前使用基于注意力的识别头的图像级文本识别器不同,例如PAN和ABCNet,我们建议使用基于CTC的识别分支。使用基于CTC的识别有两个好处:1)使用并行解码的推理时间更短。2)更好的跟踪性能得益于Seqti更丰富的语义表示。稀疏语义表示Seqti(固定尺寸:wnclass),基于注意力的识别的头通常缺乏丰富的语义,序列长度远小于w,这对跟踪任务不利。基于CTC的对应序列是一个密集序列,具有重复标签和空白的特征,这是丰富的相关语义信息。实验中提供了相关消融研究章节和补充材料。
  如表1所示,受益于共享主干功能和掩码RoI,基于CTC的识别分支非常轻量,包括2个卷积层中,1个双向LSTM(BiLSTM)和1个全连接层。为来自掩码的文本提供一个特征块(大小:n128hw),对于RoI,我们首先使用2个卷积层将h减小到0,然后使用1个BiLSTM层提取序列特征Seqti。最后,使用全连接层,使用CTC训练识别头。类似于ABCNet和PAN,在训练中,使用boxGT提取RoI特征以进行稳定优化。在推理阶段,用检测到的框替换RoI区域。
  3。5损失函数
  损失函数如等式4
  其中Ldet、Lrec和Ltrack是文本检测、识别和跟踪的损失函数。1、2和3是三个可学习的参数,123是噪声项的正则化因子。Ldet是PAN中的分割损失。
  4实验
  视频文字检测
  视频文字跟踪
  端到端视频文字识别
  视频序列长度消融实验
  不同识别头
  速度测试
  V100GPU的速度
  5结论
  提出了一种实时的端到端视频文本对比表征学习识别框架。CoText同时处理文本检测、跟踪和识别三个任务,具有轻量级架构,主干、有效检测头、跟踪头和识别头,CoText在跟踪任务实现了68。6的IDF1,用于视频ICDAR2015上的文本识别任务的IDF1达到了72。0,分别比先前的SOTA方法改进了2。5和11。5。希望高性能方法可以应用于更多的视频和语言任务。
  总结
  最近在想视频中的目标识别怎么综合利用视频信息,就看到了这么一个端到端的网络,但是还是有点臃肿,只适合服务器用,期待更多轻量级的工作。

台州游记(四)仙居是否真的有仙人居住在头条看见彼此头条创作挑战赛自驾云游季前言仙居上一个篇章,介绍了高迁古村和皤滩古镇两个典型乡村聚落,这篇去往仙居的深山秘境,看看仙居这座烟霞之城是否真的有起仙人居住龙潭头村淡竹白龙西安的两条面事件,为什么会持续发酵?今年春节旅游,一些景点吃饭宰客问题被曝光,典型的有西安碗底面和北海1500四个菜。北海4个菜1500问题,由于北海市场监管部门雷厉风行,第二天就展开整顿欺客宰客专项治理行动,并现场QingdaoseesstrongtourismreboundduringSpringFestivalholidayTheeasterncoastalcityofQingdao,ShandongprovincewitnessedastrongreboundintourismduringtheSp思路出路火洲如何成了滑雪胜地隆冬的一个周末,沿着宽阔的柏油马路一路向西,蓝天被依旧茂密的枝丫划出斑驳的颜色,再经过一片黄灿灿的胡杨林,就到了新疆吐鲁番市高昌区亚尔镇亚尔果勒村。游客在玩雪路上车辆来来往往,多是迎南向上老君(西门)坡步道上山的道路不不止一条,既然有了上一篇的老君(东门)坡步道,也就有了今天这一篇老君(西门)坡步道。都是以老君洞,仙家地境道观为参照坐标的线路。闲言少叙!走进重庆,拥享山城之美,跟随文温哥华游记之一江城发哥小女儿在加拿大温哥华这里读书,因为疫情原因,女儿快四年一直没有回国。年前,女儿身体不舒服,思亲心切,强烈要求我们到温哥华来。借着国内疫情放开的春风,我们临时决定,请假一段时参观平壤地铁,和朝鲜人的一次近距离接触,双方仿佛来自不同星球到朝鲜旅游的中国旅游团每天都是按照朝鲜方面设定好的路线参观游览,基本上就一些革命圣地和朝鲜人引以为傲的地方。除了宾馆酒店的服务员和景点的讲解员外,我们中国游客很少有机和朝鲜人近距离四川乐山乌尤寺游记山上读楞严,不解性与空游览四川乐山乌尤寺是个偶然。或许,某种意义上来说,人生就是无数个偶然组合而成的必然。人这一生,了无遗憾是不容易的。寄蜉蝣于天地的一生中,中国传统的儒释道文化可以让人和天地万物和解。金享非遗臻品年味中国西北游,相约在兰州过年来兰州转转吧,什么都能领略金城关文化风情园背靠悠悠白塔,俯瞰滔滔黄河离开喧嚣的城市,去水墨丹霞放松心情越国开心农场,带您体验不一样的冬天冬天的吐鲁沟仿佛就船员在船上无聊的生活,得知要去海地,个个生龙活虎,结果遭罚款船员是一个被孤立的行业,在这个行业里,船员们只能每天生活在有限的空间里。每天面对的是一群大男人,时间长了,船上的日子便显得枯燥,乏味,寂寞。在航海的日子里,要是得知去一些穷国家的信快过年了,教你4道爽口凉菜,造型美观寓意好,清凉解腻真好吃快过年了,教你4道爽口凉菜,造型美观寓意好,清凉解腻真好吃。亲爱的好朋友们,大家好,我是大厨江一舟,今天又到了,给大家分享美食的时刻了,你们准备好了吗?这快过年了,很多朋友都喜欢做
绯染天空下载教程steam入库教你解决搜索不到的问题绯染天空HeavenBurnsRed是RPG游戏,在2月10日,绯染天空正式上线繁中服,在steam中即可下载游玩,吸引来很多玩家入坑,然而,不少玩家反映自己在steam中搜索不到二创的意思就是创观众两次(Blender基础篇1)作为一个玩过很多二次元游戏的肥宅,我也看过很多二次元游戏的二创视频(指非官方的二次创作)。每次看那些二创视频我都感觉这些东西是人能做出来的?如今的我已经醒悟,我想成为一个更高级的肥流浪地球2门框机器人官方设定,应该叫你门框侠门框机器人,学名叫做精英突击队前线机械化增强单元(FRONTLINEROBOTICAUGMENTATIONFORMILITARYELITERANGERS)英语缩写FRAMER直译就TT20战胜WBG!TheShy状态有点不太对劲,持续被单杀!LPL第五周比赛第二天,TT20战胜了刚赢JDG的WBG。上单TheShy连着两局被TT上单Hoy单杀,状态可以说是非常不对劲了。包括前天对阵JDG的比赛中,WBG虽然赢下了比赛,提醒中老年人退休前,这3件事可适当偷懒,身心舒适益处多随着年纪越来越大,人的身体素质逐渐大不如前,这就让很多中老年人开始产生危机感,想要通过昂贵的保健品帮助调整。但其实真正能够起到帮助的,还是要从个人的生活习惯做出调整和改变。凡事讲究寒从脚下起,脚凉是大病!3个动作助你快速暖脚,养肾气!有些人一到冬天就手脚冰凉,不管身上穿得多严实,脚还是暖不起来。特别是晚上睡觉时,脚底蔓延上来的冷意让人怎么都睡不好,需要泡脚穿好袜子保暖才能入眠。其实,脚凉与健康关系密切。如果天冷瘀血一通,浑身轻松,送你四个中成药,帮你打通全身气血淤血一堵,百病难除。这淤血形成之后,淤在体内,不但失去血液的濡养作用,而且还可能会引起新的病变发生。今天胡医生为大家带来四个中成药,为你解决几个常见淤血疼痛。有句耳熟能详的话是不通人老以后,切记这两种营养跟上,增强抵抗力,轻松活到八九十岁!随着年纪的不断增长,身体的抵抗力也会随之降低,这个时候各种疾病也会趁虚而入,进入到人体当中正是因为如此,所以老年人患病的几率要比年轻人患病几率更大。更有一些老年人身患多种疾病,那么艾灸加盐,法力无边三甲天团时素华北京中医药大学第三附属医院康复科副主任医师艾灸,是用艾叶制成的艾条或艾柱,使产生的艾热刺激人体穴位或特定部位,通过激发经气的活动来调整人体紊乱的生理生化功能,从而达到老话四十不多欲,五十不多情,六十不多食,老祖宗忠告,何意修身养生是老生常谈的话题。不分贫困和富裕,能够身体健康,活个长命百岁,是人人所向往和追求的。不同的年龄,人的身体机能都会有不同的变化,而且随着年龄的逐渐增大每况日下。怎么去做?四十这几个养生误区,70的人踩过坑,中老年人尤其需要注意酸奶助消化喝粥养胃很多人对这些养生建议深信不疑,但事实真的是这样的吗小鲜总结了这几条广为传播的养生误区,看看你中招没?1胃不好要多喝粥?对于胃部反酸烧心的人群来说,喝粥会促进胃酸吸
友情链接:快好找快生活快百科快传网中准网文好找聚热点快软网