CoText对比表征学习实现实时端到端视频文本识别

　　本篇论文收录于eccv2022
　　论文题目：Real-time End-to-End Video Text Spotter with Contrastive Representation Learning
　　论文地址：
　　https://arxiv.org/abs/2207.08417
　　摘要
　　视频文本识别（VTS）是一项需要同时实时检测、跟踪和识别视频中的文本。视频和文本识别方法通常会有复杂的pipeline以及多个模型，这对于实时应用来说不友好。本文提出了一种具有对比功能的表示学习（CoText）实现 实时端到端视频文本识别。贡献有三方面：1）CoText同时处理三个任务（检测、跟踪、识别）。2)在对比学习中，建模了文本 长期依赖关系和跨多个帧学习时间信息。3） 简单、轻便结构设计，包括GPU并行检测和后处理、基于CTC的识别具有掩码RoI的识别头。大量实验表明，该方法具有优越性和可靠性。CoText实现了视频文本的定位任务在视频 数据集ICDAR2015上实现41.0 FPS，ID F1为72.0%，和以前的最佳方法相比提升 分别为10.5%和32.0%。
　　1 导言
　　视频文本识别是许多计算机视觉应用中的一项基本任务，如视频检索、视频字幕和视觉问答。尽管该任务最近取得了巨大进展，现有方法仍有一些局限性。首先，视频文本识别任务要求在视频中 同时检测、跟踪和识别文本。但大多数现有的工作将这三个子任务作为单独的任务来处理。例如TransVTSpotter处理文本检测任务的每个帧，然后将类似的文本实例在相邻帧中 通过IoU匹配，最后，使用单独的识别模型重新识别每个文本，复杂pipeline设计导致推理速度慢，妨碍实时应用的部署，其次，大多数现有方法仅处理相邻帧的时序信息，不利于长时间的跟踪。
　　因此，如何设计简单而有效的端到端视频文本识别框架是一个尚未解决的巨大挑战。最近，基于对比学习的研究显示了对比学习解决视频和文本跟踪任务 问题的潜力，但这些工作只关注在没有长距离时间信息的相邻帧中 解决跟踪问题，本文中，提出了一种具有对比表示学习的视频文本识别器（Cotext），它在实时端到端可训练框架中 处理三个子任务（检测、跟踪和识别）。
　　与现有视频文本识别方法相比 ，提出的方法具有三个优点。首先，如图1所示，与前面使用复杂pipeline的方法不同使用的pipeline相当简单（三个子任务只有一个统一模型），没有许多冗余组件，即NMS、CNN特征提取器用于识别任务。CoText支持端到端的可训练视频文本识别，有三个头，即检测头、跟踪头和识别头；第二，与以前使用两帧信息的工作不同，CoText 建模长期依赖关系，并跨多帧 对比学习（超过10帧）。明确地对比学习用于最大限度地提高相同文本之间的一致性，并最大化不同文本之间的差异（负样本对）在整个视频的长距离中；最后，为了实现高效率，设计了一种简单、轻量级的架构，以实现有效和准确的性能，一种用于像素聚合的GPU并行后处理，一种轻量级识别具有掩码RoI和少量计算的跟踪头（对比学习）用于CoText 。
　　为了证明CoText的有效性，在三个任务（即文本检测、跟踪和端到端视频文字识别）的四个具有挑战性的基准数据集进行了实验。在ICDAR2015（视频）数据集上，CoText的端到端文本定位IDF1达到72.0%，比先前的SOTA方法TransVTSpotter推理速度快了4倍，对于输入图像的短边 640像素，CoText达到59.5fps，比最好的快50.5fps，在端到端视频文本识别IDF1为67.6%，高于先前的SOTA方法。
　　主要贡献总结如下。
　　1） 第一次端到端可训练框架 同时处理三个子任务（文本检测、跟踪、识别）
　　2） 与现有的工作不同，CoText模型具有长期依赖性以及跨多帧（多于10个帧）对比学习 学习时间信息。
　　3） 通过简单、轻量级的架构，CoText在四个公共数据集上以更快的速度实现了最先进的性能。特别是在ICDAR2015视频文本跟踪任务 上实现72.0%的IDF1和41 FPS，与以前的SOTA方法相比，性能提高了10.5%。
　　2 相关工作
　　2.1文本检测和跟踪
　　基于深度学习的最新方法带来文本检测的巨大进步。CTPN采用fasterRCNN和修改的RPN来检测水平文本，EAST用FCN以anchor-free方式预测文本得分图、距离图和角度图，PSENet和PAN将文本实例视为具有不同尺度的核，并在后处理中重构整个文本实例，基于视频的文本检测方法侧重于具有时间信息的有效视频文本检测，Free和YORO通过选择来自文本流的最高质量文本实现 视频文本检测，SAVTD通过引入了字符中心分割和分类分支 方式检测视频文本。
　　现有的文本跟踪方法遵循匹配跟踪，首先检测视频中的每个帧，然后将通过各种匹配策略（IoU、转录）实现相似文本关联，ASGD引入了一个新的字符中心分割分支，并提取了语义特征，对字符的类别和位置进行编码，SVRep利用识别的语义序列特征跟踪文本，这些方法被设计用于单独解决视频文本跟踪问题，通常没有文本识别结果，它们的推理速度很慢，无法实时应用程序。本文的方法不仅提高了文本跟踪识别性能 ，还集成了识别模块，提出的框架用于构建视频文本识别的统一模型。
　　2.2 端到端视频文本识别
　　视频文本识别需要同时检测识别文本。如图1所示，典型的基于场景和文本的深度学习方法，TransVTSpotter介绍了一种基于转换器的文本跟踪器，它通过基于IoU的最佳匹配来关联文本，然后用另一个单独的识别模型识别最终文本内容，上述方法包括多个模型和组件（例如NMS、匹配策略），与这些方法不同，如图1所示，提出的CoText是第一个具有统一可训练模型的实时端到端视频文本识别框架，该框架提供了一个非常简单的pipeline。
　　2.3 对比学习
　　长期以来，对比学习一直是针对视觉的研究任务。这些方法通过增加负样本对距离和压缩正样本对距离来学习视觉表示，SimCLR学习合成数据增强后对比图像 特征，MoCo是另一种训练前的方法，重点是构建动态字典，以促进对比学习，对于视频文本跟踪任务，SVRep和ASGD采用对比学习，通过最大化视频中相同文本之间的一致性 来关联文本实例，在这项工作中，我们首先尝试使用对比学习对视频序列中的长距离相关性进行建模来 解决端到端视频文本识别任务。
　　3 本文方法
　　3.1 总体架构
　　与之前的工作不同，CoText是一种端到端可训练的视频文本识别任务框架。整个pipeline如图2，该架构包括一个主干（即ResNet18）、FPN，上采样、掩码roi和三个头，即检测头、跟踪头，识别头。FPN、上采样和roi分别来自DB、PAN++，在推理阶段，对于一个视频序列，每个帧图像首先送到特征金字塔主干（ResNet18）和FPN，然后上采样到相同比例并级联以产生特征F，其大小为H/4 W/4 512。对于文本检测，特征F通过GPU并行输入检测头用于预测文本区域。
　　在文本识别中，首先将特征图F的通道数减少为128，通过3 3卷积，然后使用掩码RoI提取带有旋转文本框 特征，最后，轻量级识别head用于识别每个文本块的文本内容，对于文本跟踪，首先从识别头获取语义特征，从掩码RoI的特征块提取特征，提取检测框坐标中的位置特征，三个特征的大小相同128，将它们合并以获得最终的特征表示R，然后最终的跟踪结果可以通过对相邻帧中每个文本对的特征R 使用Kuhn-Munkres（KM）算法得到，结合这三个头，CoText可以同时预测多方向框、跟踪id和识别结果形成一个统一模型，在训练期间，使用三个损失函数（即Ldet、Lrec和Ltrack）进行优化，使用Ltrack 学习远程时序信息，使用对比学习来最大化相同文本之间的一致性。
　　3.2 文本检测
　　根据基于分割的方法，kernel representation用于检测文本。对于每个给定的文本行，首先通过文本定位它内核（文本行的中心区域），然后，像素聚合（PA）算法通过以下方式重建文本行的完整形状：聚合文本内核周围的文本像素，与原始像素聚合不同，我们提出了一种GPU并行像素聚合，它在保持相同性能的同时，提供了更快的推断速度，算法1总结了GPU并行像素聚合算法的细节，提出的GPU并行象素聚合主要有两个区别和改进：1）GPU加速连接组件标记（CCL），用于区分不同的文本核；2） 与原始像素不同具有低效像素队列搜索（CPU操作）的聚合算法，提出的PA算法采用单指令多数据（SIMD）执行像素聚合，是一种多线程并行计算。
　　3.3 文本跟踪与对比学习
　　现有的视频文本跟踪器主要关注没有长距离时间信息的相邻帧 内容的文本匹配问题。与这些方法不同，作者建议对跨多个帧的长期相关性进行建模，给定的文本实例ti它们属于跟踪序列Tm，Tm包含多个文本实例{tm0，…，tml}，其中l是跟踪的序列长度，对于输入视频序列帧V，一组文本实例I ｛t0，…，tN｝可以从它们对应的跟踪T ｛T｝0，…，T｝中采样，将同一跟踪中的任何两个文本定义为正样本对，对于不同跟踪的任何两个文本，我们称之为负样本对，如图3所示
　　CoText通过建立长期依赖关系模型增加负样本对距离并压缩正样本对距离，对于L跟踪序列的N个文本实例，正样本对的对比损失函数定义为：
　　这个公式就是对比学习的基础损失函数infonce，其中ti和tj是同一跟踪Tm中的正样本对。[tk/ Tork=j]和[ti，tj Tm]是指示函数，τ表示温度参数，控制向量之间的余弦相似性的缩放，S（i）表示整个批次中所有正对的数量，而sim（u，v）表示两个向量u和v之间的余弦相似性，类似于SVRep，Fθ（·）是判别函数，学习高维特征嵌入R，如图2和图3所示，每个文本具有检测和识别头的语义和视觉表示，总结其形式如下：
　　其中R是最终特征输出，其大小为128 1 1.Fp（·）Fv（·）和Fs（·）表示位置编码器、视觉编码器和语义编码器，对于文本实例ti，Posti是一个4维向量（xLT、yLT、xRB、yRB），分别表示左上和右下，RoIti为来自掩码Roi文本ti的固定大小特征块（大小：128 8 32），Seqti是文本ti的顺序特征，从识别头中的BiLSTM的输出中提取，conv和Concat分别是卷积和连接操作。
　　不同于先前的相邻水平对比学习方法（SVRep、ASGD），我们的方法覆盖整个视频片段，如图3所示，相同跟踪中所有文本的特征嵌入R在嵌入空间中应趋于接近。例如，跟踪序列T0包括六个文本实例，即＂USH＂、＂USHIP＂、＂USHIP＂、＂USHIP ＂、＂SHIP＂、＂SHIP＂，呈现相同的语义信息，尽管一些文本对（例如＂USH＂和＂SHIP＂）有巨大的信息差异，人类仍然可以将它们联系起来，我们期望模型通过对比正对，学习文本的合适特征嵌入R，与SVRep类似，融合文本三个属性（即位置、语义和视觉信息）的判别函数Fθ（·），受益于共享主干网，跟踪头是一个轻量级模块，包括三个编码器共有6层卷积。
　　3.4 文本识别
　　与之前使用基于注意力的识别头的图像级文本识别器不同，例如PAN++和ABCNet，我们建议使用基于CTC的识别分支。使用基于CTC的识别有两个好处：1）使用并行解码的推理时间更短。2） 更好的跟踪性能得益于Seqti更丰富的语义表示。稀疏语义表示Seqti（固定尺寸：w nclass），基于注意力的识别的头通常缺乏丰富的语义，序列长度远小于w，这对跟踪任务不利。基于CTC的对应序列是一个密集序列，具有重复标签和＂空白＂的特征，这是丰富的相关语义信息。实验中提供了相关消融研究章节和补充材料。
　　如表1所示，受益于共享主干功能和掩码RoI，基于CTC的识别分支非常轻量，包括2个卷积层中，1个双向LSTM（BiLSTM）和1个全连接层。为来自掩码的文本提供一个特征块（大小：n 128 h w），对于RoI，我们首先使用2个卷积层将h减小到0，然后使用1个BiLSTM层 提取序列特征Seqti。最后，使用全连接层，使用CTC训练识别头。类似于ABCNet和PAN++，在训练中，使用box GT提取RoI特征以进行稳定优化。在推理阶段，用检测到的框替换RoI区域。
　　3.5 损失函数
　　损失函数如等式4
　　其中Ldet、Lrec和Ltrack是文本检测、识别和跟踪的损失函数。σ1、σ2和σ3是三个可学习的参数，σ1+σ2+σ3是噪声项的正则化因子。Ldet是PAN++中的分割损失。
　　4 实验
　　视频文字检测
　　视频文字跟踪
　　端到端视频文字识别
　　视频序列长度消融实验
　　不同识别头
　　速度测试
　　V100 GPU的速度
　　5 结论
　　提出了一种实时的端到端视频文本对比表征学习识别框架 。CoText同时处理文本检测、跟踪和识别 三个任务，具有轻量级架构，主干、有效检测头、跟踪头和识别头，CoText在跟踪任务 实现了68.6%的IDF1，用于视频ICDAR2015上的文本识别任务的IDF1达到了72.0% ，分别比先前的SOTA方法 改进了2.5%和11.5%。希望高性能方法可以应用于更多的视频和语言任务。
　　总结
　　最近在想视频中的目标识别怎么综合利用视频信息，就看到了这么一个端到端的网络，但是还是有点臃肿，只适合服务器用，期待更多轻量级的工作。

单依纯即将举办首场线上演唱会，门票39元，有网友表示质疑出道两年，单依纯就要举办个人首场演唱会了。据爆料，单依纯将于2022年12月17日举办一场名为给你勇敢的主题演唱会，这是她的首场演唱会，因此备受关注。熟悉单依纯的小伙伴都知道，她是检察蓝护航电商云仓新业态一般在途快递面单可以卖到3元至5元一张，快递面单上的信息越全越值钱。近年来，冒充物流网购客服以快递丢失进行赔偿退款等方式实施诈骗的案件层出不穷，随着相关案件的侦破，一个个隐藏其后的美国科学家宣布核聚变研究取得重大进展2022年12月13日12月13日，美国加利福尼亚州劳伦斯利弗莫尔国家实验室的技术人员正在检查一个结构中的光学元件美国科学家宣布，在寻找利用核聚变产生能源的长期努力中取得了一项重大海外融合CDN是什么？随着云计算时代的快速发展，尤其是流媒体视频时代的到来，很多用户在使用传统CDN节点资源调配将面临很多问题问题1流媒体时代不局限于静态内容分发，直播点播等视频服务对延时影响极其大，C越来越离谱！张兰爆料大S为借种结婚，看上汪小菲高贵血统11月21日，汪小菲以一句你个窝囊废，换个床垫行吗？还让我付电费！拉开了汪S大战的序幕。就此，网友们还为这场战争，起了一个响亮的名字夺回床垫之战！可让人意想不到的是，两口子的战争，普尔状态糟糕，克莱手感不佳，库里207，勇士112128负雄鹿12月14日，NBA常规赛，勇士客场挑战雄鹿。勇士本赛季客场表现不佳，雄鹿这边则刚刚不敌火箭，本场维金斯继续缺阵。全场结束，勇士111128雄鹿，无缘连胜！库里20分，库明加19分辽宁不敌广东，郭艾伦付豪状态全无！广东四人得分上双CBA常规赛13轮，辽宁本钢对阵广东东莞大益。第一节比赛开始，张镇麟上反篮，赵继伟助攻张镇麟凯尔弗格各一个三分，开局一个80打停比赛。张镇麟再来一个反篮，胡明轩借掩护三分干拔命中及31岁刘诗雯爱情事业双丰收！马龙爆料她已有男友，张继科是过去式时间可以抹平一切，不管是好的事情还是坏的事情，一切都会过去的。还记得刘诗雯和张继科的感情生活，当年的两人正值青春期，在不断的交往和联系下，他们慢慢的喜欢上了对方。但要知道国家队的管丁彦雨航巅峰时期和睢冉硬杠巩晓彬，巅峰期无球可打，后悔莫及说起丁彦雨航，大家一定会想到逍遥王巩晓彬，当年两人一起带领山东男篮杀进总决赛，创造了球队的历史最好成绩，虽然在总决赛以04被广东宏远横扫出局，但是大家都看到了小丁的潜质，未来将是球字母哥谈6犯毕业我想享受比赛但这并不重要ampampamp球队能赢球直播吧12月1日讯今日NBA常规赛，雄鹿109103战胜尼克斯。赛后，雄鹿球星字母哥接受了记者采访。谈到自己犯满离场，字母哥讲道显然，我想留在比赛中，我想完成比赛，想打出侵略性，我韩乔生阿根廷两翼齐飞把波兰5后卫打散了，梅西失点无伤大雅直播吧12月1日讯在北京时间今天凌晨进行的世界杯小组赛中，波兰0比2不敌阿根廷，两队携手出线，赛后著名评论员韩乔生认为，梅西罚丢点球无伤大雅。韩乔生赛后在个人社媒中表示一场大胜，虽

<<<<<<－>>>>>>

外媒中芯国际开始爆发了在全球芯片代工市场，台积电三星和英特尔是排名前三的企业，也是少有的能涉及5nm制程节点以下的高端芯片厂商，中芯国际则紧随其后，可以为全球客户量身定制0。3微米至14nm之间的各类晶RedmiNote11TPro手机8GB512GB版本开售，到手价2099元IT之家9月30日消息，RedmiNote11TPro手机8GB512GB版本今晚8点开售，到手价2099元。IT之家曾报道，今年5月24日，Redmi发布了Note11TPro，哈兰德为转会建立积分系统曼城第一，拜仁第二，皇马第三直播吧9月30日讯纪录片哈兰德重大决定揭露了哈兰德转会内幕，哈兰德与父亲设计了一个积分系统来选择球队，曼城排在第一，拜仁第二，皇马第三。积分系统包含了球队是否续约9号球员踢球风格主外媒十多名印尼高级官员曾遭间谍软件攻击，黑客利用苹果手机漏洞据路透社30日报道，9名消息人士透露，去年有十多名印尼政府和军方高级官员遭一家以色列公司开发的间谍软件攻击。其中6人告诉路透社，他们自己是攻击目标。消息人士称，遭攻击的目标包括经济3000元的手机居然帧率这么稳？motoX30Pro厉害了moto之前就听过motoX30Pro这手机的性能很强，而且价格还挺厚道的，架不住好奇心的驱使，我也入手了一台。到手之后立刻就充满电装好了常用的APP，而且游戏就更不能少了，和平精motoX30Pro的影像咖位，估计能稳到年底了moto前段时间入手的这款motoX30Pro，一直我都是当做游戏手机来玩的，毕竟有骁龙8芯片，还有满血的内存和闪存，屏幕配置也不错，玩游戏自然是一把好手。不过，最近我开始用它拍照RedmiNote11R正式开售搭载天玑700处理器，售价1099临近国庆假期，为迎接新一轮的换机热潮，近期不少电商平台和厂商相继放出让利活动，旨在吸引了更多消费者关注。与此同时，不少新机也顺势而发，像是日前，Redmi手机官方便官宣一款千元新机微信更新新版本，iPhone14用户速更微信8。0。29更新了嚯。这次微信破天荒给出了更新细节。iOS16和iPhone14的兼容性问题，当初可是闹得沸沸扬扬，就差点拉着横幅在腾讯大厦门口喊了。好在这次更新后，这些bugmotorazr2022卷王终于卷到了折叠屏领域motorazr2022正式发布经常听到一个说法，那就是如今的智能手机在创新力度上大不如以往了，其实对于这种说法，我们难以苟同，毕竟除了常规的直板手机，近几年最受人瞩目的，恰恰是一买车送船？马斯克称电动皮卡Cybertruck可当船开近日，美国有史以来最强风暴之一的飓风伊恩正袭卷美国南部，造成多地洪水侵袭。世界首富马斯克此时在社交媒体上的发言，让人不得不认为他在趁机为自家的产品打广告。特斯拉CEO马斯克在社交媒苹果14系列手机先天不足苹果14的发布会可谓全球瞩目，苹果手机的新技术也可谓同行的标杆！但是随着第一批用户的抢先体验，吐槽之声也随之而来，14和14Plus的价格一夜破发，黄牛党上演历史惨剧，总的来说，1