范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

CRAFTS端对端的场景文本检测器

  场景文本检测器由文本检测和识别模块组成。许多研究已经将这些模块统一为一个端到端可训练的模型,以获得更好的性能。一个典型的体系结构将检测和识别模块放置到单独的分支中,通常使用RoI pooling来让这些分支共享一个视觉特征。然而,当采用使用基于注意力的解码器和表示字符区域空间信息的检测器时,仍然有机会在模块之间建立更互补的连接。这是可能的,因为这两个模块共享一个共同的子任务,即查找字符区域的位置。
  在此基础上,构建了一个紧密耦合的单管道模型。该体系结构是通过利用识别器中的检测输出并通过检测阶段传播识别损失而形成的。字符得分图的使用有助于识别器更好地关注字符中心点,并且将识别损失传播到检测器模块,增强了字符区域的定位。此外,一个加强的共享阶段允许对任意形状的文本区域进行特征校正和边界定位。大量的实验证明了在公开可用的水平基准集和弯曲基准数据集的最先进的性能。CRAFTS算法原理:
  CRAFTS可以分成3个阶段:检测阶段、共享阶段和识别阶段,详细的网络结构如图所示。
  检测阶段
  获取一个输入图像,并定位面向方向的文本框。共享阶段,然后汇集backbone的高级特性和检测器输出。然后使用校正模块对合并后的特征进行校正,并连接在一起形成一个角色参与特征。在识别阶段,基于注意力的解码器使用字符参与的特征来预测文本标签。最后,一种简单的后处理技术可选地用于更好的可视化。
  检测阶段
  CRAFT检测器作为基础网络,因为它能够表示特征区域的语义信息。工艺网络的输出代表了特征区域的中心概率和它们之间的联系。CRAFTS认为这个以字符为中心的信息可以用来支持识别器中的注意模块,因为这两个模块都旨在定位字符的中心位置。在这项工作中,对原始工艺模型进行了三个修改;backbone替换、链路表示和方向估计。共享阶段
  该阶段主要包含二大模块,文本纠正模块和字符区域注意力(text region attention, CRA)模块,使用 薄板样条(TPS)变换去纠正任意形状的文本区域,文本纠正模块使用 迭代-TPS,以获得更好的文本区域表示。
  典型的TPS模块输入一张单词图片,但在这里提供字符区域映射和链接映射,因为它们包含了文本区域的几何信息,使用二十个控制点来紧紧覆盖弯曲的文本区域,将这些控制点作为检测结果,转换为原始输入图像坐标。可以选择执行二维多项式拟合来平滑边界多边形,迭代-TPS和最终平滑多边形输出的例子如图4所示。
  CRA模块是紧密耦合检测和识别模块的关键部件,过简单地将修正后的字符得分映射与特征表示连接起来,该模型建立了以下优势。在检测器和识别器之间创建一个链接,允许识别损失在检测阶段传播,这提高了字符得分地图的质量。此外,将字符区域映射附加到特征上,有助于识别器更好地关注字符区域。识别阶段
  识别阶段有三个组成部分:特征提取、序列建模和预测。特征提取模块比单独的识别器更轻,因为它以高层语义特征作为输入。 该模块的详细体系结构如表1所示。提取特征后,采用双向LSTM进行序列建模,并对基于注意的解码器进行最终的文本预测。
  在每个时间步骤中,基于注意力的识别器通过屏蔽注意力输出到特征来解码文本信息。虽然注意模块在大多数情况下都能很好地工作,但当注意点不对齐或消失时,它无法预测字符。图5展示了使用CRA模块的效果,合适的注意点能够稳健的进行文本预测。
  实验结果:
  实验采用如下几种数据集作为实验数据集:
  英语数据集IC13数据集由高分辨率图像组成,229个用于训练和233个用于测试。矩形框用于注释单词级文本实例。
  IC15由1000张训练图像和500张测试图像组成。四边形框用于注释单词级文本实例。
  Total-Text拥有1255张培训图片和300张测试图片。与IC13和IC15数据集不同,它包含曲线文本实例,并使用多边形点进行注释。
  多语言数据集IC19数据集包含10000个训练和10000个测试图像。该数据集包含7种不同语言的文本,并使用四边形点进行注释。
  在水平数据集(IC13, IC15)上取得的实验结果如下表:
  水平数据集(IC13、IC15)为了针对IC13基准,采用在SynthText数据集上训练的模型,并对IC13和IC19数据集进行微调。在推断过程中,我们将输入的长边调整为1280。结果表明,与之前最先进的作品相比,其性能没有显著提高。
  然后,在IC13数据集上训练的模型在IC15数据集上进行微调。在评估过程中,模型的输入大小设置为2560x1440。请注意,在没有通用词汇集的情况下执行通用评估。表2列出了IC13和IC15数据集的定量结果。
  CRAFTS的方法在一般任务和弱上下文化端到端任务中都优于以前的方法,并在其他任务中显示出类似的结果。通用性能是有意义的,因为在实际场景中没有提供词汇集。请注意,CRAFTS在IC15数据集上的检测分数略低,在强语境化结果中也观察到低性能。检测性能相对较低的主要原因是粒度差异,稍后将进一步讨论。
  在曲边数据集(TotalText)上取得的实验结果如下表:
  曲线数据集(TotalText)从IC13数据集上训练的模型,实验进一步在TotalText数据集上训练模型。在推断过程中,CRAFTS将输入的长边调整为1920,整流模块的控制点用于检测器评估。定性结果如图7所示。字符区域图和链接图用热图表示,加权像素角度值在HSV颜色空间中可视化。如图所示,该网络成功地定位了多边形区域,并识别了曲线文本区域中的字符。左上角的两幅图显示了完全旋转和高度弯曲文本实例的成功识别。
  TotalText数据集的定量结果如表3所示。DetEval评估探测器的性能,修改的IC15评估方案测量端到端性能。CRAFTS的方法大大优于以前报道的方法。
  在多语言数据集数据集(IC19)上取得的实验结果如下表
  多语言数据集(IC19)使用IC19-MLT数据集对多种语言进行评估。识别器预测层的输出通道扩展到4267,以处理阿拉伯语、拉丁语、中文、日语、韩语、孟加拉国语和印地语中的字符。但是,数据集中出现的字符并不是均匀分布的。在训练集中的4267个字符中,1017个字符在数据集中出现一次,这使得模型很难做出准确的标签预测。为了解决类别不平衡问题,CRAFTS首先在检测阶段冻结权重,并使用其他公开的多语言数据集(SynthMLT、ArT、LSVT、ReCTS和RCTW)在识别器中预训练权重。然后,CRAFTS让损失流经整个网络,并使用IC19数据集对模型进行调整。由于没有论文报告性能,结果与E2E-MLT进行比较。IC19数据集中的样本如图8所示。
  结论:
  CRAFTS中提出了一个端到端可训练的单pipeline模型,它紧密地耦合了检测和识别模块,共享阶段的字符区域注意充分利用字符区域映射,帮助识别器纠正和更好地关注文本区域。同时,设计了识别损耗通过检测阶段传播,提高了检测器的字符定位能力。此外,在共享阶段的纠正模块使弯曲文本的精细定位,并避免了手工设计后处理的需要。 实验结果验证了CRAFTS在各种数据集上的最新性能。
  参考文献:Liu C Y, Chen X X, Luo C J, Jin L W, Xue Y and Liu Y L. 2021. Deep learning methods for scene text detection and recognition. Journal of Image and Graphics,26(06):1330-1367(刘崇宇,陈晓雪,罗灿杰,金连文,薛洋,刘禹良. 2021. 自然场景文本检测与识别的深度学习方法. 中国图象图形学报,26(06):1330-1367)[DOI:10. 11834 / jig. 210044]Liu X B, Liang D, Yan S, Chen D G, Qiao Y and Yan J J. 2018c.FOTS: fast oriented text spotting with a unified network //Proceedings of 2018 IEEE/ CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 5676-5685 [DOI: 10. 1109 / CVPR. 2018. 00595]Liu Y L, Chen H, Shen C H, He T, Jin L W and Wang L W. 2020. ABCNet: real-time scene text spotting with adaptive bezier-curve network / / Proceedings of 2020 IEEE/ CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE: 9809-9818 [DOI: 10. 1109 / CVPR42600. 2020. 00983]Baek Y, Shin S, Baek J, Park S, Lee J, Nam D and Lee H. 2020. Character region attention for text spotting / / Proceeding of the 16th European Conference on Computer Vision. Glasgow, UK: Springer: 504-521 [DOI: 10. 1007 / 978-3-030-58526-6_30]

快来看看!土库曼斯坦工匠雕刻的作品有多精美据土库曼门户网报道,第七届国际民间手工艺术品节将于2月下旬在伊朗首都德黑兰举办。土库曼斯坦将派出巴尔坎州马赫图姆库利儿童艺术学校的老师马卡斯特希基耶夫参加比赛,他以雕刻新奇的木制品高校即将启动线下招聘!学校建议抓紧求职黄金期,找到心仪的工作现代快报讯(记者李楠)近日,2023年高校毕业生新春专场招聘会在南京人才大厦火热开场,70多家优质企业提供了3000多个岗位需求,吸引了一批求职者。2月10日,现代快报记者了解到,由于曼城未来的不确定性,瓜迪奥拉已经安排了六份工作瓜迪奥拉自2016年以来一直在曼城效力,但有关俱乐部违反100多项英超联赛财务规则的指控导致他的职位不确定。瓜迪奥拉在曼城的未来令人怀疑在俱乐部被指控在9年的时间里115次违反英超人生40,最好的生活状态忙时有序,闲时有趣前阵子打车,遇到一位很有意思的司机。她说自己今年45岁,自从孩子考上重点大学后,心里就萌生出不想努力了的念头。犹豫了好一阵子,终于辞掉了外贸公司的工作,出来跑网约车了。我有点诧异,超越传统塑料和橡胶的新型高分子材料热塑性弹性体热塑性弹性体的定义热塑性弹性体(Thermoplasticelastomer)也被称作为热塑性橡胶(Thermoplasticrubber),是一种兼具橡胶和热塑性塑料特性的高分子前FuturLab总监新工作室Hardball获520万美元种子融资曾在冲就完事模拟器开发商FuturLab担任非执行总监的JasonAvent成立的新游戏开发工作室HardballGames日前在种子轮融资中筹集到了430万英镑(520万美元,折快速查看微信绑定哪些软件!由于微信是我们日常生活中,比较常用的社交软件。几乎每天都需要使用到,所以常常使用微信绑定第三方软件,这样可以实现快速登录功能。那么,如何查看微信绑定了哪些第三方软件呢?我们可以打开QQ24周年,我的QQ上午,QQ疑似出现连接问题,QQ崩了冲上热搜,原来今天是QQ24岁的生日,QQ腾讯QQ回应看来是鹅的祝寿队伍太庞大,服务器挤爆了。!一下子唤起了那个时代的回忆。1999年2月一只小又要开学了,在犹豫小米还是iQOO吗?这4款都不错如果您喜欢,可以点击上面的关注二字。后续会为您提供更多有价值的内容。iQOO是vivo旗下子品牌,成立于2019年,发布手机至今备受好评。下面分别列出iQOO和小米的两款中端机和两全新Mate50发布,XMAGE影像双操作系统华为Mate50系列是去年九月份和大家见面的,它的出现不仅挽救了华为的手机行业,同时也解决了一部分华为用户群体的换机周期到了迫切换机的问题。如今华为已经重启了P系列和Mate系列,币圈要闻以太坊联合创始人JoeLubinETH不可能被归类为证券以太坊联合创始人兼ConsenSys的创始人Lubin表示,相信以太坊不会被列为美国的一种证券,我认为这和Uber被定为非法
北斗系统每日定位量破1000亿次,导航比美国GPS更精准,达到1米级想想如果导航系统不完善,智能手机没有普及,我们过去外出的时候是有多不方便!需要认得很多路口,或者在路口放慢车速仔细辨认方向,可就算如此,我们还是总会走错路口,在路上浪费很多时间,需奇葩!美国禁止沙特石油下调200万桶!沙特不接受发号施令头条创作挑战赛奇葩!什么时候,自家产油数量要经过别国允许了?沙特阿拉伯不接受美国发号施令!这是怎么回事呢?近日,包括沙特在内的石油输出国组织(欧佩克)成员国与俄罗斯等非欧佩克产油国套现640亿,携孕妻现身美国,刘强东会移民吗?在互联网大佬之中,京东创始人刘强东口碑可谓最好了。不仅是真正白手起家的典范,而且还敢于说真话。比如在早期采访中痛批实体店的艰难担忧食品安全。然而发生在2018年的明州事件让刘强东的美国狠起来连自己都锤,从中东撤军,原来是想给中俄增加伙伴机会消息报道,美国国会3名民主党议员提案从沙特,阿联酋撤军,并且撤回部署的导弹防御系统。对此,他们明确表示此举是对欧佩克减产的报复。据悉,在此之前欧佩克下令从11月起,将石油总产量日均美国国会骚乱调查委员会决定传唤特朗普距离美国国会中期选举投票不到一个月,美国众议院调查去年1月6日国会大厦骚乱事件的特别委员会13日决定,传唤共和党籍前总统唐纳德特朗普作证。特朗普一旦拒绝作证,可能面临刑事指控。特朗微软军用护目镜让美国士兵感到恶心,测试中头痛头条创作挑战赛2019年2月24日,在巴塞罗那举行的世界最大的移动交易会前夕,微软的技术伙伴AlexKipman在移动世界大会(MWC)上的一场演讲中透露了HoloLens2。(G黑天鹅来了!美国芯片巨头爆雷,市值蒸发几千亿作者李云飞来源原创一位久经商场的创业老司机,关注我,每天分享一点财富干货,让你的人生少走弯路。黑天鹅事件终于来了!美国芯片巨头企业爆雷,市值一夜之间蒸发几千亿,整个芯片行业迎来寒冬蔚来成中国车企龙头?市值4900亿跻身全球前四,超比亚迪美国通用引言我国的汽车制造业,虽然国内有着很大的市场,但苦于技术不足,只能眼睁睁看着外国车企不断抢占市场份额,然后赚得盆满钵满。在面对这样的情况时,我国车企并没有选择放弃,而是奋起直追,在精彩回顾2022第八届中国消费品数字科技大会9月2223日,2022第八届中国消费品数字科技大会在上海成功召开。中企通信受邀参加本次大会并设立展台,集中展示云网智安一体化服务,助力消费品企业构筑业务增长新势能。作为国内高规格中国在量子技术方面的雄心中国正在挑战美国在量子计算机竞赛中的地位,因为它取得了长足的进步。量子计算是一种有前途但难以捉摸的技术。它具有推动科学研究和将大数据产业从金融和制药转变为物流和绿色能源的潜力。8月效果和美观二选一,耳机应该如何选,你真的懂音频设备吗?哈喽大家好,这里是优乐小袁,为您甄选桌搭好物。相信各位在搭配自己的桌面风格时,难免难免遇到音频设备的采购,面对市面上五花八门的音频产品,究竟应该如何选择。我们就来扒一扒音频设备选购