范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

PreSTU一个专门为场景文本理解而设计的简单预训练模型

  本文分享自华为云社区《场景文本理解预训练PreSTU-云社区-华为云》,作者: Hint 。【论文摘要】
  在视觉与语言(V&L)模型中,阅读和推理图像中的文本的能力往往是缺乏的。我们如何才能学习出强大的场景文本理解(STU)的V&L模型呢?本文提出了PreSTU,一个专门为场景文本理解而设计的简单预训练模型。PreSTU将一个简单的OCR感知预训练目标与一个具有现成OCR信号的大规模图像-文本数据集相结合。我们在TextVQA、TextCaps、ST-VQA和VizWiz-VQA上经验性地证明了这个预训练目标的优越性。我们还研究了哪些因素会影响STU的性能,其中我们强调了图像分辨率和数据集规模在预训练中的重要性。【出发点】
  在真实世界中的视觉语言任务中,有大量的图像是包含场景文本的。理解图像中的文本对于视觉语言任务来说,往往是重要的,例如发票识别整理、机器人理解环境等。而现有模型经常忽略这一信息。通过对图像OCR信号引入,可以提升视觉语言模型对图像的理解能力。论文基于大规模的图像文本数据集,设计了进行场景文本理解的预训练模型PreSTU。【解决方案】
  1. 引入一个OCR文本生成的预训练任务"SPLITOCR":给定图像patches,随机将OCR文本分为两个部分,给定第一部分,令模型预测第二部分的OCR文本。
  2. 使用Prompt learning的方式,输入各个任务所对应的提示词,使得模型能够更好地适配下游任务。论文中使用image captioning和VQA两个任务。【总体框架】
  模型结构图
  如图,模型整体是一个Encoder-Decoder结构,其中视觉encoder采用ViT-B/16 (Dosovitskiy et al., 2021),语言encoder-decoder采用mT5-Base (Xue et al., 2021)。ViT是一个基于Transformer encoder的,在大规模图像分类数据集上预训练的模型。mT5是T5模型(Raffel et al., 2020)的多语言版本,在大规模多语言数据集上预训练,它对OCR识别结果当中出现的识别错误比较健壮,因为使用了wordpiece的方法。
  在预训练阶段,将图像中场景文本的OCR信息与图像特征一同输入Encoder,可以使OCR文本与视觉环境更好的联系在一起。通过对余下的OCR文本的预测,模型能够学习出一定的场景文本识别能力,这使得模型同时对视觉和文本两种模态的建模能力得到提升。【细节】SPLITOCR任务
  1. 目标:在预训练阶段使模型学习如何从图像中识别场景文本。
  2. 具体步骤:
  1) 首先将OCR文本按照在图中出现的位置排序(从左到右,从上到下);
  2) 将OCR文本随机切分为2部分,分别作为输入和预测目标。值得注意的是,如果切分出的第1部分的长度为0,则SPLITOCR任务就退化为了一个传统的OCR任务。
  3. 优势:
  1) 令模型预测部分OCR文本,使得模型具备一定的完成OCR任务的能力,从而能够增强其阅读场景文本的能力;
  2) 输入时引入部分OCR文本,使得输入的形式接近下游任务的形式(都是文本),更便于迁移学习;
  3) 便于与其他训练目标相结合,例如image captioning。预训练数据集
  CC15M:是CC3M (Sharma et al., 2018)和CC12M (Changpinyo et al., 2021)的并集。数据集的形式是<图像, 标题>对。进行SPLITOCR目标时,采用Google Cloud OCR系统获取OCR文本的信息。Fine-tuning阶段
  所有下游任务都具有这样的形式:输入是图像+文本,输出只有文本。使用Google OCR获取图片中的场景文本。
  进行image captioning任务时,输入为<图像,提示词,OCR token>,输出目标为图像标题;进行场景文本VQA任务时,输入为<图像,提示词,问题,OCR token>,输出为问题的回答。【实验】主要结果
  实验采用4个benchmarks:TextVQA (Singh et al., 2019) 、ST-VQA (Biten et al., 2019) 、VizWiz-VQA (Gurari et al., 2018) 、TextCaps (Sidorov et al., 2020) 。实验Baseline采用去掉SPLITOCR预训练的本模型PreSTU,同时也对比了以下预训练方法:TAP (Yang et al., 2021) 、Flamingo (Alayrac et al., 2022) 、GIT (Wang et al., 2022a) 。实验结果如表所示。
  主要结果
  采用SPLITOCR预训练后,PreSTU在所有指标上都相对baseline有提升,这证明了SPLITOCR的有效性,能够赋予模型场景文本阅读的能力。
  对比其他模型:PreSTU模型参数和数据量比TAP多,结果也更高一些,除了TextVQA略低;参数量和数据量与GITL基本一致,在所有指标高于GITL;参数量和数据量比Flamingo和GIT小,但结果上没有显著地低。消融实验
  1. 对比SPLITOCR目标与传统OCR目标(TextCaps CIDEr指标):如表,SPLITOCR比OCR预训练的模型结果高,由126.7提升到134.6;
  OCR与SPLITOCR对比
  2. 在Fine-tuning阶段去掉输入的OCR文本:如表,去掉OCR文本后,各模型都有下降,但baseline模型结果下降更多。OCR/SPLITOCR预训练的模型即便Finetune时不使用OCR文本,结果也比baseline高(116.6/110.4 > 99.6)。这说明SPLITOCR预训练目标能够很好的使模型获得场景文本的阅读能力。
  Fine tuning时去掉OCR输入的影响
  3. 预训练时的图像分辨率:如表,高分辨率的图像会获得更好的结果。
  图像分辨率的影响
  4. 预训练的数据规模:如表,数据规模越大,结果越好。
  预训练数据规模的影响【结论】
  1. SPLITOCR预训练目标能够使模型的场景文本阅读能力得到提升,从而提高下游任务的结果
  2. 对于PreSTU模型来说,预训练图像的分辨率以及数据量很重要。
  • 论文地址:https://arxiv.org/abs/2209.05534【参考文献】
  1. Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, and Neil Houlsby. 2021. An image is worth 16x16 words: Transformers for image recognition at scale. In ICLR.
  2. Linting Xue, Noah Constant, Adam Roberts, Mihir Kale, Rami Al-Rfou, Aditya Siddhant, Aditya Barua, and Colin Raffel. 2021. mT5: A massively multilingual pre-trained text-totext transformer. In NAACL.
  3. Piyush Sharma, Nan Ding, Sebastian Goodman, and Radu Soricut. 2018. Conceptual Captions: A cleaned, hypernymed, image alt-text dataset for automatic image captioning. In ACL.
  4. Soravit Changpinyo, Piyush Sharma, Nan Ding, and Radu Soricut. 2021. Conceptual 12M: Pushing web-scale imagetext pre-training to recognize long-tail visual concepts. In CVPR.
  5. Amanpreet Singh, Vivek Natarajan, Meet Shah, Yu Jiang, Xinlei Chen, Dhruv Batra, Devi Parikh, and Marcus Rohrbach. 2019. Towards VQA models that can read. In CVPR.
  6. Ali Furkan Biten, Ruben Tito, Andres Mafla, Lluis Gomez, Marçal Rusinol, Ernest Valveny, C.V. Jawahar, and Dimosthenis Karatzas. 2019. Scene text visual question answering. In ICCV.
  7. Danna Gurari, Qing Li, Abigale J. Stangl, Anhong Guo, Chi Lin, Kristen Grauman, Jiebo Luo, and Jeffrey P. Bigham. 2018. VizWiz Grand Challenge: Answering visual questions from blind people. In CVPR.
  8. Oleksii Sidorov, Ronghang Hu, Marcus Rohrbach, and Amanpreet Singh. 2020. TextCaps: a dataset for image captioning with reading comprehension. In ECCV.
  9. Zhengyuan Yang, Yijuan Lu, Jianfeng Wang, Xi Yin, Dinei Florencio, Lijuan Wang, Cha Zhang, Lei Zhang, and Jiebo Luo. 2021. TAP: Text-aware pre-training for text-vqa and text-caption. In CVPR.
  10. Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katie Millican, Malcolm Reynolds, et al. 2022. Flamingo: a visual language model for few-shot learning. arXiv preprint arXiv:2204.14198.
  11. Jianfeng Wang, Zhengyuan Yang, Xiaowei Hu, Linjie Li, Kevin Lin, Zhe Gan, Zicheng Liu, Ce Liu, and Lijuan Wang. 2022a. GIT: A generative image-to-text transformer for vision and language. arXiv preprint arXiv:2205.14100.
  点击下方,第一时间了解华为云新鲜技术~
  华为云博客_大数据博客_AI博客_云计算博客_开发者中心-华为云

体制内藏拙的重要性,千万不要锋芒毕露年轻人进入体制内一定要学会藏拙,这既是明哲保身,也是一种为官之道,更是在体制内的生存之道。其实,当一个人进入到体制之后,他的未来基本上已经定型,比如说,在老张这样的单位里面,如果你我身边也有个李强,很担心做出过激行为据报道,四川乐山一民警李某持枪伤人疑因感情纠纷及债务纠纷引起。作为一个工作了十多年的民警,一个平时大家都认为是很老实的好人,一个在50天里连续两次跳水救人的英雄,是什么把他逼上绝路军企共建鱼水情深山西中威能源集团开展庆八一拥军慰问活动标题加强军企共建同叙鱼水情深山西中威能源集团开展庆八一拥军慰问活动在八一建军节即将到来之际,7月30日上午,山西中威能源集团有限公司董事长武清林一行带队前往武警太原支队某单位走访慰外交部新闻(2022年7月30日)2022年7月29日外交部发言人赵立坚主持例行记者会总台CGTN记者我们注意到,近日雅万高铁建设全面转入线上施工阶段,巴基斯坦卡洛特水电站全面投入运营。同时,中方对阿富汗斯里兰卡等康熙制作人揭红馆事故关键筹备时间被压榨,巨幕安装业余距离红馆演唱会重大事故已经过去了一天,两位受伤的专业舞者李启言和张梓峯的状况也获悉了最新的进展,由于李启言首当其冲被600公斤正中,造成了颈椎骨折和神经断裂,经过两次手术仍没有太大糊咖艺人组团搞综艺,结果口碑炸裂,9。6分登顶国内口碑综艺榜没人会料到,国内口碑综艺榜上排第一的,居然会是6个糊咖艺人,凑在一起搞出来的敷衍之作。被超过8万人打出9。6的超级高分。没有拿到满分的原因是太好笑了,在宿舍会吵到别人。这群糊咖里,赌王幼女何超欣上新闻,出席重要活动暴瘦认不出,上月从清华毕业饿了吗?戳右边关注我们,每天给您送上最新出炉的娱乐硬核大餐!7月30日,港媒报道了赌王幼女何超欣的近况,称她近日出席世界青年发展论坛,打扮得很大方得体,才貌兼备,十分优秀。据悉,何越来越精彩了从美国目前的表态来看,洛佩西是铁定亚洲行了,但是会不会台湾行,目前还真的不好说,因为我们官方的表态很坚决,已经在福建海域进行实弹演习,一些军方也表态备战,但是美军里根号航母战斗群已美货币政策作祟拉美国家经济面临严峻挑战新华社墨西哥城7月28日电(国际观察)美货币政策作祟拉美国家经济面临严峻挑战新华社记者赵凯王钟毅近期公布的一系列数据显示,巴西阿根廷等拉美主要经济体经济今年上半年实现增长,但增速与宇宙最高伴娘团!张常宁吴冠希杭州大婚,5大女排冠军伴娘最矮1米827月30日消息,30日,中国女排奥运冠军张常宁和江苏男篮中锋吴冠希在杭州举行大婚,由于夫妻双方都是体坛名将,伴郎伴娘也基本都是队友,因此张常宁拥有了宇宙最高伴娘团,平均身高1米87拉风!张常宁吴冠希杭州大婚,新郎率红旗车队接亲,富人区绕城一圈7月30日消息,30日,中国女排奥运冠军张常宁和江苏男篮中锋吴冠希在杭州举行大婚,一大早,新郎吴冠希率领伴郎团开着红旗车队去香格里拉酒店接亲,场面十分拉风。张常宁和吴冠希是中国体坛
揉面发酵二合一,小白首选千元级长帝厨师机前言自从十月底入了长帝的烤箱之后,餐桌上的品类都丰富了许多,烤肉小食和蛋糕这类我这刚入门的小白都能轻松拿捏,家里人也时不时买些红薯水果鸡翅啥的烤烤,全家都成了它的忠粉,连带着长辈们中介包装后能省一大笔利息,最近大火的经营贷还按揭到底有多大风险?之前我的两套房子共有房贷145万,但两套房子的房贷利率很高,一套是4。75,另一套是6。1,每个月还房贷就要9000元左右。在得知可获得3。7的经营贷利率后,杭州购房者文静心动了。刘铭传得了一件战利品,没想到却为子孙后代带来了无尽的苦恼1950年2月28日,北京文化部为捐赠宝物的刘肃曾,颁发了奖状,对刘家几代人为了保护宝物,献宝的行为进行褒奖。3月,文化部在北海公园举行了宝物的特展,让更多的人看到这件宝物。刘肃曾大雨冲出古墓,挖出古人生活用品,专家惊呼比金银珠宝还珍贵1975年盛夏,黑龙江省绥棱县突降暴雨。次日一早,老李下地看庄稼,就看到小水坑里闪闪发光,竟是铜钱和小银锭!发财了,老李顺着水流一路捡,结果捡到自家地头的土坡,一个坑洞出现在老李面神回复10后试图炫耀新世界结果遇到了见过大风大浪的90后要不是游戏的功能只能这样。这卡姿兰的大眼睛。虫没有物质的爱情就是一盘散沙,没有我的白菜都是科技与狠活。众所周知,纽约外号小新乡。吴语区应该都能懂。手机壳(女)手机(男)慈母手中剑,落实水利投资585。2亿元!湖北省提前完成全年计划目标今年以来,湖北省水利系统扎实推进,周密会商调度,克难攻坚,截至11月中旬,全省水利落实投资585。2亿元,同比增加182。2亿元,增幅达45。2,提前实现全年计划目标,为稳住宏观经为什么很多人养老保险缴费的目标是15年,退休养老金待遇怎么算?在日常谈话中,我们会经常听到我的养老保险已经缴够15年了,还要不要继续交呀?这样的疑问。为什么很多人养老保险缴费的目标是15年?按照社会保险法第16条规定,参加基本养老保险的个人,护花神那都在云南丽江,我曾经问过好多人,知道那都吗?大都摇头知道玉峰寺吗?摇头者居多知道万朵山茶花吗?皆点头。这棵由双株靠栽一体的合欢古山茶树,就在云南丽江玉龙雪山南麓的玉峰寺。因每年开花两现在的社会,人与人之间的关系,冷漠的可怕现在的社会,人与人之间的关系,冷漠的可怕,即使是亲兄弟姐妹,成年立业后,也是越来越冷淡,有些兄弟姐妹之间的关系连朋友都不如,你过好了她们嫉妒你,过得不好就看不起你,彼此之间都互相攀钟南山感染不可怕,绝大部分感染者可在710天恢复在今天上午8时举行的中华医学会呼吸病学年会2022视频会议中,中国工程院院士钟南山院士做了题为新冠奥密克戎(Omicron)疫情动态及应对的报告。钟南山强烈呼吁加速疫苗接种特别是异自游家交付前夕生变天才少年李一男造车路上摔跟头图片来源自游家汽车官网出品搜狐财经原标题自游家交付前夕生变天才少年李一男造车路上摔跟头,造车资质或为绊脚石从上市到宣布短期无法交付,自游家NV经历了两个月。12月7日早间,NIUT