本文分享自华为云社区《场景文本理解预训练PreSTU云社区华为云》,作者:Hint。【论文摘要】 在视觉与语言(VL)模型中,阅读和推理图像中的文本的能力往往是缺乏的。我们如何才能学习出强大的场景文本理解(STU)的VL模型呢?本文提出了PreSTU,一个专门为场景文本理解而设计的简单预训练模型。PreSTU将一个简单的OCR感知预训练目标与一个具有现成OCR信号的大规模图像文本数据集相结合。我们在TextVQA、TextCaps、STVQA和VizWizVQA上经验性地证明了这个预训练目标的优越性。我们还研究了哪些因素会影响STU的性能,其中我们强调了图像分辨率和数据集规模在预训练中的重要性。【出发点】 在真实世界中的视觉语言任务中,有大量的图像是包含场景文本的。理解图像中的文本对于视觉语言任务来说,往往是重要的,例如发票识别整理、机器人理解环境等。而现有模型经常忽略这一信息。通过对图像OCR信号引入,可以提升视觉语言模型对图像的理解能力。论文基于大规模的图像文本数据集,设计了进行场景文本理解的预训练模型PreSTU。【解决方案】 1。引入一个OCR文本生成的预训练任务SPLITOCR:给定图像patches,随机将OCR文本分为两个部分,给定第一部分,令模型预测第二部分的OCR文本。 2。使用Promptlearning的方式,输入各个任务所对应的提示词,使得模型能够更好地适配下游任务。论文中使用imagecaptioning和VQA两个任务。【总体框架】 模型结构图 如图,模型整体是一个EncoderDecoder结构,其中视觉encoder采用ViTB16(Dosovitskiyetal。,2021),语言encoderdecoder采用mT5Base(Xueetal。,2021)。ViT是一个基于Transformerencoder的,在大规模图像分类数据集上预训练的模型。mT5是T5模型(Raffeletal。,2020)的多语言版本,在大规模多语言数据集上预训练,它对OCR识别结果当中出现的识别错误比较健壮,因为使用了wordpiece的方法。 在预训练阶段,将图像中场景文本的OCR信息与图像特征一同输入Encoder,可以使OCR文本与视觉环境更好的联系在一起。通过对余下的OCR文本的预测,模型能够学习出一定的场景文本识别能力,这使得模型同时对视觉和文本两种模态的建模能力得到提升。【细节】SPLITOCR任务 1。目标:在预训练阶段使模型学习如何从图像中识别场景文本。 2。具体步骤: 1)首先将OCR文本按照在图中出现的位置排序(从左到右,从上到下); 2)将OCR文本随机切分为2部分,分别作为输入和预测目标。值得注意的是,如果切分出的第1部分的长度为0,则SPLITOCR任务就退化为了一个传统的OCR任务。 3。优势: 1)令模型预测部分OCR文本,使得模型具备一定的完成OCR任务的能力,从而能够增强其阅读场景文本的能力; 2)输入时引入部分OCR文本,使得输入的形式接近下游任务的形式(都是文本),更便于迁移学习; 3)便于与其他训练目标相结合,例如imagecaptioning。预训练数据集 CC15M:是CC3M(Sharmaetal。,2018)和CC12M(Changpinyoetal。,2021)的并集。数据集的形式是图像,标题对。进行SPLITOCR目标时,采用GoogleCloudOCR系统获取OCR文本的信息。Finetuning阶段 所有下游任务都具有这样的形式:输入是图像文本,输出只有文本。使用GoogleOCR获取图片中的场景文本。 进行imagecaptioning任务时,输入为图像,提示词,OCRtoken,输出目标为图像标题;进行场景文本VQA任务时,输入为图像,提示词,问题,OCRtoken,输出为问题的回答。【实验】主要结果 实验采用4个benchmarks:TextVQA(Singhetal。,2019)、STVQA(Bitenetal。,2019)、VizWizVQA(Gurarietal。,2018)、TextCaps(Sidorovetal。,2020)。实验Baseline采用去掉SPLITOCR预训练的本模型PreSTU,同时也对比了以下预训练方法:TAP(Yangetal。,2021)、Flamingo(Alayracetal。,2022)、GIT(Wangetal。,2022a)。实验结果如表所示。 主要结果 采用SPLITOCR预训练后,PreSTU在所有指标上都相对baseline有提升,这证明了SPLITOCR的有效性,能够赋予模型场景文本阅读的能力。 对比其他模型:PreSTU模型参数和数据量比TAP多,结果也更高一些,除了TextVQA略低;参数量和数据量与GITL基本一致,在所有指标高于GITL;参数量和数据量比Flamingo和GIT小,但结果上没有显著地低。消融实验 1。对比SPLITOCR目标与传统OCR目标(TextCapsCIDEr指标):如表,SPLITOCR比OCR预训练的模型结果高,由126。7提升到134。6; OCR与SPLITOCR对比 2。在Finetuning阶段去掉输入的OCR文本:如表,去掉OCR文本后,各模型都有下降,但baseline模型结果下降更多。OCRSPLITOCR预训练的模型即便Finetune时不使用OCR文本,结果也比baseline高(116。6110。499。6)。这说明SPLITOCR预训练目标能够很好的使模型获得场景文本的阅读能力。 Finetuning时去掉OCR输入的影响 3。预训练时的图像分辨率:如表,高分辨率的图像会获得更好的结果。 图像分辨率的影响 4。预训练的数据规模:如表,数据规模越大,结果越好。 预训练数据规模的影响【结论】 1。SPLITOCR预训练目标能够使模型的场景文本阅读能力得到提升,从而提高下游任务的结果 2。对于PreSTU模型来说,预训练图像的分辨率以及数据量很重要。 论文地址:https:arxiv。orgabs2209。05534【参考文献】 1。AlexeyDosovitskiy,LucasBeyer,AlexanderKolesnikov,DirkWeissenborn,XiaohuaZhai,ThomasUnterthiner,MostafaDehghani,MatthiasMinderer,GeorgHeigold,SylvainGelly,JakobUszkoreit,andNeilHoulsby。2021。Animageisworth16x16words:Transformersforimagerecognitionatscale。InICLR。 2。LintingXue,NoahConstant,AdamRoberts,MihirKale,RamiAlRfou,AdityaSiddhant,AdityaBarua,andColinRaffel。2021。mT5:Amassivelymultilingualpretrainedtexttotexttransformer。InNAACL。 3。PiyushSharma,NanDing,SebastianGoodman,andRaduSoricut。2018。ConceptualCaptions:Acleaned,hypernymed,imagealttextdatasetforautomaticimagecaptioning。InACL。 4。SoravitChangpinyo,PiyushSharma,NanDing,andRaduSoricut。2021。Conceptual12M:Pushingwebscaleimagetextpretrainingtorecognizelongtailvisualconcepts。InCVPR。 5。AmanpreetSingh,VivekNatarajan,MeetShah,YuJiang,XinleiChen,DhruvBatra,DeviParikh,andMarcusRohrbach。2019。TowardsVQAmodelsthatcanread。InCVPR。 6。AliFurkanBiten,RubenTito,AndresMafla,LluisGomez,MaralRusinol,ErnestValveny,C。V。Jawahar,andDimosthenisKaratzas。2019。Scenetextvisualquestionanswering。InICCV。 7。DannaGurari,QingLi,AbigaleJ。Stangl,AnhongGuo,ChiLin,KristenGrauman,JieboLuo,andJeffreyP。Bigham。2018。VizWizGrandChallenge:Answeringvisualquestionsfromblindpeople。InCVPR。 8。OleksiiSidorov,RonghangHu,MarcusRohrbach,andAmanpreetSingh。2020。TextCaps:adatasetforimagecaptioningwithreadingcomprehension。InECCV。 9。ZhengyuanYang,YijuanLu,JianfengWang,XiYin,DineiFlorencio,LijuanWang,ChaZhang,LeiZhang,andJieboLuo。2021。TAP:Textawarepretrainingfortextvqaandtextcaption。InCVPR。 10。JeanBaptisteAlayrac,JeffDonahue,PaulineLuc,AntoineMiech,IainBarr,YanaHasson,KarelLenc,ArthurMensch,KatieMillican,MalcolmReynolds,etal。2022。Flamingo:avisuallanguagemodelforfewshotlearning。arXivpreprintarXiv:2204。14198。 11。JianfengWang,ZhengyuanYang,XiaoweiHu,LinjieLi,KevinLin,ZheGan,ZichengLiu,CeLiu,andLijuanWang。2022a。GIT:Agenerativeimagetotexttransformerforvisionandlanguage。arXivpreprintarXiv:2205。14100。 点击下方,第一时间了解华为云新鲜技术 华为云博客大数据博客AI博客云计算博客开发者中心华为云