专栏电商日志财经减肥爱情
投稿投诉
爱情常识
搭配分娩
减肥两性
孕期塑形
财经教案
论文美文
日志体育
养生学堂
电商科学
头戴业界
专栏星座
用品音乐

PreSTU一个专门为场景文本理解而设计的简单预训练模型

  本文分享自华为云社区《场景文本理解预训练PreSTU云社区华为云》,作者:Hint。【论文摘要】
  在视觉与语言(VL)模型中,阅读和推理图像中的文本的能力往往是缺乏的。我们如何才能学习出强大的场景文本理解(STU)的VL模型呢?本文提出了PreSTU,一个专门为场景文本理解而设计的简单预训练模型。PreSTU将一个简单的OCR感知预训练目标与一个具有现成OCR信号的大规模图像文本数据集相结合。我们在TextVQA、TextCaps、STVQA和VizWizVQA上经验性地证明了这个预训练目标的优越性。我们还研究了哪些因素会影响STU的性能,其中我们强调了图像分辨率和数据集规模在预训练中的重要性。【出发点】
  在真实世界中的视觉语言任务中,有大量的图像是包含场景文本的。理解图像中的文本对于视觉语言任务来说,往往是重要的,例如发票识别整理、机器人理解环境等。而现有模型经常忽略这一信息。通过对图像OCR信号引入,可以提升视觉语言模型对图像的理解能力。论文基于大规模的图像文本数据集,设计了进行场景文本理解的预训练模型PreSTU。【解决方案】
  1。引入一个OCR文本生成的预训练任务SPLITOCR:给定图像patches,随机将OCR文本分为两个部分,给定第一部分,令模型预测第二部分的OCR文本。
  2。使用Promptlearning的方式,输入各个任务所对应的提示词,使得模型能够更好地适配下游任务。论文中使用imagecaptioning和VQA两个任务。【总体框架】
  模型结构图
  如图,模型整体是一个EncoderDecoder结构,其中视觉encoder采用ViTB16(Dosovitskiyetal。,2021),语言encoderdecoder采用mT5Base(Xueetal。,2021)。ViT是一个基于Transformerencoder的,在大规模图像分类数据集上预训练的模型。mT5是T5模型(Raffeletal。,2020)的多语言版本,在大规模多语言数据集上预训练,它对OCR识别结果当中出现的识别错误比较健壮,因为使用了wordpiece的方法。
  在预训练阶段,将图像中场景文本的OCR信息与图像特征一同输入Encoder,可以使OCR文本与视觉环境更好的联系在一起。通过对余下的OCR文本的预测,模型能够学习出一定的场景文本识别能力,这使得模型同时对视觉和文本两种模态的建模能力得到提升。【细节】SPLITOCR任务
  1。目标:在预训练阶段使模型学习如何从图像中识别场景文本。
  2。具体步骤:
  1)首先将OCR文本按照在图中出现的位置排序(从左到右,从上到下);
  2)将OCR文本随机切分为2部分,分别作为输入和预测目标。值得注意的是,如果切分出的第1部分的长度为0,则SPLITOCR任务就退化为了一个传统的OCR任务。
  3。优势:
  1)令模型预测部分OCR文本,使得模型具备一定的完成OCR任务的能力,从而能够增强其阅读场景文本的能力;
  2)输入时引入部分OCR文本,使得输入的形式接近下游任务的形式(都是文本),更便于迁移学习;
  3)便于与其他训练目标相结合,例如imagecaptioning。预训练数据集
  CC15M:是CC3M(Sharmaetal。,2018)和CC12M(Changpinyoetal。,2021)的并集。数据集的形式是图像,标题对。进行SPLITOCR目标时,采用GoogleCloudOCR系统获取OCR文本的信息。Finetuning阶段
  所有下游任务都具有这样的形式:输入是图像文本,输出只有文本。使用GoogleOCR获取图片中的场景文本。
  进行imagecaptioning任务时,输入为图像,提示词,OCRtoken,输出目标为图像标题;进行场景文本VQA任务时,输入为图像,提示词,问题,OCRtoken,输出为问题的回答。【实验】主要结果
  实验采用4个benchmarks:TextVQA(Singhetal。,2019)、STVQA(Bitenetal。,2019)、VizWizVQA(Gurarietal。,2018)、TextCaps(Sidorovetal。,2020)。实验Baseline采用去掉SPLITOCR预训练的本模型PreSTU,同时也对比了以下预训练方法:TAP(Yangetal。,2021)、Flamingo(Alayracetal。,2022)、GIT(Wangetal。,2022a)。实验结果如表所示。
  主要结果
  采用SPLITOCR预训练后,PreSTU在所有指标上都相对baseline有提升,这证明了SPLITOCR的有效性,能够赋予模型场景文本阅读的能力。
  对比其他模型:PreSTU模型参数和数据量比TAP多,结果也更高一些,除了TextVQA略低;参数量和数据量与GITL基本一致,在所有指标高于GITL;参数量和数据量比Flamingo和GIT小,但结果上没有显著地低。消融实验
  1。对比SPLITOCR目标与传统OCR目标(TextCapsCIDEr指标):如表,SPLITOCR比OCR预训练的模型结果高,由126。7提升到134。6;
  OCR与SPLITOCR对比
  2。在Finetuning阶段去掉输入的OCR文本:如表,去掉OCR文本后,各模型都有下降,但baseline模型结果下降更多。OCRSPLITOCR预训练的模型即便Finetune时不使用OCR文本,结果也比baseline高(116。6110。499。6)。这说明SPLITOCR预训练目标能够很好的使模型获得场景文本的阅读能力。
  Finetuning时去掉OCR输入的影响
  3。预训练时的图像分辨率:如表,高分辨率的图像会获得更好的结果。
  图像分辨率的影响
  4。预训练的数据规模:如表,数据规模越大,结果越好。
  预训练数据规模的影响【结论】
  1。SPLITOCR预训练目标能够使模型的场景文本阅读能力得到提升,从而提高下游任务的结果
  2。对于PreSTU模型来说,预训练图像的分辨率以及数据量很重要。
  论文地址:https:arxiv。orgabs2209。05534【参考文献】
  1。AlexeyDosovitskiy,LucasBeyer,AlexanderKolesnikov,DirkWeissenborn,XiaohuaZhai,ThomasUnterthiner,MostafaDehghani,MatthiasMinderer,GeorgHeigold,SylvainGelly,JakobUszkoreit,andNeilHoulsby。2021。Animageisworth16x16words:Transformersforimagerecognitionatscale。InICLR。
  2。LintingXue,NoahConstant,AdamRoberts,MihirKale,RamiAlRfou,AdityaSiddhant,AdityaBarua,andColinRaffel。2021。mT5:Amassivelymultilingualpretrainedtexttotexttransformer。InNAACL。
  3。PiyushSharma,NanDing,SebastianGoodman,andRaduSoricut。2018。ConceptualCaptions:Acleaned,hypernymed,imagealttextdatasetforautomaticimagecaptioning。InACL。
  4。SoravitChangpinyo,PiyushSharma,NanDing,andRaduSoricut。2021。Conceptual12M:Pushingwebscaleimagetextpretrainingtorecognizelongtailvisualconcepts。InCVPR。
  5。AmanpreetSingh,VivekNatarajan,MeetShah,YuJiang,XinleiChen,DhruvBatra,DeviParikh,andMarcusRohrbach。2019。TowardsVQAmodelsthatcanread。InCVPR。
  6。AliFurkanBiten,RubenTito,AndresMafla,LluisGomez,MaralRusinol,ErnestValveny,C。V。Jawahar,andDimosthenisKaratzas。2019。Scenetextvisualquestionanswering。InICCV。
  7。DannaGurari,QingLi,AbigaleJ。Stangl,AnhongGuo,ChiLin,KristenGrauman,JieboLuo,andJeffreyP。Bigham。2018。VizWizGrandChallenge:Answeringvisualquestionsfromblindpeople。InCVPR。
  8。OleksiiSidorov,RonghangHu,MarcusRohrbach,andAmanpreetSingh。2020。TextCaps:adatasetforimagecaptioningwithreadingcomprehension。InECCV。
  9。ZhengyuanYang,YijuanLu,JianfengWang,XiYin,DineiFlorencio,LijuanWang,ChaZhang,LeiZhang,andJieboLuo。2021。TAP:Textawarepretrainingfortextvqaandtextcaption。InCVPR。
  10。JeanBaptisteAlayrac,JeffDonahue,PaulineLuc,AntoineMiech,IainBarr,YanaHasson,KarelLenc,ArthurMensch,KatieMillican,MalcolmReynolds,etal。2022。Flamingo:avisuallanguagemodelforfewshotlearning。arXivpreprintarXiv:2204。14198。
  11。JianfengWang,ZhengyuanYang,XiaoweiHu,LinjieLi,KevinLin,ZheGan,ZichengLiu,CeLiu,andLijuanWang。2022a。GIT:Agenerativeimagetotexttransformerforvisionandlanguage。arXivpreprintarXiv:2205。14100。
  点击下方,第一时间了解华为云新鲜技术
  华为云博客大数据博客AI博客云计算博客开发者中心华为云

中华历史两千问164药王孙思邈问题一参考故事第1句,千金方。问题二参考第11段,导尿术。也有一个完整的小故事。问题三第2段,药王。问题四倒数第2段,新修本草,也称为唐修本草唐本草。问题五倒数第1段,太医署。邈m15万级拥有620km续航,空间宽敞的合创Z03值得买吗?内容摘自阿喵汽车新能源热潮超速席卷而来,与早年SUV风靡时一致,市场上依旧是紧凑型SUV最先火热,其中自然是年轻购车主体的新的用车需求所导致。与此同时,相应车型也是层出不穷,其中合双十一旗舰手机推荐3款机型各有神通,胡桃定制512GB太香了当下双11剁手节火热进行中,相信各位朋友们都已经挑选到心仪之物了,而10月31号也将迎来付尾款的关键时间点,众多品牌以及电商平台还放出了大额福利券供用户领取,对于想要入手手机的朋友吃花生,能养生?研究发现花生让血管更健康,但怎么吃才正确?花生,一种再常见不过的作物,它于明代传入我国。花生除了具有食用价值外,也属于典型的油料作物,目前我国有超过一半的花生被用于榨油,其出油率高达4050,远高于我们所熟知的大豆(121摊牌了?苹果新品今年不发布了,外媒最快等到明年三月你发现了吗?苹果是不是水逆了,近期似乎不太顺。先是富士康导致iPhone减产,又爆出苹果Mac今年不发布了,外媒也透露,最快要到明年3月才更新。而不少网友评论,这不就相当于摊牌了,1张表教你认识唐朝108个官职在唐朝当官是种什么体验?唐代的官职分为职事官散阶勋官爵位等,一个官员可以同时拥有这几项官职。那么具体官职又是什么意思呢?今天刘海就给大家侃一侃。一职事官,简单来说,就是指他的职位和拳打高通脚踢苹果?天玑9200即将发布华为P60系列曝光文名动科技要说近两年手机市场中用户口碑最好的处理器,相信排名第一的会是联发科天玑9000!确实,由于近两年高通骁龙的各种摆烂,接连推出了骁龙888888Plus以8Gen1等备受用消逝的西康省清末孕育成型,民国艰难求生大家可能都知道,康定是今天四川省甘孜藏族自治州的首府,但估计鲜少有人了解,康定在历史上曾担任过西康省省会,它是连接川藏的咽喉之地,也是汉藏文化的交汇中心。新中国成立后,设立仅16年成年人的生活真相安全感都是钱给的2022年,大环境的变化依然捉摸不定,很多公司都走上了收缩的道路,连曾经最被看好的互联网行业,裁员潮也是此起彼伏。大厂接连裁员,打工收入不稳定自去年开始,就不断有互联网大厂裁员的消赞友商城的期权比币更有价值为什么这样讲呢?首先,我们祖国有庞大的市场,无论是消费还是工业生产又或者是投资都能极大的满足全世界需求。当然了,赞友商城属于本土企业,我对它非常的看好,只要完成资源整合。它将是未来华为新专利可根据用户身高调节座舱新京报贝壳财经讯10月31日,企查查APP显示,近日,华为技术有限公司座舱系统调节装置和用于调节座舱系统的方法专利获授权。企查查专利摘要显示,该装置包括标定控制模块,用于控制HUD
评分泰山逆转裁判迷途知返,克雷桑天道酬勤,段刘愚冰火两重天山东泰山21逆转梅州客家,距离榜首武汉三镇仅有1分差距,可喜可贺。但纵观本场泰山队的整体状态,还是有让人心忧的地方,具体通过球员评分来看王大雷7。6分,梅州客家全场13次射门,8次中超最新积分榜泰山不负众望国安力克海港排名不变广州无奈取一分北京时间10月5日,中超联赛第21轮赛事,再赛5场比赛全部战罢,最新战况积分榜山东泰山客场21逆转绝杀梅州客家,双方攻势不断,科索维奇世界波首开纪录,克雷桑闪电扳平,郑铮任意球破门广东不起眼的县城,GDP很低却有着中国唯一的县级中超球队我的小家和大家Hello,大家好,这里是xiang浩看世界。足球作为世界第一运动,在我国却始终没有得到进步和有效的推广,在一系列的赛事之中,最近的国足都是作为一个参赛者冠军见证者的长春南溪湿地公园,上新啦!国庆假期小伙伴们的行程是不是要排满啦这里还有一个好地方超好看哦!长春南溪湿地公园水幕电影你看了吗?形光声电完美组合充满灵性的水体随音乐旋律波光流转,千变万化灵动的音符盛放的莲花飞驰3比1!中国队新武磊爆发单场梅开二度,帮助球队完胜欧洲劲旅日前,在欧洲拉练的U21国足跟克罗地亚乙级联赛领头羊进行了一场对抗赛。这场比赛U21国足踢得非常好,靠着刘祝润的梅开二度和易县龙的锦上添花,以3比1战胜对手。毫无疑问,梅开二度的刘森林狼胜热火!三节轰24分,状元比两个2亿球星更适合做球队老大近日NBA官方对于联盟总经理们进行了调查报告,其中在哪支球队进行运作最佳方面,森林狼获得17的得票率排在联盟第二仅次于骑士,而森林狼之所以能够进入这份榜单是因为今夏他们通过10换1二十大代表风采丨人生最精彩的是坚持梦想的过程记二十大代表中国场地自行车奥运冠军钟天使开栏的话在以习近平同志为核心的党中央坚强领导下,按照党章规定和党中央统一部署,全国38个选举单位选举产生了2296名党的二十大代表。党的二十大代表是共产党员中的优秀分子,具有先进性中国工业机器人冠军年销量突破1万台,挑战发那科安川去年中国工业机器人市场安装量同比增长44至24。33万台,占全球工业机器人总安装量的一半,几乎是整个美洲和欧洲工厂的两倍。其中,电气和电子行业汽车行业的工业机器人安装量分别为8。1任嘉伦费加罗向光而行新封面预告,花式风衣秀剧照,气场全开向光而行的任嘉伦,请君花式风衣秀剧照,气场全开!任嘉伦费加罗男士封面预告,恭喜任嘉伦解锁新杂志,有太多惊喜,假期请君开启5天连播模式,陆炎真的好让人上火,炎将军的威武霸气已经溢出屏大胜利物浦力克米兰暴揍贾府金玟哉在这几年经历了什么?从2019年到2021年5月,金玟哉一直效力于中超俱乐部北京国安,国安也视其为球队的未来,以及可以缓解球队财政压力的宝藏,但随着5月份金玟哉回到韩国,中超俱乐部存活压力越来越大,北欧冠英超之夜!曼城切尔西大胜,梅西世界波,大巴黎11北京时间10月6日,欧冠第三轮再战8场,这绝对是一个英超之夜,期间切尔西和曼城2强全部大胜对手,他们联手轰进8球,而且一球未丢,表现异常强悍。此外大巴黎连胜的节奏被打断,本轮没能拿
友情链接:快好找快生活快百科快传网中准网文好找聚热点快软网