微软亚研院LanguageIsNotAllYouNeed
鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI
还记得这张把谷歌AI搞得团团转的经典梗图吗?
现在,微软亚研院的新AI可算是把它研究明白了。
拿着这张图问它图里有啥,它会回答:我看着像鸭子。
但如果你试图跟它battle,它就会改口:看上去更像兔子。并且还解释得条条是道:
图里有兔子耳朵。
是不是有点能看得懂图的ChatGPT内味儿了?
这个新AI名叫Kosmos-1,谐音Cosmos(宇宙)。AI如其名,本事确实不小:图文理解、文本生成、OCR、对话QA都不在话下。
甚至连瑞文智商测试题都hold住了。
而具备如此能力的关键,就写在论文的标题里:Language is not all you need。多模态大语言模型
简单来说,Kosmos-1是一种把视觉和大语言模型结合起来的多模态大语言模型。
在感知图片、文字等不同模态输入的同时,Kosmos-1还能够根据人类给出的指令,以自回归的方式,学习上下文并生成回答。
研究人员表示,在多模态语料库上从头训练,不经过微调,这个AI就能在语言理解、生成、图像理解、OCR、多模态对话等多种任务上有出色表现。
比如甩出一张猫猫图,问它这照片好玩在哪里,Kosmos-1就能给你分析:猫猫戴上了一个微笑面具,看上去就像在笑。
又比如让它看一眼MSRA用来高效训练大模型的TorchScale工具包的主页,Kosmos-1也能快速get这个库是用来干啥的。
Kosmos-1还能理解图像上下文。发一张食物的照片给它,这个AI不仅能回答你这是什么,还能在你追问如何烹饪时,给出食谱和烹调小建议。
Kosmos-1的骨干网络,是一个基于Transformer的因果语言模型。Transformer解码器作为通用接口,用于多模态输入。
用于训练的数据来自多模态语料库,包括单模态数据(如文本)、跨模态配对数据(图像-文本对)和交错的多模态数据。
值得一提的是,虽说"Language is not all you need",但为了让Kosmos-1更能读懂人类的指示,在训练时,研究人员还是专门对其进行了仅使用语言数据的指令调整。
具体而言,就是用(指令,输入,输出)格式的指令数据继续训练模型。实验结果
研究人员在5大类共10个任务中,测试了Kosmos-1的效果,包括:语言任务:语言理解、语言生成、无OCR文本分类跨模态迁移:常识推理非语言推理:IQ测试(瑞文递进矩阵)感知-语言任务:图像说明、视觉QA、网页QA视觉任务:零样本图像分类、带描述的零样本图像分类
从实验结果上来看,Kosmos-1基本都hold住了。
零样本图像说明:
零样本视觉QA:
无OCR文本理解:
研究人员还提到,Kosmos-1是第一个能完成零样本瑞文智商测试的AI。
不过,跟成年人类的平均水平相比,AI的"智商"还差得有点远。随机选择的正确率为17%,而Kosmos-1经过指令调教之后,准确率为26%。
研究人员认为:
但Kosmos-1证明了多模态大模型有潜力将感知和语言结合起来,进行零样本的非语言推理。
另外,研究人员还展示了Kosmos-1处理复杂问答和推理任务的过程。关键在于多模态思维链提示 。
研究人员将感知-语言任务分解为两个步骤。第一步,给定一个图像,引导模型对图像进行分析。
第二步,把模型子集分析出来的结果再喂给它,并给出任务提示,以生成最后的答案。
这项新研究来自MSRA的韦福如团队。韦福如是微软亚洲研究院自然语言计算研究组主管研究员。
三位一作分别是Shaohan Huang、董力和Wenhui Wang。
论文地址:
https://arxiv.org/abs/2302.14045
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一时间获知前沿科技动态
由前MGTS首席执行官组建的公司收购了克里米亚电信公司据ZDnet网6月22日报道,据CNews报道,由莫斯科电信公司MGTS(MobileTeleSystemsMTS的一部分)的前首席执行官PavelKuznetsov创立的俄罗斯公
聪明投资者的3大特质,快来看看你拥有吗?每个人在开始投资后,都希望自己要么能买到市场上的牛基牛股,搭上高速列车一路躺赢要么能准确预判市场走势,卖在最高点,买在最低点。但在实际操作中,基民们往往容易在追涨时信心满满,跌到相
央视炸裂的顶级文案天花板(下)41。hr那些在深夜里睡不着的日子,那些面对深渊想要逃跑的瞬间,在日后看来都是非常珍贵的时刻。它让我们更加诚实的面对自己,只有认识它,接受它,我们才可能真正地超越它。董卿42。hr
连环画北游记之一玉帝转世。。。。。。
什么是高情商?什么是高情商?八面玲珑不是高情商。俞敏洪老师说一个人如果八面玲珑,能说会道,特别会来事,这个人根本不是情商高,这只是表象的友善,甚至有些趋炎附势委曲求全。攻心只能算是术,只能用于维
倾听王树国校长的感言非常喜欢西安交大王树国校长,喜欢他的博学多识,喜欢他的幽默风趣,喜欢他的人格魅力,喜欢他似自家长辈语重心长。他的忘却什么都可以,不能忘却祖国,祖国是生命之本,生存之本。不说远的,就
夜读丨遇事最高明的处理方式压住火,沉住气,稳住局绿标收听朗读音频文洞见安娜贝苏翁同龢写过一副对联每临大事有静气,不信今时无古贤。遇事的心态,决定处世的格局。心浮气躁者,一事无成沉着冷静者,百福自集。真正厉害的人,遇事压得住火,沉
要想友谊天长地久,就先学会这八个交友定律我们生活在这个世界上,难免要跟人打交道。作为群居动物,我们需要结识朋友,需要友情的温暖。不论是学生时代,还是工作以后,我们都会遇到不同的朋友。那么,你懂得如何让友谊天长地久吗?你跟
SpaceX将重复使用单个猎鹰9号火箭助推器13次,36小时三连发从6月17日的一次星链(Starlink)任务开始,SpaceX公司似乎要在36小时内发射了三枚猎鹰9号火箭。一枚猎鹰9号火箭将于美国东部时间6月17日中午1208分(北京时间6月
韩国太空计划终于发射升空韩国航空航天研究所(KARI)昨天成功地将国产的努里(Nuri)发射器送入太空,然后将一颗工作卫星送入轨道。发射原定于6月初进行,但由于天气原因推迟,随后又由于一级氧化剂罐的异常情
连续两次失败!韩国自研火箭世界号终于发射成功科幻网6月22日讯(王子钰)近日,韩国首款自研火箭世界号发射成功,搭载的模拟卫星已成功进入轨道,韩国也成为了全球第七个成功自研并发射火箭的国家。据朝鲜日报报道,世界号是完全由韩国自