首次超越人类！读图会意这件事，AI比你眼睛更毒辣达摩院

　　金磊 发自 凹非寺
　　量子位 报道 | 公众号 QbitAI
　　在超越人类 这件事上，AI 又拿下一分。
　　就在最近，国际权威机器视觉问答榜单VQA Leaderboard ，更新了一项数据：
　　AI在＂读图会意＂任务中，准确率达到了 81.26% 。
　　要知道，我们人类 在这个任务中的基准线，也才80.83% 。
　　而解锁这一成就的，是来自阿里巴巴达摩院团队的AliceMind-MMU 。
　　而此举也就意味着，AI 于2015年、2018年分别在视觉识别和文本理解超越人类之后，在多模态技术方面也取得了突破！AI比你更会看图
　　这个AI有多会看图？
　　来看下面几个例子就知道了。
　　当你问AI：＂这些玩具用来做什么的？＂
　　它就会根据小熊穿的礼服，回答道：
　　婚礼。
　　给AI再提一个问题：＂男人的橄榄球帽代表哪只球队？＂
　　它会根据帽子中的＂B＂字母回答：
　　波士顿球队 。
　　加大挑战难度再来一个。
　　＂图中玩具人的IP出自哪部电影？＂
　　这时候，AI 就会根据图中的玩具，还有战斗场景等信息，做一个推理。
　　不过最后还是精准的给出了答案：
　　星球大战 。
　　再例如下面这些例子中，AI都会捕捉图片中的细节信息，来精准回答提出的问题。
　　嗯，可以说是细致入微了。怎么做到的？
　　可能上面的这些案例，对于人类来说并不是很困难。
　　但对于AI来说，可不是件容易的事情。
　　一个核心难点就是：
　　需要在单模态精准理解的基础上，整合多模态的信息进行联合推理认知，最终实现跨模态理解。
　　怎么破？
　　阿里达摩院的做法是，对AI视觉-文本推理体系进行了系统性的设计，融合了大量的创新算法。
　　具体来看，大致可以分为四个内容：多样性的视觉特征表示 ：从各方面刻画图片的局部和全局语义信息，同时使用Region，Grid，Patch等视觉特征表示，可以更精准地进行单模态理解； 基于海量图文数据和多粒度视觉特征的多模态预训练 ：用于更好地进行多模态信息融合和语义映射，提出了SemVLP、Grid-VLP、E2E-VLP和Fusion-VLP等预训练模型。 自适应的跨模态语义融合和对齐技术 ：在多模态预训练模型中加入Learning to Attend机制，来进行跨模态信息地高效深度融合。 Mixture of Experts (MOE）技术 ：进行知识驱动的多技能AI集成。
　　据了解，模型中涉及技术还得到了专业的认可。
　　例如多模态预训练模型E2E-VLP，已经被国际顶级会议ACL2021接受。
　　关于VQA
　　VQA，可以说是AI领域难度最高的挑战之一。
　　而对于单一AI模型来说，VQA考卷难度堪称＂变态＂。
　　在测试中，AI需要根据给定图片及自然语言问题，生成正确的自然语言回答。
　　这意味着单个AI模型，需要融合复杂的计算机视觉及自然语言技术：首先对所有图像信息进行扫描。 再结合对文本问题的理解，利用多模态技术学习图文的关联性、精准定位相关图像信息。 最后根据常识及推理回答问题。
　　但解决VQA的挑战，对研发通用人工智能具有重要意义。
　　因此，全球计算机视觉顶会CVPR从2015年起连续6年举办VQA挑战赛。
　　吸引了包括微软、Facebook、斯坦福大学、阿里巴巴、百度等众多顶尖机构参与。
　　同时，也形成了国际上规模最大、认可度最高的VQA数据集，其包含超20万张真实照片、110万道考题。
　　据了解，今年6月，阿里达摩院在VQA 2021 Challenge的55支提交队伍中夺冠，成绩领先第二名约1个百分点、去年冠军3.4个百分点。
　　而仅仅在2个月后的今天，达摩院再次以81.26%的准确率创造VQA Leaderboard全球纪录。
　　达摩院对此评价道：
　　这一结果意味着，AI在封闭数据集内的VQA表现已媲美人类。
　　相关论文链接：
　　[1]https://aclanthology.org/2021.acl-long.42/
　　[2]https://aclanthology.org/2021.acl-long.493/
　　[3]https://openreview.net/forum?id=Wg2PSpLZiH
　　VQA示例链接：
　　https://nlp.aliyun.com/portal#/multi_modal
　　达摩院AliceMind开源链接：
　　https://github.com/alibaba/AliceMind
　　— 完 —
　　量子位 QbitAI · 头条号签约
　　关注我们，第一时间获知前沿科技动态

2022年外媒最具性价比手机评选，意欲抛弃国产，结果5款占据了4款虽然苹果三星和华为在高端智能手机市场占据主导地位，但对更便宜的中低档手机的需求远比你想象的要大。对于大多数人来说，最新最好的手机不仅是一种奢侈品，而且制造商之间为了在新兴市场站稳脚科技部部长中国科技开放的大门只会越开越大中新网北京2月25日电（记者孙自法）中国科学技术部（科技部）部长王志刚25日强调，在改革开放历程中，科技开放始终走在前列。面向未来，中国科技开放的大门只会越开越大。国务院新闻办公室年底上市，最大续航1100km，3。9秒破百的哪吒S你期待吗？自去年4月上海车展正式发布后，哪吒S就承载了很多新能源用户的期待。而这台车也是不负众望，在各项测试中都取得了很不错的成绩，预计将于今年年底正式上市。作为哪吒品牌首款轿车，哪吒S在动俄乌网络战下网络安全概念股的机会股市的机会真是瞬息万变，正在大家想到俄乌战争引起的军工，进口商品如天然气关联的股票的投资机会时，没想到谎言国会在我国及很多国家惹事。俄乌战争时，除了真枪真炮的打仗，还有舆论战，网络四大报头条1。风光储氢2。钾肥价格3。天然气4。塑料污染风光储氢风光储氢协同发展，各地新能源产业集群雏形渐显！点评在双碳目标和十四五规划的背景下，各地都在积极打造新能源产业集群。风电光伏产能频频加码，许多企业也在加强垂直一体化的产能布局用什么软件可以更好管理订单和跟踪订单？供应链软件比如市面上比较常见的就是金蝶和用友了，金蝶软件的订单可以从订单的预收款，到发货，过程都能管控到。订单数量多少，实际发货多少，多少没有发货，预收多少，开票数量多少，未开票数国产芯片有机会逆袭啦这可不是空穴来风！咱们先说说芯片到底是什么芯片一般是集成电路上的载体一个集成电路上有上亿个晶体管我们经常说的7nm5nm指的是晶体管的宽度老外把晶体管的宽度叫做GATE翻译过来就是俄罗斯当局宣布将对Meta（FB。US）旗下Facebook访问实施部分限制智通财经APP获悉，周五，俄罗斯当局宣布将对Meta（FB。US）旗下Facebook的访问实施部分限制。此前该社交媒体因俄罗斯入侵乌克兰而限制了几个克里姆林宫支持的媒体账户。俄罗美国为何不切断俄罗斯的互联网？其实俄已经做好准备为了惩罚俄罗斯入侵乌克兰，美国也可选择采用破坏性的网络攻击，对俄罗斯以眼还眼，以牙还牙。在更广泛的层面上，制裁专家讨论了完全切断俄罗斯等国与全球互联网的联系的可能性，而该方法也是许菜鸟五大核心板块，8年磨一剑！数字化，全球化成其显著优势都说团结就是力量，团结确实可以让企业具有凝聚力和向心力而坚持是一种魅力，则能够体现出企业领导人的自信力和卓越的前瞻力。我们注意到菜鸟物流8年来坚持在数字化方面不断投入，加大开发与应今日热点点星巴克被教做人引争议，罗永浩挖角新东方今日看点点星巴克被教做人引争议，官方已与顾客沟通并获理解罗永浩挖角新东方2021年我国科研投入约2。79万亿元小米Civi产品经理证实没有小米12青春版京东收购达达获得监管批准将于

<<<<<<－>>>>>>

暗网有多恐怖？亲历者对它闭口不谈，因为这里不是自由，而是地狱自上世纪90年代，微型计算机走出实验室，进入社会生活，与之相匹配的互联网就成为我们生活的必需品。娱乐购物需要互联网，办公学习需要互联网，健康医疗需要互联网，我们的一天24小时，变成js函数式编程不要再使用for循环啦，试试map吧楔子在JavaScript中，由于Function本质也是对象（这与Haskell中函数的本质是值思路一致），所以我们可以把Function作为参数来进行传递！例functions旗舰全能扫拖一体机群雄逐鹿，追觅S10Pro是如何做到青出于蓝？现在的旗舰扫地机，在功能上越来越齐全，一开始是从扫拖一体进化到扫地拖地自动清洗拖布自动集尘全集成之后自动进水排水，拖布抬升等功能也都陆续出现在各家的扫地机器人上。追觅S10系列，在轻松打造影棚级直播间雷蛇幻彩RGB补光灯Hello，大家好！我是沈少！作为一个视频制作人，偶尔还玩玩直播，我一直深知光对于直播和视频效果的重要性。不同于大家日常使用的普通电灯，直播所需要的灯光有3个比较关键的技术点色彩色一把键盘让你爱上码字！IQUNIXF97漫游指南绝了都说人的欲望是填不满的沟壑，我真的是深有体会。因为即便是家里已经有不下10把机械键盘了，但是仍然期望能找到一把更好的款式，它不仅颜值要高，摆在桌上可以让人赏心悦目，其次还应该手感要TCL98T7E全行业最高配4K144Hz，横向对比海信98E7GPro谁更强？高刷是当今电视热议的话题，拥有高刷新率的电视可以播放帧率更高的影视资源，也能连接专业游戏机带来更加流畅的游戏画面，所以近几年好多朋友对于高刷电视的需求是越来越大了。TCL海信等品牌终究憋出大招，拜雅FREEBYRD虽迟但到，烧友表示刚刚好上个月才刚聊了拜雅（拜亚动力）无线颈圈BLUEBYRD2这款产品，从评论反馈来看如我所料。传统音频大厂依旧是不少用户的首选，避免踩坑稳定可靠更适合安逸的欣赏美妙音乐。作为动圈耳机的华为概念发布会开始，新手机，一亿像素5000大电池144hz高刷概念新品发布会开始了，6月份这次推出的是华为nova系列，像nova系列的nova6就是一代神机，这次推出的是nova10Pro，，这款手机也将是超越其他手机的一次值得飞跃。这次的山灵播放器怎么样，山灵播放器好吗，山灵播放器值得购买吗山灵播放器还是不错的，非常好用，可参考下面对山灵播放器试用点评和感受。本人算音频爱好者，工作原因多选移动设备。大约20年前入手第一块砖，港货，稍可满足。10年前先后入手爱欧迪索尼小非常实用的15个微信小程序学习办公腾讯文档腾讯旗下的办公小程序，支持多人同时在线编辑，内容实时同步，随时随地高效协作。腾讯翻译君Ai智能翻译，支持中文英语日语韩语法语等多种语言，包含语音翻译拍照翻译图片翻译新的国产操作系统即将面世？国产操作系统的重要性不言而喻，国产的目的正是为了减少对国外产品的依赖，也与我国坚持科技自主创新的原则相匹配。同时针对当前的国际网络安全问题，推动国产势在必行。而操作系统不仅涉及我们