范文健康探索娱乐情感热点
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

MetaAI推出杂食者模型,搞定图像视频和3D三大分类任务

  1 月 24 日消息,最近,Meta AI 推出了这样一个"杂食者"(Omnivore)模型,可以对不同视觉模态的数据进行分类,包括图像、视频和 3D 数据 。
  比如面对最左边的图像,它可以从深度图、单视觉 3D 图和视频数据集中搜集出与之最匹配的结果。
  这在之前,都要分用不同的模型来实现;现在一个模型就搞定了 。
  而且 Omnivore 易于训练,使用现成的标准数据集,就能让其性能达到与对应单模型相当甚至更高的水平。
  实验结果显示,Omnivore 在图像分类数据集 ImageNet 上能达到 86.0% 的精度,在用于动作识别的 Kinetics 数据集上能达 84.1%,在用于单视图 3D 场景分类的 SUN RGB-D 也获得了 67.1%。
  另外,Omnivore 在实现一切跨模态识别时,都无需访问模态之间的对应关系。不同视觉模态都能通吃的"杂食者"
  Omnivore 基于 Transformer 体系结构,具备该架构特有的灵活性,并针对不同模态的分类任务进行联合训练。
  模型架构如下:
  Omnivore 会将输入的图像、视频和单视图 3D 图像转换为 embedding,并馈送到 Transformer 中 。
  虽然它可以使用任何 vision transformer 架构来处理 patch embedding,但鉴于 Swin transformer 在图像和视频任务上的强大性能,这里就使用该架构作为基础模型。
  具体来说,Omnivore 将图像转为 patch,视频转为时空 tube(spatio-temporal tube),单视图 3D 图像转为 RGB patch 和深度 patch。
  然后使用线性层将 patches 映射到到 embedding 中 。其中对 RGB patch 使用同一线性层,对深度 patch 使用单独的。
  总的来说,就是通过 embedding 将所有视觉模式转换为通用格式 ,然后使用一系列时空注意力(attention)操作来构建不同视觉模式的统一表示。
  研究人员在 ImageNet-1K 数据集、Kinetics-400 数据集和 SUN RGB-D 数据集上联合训练出各种 Omnivore 模型。
  这种方法类似于多任务学习和跨模态对齐,但有 2 点重要区别:
  1、不假设输入观测值对齐(即不假设图像、视频和 3D 数据之间的对应关系);
  2、也不假设这些数据集共享相同的标签空间(label space)。性能超 SOTA
  实验方面,首先将 Omnivore 与各视觉模态对应的特定模型(下表中指 Specific)进行比较。
  一共有三种不同的模型尺寸:T、S 和 B。
  预训练模型在七个下游任务上都进行了微调。
  图像特定模型在 IN1K 上预训练。视频特定模型和单视图 3D 特定模型均使用预训练图像特定模型的 inflation 进行初始化,并分别在 K400 和 SUN RGB-D 上进行微调。
  结果发现,Omnivore 在几乎所有的下游任务上的性能都相当于或优于各特定模型。
  其中尺寸最大的 Swin-B 实现了全部任务上的 SOTA。
  将 Omnivore 与具有相同模型架构和参数数量的特定模型比较也是相同的结果。
  其中 Omnivore 在 IN1K、K400 和 SUN 数据集上从头开始联合训练,而特定模态的模型针对每个数据集专门训练:
  ImageSwin 模型从零开始训练,VideoSwin 和 DepthSwin 模型则从 ImageSwin 模型上进行微调。
  接下来将 Omnivore 与图像、视频和 3D 数据分类任务上的 SOTA 模型进行比较。
  结果仍然不错,Omnivore 在所有预训练任务中都表现出了优于 SOTA 模型的性能 (下图从上至下分别为图像、视频和 3D 数据)。
  此外,在 ImageNet-1K 数据集上检索给定 RGB 图像的深度图也发现,尽管 Omnivore 没有接受过关于 1K 深度图的训练,但它也能够给出语义相似的正确答案。
  最后,作者表示,尽管这个"杂食者"比传统的特定模式模型有了很多进步,但它有一些局限性。
  比如目前它仅适用于单视图 3D 图像,不适用于其他 3D 表示 ,如体素图(voxels)、点云图等。
  论文地址:点击打开
  代码已开源:点击打开

一图教你如何使用华为AI智能音箱IT之家11月5日消息华为AI音箱在华为Mate20发布会上正式亮相。许多小伙伴对这款音箱的操作不是很熟悉,现在华为官方给出了说明书,我们一起来看一下吧。华为AI音箱拥有丹拿专业音AristoAI系统可轻松通过高三科学考试,但依然没高中生聪明上周,美国艾伦人工智能研究所(AllenInstituteForArtificialIntelligence)的研究人员在一篇新论文中证明,他们设计的AI系统可以在初二科学测试的多HomePodmini是苹果首款支持Thread网络技术的产品正如苹果新款HomePodmini的规格页面上所披露的那样,这款小巧的扬声器是苹果首款支持Thread网络技术的产品。Thread是一种用于连接物联网(IoT)设备的基于IP的低功小米米家新风机新特性每天全屋换气26次,持续使用室内PM2。5趋于0IT之家11月2日消息小米官方宣布将在11月6日下午举行新品发布会直播,小米双11新品直播发布会首个新品公布,就是米家新风机,号称可以解决4大室内空气问题。米家官方微博海报显示,关先苹果AirTags一步Tile计划推出UWB超宽带追踪器IT之家1月6日消息据外媒appleinsider消息,国外一家专门做防丢标签的厂商Tile计划推出UWB超宽带防丢追踪器。UWB技术由苹果iPhone11手机引入,内置的U1芯片智能泡沫成机器人皮肤新材料能感知你的手,坏了还会自我修复7月12日消息,近日,据路透社报道,新加坡研究人员开发了一种智能泡沫材料(smartfoammaterial),可以让机器人感知附近的物体,并在损坏时自我修复,就像人类皮肤一样。这5GAI,上海无人驾驶出租车体验消费者真的了解什么是自动驾驶吗?不同级别的自动驾驶汽车有什么区别?自动驾驶系统开发商及汽车制造商真正了解消费者的现实需要吗?正是这一系列的问题,促使自动驾驶标准制定组织SAE与上海大疆的小坦克,是教学工具还是玩具?6月12日,大疆发布了全新教育机器人机甲大师RoboMasterS1(以下部分简称S1),售价3499元。一时间,超五万人聚集到了RoboMaster的官方新品推文下,而微博上多位人工智能大会2020科大讯飞全球1024开发者节即将开启IT之家10月21日消息2020科大讯飞全球1024开发者节即将开启。本次开发者节将以A。I。焕新更美好为主题,共有1024计划发布会平台产品发布会AI新技术发布会100行业峰会4微软解雇数十名新闻媒体编辑,用AI取代IT之家6月2日消息TheVerge报道称,微软近日从MicrosoftNewsMSN等媒体中裁撤了数十名新闻媒体工作者和编辑人员,其中涉及英国27名员工和美国50名员工,并用AIAI部署前路坎坷,50项目半路夭折尽管许多公司都在努力,但人工智能的部署仍然是个难题。最近InternationalDataCorporation的一份研究报告表明,拥有企业级人工智能战略的组织只占25,而他们在部
苹果AppleWatch更新watchOS8。3后,第三方充电器有概率失效IT之家12月23日消息,根据外媒MacRumors报道,近期有大量苹果AppleWatchSeries7用户在更新至watchOS8。3系统之后,出现了充电的问题。许多用户发现,全球首个知识增强千亿大模型鹏城百度文心发布IT之家12月9日消息,昨日,鹏城实验室与百度联合召开发布会,正式发布双方共同研发的全球首个知识增强千亿大模型鹏城百度文心(模型版本号ERNIE3。0Titan)。据介绍,该模型参华为官宣将于5月19日1430举办全场景智慧生活新品发布会IT之家5月13日消息根据华为官方消息,华为全场景智慧生活新品发布会将于5月19日1430召开,届时将公布包含电视耳机智能手表高端显示器等多款新品。根据此前消息,发布会将首先带来华荣耀智慧屏X243英寸开启预售开关机无广告,到手价1499元IT之家11月25日消息,今年9月荣耀推出了荣耀智慧屏X2,提供43英寸55英寸65英寸三种款式,其中55英寸65英寸款已于本月初开售,今天43英寸也已经在荣耀商城开启订金预售。荣日本将利用AI技术实现手语直接转文字方便聋哑人群沟通,预计2024年普及11月11日消息,据媒体报道,日本政府将研发新AI技术以改善与聋哑人士的沟通。日本电气大学与软银公司联合,通过人工智能AI技术,能将手语直接翻译成日语,并预计在2024年实现普及。人工智能做菜索尼AI正式发布美食旗舰项目IT之家12月17日消息如今智能家居物联网等概念已经慢慢渗透入人们的生活,但是厨房领地却少有公司触碰,美食的制作在人们的印象中,一直需要按照传统的方式进行。近日索尼AI官方正式发布扫描全能王发布首款学习打印机,采用热敏打印技术9月14日消息,近日,合合信息旗下产品扫描全能王对外发布一款打印机新品,这也是合合信息在智能硬件市场的首次探索和尝试。据介绍,此次推出的学习打印机在外观功能和应用场景上,更加符合用清华首个AI学生华智冰首次露正脸唱歌IT之家9月28日消息今年6月15日,清华大学举行计算机系华智冰成果发布会。作为中国首个原创虚拟学生,华智冰即日起将在清华园里开启学习和研究生涯,其已经在清华大学计算机系知识工程实华米科技2019年出货量达4230万台,今年推小米手环5IT之家3月13日消息华米科技今天发布了2019第四季度及全年财报。2019年四季度,公司营业收入达21。114亿元(合3。033亿美元),同比增幅为72。4调整后的净利润为2。1华为WatchGT现已支持微信红包提醒感谢IT之家网友百慕大的冰的线索投递!IT之家1月11日消息据IT之家网友分享,华为WatchGT现已推送1。0。3。38版本更新,新增微信红包提醒以及克罗地亚保加利亚斯洛文尼亚三华为WatchGT2新年款开售搭载麒麟A1芯片,1588元起IT之家12月31日消息华为WatchGT2新年款今日将正式开售,42mm款售价1588元,46mm款售价1688元。华为WatchGT2搭载麒麟A1芯片,支持BTBLE双模蓝牙5