范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

Facebook发布ARVR研究项目Ego4D,训练AI以第一人称理解感知世界

  查看引用/信息源请点击:映维网
  能够从第一人称角度理解世界的人工智能可以开启沉浸式体验的新时代
  ( 映维网 2021年10月20日 )随着 AR  眼镜和VR  头显逐渐成为智能手机这样的普及设备,能够从第一人称角度理解世界的人工智能可以开启沉浸式体验的新时代。想象一下,你的AR  设备能够在架子鼓课堂中准确显示如何握拿鼓槌,指导你根据食谱烹饪菜肴,帮助你找到丢失的钥匙,或者通过面前的全息图帮助你回忆过去……
  为了构建所述新技术,我们需要教导AI如同人类一样从第一人称角度理解世界并与其交互,亦即研究业界所说的自我中心认知。然而,今天的计算机视觉系统通常是利用数百万张以第三人称视角拍摄的照片和视频进行学习。Facebook首席研究科学家克里斯汀·格劳曼 (Kristen Grauman) 表示:"下一代人工智能系统需要从一种完全不同的数据中学习:一种从事件中心视觉而不是边线视觉展示世界的视频。"
  所以,Facebook AI日前发布了一个旨在解决自我为中心认知挑战的长期研究项目:Ego4D。团队组建了一个由9个国家的13所大学和实验室组成的联盟,并收集了2200多小时的第一人称视频,其中有700多名参与者讲述了自己的日常生活。这极大地增加了当前研究社区公开的自我中心认知数据规模,而且要比任何其他数据集多20倍(以小时为单位)。当然,为了资助项目,Facebook向每一所参与的大学赠送了学术礼品。
  Facebook AI同时与所述联盟和Facebook  Reality   Labs Research(FRL Research)合作,开发了五个围绕第一人称视觉体验视觉体验的基准挑战。Ego4D的五个基准是:情景记忆:什么时候发生?("我把钥匙放在哪里了?") 预测:我接下来可能会做什么?("等等,你已经放盐了。") 手-物交互:我在做什么?("教我如何打鼓。") 视听日记:谁在什么时候说了什么?("课堂上的主要话题是什么?") 社交互动:谁在和谁互动?("帮助我在这家吵闹的餐厅里听清谁在跟我说话。")
  所述基准测试将促进针对开发智能AI助手所必需的构建模块的研究。智能AI助手不仅可以在现实世界中实现理解和交互,同时可以在元宇宙中实现理解和交互。对于元宇宙,物理现实、增强现实和虚拟现实都集中在一个空间里面。
  所述数据集将于今年11月向签署Ego4D数据使用协议的研究人员公开。各大学团队需要遵守各自的机构研究条例。这个过程涉及制定符合机构研究伦理委员会和/或审查委员会标准的研究方案,包括获得参与者知情同意和/或视频发布。
  作为这项研究的补充,FRL的研究人员使用了Vuzix Blade智能眼镜,并在研究实验室的分阶段环境中收集额外400小时的第一人称视频数据。当然,团队已经获得了视频拍摄人员的书面同意。所述数据同样会公布。
  通过致力于开放式科学和研究,Facebook希望人工智能领域能够更快地推动自我中心认知的进步。
  1. 为什么自我中心认知很难
  假设你第一次坐过山车。除了肾上腺素激增和一定的尖叫声之外,乘坐人员和地面游客的视角完全不同。
  https://v.youku.com/v_show/id_XNTgxNDE2ODE0OA==.html
  左为地面游客的第三人称视角,右为过山车乘坐人员的第一人称视角
  尽管我们能够轻松理解第一人称和第三人称视角,但今天的人工智能并不具备这种理解水平。即便已经通过数十万个基于地面视角的过山车图像或视频进行训练,当你将计算机视觉系统绑在过山车时,它可能依然不清楚自己在看什么。
  格劳曼表示:"要令人工智能系统如同人类一样与世界交互,人工智能领域需要发展到一种全新的第一人称感知范式。这意味着教导人工智能在实时运动、交互和多传感器背景下以人眼角度理解日常生活活动。"
  左为站在边线的游客的第三人称视角,右为单车骑乘者的第一人称视角
  Ego4D项目的重点是为研究人员提供必要的工具和基准,以促进研究并推动以自我中心认知的发展。
  2. 解包真实世界的数据集
  历史证明,基准和数据集是人工智能行业创新的关键催化剂。今天,几乎可以识别图像中的任何对象的计算机视觉系统都是建立在数据集和基准之上,例如MNIST、COCO和ImageNet。所述数据集和基准为研究人员提供了一个研究真实世界图像的实验台。
  但自我中心认知是一个全新的领域。我们不能用昨天的工具来实现明天的创新。Ego4D前所未有的规模和多样性对于开创下一代智能AI系统至关重要。
  为了建立第一个同类数据集,与Facebook合作的大学团队向研究参与者分发了现成的头戴式摄像头和其他可穿戴传感器,以便捕获第一人称的、未经编辑的日常生活视频。项目的重点是参与者从日常场景中捕获视频,比如购物、烹饪、边玩游戏边聊天,以及与家人和朋友进行其他团体活动。视频采集捕获了摄像头佩戴者在特定环境中选择注视的对象,以及摄像头佩戴者如何从自我中心角度与人和物互动。到目前为止,摄像头佩戴者已经执行了数百项活动,并与数百种不同的对象进行了交互。
  EGO4D数据集中的参与者生活在英国、意大利、印度、日本、沙特阿拉伯、新加坡、哥伦比亚、卢旺达和美国,涉及不同年龄、职业和性别。与现有数据集相比,Ego4D数据集提供了更大的场景、人物和活动多样性,这提升了为不同背景、种族、职业和年龄人群所训练的模型的适用性。
  Facebook认为,全球表征对于自我中心认知研究至关重要,因为自我中心视觉体验在不同的文化和地理背景下会有显著差异。例如,如果将来有人在烹饪时穿戴 AR  眼镜,并请求AI助手指导咖喱食谱,理想情况下的AI系统应该能够识别烹饪咖喱在不同地域的风格和风味。
  3. 建立智能的自我中心认知
  格劳曼指出:"与数据收集同样重要的是确定正确的研究基准或任务。这个项目的一个重要里程碑是提炼出自我中心智能认知到底意味着什么。在这种认知中,我们能够回忆过去,预测未来,并与人和物互动。"Ego4D的五个挑战性新基准为研究人员提供了一个共同的目标:为视觉和社交情景的真实感知进行基础研究。
  构建所述基准需要对自我中心数据集进行严格的注释。对于这项大规模的注释工作,Facebook AI利用训练有素的第三方注释员来标记在五项基准任务中训练和评估算法所需的数据。这用到了Facebook的Human-AI loop(Halo)注释平台,而团队为注释任务编写了具体的指南,并对工具本身进行了微调。研究人员收集了各种各样的标签类型,如描述摄像头佩戴者活动的密集文本叙述、对象和场景的时空注释、以及多模态语音转录。总的来说,团队转录了数千小时的视频,收集了数百万条注释,而且采样标准涵盖了联盟中所有合作伙伴的视频数据,从而确保结果数据集的多样性。所以当今年Ego4D数据集发布后,研究社区可以立即使用相关数据集并以所述基准构建和测试自己的模型。
  以下是基准的分解,而这五个构成要素可以成为构建更有用AI助手、机器人和其他未来创新的基础: 情景记忆:什么时候发生的?人工智能可以通过检索过去的自我中心视频中的关键时刻来回答自由形式的问题,并扩展你的个人记忆。要做到这一点,模型必须在过去的视频帧中定位对查询的响应,并且在相关的情况下进一步提供环境中的三维空间方向。所以,如果你准备和孩子一起玩耍,你可以询问AI助手或家用机器人这样一个问题:"我把我孩子最喜欢的泰迪熊放在哪里了?" 预测:我接下来要做什么?AI可以理解摄像头佩戴者的行为将如何影响未来世界的状态,比如下一步会移动到哪里,可能会接触到什么物体,或者接下来可能会参与什么活动。预测行动不仅需要认识到已经发生了什么,同时需要展望未来,预测下一步行动。这将允许未来的人工智能系统提供有用的指导。例如,在你准备拿起盐瓶的时候,AI助手可以向设备发送这样一个通知:"等等,你已经放盐了。" 手-物交互:我在做什么,如何做?学习手如何与物体互动对于指导日常任务至关重要。人工智能必须检测第一人称人机交互,识别抓取,并检测对象状态变化。这一推动力也是由机器人学习推动的,机器人可以通过视频中观察到的人的经验来获得经验。因此,当你烹饪食谱时,你的AI助手可以指导你需要哪些配料以及你首先需要做什么,了解你已经做了什么,并指导你完成每一步。 视听日记:谁在什么时候说了什么?人类可以通过声音来理解世界,并识别谁说了什么,何时说了什么。未来的人工智能同样可以。对于一堂重要的课程,但你由于保姆给你发短信而造成分心,你可以稍后向AI询问:"在教授发回考试试卷后,课堂讨论的主要话题是什么?" 社交互动:我们是如何进行社交互动的?除了识别视觉和声音线索,理解社交互动是任何智能AI助手的核心。一个具有社会智能的AI都需要理解谁在和谁说话,谁在关注谁。这样,下次你在晚宴时AI就能帮助你在吵闹环境中听清对方说了什么。
  4. Ego4D的下一步
  Facebook强调,目前只是触及了自我中心认知的皮毛。对于Ego4D项目,Facebook AI、FRL和大学联盟希望为学术界和行业专家打造了一条全新的道路,以帮助大家构建更智能、更灵活和更具交互性的计算机视觉系统,而今天的研究将对我们未来的生活、工作和娱乐方式产生积极影响。
  随着人工智能越加深入理解人类的日常生活方式,它将能开始以前所未有的方式对体验进行情境化和个性化。
  格劳曼表示:"Ego4D使得人工智能有可能获得植根于物理世界和社会世界的知识,并通过生活其中的第一人称视角来感知认知情景。人工智能不仅可以更好地理解周围的世界,并有朝一日能够在个人层面实现个性化体验:它可以知道你最喜欢的咖啡杯,或者为你下一次的家庭旅行提供指导。我们正在积极研究能够做到这一点的AI助手启发式研究原型。"
  有了Ego4D基准支持的人工智能,并在相关数据集进行过训练,未来的AI助手可以以独特而有意义的方式提供价值。通过增强记忆,AI助手可以帮助你回忆起最近与同事谈话中的关键信息,找到你女儿把自行车头盔放在了哪里,又或者是实时提供补充技能,例如指导你拼接宜家家具或按照新食谱做饭。Facebook表示:"我们相信,从这一系列研究中获得的价值,以及行业不断取得的进步将推动我们走向这一未来现实。"
  相关论文 :Ego4D: Around the World in 3,000 Hours of Egocentric Video
  值得一提的是,上述的大学联盟将在今年年底发布用于授权协议所允许的用例的相关数据。
  到明年初,研究人员可以关注Ego4D的研究挑战,而世界各地的人工智能专家可以教导机器以第一人称视角理解我们日常生活活动。
  ---
  原文链接:https://news.nweon.com/90523

伯特利(603596)国产线控制动龙头伯特利成立于2004年6月,是国内制动系统龙头。主要产品包括盘式制动器轻量化制动零部件和电子驻车制动系统(EPB),当下主要产品看点在于已经量产的OneBox线控制动系统。公司董事手机摄影到底需要不需要开HDR?有哪些经验分享?要想搞清楚手机拍照要不要开HDR功能,你就必须得先知道什么是HDR。HDR全称是HighDynamicRange,意思是高动态范围。它可以让拍照环境中特别亮特别暗的地方进行最佳取舍苹果手机电池健康的数值达多少后,才需要更换电池?文小伊评科技在IOS11。3之后,苹果加入了电池健康的提示,这个电池健康的计算方式是锂电池的实际容量额定容量。举个例子,假设你的手机是iPhone12,额定的电池容量是2775mA同样的东西你在iOS手机上买是一个价格,你在安卓机上买是另外同样的东西你在iOS手机上买是一个价格,你在安卓机上买是另外一个价格。大威不是我大数据杀熟的事大家都知道,也都知道是怎么回事。其实就是很简单,根据你用的机型判断你是一个什么样的客户我国5G基站超过139。6万个,5G手机终端连接数达4。97亿户12月24日上午,在工业和信息化部和山东省人民政府的指导下,由中国信息通信研究院山东省通信管理局主办,青岛市人民政府承办的首届千兆城市高峰论坛在青岛开幕。工业和信息化部总工程师韩夏为什么大家拍摄视频不用摄像机,反而选用单反照相机呢?大家好,我是把天聊死的剪辑师,从事影视制作很多年。曾经用过索尼和松下的DV带那种机器,中途用过5d2,5d3,现在用的是佳能C100mark2和松下的GH5,今年打算上RED。其实圣诞促销最高省5000九大手机品牌优惠信息汇总今天是圣诞节,首先祝屏幕前的各位节日快乐。从电商平台了解到,不少手机厂商都在今天开启了圣诞促销活动,有些热门产品甚至已经有了5000元的降幅,如果各位想在近期换手机的话,不妨仔细看索尼将发5500mAh新机,骁龙8Gen1坐台,161TB也来了索尼是一个国际大品牌,他的相机基本上遍布于全球各地,在相机市场中具备绝对的号召力和影响力。主要是在相机镜头等方面很有实力,所以索尼经久不衰。不过对于大部分人来说,只知道索尼是新机品宁德时代市值一日蒸发千亿背后万亿电池帝国裂缝究竟有多大?科创板日报(上海,记者曾乐)讯,近日,有媒体报道称,小鹏汽车决定削减宁德时代的供货份额,引入新的主力电池供应商中航锂电。对此,小鹏汽车相关负责人回应财联社记者表示,车辆生产的零部件实测天玑9000功耗比新骁龙8低26。7!全局能效优化技术真是神奇作为同样是4nm制程工艺的芯片,新骁龙8和天玑9000总是被大家放到台面上来作比较。因为新骁龙8的发布时间比天玑9000要早几天,所以在天玑9000发布之前,新骁龙因为突破了百万跑小米12真机亮相,迎来3大技术升级,雷军正式向苹果开战文有鱼审核子扬校对知秋自官方宣布将于12月28日发布小米12系列以来,小米官方,以及雷军等高管就陆陆续续透露了不少关于这款新机的信息。据了解,小米将在新品发布会上推出3款小米12,
感恩节比特币以太坊价格涨了,感谢带你致富的那个人感恩节比特币以太坊今日价格涨了,感谢带你致富的那个人。感恩生命中的贵人,在过去的人生道路上一直不断地帮助你感谢生命中的亲人,在曾经生活中,不断地给予付出感恩人生中的导师,在人生成长小米MIXFlip渲染图4英寸外屏7英寸主屏!价格有望6字开头最近OPPO发布了新款折叠屏,改变了人们对折叠屏尺寸的认知紧接着华为也发布了首款纵向折叠屏,后置的小圆环副屏也非常笼络人心。如今,小米MIXFlip作为米家的首款纵向折叠屏也要官宣美团创始人王兴学习笔记01。最一流的创业路径,注定前无古人后无来者。02。创业不能蛮干,要等大势至。03。在不同行业的创业里,资本可能是催化剂助燃剂或主力燃料。04。有什么,要什么,舍什么这三个问题,对蚂蚁集团上市无望?马爸爸金融梦破碎,这是一桩好事近日网上流传一组有关马云的图片,马云坐在一只小船上,神情颓废,面容枯槁,有人调侃爸爸老了。的确,今年的马云似乎比往年要低调了不少,很少出席大型活动,而这一切都与他的蚂蚁集团有关,在又抛售10亿美元特斯拉股票!本月套现近百亿!马斯克,这是为什么?据道琼斯旗下新闻网站MarketWatch24日报道,美国证券交易委员会的最新公开文件显示,特斯拉首席执行官马斯克在本月23日行使了215万份的股票期权后,售出了93。4万股特斯拉经济学人全球早报工信部对腾讯采取过渡性行政指导,B站回应自动续费提前3天扣款,长津湖登顶中国影史票房榜工信部对腾讯采取过渡性行政指导据央视新闻消息,今年以来,在工信部开展的App侵害用户权益专项整治中,腾讯公司旗下9款产品存在违规行为,共计4批次被公开通报,违反了2021年信息通信专利图曝光!小米MIXFold二代或配备手写笔近日,网上曝光了小米翻盖式折叠手机专利,从外观设计来看应该可以和华为刚刚发布的华为P50Pocket对标一下,只是目前还不清楚是否会在明年发布。但可以确定的是,按照惯例,小米应该会是买小米12Pro还是等小米12Ultra?看完这篇文章你就明白了小米12系列包含了三款机型,分别是小米12X小米12和小米12Pro,让人没有想到的是,这次小米12系列中没有包含小米12Ultra发布。小米12Ultra的暂时缺席,并不代表小米3000元档性价比激战小米12MotoedgeX30和OPPORneo7Pro,咋选文焦运杰校对李俊慧团队说起来是一年前发布的新款,但距离今天也不过一周时间左右。应该说,赶在年末或跨年发布新品,在大家谈论起来的时候,难免会有这种奇妙的感觉。2021年12月28日,2021年5G手机轻薄排行榜苹果小米行业领跑,珠海小厂成功刷榜进入5G手机时代以来,大家关于智能手机的讨论又进入了一个全新的阶段,其中续航能力更是成为了讨论中的焦点,原因是5G元器件的功耗确实让人头疼。为了能够解决续航问题,各大智能手机厂商选程序员的薪资有多高?看完腾讯天美工作室员工爆料我服了众所周知,互联网行业的薪资真的是薪资天花板了,就不说月入过万轻轻松松了,更有甚者一年赚250万,月均20万,程序员的薪资真就高到离谱。据悉,腾讯天美工作室的某位员工爆出了一张自己的