范文健康探索娱乐情感热点
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

打打字就能指挥算法视频抠图,Transformer掌握跨模态新技能

  都说 Transformer 适合处理多模态任务。这不,在视频目标分割领域,就有人用它同时处理文本和视帧,提出了一个结构更简单、处理速度更快(每秒 76 帧)的视频实例分割框架 。
  这个框架只需一串文本描述,就可以轻松将视频中的动态目标"抠"出来:可以实现端到端训练的它,在基准测试中的多个指标上表现全部优于现有模型 。目前,相关论文已被 CVPR 2022 接收,研究人员来自以色列理工学院。
  主要思路
  根据文本描述进行视频目标分割这一多模态任务(RVOS),需要结合文本推理、视频理解、实例分割和跟踪技术。现有的方法通常依赖复杂的 pipeline 来解决,很难形成一个端到端的简便好用的模型。
  随时 CV 和 NLP 领域的发展,研究人员意识到,视频和文本可以同时通过单个多模态 Transformer 模型进行有效处理 。
  为此,他们提出了这个叫做 MTTR(Multimodal Tracking Transformer)的新架构,将 RVOS 任务建模为序列(sequence)预测问题。
  首先,输入的文本和视频帧被传递给特征编码器进行特征提取,然后将两者连接成多模态序列(每帧一个)。接着,通过多模态 Transformer 对两者之间的特征关系进行编码,并将实例级(instance-level )特征解码为一组预测序列。
  接下来,生成相应的 mask 和参考预测序列。最后,将预测序列与基准(ground truth,在有监督学习中通常指代样本集中的标签)序列进行匹配,以供训练过程中的监督或用于在推理过程中生成最终预测。
  具体来说,对于 Transformer 输出的每个实例序列,系统会生成一个对应的 mask 序列。
  为了实现这一点,作者采用了类似 FPN(特征金字塔网络)的空间解码器和动态生成的条件卷积核 。
  而通过一个新颖的文本参考分数函数,该函数基于 mask 和文本关联,就可以确定哪个查询序列与文本描述的对象具有最强的关联,然后返回其分割序列作为模型的预测。精度优于所有现有模型
  作者在三个相关数据集上对 MTTR 进行了性能测试:JHMDB-Sentences、 A2D-Sentences 和 Refer-YouTube-VOS。
  前两个数据集的衡量指标包括 IoU(交并比,1 表示预测框与真实边框完全重合)、平均 IoU 和 precision@K(预测正确的相关结果占所有结果的比例)。
  结果如下:
  可以看到,MTTR 在所有指标上都优于所有现有方法,与 SOTA 模型相比,还在第一个数据集上提高了 4.3 的 mAP 值(平均精度)。
  顶配版 MTTR 则在平均和总体 IoU 指标上实现了 5.7 的 mAP 增益,可以在单个 RTX 3090 GPU 上实现每秒处理 76 帧图像。MTTR 在 JHMDBs 上的结果表明 MTTR 也具备良好的泛化能力。
  更具挑战性的 Refer-YouTube-VOS 数据集的主要评估指标为区域相似性(J)和轮廓精度(F)的平均值。MTTR 在这些指标上全部"险胜"。
  一些可视化结果表明,即使在目标对象被类似实例包围、被遮挡或完全超出画面等情况下,MTTR 都可以成功地跟踪和分割文本引用的对象。
  最后,作者表示,希望更多人通过这项成果看到 Transformer 在多模态任务上的潜力。最最后,作者也开放了两个试玩通道,感兴趣的同学可以戳文末链接~
  △Colab 试玩效果
  试玩地址:
  https://huggingface.co/spaces/akhaliq/MTTR
  https://colab.research.google.com/drive/12p0jpSx3pJNfZk-y_L44yeHZlhsKVra-?usp=sharing
  论文地址:
  https://arxiv.org/abs/2111.14821
  代码已开源:
  https://github.com/mttr2021/MTTR

美国研究人员用可穿戴设备检测孩子焦虑北京时间1月17日消息,美国佛蒙特大学的研究人员近日发明了一种全新的技术,可以通过分析青少年的活动情况来识别他们的焦虑和抑郁心理。在实际应用中,研究人员利用可穿戴式运动传感器检测收百度鸿鹄芯片发布,百度飞桨与华为麒麟芯片合作7月3日上午消息,2019年百度AI开发者大会今日举行。现场,百度首席技术官王海峰与华为消费者BG软件总裁王成录博士联合宣布,百度飞桨与华为麒麟芯片达成深度合作。王海峰宣布百度发布李彦宏演示小度音箱全双工免唤醒技术IT之家7月3日消息Create2019百度AI开发者大会今天开幕,李彦宏现场演示小度音箱新的全双工免唤醒技术。据百度介绍,有了全双工免唤醒技术,小度音箱不仅可以实现免唤醒词连续对索尼晶雅音管LSPXS2发布这个台灯音质不错IT之家1月8日消息据日本媒体消息,索尼在美国当地时间1月7日举行了新闻发布会,宣布推出新一代的晶雅音管LSPXS2智能音箱。这款智能音箱延续了前代晶莹剔透的台灯造型,同时获得了一盖茨别把AI风险看太重,防儿童患疟疾这事更重要10月18日消息,据Vox杂志报道,世界会变得越来越美好吗?人类会变得更健康更富有更安全吗?如果不是,为何会如此?我们怎样做才能打造更美好世界?微软联合创始人比尔盖茨(BillGa到手价23992449元,石头扫地机器人玫瑰金天猫定制版火拼开抢IT之家11月21日消息根据最新情报,石头扫地机器人玫瑰金限量版天猫店原价2499元,火拼到手价2399元,11月23日0点开抢。石头扫地机器人天猫礼盒版原价2799元,现在火拼周精工愚人节推出煎饼手表,纯手工烤制IT之家4月1日消息知名钟表品牌精工(Seiko)在今天宣布将推出一款非常特殊的手表。手表的表盘由煎饼制作而成,集美观与实用于一身。精工官方甚至还给这款手表拍摄了一个制作短片,看起出门问问发布智能手表TicWatchC21。3英寸AMOLED屏,IP68防水今天,出门问问发布新系列智能手表TicWatchC2,内置的人工智能语音助手得以全新升级。据了解,TicWatchC2搭载最新的WearOSbyGoogle2。0中文版操作系统,内辐射核动力智能手表开卖B社独家系统,售价150美元IT之家1月28日消息根据外媒的报道,B社与一家智能穿戴厂商合作推出了一款周边智能手表,哔哔小子风格界面,搭载B社独家系统,售价150美元,约合人民币1000元。据介绍,这款手表名马斯克人工智能时代,人类将享全民低保全民基本收入(UBI)曾被看作是解决我们可能即将面临失业的神奇方案。机器人和人工智能的巨大飞跃已经对人类产生威胁,对于任何以开车谋生的人来说,第一次大规模的淘汰迫在眉睫。从通用汽车169元,小米小爱音箱Play版开启预约IT之家6月14日消息日前,小米推出了两款全新音箱小爱音箱万能遥控版与小爱音箱Play版。小米小爱音箱Play版现已开启预约。与黑色的万能遥控版不同,小爱音箱Play版采用白色外观
华米科技黄汪第三代可穿戴自研芯片将很快推出1月29日晚间消息,在今日的极客公园创新大会2021上,华米科技创始人董事长兼CEO黄汪透露,华米科技自研的第三代可穿戴芯片将很快推出。华米科技是小米生态链企业,早期打造了小米手环华为公开人机对话相关专利可根据对话内容生成准确回复IT之家2月27日消息2月26日,华为技术有限公司公开一项名为一种人机对话的方法和装置的专利,公开号CN108319599B,申请日期为2017年1月。IT之家了解到,该方法应用于小米发布米家高速吹风机H700铝合金一体机身LCD彩屏,众筹价699元IT之家12月14日消息,今日上午,小米宣布推出米家高速吹风机H700,零售价799元,众筹价699元,将于12月15日上午1000开启众筹。设计方面,米家高速吹风机H700采用铝小米米家App7。0体验版新增全屋智能控制中心,所有模块均支持设备的显示和控制感谢IT之家网友软媒用户61330的线索投递!IT之家12月14日消息,小米米家App现已向部分用户推送7。0体验版更新,新增全屋智能控制中心,可在设置中开启。IT之家了解到,米家谷歌人工智能DeepMind,高中数学考了个不及格IT之家4月13日消息我们在许多新闻报道里见识过了人工智能(AI)的厉害。谷歌的AlphaGo曾先后击败了李世石柯洁两位顶尖棋手,拿下了围棋这个人类一直以来占据着优势的项目。图自PAI也会查百度了,OpenAI新成果让GPT3回答开放式问题12月17日消息,本周四,OpenAI基于AI模型GPT3发布了WebGPT,该模型可在线搜索问题组织答案,并添加引用来源,更准确地回答开放式问题。在回答问题时,WebGPT可以通皮克斯技术指导辞职读博研究AI设计怪物,从游戏王卡牌开始让AI画人脸见得多了,要是让AI画个幻想中的怪物又如何?来看几个,先是人形的再来个兽形的还有诡异到说不出来属于什么型的你可能会问,这很难吗?毕竟现在用GAN生成人脸都能以假乱真,生报告全球各企业AI预算较去年大幅增长55,数据变得比算法更重要IT之家8月29日消息据外媒美通社报道,训练数据提供商AppenLimited在近日发布了第七份人工智能与机器学习现状年度报告。报告显示,全球各企业AI预算金额范围从50万美元至5失败者还是啦啦队长?AI能识别自拍照给人分类早在2009年,美国斯坦福大学和普林斯顿大学的科学家就曾提出设想,希望教授计算机识别世界上的任何物体。为了实现这个目标,他们需要很多图片,除了猫狗苹果叉子勺子等,还需要无数人类的图京东陶大程超级模型生态系统将引领新一轮产业变革7月8日消息,2021世界人工智能大会第八届中国产业互联网高峰论坛上,澳大利亚科学院院士京东探索研究院院长陶大程博士表示,超级模型生态系统引领新一轮产业变革。陶大程博士认为,通过构开发者确认苹果AppleWatchS7处理器与前代AppleWatchS6完全相同IT之家9月15日消息今日,苹果在秋季新品发布会上推出了全新AppleWatchSeries7。与前代AppleWatchSeries6相比,小号AppleWatchSeries7