只用一张图相机走位,AI就能脑补周围环境通通都是高保真效果
站在门口看一眼,AI 就能脑补出房间里面长什么样:
是不是有线上 VR 看房那味儿了?不只是室内效果,来个远景长镜头航拍也是 so easy:
而且渲染出的图像通通都是高保真效果,仿佛是用真相机拍出来的一样。最近一段时间,用 2D 图片合成 3D 场景的研究火了一波又一波。但是过去的许多研究,合成场景往往都局限在一个范围比较小的空间里。比如此前大火的 NeRF,效果就是围绕画面主体展开。
这一次的新进展,则是将视角进一步延伸,更侧重让 AI 预测出远距离的画面。
比如给出一个房间门口,它就能合成穿过门、走过走廊后的场景了。
目前,该研究的相关论文已被 CVPR2022 接收。输入单张画面和相机轨迹
让 AI 根据一个画面,就推测出后面的内容,这个感觉是不是和让 AI 写文章有点类似?实际上,研究人员这次用到的正是 NLP 领域常用的 Transformer。他们利用自回归 Transformer 的方法,通过输入单个场景图像和摄像机运动轨迹,让生成的每帧画面与运动轨迹位置一一对应,从而合成出一个远距离的长镜头效果。
整个过程可以分为两个阶段。
第一阶段先预训练了一个 VQ-GAN,可以把输入图像映射到 token 上。VQ-GAN 是一个基于 Transformer 的图像生成模型,其最大特点就是生成的图像非常高清。在这部分,编码器会将图像编码为离散表示,解码器将表示映射为高保真输出。
第二阶段,在将图像处理成 token 后,研究人员用了类似 GPT 的架构来做自回归。具体训练过程中,要将输入图像和起始相机轨迹位置编码为特定模态的 token,同时添加一个解耦的位置输入 P.E.。然后,token 被喂给自回归 Transformer 来预测图像。模型从输入的单个图像开始推理,并通过预测前后帧来不断增加输入。
研究人员发现,并非每个轨迹时刻生成的帧都同样重要。因此,他们还利用了一个局部性约束来引导模型更专注于关键帧的输出。这个局部性约束是通过摄像机轨迹来引入的。基于两帧画面所对应的摄像机轨迹位置,研究人员可以定位重叠帧,并能确定下一帧在哪。
为了结合以上内容,他们利用 MLP 计算了一个"相机感知偏差"。这种方法会使得在优化时更加容易,而且对保证生成画面的一致性上,起到了至关重要的作用。实验结果
本项研究在 RealEstate10K、Matterport3D 数据集上进行实验。结果显示,相较于不规定相机轨迹的模型,该方法生成图像的质量更好。
与离散相机轨迹的方法相比,该方法的效果也明显更好。
作者还对模型的注意力情况进行了可视化分析。结果显示,运动轨迹位置附近贡献的注意力更多。
在消融实验上,结果显示该方法在 Matterport3D 数据集上,相机感知偏差和解耦位置的嵌入,都对提高图像质量和帧与帧之间的一致性有所帮助。
两位作者均是华人
Xuanchi Ren 为香港科技大学本科生。
他曾在微软亚研院实习过,2021 年暑期与 Xiaolong Wang 教授有过合作。
Xiaolong Wang 是加州大学圣地亚哥分校助理教授。
他博士毕业于卡内基梅隆大学机器人专业。研究兴趣有计算机视觉、机器学习和机器人等。特别自我监督学习、视频理解、常识推理、强化学习和机器人技术等领域。
论文地址:
https://xrenaa.github.io/look-outside-room/
爱立信计划在英国建设5G卓越中心,并增加雇员爱立信公布了在英国建设5G卓越中心和增加雇员的计划,称此举是为了响应该四大运营商对其产品需求的增长而作出。该供应商指出,到2022年,其5G设备的部署将创造800个就业机会,其中包
报告显示LGUplus领先韩国运营商5G网络下载速度据韩联社报道,一份最新报告显示,LGUplus成为韩国三家电信运营商中5G下载速度最快的公司。根据市场研究公司RootMetrics的报告,LGUplus在首尔的5G下载速度中值为
LG电子手机部门重组,试图削减成本与中国厂商展开竞争12月8日凌晨消息,LG电子周一称其已对手机部门进行重组,此举旨在增加中低端智能手机的外包生产。分析师认为,这意味着该公司试图削减成本,并与中国的对手展开竞争。LG电子的一位发言人
标普道琼斯指数公司特斯拉将加入标普500指数IT之家12月12日消息今日,标普道琼斯指数公司宣布,特斯拉(Tesla)将加入标普500指数,取代ApartmentInvestment。同时,特斯拉将加入标普100指数,取代西
特斯拉仅用一天完成50亿美元股票增发特斯拉在周四盘后提交的一份文件中表示,已于周三完成了50亿美元新股的发售,仅用一天时间,显示了该公司股票的受热捧程度。该公司周二宣布计划发行新股筹集50亿美元资金,是三个月内第二次
LG宣布开发透明OLED显示屏自动门能展示广告IT之家12月7日消息LG今天宣布,与瑞典制造商AssaAbloyEntranceSystems合作,开发内置透明OLED显示屏的自动滑动门。该门将面向企业,LG表示,它们将能够迎
专利授权费未谈妥,爱立信将三星告上法庭据报道,爱立信周五表示,已在美国对三星电子提起诉讼,原因是三星违反合同承诺。同时,爱立信还发布预警称,从2021年第一季度开始,三星延迟支付特许权使用费,以及相应的法律费用,可能会
三星在得州芯片代工厂附近买地10万平米,想扩大业务12月10日,三星在其位于美国德克萨斯州奥斯汀的晶圆代工厂附近购买了面积为104089平方米的土地,大约156亩地,可能在为扩大代工业务做准备。最近,三星请求奥斯汀市议会批准其开发
小米申请雷军拼音商标leijunIT之家12月11日消息企查查App显示,小米科技有限责任公司新增多条leijun商标信息,涉及国际分类包含金属材料运输工具乐器珠宝钟表等,申请日期为2020年12月7日。目前商标
小米集团市值突破7000亿港元IT之家12月11日消息今日上午,港股开盘,小米集团盘中上涨3。62,股价达28。6港元,创历史新高,市值达7191。21亿港元。截至IT之家发稿时,小米集团盘中股价为28。5港元
小米秘闻雷军一天喝3杯脱脂拿铁,每个月跑300公里IT之家12月10日消息今天小米公司官微发文揭秘了一些从未公布的公司秘闻,一起来看一下。IT之家了解到,小米在文章中透露,有米粉粉着粉着就粉到了公司,从米粉变身小米人,还有很多小米