范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

无需多视图!Google重磅升级NeRF仅需一张平面图即可生成3D模型

  编辑:LRS  【新智元导读】NeRF最大的弊端被攻克!
  人类视觉中,有一个很重要的能力就是可以从二维图像中理解图像的三维形状。
  理解三维几何对于了解物体和场景的物理和语义结构至关重要,但当下计算机的视觉仍然很难从二维照片中抽取出三维几何信息 。
  2020年,神经辐射场(NeRF)模型发布,仅根据二维图像即可生成三维模型,不过缺陷也很明显:模型需要同一个场景(scene)的多个视图(views)作为监督学习的输入。
  如果多视角数据不足,模型就无法估计体积表征,生成的场景很容易崩溃成平面,这也是NeRF的主要瓶颈,因为真实场景中多视角数据很难获得。
  曾有研究人员设计了一些不同的架构,通过结合NeRF和生成对抗网络(GANs),使用判别器来保证多视图的一致性,可以缓解对多视图训练数据的需求。
  还有没有更激进的方法,只用单视图来生成三维模型 ?
  最近,来自英属哥伦比亚大学,西蒙菲莎大学和Google Research的研究人员发表在CVPR 2022 上的一篇论文中提出了一个全新模型LOLNeRF ,对于同一类物体来说,仅需单一视角即可训练NeRF模型,而无需对抗监督。一旦共享的生成模型训练完毕,模型即可提供近似的相机姿态(camera poses)。
  论文链接:https://arxiv.org/abs/2111.09996
  简而言之,NeRF不再需要多视图 ,并且相机也无需非常精确 就可以达到令人信服的效果。
  具体来说,LOLNeRF使用预测的二维landmarks将数据集中的所有图像大致对齐到一个典型的姿态,以此来确定应该从哪个视图渲染辐射场以再现原始图像。
  对于生成模型部分,LOLNeRF采用了一个自解码器框架。为了提高通用性,研究人员又进一步训练两个模型,一个用于前景,即数据集中常见的物体类别;另一个用于背景,因为背景在整个数据中往往是不一致的,因此不太可能受到三维一致性偏差的影响。
  值得注意的是,该方法不需要在训练时渲染整个图像,甚至不需要渲染patch。在自解码器的框架内,模型从数据集中重建图像,同时为每个图像找到最佳的潜表征。目标函数基于单个像素定义,因此可以用任意尺寸的图像 进行训练,而不会在训练过程中增加内存使用量。
  相比之下,现有的利用GANs的方法通过判别器监督像素间的关系,极大地限制了模型在图像分辨率的伸缩能力。
  GLO+NeRF打破多视角需求
  GANs过去一直是图像生成的标准模型,其成功可以归因为两点:
  1、解决了困难的鞍点优化问题,可以解释为生成器和判别器之间的对抗博弈;
  2、将生成器和判别器参数化为深度卷积神经网络。
  2019年,研究人员提出Generative Latent Optimization(GLO),使用简单的重建损失来训练深度卷积生成器,可以合成视觉上吸引人的样本、在样本之间进行平均插值,并对噪声向量进行线性运算。
  最重要的是:这些效果的实现都不需要对抗优化方案。
  论文链接:https://arxiv.org/pdf/1707.05776.pdf
  NeRF需要多视角数据不就是为了对抗性训练吗?
  如果GLO无需对抗训练即可实现GAN,那二者结合起来,岂不就是不需要多视角的NeRF!
  GLO是一种通用的方法,通过共同学习解码器神经网络和潜码表来学习重建一个数据集(如一组二维图像),该编码表也是解码器的输入。
  每一个潜码都从数据集中重新创建了一个单一的元素(如图像)。由于潜伏代码的维度少于数据元素本身,网络需要对数据进行泛化,学习数据中的共同结构(如狗鼻子的一般形状)。
  NeRF是一种非常善于从二维图像重建静态三维物体的技术。它用一个神经网络表示一个物体,为三维空间中的每个点输出颜色和密度。颜色和密度值是沿着射线积累的,二维图像中的每个像素都有一条射线。然后使用标准的计算机图形体积渲染将这些值结合起来,计算出最终的像素颜色。
  重要的是,所有这些操作都是可微的,可以进行端到端的监督训练。通过强制要求每个渲染的像素(三维)与基准(二维)像素的颜色相匹配,神经网络可以创建一个从任何视角渲染的三维。
  将NeRF与GLO结合起来,给每个物体分配一个潜码,与标准的NeRF输入相连接,使其有能力重建多个物体。
  在GLO之后,研究人员在训练期间将这些潜码与网络权重共同优化以重建输入图像。
  与需要同一物体的多个视图的标准NeRF不同,LOLNeRF只用一个物体的单个视图(但该类型物体的多个例子)来监督训练。
  因为NeRF本身是三维的,所以模型可以从任意的视角来渲染物体。将NeRF与GLO结合起来,使其有能力从单一视图中学习跨实例的公有三维结构,同时仍然保留了重新创建数据集的特定实例的能力。
  为了让NeRF正常运行,模型需要知道每张图像的确切摄像机位置,以及相对于物体的位置,但正常来说这个数据都是不可知的,除非在拍摄图像时具体测量过。
  研究人员使用MediaPipe Face Mesh来从图像中提取五个landmark位置,这些二维预测的每一个点都对应于物体上的一个语义一致的点(例如,鼻尖或眼角)。
  对于猫来说也是一样。
  然后,我们可以为这些语义点推导出一组典型的三维位置,以及对每张图像的摄像机位置的估计,这样典型点在图像中的投影就会与二维landmark尽可能地一致。
  标准的NeRF对于准确地再现图像是有效的,但在单视角情况下,往往会产生在off-axis观看时看起来很模糊的图像。
  为了解决这个问题,模型中还引入了一个新的硬表面损失(hard surface loss),促使密度采用从外部到内部区域的尖锐过渡,减少模糊现象,实质上是告诉网络创建「固体」表面,而不是像云一样的半透明表面。
  研究人员还通过将网络分割成独立的前景和背景网络获得了更好的结果,使用MediaPipe Selfie Segmenter的一个掩码和一个损失来监督这种分离,以促使网络specialization,可以使得前景网络只专注于感兴趣的对象,而不会被背景「分心」,从而可以提高生成质量。
  在实验部分,先看一下模型在CelebA-HQ、FFHQ、AFHQ和SRN Cars数据集上训练后的可视化效果。
  在量化比较部分,由于LOLNeRF是用图像重建metric来训练的,所以研究人员首先进行实验来评估训练数据集中的图像被重建的程度。
  用峰值信噪比(PSNR)、结构相似度指数 峰值信噪比(PSNR)、结构相似性指数(SSIM)和学习感知图像块相似性(LPIPS)指标来比较后可以发现,LOLNeRF的指标都大幅领先。
  研究人员还对图像拟合进行了一个更直接的比较,在一组训练期间未被网络看到的图像上进行测试。在从FFHQ数据集中抽取了200张图像后,使用在CelebA图像上训练的模型进行重建,在量化指标上仍然有优势。
  为了评估模型学习到的三维结构的准确性,研究人员对合成的新视图(synthesized novel views)进行图像重建实验。通过对来自人类多视图行为图像(HUMBI)数据集的单帧进行图像拟合,并使用相同人物的其他ground truth视图的相机参数重建图像。
  实验结果显示,对于比较模型π-GAN来说,LOLNeRF模型从新的视图中实现了明显更好的重建,也表明该方法确实比π-GAN学到了更好的三维形状空间,也就是说模型可以泛化到未见数据的形状空间,而不仅仅是从查询视图中再现查询图像。
  参考资料:
  https://ai.googleblog.com/2022/09/lolnerf-learn-from-one-look.html

23年接力512名博士锚定人生井位黄沙漫天,戈壁荒凉,丰富的油气资源亟待开发看到新疆油田的第一眼,这里的一切便在张波心里深深扎下了根。2014年,张波正就读于中国石油大学(华东)油气井工程专业,他第一次跟随学校暑期回到小城再次回到小城,已是天色渐寒的初秋,迎接我的依然还是那么情深意长的街灯。唯独不同的,只是节日的五星红旗依然还在迷雾中苦苦等待我的归来,等待浪迹天涯的游子姗姗地归来。这里没有什么,仅仅人间不易人间清醒笔记灵感人生这条路很长,未来如星辰大海般璀璨,不必踟躇于过去的半亩方塘。那些所谓的遗憾,可能是一种成长那些曾受过的伤,终会化作照亮前路的光。你一定要相信,如果你足够牛,别人一眼就心动的句子1。青山几重,回眸一眼就心动2。你自山河林间来,惊鸿一现百花开。3。夜里有腐烂的梦,梦里有重复的人。4。好天气总是和你一样,止不住的让人心动。5。别太较真,人生就是偶尔取笑一下别人青山不语仍自在,微水无痕亦从容徐云,几天不见,你还好吧!挺喜欢这个干净内敛,略带羞涩的大男孩,喜欢他待人彬彬有礼,喜欢他认真对待生活的态度,喜欢他娓娓道来地介绍沿途风貌,喜欢他低调而不张扬地个性,更欣赏他不畏艰叶子双双叶子双双德国哲学家莱布尼茨说过世上没有两片完全相同的树叶。每个人都是世界上的唯一。由于同属太多,也不是珍贵的。对于事物,物以稀为贵。人为万物之灵,您的认知决定了您的价值。价值是一个如何理解法定休假日依法支付工资摘要病假遇法定休假日,工资怎么算?法定休假日加班,可拿4倍工资?近日,职工苏某不同意调岗要从公司离职,却因结算工资的数额与老板发生纠纷。他认为公司应给自己结算三个月整的工资,包括春致景科技陈泳斌致力于为传统纺织业插上互联网翅膀恰同学少年,风华正茂书生意气,挥斥方遒。他是致景科技年轻的技术骨干,是精益求精钻研代码的程序员,也是一位拥有12年党龄的党员。热爱运动热爱工作热爱志愿工作,你可以在他身上看到这个时户外音箱推荐Sanag塞那M13Pro便携蓝牙音箱评测大家好,我是王小洋。现在年轻人都爱玩什么?健身滑板露营等都是是户外项目,所以现在便携性强音质好的户外音箱就特别受欢迎。但是对于喜欢这些户外活动的年轻人来说一般的便携音箱不一定能满足2022年第五届全国浆体浓缩与管道输送技术和装备研讨会拟于11月召开中国金属学会选矿分会浆体浓缩与管道输送学术委员会清华大学水沙科学与水利水电工程国家重点实验室长沙矿冶研究院有限责任公司长沙有色冶金设计研究院有限公司中冶长天国际工程有限责任公司等拟正式确定!CBA名将重返国家队工作,担任教练,拒绝广东宏远邀请在CBA揭幕战上,苏群在解说的时候曝出了CBA名将,前深圳男篮主帅邱彪将会加盟广东宏远的消息,这也一度引起了热议。不过广东宏远方面对此进行了否认,同时也有媒体人进行了报道,邱彪和杜
你见过哪些LOL天才选手的陨落?如今英雄联盟已经来到的第八个赛季,8年来游戏天才肯定是不少的。有一些玩家可能就是骨子里有那种强于别人的基因,他们对于游戏有着异于常人的理解。玩游戏总能打出自己的想法。LPL的天才我21世纪含金量高的NBA总冠军有哪些?我认为有这些,我认为单核总冠军的含金量都很高,不过16年的骑士队是一个例外,也就是前三个是单核总冠军,最后一个是例外的含金量最高的总冠军。第4位2013年迈阿密热火队(詹姆斯)很多巴萨的历史上,哪些球员穿过10号呢?你觉得他们谁最强呢?巴萨历史上穿过10号的球星很多,例如马拉多纳罗马里奥,但是直到199596赛季,巴萨的球衣号码才是固定的,其中梅西无疑是巴萨历史上最强的10号。1。安赫尔奎利亚尔(19951996为什么有的同学平时看着学习不努力,但是考试成绩还不错?这个不能比。我上学时,我的同桌,她上课时,也没看出听课多认真,而且还嚼泡泡糖,放了学,因为我两是亲戚,我们一起住,她回家不看书,我也就不看。可是考试每次都考的比我高,最后,她考上了如果在未来某一天彻底取消所有网贷后会发生怎样的变动?网贷害了一代人,建议包括信用卡在内的全部取消掉,刚入社会的年轻人控制不住,借网贷办信用卡,提前透支消费,造成结果就是欠着一屁股的债。所以建议国家赶快去掉,再不要祸害下一代人了。有什电脑用了win10后,你遇到过哪些不方便的事?部分软件不兼容问题比较烦。window10使用体验一直不错的,个人使用也非常好用,也是大势所趋,但比较老的设备驱动不能安装,最近使用的360WIFI和小米WIFI就出现了不能使用的一年级的孩子有必要学习下一个学期的知识吗?我是一年级的老师,我想谈谈我的看法。首先我们先不谈有没有必要的这个问题,我们先说说您孩子的老师给孩子留了预习的作业了吗?我认识的很多孩子的老师,都会给孩子留下学期的预习作业。基本都大学期间体测成绩没过,没拿到毕业证,前途一片渺茫,这样的学校真的对学生负责任吗?体测,这个东西,真的有必要。体测不过就一种可能,懒。如果是身体在测试当天不好的话,一般都是可以申请缓考或者补考。这些问题都能解决。第二就是自己懒,一天到晚待在宿舍,不愿动一下,这种早上测空腹血糖,指尖血糖和静脉血糖哪个测得的数据要高些?静脉血糖是将抽取的静脉血把血液中的细胞分离后,检测剩下的血浆中的血糖值,也叫血浆血糖。家用血糖仪没有这样复杂的采血化验过程,不能分离红细胞,因此指尖血糖也叫全血血糖。研究发现,静脉现在负债的人为什么那么多?我觉得主要这几点1。超前消费,没有量力而行,比如没能力提前买房买车2。网络借贷信用卡的滥用3。没有必要的分期付款,买些没必要的东西4。个人虚荣心。网络借贷信用卡的资金满足日常没必要为何伤医事件频发?深层次矛盾是什么?伤医事件频发其实就是过度医疗,繁琐的过度检查及排队磨灭了人的耐性,医生的三言两语捂住了患者的焦虑,多开药消耗了人的身体。深层次矛盾就是医疗产业化。本来是为国为民的服务机构却变成一个