范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

谷歌公开裸眼3D全息视频聊天技术8k屏幕4块GPU和一堆摄像头

  机器之心报道
  编辑:陈萍、杜伟
  这个神奇的「聊天室」,让你和远在天边的他们近距离碰面,互相问候、眼神交流,就像真的互相见到一样。
  今年 5 月举行的谷歌 I/O 大会上,在谷歌园区户外进行的开场 Keynote 上,这家公司发布了一系列引人瞩目的全新产品。
  在会上,谷歌公布了一个秘密开发多年的黑科技:全息视频聊天技术 Project Starline。Project Starline 本质上是一个 3D 视频聊天室,旨在取代一对一的 2D 视频电话会议,让用户感觉就像坐在真人面前一样。
  通过 Starline,相互视频的人,不需要佩戴任何眼镜或者头盔,真实的就像坐在对面聊天一样,人物细节饱满。我们先来感受一下它的效果:
  实际上,这是由高分辨率传感器、数十个景深扫描传感器以及 65 英寸「光场显示器」重新生成的实时 3D 模型。谷歌表示这一项目已开发了数年之久,其背后是大量计算机视觉、机器学习、空间音频和数据压缩技术。谷歌还为此开发出了一套突破性的光场系统,让人无需佩戴眼镜或耳机即可感受到逼真的体积和深度感。
  我们可以想象实现这一技术有多难,首先你需要让大脑认为有一个真人坐在离你不远的地方;其次图像需要高分辨率并且没有伪影;此外是音频问题,因为系统需要让声音听起来是从对面人的嘴里发出来的,还有诸如眼神交流等的小问题。
  这项前沿黑科技背后的技术是怎么实现的呢?想必很多人都想了解,近日,谷歌在一篇论文中公布了 Project Starline 演示背后的技术。
  论文地址:https://storage.googleapis.com/pub-tools-public-publication-data/pdf/424ee26722e5863f1ce17890d9499ba9a964d84f.pdf
  硬件部分,Project Starline 系统围绕一个以 60Hz 运行的大型 65 英寸 8K 面板构建。围绕它,谷歌的工程师布置了三个用于捕获彩色图像和深度数据的「捕获 pod」。该系统还包括四个额外的追踪摄像头、四个麦克风、两个扬声器和一个红外投影仪。整体来看,系统需要捕获来自四个视角的彩色图像以及三个深度图,共计七个视频流。系统还需要捕获 44.1 kHz 的音频,并以 256 Kbps 编码。
  显然,所有这些硬件都会产生大量需要传输的数据,谷歌表示,传输带宽从 30Mbps 到 100Mbps 不等,具体取决于用户衣服的纹理细节和手势的大小。因此,这远远超过标准的 Zoom 通话。Project Starline 配备了四块高端 Nvidia 显卡(两块 Quadro RTX 6000 卡和两块 Titan RTX)来对所有这些数据进行编码和解码。端到端延迟平均为 105.8 毫秒。
  系统实现
  如下图 4 所示,谷歌的系统主要有两个组件:一个包含显示器、摄像头、扬声器、麦克风、照明器和计算机的显示单元,另一个是包含红外背光并用作 bench seat 的背光单元。两个单元都包含向墙壁和天花板倾斜的白色 LED 灯条,用于产生柔和的反射照明。
  捕获子系统由三个同步立体的 RGBD 捕获 pod 组成:两个在显示器上方,一个在显示器下方的「中墙」(middle wall)中。更下方的 pod 包括一个额外的彩色相机,用于放大拍摄对象的脸部。另外,四个单色追踪摄像头中的两个在显示器上方,其余两个一侧一个,用于捕捉眼睛、耳朵和嘴巴的高速广角图像。
  下图 5 展示了捕获和显示组件的排列。
  更详细的系统组件信息如下:
  下图 6 为系统中的数据流,展示了 Starline 主要的处理组件如何映射到 GPU 和 CPU。系统中的所有视频处理都在 60 Hz 下进行,除了 120 Hz 的面部跟踪和 180 Hz 的红外立体模式捕获。
  照明
  谷歌使用间接「反弹」(bounce)光源创造了一个柔和的照明环境。在显示和背光单元的侧面和背面,白色 LED 灯带照亮了周围的墙壁,产生舒适的漫射源,最大限度地减少锐利高光。与明亮的 LED 直接照明相比,这种散射的光对用户来说也更舒适。
  同时,光亮保持一定的不均匀分布也很重要。谷歌发现,完全均匀的入射光使人脸和其他 3D 形状看起来扁平且不真实,阻碍了系统中其他 3D 效果的发挥。摄影师尤其是电影摄影师将拍摄对象完全照亮和阴影两侧之间的对比度称为「照明比」。为了保持对象的立体感,谷歌在邻近墙壁的显示单元一侧使用更强的强度,产生大约 2:1 的照明比。
  展示效果如下图 7 所示:
  色彩校准
  谷歌通过调整每个相机的增益、色彩校正 (3 3) 矩阵和 gamma 对系统的 RGB 相机进行色彩校准,以使标准色彩目标 [McCamy et al. 1976] 匹配 D65 光源下的参考色彩值,抵消了室内照明的影响。经过色彩校准的显示器在 D65 光源下拍摄的图像看起来像是在当地房间的照明条件(强度和色彩)下拍摄的。这种色彩校准方案可确保系统自动校正两个用户位置之间的细微照明差异。
  对象捕获
  谷歌的目标是渲染每个用户的新图像,这是因为它们应该出现在其他用户的左眼和右眼。显然,如果可以将相机精确地放置在这些眼睛位置,那么捕捉就变得微不足道了。
  遗憾的是,这是不可行的。一方面,这些位置位于显示器的中心附近,因而会被遮挡;另一方面,用户将会在所有 3 个维度上自由运动。新兴的透视显示技术或许能够部分解决这个问题,但透明的自动立体显示器还不存在,并且无论如何都无法解决观看者的运动问题。
  因此,谷歌将捕获传感器放置在显示器的外围。由于显示器对着本地用户的角度很大,因此捕获视角与需要渲染的眼睛位置相距甚远。为了解决这种大视差,谷歌使用可见光和近红外(NIR)全局快门图像传感器的组合来重建用户的几何近似值。
  如上图 5 所示,传感器分布在三个捕获 pod 中,两个在显示器上方,一个位于其下方的中墙。上方的 pod 可以很好地观察手势以及头部和躯干的侧面,同时下方的 pod 又能很好地观察颈部、面部和下巴。pod 的体积足够大,宽 1.4 m、高 1.0 m 和深 0.9 m,用于捕捉坐着自然谈话和打手势的用户的头部、躯干、手臂和手。
  3D 脸部追踪
  谷歌采用了四个同步的 1280 1024 单色相机,它们以 120Hz 运行并配有过滤器来阻挡 NIR 光。对于每个捕获的图像,谷歌检测面部并定位 34 个面部标志 [FaceDetector 2019]。此外,他们还将眼睛、嘴巴和耳朵的 2D 位置确定为邻近标志的加权组合。为了让四个追踪相机中至少有两个找出这些对象,谷歌使用三角测距法(triangulation)来获取它们的 3D 位置。
  视频压缩以及传输
  来自 RGBD 捕获 pod 的四种颜色和三种深度流在 GPU 上进行压缩,并使用 WebRTC 与追踪的 3D 面部点一起传输。
  通过使用视频压缩技术,该研究能够利用现代 GPU 中高度优化的视频编码器和解码器。具体来说,他们使用四个 NVIDIA GPU 的 NVENC/NVDEC 单元。这样一来会有足够的吞吐量处理四种颜色和三种深度流在全分辨率和 60Hz 的帧率。颜色和深度流都使用带有 YUV420 chroma 子采样的 H.265 编解码器进行编码。颜色流每通道使用 8 位, 深度流每通道使用 10 位,深度数据存储在 Y 亮度(luminance)通道中,而 UV chroma 通道设置为 512(灰色)。该研究通过省略双向编码 (B) 帧来减少编码和解码延迟。
  渲染
  在接收客户端上解压好 3 个深度图和 4 个彩色图像后,该研究从本地用户的眼睛位置渲染虚拟远程用户左右透视图。它由三个步骤组成:
  对于每个 4 色相机,通过为每条射线找到与输入深度图融合的表面的第一个交点,使用光线投射计算阴影图;
  对于 2 用户视图 (左和眼) 中的每一个,使用相同的光线投射算法计算输出深度图;
  对于每个输出深度映射点(output depth map point),计算由第 1 步得出的阴影映射图加权颜色混合。
  对于左视图和右视图,该研究通过将彩色图像投射到融合几何体上来获得每个像素的颜色(图 10):
  图 11 显示了没有边缘融合的不规则像素化轮廓。该图还显示,基于图像的融合提供了比轮廓附近体积融合(volumetric fusion)更完整的重建:
  声音传输
  该研究使用的音频传输技术是将一系列先进技术进行组合:talker-tracked 波束成形、混响消减、WebRTC 传输、talker/listener-tracked 虚拟音频合成、双耳串扰消除分频组合以及振幅平移。与传统的视频会议系统相比,对谈话者和倾听者精确的追踪是共享空间达到真实性的关键因素(图 12)。据了解,这是首次在视频会议中无需耳机、头部追踪的音频技术。

iPhone15系列前板曝光,挖孔屏灵动岛已成定局,还有全新固态按键近日,有消息渠道爆料了据称是iPhone15iPhone15ProiPhone15Promax三款的前面板图片,iPhone15全系确认使用开孔屏设计,也就是说全系配备灵动岛已是定进入高发期!潜伏期2到10天,疾控中心发布提醒每年四到六月份都是手足口病高发的季节从目前的情况看深圳的发病患儿不算多但家长们也不能掉以轻心近日,中国疾控中心发布关于手足口病的健康提示什么是手足口病?该如何预防和治疗?入园依次检和孩子聊废话也是一种智慧,不用太多时间,睡前10分钟就够了从科学养娃开始文兰妈谈育儿同事李姐辞职了为了有更多时间陪女儿成长,她放弃了奋斗十余年的高薪工作本以为这份取舍对于李姐而言是幸福的,毕竟和孩子成长的那些岁月一去不复返,错过了或许也就早发现早干预,让孩子远离马蹄足的危害后台很多粉丝朋友咨询什么是马蹄足,其实马蹄足是一个医学术语,表示脚部在站立的时候,脚尖是着地的,但脚跟部位却是悬空,像马蹄一样。马蹄足是新生儿中骨关节最常见的畸形,发生率是1100跟着课本游中国甘肃莫高窟跟着课本游中国甘肃莫高窟爷爷,这个地方全是戈壁沙漠,空气里还有灰蒙蒙的沙尘,有什么好玩的。小明坐在火车上,不解地问看爷爷。爷爷笑而不语,只是望着窗外的荒凉景象。广袤的荒漠上偶尔出现爆梗的盛唐密盒,你看过了吗?近日大唐不夜城的演出盛唐密盒火爆出圈不仅刷屏朋友圈还喜提热搜网友们纷纷喊话西安真的把旅游搞明白了每天一看疏解心情春晚没他们我不看两个人有学识又有梗西安越来越会玩了盛唐密盒到底是什么记者手记在这座三线城市,中国足球看到了什么?比赛现场。王逸飞供图中新网浙江新闻4月2日电(王逸飞)1日晚,首届衢州有礼体彩杯男子职业足球邀请赛在浙江衢州的衢州体育中心打响,上赛季足协杯冠亚军山东泰山与浙江队的这场角逐,是新赛墨菲获斯诺克巡回锦标赛冠军19名中国选手出战世锦赛资格赛中新社北京4月3日电北京时间3日晨,2023年斯诺克巡回锦标赛在英国收官,大满贯得主魔术师肖恩墨菲在决赛中以107战胜最强90后凯伦威尔逊,获得其职业生涯的第11个排名赛冠军。在斯胜软科技参展中国石油石化企业信息技术交流大会并发表主题演讲中国石油石化企业信息技术交流大会暨油气产业数字化转型高峰论坛于2023年3月29日至30日在北京石油科技交流中心举办,山东胜软科技股份有限公司组织相关专家业务团队参加大会。人工智能AIChatGPT预测中国未来10年经济科技发展,以及是否会超越美国!作为一个AI模型,我不能对未来进行准确的预测。不过,根据目前的趋势和政策,可以看出中国在未来十年内的经济和科技发展将继续保持快速增长。在经济方面,中国的经济发展模式正在转型,从以投恩比德为女友庆生!皮肤白皙,身材碾压詹娜,NBA罕见黑白配!头条创作挑战赛现如今NBA联赛常规赛已经进入了尾声,各支球队都在全力冲击季后赛,而东部这边,76人本赛季战绩不错,目前他们排名东部第三,早早就锁定了季后赛一个席位,球队成绩不错,当
塔图姆仅13分,凯尔特人不敌勇士丢失总冠军,谁该背锅?6月17日,NBA总决赛第六场,凯尔特人在主场面对勇士比赛中,塔图姆个人状态低迷,全场出战40分钟18中6,仅拿下13分3篮板7助攻,布朗状态可以23中12,砍下34分7篮板3助攻勇士夺冠,4人总冠军数追平詹姆斯,库里冲击历史前十勇士大比分42击败凯尔特人夺得本赛季NBA总冠军。至此,库里汤普森追梦格林和伊戈达拉都获得了个人生涯第4个总冠军,追平詹姆斯,并列现役最多。库里汤普森和追梦格林都是勇士选秀选中的球G6汤没有现身,但勇士全队都是G6汤,多达6人命中至少2记三分总决赛第六场,勇士以10390击败凯尔特人,大比分42战胜对手,夺得总冠军。在今天这场G6中,汤普森表现一般,没能打出期待中的G6汤的表现,全场20投仅5中,其中三分8中2,只得到勇士42夺冠,库里喜极而泣,G6汤神奇不再,塔图姆彻底迷失北京时间6月17日,NBA总决赛G6开打,赛前勇士队系列赛32领先手握赛点。首节比赛,绿军先声夺人,打出122的梦幻开局,此后两队交替涨分,绿军来到22分以后突然进攻断电,勇士在库湖人勇士酿双赢交易!格林不愿辅佐水花兄弟,浓眉态度是关键北京时间的6月17日,在总决赛的赛场上,勇士队表现的非常出色,最终以大比分42战胜了凯尔特人,获得了本年度的总决赛冠军,在拿下总冠军之后,库里在赛场上留下了热泪,他非常的激动,他以出现了!10分钟的汤普森!NBA又一支勇士队诞生有这么位神人,勇凯天王山之战开始前夕,竟然能通过严格的安保,在勇士主场大通中心为所欲为如入无人之境据悉经过五道安检,却没有任何工作人员向他要证明,甚至还成功在场上练了十分钟投篮才被夫妻俩都是大厂程序员,攒一千万很难吗?答10年就够了6月9日,B站公布了其2022年第一季度业绩报告。报告期内,公司总营收为人民币50。54亿元,同比增长约29。56净亏损为22。84亿元。其中,成本方面,B站2022Q1的经营开支比特币大跌首富身家缩水90比特币跌至近2万美元关口,加密货币首富一夜返贫?不至于,但身家确实蒸发了90今年5月,加密货币Luna币爆雷后,币安Biance创始人赵长鹏曾调侃自己返贫了。而6月,比特币逼近20微信最新通告打击清理!微信安全中心16日发布微信个人帐号发布违禁品及仿冒品信息处理公告称,近期加强了对微信个人帐号发布违禁品仿冒品信息行为的打击清理。利用互联网销售违禁品(如催情迷药)或违规利用互联网销首款200W快充旗舰备货,骁龙8帮忙,iQOO10Pro够疯狂经常关注手机圈的朋友会发现,今年友商们都朝着续航方向发力,4nm旗舰新机统统用上5000mAh大电池。同时,在快充方面也有不小的提升,从去年普遍盛行的66W到如今的80W。但要说到我国成功进入创新型国家行列三大运营商如何科技自强?来源通信信息报社(记者卢臻)科技部部长王志刚近日表示我国已成功进入创新型国家行列,并走出了一条从人才强科技强,到产业强经济强国家强的发展道路。在国家科技创新的浪潮下,我国电信运营商