75年前,宝丽来相机拍摄出第一张即时照片,是人类第一次以逼真的二维图像快速捕捉三维世界,具有划时代的意义。今天,人工智能的研究人员正在进行相反的工作,力求在几秒钟的时间内将静止图像的集合变成数字3D场景。

在本周的春季图形技术大会(GTC)上,Nvidia展示了一种新的逆渲染方法(Instant NeRF)——从少量2D图像中重建3D场景。逆向渲染使用AI来模拟现实世界里的光线,基于Nvidia Research团队开发的技术,让渲染过程极大地缩短,几乎可以说是立即发生。

特斯拉视觉自动驾驶技术发布(特斯拉的自动驾驶技术有救了)(1)

事实上,在2D转3D的相关领域,Nvidia一直在尝试技术突破,致力于推出更强大的工具来完成这一过程。但即使是Nvidia这样的行业领先公司,即时渲染3D也是一项极为艰难的技术挑战。

这更凸显出Instant NeRF的来之不易。关于这一成就,谷歌科学家Jon Barron在推特上表示:18个月前,训练NeRF还需要5小时;2个月前,训练NeRF最快也需要5分钟;就在近日,基于英伟达的最新技术,训练NeRF最快也需要5秒!

Instant NeRF的技术原理

据了解,Nvidia能够取得这一成绩的主要原因是采用了一种被称作多分辨率哈希编码(Multiresolution Hash Encoding)的技术。在一篇论文《基于多分辨率哈希编码的即时神经图形基元》中,Nvidia对这一新技术做了详细说明。

Nvidia表示:“计算机图形基元基本上由有关外观的各项参数的数学函数表示。参数的数学计算结果对于视觉保真度至关重要。”言下之意是,Nvidia希望在保持速度和数学函数紧凑度的同时,还能捕获高频、局部的图形细节。

为了达到上述要求,Nvidia采用了多分辨率哈希编码技术。据Nvidia称,该技术有着自适应性和高效性两大特性。函数内部只有两个值需要进行配置,分别为参数的数量T和所需的最佳分辨率N max。

该方法映射了来自各个角度的2D镜头的颜色和光线强度,然后生成数据,再结合摄像机位置的相关数据,将这些来自不同位置的图像连接起来,从而渲染出3D场景。

利用该技术,只需经过几秒钟的训练,便能在各种任务中达到较高的质量。

在GTC会议上,Nvidia展示了一张图片,图片上是一个穿着像安迪·沃霍尔(Andy Warhol)的模特拿着一个老式的宝丽来相机。在参与者还没有反应过来的时候,Nvidia迅速把这张图片转换为了3D效果,引起了现场的阵阵惊叹。

展示之后,Nvidia的Isha Salian在现场表示:Instant NeRF(中文叫神经辐射场)是由加州大学伯克利分校、Google研究院和加州大学圣地亚哥分校的研究人员在2020年开始研发的一项技术。

该模型是使用Nvidia CUDA工具包库开发的。由于它是一个轻量级的神经网络,它可以在单个Nvidia GPU上进行训练和运行,在核心卡上运行最快。

年来,研究人员一直在改进这种从2D到3D的技术,旨在为渲染出的成品增加更多画面细节,并提高渲染速度。Nvidia表示,新一代Instant NeRF模型是迄今为止最快的技术之一,将渲染时间从几分钟缩短到“几乎瞬间”就能完成。

NeRF的应用范围

Isha Salian进一步阐释说,这种方法可以应用于广泛的领域。它可用于为虚拟世界创建头像或场景,以3D形式捕获视频会议参与者及其环境,甚至重建3D数字地图的场景。

在上述领域,使用传统方法创建3D场景可能需要数小时或更长时间,具体取决于可视化的复杂性和分辨率。而NeRF使用神经网络系统,效率和准确度大幅度提升。

关于这一点,Nvidia图形研究副总裁David Luebke在一份声明中点出:“Instant NeRF对3D来说可能与数码相机对2D一样重要。因为在2D摄影中,JPEG压缩一直是关键的步骤,它大大提高了3D捕获和共享的速度、易用性和覆盖范围。”

“这项技术可用于训练机器人和自动驾驶汽车,通过捕捉现实世界物体的二维图像或视频片段来了解它们的大小和形状。它还可以用于建筑和娱乐业,通过快速生成真实环境的数字函数,创作者可以在此基础上进行修改和构建。”

特斯拉视觉自动驾驶技术发布(特斯拉的自动驾驶技术有救了)(2)

业内人士表示,NeRF在自动驾驶、航空测量等领域也具有广泛应用前景。例如创建大范围的高保真地图,为机器人定位、导航等应用提供帮助。此外,自动驾驶系统通常需要重新模拟以前遇到的场景来进行安全评估,然而,如果历史记录中存在任何的偏差都可能改变车辆的真实轨迹,因此需要沿着路径进行高保真的视图渲染,这同样需要NeRF技术。在自动驾驶中,除了基本的视图合成,以场景为条件的NeRF还能够改变环境照明条件,例如相机曝光、天气或一天中不同的时间,从而进一步提升模拟驾驶场景的仿真度。

除了NeRF之外,Nvidia的研究人员还在探索如何利用这种输入编码技术来加速多种人工智能挑战,包括强化学习、语言翻译和通用的深度学习算法。

,