英伟达用AI将2D照片制成3D模型能适配任何传统图形引擎

发布日期： 2022-07-04 09:40:43 来源： DeepTech深科技

NVIDIA 正在利用 AI 让设计师、游戏开发等人员在短时间内用 3D 对象进行创作。创作者们能够使用其提出的 NVIDIA 3D MoMa 方法对内容进行快速导入、修改和更改材质等工作。

“逆渲染是一种将一系列静态照片重建为物体或场景 3D 模型的技术。该技术长期以来对统一计算机视觉和计算机图形学至关重要。”NVIDIA 图形研究副总裁大卫·吕布克(David Luebke)说，“通过将逆渲染问题的每一部分表述为 GPU 加速的可微分组件，NVIDIA 3D MoMa 渲染管道使用现代 AI 的机制和 NVIDIA GPU 的原始计算能力来快速生成 3D 对象，创作者可以在现有工具中不受限制地导入、编辑和扩展。”

传统上，人们创建 3D 对象会使用摄影测量技术，这涉及的是一个多阶段、相当耗时的过程。创作者需要通过大量的软件工具和手动调整来达到最终期望的 3D 模型效果。得一定优势，并提供了高质量的新视图合成。

然而，这些方法通常会产生将几何图形、材料和照明纠缠到神经网络中的表示形式，不能以三角形网格格式生成，因此很难支持场景编辑操作。“三角形网格是用于在 3D 图形和建模中定义形状的基础框架，是此类 3D 工具使用的通用语言。”研究者在 NVIDIA 官网博文中写到。

另外，为了更为实用，3D 对象应该适配众多常用工具，比如，游戏引擎、3D 建模器和电影渲染器等。而要在传统的图形引擎中使用它们，需要使用诸如标记立方体等方法从网络中提取几何图形，这可能会导致较差的表面质量，特别是在低三角形计数时。神经网络编码的材料不能轻易地编辑或提取与传统游戏引擎兼容的形式。

相比之下，本次研究重建了与传统图形引擎兼容的 3D 内容，支持重启和场景编辑。由此产生的 3D 模型不需要转换就可以在任何支持三角形渲染的设备上进行部署，手机和网页浏览器同样适用。它可以在标准的游戏引擎中不经修改地使用，并对所有阶段进行基于梯度的优化。

该三维重建方法 NVIDIA 3D MoMa 的相关论文，近日在 2022 年计算机视觉和模式识别会议(CVPR，Conference on Computer Vision and Pattern Recognition)上发表，并以《从图像中提取三角形三维模型、材质和照明》()为题提交在 arxiv 上。

研究人员针对各种应用程序来评估他们的系统，对已有对象进行重新编辑和模拟，以展示他们的方法显式分解为三角形网格和材料，并与 NeRF、神经反射分解(NeRD，Neural Reflectance Decomposition)等方法做了比较。

值得一提的是，研究人员还做了一个虚拟乐队视频演示，以体现 NVIDIA 3D MoMa 的强大功能。

首先，他们从不同角度拍摄了约 100 张乐器图像，并用新提出的研究方法将这些静态图像分别重建为 3D 表示和三角形网格。

然后，将对象从原始场景中分离出，再导入 NVIDIA Omniverse 3D 平台编辑。在广泛使用的图形引擎中，可轻易地将产生的形状材料替换为黄金、木材等不同材质，就好像把网格装扮成不同的装饰一样，也能将其放在任意虚拟场景(比如康奈尔盒，一种经典图形测试)中。

最后证明，不同的虚拟乐器对光有不同反应，跟在现实中几乎相同。新生成的对象能够用作复杂画场景的构建块。

(来源：NVIDIA 官网)

值得注意的是，研究人员在论文中还表示：“为了加速优化，选择了简化的着色模型，也没有考虑全局照明或阴影。这种选择是材料提取和回收的限制因素。在未来的工作中，随着目前在可微路径跟踪方面的进展，这一限制有望得到解除。”

总的来说，本研究展示了一种与最先进的视图合成等技术相媲美的方法，同时还有着优化的三角形网格、兼容传统图形引擎和建模工具等优势，并由渲染模型的外观驱动来执行端到端优化。

这简化了进行 3D 内容创作人员的大量工作流程，极大节省他们的时间和提升效率。该研究方法还可以作为外观感知转换器，补充了许多最近的技术。

标签：传统图形引擎图形引擎英伟达3D模型英伟达模型