InseRF 按需编辑逼真的 3D 世界
00 分钟
2024-1-12
2024-3-14
type
status
date
slug
summary
tags
category
icon
password
URL
苏黎世联邦理工学院和苏黎世谷歌的研究人员提出了一种名为 InseRF 的新方法,用于将对象生成地插入到 3D 场景中。
该方法使用文本提示和参考点上的 2D 边界框在 NeRF 中生成新对象。实验表明,InseRF 优于现有方法,并且能够将一致的对象插入到 NeRF 中,而不需要明确的 3D 信息作为输入。
InseRF 将 NeRF 领域的进步与生成式 AI 领域的进步相结合,能够将单个图像转换为 3D 模型或 3D 编辑。

InseRF 依赖于扩散模型和 NeRF

为了将新的 3D 对象集成到 NeRF 中,InseRF 从 3D 场景的 2D 图像开始,用户可以在该图像上标记应进行更改的区域。
该更改通过文本提示来描述,例如“桌子上的茶杯”。然后,InseRF 通过扩散模型在此 2D 视图中创建一个茶杯,并估计如此创建的视图的深度信息。然后,该数据用于更新 NeRF 并生成 3D 杯子。
图片:Shahbazi、Claessens 等人
图片:Shahbazi、Claessens 等人
此过程使得在场景中创建新的 3D 对象成为可能,该对象在多个视图中保持一致,并且可以放置在任何位置。
据该团队介绍,该方法还克服了在不同视图中创建和放置对象的 3D 一致性挑战,这是生成 2D 模型的主要障碍。

InseRF 显然依赖于替代方案

研究人员正在使用 MipNeRF-360 和 Instruct-NeRF2NeRF 数据集的一些真实室内和室外场景来测试 InseRF。结果清楚地表明 InseRF 能够本地修改场景并插入 3D 一致的对象。
视频:苏黎世联邦理工学院 / 谷歌
然而,InseRF 的性能受到底层 2D 和 3D 生成模型的能力的限制。然而,未来对这些模型的改进可以很容易地转移到 InseRF 管道中。
该团队计划在未来测试其他方法,例如改善阴影形成并均衡生成对象及其周围环境的质量。
更多示例和信息可以在 InseRF 项目页面上找到。

总结

  • 苏黎世联邦理工学院和苏黎世谷歌的研究人员开发了 InseRF,这是一种使用文本提示和 2D 边界框将对象插入 3D 场景的方法。
  • InseRF 结合了 NeRF(神经辐射场)和生成式 AI 的进步,无需显式 3D 信息即可将一致的对象插入到 3D 场景中。
  • 该方法已在真实的室内和室外场景中成功进行了测试,并显示出未来改进 2D 和 3D 生成模型的潜力。
 

评论
  • Twikoo