LangSplat使得3D环境可以被细致地搜索
8773 分钟
2024-1-3
2024-3-14
type
status
date
slug
summary
tags
category
icon
password
URL

LangSplat是一个3D语言高斯,可以通过语音搜索3D世界-直到汤里的配料

清华大学和哈佛大学的研究人员开发了LangSplat,这是一种新的人工智能系统,可以在3D空间中实现高效、精确的开放词汇搜索。文章称,该系统在速度和准确性方面明显优于之前最先进的 LERF 方法。
语言嵌入式辐射场 (LERF) 由加州大学伯克利分校的研究人员于 2023 年 3 月推出。该系统将大型语言模型集成到 NeRF 中,无需特殊训练即可在 3D 环境中实现精确的物体识别。例如,根据愿景,用户可以在书店的 NeRF 环境中以自然语言搜索特定的书名。
该技术还可用于机器人技术、模拟中机器人的视觉训练以及人类与 3D 世界的交互。

LangSplat 速度快了近 200 倍,而且更准确

然而,LERF 不适合实时搜索并且相对不准确。另一方面,LangSplat 使用 3D 高斯构建 3D 语音场。研究人员表示,这种方法绕过了 NeRF 所需的复杂渲染过程。与 LERF 相比,LangSplat 在 1440 x 1080 像素的分辨率下实现了 199 倍的加速。
为了形成 3D 语言场,LangSplat 使用 Meta 的 Anything Model 段从场景的多个图像中学习分层语义。具体来说,图像被分解为具有清晰边界的不同对象掩模,从而将对象分解为整体、部分和子部分。
然后通过 CLIP 处理学习到的掩码,CLIP 的嵌入训练一个自动编码器,然后用于训练 LangSplat 的 3D 语音高斯函数。
Video preview
YouTube视频,需开梯子观看
💡

LangSplat 可以区分汤的成分

在实践中,LangSplat 更加精确:在一个示例中,团队要求“一杯茶”。 LERF 标记两个杯子,而 LangSplat 标记玻璃杯中的液体。在另一个例子中,它可以突出拉面汤中的个别成分。
研究人员在两个数据集(LERF 数据集和 3D-OVS 数据集)上测试了 LangSplat。在这两种情况下,LangSplat 在速度和准确性方面都显着优于 LERF。
具体而言,LangSplat 在 LERF 数据集上的总体准确度为 84.3%,在 3D-OVS 数据集上的总体准确度为 93.4%,而 LERF 数据集的总体准确度分别为 73.6% 和 86.8%。
该团队怀疑进一步提高速度是可能的,尤其是在更高分辨率的情况下。 LangSplat 项目页面上有更多示例。该代码可在 GitHub 上获取。

总结

  • 清华大学和哈佛大学的研究人员开发了LangSplat,这是一种人工智能系统,可以在3D空间中实现高效、精确的搜索,其性能优于之前的LERF方法。
  • LangSplat 使用 3D 高斯构建 3D 语音场,绕过 NeRF 费力的渲染过程,与 LERF 相比实现了 199 倍的加速。
  • 在测试中,LangSplat 在速度和准确性方面显着优于 LERF,LERF 数据集的总体准确率为 84.3%,3D-OVS 数据集的总体准确率为 93.4%。
 

评论
  • Twikoo