Meta 的 AI 实验室迎来 10 岁生日并展示三个新项目

type

status

date

slug

summary

Ego-Exo4D是一个数据集和基准集，用于支持视频学习和多模态感知领域的AI研究。

Ego-Exo4D 由 Metas FAIR、Project Aria 和来自世界各地的 15 所大学合作伙伴历时两年收集，可捕获佩戴 Project Aria 眼镜的参与者相机中的“自我中心”视图和周围相机的“外中心”视图。

该数据集侧重于复杂的人类活动，如体育、音乐、烹饪、舞蹈和自行车修理。

Meta 看到了增强现实 (AR) 系统中的应用，例如

佩戴智能眼镜的人可以在虚拟人工智能教练的指导下通过教学视频快速学习新技能；在机器人学习中，观察环境中的人的机器人可以通过较少的物理经验来学习新的处理技能；或者在社交网络上，人们可以在视频中分享知识和互补技能，从而出现新的社区。

该数据集包含超过 1,400 小时的视频，将于 12 月作为开源提供，并计划于明年举办公开的 Ego-Exo4D 基准竞赛。

继无缝通信元项目于 8 月推出多模式翻译模型 SeamlessM4T 后，FAIR 现在推出一系列基于旧模型的人工智能研究模型，旨在实现跨语言边界的更自然、更真实的交流。

该项目由四个模型组成：

Audiobox 是 Meta 生成音频的新模型。

它能够通过语音输入和自然语言文本提示的组合生成语音和音效，旨在更轻松地为各种用例创建自定义音频文件。

与其直接前身 Voicebox 相比，Audiobox 提供了更高的可控性，因为用户可以使用自然语言提示来产生所需的声音或语音类型。

Meta 推出了三个新的人工智能研究项目：Ego-Exo4D，一个支持视频学习和多模态感知研究的数据集；无缝沟通，一系列人工智能模型，可改善跨语言边界的自然和真实的沟通； Audiobox，一种用于创建语音和音效的生成式人工智能模型。

Seamless Communication 由四个模型组成，可实现跨语言边界的表达、细微差别和快速翻译，而 Audiobox 允许用户使用自然语言文本提示创建自定义音频文件。

Ai-皇帝