新闻资讯
Meta 的 AI 实验室迎来 10 岁生日并展示三个新项目
00 分钟
2023-12-1
2024-3-14
type
status
date
slug
summary
tags
category
icon
password
URL

为了纪念 Meta 基础人工智能研究 (FAIR) 团队成立 10 周年,该公司推出了三个新的研究项目:Ego-Exo4D、Seamless Communication 和 Audiobox。

Ego-Exo4D是一个数据集和基准集,用于支持视频学习和多模态感知领域的AI研究。
Ego-Exo4D 由 Metas FAIR、Project Aria 和来自世界各地的 15 所大学合作伙伴历时两年收集,可捕获佩戴 Project Aria 眼镜的参与者相机中的“自我中心”视图和周围相机的“外中心”视图。
该数据集侧重于复杂的人类活动,如体育、音乐、烹饪、舞蹈和自行车修理。
 
 
Meta 看到了增强现实 (AR) 系统中的应用,例如
佩戴智能眼镜的人可以在虚拟人工智能教练的指导下通过教学视频快速学习新技能;在机器人学习中,观察环境中的人的机器人可以通过较少的物理经验来学习新的处理技能;或者在社交网络上,人们可以在视频中分享知识和互补技能,从而出现新的社区。
该数据集包含超过 1,400 小时的视频,将于 12 月作为开源提供,并计划于明年举办公开的 Ego-Exo4D 基准竞赛。

无缝通信旨在实现富有表现力和快速的人工智能翻译

继无缝通信元项目于 8 月推出多模式翻译模型 SeamlessM4T 后,FAIR 现在推出一系列基于旧模型的人工智能研究模型,旨在实现跨语言边界的更自然、更真实的交流。
该项目由四个模型组成:
  • SeamlessExpressive:跨语言边界保留语言的表达和细微差别。
  • 无缝流媒体:提供语音和文本翻译,延迟约为两秒。
  • SeamlessM4T v2:一种多语言和多任务模型,可通过语音和文本轻松进行通信。
  • Seamless:将SeamlessExpressive、SeamlessStreaming 和SeamlessM4T v2 的功能结合在一个模型中。

Audiobox 是一个音频生成人工智能模型

Audiobox 是 Meta 生成音频的新模型。
它能够通过语音输入和自然语言文本提示的组合生成语音和音效,旨在更轻松地为各种用例创建自定义音频文件。
与其直接前身 Voicebox 相比,Audiobox 提供了更高的可控性,因为用户可以使用自然语言提示来产生所需的声音或语音类型。
 

总结

  • Meta 推出了三个新的人工智能研究项目:Ego-Exo4D,一个支持视频学习和多模态感知研究的数据集;无缝沟通,一系列人工智能模型,可改善跨语言边界的自然和真实的沟通; Audiobox,一种用于创建语音和音效的生成式人工智能模型。
  • Ego-Exo4D 专注于复杂的人类活动,并在增强现实、机器人和社交网络方面有应用。该数据集将于 12 月作为开源提供,并计划于明年举行基准竞赛。
  • Seamless Communication 由四个模型组成,可实现跨语言边界的表达、细微差别和快速翻译,而 Audiobox 允许用户使用自然语言文本提示创建自定义音频文件。

评论
  • Twikoo