VASA-1：实时生成逼真的音频驱动的说话面孔 | Ai-皇帝

新闻资讯

VASA-1：实时生成逼真的音频驱动的说话面孔

字数 1113阅读时长≈ 3 分钟

2024-4-18

type

status

date

slug

summary

tags

category

icon

password

URL

单张肖像照片 + 语音音频 = 实时生成的超现实说话脸部视频，具有精确的唇音同步、逼真的面部行为和自然的头部运动。

在数字媒介和虚拟互动领域，栩栩如生的虚拟面孔和真实感的人类交互体验一直是研究和技术发展的主要目标。Microsoft Research的VASA-1项目开创了一种新的实时生成栩栩如生的音频驱动的说话面孔的技术，这一技术不仅提高了虚拟人物表情的自然度和真实感，而且大大降低了生成这种复杂互动的技术门槛。

VASA-1项目介绍

Microsoft Research的VASA-1项目通过结合先进的音频处理技术和实时图像生成技术，开发出了一种新的实时音频驱动的说话面孔生成系统。该系统能够实时捕捉到用户的语音信息，并将其转换为具有高度自然表情和动作的虚拟人脸模型。

技术亮点

实时性: VASA-1能够在接收到音频输入的同时，即时生成符合语音表情的虚拟面孔，确保了用户与虚拟角色之间的无缝互动体验。

栩栩如生: 通过精细的面部表情映射和动态调整，VASA-1生成的虚拟面孔在视觉上近乎真人，提高了虚拟交互的真实度。

广泛适用性: 该技术不限于任何特定的虚拟角色或场景，使其能够在多种应用领域中广泛使用，如在线会议、虚拟助理、游戏娱乐等。

应用前景

VASA-1项目的成功实施，为实时生成栩栩如生的音频驱动的说话面孔开辟了新的可能性，预示着未来数字媒介和虚拟互动体验将趋于更加自然、沉浸和多样化。

示例

音频输入支持一分钟

VASA-1 不仅实现了精确的唇音同步效果，还能捕捉到丰富的情感和富有表现力的面部细微动作，以及流畅自然的头部运动，极大地增强了虚拟角色的真实感和活力。

生成的可控性

扩散模型可以接受可选的条件信号，例如主要的注视方向，头部距离和情绪变化等，以实现更细致的控制。

分别从不同的主要注视方向（正面、向左、向右和向上）所产生的结果。

根据不同的头部距离比例产生的结果。

分别根据不同的情绪偏移（中性、快乐、愤怒和惊讶）产生的结果。

超越已知分布的泛化能力

处理训练分布之外的照片和音频输入的能力。

例如，它能处理艺术照片、歌唱音频和非英语语音。

这些类型的数据在训练集中是不存在的。

说中文

区分事物能力

潜在表征技术能够区分外观、三维头部姿态和面部动态，这使得我们能分别控制和编辑生成内容的各种属性。

相同的输入照片，但是有不同的运动序列

三个人物则是相同的运动序列，但是用了不同的照片

姿态和表情编辑（原始生成结果、仅姿态结果、仅表情结果，以及带有旋转姿态的表情编辑）

实时效率

在离线批量处理模式下生成 512x512 大小的视频帧，帧率为每秒45帧；在在线直播模式下，支持的帧率可以达到每秒40帧，并且只有170毫秒的延迟。这些测试是在一台配备了单个NVIDIA RTX 4090 GPU的桌面电脑上进行的。

实时演示

（注：本页上的所有肖像图像都是由 StyleGAN2 或 DALL·E-3 生成的虚拟的、不存在的身份（蒙娜丽莎除外）。

Stable Diffusion 3 通过 API 发布，开源版本即将推出

Poe革新互动：一线串联多AI

Poe革新互动：一线串联多AI

作者:Ai-皇帝
链接:https://www.ai-hd.com/article/79c21e13-5925-4100-b11b-9894d5db2747
声明:本文采用 CC BY-NC-SA 4.0 许可协议，转载请注明出处。

相关文章

白嫖一年 Perplexity 会员！

Lazy loaded image

Sora还没等到，我先被这个国产AI「爽」到了

Lazy loaded image

OpenAI推出SearchGPT：人工智能搜索引擎，与谷歌竞争

Lazy loaded image

AI 视频生成器 KLING 现在有网页版

Lazy loaded image

谷歌的 ImageInWords 可以修复 Midjourney & Co 中的一个关键漏洞

Lazy loaded image

Metas 3D Gen 在不到一分钟的时间内创建高质量的 3D 对象

Lazy loaded image

评论

Loading...

目录

你好！我是

Ai-皇帝

目录

交流频道

在QQ频道中共同交流与分享

点击加入QQ频道

最新发布

Lazy loaded image

Lazy loaded image

Lazy loaded image

Lazy loaded image

Lazy loaded image

Lazy loaded image

文章数:

189

建站天数:

704 天