VASA-1:实时生成逼真的音频驱动的说话面孔
00 分钟
2024-4-18
2024-4-18
type
status
date
slug
summary
tags
category
icon
password
URL
单张肖像照片 + 语音音频 = 实时生成的超现实说话脸部视频,具有精确的唇音同步、逼真的面部行为和自然的头部运动。
单张肖像照片 + 语音音频 = 实时生成的超现实说话脸部视频,具有精确的唇音同步、逼真的面部行为和自然的头部运动。
在数字媒介和虚拟互动领域,栩栩如生的虚拟面孔和真实感的人类交互体验一直是研究和技术发展的主要目标。Microsoft Research的VASA-1项目开创了一种新的实时生成栩栩如生的音频驱动的说话面孔的技术,这一技术不仅提高了虚拟人物表情的自然度和真实感,而且大大降低了生成这种复杂互动的技术门槛。

VASA-1项目介绍

Microsoft Research的VASA-1项目通过结合先进的音频处理技术和实时图像生成技术,开发出了一种新的实时音频驱动的说话面孔生成系统。该系统能够实时捕捉到用户的语音信息,并将其转换为具有高度自然表情和动作的虚拟人脸模型。

技术亮点

  1. 实时性: VASA-1能够在接收到音频输入的同时,即时生成符合语音表情的虚拟面孔,确保了用户与虚拟角色之间的无缝互动体验。
  1. 栩栩如生: 通过精细的面部表情映射和动态调整,VASA-1生成的虚拟面孔在视觉上近乎真人,提高了虚拟交互的真实度。
  1. 广泛适用性: 该技术不限于任何特定的虚拟角色或场景,使其能够在多种应用领域中广泛使用,如在线会议、虚拟助理、游戏娱乐等。

应用前景

VASA-1项目的成功实施,为实时生成栩栩如生的音频驱动的说话面孔开辟了新的可能性,预示着未来数字媒介和虚拟互动体验将趋于更加自然、沉浸和多样化。

示例

音频输入支持一分钟
VASA-1 不仅实现了精确的唇音同步效果,还能捕捉到丰富的情感和富有表现力的面部细微动作,以及流畅自然的头部运动,极大地增强了虚拟角色的真实感和活力。

生成的可控性

扩散模型可以接受可选的条件信号,例如主要的注视方向,头部距离和情绪变化等,以实现更细致的控制。
分别从不同的主要注视方向(正面、向左、向右和向上)所产生的结果。
根据不同的头部距离比例产生的结果。
分别根据不同的情绪偏移(中性、快乐、愤怒和惊讶)产生的结果。

超越已知分布的泛化能力

处理训练分布之外的照片和音频输入的能力。
例如,它能处理艺术照片、歌唱音频和非英语语音。
这些类型的数据在训练集中是不存在的。
说中文

区分事物能力

潜在表征技术能够区分外观、三维头部姿态和面部动态,这使得我们能分别控制和编辑生成内容的各种属性。
相同的输入照片,但是有不同的运动序列
三个人物则是相同的运动序列,但是用了不同的照片
姿态和表情编辑(原始生成结果、仅姿态结果、仅表情结果,以及带有旋转姿态的表情编辑)

实时效率

在离线批量处理模式下生成 512x512 大小的视频帧,帧率为每秒45帧;在在线直播模式下,支持的帧率可以达到每秒40帧,并且只有170毫秒的延迟。这些测试是在一台配备了单个NVIDIA RTX 4090 GPU的桌面电脑上进行的。
实时演示
注:本页上的所有肖像图像都是由 StyleGAN2 或 DALL·E-3 生成的虚拟的、不存在的身份(蒙娜丽莎除外)。
 

评论
  • Twikoo