新闻资讯
微软的NaturalSpeech 3能够逼真地模仿声音中的情感
00 分钟
2024-3-9
2024-3-14
type
status
date
slug
summary
tags
category
icon
password
URL
NaturalSpeech 3是微软最新的文本到语音系统,能够克隆声音和情感。
微软亚洲研究院、Azure语音和合作大学共同开发了一种名为NaturalSpeech 3的新型语音合成系统。
该系统采用了一种新的方法,将语言分解为不同的子单元,如内容、韵律、音色和声学细节。这项研究直接建立在2023年4月推出的NaturalSpeech 2的基础上,后者已经展示了令人印象深刻的语言克隆能力。
到目前为止,TTS系统生成的语言质量往往不尽如人意,特别是在自然度和与人类声音的相似性方面,团队表示。因此,NaturalSpeech 3采用了全新的神经编解码器。
该编解码器将语言的波形分解为独立的子区域,旨在实现更详细和可控的语言生成。
然后,系统使用扩散模型,根据相应的规格在每个这些子区域中生成语言属性。
通过这个原则,NaturalSpeech 3 团队能够更有效地建模复杂的语言信息,从而产生更高品质的语言。

自然语言3挂起大多数系统

实验表明,NaturalSpeech 3在质量、相似性、语调和可理解性方面超过了现有的、免费提供的TTS系统。
该系统在LibriSpeech测试集中的语言质量也达到了与真实语音录音相当或更好的水平,从而为合成语音与原声之间的相似性设定了新的标准。
另一个NaturalSpeech 3的优势是能够操纵语音属性:用户可以从不同的语言模式中选择和组合不同的属性,以生成所需的声音。例如,AI系统可以生成带有不同情绪的句子,如愤怒、恐惧或惊讶。
提示与情感
为什么水中的莲花会凋谢——悲伤
提示声音
自然语言输出3
提示与情感
为什么水中的莲花会生气地凋谢?
提示声音
自然语言输出3
在研究人员展示的例子中,NaturalSpeech 3 在商业解决方案的质量方面无法与 ElevenLabs 相提并论。然而,这取决于所使用的训练数据和模型大小——团队表示,底层参数可以进行扩展。
这样,输出的质量也会进一步提高。
微软没有像其前身那样出于安全考虑发布NaturalSpeech 3。研究团队强调,生成类似人类的语言的能力伴随着防止滥用的责任。
为了防止滥用,重要的是要开发出强大的模型来识别合成语言,并建立系统,使个人能够报告可疑案例。
在NaturalSpeech 3项目页面上有更多示例。
总结
  • 微软亚洲研究院、Azure语音和合作大学共同开发了NaturalSpeech 3,这是一个新的文本到语音系统,可以克隆声音和情感,并在NaturalSpeech 2的基础上进行构建。
  • NaturalSpeech 3使用了一种新颖的神经编码器,将语言分解为内容、语调、音色和声学细节等单独的单元,从而实现了更详细和可控的语言生成。
  • 微软因安全考虑不发布NaturalSpeech 3,并强调开发识别合成语音的稳健模型以及建立个人可以报告可疑案例的系统的重要性。
 

评论
  • Twikoo