Microsoft 开发 AI 语音工具，只需 3 秒样本就能模仿目标说话！-软件志

Microsoft 开发 AI 语音工具，只需 3 秒样本就能模仿目标说话！

更新时间：2023-01-12 11:41:55 浏览次数：576+次

　　除了近期大热的 ChatGPT，Microsoft 还有其他具潜质的人工智能项目，当中包括文字生成语音模型 VALL-E，它的最大卖点是只要输入目标网址和 3 秒的声音样本，模型就能制作出相似度极高的语音内容。现时 VALL-E 还处于初期训练阶段，但开发团队提供的英语语音训练资料已达 6 万小时。

　　Microsoft 的开发团队表示利用现有神经音档编译码模型的离散码，去训练 VALL-E 神经编译码器语言模型，将文字转语音视作条件式语言建立模型任务。VALL-E 会根据文字输入和 3 秒的语音提示，然后产生跟文字和目标声音相应的离散音档编译码。

　　在语音自然度和相似度方面，Microsoft 指 VALL-E 的表现比现有的 SOTA 模型好，而且能保持情绪和声音环境，不过还有需要改善的地方，例如部份单字发音不清晰，而且未能模仿带有口音的声音等。开发团队认为 VALL-E 未来可以在各种语音合成方案直接使用，包括零样本文字转语音、语音编辑，或搭配 GPT-3 等人工智能模型去产生更多内容。