除了近期大热的 ChatGPT,Microsoft 还有其他具潜质的人工智能项目,当中包括文字生成语音模型 VALL-E,它的最大卖点是只要输入目标网址和 3 秒的声音样本,模型就能制作出相似度极高的语音内容。现时 VALL-E 还处于初期训练阶段,但开发团队提供的英语语音训练资料已达 6 万小时。
Microsoft 的开发团队表示利用现有神经音档编译码模型的离散码,去训练 VALL-E 神经编译码器语言模型,将文字转语音视作条件式语言建立模型任务。VALL-E 会根据文字输入和 3 秒的语音提示,然后产生跟文字和目标声音相应的离散音档编译码。
在语音自然度和相似度方面,Microsoft 指 VALL-E 的表现比现有的 SOTA 模型好,而且能保持情绪和声音环境,不过还有需要改善的地方,例如部份单字发音不清晰,而且未能模仿带有口音的声音等。开发团队认为 VALL-E 未来可以在各种语音合成方案直接使用,包括零样本文字转语音、语音编辑,或搭配 GPT-3 等人工智能模型去产生更多内容。