让语音合成更具表现力:StyleMoE 的“分而治之”策略



为了解决这一难题,研究人员提出了 StyleMoE,一种将风格编码空间划分为多个可处理的子空间,并由专门的“风格专家”负责处理的模型。StyleMoE 将 TTS 系统中的风格编码器替换为一个“专家混合” (MoE) 层。通过使用门控网络将参考语音路由到不同的风格专家,每个专家在优化过程中专门负责风格空间的特定方面。

StyleMoE 的工作原理

StyleMoE 的核心思想是将风格编码空间划分为多个子空间,每个子空间由一个专门的风格专家负责处理。这就像将一个复杂的难题分解成多个更容易解决的小问题,每个专家都专注于解决其中一个问题。

具体来说,StyleMoE 使用一个门控网络来决定哪个专家应该处理当前的参考语音。门控网络会根据参考语音的特点,选择最适合的专家,并为每个专家分配相应的权重。每个专家都拥有独立的参数,在优化过程中只负责处理分配给它的子空间,从而提高模型的效率和准确性。

StyleMoE 的优势

StyleMoE 的优势在于:

  • 提高风格空间覆盖率:通过将风格编码空间划分为多个子空间,StyleMoE 可以更好地处理各种不同的风格,包括从未见过的风格。
  • 提高模型泛化能力:每个专家只负责处理特定的子空间,这有助于提高模型的泛化能力,减少模型对训练数据的依赖。
  • 降低计算成本:StyleMoE 使用稀疏 MoE,这意味着只有少数专家会参与到模型的计算中,从而降低了模型的计算成本。


研究人员在 ESD 和 VCTK 数据集上对 StyleMoE 进行了测试,结果表明,StyleMoE 在各种指标上都优于基线模型,包括:

  • 提高语音质量:StyleMoE 合成的语音具有更高的自然度和清晰度。
  • 提高风格相似度:StyleMoE 合成的语音更接近于参考语音的风格。
  • 提高模型泛化能力:StyleMoE 在处理从未见过的风格时表现出色。


StyleMoE 为语音合成技术的进步开辟了新的方向。未来,研究人员将继续探索不同的门控网络架构,并尝试将 StyleMoE 应用于更复杂的语音合成系统。


