在人工智能领域中,文本转语音(TTS)技术一直是备受关注的研究方向。今天,我们要介绍的是ChatTTS,一个专为对话场景设计的文本转语音模型。ChatTTS不仅支持中文和英文,还能够在多种应用中展现出色的表现。
ChatTTS的特点
对话式TTS
ChatTTS针对对话任务进行了优化,能够生成自然流畅的语音,并支持多说话人。这使得它在模拟人类对话时,更加真实和生动。
细粒度控制
该模型能够预测和控制细粒度的韵律特征,包括笑声、停顿和插入词等。这使得生成的语音更加丰富和多样,能够更好地传达说话者的情感和意图。
更好的韵律
ChatTTS在韵律方面超越了大部分开源的TTS模型。它能够生成具有自然韵律的语音,使得听起来更加舒适和真实。同时,ChatTTS还提供预训练模型,支持进一步的研究和应用。
使用方法
基本用法
以下是ChatTTS的基本用法示例:
import ChatTTS
from IPython.display import Audio
chat = ChatTTS.Chat()
chat.load_models()
texts = ["<PUT YOUR TEXT HERE>",]
wavs = chat.infer(texts, use_decoder=True)
Audio(wavs[0], rate=24_000, autoplay=True)
进阶用法
如果需要更高级的控制,可以使用以下代码:
import torch
# 采样一个说话人
std, mean = torch.load('ChatTTS/asset/spk_stat.pt').chunk(2)
rand_spk = torch.randn(768) * std + mean
params_infer_code = {
'spk_emb': rand_spk,
'temperature': .3,
'top_P': 0.7,
'top_K': 20,
}
params_refine_text = {
'prompt': '[oral_2][laugh_0][break_6]'
}
wav = chat.infer("<PUT YOUR TEXT HERE>", params_refine_text=params_refine_text, params_infer_code=params_infer_code)
实际应用案例
智能客服系统
ChatTTS可以在智能客服系统中发挥重要作用。通过其自然流畅的语音生成能力,能够提供更加亲切和人性化的客服服务,提升客户满意度。
教育领域
在教育领域,ChatTTS可以帮助教师制作生动的教学语音材料。学生可以通过听取这些语音材料,更加直观地理解和掌握知识。
娱乐领域
在游戏和影视制作中,ChatTTS可以用于生成角色对话。其自然的语音和情感表达能力,可以使角色更加生动,提升用户的沉浸感。
未来展望
ChatTTS展示了语音生成技术的巨大潜力。随着技术的不断进步,未来有望在更多的应用场景中发光发热,带给我们更多的惊喜和便利。
免责声明
本文件中的信息仅供学术交流使用,目的在于教育和研究,不得用于任何商业或法律目的。作者不保证信息的准确性、完整性或可靠性。
计划路线
- [x] 开源4w小时基础模型和spk_stats文件
- [ ] 开源VQ encoder和Lora训练代码
- [ ] 在非refine text情况下, 流式生成音频
- [ ] 开源多情感可控的4w小时版本
- [ ] ChatTTS.cpp maybe? (欢迎社区PR或独立的新repo)
常见问题
连不上HuggingFace
请使用modelscope的版本,并设置cache的位置。
我要多少显存?Infer的速度是怎么样的?
对于30秒的音频,至少需要4G的显存。对于4090D,1秒生成约7个字所对应的音频,RTF约0.65。
模型稳定性似乎不够好,会出现其他说话人或音质很差的现象。
这是自回归模型通常都会出现的问题。说话人可能会在中间变化,可能会采样到音质非常差的结果,这通常难以避免。可以多采样几次来找到合适的结果。
除了笑声还能控制什么?还能控制其他情感吗?
在现在放出的模型版本中,只有[laugh]和[uv_break]、[lbreak]作为字级别的控制单元。在未来的版本中我们可能会开源其他情感控制的版本。
致谢
- bark,XTTSv2和valle展示了自回归任务用于TTS任务的可能性。
- fish-speech一个优秀的自回归TTS模型,揭示了GVQ用于LLM任务的可能性。
- vocos作为模型中的vocoder。
特别致谢
- wlu-audio lab为我们提供了早期算法试验的支持。
ChatTTS凭借其先进的技术和广泛的应用前景,正在逐步改变我们的生活方式。从智能客服到教育,再到娱乐,ChatTTS的应用无处不在。期待随着技术的进一步发展,ChatTTS能为我们带来更多惊喜和便利。
参考文献: