CosyVoice阿里开源语音合成模型,3s极速语音克隆
这两,堪称语音对话的完美搭档:
- SenseVoice 专注语音识别、情感识别和音频事件检测
- CosyVoice 专注语音合成,支持多语言、音色和情感控制。
能干什么?
只要是人机交互的应用场景,它都能顶。比如语音翻译、语音对话、互动播客、有声读物等。
本次分享,就带大家来体验一番,并在本地部署起来,方便随时调用。
1. CosyVoice 简介
项目地址:https://github.com/FunAudioLLM/CosyVoice
项目简介:https://fun-audio-llm.github.io/
CosyVoice 的亮点总结:
- 只需3到10秒的音频样本,便能够复刻出音色,包括语调和情感等细节;
- 支持富文本和自然语言输入实现对情感和韵律的精细控制,使得合成语音充满感情色彩;
- 可以实现跨语种的语音合成。
官方共提供了三个版本的模型:
- 基座模型 CosyVoice-300M,支持 3s 声音克隆;
- 经过SFT微调的模型 CosyVoice-300M-SFT,内置了多个训好的音色;
- 支持细粒度控制的模型 CosyVoice-300M-Instruct,支持支持富文本和自然语言输入。
最近大火的 ChatTTS 对比,CosyVoice 在内容一致性上更优,且少有幻觉、额外多字。不得不说,CosyVoice 很好地建模了文本中的语义信息,达到了与人类发音相当的水平。
2. 在线体验
体验地址:https://www.modelscope.cn/studios/mentalhealth/CosyVoice-300M
操作比较简单,多点一点就熟悉了~
对于开发者而言,一个好的工具,自然是要能够随时调用的,接下来我们就聊聊如何把它部署成一个服务,方便集成到的你的应用中去。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...