CosyVoice阿里开源语音合成模型，3s极速语音克隆

AI教程分享2年前 (2024)更新梦歌：微信mnyh890

1.2K 0 0

CosyVoice阿里开源语音合成模型，3s极速语音克隆这两，堪称语音对话的完美搭档：

SenseVoice 专注语音识别、情感识别和音频事件检测
CosyVoice 专注语音合成，支持多语言、音色和情感控制。

能干什么？

只要是人机交互的应用场景，它都能顶。比如语音翻译、语音对话、互动播客、有声读物等。

本次分享，就带大家来体验一番，并在本地部署起来，方便随时调用。

1. CosyVoice 简介

项目地址：https://github.com/FunAudioLLM/CosyVoice
项目简介：https://fun-audio-llm.github.io/

CosyVoice 的亮点总结：

只需3到10秒的音频样本，便能够复刻出音色，包括语调和情感等细节；
支持富文本和自然语言输入实现对情感和韵律的精细控制，使得合成语音充满感情色彩；
可以实现跨语种的语音合成。

官方共提供了三个版本的模型：

基座模型 CosyVoice-300M，支持 3s 声音克隆；
经过SFT微调的模型 CosyVoice-300M-SFT，内置了多个训好的音色；
支持细粒度控制的模型 CosyVoice-300M-Instruct，支持支持富文本和自然语言输入。

最近大火的 ChatTTS 对比，CosyVoice 在内容一致性上更优，且少有幻觉、额外多字。不得不说，CosyVoice 很好地建模了文本中的语义信息，达到了与人类发音相当的水平。

2. 在线体验

体验地址：https://www.modelscope.cn/studios/mentalhealth/CosyVoice-300M

操作比较简单，多点一点就熟悉了~

对于开发者而言，一个好的工具，自然是要能够随时调用的，接下来我们就聊聊如何把它部署成一个服务，方便集成到的你的应用中去。

# AI教程分享 # CosyVoice # CosyVoice-300M # modelscope # 阿里开源语音合成模型

文章版权归作者所有，未经允许请勿转载。

声明：
本站大部分下载资源收集于网络，只做学习和交流使用，版权归原作者所有。若您需要使用非免费的软件或服务，请购买正版授权并合法使用。本站发布的内容若侵犯到您的权益，请联系站长删除，我们将及时处理。
★视频教程地址★https://mp.weixin.qq.com/s/TvmCW1PvwB_HAlBMobvsQw