LOADING STUFF...

CosyVoice阿里开源语音合成模型,3s极速语音克隆

CosyVoice阿里开源语音合成模型,3s极速语音克隆这两,堪称语音对话的完美搭档:

  • SenseVoice 专注语音识别、情感识别和音频事件检测
  • CosyVoice 专注语音合成,支持多语言、音色和情感控制。

能干什么?

只要是人机交互的应用场景,它都能顶。比如语音翻译、语音对话、互动播客、有声读物等。

本次分享,就带大家来体验一番,并在本地部署起来,方便随时调用。

1. CosyVoice 简介

项目地址:github.com/FunAudioLLM/
项目简介:fun-audio-llm.github.io

CosyVoice 的亮点总结:

  • 只需3到10秒的音频样本,便能够复刻出音色,包括语调和情感等细节;
  • 支持富文本和自然语言输入实现对情感和韵律的精细控制,使得合成语音充满感情色彩;
  • 可以实现跨语种的语音合成。

官方共提供了三个版本的模型:

  • 基座模型 CosyVoice-300M,支持 3s 声音克隆;
  • 经过SFT微调的模型 CosyVoice-300M-SFT,内置了多个训好的音色;
  • 支持细粒度控制的模型 CosyVoice-300M-Instruct,支持支持富文本和自然语言输入。

最近大火的 ChatTTS 对比,CosyVoice 在内容一致性上更优,且少有幻觉、额外多字。不得不说,CosyVoice 很好地建模了文本中的语义信息,达到了与人类发音相当的水平。

2. 在线体验

体验地址:https://www.modelscope.cn/studios/mentalhealth/CosyVoice-300M

操作比较简单,多点一点就熟悉了~

对于开发者而言,一个好的工具,自然是要能够随时调用的,接下来我们就聊聊如何把它部署成一个服务,方便集成到的你的应用中去。

© 版权声明

相关文章

暂无评论

暂无评论...

多啦咪新媒体创作导航

官网微信公众号:多啦咪 ,更多资源信息不定期更新,公众号粉丝优先享用!

需搭建调试或购买整蛊软件的可扫码添加

其他小问题咨询的请qq咨询或者在线咨询;点击在线咨询》》

 整蛊直播软件、插件下载、游戏、设计、创作工具站