跨境派

跨境派

跨境派,专注跨境行业新闻资讯、跨境电商知识分享!

当前位置:首页 > 卖家故事 > 本地运行 AI 语音克隆工具 GPT-SoVITS,超方便,超真实

本地运行 AI 语音克隆工具 GPT-SoVITS,超方便,超真实

时间:2024-04-28 15:00:27 来源:网络cs 作者:言安琪 栏目:卖家故事 阅读:

标签: 方便  真实  工具  运行  语音  本地 
阅读本书更多章节>>>>

文本转语音已经很成熟了,例如剪映的朗读功能。

但这些工具提供的语音风格都是固定,你只能从中选择,如果你想要使用某个喜爱人物的声音,怎么办?

这就需要使用语音克隆,模拟你的目标语音风格。

GPT-SoVITS(github.com/RVC-Boss/GPT-SoVITS) 是一个开源的语音克隆项目,克隆效果很好,已经有 18.8k 的 star。

主要特点:

极其方便,只需提供5秒的语音样本,就可以模仿这个样本的语音风格朗读指定的文本。

可以训练微调,仅需 1 分钟的训练数据即可微调模型,提升声音相似度和真实感。

操作简单,提供了 Web 界面。

下面以 Windows 系统为例,了解一下安装和使用过程。

安装

GPT-SoVITS 为 Windows 系统提供了安装包,下载地址:

https://huggingface.co/lj1995/GPT-SoVITS-windows-package/resolve/main/GPT-SoVITS-beta.7z?download=true

是 7z 压缩格式,需要你先安装好 7zip。

下载之后解压,里面有一个启动文件 go-webui.bat,双击即可启动 GPT-SoVITS 的 Web 操作界面。

使用

上图是启动之后的界面效果,点击导航标签中的 “1-GPT-SoVITS-TTS” 进行文本转语音操作。

进入后,这个页面有一个二级导航标签,点击其中的 “1C-推理” 标签。

进入后,选中 “是否开启TTS推理WebUI” 这一选项。

选中后,耐心等待几秒钟,会自动打开一个新的页面。

这个页面就是真正进行声音克隆和文本转语音的操作界面。

操作非常简单,一共就4步。

第一步,把你准备好的要克隆的语音样本上传上来。

需要注意的是,语音样本一定要在 3~10 秒,不能超过,否则会报错。还有,样本中的人声一定要清晰,不要模糊嘈杂,否则会大大影响克隆效果

第二步,把你要克隆的语音所对应的文本粘贴过来,这样 GPT-SoVITS 就可以校准语音样本的内容了。

第三步,输入你要朗读的文本。

第四步,开始语音合成。

上图是我上传和填写的示例,超级简单,而且合成的效果很好,我认为输出的声音效果能达到样本的 **80%**。

性能

在我的示例中,输出的结果声音为9秒。

运行时间大概为7秒。

运行过程中我看了性能占用情况。

对 CPU 和内存的占用较小,主要是使用显卡,运行期间会有两三秒的峰值,把显卡占满。


GPT-SoVITS 克隆效果不错,安装操作都很简单,运行速度快。

对语音克隆、文本转语音有兴趣的话,推荐试试。

#语音克隆,#AI 人工智能,#GPT-SoVITS,#TTS,#gpt890

信息来源 gpt890.com/article/32

阅读本书更多章节>>>>

本文链接:https://www.kjpai.cn/gushi/2024-04-28/163266.html,文章来源:网络cs,作者:言安琪,版权归作者所有,如需转载请注明来源和作者,否则将追究法律责任!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

文章评论