这里我选取的版本是经过魔改的Sovits"5.0″[链接登录后可见]地址,当然这不是官方的版本,而是由Sovits爱好者制作的魔改版。咳咳,不扯这么多了,接下来进入主题。
需要强调这个工具是没有一键包的,这意味着你本机需要准备前置环境。同时这里只会说明基础玩法,进阶玩法请阅读工程内的readme文件。
硬件要求
你需要一块显存不小于6gb的英伟达显卡(NVIDIA),这是硬性要求,如果没有的话那么下面的没必要再继续看了。
软件要求
你需要检查你的英伟达显卡驱动为Studio版,如果是Game Ready版请更换为Studio版。
接下来,你需要为电脑安装cuda驱动,[链接登录后可见]
这里以我电脑为例,我的电脑显卡为3080ti,系统为windows11,这里我选择了cuda12来进行安装。安装时候你只需要一路下一步就可以。
然后你需要安装anaconda3,[链接登录后可见]
同样安装只要一路下一步就可以,安装完成后关闭所有页面。打开开始菜单
打开这个终端,你可以发现在开头有base的字样代表为安装成功
开始部署
接下来你需要创建虚拟环境,这里我以python3.9为例创建一个名为pytorch的虚拟环境,创建命令:
代码登录后可见
输入y然后回车
有以下提示为安装完成
你可以输入以下命令来判断你的虚拟环境是否安装成功
代码登录后可见
最后切换进虚拟环境
代码登录后可见
接下来你需要进入[链接登录后可见]官网找到这个位置
由于我安装的cuda12所以这里也要选择cuda12的版本,复制这段命令粘贴到终端。等待下载完成。
下载这个工程[链接登录后可见]并解压。进入工程目录
打开readme.md,复制以下代码到终端,回车等待下载完成。如果中途有某个包安装错误则需要打开requirements.txt文件使用pip install命令单独安装。
代码登录后可见
在工程内创建文件夹dataset_raw,进入目录再创建一级文件夹(以你要训练的角色命名),这里以爱莉希雅举例
准备数据集,这部分以及使用vur分离伴奏可以通过[链接登录后可见]来寻找,这里使用测试数据来演示。
通过readme文件内的提示将底模放在对应位置,这里以v3底模测试(任选一个看)。
中文文档
英文文档
数据预处理,等待完成,处理过程中出错请仔细检查各个底模对应的位置(尤其not found类),你也可以选择手动复制命令
注意:你需要在config/base.yml中根据你显存来修改batchsize值,如果你只有6gb显存则建议你将这个值改为6或者4
开始训练
代码登录后可见
其中训练的时间由你个人决定。一般来看至少需要一天看一次,你可以通过以下命令对比real和fake来判断训练情况
代码登录后可见
导出模型
代码登录后可见
这里***.pt指的是你需要对应自己的模型,请对应修改
推理(这里你需要将歌曲使用uvr分离[链接登录后可见],使用分离完成的人声推理)
代码登录后可见
这里你需要将npy修改为工程这个位置下的名字,推理完成输出的音频文件名svc_out.wav,你可以使用AU将人声和伴奏合成回去。
祝你使用愉快!