AI孙燕姿 ?AI东雪莲 !—— 本地部署DDSP-SVC一键包,智能音频切片,本地训练,模型推理,为你喜欢的角色训练AI语音模型小教程

news/2024/6/18 21:41:46 标签: 人工智能, 学习, 娱乐, 音视频, 语音识别

目录

感谢B站UP羽毛布团

演示视频

稻香——东雪莲

虚拟——东雪莲

反方向的钟——东雪莲

晴天+龙卷风——东雪莲

DDSP-SVC 3.0 (D3SP) 是什么?

下载资源:

解压整合包

准备数据集

智能音频切片 

数据集准备

填写训练设置和超参数

 开始训练

推理模型


感谢B站UP羽毛布团

羽毛布団的个人空间_哔哩哔哩_bilibilihttps://space.bilibili.com/3493141443250876/?spm_id_from=333.999.0.0

演示视频

稻香——东雪莲

稻香——冬雪莲

虚拟——东雪莲

虚拟——冬雪莲

反方向的钟——东雪莲

反方向的钟——冬雪莲

晴天+龙卷风——东雪莲

晴天+龙卷风——冬雪莲

DDSP-SVC 3.0 (D3SP) 是什么?

DDSP-SVC 是一个相对年轻的音声转换项目,相较于常用的So-VITS和更早的Diff-SVC,DDSP在训练推理速度和配置要求上都可以说是全面优于前两个项目,一般来说只要有一张2G以上显存的N卡,花上一两个小时就可以训练完成,大大降低了AI变声的门槛。当然,带来的牺牲就是其原本的转换效果是不太尽人意的。

但是最近DDSP项目迭代到了3.0版本,在原有的基础上加入了浅扩散机制,将DDSP输出的质量较低的音频梅尔谱图输入扩散模型进行浅扩散处理,输出梅尔谱图并通过声码器转换为高质量音频,使得转换效果大幅提升,在部分数据集上可以达到媲美So-VITS的效果。因此DDSP-SVC 3.0也可以称为D3SP(DDSP with Diffusion, DDDSP, 带带大涩批)。DDSP-SVC 是一个相对年轻的音声转换项目,相较于常用的So-VITS和更早的Diff-SVC,DDSP在训练推理速度和配置要求上都可以说是全面优于前两个项目,一般来说只要有一张2G以上显存的N卡,花上一两个小时就可以训练完成,大大降低了AI变声的门槛。当然,带来的牺牲就是其原本的转换效果是不太尽人意的。

但是最近DDSP项目迭代到了3.0版本,在原有的基础上加入了浅扩散机制,将DDSP输出的质量较低的音频梅尔谱图输入扩散模型进行浅扩散处理,输出梅尔谱图并通过声码器转换为高质量音频,使得转换效果大幅提升,在部分数据集上可以达到媲美So-VITS的效果。因此DDSP-SVC 3.0也可以称为D3SP(DDSP with Diffusion, DDDSP, 带带大涩批)。

下载资源:

提取码:g8n4 

百度网盘 请输入提取码百度网盘为您提供文件的网络备份、同步和分享服务。空间大、速度快、安全稳固,支持教育网加速,支持手机端。注册使用百度网盘即可享受免费存储空间https://pan.baidu.com/share/init?surl=2u_LDyb5KSOfvjJ9LVwCIQ&pwd=g8n4

解压整合包

将整合包解压到电脑硬盘中(路径中尽量不要包含中文),整合包内已经搭建好了运行所需的所有环境依赖,你无需自己手动搭建环境。

准备数据集

转化数据格式为wav

 用uvr5获得原声,去除杂音和背景音效

智能音频切片 

音频长度时间最好在30~60min左右

数据集准备

将切片后的数据集放置在data/train/audio文件夹下,在数据集中按训练集:验证集=100:1的比例挑选验证集音频放置到data/val/audio文件夹中
单说话人模型,直接将所有wav文件放置到对应的audio文件夹下即可。如果是训练多说话人模型,需要在训练集和验证集的"audio"文件夹下新建不同说话人的目录,只能以纯数字命名,以1开始
如果你不想手动挑选验证集,在数据集放置到data/train/audio后也可以点击下面的一键划分数据集完成操作。
验证集的条数最好不要超过10条,否则训练验证会变得很慢。验证集的音频质量越高越好。

 确认训练集和验证集正确放置后请选择训练编码器和f0提取算法
编码器:hubertsoft: 咬字较为清晰 | contentvec(768l12): 音色更为还原
f0算法:crepe: 抗噪能力较强但预处理速度慢 | parselmouth: 抗噪能力较弱但预处理速度快
注意,不同编码器训练出来的模型不通用,并且对应不同的配置文件,在推理时选择不匹配的配置文件会导致错误

填写训练设置和超参数

D3SP的完整推理过程需要训练2个模型,分别是DDSP模型和扩散模型。因此你需要在下面设置2份配置文件的超参数。

 开始训练

D3SP的完整推理过程需要训练2个模型
首先选择训练进度,从头开始训练将会将exp文件夹中的对应模型进度保存备份至models_backup文件夹,如果是训练扩散模型,会自动装载对应编码器的预训练底模。
两个模型的训练是独立的,你可以以任意顺序训练两个模型。训练前请先在上方选择预处理对应的编码器。

推理模型


http://www.niftyadmin.cn/n/319224.html

相关文章

DDP学习/PyTorch多GPU训练/查看模型在哪个GPU上

参考: pytorch如何查看tensor和model在哪个GPU上 https://blog.csdn.net/weixin_37889356/article/details/121792888Part 3: Multi-GPU training with DDP (code walkthrough) [pytorch官方教程,有股咖喱味的Inglish, 推荐] https://www.youtube.com/w…

Baumer工业相机堡盟工业相机IO介绍与配置

Baumer工业相机堡盟工业相机IO介绍与配置 Baumer工业相机Baumer工业相机IO的作用Baumer工业相机IO的作用Baumer工业相机IO上点连 Baumer工业相机 Baumer工业相机堡盟相机是一种高性能、高质量的工业相机,可用于各种应用场景,如物体检测、计数和识别、运…

C++:设计一个线程安全的队列

文章目录 1. 目的2. 实现?验证!makefileQueue 类的 public 成员单元测试 3. 实现 Queue 类的方案 1. 目的 串行的程序只用到单个 CPU 核心, 希望加速整个程序, 考虑使用多线程加速。典型情况下可以找到生产者、消费者&#xff0c…

how2heap-fastbin_dup.c

不同libc版本的fastbin_dup.c源码有点小区别&#xff1a;主要是有tcache的&#xff0c;需要先填充 以下为有tcache的源码示例&#xff1a; #include <stdio.h> #include <stdlib.h> #include <assert.h>int main() {setbuf(stdout, NULL);printf("This…

双层优化入门(3)—基于智能优化算法的求解方法(附matlab代码)

前面两篇博客介绍了双层优化的基本原理和使用KKT条件求解双层优化的方法&#xff0c;以及使用yalmip工具箱求解双层优化的方法&#xff1a; 双层优化入门(1)—基本原理与求解方法 双层优化入门(2)—基于yalmip的双层优化求解(附matlab代码) 除了数学规划方法之外&#xff0c;…

无标签背景图(负样本)的拼图代码

训练目标检测模型有个很令人头疼的问题&#xff0c;就是有些特征与要训练的特征较为相似的背景区域也被误检出来&#xff08;作为本应不该检测出来的负样本却被误检出为正样本的FP&#xff09;。 根据这一问题的解决办法&#xff0c;除了可以对正样本特征较为模糊或者有歧义的样…

七天从零实现Web框架Gee - 3

之前&#xff0c;我们用了一个非常简单的map结构存储了路由表&#xff0c;使用map存储键值对&#xff0c;索引非常高效&#xff0c;但是有一个弊端&#xff0c;键值对的存储的方式&#xff0c;只能用来索引静态路由。那如果我们想支持类似于/hello/:name这样的动态路由怎么办呢…

Intel SGX学习笔记(2):用数组向Enclave传递5个数实现自增操作

写在前面 1、实现一个简单的Intel SGX的应用&#xff1a;非安全区定义初始化一个数组&#xff0c;数组里面存储5个数&#xff0c;然后向安全区&#xff08;enclave&#xff09;传入&#xff0c;在安全区中进行加减乘除&#xff0c;然后返回。 2、Intel SGX开发初学整体思路&a…