vits_chinese模型源码

#1
by shang1 - opened

作者你好,看到了你提供的预训练模型,请问可不可以提供你使用配套的vits_chinese模型源码呢?

我按照作者说的找到的是这个repo:https://github.com/PlayVoice/vits_chinese ,确实其util方法是可以直接load的,但是配置文件缺少"train_class"和"eval_class",我使用的是repo提供的"train_class"和"eval_class",但是推理时报错,尺寸不对。

你好,方便加个联系方式吗?交流一下、我的邮箱 [email protected]

vits_chinese的源码大都有一些bug,需要自己去修复。

没有找到适配aishell3这种多说话人的源码呀?作者可以分享一下吗?非常感谢。[email protected]

感谢作者的分享,麻烦提供一下配套的训练代码,非常感谢:[email protected]

vits_chinese的源码是通用的,与使用哪个语料去训练无关的。

只要说的是异常和需要修正的部分。如果有个清单或者说明也好。

请问采样率是 8000?

vits_chinese 有几个不同的人维护的版本,好像还是有一些差异的。会出现missmatch模型的情况,辛苦作者,提供一下vits_chinese的源码下载地址,非常感谢。

我也遇到missmatch的问题了,用作者提供的模型在其他VITS项目没办法fine tune。希望作者能分享可以训练或者克隆的源码,感谢!

采样率可以调整的,你可以调整为8K,16K等,8K效果也很好的。源码版本:https://github.com/UEhQZXI/vits_chinese

谢谢。直接改参数吗?还是改音频文件的采样率

另外有一个发现:英文版本的话,直接训练就可以,不需要搞预训练模型。效果也很好。

题主能加个微信不:13718542435,指导一下。

参数值需要和文件的采样率保持一致。

1.与训练模型采用的是:8K,对于微调用的音频文件是否也要求必须是8K,还是可以调整为16. 二者是否必须要保持一致,毕竟8K,是一个比较少见的值。

采样参数需要和你的语音文件保持一致,与模型本身无关。

@jackyqs 大佬,我用你说这个源码(https://github.com/UEhQZXI/vits_chinese) 去fine tune你给的AISHELL底模,load_checkpoint时会抛出异常:loaded state dict contains a parameter group that doesn't match the size of optimizer's group ,求加个微信指导一下,愿付费200元,微信号:lwsdnwdr

aishell 是多人模型,看代码里面,是针对的单人模型,不知道具体如何使用。求指导。愿付费。

十分感谢作者分享的权重!
在作者给出的源码和权重下Fine-tuning (8K音频)成功,效果很好。目前使用的简单的pinyin前端,后续换好一点的前端效果应该会更好

遇到的错误:

  • 加载预训练权重时报@qw4654134 的优化器错误,最简单的做法直接注释忽略即可
  • 源码还有两处错误(关于bucket 和 DDP ), 在vits的官方仓库的issue都有解答方案

@llouice 看来确实需要:Fine-tuning的音频需要8K,我用的16K,训练四个小时,发现效果不行。谢谢。可以分享一些合成效果。目前还有一个问题,就是多人模型的问题。@jackyqs 如何基于这个模型,进行增量多人模型的训练?

在基础aishell3模型上finetune,有偿指导+qq 863406650

十分感谢作者分享的权重!
在作者给出的源码和权重下Fine-tuning (8K音频)成功,效果很好。目前使用的简单的pinyin前端,后续换好一点的前端效果应该会更好

遇到的错误:

  • 加载预训练权重时报@qw4654134 的优化器错误,最简单的做法直接注释忽略即可
  • 源码还有两处错误(关于bucket 和 DDP ), 在vits的官方仓库的issue都有解答方案

你好 我想问一下自己fine-tuning的时候如果我想克隆自己的声音的话,我需要怎么修改的呀?我看repo中的config里没有speaker这个选项欸?需要参考 https://github.com/Plachtaa/VITS-fast-fine-tuning 来调整相关的config和https://github.com/UEhQZXI/vits_chinese 的相关内容么?

pinyin前端是不会影响效果的,只是个符号而已,没有speaker的话,可以忽略它。

请问"fine-tuning(8K音频)成功,效果很好",是fine-tune到什么数据集?我fine-tune到baker标贝10000条语音的数据集(采样率转成8K), 的确fine-tuning半个小时就能出能听的女声了(3090Ti显卡)。但是换成我自己录的数据集(10分钟总时长和30分钟总时长的都试过),训练十几个小时,吐字都不是很清楚,完全没法用,这正常么?同样的自己录的数据集在vits-fast-fine-tuning里,fine-tune 1个小时就差不多可用了,就是大佐味去不掉。

十分感谢作者分享的权重!
在作者给出的源码和权重下Fine-tuning (8K音频)成功,效果很好。目前使用的简单的pinyin前端,后续换好一点的前端效果应该会更好

遇到的错误:

  • 加载预训练权重时报@qw4654134 的优化器错误,最简单的做法直接注释忽略即可
  • 源码还有两处错误(关于bucket 和 DDP ), 在vits的官方仓库的issue都有解答方案

您好,使用您训练好的模型直接进行推理,合成的语音咬文嚼字上虽然很好,但是读出来的文字没有情感在里面,让人感觉一听就是机器人在念稿子,这个是什么原因呢?使用这个作者提供的代码进行训练:https://github.com/Plachtaa/VITS-fast-fine-tuning ,合成的语音伴随着情感在里面,让人听不出来是机器人在读,唯一不足的是有些文字的发音不准。我想同时优化这两个方面,有没有什么好的建议呢?就是对于训练语料里不存在的文字,发音比较准,还有就是合成的语音伴随着情感在里面。

img_v2_70e67cc2-1e32-4514-b2f7-7c8e3229871g.jpg
大佬,对比原有的配置发现是缺少了这些数据的,应该是在Speaker.json上才有的配置。不知道能不能提供一下?[email protected],不胜感激

大家如果想要部署这个模型的话,可以尝试一下新一代 Kaldi 的子项目: sherpa-onnx。

底层是 c++ 实现.

完全开源免费,支持各种平台,比如, linux/macos/windows, raspberry pi, android, ios 等.

Sign up or log in to comment