jackyqs/vits-aishell3-175-chinese · vits

May 22, 2023

作者你好，看到了你提供的预训练模型，请问可不可以提供你使用配套的vits_chinese模型源码呢？

May 22, 2023

我按照作者说的找到的是这个repo：https://github.com/PlayVoice/vits_chinese ,确实其util方法是可以直接load的，但是配置文件缺少"train_class"和"eval_class"，我使用的是repo提供的"train_class"和"eval_class"，但是推理时报错，尺寸不对。

shang1

May 22, 2023

你好，方便加个联系方式吗？交流一下、我的邮箱 [email protected]

jackyqs

Owner May 24, 2023

vits_chinese的源码大都有一些bug，需要自己去修复。

shang1

May 24, 2023

没有找到适配aishell3这种多说话人的源码呀？作者可以分享一下吗？非常感谢。[email protected]

zhangziliang04

May 25, 2023

感谢作者的分享，麻烦提供一下配套的训练代码，非常感谢：[email protected]

jackyqs

Owner May 29, 2023

vits_chinese的源码是通用的，与使用哪个语料去训练无关的。

zhangziliang04

May 29, 2023

只要说的是异常和需要修正的部分。如果有个清单或者说明也好。

HopingZ

Jun 2, 2023

请问采样率是 8000？

zhangziliang04

Jun 2, 2023

vits_chinese 有几个不同的人维护的版本，好像还是有一些差异的。会出现missmatch模型的情况，辛苦作者，提供一下vits_chinese的源码下载地址，非常感谢。

topjoy

Jun 3, 2023

我也遇到missmatch的问题了，用作者提供的模型在其他VITS项目没办法fine tune。希望作者能分享可以训练或者克隆的源码，感谢！

jackyqs

Owner Jun 17, 2023

采样率可以调整的，你可以调整为8K，16K等，8K效果也很好的。源码版本：https://github.com/UEhQZXI/vits_chinese

zhangziliang04

Jun 17, 2023

谢谢。直接改参数吗？还是改音频文件的采样率

jackyqs

Owner Jun 17, 2023

另外有一个发现：英文版本的话，直接训练就可以，不需要搞预训练模型。效果也很好。

zhangziliang04

Jun 17, 2023

题主能加个微信不：13718542435，指导一下。

jackyqs

Owner Jun 17, 2023

参数值需要和文件的采样率保持一致。

zhangziliang04

Jun 17, 2023

1.与训练模型采用的是：8K，对于微调用的音频文件是否也要求必须是8K，还是可以调整为16. 二者是否必须要保持一致，毕竟8K，是一个比较少见的值。

jackyqs

Owner Jun 17, 2023

采样参数需要和你的语音文件保持一致，与模型本身无关。

qw4654134

Jun 19, 2023

@jackyqs 大佬，我用你说这个源码(https://github.com/UEhQZXI/vits_chinese) 去fine tune你给的AISHELL底模，load_checkpoint时会抛出异常：loaded state dict contains a parameter group that doesn't match the size of optimizer's group ，求加个微信指导一下，愿付费200元，微信号：lwsdnwdr

zhangziliang04

Jun 19, 2023

aishell 是多人模型，看代码里面，是针对的单人模型，不知道具体如何使用。求指导。愿付费。

llouice

Jul 14, 2023

•

edited Jul 14, 2023

十分感谢作者分享的权重！
在作者给出的源码和权重下Fine-tuning （8K音频）成功，效果很好。目前使用的简单的pinyin前端，后续换好一点的前端效果应该会更好

遇到的错误：

加载预训练权重时报@qw4654134 的优化器错误，最简单的做法直接注释忽略即可
源码还有两处错误(关于bucket 和 DDP ), 在vits的官方仓库的issue都有解答方案

zhangziliang04

Jul 14, 2023

@llouice 看来确实需要：Fine-tuning的音频需要8K，我用的16K，训练四个小时，发现效果不行。谢谢。可以分享一些合成效果。目前还有一个问题，就是多人模型的问题。@jackyqs 如何基于这个模型，进行增量多人模型的训练？

zzzm

Jul 18, 2023

•

edited Jul 18, 2023

在基础aishell3模型上finetune，有偿指导+qq 863406650

JoaquinSUN

Aug 17, 2023

十分感谢作者分享的权重！
在作者给出的源码和权重下Fine-tuning （8K音频）成功，效果很好。目前使用的简单的pinyin前端，后续换好一点的前端效果应该会更好

遇到的错误：

加载预训练权重时报@qw4654134 的优化器错误，最简单的做法直接注释忽略即可

源码还有两处错误(关于bucket 和 DDP ), 在vits的官方仓库的issue都有解答方案

你好我想问一下自己fine-tuning的时候如果我想克隆自己的声音的话，我需要怎么修改的呀？我看repo中的config里没有speaker这个选项欸？需要参考 https://github.com/Plachtaa/VITS-fast-fine-tuning 来调整相关的config和https://github.com/UEhQZXI/vits_chinese 的相关内容么？

jackyqs

Owner Aug 22, 2023

pinyin前端是不会影响效果的，只是个符号而已，没有speaker的话，可以忽略它。

RainbowBabe

Aug 22, 2023

•

edited Aug 22, 2023

没事

flylandcs

Aug 23, 2023

请问"fine-tuning(8K音频)成功，效果很好"，是fine-tune到什么数据集？我fine-tune到baker标贝10000条语音的数据集（采样率转成8K）, 的确fine-tuning半个小时就能出能听的女声了（3090Ti显卡）。但是换成我自己录的数据集（10分钟总时长和30分钟总时长的都试过），训练十几个小时，吐字都不是很清楚，完全没法用，这正常么？同样的自己录的数据集在vits-fast-fine-tuning里，fine-tune 1个小时就差不多可用了，就是大佐味去不掉。

十分感谢作者分享的权重！
在作者给出的源码和权重下Fine-tuning （8K音频）成功，效果很好。目前使用的简单的pinyin前端，后续换好一点的前端效果应该会更好

遇到的错误：

加载预训练权重时报@qw4654134 的优化器错误，最简单的做法直接注释忽略即可

源码还有两处错误(关于bucket 和 DDP ), 在vits的官方仓库的issue都有解答方案

liuyoubo

Sep 20, 2023

•

edited Sep 20, 2023

您好，使用您训练好的模型直接进行推理，合成的语音咬文嚼字上虽然很好，但是读出来的文字没有情感在里面，让人感觉一听就是机器人在念稿子，这个是什么原因呢？使用这个作者提供的代码进行训练：https://github.com/Plachtaa/VITS-fast-fine-tuning ，合成的语音伴随着情感在里面，让人听不出来是机器人在读，唯一不足的是有些文字的发音不准。我想同时优化这两个方面，有没有什么好的建议呢？就是对于训练语料里不存在的文字，发音比较准，还有就是合成的语音伴随着情感在里面。

OldFish123

Oct 10, 2023

•

edited Oct 10, 2023

大佬，对比原有的配置发现是缺少了这些数据的，应该是在Speaker.json上才有的配置。不知道能不能提供一下？[email protected]，不胜感激

csukuangfj

Oct 18, 2023

大家如果想要部署这个模型的话，可以尝试一下新一代 Kaldi 的子项目: sherpa-onnx。

底层是 c++ 实现.

完全开源免费，支持各种平台，比如, linux/macos/windows, raspberry pi, android, ios 等.