Upload 12 files

Browse files

Files changed (12) hide show

cn_base.json +62 -0
cn_base.pth +3 -0
id_base.json +62 -0
id_base.pth +3 -0
ja_base.json +62 -0
ja_base.pth +3 -0
ko_base.json +62 -0
ko_base.pth +3 -0
th_base.json +62 -0
th_base.pth +3 -0
vi_base.json +62 -0
vi_base.pth +3 -0

cn_base.json ADDED Viewed

	@@ -0,0 +1,62 @@

+{
+    "train": {
+      "log_interval": 1000,
+      "eval_interval": 5000,
+      "seed": 1234,
+      "epochs": 128,
+      "learning_rate": 2e-4,
+      "betas": [0.8, 0.99],
+      "eps": 1e-9,
+      "batch_size": 16,
+      "fp16_run": true,
+      "lr_decay": 0.999875,
+      "segment_size": 8192,
+      "init_lr_ratio": 1,
+      "warmup_epochs": 0,
+      "c_mel": 45,
+      "c_kl": 1.0
+    },
+    "data": {
+      "use_mel_posterior_encoder": true,
+      "training_files":"filelists/cn_train.txt.cleaned",
+      "validation_files":"filelists/cn_valid.txt.cleaned",
+      "text_cleaners":["canvers_cn_cleaners"],
+      "max_wav_value": 32768.0,
+      "sampling_rate": 22050,
+      "filter_length": 1024,
+      "hop_length": 256,
+      "win_length": 1024,
+      "n_mel_channels": 80,
+      "mel_fmin": 0.0,
+      "mel_fmax": null,
+      "add_blank": false,
+      "n_speakers": 22,
+      "cleaned_text": true
+    },
+    "model": {
+      "use_mel_posterior_encoder": true,
+      "use_transformer_flows": true,
+      "transformer_flow_type": "pre_conv",
+      "use_spk_conditioned_encoder": true,
+      "use_noise_scaled_mas": true,
+      "use_duration_discriminator": true,
+      "inter_channels": 192,
+      "hidden_channels": 192,
+      "filter_channels": 768,
+      "n_heads": 2,
+      "n_layers": 6,
+      "kernel_size": 3,
+      "p_dropout": 0.1,
+      "resblock": "1",
+      "resblock_kernel_sizes": [3,7,11],
+      "resblock_dilation_sizes": [[1,3,5], [1,3,5], [1,3,5]],
+      "upsample_rates": [8,8,2,2],
+      "upsample_initial_channel": 512,
+      "upsample_kernel_sizes": [16,16,4,4],
+      "n_layers_q": 3,
+      "use_spectral_norm": false,
+      "use_sdp": false,
+      "gin_channels": 256
+    }
+  }

cn_base.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bfdea6cfa5eb25f67735384caf6af04f04d11b6d08ed7c4285eeb5b772c82ac8
+size 485854414

id_base.json ADDED Viewed

	@@ -0,0 +1,62 @@

+{
+    "train": {
+      "log_interval": 1000,
+      "eval_interval": 5000,
+      "seed": 1234,
+      "epochs": 128,
+      "learning_rate": 1e-4,
+      "betas": [0.8, 0.99],
+      "eps": 1e-9,
+      "batch_size": 12,
+      "fp16_run": false,
+      "lr_decay": 0.999875,
+      "segment_size": 8192,
+      "init_lr_ratio": 1,
+      "warmup_epochs": 0,
+      "c_mel": 45,
+      "c_kl": 1.0
+    },
+    "data": {
+      "use_mel_posterior_encoder": true,
+      "training_files":"filelists/id_train.txt.cleaned",
+      "validation_files":"filelists/id_valid.txt.cleaned",
+      "text_cleaners":["canvers_id_cleaners"],
+      "max_wav_value": 32768.0,
+      "sampling_rate": 22050,
+      "filter_length": 1024,
+      "hop_length": 256,
+      "win_length": 1024,
+      "n_mel_channels": 80,
+      "mel_fmin": 0.0,
+      "mel_fmax": null,
+      "add_blank": false,
+      "n_speakers": 2,
+      "cleaned_text": true
+    },
+    "model": {
+      "use_mel_posterior_encoder": true,
+      "use_transformer_flows": true,
+      "transformer_flow_type": "pre_conv",
+      "use_spk_conditioned_encoder": true,
+      "use_noise_scaled_mas": true,
+      "use_duration_discriminator": true,
+      "inter_channels": 192,
+      "hidden_channels": 192,
+      "filter_channels": 768,
+      "n_heads": 2,
+      "n_layers": 6,
+      "kernel_size": 3,
+      "p_dropout": 0.1,
+      "resblock": "1",
+      "resblock_kernel_sizes": [3,7,11],
+      "resblock_dilation_sizes": [[1,3,5], [1,3,5], [1,3,5]],
+      "upsample_rates": [8,8,2,2],
+      "upsample_initial_channel": 512,
+      "upsample_kernel_sizes": [16,16,4,4],
+      "n_layers_q": 3,
+      "use_spectral_norm": false,
+      "use_sdp": false,
+      "gin_channels": 256
+    }
+  }

id_base.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:32817ead1f434295e536c5f13b67132b60b98cb6ac87aebf8aaf91fa82198742
+size 485792475

ja_base.json ADDED Viewed

	@@ -0,0 +1,62 @@

+{
+    "train": {
+      "log_interval": 1000,
+      "eval_interval": 5000,
+      "seed": 1234,
+      "epochs": 128,
+      "learning_rate": 2e-4,
+      "betas": [0.8, 0.99],
+      "eps": 1e-9,
+      "batch_size": 12,
+      "fp16_run": true,
+      "lr_decay": 0.999875,
+      "segment_size": 8192,
+      "init_lr_ratio": 1,
+      "warmup_epochs": 0,
+      "c_mel": 45,
+      "c_kl": 1.0
+    },
+    "data": {
+      "use_mel_posterior_encoder": true,
+      "training_files":"filelists/ja_train.txt.cleaned",
+      "validation_files":"filelists/ja_valid.txt.cleaned",
+      "text_cleaners":["canvers_ja_cleaners"],
+      "max_wav_value": 32768.0,
+      "sampling_rate": 22050,
+      "filter_length": 1024,
+      "hop_length": 256,
+      "win_length": 1024,
+      "n_mel_channels": 80,
+      "mel_fmin": 0.0,
+      "mel_fmax": null,
+      "add_blank": false,
+      "n_speakers": 16,
+      "cleaned_text": true
+    },
+    "model": {
+      "use_mel_posterior_encoder": true,
+      "use_transformer_flows": true,
+      "transformer_flow_type": "pre_conv",
+      "use_spk_conditioned_encoder": true,
+      "use_noise_scaled_mas": true,
+      "use_duration_discriminator": true,
+      "inter_channels": 192,
+      "hidden_channels": 192,
+      "filter_channels": 768,
+      "n_heads": 2,
+      "n_layers": 6,
+      "kernel_size": 3,
+      "p_dropout": 0.1,
+      "resblock": "1",
+      "resblock_kernel_sizes": [3,7,11],
+      "resblock_dilation_sizes": [[1,3,5], [1,3,5], [1,3,5]],
+      "upsample_rates": [8,8,2,2],
+      "upsample_initial_channel": 512,
+      "upsample_kernel_sizes": [16,16,4,4],
+      "n_layers_q": 3,
+      "use_spectral_norm": false,
+      "use_sdp": false,
+      "gin_channels": 256
+    }
+  }

ja_base.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6b59ec2aed9f4ce61f014665369020250b27152181430cf30291b82e048fcfb0
+size 485838970

ko_base.json ADDED Viewed

	@@ -0,0 +1,62 @@

+{
+    "train": {
+      "log_interval": 1000,
+      "eval_interval": 5000,
+      "seed": 1234,
+      "epochs": 128,
+      "learning_rate": 1e-4,
+      "betas": [0.8, 0.99],
+      "eps": 1e-9,
+      "batch_size": 8,
+      "fp16_run": false,
+      "lr_decay": 0.999875,
+      "segment_size": 8192,
+      "init_lr_ratio": 1,
+      "warmup_epochs": 0,
+      "c_mel": 45,
+      "c_kl": 1.0
+    },
+    "data": {
+      "use_mel_posterior_encoder": true,
+      "training_files":"filelists/ko_train2.txt.cleaned",
+      "validation_files":"filelists/ko_valid2.txt.cleaned",
+      "text_cleaners":["canvers_ko_cleaners"],
+      "max_wav_value": 32768.0,
+      "sampling_rate": 22050,
+      "filter_length": 1024,
+      "hop_length": 256,
+      "win_length": 1024,
+      "n_mel_channels": 80,
+      "mel_fmin": 0.0,
+      "mel_fmax": null,
+      "add_blank": false,
+      "n_speakers": 74,
+      "cleaned_text": true
+    },
+    "model": {
+      "use_mel_posterior_encoder": true,
+      "use_transformer_flows": true,
+      "transformer_flow_type": "pre_conv",
+      "use_spk_conditioned_encoder": true,
+      "use_noise_scaled_mas": true,
+      "use_duration_discriminator": true,
+      "inter_channels": 192,
+      "hidden_channels": 192,
+      "filter_channels": 768,
+      "n_heads": 2,
+      "n_layers": 6,
+      "kernel_size": 3,
+      "p_dropout": 0.1,
+      "resblock": "1",
+      "resblock_kernel_sizes": [3,7,11],
+      "resblock_dilation_sizes": [[1,3,5], [1,3,5], [1,3,5]],
+      "upsample_rates": [8,8,2,2],
+      "upsample_initial_channel": 512,
+      "upsample_kernel_sizes": [16,16,4,4],
+      "n_layers_q": 3,
+      "use_spectral_norm": false,
+      "use_sdp": false,
+      "gin_channels": 256
+    }
+  }

ko_base.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:917cf6b67b2ae83b663470bd45623a07dd2b4be8a81ca13ce67d202bbc3d3949
+size 486013659

th_base.json ADDED Viewed

	@@ -0,0 +1,62 @@

+{
+    "train": {
+      "log_interval": 1000,
+      "eval_interval": 5000,
+      "seed": 1234,
+      "epochs": 128,
+      "learning_rate": 1e-4,
+      "betas": [0.8, 0.99],
+      "eps": 1e-9,
+      "batch_size": 8,
+      "fp16_run": false,
+      "lr_decay": 0.999875,
+      "segment_size": 8192,
+      "init_lr_ratio": 1,
+      "warmup_epochs": 0,
+      "c_mel": 45,
+      "c_kl": 1.0
+    },
+    "data": {
+      "use_mel_posterior_encoder": true,
+      "training_files":"filelists/th_train.txt.cleaned",
+      "validation_files":"filelists/th_valid.txt.cleaned",
+      "text_cleaners":["canvers_th_cleaners"],
+      "max_wav_value": 32768.0,
+      "sampling_rate": 22050,
+      "filter_length": 1024,
+      "hop_length": 256,
+      "win_length": 1024,
+      "n_mel_channels": 80,
+      "mel_fmin": 0.0,
+      "mel_fmax": null,
+      "add_blank": false,
+      "n_speakers": 3,
+      "cleaned_text": true
+    },
+    "model": {
+      "use_mel_posterior_encoder": true,
+      "use_transformer_flows": true,
+      "transformer_flow_type": "pre_conv",
+      "use_spk_conditioned_encoder": true,
+      "use_noise_scaled_mas": true,
+      "use_duration_discriminator": true,
+      "inter_channels": 192,
+      "hidden_channels": 192,
+      "filter_channels": 768,
+      "n_heads": 2,
+      "n_layers": 6,
+      "kernel_size": 3,
+      "p_dropout": 0.1,
+      "resblock": "1",
+      "resblock_kernel_sizes": [3,7,11],
+      "resblock_dilation_sizes": [[1,3,5], [1,3,5], [1,3,5]],
+      "upsample_rates": [8,8,2,2],
+      "upsample_initial_channel": 512,
+      "upsample_kernel_sizes": [16,16,4,4],
+      "n_layers_q": 3,
+      "use_spectral_norm": false,
+      "use_sdp": false,
+      "gin_channels": 256
+    }
+  }

th_base.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e5f8ea623be6fd2bd41d9c8aa50fad38784e422350843414c8d2af0c44e02fa7
+size 485795547

vi_base.json ADDED Viewed

	@@ -0,0 +1,62 @@

+{
+    "train": {
+      "log_interval": 1000,
+      "eval_interval": 5000,
+      "seed": 1234,
+      "epochs": 128,
+      "learning_rate": 1e-4,
+      "betas": [0.8, 0.99],
+      "eps": 1e-9,
+      "batch_size": 12,
+      "fp16_run": false,
+      "lr_decay": 0.999875,
+      "segment_size": 8192,
+      "init_lr_ratio": 1,
+      "warmup_epochs": 0,
+      "c_mel": 45,
+      "c_kl": 1.0
+    },
+    "data": {
+      "use_mel_posterior_encoder": true,
+      "training_files":"filelists/vi_train.txt.cleaned",
+      "validation_files":"filelists/vi_valid.txt.cleaned",
+      "text_cleaners":["canvers_vi_cleaners"],
+      "max_wav_value": 32768.0,
+      "sampling_rate": 22050,
+      "filter_length": 1024,
+      "hop_length": 256,
+      "win_length": 1024,
+      "n_mel_channels": 80,
+      "mel_fmin": 0.0,
+      "mel_fmax": null,
+      "add_blank": false,
+      "n_speakers": 2,
+      "cleaned_text": true
+    },
+    "model": {
+      "use_mel_posterior_encoder": true,
+      "use_transformer_flows": true,
+      "transformer_flow_type": "pre_conv",
+      "use_spk_conditioned_encoder": true,
+      "use_noise_scaled_mas": true,
+      "use_duration_discriminator": true,
+      "inter_channels": 192,
+      "hidden_channels": 192,
+      "filter_channels": 768,
+      "n_heads": 2,
+      "n_layers": 6,
+      "kernel_size": 3,
+      "p_dropout": 0.1,
+      "resblock": "1",
+      "resblock_kernel_sizes": [3,7,11],
+      "resblock_dilation_sizes": [[1,3,5], [1,3,5], [1,3,5]],
+      "upsample_rates": [8,8,2,2],
+      "upsample_initial_channel": 512,
+      "upsample_kernel_sizes": [16,16,4,4],
+      "n_layers_q": 3,
+      "use_spectral_norm": false,
+      "use_sdp": false,
+      "gin_channels": 256
+    }
+  }

vi_base.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:893362b0213d254c4386712149d05efe8d44571cc76f9f5a4b8e57f63c828519
+size 485792475