Push model using huggingface_hub.

Browse files

Files changed (3) hide show

README.md +10 -1
config.json +123 -123
model.safetensors +1 -1

README.md CHANGED Viewed

@@ -1,3 +1,12 @@
 ---
-license: cc-by-nc-sa-4.0
 ---

 ---
+tags:
+- Text-to-Speech
+- VoiceCraft
+- pytorch_model_hub_mixin
+- model_hub_mixin
+repo_url: https://github.com/jasonppy/VoiceCraft
 ---
+This model has been pushed to the Hub using ****:
+- Repo: https://github.com/jasonppy/VoiceCraft
+- Docs: [More Information Needed]

config.json CHANGED Viewed

@@ -1,152 +1,152 @@
 {
-  "seed": 1,
-  "precision": "float16",
-  "num_workers": 8,
-  "resume": false,
-  "tb_write_every_n_steps": 10,
-  "print_every_n_steps": 400,
-  "val_every_n_steps": 1600,
-  "lr": 0.03,
   "batch_size": 100,
-  "weight_decay": 0.01,
-  "warmup_fraction": 0.01,
-  "num_epochs": 10,
-  "num_steps": 50000,
-  "gradient_accumulation_steps": 8,
-  "gradient_clip_val": 1.0,
-  "early_stop_step": 3200,
-  "early_stop_threshold": -1.0,
-  "exp_dir": "/data/scratch/pyp/exp_pyp/VoiceCraft/gigaspeech/e5",
   "dataset": "gigaspeech",
   "dataset_dir": "/data/scratch/pyp/datasets/gigaspeech_phn_enc_manifest/xl",
-  "pseudo_epoch_size": 3000,
-  "phn_folder_name": "phonemes",
-  "encodec_folder_name": "encodec_16khz_4codebooks",
-  "manifest_name": "manifest_large16khz_lessambi",
-  "pad_x": 0,
-  "max_num_tokens": 100000,
-  "val_max_num_tokens": 6000,
-  "num_buckets": 6,
   "dynamic_batching": 1,
-  "audio_max_length": 20.0,
-  "audio_min_length": 2.0,
-  "text_max_length": 400,
-  "text_min_length": 10.0,
   "encodec_sr": 50,
-  "mask_len_min": 1,
-  "mask_len_max": 600,
-  "drop_long": 1,
   "eos": 2051,
-  "reduced_eog": 1,
-  "special_first": 0,
-  "n_special": 4,
-  "codebook_weight": "[5,1,0.5,0.1]",
-  "empty_token": 2048,
-  "optimizer_name": "ScaledAdam",
-  "reduce_lr_start_step": 3000,
-  "reduce_lr_start_epoch": 4,
-  "clipping_update_period": 1000,
   "max_mask_portion": 0.9,
   "max_n_spans": 3,
-  "shuffle_mask_embedding": 0,
-  "mask_sample_dist": "poisson1",
   "min_gap": 5,
   "n_codebooks": 4,
-  "text_vocab_size": 100,
-  "text_pad_token": 100,
-  "audio_vocab_size": 2048,
-  "eog": 2049,
-  "audio_pad_token": 2050,
-  "d_model": 2048,
-  "audio_embedding_dim": 2048,
-  "text_embedding_dropout": 0.1,
-  "audio_embedding_dropout": 0,
-  "text_positional_embedding_dropout": 0.1,
-  "audio_positional_embedding_dropout": 0.1,
-  "trm_dropout": 0.1,
   "nhead": 16,
   "num_decoder_layers": 8,
-  "load_model_from": null,
   "phn2num": {
-    "\u0251\u02d0": 0,
-    "u": 1,
     "a\u026a\u025a": 2,
-    "\u0254": 3,
-    "x": 4,
-    "\u0279": 5,
     "e\u026a": 6,
-    "\u00f0": 7,
-    "n\u02b2": 8,
     "m": 9,
     "\u00e7": 10,
-    "\u025b\u0279": 11,
-    "\u0329": 12,
     "\u0254\u026a": 13,
-    "h": 14,
-    "_": 15,
     "\u0259l": 16,
-    "!": 17,
     "\u025b": 18,
-    "w": 19,
-    "b": 20,
     "\u025c\u02d0": 21,
-    "z": 22,
-    "n": 23,
     "\u027e": 24,
-    "o\u028a": 25,
     "\u0283": 26,
-    "i": 27,
     "\u028a\u0279": 28,
-    "\u0254\u02d0": 29,
-    "\u03b8": 30,
-    "v": 31,
-    "\u00e6": 32,
-    "\u0254\u02d0\u0279": 33,
-    "p": 34,
-    "\u025a": 35,
-    "a\u028a": 36,
-    "\u0261\u02b2": 37,
     "\u028c": 38,
-    "<MUSIC>": 39,
-    "o\u02d0\u0279": 40,
-    "k": 41,
-    "i\u0259": 42,
-    "\u028a": 43,
-    "\u0251\u02d0\u0279": 44,
-    "\u0303": 45,
-    "\u026c": 46,
-    "u\u02d0": 47,
-    "a\u026a": 48,
-    "\u0261": 49,
-    "\u00e6\u00e6": 50,
-    "i\u02d0\u02d0": 51,
-    "<NOISE>": 52,
-    "<SIL>": 53,
-    "\u0259": 54,
     "\u0292": 55,
-    "a\u026a\u0259": 56,
-    "d\u0292": 57,
-    "\u014b": 58,
     "\u0294": 59,
-    "<OTHER>": 60,
-    "\u0251": 61,
-    "\u1d7b": 62,
-    "l": 63,
-    ",": 64,
-    "\u026a": 65,
-    "s": 66,
-    "j": 67,
-    "i\u02d0": 68,
-    "f": 69,
-    "\u0250": 70,
-    "\u0250\u0250": 71,
-    "d": 72,
-    "t": 73,
-    "o\u02d0": 74,
-    "t\u0283": 75,
-    "\u026a\u0279": 76,
-    ".": 77,
-    "?": 78,
-    "r": 79
-  }
 }

 {
+  "audio_embedding_dim": 2048,
+  "audio_embedding_dropout": 0,
+  "audio_max_length": 20.0,
+  "audio_min_length": 2.0,
+  "audio_pad_token": 2050,
+  "audio_positional_embedding_dropout": 0.1,
+  "audio_vocab_size": 2048,
   "batch_size": 100,
+  "clipping_update_period": 1000,
+  "codebook_weight": "[5,1,0.5,0.1]",
+  "d_model": 2048,
   "dataset": "gigaspeech",
   "dataset_dir": "/data/scratch/pyp/datasets/gigaspeech_phn_enc_manifest/xl",
+  "drop_long": 1,
   "dynamic_batching": 1,
+  "early_stop_step": 3200,
+  "early_stop_threshold": -1.0,
+  "empty_token": 2048,
+  "encodec_folder_name": "encodec_16khz_4codebooks",
   "encodec_sr": 50,
+  "eog": 2049,
   "eos": 2051,
+  "exp_dir": "/data/scratch/pyp/exp_pyp/VoiceCraft/gigaspeech/e5",
+  "gradient_accumulation_steps": 8,
+  "gradient_clip_val": 1.0,
+  "load_model_from": null,
+  "lr": 0.03,
+  "manifest_name": "manifest_large16khz_lessambi",
+  "mask_len_max": 600,
+  "mask_len_min": 1,
+  "mask_sample_dist": "poisson1",
   "max_mask_portion": 0.9,
   "max_n_spans": 3,
+  "max_num_tokens": 100000,
   "min_gap": 5,
   "n_codebooks": 4,
+  "n_special": 4,
   "nhead": 16,
+  "num_buckets": 6,
   "num_decoder_layers": 8,
+  "num_epochs": 10,
+  "num_steps": 50000,
+  "num_workers": 8,
+  "optimizer_name": "ScaledAdam",
+  "pad_x": 0,
   "phn2num": {
+    "!": 17,
+    ",": 64,
+    ".": 77,
+    "<MUSIC>": 39,
+    "<NOISE>": 52,
+    "<OTHER>": 60,
+    "<SIL>": 53,
+    "?": 78,
+    "_": 15,
+    "a\u026a": 48,
+    "a\u026a\u0259": 56,
     "a\u026a\u025a": 2,
+    "a\u028a": 36,
+    "b": 20,
+    "d": 72,
+    "d\u0292": 57,
     "e\u026a": 6,
+    "f": 69,
+    "h": 14,
+    "i": 27,
+    "i\u0259": 42,
+    "i\u02d0": 68,
+    "i\u02d0\u02d0": 51,
+    "j": 67,
+    "k": 41,
+    "l": 63,
     "m": 9,
+    "n": 23,
+    "n\u02b2": 8,
+    "o\u028a": 25,
+    "o\u02d0": 74,
+    "o\u02d0\u0279": 40,
+    "p": 34,
+    "r": 79,
+    "s": 66,
+    "t": 73,
+    "t\u0283": 75,
+    "u": 1,
+    "u\u02d0": 47,
+    "v": 31,
+    "w": 19,
+    "x": 4,
+    "z": 22,
+    "\u00e6": 32,
+    "\u00e6\u00e6": 50,
     "\u00e7": 10,
+    "\u00f0": 7,
+    "\u014b": 58,
+    "\u0250": 70,
+    "\u0250\u0250": 71,
+    "\u0251": 61,
+    "\u0251\u02d0": 0,
+    "\u0251\u02d0\u0279": 44,
+    "\u0254": 3,
     "\u0254\u026a": 13,
+    "\u0254\u02d0": 29,
+    "\u0254\u02d0\u0279": 33,
+    "\u0259": 54,
     "\u0259l": 16,
+    "\u025a": 35,
     "\u025b": 18,
+    "\u025b\u0279": 11,
     "\u025c\u02d0": 21,
+    "\u0261": 49,
+    "\u0261\u02b2": 37,
+    "\u026a": 65,
+    "\u026a\u0279": 76,
+    "\u026c": 46,
+    "\u0279": 5,
     "\u027e": 24,
     "\u0283": 26,
+    "\u028a": 43,
     "\u028a\u0279": 28,
     "\u028c": 38,
     "\u0292": 55,
     "\u0294": 59,
+    "\u0303": 45,
+    "\u0329": 12,
+    "\u03b8": 30,
+    "\u1d7b": 62
+  },
+  "phn_folder_name": "phonemes",
+  "precision": "float16",
+  "print_every_n_steps": 400,
+  "pseudo_epoch_size": 3000,
+  "reduce_lr_start_epoch": 4,
+  "reduce_lr_start_step": 3000,
+  "reduced_eog": 1,
+  "resume": false,
+  "seed": 1,
+  "shuffle_mask_embedding": 0,
+  "special_first": 0,
+  "tb_write_every_n_steps": 10,
+  "text_embedding_dropout": 0.1,
+  "text_max_length": 400,
+  "text_min_length": 10.0,
+  "text_pad_token": 100,
+  "text_positional_embedding_dropout": 0.1,
+  "text_vocab_size": 100,
+  "trm_dropout": 0.1,
+  "val_every_n_steps": 1600,
+  "val_max_num_tokens": 6000,
+  "warmup_fraction": 0.01,
+  "weight_decay": 0.01
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fd420ae97b4fff81a9d0f9703dab4e42a13f1fa22c2fa33634686d4a098054a0
 size 1746809632

 version https://git-lfs.github.com/spec/v1
+oid sha256:fc33980ce676aadeb20272a449fe06dcb6ddae19286f7b14501f75156c3fa8ea
 size 1746809632