Lasion
/

wav2vec2-common-voice-17_0_vi

Automatic Speech Recognition

Generated from Trainer

Inference Endpoints

Model card Files Files and versions Metrics Training metrics Community

Lasion commited on Apr 28

Commit

3fe392e

•

1 Parent(s): 2aa77e2

Upload tokenizer

Files changed (3) hide show

special_tokens_map.json +23 -1
tokenizer_config.json +11 -7
vocab.json +1 -1

special_tokens_map.json CHANGED Viewed

@@ -1,6 +1,28 @@
 {
   "bos_token": "<s>",
-  "eos_token": "</s>",
   "pad_token": "<pad>",
   "unk_token": "<unk>"
 }

 {
+  "additional_special_tokens": [
+    {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false
+    }
+  ],
   "bos_token": "<s>",
+  "eos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
   "pad_token": "<pad>",
   "unk_token": "<unk>"
 }

tokenizer_config.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
   "added_tokens_decoder": {
-    "0": {
-      "content": "<pad>",
       "lstrip": true,
       "normalized": false,
       "rstrip": true,
       "single_word": false,
       "special": false
     },
-    "94": {
-      "content": "<unk>",
       "lstrip": true,
       "normalized": false,
       "rstrip": true,
@@ -27,22 +27,26 @@
     "97": {
       "content": "</s>",
       "lstrip": false,
-      "normalized": false,
       "rstrip": false,
       "single_word": false,
       "special": true
     }
   },
   "bos_token": "<s>",
   "clean_up_tokenization_spaces": true,
   "do_lower_case": false,
-  "eos_token": "</s>",
   "model_max_length": 1000000000000000019884624838656,
   "pad_token": "<pad>",
   "replace_word_delimiter_char": " ",
   "target_lang": null,
   "tokenizer_class": "Wav2Vec2CTCTokenizer",
-  "tokenizer_file": "/content/wav2vec2-base-vi/tokenizer_config.json",
   "unk_token": "<unk>",
   "word_delimiter_token": "|"
 }

 {
   "added_tokens_decoder": {
+    "94": {
+      "content": "<unk>",
       "lstrip": true,
       "normalized": false,
       "rstrip": true,
       "single_word": false,
       "special": false
     },
+    "95": {
+      "content": "<pad>",
       "lstrip": true,
       "normalized": false,
       "rstrip": true,
     "97": {
       "content": "</s>",
       "lstrip": false,
+      "normalized": true,
       "rstrip": false,
       "single_word": false,
       "special": true
     }
   },
+  "additional_special_tokens": [
+    "<s>",
+    "</s>"
+  ],
   "bos_token": "<s>",
   "clean_up_tokenization_spaces": true,
   "do_lower_case": false,
+  "eos_token": "<s>",
   "model_max_length": 1000000000000000019884624838656,
   "pad_token": "<pad>",
+  "processor_class": "Wav2Vec2Processor",
   "replace_word_delimiter_char": " ",
   "target_lang": null,
   "tokenizer_class": "Wav2Vec2CTCTokenizer",
   "unk_token": "<unk>",
   "word_delimiter_token": "|"
 }

vocab.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "<pad>": 0,
   "<unk>": 94,
   "a": 1,
   "b": 2,

 {
+  "<pad>": 95,
   "<unk>": 94,
   "a": 1,
   "b": 2,