Upload tokenizer

Fixes #16, which showed that one of the merges is missing, which creates different outputs. The issue with this is that finetuned models were trained using this.

Files changed (4) hide show

merges.txt +1 -0
special_tokens_map.json +10 -4
tokenizer.json +1 -0
tokenizer_config.json +0 -0

merges.txt CHANGED Viewed

@@ -1,4 +1,5 @@
 #version: 0.2
 Ġ a
 Ġt h
 i n

 #version: 0.2
+Ġ t
 Ġ a
 Ġt h
 i n

special_tokens_map.json CHANGED Viewed

@@ -111,22 +111,28 @@
   "bos_token": {
     "content": "<|endoftext|>",
     "lstrip": false,
-    "normalized": true,
     "rstrip": false,
     "single_word": false
   },
   "eos_token": {
     "content": "<|endoftext|>",
     "lstrip": false,
-    "normalized": true,
     "rstrip": false,
     "single_word": false
   },
-  "pad_token": "<|endoftext|>",
   "unk_token": {
     "content": "<|endoftext|>",
     "lstrip": false,
-    "normalized": true,
     "rstrip": false,
     "single_word": false
   }

   "bos_token": {
     "content": "<|endoftext|>",
     "lstrip": false,
+    "normalized": false,
     "rstrip": false,
     "single_word": false
   },
   "eos_token": {
     "content": "<|endoftext|>",
     "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
     "rstrip": false,
     "single_word": false
   },
   "unk_token": {
     "content": "<|endoftext|>",
     "lstrip": false,
+    "normalized": false,
     "rstrip": false,
     "single_word": false
   }

tokenizer.json CHANGED Viewed

@@ -64848,6 +64848,7 @@
       "<|endoftext|>": 50257
     },
     "merges": [
       "Ġ a",
       "Ġt h",
       "i n",

       "<|endoftext|>": 50257
     },
     "merges": [
+      "Ġ t",
       "Ġ a",
       "Ġt h",
       "i n",

tokenizer_config.json CHANGED Viewed

The diff for this file is too large to render. See raw diff