AI4free
/

rawdog

@@ -199,7 +199,7 @@
       "lstrip": false,
       "rstrip": false,
       "normalized": true,
-      "special": false
     },
     {
       "id": 32022,
@@ -339,7 +339,6 @@
     "end_of_word_suffix": null,
     "fuse_unk": false,
     "byte_fallback": false,
-    "ignore_merges": false,
     "vocab": {
       "!": 0,
       "\"": 1,

       "lstrip": false,
       "rstrip": false,
       "normalized": true,
+      "special": true
     },
     {
       "id": 32022,
     "end_of_word_suffix": null,
     "fuse_unk": false,
     "byte_fallback": false,
     "vocab": {
       "!": 0,
       "\"": 1,

tokenizer_config.json CHANGED Viewed

@@ -1,209 +1,209 @@
 {
-    "added_tokens_decoder": {
-        "32000": {
-            "content": "\u00f5",
-            "lstrip": false,
-            "normalized": true,
-            "rstrip": false,
-            "single_word": false,
-            "special": false
-        },
-        "32001": {
-            "content": "\u00f7",
-            "lstrip": false,
-            "normalized": true,
-            "rstrip": false,
-            "single_word": false,
-            "special": false
-        },
-        "32002": {
-            "content": "\u00c1",
-            "lstrip": false,
-            "normalized": true,
-            "rstrip": false,
-            "single_word": false,
-            "special": false
-        },
-        "32003": {
-            "content": "\u00fd",
-            "lstrip": false,
-            "normalized": true,
-            "rstrip": false,
-            "single_word": false,
-            "special": false
-        },
-        "32004": {
-            "content": "\u00c0",
-            "lstrip": false,
-            "normalized": true,
-            "rstrip": false,
-            "single_word": false,
-            "special": false
-        },
-        "32005": {
-            "content": "\u00ff",
-            "lstrip": false,
-            "normalized": true,
-            "rstrip": false,
-            "single_word": false,
-            "special": false
-        },
-        "32006": {
-            "content": "\u00f8",
-            "lstrip": false,
-            "normalized": true,
-            "rstrip": false,
-            "single_word": false,
-            "special": false
-        },
-        "32007": {
-            "content": "\u00fa",
-            "lstrip": false,
-            "normalized": true,
-            "rstrip": false,
-            "single_word": false,
-            "special": false
-        },
-        "32008": {
-            "content": "\u00fe",
-            "lstrip": false,
-            "normalized": true,
-            "rstrip": false,
-            "single_word": false,
-            "special": false
-        },
-        "32009": {
-            "content": "\u00fc",
-            "lstrip": false,
-            "normalized": true,
-            "rstrip": false,
-            "single_word": false,
-            "special": false
-        },
-        "32010": {
-            "content": "\u00f9",
-            "lstrip": false,
-            "normalized": true,
-            "rstrip": false,
-            "single_word": false,
-            "special": false
-        },
-        "32011": {
-            "content": "\u00f6",
-            "lstrip": false,
-            "normalized": true,
-            "rstrip": false,
-            "single_word": false,
-            "special": false
-        },
-        "32012": {
-            "content": "\u00fb",
-            "lstrip": false,
-            "normalized": true,
-            "rstrip": false,
-            "single_word": false,
-            "special": false
-        },
-        "32013": {
-            "content": "<\uff5cbegin\u2581of\u2581sentence\uff5c>",
-            "lstrip": false,
-            "normalized": true,
-            "rstrip": false,
-            "single_word": false,
-            "special": true
-        },
-        "32014": {
-            "content": "<\uff5cend\u2581of\u2581sentence\uff5c>",
-            "lstrip": false,
-            "normalized": true,
-            "rstrip": false,
-            "single_word": false,
-            "special": true
-        },
-        "32015": {
-            "content": "<\uff5cfim\u2581hole\uff5c>",
-            "lstrip": false,
-            "normalized": true,
-            "rstrip": false,
-            "single_word": false,
-            "special": false
-        },
-        "32016": {
-            "content": "<\uff5cfim\u2581begin\uff5c>",
-            "lstrip": false,
-            "normalized": true,
-            "rstrip": false,
-            "single_word": false,
-            "special": false
-        },
-        "32017": {
-            "content": "<\uff5cfim\u2581end\uff5c>",
-            "lstrip": false,
-            "normalized": true,
-            "rstrip": false,
-            "single_word": false,
-            "special": false
-        },
-        "32018": {
-            "content": "<pad>",
-            "lstrip": false,
-            "normalized": true,
-            "rstrip": false,
-            "single_word": false,
-            "special": false
-        },
-        "32019": {
-            "content": "<|User|>",
-            "lstrip": false,
-            "normalized": true,
-            "rstrip": false,
-            "single_word": false,
-            "special": false
-        },
-        "32020": {
-            "content": "<|Assistant|>",
-            "lstrip": false,
-            "normalized": true,
-            "rstrip": false,
-            "single_word": false,
-            "special": false
-        },
-        "32021": {
-            "content": "<|EOT|>",
-            "lstrip": false,
-            "normalized": true,
-            "rstrip": false,
-            "single_word": false,
-            "special": true
-        },
-        "32022": {
-            "content": "<API_RUN_START>",
-            "lstrip": false,
-            "normalized": true,
-            "rstrip": false,
-            "single_word": false,
-            "special": false
-        },
-        "32023": {
-            "content": "<API_RUN_STOP>",
-            "lstrip": false,
-            "normalized": true,
-            "rstrip": false,
-            "single_word": false,
-            "special": false
-        }
-    },
-    "bos_token": "<\uff5cbegin\u2581of\u2581sentence\uff5c>",
-    "chat_template": "{% for message in messages %}{{'<|im_start|>' + message['role'] + '\\n' + message['content'] + '<|im_end|>' + '\\n'}}{% endfor %}",
-    "clean_up_tokenization_spaces": false,
-    "eos_token": "<|EOT|>",
-    "legacy": true,
-    "model_max_length": 16384,
-    "pad_token": "<\uff5cend\u2581of\u2581sentence\uff5c>",
-    "padding_side": "right",
-    "sp_model_kwargs": {},
-    "split_special_tokens": false,
-    "tokenizer_class": "LlamaTokenizer",
-    "unk_token": null,
-    "use_default_system_prompt": false
-}

 {
+  "added_tokens_decoder": {
+    "32000": {
+      "content": "õ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32001": {
+      "content": "÷",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32002": {
+      "content": "Á",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32003": {
+      "content": "ý",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32004": {
+      "content": "À",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32005": {
+      "content": "ÿ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32006": {
+      "content": "ø",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32007": {
+      "content": "ú",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32008": {
+      "content": "þ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32009": {
+      "content": "ü",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32010": {
+      "content": "ù",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32011": {
+      "content": "ö",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32012": {
+      "content": "û",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32013": {
+      "content": "<｜begin▁of▁sentence｜>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32014": {
+      "content": "<｜end▁of▁sentence｜>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32015": {
+      "content": "<｜fim▁hole｜>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32016": {
+      "content": "<｜fim▁begin｜>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32017": {
+      "content": "<｜fim▁end｜>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32018": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32019": {
+      "content": "<|User|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32020": {
+      "content": "<|Assistant|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32021": {
+      "content": "<|EOT|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32022": {
+      "content": "<API_RUN_START>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32023": {
+      "content": "<API_RUN_STOP>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "bos_token": "<｜begin▁of▁sentence｜>",
+  "chat_template": "{% for message in messages %}{{'<|im_start|>' + message['role'] + '\\n' + message['content'] + '<|im_end|>' + '\\n'}}{% endfor %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|EOT|>",
+  "legacy": true,
+  "model_max_length": 16384,
+  "pad_token": "<｜end▁of▁sentence｜>",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "split_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": null,
+  "use_default_system_prompt": false
+}