Finnish-NLP
/

Ahma-3B

@@ -37,7 +37,7 @@
       "lstrip": false,
       "rstrip": false,
       "normalized": false,
-      "special": false
     },
     {
       "id": 4,
@@ -46,7 +46,7 @@
       "lstrip": false,
       "rstrip": false,
       "normalized": false,
-      "special": false
     },
     {
       "id": 5,
@@ -55,7 +55,7 @@
       "lstrip": false,
       "rstrip": false,
       "normalized": false,
-      "special": false
     },
     {
       "id": 6,
@@ -64,15 +64,26 @@
       "lstrip": false,
       "rstrip": false,
       "normalized": false,
-      "special": false
     }
   ],
-  "normalizer": null,
   "pre_tokenizer": {
-    "type": "Metaspace",
-    "replacement": "▁",
-    "prepend_scheme": "first",
-    "split": false
   },
   "post_processor": {
     "type": "TemplateProcessing",

       "lstrip": false,
       "rstrip": false,
       "normalized": false,
+      "special": true
     },
     {
       "id": 4,
       "lstrip": false,
       "rstrip": false,
       "normalized": false,
+      "special": true
     },
     {
       "id": 5,
       "lstrip": false,
       "rstrip": false,
       "normalized": false,
+      "special": true
     },
     {
       "id": 6,
       "lstrip": false,
       "rstrip": false,
       "normalized": false,
+      "special": true
     }
   ],
+  "normalizer": {
+    "type": "Replace",
+    "pattern": {
+      "Regex": " {2,}"
+    },
+    "content": "▁"
+  },
   "pre_tokenizer": {
+    "type": "Sequence",
+    "pretokenizers": [
+      {
+        "type": "Metaspace",
+        "replacement": "▁",
+        "prepend_scheme": "first",
+        "split": false
+      }
+    ]
   },
   "post_processor": {
     "type": "TemplateProcessing",

tokenizer_config.json CHANGED Viewed

@@ -33,7 +33,7 @@
       "normalized": false,
       "rstrip": false,
       "single_word": false,
-      "special": false
     },
     "4": {
       "content": "[/INST]",
@@ -41,7 +41,7 @@
       "normalized": false,
       "rstrip": false,
       "single_word": false,
-      "special": false
     },
     "5": {
       "content": "<<SYS>>",
@@ -49,7 +49,7 @@
       "normalized": false,
       "rstrip": false,
       "single_word": false,
-      "special": false
     },
     "6": {
       "content": "<</SYS>>",
@@ -57,7 +57,7 @@
       "normalized": false,
       "rstrip": false,
       "single_word": false,
-      "special": false
     }
   },
   "bos_token": "<s>",
@@ -69,7 +69,7 @@
   "pad_token": null,
   "sp_model_kwargs": {},
   "spaces_between_special_tokens": false,
-  "tokenizer_class": "LlamaTokenizer",
   "unk_token": "<unk>",
   "use_default_system_prompt": false
 }

       "normalized": false,
       "rstrip": false,
       "single_word": false,
+      "special": true
     },
     "4": {
       "content": "[/INST]",
       "normalized": false,
       "rstrip": false,
       "single_word": false,
+      "special": true
     },
     "5": {
       "content": "<<SYS>>",
       "normalized": false,
       "rstrip": false,
       "single_word": false,
+      "special": true
     },
     "6": {
       "content": "<</SYS>>",
       "normalized": false,
       "rstrip": false,
       "single_word": false,
+      "special": true
     }
   },
   "bos_token": "<s>",
   "pad_token": null,
   "sp_model_kwargs": {},
   "spaces_between_special_tokens": false,
+  "tokenizer_class": "PreTrainedTokenizerFast",
   "unk_token": "<unk>",
   "use_default_system_prompt": false
 }