Upload tokenizer

Files changed (4) hide show

added_tokens.json CHANGED Viewed

@@ -1,4 +1,6 @@
 {
   "<|assistant|>": 32001,
   "<|endoftext|>": 32000,
   "<|end|>": 32007,

 {
+  "<nexa_end>": 32012,
+  "<nexa_split>": 32011,
   "<|assistant|>": 32001,
   "<|endoftext|>": 32000,
   "<|end|>": 32007,

special_tokens_map.json CHANGED Viewed

@@ -1,6 +1,7 @@
 {
   "additional_special_tokens": [
     "<nexa_split>",
   ],
   "bos_token": {
     "content": "<s>",

 {
   "additional_special_tokens": [
     "<nexa_split>",
+    "<nexa_end>"
   ],
   "bos_token": {
     "content": "<s>",

tokenizer.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f473592bb5dc5cc078d862adc30eef76f773ace97f4c3a921cfe7cb018d8493f
-size 1844840

 version https://git-lfs.github.com/spec/v1
+oid sha256:6796f846dff17e049ed0f60a0aa09a38b18b1d6b62d3adad2ae93a3b81ad81f1
+size 1845214

tokenizer_config.json CHANGED Viewed

@@ -113,16 +113,36 @@
       "rstrip": true,
       "single_word": false,
       "special": true
     }
   },
   "bos_token": "<s>",
   "chat_template": "{{ bos_token }}{% for message in messages %}{% if (message['role'] == 'user') %}{{'<|user|>' + '\n' + message['content'] + '<|end|>' + '\n' + '<|assistant|>' + '\n'}}{% elif (message['role'] == 'assistant') %}{{message['content'] + '<|end|>' + '\n'}}{% endif %}{% endfor %}",
   "clean_up_tokenization_spaces": false,
   "eos_token": "<|endoftext|>",
   "legacy": false,
-  "model_max_length": 2048,
   "pad_token": "<|endoftext|>",
-  "padding_side": "right",
   "sp_model_kwargs": {},
   "tokenizer_class": "LlamaTokenizer",
   "unk_token": "<unk>",

       "rstrip": true,
       "single_word": false,
       "special": true
+    },
+    "32011": {
+      "content": "<nexa_split>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32012": {
+      "content": "<nexa_end>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
     }
   },
+  "additional_special_tokens": [
+    "<nexa_split>",
+    "<nexa_end>"
+  ],
   "bos_token": "<s>",
   "chat_template": "{{ bos_token }}{% for message in messages %}{% if (message['role'] == 'user') %}{{'<|user|>' + '\n' + message['content'] + '<|end|>' + '\n' + '<|assistant|>' + '\n'}}{% elif (message['role'] == 'assistant') %}{{message['content'] + '<|end|>' + '\n'}}{% endif %}{% endfor %}",
   "clean_up_tokenization_spaces": false,
   "eos_token": "<|endoftext|>",
   "legacy": false,
+  "model_max_length": 131072,
   "pad_token": "<|endoftext|>",
+  "padding_side": "left",
   "sp_model_kwargs": {},
   "tokenizer_class": "LlamaTokenizer",
   "unk_token": "<unk>",