Upload 5 files

Files changed (5) hide show

config.json CHANGED Viewed

@@ -1,11 +1,12 @@
 {
   "architectures": [
     "LlamaForCausalLM"
   ],
   "attention_bias": false,
   "attention_dropout": 0.0,
   "bos_token_id": 128000,
-  "eos_token_id": 128001,
   "hidden_act": "silu",
   "hidden_size": 4096,
   "initializer_range": 0.02,
@@ -20,15 +21,15 @@
   "rms_norm_eps": 1e-05,
   "rope_scaling": {
     "factor": 8.0,
-    "low_freq_factor": 1.0,
     "high_freq_factor": 4.0,
     "original_max_position_embeddings": 8192,
     "rope_type": "llama3"
   },
   "rope_theta": 500000.0,
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
-  "transformers_version": "4.43.0.dev0",
-  "use_cache": true,
   "vocab_size": 128256
 }

 {
+  "_name_or_path": "teknium/Llama-3.1-AlternateTokenizer",
   "architectures": [
     "LlamaForCausalLM"
   ],
   "attention_bias": false,
   "attention_dropout": 0.0,
   "bos_token_id": 128000,
+  "eos_token_id": 128009,
   "hidden_act": "silu",
   "hidden_size": 4096,
   "initializer_range": 0.02,
   "rms_norm_eps": 1e-05,
   "rope_scaling": {
     "factor": 8.0,
     "high_freq_factor": 4.0,
+    "low_freq_factor": 1.0,
     "original_max_position_embeddings": 8192,
     "rope_type": "llama3"
   },
   "rope_theta": 500000.0,
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
+  "transformers_version": "4.44.0.dev0",
+  "use_cache": false,
   "vocab_size": 128256
 }

generation_config.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "do_sample": true,
   "temperature": 0.6,
   "top_p": 0.9,
-  "_from_model_config": true,
-  "bos_token_id": 128000,
-  "eos_token_id": 128001,
-  "transformers_version": "4.43.0.dev0"
 }

 {
+  "_from_model_config": true,
+  "bos_token_id": 128000,
   "do_sample": true,
+  "eos_token_id": 128009,
   "temperature": 0.6,
   "top_p": 0.9,
+  "transformers_version": "4.44.0.dev0"
 }

special_tokens_map.json CHANGED Viewed

@@ -1,4 +1,23 @@
 {
-  "bos_token": "<|begin_of_text|>",
-  "eos_token": "<|im_end|>"
 }

 {
+  "bos_token": {
+    "content": "<|begin_of_text|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|eot_id|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|end_of_text|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
 }

tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json CHANGED Viewed

@@ -313,20 +313,20 @@
       "special": false
     },
     "128039": {
-      "content": "<|im_start|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
-      "special": false
     },
     "128040": {
-      "content": "<|im_end|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
-      "special": true
     },
     "128041": {
       "content": "<|reserved_special_token_33|>",
@@ -2050,12 +2050,14 @@
     }
   },
   "bos_token": "<|begin_of_text|>",
   "clean_up_tokenization_spaces": true,
-  "eos_token": "<|end_of_text|>",
   "model_input_names": [
     "input_ids",
     "attention_mask"
   ],
   "model_max_length": 131072,
   "tokenizer_class": "PreTrainedTokenizerFast"
 }

       "special": false
     },
     "128039": {
+      "content": "<|im_end|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
+      "special": true
     },
     "128040": {
+      "content": "<|im_start|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
+      "special": false
     },
     "128041": {
       "content": "<|reserved_special_token_33|>",
     }
   },
   "bos_token": "<|begin_of_text|>",
+  "chat_template": "{% if not add_generation_prompt is defined %}{% set add_generation_prompt = false %}{% endif %}{% set loop_messages = messages %}{% for message in loop_messages %}{% set content = '<|start_header_id|>' + message['role'] + '<|end_header_id|>\n\n'+ message['content'] | trim + '<|eot_id|>' %}{% if loop.index0 == 0 %}{% set content = bos_token + content %}{% endif %}{{ content }}{% endfor %}{% if add_generation_prompt %}{{ '<|start_header_id|>assistant<|end_header_id|>\n\n' }}{% endif %}",
   "clean_up_tokenization_spaces": true,
+  "eos_token": "<|eot_id|>",
   "model_input_names": [
     "input_ids",
     "attention_mask"
   ],
   "model_max_length": 131072,
+  "pad_token": "<|end_of_text|>",
   "tokenizer_class": "PreTrainedTokenizerFast"
 }