fix: several issues

* change special token location on vocab.txt
* add bos_token & eos_token

Files changed (4) hide show

config.json CHANGED Viewed

@@ -1,23 +1,21 @@
 {
-    "architectures": [
-        "RobertaForMaskedLM"
-    ],
-    "attention_probs_dropout_prob": 0.1,
-    "bos_token_id": 0,
-    "eos_token_id": 2,
-    "gradient_checkpointing": false,
-    "hidden_act": "gelu",
-    "hidden_dropout_prob": 0.1,
-    "hidden_size": 768,
-    "initializer_range": 0.02,
-    "intermediate_size": 3072,
-    "layer_norm_eps": 1e-05,
-    "max_position_embeddings": 512,
-    "model_type": "roberta",
-    "num_attention_heads": 12,
-    "num_hidden_layers": 12,
-    "pad_token_id": 1,
-    "type_vocab_size": 1,
-    "vocab_size": 32000,
-    "tokenizer_class": "BertTokenizer"
-}

 {
+  "architectures": ["RobertaForMaskedLM"],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "eos_token_id": 2,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 512,
+  "model_type": "roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 1,
+  "type_vocab_size": 1,
+  "vocab_size": 32000,
+  "tokenizer_class": "BertTokenizer"
+}

special_tokens_map.json CHANGED Viewed

	@@ -1 +1,9 @@
1	- {~~"unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]"}~~

+{
+  "unk_token": "[UNK]",
+  "sep_token": "[SEP]",
+  "pad_token": "[PAD]",
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "bos_token": "[CLS]",
+  "eos_token": "[SEP]"
+}

tokenizer_config.json CHANGED Viewed

@@ -1,13 +1,15 @@
 {
-    "do_lower_case": false,
-    "do_basic_tokenize": true,
-    "never_split": null,
-    "unk_token": "[UNK]",
-    "sep_token": "[SEP]",
-    "pad_token": "[PAD]",
-    "cls_token": "[CLS]",
-    "mask_token": "[MASK]",
-    "tokenize_chinese_chars": true,
-    "strip_accents": null,
-    "model_max_length": 512
-}

 {
+  "do_lower_case": false,
+  "do_basic_tokenize": true,
+  "never_split": null,
+  "unk_token": "[UNK]",
+  "sep_token": "[SEP]",
+  "pad_token": "[PAD]",
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "bos_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "tokenize_chinese_chars": true,
+  "strip_accents": null,
+  "model_max_length": 512
+}

vocab.txt CHANGED Viewed

@@ -1,7 +1,7 @@
-[PAD]
-[UNK]
 [CLS]
 [SEP]
 [MASK]
 !
 "

 [CLS]
+[PAD]
 [SEP]
+[UNK]
 [MASK]
 !
 "