fix model

Browse files

Files changed (7) hide show

all_results.json +10 -2
config.json +1 -1
pytorch_model.bin +1 -1
tokenizer_config.json +1 -1
train_results.json +10 -2
trainer_state.json +245 -0
training_args.bin +2 -2

all_results.json CHANGED Viewed

@@ -1,6 +1,14 @@
 {
     "epoch": 3.0,
-    "train_runtime": 2848.8824,
     "train_samples": 200000,
-    "train_samples_per_second": 13.163
 }

 {
     "epoch": 3.0,
+    "init_mem_cpu_alloc_delta": 2085175296,
+    "init_mem_cpu_peaked_delta": 87703552,
+    "init_mem_gpu_alloc_delta": 115466752,
+    "init_mem_gpu_peaked_delta": 0,
+    "train_mem_cpu_alloc_delta": 1008685056,
+    "train_mem_cpu_peaked_delta": 124854272,
+    "train_mem_gpu_alloc_delta": 346377728,
+    "train_mem_gpu_peaked_delta": 5012993536,
+    "train_runtime": 2733.1751,
     "train_samples": 200000,
+    "train_samples_per_second": 6.86
 }

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "checkpoints/small_bert",
   "architectures": [
     "BertForSequenceClassification"
   ],

 {
+  "_name_or_path": "checkpoints/pretraining_checkpoints/translation_dataset/small_bert/",
   "architectures": [
     "BertForSequenceClassification"
   ],

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:388266de501bae987cc6768b8455f773d178ef05413e0d2cabdcd5b003034586
 size 115091721

 version https://git-lfs.github.com/spec/v1
+oid sha256:3e7307bf968df2acd6a244fc367749913ad7ce57f4406cd1896e0a8c359369a4
 size 115091721

tokenizer_config.json CHANGED Viewed

	@@ -1 +1 @@
1	- {"do_lower_case": true, "unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]", "tokenize_chinese_chars": true, "strip_accents": null, "special_tokens_map_file": null, "name_or_path": "checkpoints/small_bert", "do_basic_tokenize": true, "never_split": null}


1	+ {"do_lower_case": true, "unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]", "tokenize_chinese_chars": true, "strip_accents": null, "special_tokens_map_file": null, "name_or_path": "checkpoints/pretraining_checkpoints/translation_dataset/small_bert/", "do_basic_tokenize": true, "never_split": null}

train_results.json CHANGED Viewed

@@ -1,6 +1,14 @@
 {
     "epoch": 3.0,
-    "train_runtime": 2848.8824,
     "train_samples": 200000,
-    "train_samples_per_second": 13.163
 }

 {
     "epoch": 3.0,
+    "init_mem_cpu_alloc_delta": 2085175296,
+    "init_mem_cpu_peaked_delta": 87703552,
+    "init_mem_gpu_alloc_delta": 115466752,
+    "init_mem_gpu_peaked_delta": 0,
+    "train_mem_cpu_alloc_delta": 1008685056,
+    "train_mem_cpu_peaked_delta": 124854272,
+    "train_mem_gpu_alloc_delta": 346377728,
+    "train_mem_gpu_peaked_delta": 5012993536,
+    "train_runtime": 2733.1751,
     "train_samples": 200000,
+    "train_samples_per_second": 6.86
 }

trainer_state.json ADDED Viewed

	@@ -0,0 +1,245 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "global_step": 18750,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.08,
+      "learning_rate": 2.2222222222222223e-05,
+      "loss": 0.0109,
+      "step": 500
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 4.4444444444444447e-05,
+      "loss": 0.0035,
+      "step": 1000
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 4.893617021276596e-05,
+      "loss": 0.0034,
+      "step": 1500
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 4.751773049645391e-05,
+      "loss": 0.0032,
+      "step": 2000
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 4.609929078014185e-05,
+      "loss": 0.0033,
+      "step": 2500
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 4.468085106382979e-05,
+      "loss": 0.0032,
+      "step": 3000
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 4.3262411347517734e-05,
+      "loss": 0.0032,
+      "step": 3500
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 4.1843971631205674e-05,
+      "loss": 0.0031,
+      "step": 4000
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 4.0425531914893614e-05,
+      "loss": 0.0031,
+      "step": 4500
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 3.900709219858156e-05,
+      "loss": 0.003,
+      "step": 5000
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 3.75886524822695e-05,
+      "loss": 0.0031,
+      "step": 5500
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 3.617021276595745e-05,
+      "loss": 0.0029,
+      "step": 6000
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 3.4751773049645395e-05,
+      "loss": 0.0026,
+      "step": 6500
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 3.3333333333333335e-05,
+      "loss": 0.0022,
+      "step": 7000
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 3.191489361702128e-05,
+      "loss": 0.0022,
+      "step": 7500
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 3.0496453900709222e-05,
+      "loss": 0.0022,
+      "step": 8000
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 2.9080851063829788e-05,
+      "loss": 0.0022,
+      "step": 8500
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 2.766241134751773e-05,
+      "loss": 0.0021,
+      "step": 9000
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 2.6243971631205678e-05,
+      "loss": 0.0022,
+      "step": 9500
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 2.4825531914893618e-05,
+      "loss": 0.0022,
+      "step": 10000
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 2.3409929078014188e-05,
+      "loss": 0.0021,
+      "step": 10500
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 2.1991489361702128e-05,
+      "loss": 0.0022,
+      "step": 11000
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 2.057304964539007e-05,
+      "loss": 0.0022,
+      "step": 11500
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 1.9154609929078015e-05,
+      "loss": 0.0021,
+      "step": 12000
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 1.7736170212765958e-05,
+      "loss": 0.0021,
+      "step": 12500
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 1.63177304964539e-05,
+      "loss": 0.0016,
+      "step": 13000
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 1.4899290780141845e-05,
+      "loss": 0.0016,
+      "step": 13500
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 1.3480851063829788e-05,
+      "loss": 0.0016,
+      "step": 14000
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 1.2065248226950356e-05,
+      "loss": 0.0016,
+      "step": 14500
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 1.0646808510638298e-05,
+      "loss": 0.0015,
+      "step": 15000
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 9.228368794326241e-06,
+      "loss": 0.0016,
+      "step": 15500
+    },
+    {
+      "epoch": 2.56,
+      "learning_rate": 7.809929078014185e-06,
+      "loss": 0.0016,
+      "step": 16000
+    },
+    {
+      "epoch": 2.64,
+      "learning_rate": 6.394326241134752e-06,
+      "loss": 0.0015,
+      "step": 16500
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 4.975886524822695e-06,
+      "loss": 0.0015,
+      "step": 17000
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 3.557446808510639e-06,
+      "loss": 0.0016,
+      "step": 17500
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 2.1390070921985814e-06,
+      "loss": 0.0015,
+      "step": 18000
+    },
+    {
+      "epoch": 2.96,
+      "learning_rate": 7.23404255319149e-07,
+      "loss": 0.0015,
+      "step": 18500
+    },
+    {
+      "epoch": 3.0,
+      "step": 18750,
+      "total_flos": 0,
+      "train_runtime": 2733.1751,
+      "train_samples_per_second": 6.86
+    }
+  ],
+  "max_steps": 18750,
+  "num_train_epochs": 3,
+  "total_flos": 0,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6bb3eb39378bb5d83d3a8f66c6004d26a4b1302fe1989695a3309afb635e7cb0
-size 2415

 version https://git-lfs.github.com/spec/v1
+oid sha256:536d5c94756a71f61b2d20baed8ab5f03c53ac7c8886325b067a3a92f7b3e5e0
+size 2479