Training in progress, step 350, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +153 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:58bfc760e91b0d21d65d7923896fc95c4f25a4f944fedcb622d03de278369d4c
 size 838904832

 version https://git-lfs.github.com/spec/v1
+oid sha256:420b8a326986f8e830cd838bbf34a7080a1e6d4ec3ce8653b2e4eebadcfa2c77
 size 838904832

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6a938569403d232d9b7ce7418e5911974858cee98b87ac1d1130486b3b546ff4
 size 421458386

 version https://git-lfs.github.com/spec/v1
+oid sha256:b7c1879fc8f1886e9f801904c72d7dbe4bf99bc2fd9a6c759591a82e966b8031
 size 421458386

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ef8593826016a9c5e91074c43813975f98ccc4aaa6700967895ddedc6022efdd
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:65a3ee4d233a8121789677494e2ecd1a75477024c32056ca4bbd20461a9ed78a
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9d0166e84a24bb5e8fbd3eec4a559ab0d784d0de1c9f1ce37bbb473bd77a0781
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:32cd83ea7b3c3d26f4b1d83df062610c973ecff83b1326ee086a5f9f50324c14
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.3,
   "eval_steps": 500,
-  "global_step": 325,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1957,13 +1957,163 @@
       "learning_rate": 0.0002,
       "loss": 0.4449,
       "step": 325
     }
   ],
   "logging_steps": 1,
   "max_steps": 500,
   "num_train_epochs": 2,
   "save_steps": 25,
-  "total_flos": 3.921061058162688e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.4,
   "eval_steps": 500,
+  "global_step": 350,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.0002,
       "loss": 0.4449,
       "step": 325
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.0002,
+      "loss": 0.3912,
+      "step": 326
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 0.0002,
+      "loss": 0.4508,
+      "step": 327
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 0.0002,
+      "loss": 0.4124,
+      "step": 328
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.0002,
+      "loss": 0.4305,
+      "step": 329
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.0002,
+      "loss": 0.4207,
+      "step": 330
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.0002,
+      "loss": 0.3785,
+      "step": 331
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 0.0002,
+      "loss": 0.428,
+      "step": 332
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 0.0002,
+      "loss": 0.3683,
+      "step": 333
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.0002,
+      "loss": 0.3742,
+      "step": 334
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.0002,
+      "loss": 0.3734,
+      "step": 335
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.0002,
+      "loss": 0.3748,
+      "step": 336
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 0.0002,
+      "loss": 0.4496,
+      "step": 337
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 0.0002,
+      "loss": 0.3368,
+      "step": 338
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.0002,
+      "loss": 0.3801,
+      "step": 339
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.0002,
+      "loss": 0.3133,
+      "step": 340
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.0002,
+      "loss": 0.3159,
+      "step": 341
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 0.0002,
+      "loss": 0.3227,
+      "step": 342
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 0.0002,
+      "loss": 0.3268,
+      "step": 343
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.0002,
+      "loss": 0.402,
+      "step": 344
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.0002,
+      "loss": 0.327,
+      "step": 345
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.0002,
+      "loss": 0.2898,
+      "step": 346
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 0.0002,
+      "loss": 0.3437,
+      "step": 347
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 0.0002,
+      "loss": 0.3099,
+      "step": 348
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 0.0002,
+      "loss": 0.2742,
+      "step": 349
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 0.0002,
+      "loss": 0.3122,
+      "step": 350
     }
   ],
   "logging_steps": 1,
   "max_steps": 500,
   "num_train_epochs": 2,
   "save_steps": 25,
+  "total_flos": 4.187771329769472e+16,
   "trial_name": null,
   "trial_params": null
 }