Training in progress, step 250, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +153 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b225360958a382ec287517387a6abacab0f1d2394a362e9767f84473949b3e7a
 size 2931614832

 version https://git-lfs.github.com/spec/v1
+oid sha256:e94919c47ebaeadb6c69c16dcd15eca4096d2abff60da1c0afcb24468fee0170
 size 2931614832

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:25d9ef7e070c77b5aeefa9d8a3f85c0f430cf64b32a2830c48ac368bfb96a923
 size 628648428

 version https://git-lfs.github.com/spec/v1
+oid sha256:22950a76deed4e24012e84caba3a000b5362c18fb8ecb0429d861bb63952b74f
 size 628648428

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:376a71289f7848b2a2e275814c62ab7090b1b8276e7e80bba0894efbd9bf880b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:12e2bb6bd1f3ad57589a75f2df06bbf4676ff5120e4773d51e19acf33cd8dce5
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f59a103009f3230e51c40288ef6a33247523fa398934878b1e22a81660cbade8
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:1d1650f5062195d8ee65b24ab00a137ab48cccbff41f41ba060d4208547a763c
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9,
   "eval_steps": 500,
-  "global_step": 225,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1357,13 +1357,163 @@
       "learning_rate": 0.0002,
       "loss": 0.4422,
       "step": 225
     }
   ],
   "logging_steps": 1,
   "max_steps": 250,
   "num_train_epochs": 1,
   "save_steps": 25,
-  "total_flos": 1.3393660247801856e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0,
   "eval_steps": 500,
+  "global_step": 250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.0002,
       "loss": 0.4422,
       "step": 225
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.0002,
+      "loss": 0.5137,
+      "step": 226
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 0.0002,
+      "loss": 0.4991,
+      "step": 227
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 0.0002,
+      "loss": 0.4743,
+      "step": 228
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.0002,
+      "loss": 0.5094,
+      "step": 229
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.0002,
+      "loss": 0.4255,
+      "step": 230
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.0002,
+      "loss": 0.5178,
+      "step": 231
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.0002,
+      "loss": 0.45,
+      "step": 232
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.0002,
+      "loss": 0.4507,
+      "step": 233
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.0002,
+      "loss": 0.4985,
+      "step": 234
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.0002,
+      "loss": 0.4585,
+      "step": 235
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.0002,
+      "loss": 0.4703,
+      "step": 236
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 0.0002,
+      "loss": 0.4126,
+      "step": 237
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 0.0002,
+      "loss": 0.4401,
+      "step": 238
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.0002,
+      "loss": 0.3744,
+      "step": 239
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.0002,
+      "loss": 0.4532,
+      "step": 240
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.0002,
+      "loss": 0.4043,
+      "step": 241
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 0.0002,
+      "loss": 0.3634,
+      "step": 242
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 0.0002,
+      "loss": 0.4066,
+      "step": 243
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.0002,
+      "loss": 0.4081,
+      "step": 244
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.0002,
+      "loss": 0.4268,
+      "step": 245
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.0002,
+      "loss": 0.3535,
+      "step": 246
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.0002,
+      "loss": 0.34,
+      "step": 247
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.0002,
+      "loss": 0.3733,
+      "step": 248
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.0002,
+      "loss": 0.41,
+      "step": 249
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.0002,
+      "loss": 0.3494,
+      "step": 250
     }
   ],
   "logging_steps": 1,
   "max_steps": 250,
   "num_train_epochs": 1,
   "save_steps": 25,
+  "total_flos": 1.4689489038114816e+16,
   "trial_name": null,
   "trial_params": null
 }