Training in progress, step 32000

Browse files

Files changed (6) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +396 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a82d4998e15048f7276ff7bf21cf172b2b8f99b8e3bce01b447dd4dc2e0f4219
 size 745634697

 version https://git-lfs.github.com/spec/v1
+oid sha256:4bf3ee108c8f2ba9b23f3060c596f2d7671294eb95fbed83a626ba0411e4518d
 size 745634697

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:85efd468f59e090bda67c9e694bf55407f51a1a6d9bede51d725c6b288ff9330
 size 372832803

 version https://git-lfs.github.com/spec/v1
+oid sha256:f40a8a210779702f96c649bc9dbed9a90c12a3b8bab107ef98032748d83bd704
 size 372832803

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5885efec8b7366a4aa17af5e032d3298449da4e1fd163c7c8437f60c984450c3
 size 15523

 version https://git-lfs.github.com/spec/v1
+oid sha256:307891890a6886a0f2866d18bee92a472e09068da5f61f3406e9a78c6d34b755
 size 15523

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ac4294ae0275bdf2fd072eb3d13fea356c3c27e1570dc0dcf8759f2decf14230
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:8c02242982b7083ab1d96e3b6483fb121704f1319dc8785b58239e35376918c1
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.4,
-  "global_step": 25600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1578,11 +1578,404 @@
       "eval_samples_per_second": 47.571,
       "eval_steps_per_second": 2.973,
       "step": 25600
     }
   ],
   "max_steps": 64000,
   "num_train_epochs": 9223372036854775807,
-  "total_flos": 1.353967057502208e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.5,
+  "global_step": 32000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 47.571,
       "eval_steps_per_second": 2.973,
       "step": 25600
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.001,
+      "loss": 8.0132,
+      "step": 25700
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.001,
+      "loss": 8.0267,
+      "step": 25800
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.001,
+      "loss": 8.0349,
+      "step": 25900
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.001,
+      "loss": 8.0377,
+      "step": 26000
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.001,
+      "loss": 8.0409,
+      "step": 26100
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.001,
+      "loss": 8.0425,
+      "step": 26200
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.001,
+      "loss": 8.0298,
+      "step": 26300
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.001,
+      "loss": 8.0544,
+      "step": 26400
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.001,
+      "loss": 8.0618,
+      "step": 26500
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.001,
+      "loss": 8.0472,
+      "step": 26600
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.001,
+      "loss": 8.0336,
+      "step": 26700
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.001,
+      "loss": 8.0259,
+      "step": 26800
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.001,
+      "loss": 8.0586,
+      "step": 26900
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.001,
+      "loss": 8.0368,
+      "step": 27000
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.001,
+      "loss": 8.0449,
+      "step": 27100
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.001,
+      "loss": 8.0363,
+      "step": 27200
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.001,
+      "loss": 8.0408,
+      "step": 27300
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.001,
+      "loss": 8.0384,
+      "step": 27400
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.001,
+      "loss": 8.0441,
+      "step": 27500
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.001,
+      "loss": 8.0367,
+      "step": 27600
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.001,
+      "loss": 8.007,
+      "step": 27700
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.001,
+      "loss": 8.0189,
+      "step": 27800
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.001,
+      "loss": 8.0445,
+      "step": 27900
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.001,
+      "loss": 8.0319,
+      "step": 28000
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.001,
+      "loss": 8.0251,
+      "step": 28100
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.001,
+      "loss": 8.0329,
+      "step": 28200
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.001,
+      "loss": 8.0335,
+      "step": 28300
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.001,
+      "loss": 8.0351,
+      "step": 28400
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.001,
+      "loss": 8.0346,
+      "step": 28500
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.001,
+      "loss": 8.0238,
+      "step": 28600
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.001,
+      "loss": 8.0372,
+      "step": 28700
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.001,
+      "loss": 8.0329,
+      "step": 28800
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.001,
+      "loss": 8.0469,
+      "step": 28900
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.001,
+      "loss": 8.0512,
+      "step": 29000
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.001,
+      "loss": 8.0712,
+      "step": 29100
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.001,
+      "loss": 8.0281,
+      "step": 29200
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.001,
+      "loss": 8.0215,
+      "step": 29300
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.001,
+      "loss": 8.0279,
+      "step": 29400
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.001,
+      "loss": 8.0259,
+      "step": 29500
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.001,
+      "loss": 8.0386,
+      "step": 29600
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.001,
+      "loss": 8.0274,
+      "step": 29700
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.001,
+      "loss": 8.0392,
+      "step": 29800
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.001,
+      "loss": 8.0247,
+      "step": 29900
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.001,
+      "loss": 8.0488,
+      "step": 30000
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.001,
+      "loss": 8.0593,
+      "step": 30100
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.001,
+      "loss": 8.0317,
+      "step": 30200
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.001,
+      "loss": 8.0359,
+      "step": 30300
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.001,
+      "loss": 8.0255,
+      "step": 30400
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.001,
+      "loss": 8.0325,
+      "step": 30500
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.001,
+      "loss": 8.0467,
+      "step": 30600
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.001,
+      "loss": 8.0361,
+      "step": 30700
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.001,
+      "loss": 8.033,
+      "step": 30800
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.001,
+      "loss": 8.033,
+      "step": 30900
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.001,
+      "loss": 8.0386,
+      "step": 31000
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.001,
+      "loss": 8.0326,
+      "step": 31100
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.001,
+      "loss": 8.0219,
+      "step": 31200
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.001,
+      "loss": 8.0468,
+      "step": 31300
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.001,
+      "loss": 8.0328,
+      "step": 31400
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.001,
+      "loss": 8.0347,
+      "step": 31500
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.001,
+      "loss": 8.0341,
+      "step": 31600
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.001,
+      "loss": 8.06,
+      "step": 31700
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.001,
+      "loss": 8.0331,
+      "step": 31800
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.001,
+      "loss": 8.052,
+      "step": 31900
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.001,
+      "loss": 8.0273,
+      "step": 32000
+    },
+    {
+      "epoch": 0.5,
+      "eval_accuracy": 0.033282358556154815,
+      "eval_loss": 8.0352144241333,
+      "eval_runtime": 8285.0113,
+      "eval_samples_per_second": 39.572,
+      "eval_steps_per_second": 2.473,
+      "step": 32000
     }
   ],
   "max_steps": 64000,
   "num_train_epochs": 9223372036854775807,
+  "total_flos": 1.69245882187776e+17,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:85efd468f59e090bda67c9e694bf55407f51a1a6d9bede51d725c6b288ff9330
 size 372832803

 version https://git-lfs.github.com/spec/v1
+oid sha256:f40a8a210779702f96c649bc9dbed9a90c12a3b8bab107ef98032748d83bd704
 size 372832803