sbaner24
/

vit-base-patch16-224-Trial008-YEL_STEM2

@@ -1,12 +1,12 @@
 {
-    "epoch": 40.0,
     "eval_accuracy": 1.0,
-    "eval_loss": 0.06565026193857193,
-    "eval_runtime": 0.226,
-    "eval_samples_per_second": 119.477,
-    "eval_steps_per_second": 4.425,
-    "train_loss": 0.33988649606704713,
-    "train_runtime": 421.7269,
-    "train_samples_per_second": 28.573,
-    "train_steps_per_second": 0.119
 }

 {
+    "epoch": 33.33,
     "eval_accuracy": 1.0,
+    "eval_loss": 0.10236643999814987,
+    "eval_runtime": 0.1221,
+    "eval_samples_per_second": 139.257,
+    "eval_steps_per_second": 8.192,
+    "train_loss": 0.26825646698474886,
+    "train_runtime": 260.0145,
+    "train_samples_per_second": 29.037,
+    "train_steps_per_second": 0.192
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 40.0,
     "eval_accuracy": 1.0,
-    "eval_loss": 0.06565026193857193,
-    "eval_runtime": 0.226,
-    "eval_samples_per_second": 119.477,
-    "eval_steps_per_second": 4.425
 }

 {
+    "epoch": 33.33,
     "eval_accuracy": 1.0,
+    "eval_loss": 0.10236643999814987,
+    "eval_runtime": 0.1221,
+    "eval_samples_per_second": 139.257,
+    "eval_steps_per_second": 8.192
 }

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-    "epoch": 40.0,
-    "train_loss": 0.33988649606704713,
-    "train_runtime": 421.7269,
-    "train_samples_per_second": 28.573,
-    "train_steps_per_second": 0.119
 }

 {
+    "epoch": 33.33,
+    "train_loss": 0.26825646698474886,
+    "train_runtime": 260.0145,
+    "train_samples_per_second": 29.037,
+    "train_steps_per_second": 0.192
 }

trainer_state.json CHANGED Viewed

@@ -1,685 +1,631 @@
 {
   "best_metric": 1.0,
-  "best_model_checkpoint": "vit-base-patch16-224-Trial008-YEL_STEM2/checkpoint-25",
-  "epoch": 40.0,
   "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.8,
       "learning_rate": 1e-05,
-      "loss": 0.711,
       "step": 1
     },
     {
-      "epoch": 0.8,
-      "eval_accuracy": 0.6296296296296297,
-      "eval_loss": 0.6244667172431946,
-      "eval_runtime": 0.1884,
-      "eval_samples_per_second": 143.327,
-      "eval_steps_per_second": 5.308,
       "step": 1
     },
     {
-      "epoch": 1.6,
       "learning_rate": 2e-05,
-      "loss": 0.6994,
       "step": 2
     },
     {
-      "epoch": 1.6,
-      "eval_accuracy": 0.7777777777777778,
-      "eval_loss": 0.5949051976203918,
-      "eval_runtime": 0.1691,
-      "eval_samples_per_second": 159.667,
-      "eval_steps_per_second": 5.914,
-      "step": 2
-    },
-    {
-      "epoch": 2.4,
       "learning_rate": 3e-05,
-      "loss": 0.7097,
       "step": 3
     },
     {
-      "epoch": 2.4,
-      "eval_accuracy": 0.7777777777777778,
-      "eval_loss": 0.5389389395713806,
-      "eval_runtime": 0.1697,
-      "eval_samples_per_second": 159.129,
-      "eval_steps_per_second": 5.894,
       "step": 3
     },
     {
-      "epoch": 3.2,
       "learning_rate": 4e-05,
-      "loss": 0.6501,
       "step": 4
     },
     {
-      "epoch": 4.0,
-      "learning_rate": 5e-05,
-      "loss": 0.5437,
-      "step": 5
     },
     {
-      "epoch": 4.0,
-      "eval_accuracy": 0.7407407407407407,
-      "eval_loss": 0.48060357570648193,
-      "eval_runtime": 0.1681,
-      "eval_samples_per_second": 160.574,
-      "eval_steps_per_second": 5.947,
       "step": 5
     },
     {
-      "epoch": 4.8,
       "learning_rate": 4.888888888888889e-05,
-      "loss": 0.562,
       "step": 6
     },
     {
-      "epoch": 4.8,
-      "eval_accuracy": 0.8518518518518519,
-      "eval_loss": 0.3975556194782257,
-      "eval_runtime": 0.2988,
-      "eval_samples_per_second": 90.348,
-      "eval_steps_per_second": 3.346,
       "step": 6
     },
     {
-      "epoch": 5.6,
       "learning_rate": 4.7777777777777784e-05,
-      "loss": 0.431,
       "step": 7
     },
     {
-      "epoch": 5.6,
-      "eval_accuracy": 0.9259259259259259,
-      "eval_loss": 0.3175361752510071,
-      "eval_runtime": 0.1659,
-      "eval_samples_per_second": 162.763,
-      "eval_steps_per_second": 6.028,
       "step": 7
     },
     {
-      "epoch": 6.4,
       "learning_rate": 4.666666666666667e-05,
-      "loss": 0.4314,
       "step": 8
     },
     {
-      "epoch": 6.4,
-      "eval_accuracy": 0.9259259259259259,
-      "eval_loss": 0.2999328076839447,
-      "eval_runtime": 0.167,
-      "eval_samples_per_second": 161.655,
-      "eval_steps_per_second": 5.987,
-      "step": 8
     },
     {
-      "epoch": 7.2,
-      "learning_rate": 4.555555555555556e-05,
-      "loss": 0.3984,
       "step": 9
     },
     {
-      "epoch": 8.0,
       "learning_rate": 4.4444444444444447e-05,
-      "loss": 0.5044,
       "step": 10
     },
     {
-      "epoch": 8.0,
-      "eval_accuracy": 0.7777777777777778,
-      "eval_loss": 0.42318493127822876,
-      "eval_runtime": 0.1707,
-      "eval_samples_per_second": 158.131,
-      "eval_steps_per_second": 5.857,
       "step": 10
     },
     {
-      "epoch": 8.8,
       "learning_rate": 4.3333333333333334e-05,
-      "loss": 0.4276,
-      "step": 11
-    },
-    {
-      "epoch": 8.8,
-      "eval_accuracy": 0.7777777777777778,
-      "eval_loss": 0.37759944796562195,
-      "eval_runtime": 0.1672,
-      "eval_samples_per_second": 161.516,
-      "eval_steps_per_second": 5.982,
       "step": 11
     },
     {
-      "epoch": 9.6,
       "learning_rate": 4.222222222222222e-05,
-      "loss": 0.7983,
       "step": 12
     },
     {
-      "epoch": 9.6,
-      "eval_accuracy": 0.8148148148148148,
-      "eval_loss": 0.3195733428001404,
-      "eval_runtime": 0.1664,
-      "eval_samples_per_second": 162.293,
-      "eval_steps_per_second": 6.011,
       "step": 12
     },
     {
-      "epoch": 10.4,
       "learning_rate": 4.111111111111111e-05,
-      "loss": 0.6141,
       "step": 13
     },
     {
-      "epoch": 10.4,
-      "eval_accuracy": 0.8888888888888888,
-      "eval_loss": 0.2574685513973236,
-      "eval_runtime": 0.1759,
-      "eval_samples_per_second": 153.499,
-      "eval_steps_per_second": 5.685,
       "step": 13
     },
     {
-      "epoch": 11.2,
       "learning_rate": 4e-05,
-      "loss": 0.3103,
       "step": 14
     },
     {
-      "epoch": 12.0,
       "learning_rate": 3.888888888888889e-05,
-      "loss": 0.3859,
       "step": 15
     },
     {
-      "epoch": 12.0,
-      "eval_accuracy": 0.8148148148148148,
-      "eval_loss": 0.3282352089881897,
-      "eval_runtime": 0.1708,
-      "eval_samples_per_second": 158.12,
-      "eval_steps_per_second": 5.856,
       "step": 15
     },
     {
-      "epoch": 12.8,
       "learning_rate": 3.777777777777778e-05,
-      "loss": 0.36,
       "step": 16
     },
     {
-      "epoch": 12.8,
-      "eval_accuracy": 0.8148148148148148,
-      "eval_loss": 0.32574817538261414,
-      "eval_runtime": 0.1663,
-      "eval_samples_per_second": 162.347,
-      "eval_steps_per_second": 6.013,
       "step": 16
     },
     {
-      "epoch": 13.6,
       "learning_rate": 3.6666666666666666e-05,
-      "loss": 0.2369,
       "step": 17
     },
     {
-      "epoch": 13.6,
-      "eval_accuracy": 0.8888888888888888,
-      "eval_loss": 0.20562799274921417,
-      "eval_runtime": 0.1749,
-      "eval_samples_per_second": 154.356,
-      "eval_steps_per_second": 5.717,
-      "step": 17
-    },
-    {
-      "epoch": 14.4,
       "learning_rate": 3.555555555555556e-05,
-      "loss": 0.2539,
       "step": 18
     },
     {
-      "epoch": 14.4,
-      "eval_accuracy": 0.9629629629629629,
-      "eval_loss": 0.13304640352725983,
-      "eval_runtime": 0.1693,
-      "eval_samples_per_second": 159.465,
-      "eval_steps_per_second": 5.906,
       "step": 18
     },
     {
-      "epoch": 15.2,
       "learning_rate": 3.444444444444445e-05,
-      "loss": 0.2318,
       "step": 19
     },
     {
-      "epoch": 16.0,
-      "learning_rate": 3.3333333333333335e-05,
-      "loss": 0.2351,
-      "step": 20
     },
     {
-      "epoch": 16.0,
-      "eval_accuracy": 0.9259259259259259,
-      "eval_loss": 0.1432814747095108,
-      "eval_runtime": 0.174,
-      "eval_samples_per_second": 155.172,
-      "eval_steps_per_second": 5.747,
       "step": 20
     },
     {
-      "epoch": 16.8,
       "learning_rate": 3.222222222222223e-05,
-      "loss": 0.2446,
       "step": 21
     },
     {
-      "epoch": 16.8,
-      "eval_accuracy": 0.8888888888888888,
-      "eval_loss": 0.17627812922000885,
-      "eval_runtime": 0.1795,
-      "eval_samples_per_second": 150.378,
-      "eval_steps_per_second": 5.57,
       "step": 21
     },
     {
-      "epoch": 17.6,
       "learning_rate": 3.111111111111111e-05,
-      "loss": 0.2202,
       "step": 22
     },
     {
-      "epoch": 17.6,
-      "eval_accuracy": 0.8888888888888888,
-      "eval_loss": 0.17611810564994812,
-      "eval_runtime": 0.1748,
-      "eval_samples_per_second": 154.478,
-      "eval_steps_per_second": 5.721,
       "step": 22
     },
     {
-      "epoch": 18.4,
       "learning_rate": 3e-05,
-      "loss": 0.2028,
       "step": 23
     },
     {
-      "epoch": 18.4,
-      "eval_accuracy": 0.9629629629629629,
-      "eval_loss": 0.12490027397871017,
-      "eval_runtime": 0.1747,
-      "eval_samples_per_second": 154.56,
-      "eval_steps_per_second": 5.724,
-      "step": 23
     },
     {
-      "epoch": 19.2,
-      "learning_rate": 2.8888888888888888e-05,
-      "loss": 0.2794,
       "step": 24
     },
     {
-      "epoch": 20.0,
       "learning_rate": 2.777777777777778e-05,
-      "loss": 0.1888,
       "step": 25
     },
     {
-      "epoch": 20.0,
       "eval_accuracy": 1.0,
-      "eval_loss": 0.06565026193857193,
-      "eval_runtime": 0.1681,
-      "eval_samples_per_second": 160.654,
-      "eval_steps_per_second": 5.95,
       "step": 25
     },
     {
-      "epoch": 20.8,
       "learning_rate": 2.6666666666666667e-05,
-      "loss": 0.2796,
       "step": 26
     },
     {
-      "epoch": 20.8,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.05862481892108917,
-      "eval_runtime": 0.1702,
-      "eval_samples_per_second": 158.644,
-      "eval_steps_per_second": 5.876,
-      "step": 26
-    },
-    {
-      "epoch": 21.6,
       "learning_rate": 2.5555555555555554e-05,
-      "loss": 0.1939,
       "step": 27
     },
     {
-      "epoch": 21.6,
       "eval_accuracy": 1.0,
-      "eval_loss": 0.04629632458090782,
-      "eval_runtime": 0.1688,
-      "eval_samples_per_second": 159.947,
-      "eval_steps_per_second": 5.924,
       "step": 27
     },
     {
-      "epoch": 22.4,
       "learning_rate": 2.4444444444444445e-05,
-      "loss": 0.1829,
       "step": 28
     },
     {
-      "epoch": 22.4,
-      "eval_accuracy": 0.9629629629629629,
-      "eval_loss": 0.05591176077723503,
-      "eval_runtime": 0.1979,
-      "eval_samples_per_second": 136.426,
-      "eval_steps_per_second": 5.053,
       "step": 28
     },
     {
-      "epoch": 23.2,
       "learning_rate": 2.3333333333333336e-05,
-      "loss": 0.6172,
       "step": 29
     },
     {
-      "epoch": 24.0,
       "learning_rate": 2.2222222222222223e-05,
-      "loss": 0.2094,
       "step": 30
     },
     {
-      "epoch": 24.0,
-      "eval_accuracy": 0.9259259259259259,
-      "eval_loss": 0.1417052000761032,
-      "eval_runtime": 0.1738,
-      "eval_samples_per_second": 155.368,
-      "eval_steps_per_second": 5.754,
       "step": 30
     },
     {
-      "epoch": 24.8,
       "learning_rate": 2.111111111111111e-05,
-      "loss": 0.2454,
       "step": 31
     },
     {
-      "epoch": 24.8,
-      "eval_accuracy": 0.9259259259259259,
-      "eval_loss": 0.14769193530082703,
-      "eval_runtime": 0.1664,
-      "eval_samples_per_second": 162.215,
-      "eval_steps_per_second": 6.008,
       "step": 31
     },
     {
-      "epoch": 25.6,
       "learning_rate": 2e-05,
-      "loss": 0.4863,
       "step": 32
     },
     {
-      "epoch": 25.6,
-      "eval_accuracy": 0.9259259259259259,
-      "eval_loss": 0.13248541951179504,
-      "eval_runtime": 0.1763,
-      "eval_samples_per_second": 153.175,
-      "eval_steps_per_second": 5.673,
-      "step": 32
-    },
-    {
-      "epoch": 26.4,
       "learning_rate": 1.888888888888889e-05,
-      "loss": 0.398,
       "step": 33
     },
     {
-      "epoch": 26.4,
-      "eval_accuracy": 0.9259259259259259,
-      "eval_loss": 0.09621105343103409,
-      "eval_runtime": 0.1741,
-      "eval_samples_per_second": 155.06,
-      "eval_steps_per_second": 5.743,
       "step": 33
     },
     {
-      "epoch": 27.2,
       "learning_rate": 1.777777777777778e-05,
-      "loss": 0.2793,
       "step": 34
     },
     {
-      "epoch": 28.0,
-      "learning_rate": 1.6666666666666667e-05,
-      "loss": 0.1589,
-      "step": 35
     },
     {
-      "epoch": 28.0,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.05301348865032196,
-      "eval_runtime": 0.1697,
-      "eval_samples_per_second": 159.125,
-      "eval_steps_per_second": 5.894,
       "step": 35
     },
     {
-      "epoch": 28.8,
       "learning_rate": 1.5555555555555555e-05,
-      "loss": 0.1964,
       "step": 36
     },
     {
-      "epoch": 28.8,
       "eval_accuracy": 1.0,
-      "eval_loss": 0.04289659485220909,
-      "eval_runtime": 0.167,
-      "eval_samples_per_second": 161.679,
-      "eval_steps_per_second": 5.988,
       "step": 36
     },
     {
-      "epoch": 29.6,
       "learning_rate": 1.4444444444444444e-05,
-      "loss": 0.1684,
       "step": 37
     },
     {
-      "epoch": 29.6,
       "eval_accuracy": 1.0,
-      "eval_loss": 0.03966989740729332,
-      "eval_runtime": 0.1681,
-      "eval_samples_per_second": 160.571,
-      "eval_steps_per_second": 5.947,
       "step": 37
     },
     {
-      "epoch": 30.4,
       "learning_rate": 1.3333333333333333e-05,
-      "loss": 0.1793,
       "step": 38
     },
     {
-      "epoch": 30.4,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.036163847893476486,
-      "eval_runtime": 0.1711,
-      "eval_samples_per_second": 157.765,
-      "eval_steps_per_second": 5.843,
-      "step": 38
     },
     {
-      "epoch": 31.2,
-      "learning_rate": 1.2222222222222222e-05,
-      "loss": 0.2068,
       "step": 39
     },
     {
-      "epoch": 32.0,
       "learning_rate": 1.1111111111111112e-05,
-      "loss": 0.1572,
       "step": 40
     },
     {
-      "epoch": 32.0,
       "eval_accuracy": 1.0,
-      "eval_loss": 0.03249576315283775,
-      "eval_runtime": 0.1743,
-      "eval_samples_per_second": 154.882,
-      "eval_steps_per_second": 5.736,
       "step": 40
     },
     {
-      "epoch": 32.8,
       "learning_rate": 1e-05,
-      "loss": 0.2235,
-      "step": 41
-    },
-    {
-      "epoch": 32.8,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.030854476615786552,
-      "eval_runtime": 0.1698,
-      "eval_samples_per_second": 158.993,
-      "eval_steps_per_second": 5.889,
       "step": 41
     },
     {
-      "epoch": 33.6,
       "learning_rate": 8.88888888888889e-06,
-      "loss": 0.203,
       "step": 42
     },
     {
-      "epoch": 33.6,
       "eval_accuracy": 1.0,
-      "eval_loss": 0.028395000845193863,
-      "eval_runtime": 0.1749,
-      "eval_samples_per_second": 154.363,
-      "eval_steps_per_second": 5.717,
       "step": 42
     },
     {
-      "epoch": 34.4,
       "learning_rate": 7.777777777777777e-06,
-      "loss": 0.4193,
       "step": 43
     },
     {
-      "epoch": 34.4,
       "eval_accuracy": 1.0,
-      "eval_loss": 0.02703581191599369,
-      "eval_runtime": 0.167,
-      "eval_samples_per_second": 161.692,
-      "eval_steps_per_second": 5.989,
       "step": 43
     },
     {
-      "epoch": 35.2,
       "learning_rate": 6.666666666666667e-06,
-      "loss": 0.1791,
       "step": 44
     },
     {
-      "epoch": 36.0,
       "learning_rate": 5.555555555555556e-06,
-      "loss": 0.1704,
       "step": 45
     },
     {
-      "epoch": 36.0,
       "eval_accuracy": 1.0,
-      "eval_loss": 0.024205761030316353,
-      "eval_runtime": 0.1736,
-      "eval_samples_per_second": 155.486,
-      "eval_steps_per_second": 5.759,
       "step": 45
     },
     {
-      "epoch": 36.8,
       "learning_rate": 4.444444444444445e-06,
-      "loss": 0.2349,
       "step": 46
     },
     {
-      "epoch": 36.8,
       "eval_accuracy": 1.0,
-      "eval_loss": 0.02339680679142475,
-      "eval_runtime": 0.1662,
-      "eval_samples_per_second": 162.408,
-      "eval_steps_per_second": 6.015,
       "step": 46
     },
     {
-      "epoch": 37.6,
       "learning_rate": 3.3333333333333333e-06,
-      "loss": 0.1324,
-      "step": 47
-    },
-    {
-      "epoch": 37.6,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.02463681250810623,
-      "eval_runtime": 0.1666,
-      "eval_samples_per_second": 162.113,
-      "eval_steps_per_second": 6.004,
       "step": 47
     },
     {
-      "epoch": 38.4,
       "learning_rate": 2.2222222222222225e-06,
-      "loss": 0.3921,
       "step": 48
     },
     {
-      "epoch": 38.4,
       "eval_accuracy": 1.0,
-      "eval_loss": 0.025700703263282776,
-      "eval_runtime": 0.1717,
-      "eval_samples_per_second": 157.29,
-      "eval_steps_per_second": 5.826,
       "step": 48
     },
     {
-      "epoch": 39.2,
       "learning_rate": 1.1111111111111112e-06,
-      "loss": 0.2879,
       "step": 49
     },
     {
-      "epoch": 40.0,
       "learning_rate": 0.0,
-      "loss": 0.1619,
       "step": 50
     },
     {
-      "epoch": 40.0,
       "eval_accuracy": 1.0,
-      "eval_loss": 0.026837240904569626,
-      "eval_runtime": 0.1752,
-      "eval_samples_per_second": 154.138,
-      "eval_steps_per_second": 5.709,
       "step": 50
     },
     {
-      "epoch": 40.0,
       "step": 50,
-      "total_flos": 7.470227798846669e+17,
-      "train_loss": 0.33988649606704713,
-      "train_runtime": 421.7269,
-      "train_samples_per_second": 28.573,
-      "train_steps_per_second": 0.119
     }
   ],
   "max_steps": 50,
   "num_train_epochs": 50,
-  "total_flos": 7.470227798846669e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": 1.0,
+  "best_model_checkpoint": "vit-base-patch16-224-Trial008-YEL_STEM2/checkpoint-10",
+  "epoch": 33.333333333333336,
   "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.67,
       "learning_rate": 1e-05,
+      "loss": 0.7598,
       "step": 1
     },
     {
+      "epoch": 0.67,
+      "eval_accuracy": 0.6470588235294118,
+      "eval_loss": 0.6967736482620239,
+      "eval_runtime": 0.1155,
+      "eval_samples_per_second": 147.167,
+      "eval_steps_per_second": 8.657,
       "step": 1
     },
     {
+      "epoch": 1.33,
       "learning_rate": 2e-05,
+      "loss": 0.7926,
       "step": 2
     },
     {
+      "epoch": 2.0,
       "learning_rate": 3e-05,
+      "loss": 0.7294,
       "step": 3
     },
     {
+      "epoch": 2.0,
+      "eval_accuracy": 0.47058823529411764,
+      "eval_loss": 0.766238808631897,
+      "eval_runtime": 0.1178,
+      "eval_samples_per_second": 144.35,
+      "eval_steps_per_second": 8.491,
       "step": 3
     },
     {
+      "epoch": 2.67,
       "learning_rate": 4e-05,
+      "loss": 0.6662,
       "step": 4
     },
     {
+      "epoch": 2.67,
+      "eval_accuracy": 0.5882352941176471,
+      "eval_loss": 0.7196066379547119,
+      "eval_runtime": 0.1128,
+      "eval_samples_per_second": 150.728,
+      "eval_steps_per_second": 8.866,
+      "step": 4
     },
     {
+      "epoch": 3.33,
+      "learning_rate": 5e-05,
+      "loss": 0.6872,
       "step": 5
     },
     {
+      "epoch": 4.0,
       "learning_rate": 4.888888888888889e-05,
+      "loss": 0.5662,
       "step": 6
     },
     {
+      "epoch": 4.0,
+      "eval_accuracy": 0.8235294117647058,
+      "eval_loss": 0.3941333293914795,
+      "eval_runtime": 0.1124,
+      "eval_samples_per_second": 151.225,
+      "eval_steps_per_second": 8.896,
       "step": 6
     },
     {
+      "epoch": 4.67,
       "learning_rate": 4.7777777777777784e-05,
+      "loss": 0.4781,
       "step": 7
     },
     {
+      "epoch": 4.67,
+      "eval_accuracy": 0.8235294117647058,
+      "eval_loss": 0.3458152413368225,
+      "eval_runtime": 0.1128,
+      "eval_samples_per_second": 150.724,
+      "eval_steps_per_second": 8.866,
       "step": 7
     },
     {
+      "epoch": 5.33,
       "learning_rate": 4.666666666666667e-05,
+      "loss": 0.3621,
       "step": 8
     },
     {
+      "epoch": 6.0,
+      "learning_rate": 4.555555555555556e-05,
+      "loss": 0.3259,
+      "step": 9
     },
     {
+      "epoch": 6.0,
+      "eval_accuracy": 0.9411764705882353,
+      "eval_loss": 0.16989070177078247,
+      "eval_runtime": 0.1116,
+      "eval_samples_per_second": 152.266,
+      "eval_steps_per_second": 8.957,
       "step": 9
     },
     {
+      "epoch": 6.67,
       "learning_rate": 4.4444444444444447e-05,
+      "loss": 0.2903,
       "step": 10
     },
     {
+      "epoch": 6.67,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.10236643999814987,
+      "eval_runtime": 0.112,
+      "eval_samples_per_second": 151.781,
+      "eval_steps_per_second": 8.928,
       "step": 10
     },
     {
+      "epoch": 7.33,
       "learning_rate": 4.3333333333333334e-05,
+      "loss": 0.2539,
       "step": 11
     },
     {
+      "epoch": 8.0,
       "learning_rate": 4.222222222222222e-05,
+      "loss": 0.2206,
       "step": 12
     },
     {
+      "epoch": 8.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.07876813411712646,
+      "eval_runtime": 0.1154,
+      "eval_samples_per_second": 147.279,
+      "eval_steps_per_second": 8.663,
       "step": 12
     },
     {
+      "epoch": 8.67,
       "learning_rate": 4.111111111111111e-05,
+      "loss": 0.3215,
       "step": 13
     },
     {
+      "epoch": 8.67,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.04137047752737999,
+      "eval_runtime": 0.1141,
+      "eval_samples_per_second": 148.944,
+      "eval_steps_per_second": 8.761,
       "step": 13
     },
     {
+      "epoch": 9.33,
       "learning_rate": 4e-05,
+      "loss": 0.1603,
       "step": 14
     },
     {
+      "epoch": 10.0,
       "learning_rate": 3.888888888888889e-05,
+      "loss": 0.1741,
       "step": 15
     },
     {
+      "epoch": 10.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.021776309236884117,
+      "eval_runtime": 0.1108,
+      "eval_samples_per_second": 153.382,
+      "eval_steps_per_second": 9.022,
       "step": 15
     },
     {
+      "epoch": 10.67,
       "learning_rate": 3.777777777777778e-05,
+      "loss": 0.2222,
       "step": 16
     },
     {
+      "epoch": 10.67,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.020698698237538338,
+      "eval_runtime": 0.1126,
+      "eval_samples_per_second": 151.006,
+      "eval_steps_per_second": 8.883,
       "step": 16
     },
     {
+      "epoch": 11.33,
       "learning_rate": 3.6666666666666666e-05,
+      "loss": 0.228,
       "step": 17
     },
     {
+      "epoch": 12.0,
       "learning_rate": 3.555555555555556e-05,
+      "loss": 0.1534,
       "step": 18
     },
     {
+      "epoch": 12.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.012763559818267822,
+      "eval_runtime": 0.1133,
+      "eval_samples_per_second": 150.062,
+      "eval_steps_per_second": 8.827,
       "step": 18
     },
     {
+      "epoch": 12.67,
       "learning_rate": 3.444444444444445e-05,
+      "loss": 0.273,
       "step": 19
     },
     {
+      "epoch": 12.67,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.010324841365218163,
+      "eval_runtime": 0.1154,
+      "eval_samples_per_second": 147.298,
+      "eval_steps_per_second": 8.665,
+      "step": 19
     },
     {
+      "epoch": 13.33,
+      "learning_rate": 3.3333333333333335e-05,
+      "loss": 0.3743,
       "step": 20
     },
     {
+      "epoch": 14.0,
       "learning_rate": 3.222222222222223e-05,
+      "loss": 0.2021,
       "step": 21
     },
     {
+      "epoch": 14.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.007954830303788185,
+      "eval_runtime": 0.1144,
+      "eval_samples_per_second": 148.646,
+      "eval_steps_per_second": 8.744,
       "step": 21
     },
     {
+      "epoch": 14.67,
       "learning_rate": 3.111111111111111e-05,
+      "loss": 0.2193,
       "step": 22
     },
     {
+      "epoch": 14.67,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.009969166480004787,
+      "eval_runtime": 0.113,
+      "eval_samples_per_second": 150.48,
+      "eval_steps_per_second": 8.852,
       "step": 22
     },
     {
+      "epoch": 15.33,
       "learning_rate": 3e-05,
+      "loss": 0.1586,
       "step": 23
     },
     {
+      "epoch": 16.0,
+      "learning_rate": 2.8888888888888888e-05,
+      "loss": 0.2132,
+      "step": 24
     },
     {
+      "epoch": 16.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.02467266283929348,
+      "eval_runtime": 0.114,
+      "eval_samples_per_second": 149.139,
+      "eval_steps_per_second": 8.773,
       "step": 24
     },
     {
+      "epoch": 16.67,
       "learning_rate": 2.777777777777778e-05,
+      "loss": 0.2163,
       "step": 25
     },
     {
+      "epoch": 16.67,
       "eval_accuracy": 1.0,
+      "eval_loss": 0.02664419636130333,
+      "eval_runtime": 0.1146,
+      "eval_samples_per_second": 148.38,
+      "eval_steps_per_second": 8.728,
       "step": 25
     },
     {
+      "epoch": 17.33,
       "learning_rate": 2.6666666666666667e-05,
+      "loss": 0.2017,
       "step": 26
     },
     {
+      "epoch": 18.0,
       "learning_rate": 2.5555555555555554e-05,
+      "loss": 0.1626,
       "step": 27
     },
     {
+      "epoch": 18.0,
       "eval_accuracy": 1.0,
+      "eval_loss": 0.01014714501798153,
+      "eval_runtime": 0.1128,
+      "eval_samples_per_second": 150.755,
+      "eval_steps_per_second": 8.868,
       "step": 27
     },
     {
+      "epoch": 18.67,
       "learning_rate": 2.4444444444444445e-05,
+      "loss": 0.2492,
       "step": 28
     },
     {
+      "epoch": 18.67,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.005902642849832773,
+      "eval_runtime": 0.1149,
+      "eval_samples_per_second": 147.968,
+      "eval_steps_per_second": 8.704,
       "step": 28
     },
     {
+      "epoch": 19.33,
       "learning_rate": 2.3333333333333336e-05,
+      "loss": 0.1315,
       "step": 29
     },
     {
+      "epoch": 20.0,
       "learning_rate": 2.2222222222222223e-05,
+      "loss": 0.1308,
       "step": 30
     },
     {
+      "epoch": 20.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.005620644427835941,
+      "eval_runtime": 0.1147,
+      "eval_samples_per_second": 148.149,
+      "eval_steps_per_second": 8.715,
       "step": 30
     },
     {
+      "epoch": 20.67,
       "learning_rate": 2.111111111111111e-05,
+      "loss": 0.2144,
       "step": 31
     },
     {
+      "epoch": 20.67,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.006035304628312588,
+      "eval_runtime": 0.1154,
+      "eval_samples_per_second": 147.274,
+      "eval_steps_per_second": 8.663,
       "step": 31
     },
     {
+      "epoch": 21.33,
       "learning_rate": 2e-05,
+      "loss": 0.1608,
       "step": 32
     },
     {
+      "epoch": 22.0,
       "learning_rate": 1.888888888888889e-05,
+      "loss": 0.1389,
       "step": 33
     },
     {
+      "epoch": 22.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.004421359859406948,
+      "eval_runtime": 0.1131,
+      "eval_samples_per_second": 150.363,
+      "eval_steps_per_second": 8.845,
       "step": 33
     },
     {
+      "epoch": 22.67,
       "learning_rate": 1.777777777777778e-05,
+      "loss": 0.2548,
       "step": 34
     },
     {
+      "epoch": 22.67,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.004027603659778833,
+      "eval_runtime": 0.113,
+      "eval_samples_per_second": 150.382,
+      "eval_steps_per_second": 8.846,
+      "step": 34
     },
     {
+      "epoch": 23.33,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 0.1916,
       "step": 35
     },
     {
+      "epoch": 24.0,
       "learning_rate": 1.5555555555555555e-05,
+      "loss": 0.1324,
       "step": 36
     },
     {
+      "epoch": 24.0,
       "eval_accuracy": 1.0,
+      "eval_loss": 0.0037342249415814877,
+      "eval_runtime": 0.1133,
+      "eval_samples_per_second": 150.098,
+      "eval_steps_per_second": 8.829,
       "step": 36
     },
     {
+      "epoch": 24.67,
       "learning_rate": 1.4444444444444444e-05,
+      "loss": 0.1958,
       "step": 37
     },
     {
+      "epoch": 24.67,
       "eval_accuracy": 1.0,
+      "eval_loss": 0.0036163795739412308,
+      "eval_runtime": 0.1138,
+      "eval_samples_per_second": 149.366,
+      "eval_steps_per_second": 8.786,
       "step": 37
     },
     {
+      "epoch": 25.33,
       "learning_rate": 1.3333333333333333e-05,
+      "loss": 0.1812,
       "step": 38
     },
     {
+      "epoch": 26.0,
+      "learning_rate": 1.2222222222222222e-05,
+      "loss": 0.2476,
+      "step": 39
     },
     {
+      "epoch": 26.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.0034641919191926718,
+      "eval_runtime": 0.1123,
+      "eval_samples_per_second": 151.377,
+      "eval_steps_per_second": 8.905,
       "step": 39
     },
     {
+      "epoch": 26.67,
       "learning_rate": 1.1111111111111112e-05,
+      "loss": 0.1439,
       "step": 40
     },
     {
+      "epoch": 26.67,
       "eval_accuracy": 1.0,
+      "eval_loss": 0.0033218893222510815,
+      "eval_runtime": 0.116,
+      "eval_samples_per_second": 146.604,
+      "eval_steps_per_second": 8.624,
       "step": 40
     },
     {
+      "epoch": 27.33,
       "learning_rate": 1e-05,
+      "loss": 0.1375,
       "step": 41
     },
     {
+      "epoch": 28.0,
       "learning_rate": 8.88888888888889e-06,
+      "loss": 0.1202,
       "step": 42
     },
     {
+      "epoch": 28.0,
       "eval_accuracy": 1.0,
+      "eval_loss": 0.002967243082821369,
+      "eval_runtime": 0.1135,
+      "eval_samples_per_second": 149.812,
+      "eval_steps_per_second": 8.812,
       "step": 42
     },
     {
+      "epoch": 28.67,
       "learning_rate": 7.777777777777777e-06,
+      "loss": 0.1368,
       "step": 43
     },
     {
+      "epoch": 28.67,
       "eval_accuracy": 1.0,
+      "eval_loss": 0.002836533123627305,
+      "eval_runtime": 0.1133,
+      "eval_samples_per_second": 150.077,
+      "eval_steps_per_second": 8.828,
       "step": 43
     },
     {
+      "epoch": 29.33,
       "learning_rate": 6.666666666666667e-06,
+      "loss": 0.403,
       "step": 44
     },
     {
+      "epoch": 30.0,
       "learning_rate": 5.555555555555556e-06,
+      "loss": 0.1016,
       "step": 45
     },
     {
+      "epoch": 30.0,
       "eval_accuracy": 1.0,
+      "eval_loss": 0.0027249290142208338,
+      "eval_runtime": 0.1143,
+      "eval_samples_per_second": 148.728,
+      "eval_steps_per_second": 8.749,
       "step": 45
     },
     {
+      "epoch": 30.67,
       "learning_rate": 4.444444444444445e-06,
+      "loss": 0.1282,
       "step": 46
     },
     {
+      "epoch": 30.67,
       "eval_accuracy": 1.0,
+      "eval_loss": 0.0026905094273388386,
+      "eval_runtime": 0.1127,
+      "eval_samples_per_second": 150.9,
+      "eval_steps_per_second": 8.876,
       "step": 46
     },
     {
+      "epoch": 31.33,
       "learning_rate": 3.3333333333333333e-06,
+      "loss": 0.0778,
       "step": 47
     },
     {
+      "epoch": 32.0,
       "learning_rate": 2.2222222222222225e-06,
+      "loss": 0.1128,
       "step": 48
     },
     {
+      "epoch": 32.0,
       "eval_accuracy": 1.0,
+      "eval_loss": 0.0026230851653963327,
+      "eval_runtime": 0.1139,
+      "eval_samples_per_second": 149.284,
+      "eval_steps_per_second": 8.781,
       "step": 48
     },
     {
+      "epoch": 32.67,
       "learning_rate": 1.1111111111111112e-06,
+      "loss": 0.2366,
+      "step": 49
+    },
+    {
+      "epoch": 32.67,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.0026192485820502043,
+      "eval_runtime": 0.1122,
+      "eval_samples_per_second": 151.562,
+      "eval_steps_per_second": 8.915,
       "step": 49
     },
     {
+      "epoch": 33.33,
       "learning_rate": 0.0,
+      "loss": 0.1727,
       "step": 50
     },
     {
+      "epoch": 33.33,
       "eval_accuracy": 1.0,
+      "eval_loss": 0.002621703315526247,
+      "eval_runtime": 0.1147,
+      "eval_samples_per_second": 148.149,
+      "eval_steps_per_second": 8.715,
       "step": 50
     },
     {
+      "epoch": 33.33,
       "step": 50,
+      "total_flos": 3.9079210362638746e+17,
+      "train_loss": 0.26825646698474886,
+      "train_runtime": 260.0145,
+      "train_samples_per_second": 29.037,
+      "train_steps_per_second": 0.192
     }
   ],
   "max_steps": 50,
   "num_train_epochs": 50,
+  "total_flos": 3.9079210362638746e+17,
   "trial_name": null,
   "trial_params": null
 }