tuanio
/

w2v2_ablation_focal_ctc_a0.5_g1.0-best_on-ling_head-tp0.025_tl10_fp0.001_fl16

+{
+  "best_metric": 0.08375041708375042,
+  "best_model_checkpoint": "w2v2_ablation_focal_ctc_a0.5_g1.0-best_on-ling_head-tp0.025_tl10_fp0.001_fl16/checkpoint-6400",
+  "epoch": 100.0,
+  "eval_steps": 100,
+  "global_step": 10600,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.94,
+      "learning_rate": 1.3018867924528303e-06,
+      "loss": 891.4405,
+      "step": 100
+    },
+    {
+      "epoch": 0.94,
+      "eval_loss": 581.3978271484375,
+      "eval_runtime": 2.4666,
+      "eval_samples_per_second": 290.689,
+      "eval_steps_per_second": 4.865,
+      "eval_wer": 18.640974307640974,
+      "step": 100
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 3.188679245283019e-06,
+      "loss": 615.8164,
+      "step": 200
+    },
+    {
+      "epoch": 1.89,
+      "eval_loss": 221.5819854736328,
+      "eval_runtime": 2.8135,
+      "eval_samples_per_second": 254.845,
+      "eval_steps_per_second": 4.265,
+      "eval_wer": 17.006506506506508,
+      "step": 200
+    },
+    {
+      "epoch": 2.83,
+      "learning_rate": 5.075471698113208e-06,
+      "loss": 105.0527,
+      "step": 300
+    },
+    {
+      "epoch": 2.83,
+      "eval_loss": 43.92854309082031,
+      "eval_runtime": 2.3487,
+      "eval_samples_per_second": 305.278,
+      "eval_steps_per_second": 5.109,
+      "eval_wer": 1.0,
+      "step": 300
+    },
+    {
+      "epoch": 3.77,
+      "learning_rate": 6.9622641509433965e-06,
+      "loss": 56.2539,
+      "step": 400
+    },
+    {
+      "epoch": 3.77,
+      "eval_loss": 40.22616958618164,
+      "eval_runtime": 2.3996,
+      "eval_samples_per_second": 298.803,
+      "eval_steps_per_second": 5.001,
+      "eval_wer": 1.0,
+      "step": 400
+    },
+    {
+      "epoch": 4.72,
+      "learning_rate": 8.849056603773587e-06,
+      "loss": 51.7117,
+      "step": 500
+    },
+    {
+      "epoch": 4.72,
+      "eval_loss": 38.23342514038086,
+      "eval_runtime": 2.5797,
+      "eval_samples_per_second": 277.941,
+      "eval_steps_per_second": 4.652,
+      "eval_wer": 1.0,
+      "step": 500
+    },
+    {
+      "epoch": 5.66,
+      "learning_rate": 1.0735849056603775e-05,
+      "loss": 49.7296,
+      "step": 600
+    },
+    {
+      "epoch": 5.66,
+      "eval_loss": 37.437381744384766,
+      "eval_runtime": 2.2537,
+      "eval_samples_per_second": 318.14,
+      "eval_steps_per_second": 5.325,
+      "eval_wer": 1.0,
+      "step": 600
+    },
+    {
+      "epoch": 6.6,
+      "learning_rate": 1.2622641509433964e-05,
+      "loss": 49.0593,
+      "step": 700
+    },
+    {
+      "epoch": 6.6,
+      "eval_loss": 36.85405349731445,
+      "eval_runtime": 2.1992,
+      "eval_samples_per_second": 326.031,
+      "eval_steps_per_second": 5.457,
+      "eval_wer": 1.0,
+      "step": 700
+    },
+    {
+      "epoch": 7.55,
+      "learning_rate": 1.4509433962264152e-05,
+      "loss": 48.6631,
+      "step": 800
+    },
+    {
+      "epoch": 7.55,
+      "eval_loss": 36.42982482910156,
+      "eval_runtime": 2.4315,
+      "eval_samples_per_second": 294.884,
+      "eval_steps_per_second": 4.935,
+      "eval_wer": 1.0,
+      "step": 800
+    },
+    {
+      "epoch": 8.49,
+      "learning_rate": 1.6396226415094342e-05,
+      "loss": 47.483,
+      "step": 900
+    },
+    {
+      "epoch": 8.49,
+      "eval_loss": 36.36098861694336,
+      "eval_runtime": 2.1644,
+      "eval_samples_per_second": 331.262,
+      "eval_steps_per_second": 5.544,
+      "eval_wer": 1.0,
+      "step": 900
+    },
+    {
+      "epoch": 9.43,
+      "learning_rate": 1.828301886792453e-05,
+      "loss": 46.5326,
+      "step": 1000
+    },
+    {
+      "epoch": 9.43,
+      "eval_loss": 34.743927001953125,
+      "eval_runtime": 2.6114,
+      "eval_samples_per_second": 274.56,
+      "eval_steps_per_second": 4.595,
+      "eval_wer": 0.9656322989656323,
+      "step": 1000
+    },
+    {
+      "epoch": 10.38,
+      "learning_rate": 1.9999956080468243e-05,
+      "loss": 39.0329,
+      "step": 1100
+    },
+    {
+      "epoch": 10.38,
+      "eval_loss": 19.4442138671875,
+      "eval_runtime": 2.3729,
+      "eval_samples_per_second": 302.165,
+      "eval_steps_per_second": 5.057,
+      "eval_wer": 0.5705705705705706,
+      "step": 1100
+    },
+    {
+      "epoch": 11.32,
+      "learning_rate": 1.9993558613386698e-05,
+      "loss": 22.0857,
+      "step": 1200
+    },
+    {
+      "epoch": 11.32,
+      "eval_loss": 8.493810653686523,
+      "eval_runtime": 2.2444,
+      "eval_samples_per_second": 319.467,
+      "eval_steps_per_second": 5.347,
+      "eval_wer": 0.2355689022355689,
+      "step": 1200
+    },
+    {
+      "epoch": 12.26,
+      "learning_rate": 1.9976324774125003e-05,
+      "loss": 14.0187,
+      "step": 1300
+    },
+    {
+      "epoch": 12.26,
+      "eval_loss": 5.681478500366211,
+      "eval_runtime": 2.3861,
+      "eval_samples_per_second": 300.488,
+      "eval_steps_per_second": 5.029,
+      "eval_wer": 0.17559225892559227,
+      "step": 1300
+    },
+    {
+      "epoch": 13.21,
+      "learning_rate": 1.994827324994998e-05,
+      "loss": 10.601,
+      "step": 1400
+    },
+    {
+      "epoch": 13.21,
+      "eval_loss": 4.49777364730835,
+      "eval_runtime": 2.4005,
+      "eval_samples_per_second": 298.685,
+      "eval_steps_per_second": 4.999,
+      "eval_wer": 0.14781448114781448,
+      "step": 1400
+    },
+    {
+      "epoch": 14.15,
+      "learning_rate": 1.9909876114418242e-05,
+      "loss": 9.0735,
+      "step": 1500
+    },
+    {
+      "epoch": 14.15,
+      "eval_loss": 3.877713203430176,
+      "eval_runtime": 2.2377,
+      "eval_samples_per_second": 320.415,
+      "eval_steps_per_second": 5.363,
+      "eval_wer": 0.13863863863863865,
+      "step": 1500
+    },
+    {
+      "epoch": 15.09,
+      "learning_rate": 1.9860399374007944e-05,
+      "loss": 7.449,
+      "step": 1600
+    },
+    {
+      "epoch": 15.09,
+      "eval_loss": 3.336148500442505,
+      "eval_runtime": 2.3804,
+      "eval_samples_per_second": 301.214,
+      "eval_steps_per_second": 5.041,
+      "eval_wer": 0.1254587921254588,
+      "step": 1600
+    },
+    {
+      "epoch": 16.04,
+      "learning_rate": 1.980023065073195e-05,
+      "loss": 6.8473,
+      "step": 1700
+    },
+    {
+      "epoch": 16.04,
+      "eval_loss": 3.125661849975586,
+      "eval_runtime": 2.5179,
+      "eval_samples_per_second": 284.762,
+      "eval_steps_per_second": 4.766,
+      "eval_wer": 0.1285452118785452,
+      "step": 1700
+    },
+    {
+      "epoch": 16.98,
+      "learning_rate": 1.972943518768377e-05,
+      "loss": 6.3913,
+      "step": 1800
+    },
+    {
+      "epoch": 16.98,
+      "eval_loss": 2.9601635932922363,
+      "eval_runtime": 2.6235,
+      "eval_samples_per_second": 273.295,
+      "eval_steps_per_second": 4.574,
+      "eval_wer": 0.12328995662328995,
+      "step": 1800
+    },
+    {
+      "epoch": 17.92,
+      "learning_rate": 1.964808975090999e-05,
+      "loss": 5.8235,
+      "step": 1900
+    },
+    {
+      "epoch": 17.92,
+      "eval_loss": 2.684321641921997,
+      "eval_runtime": 2.4532,
+      "eval_samples_per_second": 292.273,
+      "eval_steps_per_second": 4.892,
+      "eval_wer": 0.11519853186519853,
+      "step": 1900
+    },
+    {
+      "epoch": 18.87,
+      "learning_rate": 1.955628254617017e-05,
+      "loss": 5.8092,
+      "step": 2000
+    },
+    {
+      "epoch": 18.87,
+      "eval_loss": 2.5890989303588867,
+      "eval_runtime": 2.2989,
+      "eval_samples_per_second": 311.887,
+      "eval_steps_per_second": 5.22,
+      "eval_wer": 0.1091091091091091,
+      "step": 2000
+    },
+    {
+      "epoch": 19.81,
+      "learning_rate": 1.9454113123292133e-05,
+      "loss": 5.5489,
+      "step": 2100
+    },
+    {
+      "epoch": 19.81,
+      "eval_loss": 2.6684679985046387,
+      "eval_runtime": 2.3348,
+      "eval_samples_per_second": 307.093,
+      "eval_steps_per_second": 5.14,
+      "eval_wer": 0.12829496162829496,
+      "step": 2100
+    },
+    {
+      "epoch": 20.75,
+      "learning_rate": 1.9341692268226572e-05,
+      "loss": 5.4259,
+      "step": 2200
+    },
+    {
+      "epoch": 20.75,
+      "eval_loss": 2.6267759799957275,
+      "eval_runtime": 2.3482,
+      "eval_samples_per_second": 305.342,
+      "eval_steps_per_second": 5.11,
+      "eval_wer": 0.1195362028695362,
+      "step": 2200
+    },
+    {
+      "epoch": 21.7,
+      "learning_rate": 1.9220417100652305e-05,
+      "loss": 4.9683,
+      "step": 2300
+    },
+    {
+      "epoch": 21.7,
+      "eval_loss": 2.497040033340454,
+      "eval_runtime": 2.4103,
+      "eval_samples_per_second": 297.471,
+      "eval_steps_per_second": 4.979,
+      "eval_wer": 0.11461461461461461,
+      "step": 2300
+    },
+    {
+      "epoch": 22.64,
+      "learning_rate": 1.9087969343798767e-05,
+      "loss": 4.8524,
+      "step": 2400
+    },
+    {
+      "epoch": 22.64,
+      "eval_loss": 2.4337053298950195,
+      "eval_runtime": 2.2521,
+      "eval_samples_per_second": 318.374,
+      "eval_steps_per_second": 5.328,
+      "eval_wer": 0.11244577911244578,
+      "step": 2400
+    },
+    {
+      "epoch": 23.58,
+      "learning_rate": 1.8945667177522016e-05,
+      "loss": 4.8404,
+      "step": 2500
+    },
+    {
+      "epoch": 23.58,
+      "eval_loss": 2.363196849822998,
+      "eval_runtime": 2.43,
+      "eval_samples_per_second": 295.063,
+      "eval_steps_per_second": 4.938,
+      "eval_wer": 0.10176843510176843,
+      "step": 2500
+    },
+    {
+      "epoch": 24.53,
+      "learning_rate": 1.8793664905138368e-05,
+      "loss": 4.3451,
+      "step": 2600
+    },
+    {
+      "epoch": 24.53,
+      "eval_loss": 2.33536958694458,
+      "eval_runtime": 2.2481,
+      "eval_samples_per_second": 318.93,
+      "eval_steps_per_second": 5.338,
+      "eval_wer": 0.09642976309642977,
+      "step": 2600
+    },
+    {
+      "epoch": 25.47,
+      "learning_rate": 1.8632127348135293e-05,
+      "loss": 4.3297,
+      "step": 2700
+    },
+    {
+      "epoch": 25.47,
+      "eval_loss": 2.2977051734924316,
+      "eval_runtime": 2.4208,
+      "eval_samples_per_second": 296.188,
+      "eval_steps_per_second": 4.957,
+      "eval_wer": 0.10168501835168502,
+      "step": 2700
+    },
+    {
+      "epoch": 26.42,
+      "learning_rate": 1.8461229667449597e-05,
+      "loss": 4.0442,
+      "step": 2800
+    },
+    {
+      "epoch": 26.42,
+      "eval_loss": 2.311631441116333,
+      "eval_runtime": 2.3307,
+      "eval_samples_per_second": 307.639,
+      "eval_steps_per_second": 5.149,
+      "eval_wer": 0.1115281948615282,
+      "step": 2800
+    },
+    {
+      "epoch": 27.36,
+      "learning_rate": 1.828115717353417e-05,
+      "loss": 3.7571,
+      "step": 2900
+    },
+    {
+      "epoch": 27.36,
+      "eval_loss": 2.263737201690674,
+      "eval_runtime": 2.2055,
+      "eval_samples_per_second": 325.094,
+      "eval_steps_per_second": 5.441,
+      "eval_wer": 0.10777444110777444,
+      "step": 2900
+    },
+    {
+      "epoch": 28.3,
+      "learning_rate": 1.809210512541925e-05,
+      "loss": 3.7335,
+      "step": 3000
+    },
+    {
+      "epoch": 28.3,
+      "eval_loss": 2.206997871398926,
+      "eval_runtime": 2.6398,
+      "eval_samples_per_second": 271.608,
+      "eval_steps_per_second": 4.546,
+      "eval_wer": 0.1031031031031031,
+      "step": 3000
+    },
+    {
+      "epoch": 29.25,
+      "learning_rate": 1.7894278518986088e-05,
+      "loss": 3.736,
+      "step": 3100
+    },
+    {
+      "epoch": 29.25,
+      "eval_loss": 2.263699769973755,
+      "eval_runtime": 2.4638,
+      "eval_samples_per_second": 291.012,
+      "eval_steps_per_second": 4.87,
+      "eval_wer": 0.09918251584918251,
+      "step": 3100
+    },
+    {
+      "epoch": 30.19,
+      "learning_rate": 1.7687891864682602e-05,
+      "loss": 3.7796,
+      "step": 3200
+    },
+    {
+      "epoch": 30.19,
+      "eval_loss": 2.23644757270813,
+      "eval_runtime": 2.3195,
+      "eval_samples_per_second": 309.113,
+      "eval_steps_per_second": 5.173,
+      "eval_wer": 0.10118451785118451,
+      "step": 3200
+    },
+    {
+      "epoch": 31.13,
+      "learning_rate": 1.7473168954922044e-05,
+      "loss": 3.7623,
+      "step": 3300
+    },
+    {
+      "epoch": 31.13,
+      "eval_loss": 2.182694911956787,
+      "eval_runtime": 2.1769,
+      "eval_samples_per_second": 329.366,
+      "eval_steps_per_second": 5.512,
+      "eval_wer": 0.09834834834834835,
+      "step": 3300
+    },
+    {
+      "epoch": 32.08,
+      "learning_rate": 1.7250342621416897e-05,
+      "loss": 3.2842,
+      "step": 3400
+    },
+    {
+      "epoch": 32.08,
+      "eval_loss": 2.132214307785034,
+      "eval_runtime": 2.3628,
+      "eval_samples_per_second": 303.453,
+      "eval_steps_per_second": 5.079,
+      "eval_wer": 0.10727394060727394,
+      "step": 3400
+    },
+    {
+      "epoch": 33.02,
+      "learning_rate": 1.7019654482711144e-05,
+      "loss": 3.4898,
+      "step": 3500
+    },
+    {
+      "epoch": 33.02,
+      "eval_loss": 2.0691559314727783,
+      "eval_runtime": 2.5272,
+      "eval_samples_per_second": 283.709,
+      "eval_steps_per_second": 4.748,
+      "eval_wer": 0.09993326659993326,
+      "step": 3500
+    },
+    {
+      "epoch": 33.96,
+      "learning_rate": 1.678377451617494e-05,
+      "loss": 3.453,
+      "step": 3600
+    },
+    {
+      "epoch": 33.96,
+      "eval_loss": 2.0662124156951904,
+      "eval_runtime": 2.5105,
+      "eval_samples_per_second": 285.598,
+      "eval_steps_per_second": 4.78,
+      "eval_wer": 0.09584584584584585,
+      "step": 3600
+    },
+    {
+      "epoch": 34.91,
+      "learning_rate": 1.6538193677970204e-05,
+      "loss": 3.1855,
+      "step": 3700
+    },
+    {
+      "epoch": 34.91,
+      "eval_loss": 2.100027322769165,
+      "eval_runtime": 2.4038,
+      "eval_samples_per_second": 298.274,
+      "eval_steps_per_second": 4.992,
+      "eval_wer": 0.09075742409075742,
+      "step": 3700
+    },
+    {
+      "epoch": 35.85,
+      "learning_rate": 1.628552324307411e-05,
+      "loss": 3.1468,
+      "step": 3800
+    },
+    {
+      "epoch": 35.85,
+      "eval_loss": 2.0886690616607666,
+      "eval_runtime": 2.3819,
+      "eval_samples_per_second": 301.015,
+      "eval_steps_per_second": 5.038,
+      "eval_wer": 0.09484484484484484,
+      "step": 3800
+    },
+    {
+      "epoch": 36.79,
+      "learning_rate": 1.6026037191054634e-05,
+      "loss": 2.9984,
+      "step": 3900
+    },
+    {
+      "epoch": 36.79,
+      "eval_loss": 2.0588743686676025,
+      "eval_runtime": 2.3543,
+      "eval_samples_per_second": 304.553,
+      "eval_steps_per_second": 5.097,
+      "eval_wer": 0.0960960960960961,
+      "step": 3900
+    },
+    {
+      "epoch": 37.74,
+      "learning_rate": 1.5760016891896585e-05,
+      "loss": 3.215,
+      "step": 4000
+    },
+    {
+      "epoch": 37.74,
+      "eval_loss": 2.043550729751587,
+      "eval_runtime": 2.4146,
+      "eval_samples_per_second": 296.942,
+      "eval_steps_per_second": 4.97,
+      "eval_wer": 0.09576242909576244,
+      "step": 4000
+    },
+    {
+      "epoch": 38.68,
+      "learning_rate": 1.5487750800902094e-05,
+      "loss": 3.2076,
+      "step": 4100
+    },
+    {
+      "epoch": 38.68,
+      "eval_loss": 2.0968637466430664,
+      "eval_runtime": 2.4694,
+      "eval_samples_per_second": 290.354,
+      "eval_steps_per_second": 4.859,
+      "eval_wer": 0.09776443109776443,
+      "step": 4100
+    },
+    {
+      "epoch": 39.62,
+      "learning_rate": 1.5209534145908222e-05,
+      "loss": 2.8793,
+      "step": 4200
+    },
+    {
+      "epoch": 39.62,
+      "eval_loss": 2.041957378387451,
+      "eval_runtime": 2.3102,
+      "eval_samples_per_second": 310.365,
+      "eval_steps_per_second": 5.194,
+      "eval_wer": 0.09392726059392727,
+      "step": 4200
+    },
+    {
+      "epoch": 40.57,
+      "learning_rate": 1.4925668607160909e-05,
+      "loss": 2.9688,
+      "step": 4300
+    },
+    {
+      "epoch": 40.57,
+      "eval_loss": 2.071272850036621,
+      "eval_runtime": 2.4519,
+      "eval_samples_per_second": 292.431,
+      "eval_steps_per_second": 4.894,
+      "eval_wer": 0.09000667334000667,
+      "step": 4300
+    },
+    {
+      "epoch": 41.51,
+      "learning_rate": 1.4636461990192293e-05,
+      "loss": 2.9882,
+      "step": 4400
+    },
+    {
+      "epoch": 41.51,
+      "eval_loss": 2.0372629165649414,
+      "eval_runtime": 2.4242,
+      "eval_samples_per_second": 295.773,
+      "eval_steps_per_second": 4.95,
+      "eval_wer": 0.09401067734401068,
+      "step": 4400
+    },
+    {
+      "epoch": 42.45,
+      "learning_rate": 1.4342227892056201e-05,
+      "loss": 3.12,
+      "step": 4500
+    },
+    {
+      "epoch": 42.45,
+      "eval_loss": 2.051344156265259,
+      "eval_runtime": 2.4019,
+      "eval_samples_per_second": 298.511,
+      "eval_steps_per_second": 4.996,
+      "eval_wer": 0.10076743410076744,
+      "step": 4500
+    },
+    {
+      "epoch": 43.4,
+      "learning_rate": 1.4043285361283684e-05,
+      "loss": 2.7528,
+      "step": 4600
+    },
+    {
+      "epoch": 43.4,
+      "eval_loss": 2.0499579906463623,
+      "eval_runtime": 2.4223,
+      "eval_samples_per_second": 296.003,
+      "eval_steps_per_second": 4.954,
+      "eval_wer": 0.09601267934601268,
+      "step": 4600
+    },
+    {
+      "epoch": 44.34,
+      "learning_rate": 1.3739958551927287e-05,
+      "loss": 2.441,
+      "step": 4700
+    },
+    {
+      "epoch": 44.34,
+      "eval_loss": 2.069186210632324,
+      "eval_runtime": 2.305,
+      "eval_samples_per_second": 311.06,
+      "eval_steps_per_second": 5.206,
+      "eval_wer": 0.09426092759426093,
+      "step": 4700
+    },
+    {
+      "epoch": 45.28,
+      "learning_rate": 1.3432576372069266e-05,
+      "loss": 2.6396,
+      "step": 4800
+    },
+    {
+      "epoch": 45.28,
+      "eval_loss": 2.0387191772460938,
+      "eval_runtime": 2.2918,
+      "eval_samples_per_second": 312.858,
+      "eval_steps_per_second": 5.236,
+      "eval_wer": 0.09042375709042376,
+      "step": 4800
+    },
+    {
+      "epoch": 46.23,
+      "learning_rate": 1.3121472127174802e-05,
+      "loss": 2.5982,
+      "step": 4900
+    },
+    {
+      "epoch": 46.23,
+      "eval_loss": 2.097353458404541,
+      "eval_runtime": 2.1561,
+      "eval_samples_per_second": 332.538,
+      "eval_steps_per_second": 5.565,
+      "eval_wer": 0.09751418084751418,
+      "step": 4900
+    },
+    {
+      "epoch": 47.17,
+      "learning_rate": 1.2810143685892372e-05,
+      "loss": 2.574,
+      "step": 5000
+    },
+    {
+      "epoch": 47.17,
+      "eval_loss": 2.0483639240264893,
+      "eval_runtime": 2.242,
+      "eval_samples_per_second": 319.807,
+      "eval_steps_per_second": 5.352,
+      "eval_wer": 0.09334334334334335,
+      "step": 5000
+    },
+    {
+      "epoch": 48.11,
+      "learning_rate": 1.2492639743368096e-05,
+      "loss": 2.3482,
+      "step": 5100
+    },
+    {
+      "epoch": 48.11,
+      "eval_loss": 2.0369696617126465,
+      "eval_runtime": 2.3696,
+      "eval_samples_per_second": 302.588,
+      "eval_steps_per_second": 5.064,
+      "eval_wer": 0.0980980980980981,
+      "step": 5100
+    },
+    {
+      "epoch": 49.06,
+      "learning_rate": 1.2172432942631333e-05,
+      "loss": 2.4587,
+      "step": 5200
+    },
+    {
+      "epoch": 49.06,
+      "eval_loss": 2.04119873046875,
+      "eval_runtime": 2.4596,
+      "eval_samples_per_second": 291.51,
+      "eval_steps_per_second": 4.879,
+      "eval_wer": 0.10318651985318653,
+      "step": 5200
+    },
+    {
+      "epoch": 50.0,
+      "learning_rate": 1.1849870495341276e-05,
+      "loss": 2.3123,
+      "step": 5300
+    },
+    {
+      "epoch": 50.0,
+      "eval_loss": 2.024881362915039,
+      "eval_runtime": 2.5348,
+      "eval_samples_per_second": 282.863,
+      "eval_steps_per_second": 4.734,
+      "eval_wer": 0.10201868535201869,
+      "step": 5300
+    },
+    {
+      "epoch": 50.94,
+      "learning_rate": 1.1525302167468726e-05,
+      "loss": 2.27,
+      "step": 5400
+    },
+    {
+      "epoch": 50.94,
+      "eval_loss": 2.0079431533813477,
+      "eval_runtime": 2.4769,
+      "eval_samples_per_second": 289.474,
+      "eval_steps_per_second": 4.845,
+      "eval_wer": 0.09092425759092426,
+      "step": 5400
+    },
+    {
+      "epoch": 51.89,
+      "learning_rate": 1.1199079900032368e-05,
+      "loss": 2.3862,
+      "step": 5500
+    },
+    {
+      "epoch": 51.89,
+      "eval_loss": 2.059471368789673,
+      "eval_runtime": 2.224,
+      "eval_samples_per_second": 322.392,
+      "eval_steps_per_second": 5.396,
+      "eval_wer": 0.09100767434100768,
+      "step": 5500
+    },
+    {
+      "epoch": 52.83,
+      "learning_rate": 1.0871557427476585e-05,
+      "loss": 2.4499,
+      "step": 5600
+    },
+    {
+      "epoch": 52.83,
+      "eval_loss": 2.0381622314453125,
+      "eval_runtime": 2.4243,
+      "eval_samples_per_second": 295.755,
+      "eval_steps_per_second": 4.95,
+      "eval_wer": 0.09476142809476143,
+      "step": 5600
+    },
+    {
+      "epoch": 53.77,
+      "learning_rate": 1.0543089894104534e-05,
+      "loss": 2.4291,
+      "step": 5700
+    },
+    {
+      "epoch": 53.77,
+      "eval_loss": 2.017373561859131,
+      "eval_runtime": 2.1661,
+      "eval_samples_per_second": 331.015,
+      "eval_steps_per_second": 5.54,
+      "eval_wer": 0.09259259259259259,
+      "step": 5700
+    },
+    {
+      "epoch": 54.72,
+      "learning_rate": 1.0214033468982562e-05,
+      "loss": 2.1468,
+      "step": 5800
+    },
+    {
+      "epoch": 54.72,
+      "eval_loss": 2.0347118377685547,
+      "eval_runtime": 1.8529,
+      "eval_samples_per_second": 386.958,
+      "eval_steps_per_second": 6.476,
+      "eval_wer": 0.09392726059392727,
+      "step": 5800
+    },
+    {
+      "epoch": 55.66,
+      "learning_rate": 9.884744959733346e-06,
+      "loss": 2.1434,
+      "step": 5900
+    },
+    {
+      "epoch": 55.66,
+      "eval_loss": 2.000370740890503,
+      "eval_runtime": 1.7262,
+      "eval_samples_per_second": 415.372,
+      "eval_steps_per_second": 6.952,
+      "eval_wer": 0.09626292959626293,
+      "step": 5900
+    },
+    {
+      "epoch": 56.6,
+      "learning_rate": 9.555581425636648e-06,
+      "loss": 2.1786,
+      "step": 6000
+    },
+    {
+      "epoch": 56.6,
+      "eval_loss": 1.9845067262649536,
+      "eval_runtime": 2.4059,
+      "eval_samples_per_second": 298.012,
+      "eval_steps_per_second": 4.988,
+      "eval_wer": 0.08775442108775443,
+      "step": 6000
+    },
+    {
+      "epoch": 57.55,
+      "learning_rate": 9.226899790457235e-06,
+      "loss": 2.22,
+      "step": 6100
+    },
+    {
+      "epoch": 57.55,
+      "eval_loss": 1.9827125072479248,
+      "eval_runtime": 2.3396,
+      "eval_samples_per_second": 306.465,
+      "eval_steps_per_second": 5.129,
+      "eval_wer": 0.08800467133800467,
+      "step": 6100
+    },
+    {
+      "epoch": 58.49,
+      "learning_rate": 8.899056455419669e-06,
+      "loss": 2.0233,
+      "step": 6200
+    },
+    {
+      "epoch": 58.49,
+      "eval_loss": 1.9879730939865112,
+      "eval_runtime": 2.2809,
+      "eval_samples_per_second": 314.347,
+      "eval_steps_per_second": 5.261,
+      "eval_wer": 0.09225892559225893,
+      "step": 6200
+    },
+    {
+      "epoch": 59.43,
+      "learning_rate": 8.572406912749754e-06,
+      "loss": 2.1476,
+      "step": 6300
+    },
+    {
+      "epoch": 59.43,
+      "eval_loss": 1.9856195449829102,
+      "eval_runtime": 2.3738,
+      "eval_samples_per_second": 302.049,
+      "eval_steps_per_second": 5.055,
+      "eval_wer": 0.0851685018351685,
+      "step": 6300
+    },
+    {
+      "epoch": 60.38,
+      "learning_rate": 8.247305360201655e-06,
+      "loss": 1.9682,
+      "step": 6400
+    },
+    {
+      "epoch": 60.38,
+      "eval_loss": 2.0001020431518555,
+      "eval_runtime": 2.2033,
+      "eval_samples_per_second": 325.42,
+      "eval_steps_per_second": 5.446,
+      "eval_wer": 0.08375041708375042,
+      "step": 6400
+    },
+    {
+      "epoch": 61.32,
+      "learning_rate": 7.924104316988596e-06,
+      "loss": 2.2104,
+      "step": 6500
+    },
+    {
+      "epoch": 61.32,
+      "eval_loss": 2.00523042678833,
+      "eval_runtime": 2.416,
+      "eval_samples_per_second": 296.776,
+      "eval_steps_per_second": 4.967,
+      "eval_wer": 0.08850517183850518,
+      "step": 6500
+    },
+    {
+      "epoch": 62.26,
+      "learning_rate": 7.603154241533719e-06,
+      "loss": 2.1225,
+      "step": 6600
+    },
+    {
+      "epoch": 62.26,
+      "eval_loss": 1.9984441995620728,
+      "eval_runtime": 2.4278,
+      "eval_samples_per_second": 295.326,
+      "eval_steps_per_second": 4.943,
+      "eval_wer": 0.08558558558558559,
+      "step": 6600
+    },
+    {
+      "epoch": 63.21,
+      "learning_rate": 7.284803151455521e-06,
+      "loss": 2.1791,
+      "step": 6700
+    },
+    {
+      "epoch": 63.21,
+      "eval_loss": 1.9606465101242065,
+      "eval_runtime": 2.5341,
+      "eval_samples_per_second": 282.944,
+      "eval_steps_per_second": 4.735,
+      "eval_wer": 0.08375041708375042,
+      "step": 6700
+    },
+    {
+      "epoch": 64.15,
+      "learning_rate": 6.969396246199912e-06,
+      "loss": 2.1231,
+      "step": 6800
+    },
+    {
+      "epoch": 64.15,
+      "eval_loss": 1.990545630455017,
+      "eval_runtime": 2.3825,
+      "eval_samples_per_second": 300.949,
+      "eval_steps_per_second": 5.037,
+      "eval_wer": 0.09167500834167501,
+      "step": 6800
+    },
+    {
+      "epoch": 65.09,
+      "learning_rate": 6.6572755327281506e-06,
+      "loss": 2.0084,
+      "step": 6900
+    },
+    {
+      "epoch": 65.09,
+      "eval_loss": 1.9865972995758057,
+      "eval_runtime": 2.6326,
+      "eval_samples_per_second": 272.356,
+      "eval_steps_per_second": 4.558,
+      "eval_wer": 0.0920920920920921,
+      "step": 6900
+    },
+    {
+      "epoch": 66.04,
+      "learning_rate": 6.348779454666496e-06,
+      "loss": 2.0541,
+      "step": 7000
+    },
+    {
+      "epoch": 66.04,
+      "eval_loss": 1.994759202003479,
+      "eval_runtime": 1.4909,
+      "eval_samples_per_second": 480.93,
+      "eval_steps_per_second": 8.049,
+      "eval_wer": 0.09334334334334335,
+      "step": 7000
+    },
+    {
+      "epoch": 66.98,
+      "learning_rate": 6.044242525319699e-06,
+      "loss": 1.9073,
+      "step": 7100
+    },
+    {
+      "epoch": 66.98,
+      "eval_loss": 1.9885362386703491,
+      "eval_runtime": 2.3508,
+      "eval_samples_per_second": 305.006,
+      "eval_steps_per_second": 5.105,
+      "eval_wer": 0.09034034034034034,
+      "step": 7100
+    },
+    {
+      "epoch": 67.92,
+      "learning_rate": 5.743994964946289e-06,
+      "loss": 1.9308,
+      "step": 7200
+    },
+    {
+      "epoch": 67.92,
+      "eval_loss": 2.0064358711242676,
+      "eval_runtime": 2.4726,
+      "eval_samples_per_second": 289.979,
+      "eval_steps_per_second": 4.853,
+      "eval_wer": 0.09192525859192525,
+      "step": 7200
+    },
+    {
+      "epoch": 68.87,
+      "learning_rate": 5.448362342688988e-06,
+      "loss": 2.1946,
+      "step": 7300
+    },
+    {
+      "epoch": 68.87,
+      "eval_loss": 1.982782006263733,
+      "eval_runtime": 2.4706,
+      "eval_samples_per_second": 290.213,
+      "eval_steps_per_second": 4.857,
+      "eval_wer": 0.0915915915915916,
+      "step": 7300
+    },
+    {
+      "epoch": 69.81,
+      "learning_rate": 5.157665223548437e-06,
+      "loss": 1.9435,
+      "step": 7400
+    },
+    {
+      "epoch": 69.81,
+      "eval_loss": 1.9889380931854248,
+      "eval_runtime": 2.2043,
+      "eval_samples_per_second": 325.271,
+      "eval_steps_per_second": 5.444,
+      "eval_wer": 0.09284284284284285,
+      "step": 7400
+    },
+    {
+      "epoch": 70.75,
+      "learning_rate": 4.872218820783145e-06,
+      "loss": 1.8279,
+      "step": 7500
+    },
+    {
+      "epoch": 70.75,
+      "eval_loss": 1.9958916902542114,
+      "eval_runtime": 2.2674,
+      "eval_samples_per_second": 316.215,
+      "eval_steps_per_second": 5.292,
+      "eval_wer": 0.09109109109109109,
+      "step": 7500
+    },
+    {
+      "epoch": 71.7,
+      "learning_rate": 4.592332654112531e-06,
+      "loss": 1.7645,
+      "step": 7600
+    },
+    {
+      "epoch": 71.7,
+      "eval_loss": 2.0133848190307617,
+      "eval_runtime": 2.295,
+      "eval_samples_per_second": 312.419,
+      "eval_steps_per_second": 5.229,
+      "eval_wer": 0.09292625959292626,
+      "step": 7600
+    },
+    {
+      "epoch": 72.64,
+      "learning_rate": 4.318310214093595e-06,
+      "loss": 1.6908,
+      "step": 7700
+    },
+    {
+      "epoch": 72.64,
+      "eval_loss": 2.011880397796631,
+      "eval_runtime": 2.2846,
+      "eval_samples_per_second": 313.84,
+      "eval_steps_per_second": 5.253,
+      "eval_wer": 0.09125792459125792,
+      "step": 7700
+    },
+    {
+      "epoch": 73.58,
+      "learning_rate": 4.050448633035326e-06,
+      "loss": 1.7531,
+      "step": 7800
+    },
+    {
+      "epoch": 73.58,
+      "eval_loss": 1.9963144063949585,
+      "eval_runtime": 2.1478,
+      "eval_samples_per_second": 333.825,
+      "eval_steps_per_second": 5.587,
+      "eval_wer": 0.08792125458792126,
+      "step": 7800
+    },
+    {
+      "epoch": 74.53,
+      "learning_rate": 3.7890383628075156e-06,
+      "loss": 1.6314,
+      "step": 7900
+    },
+    {
+      "epoch": 74.53,
+      "eval_loss": 1.985355019569397,
+      "eval_runtime": 2.4657,
+      "eval_samples_per_second": 290.788,
+      "eval_steps_per_second": 4.867,
+      "eval_wer": 0.09150817484150818,
+      "step": 7900
+    },
+    {
+      "epoch": 75.47,
+      "learning_rate": 3.5343628598934275e-06,
+      "loss": 1.7651,
+      "step": 8000
+    },
+    {
+      "epoch": 75.47,
+      "eval_loss": 1.998374581336975,
+      "eval_runtime": 2.4638,
+      "eval_samples_per_second": 291.019,
+      "eval_steps_per_second": 4.871,
+      "eval_wer": 0.09200867534200867,
+      "step": 8000
+    },
+    {
+      "epoch": 76.42,
+      "learning_rate": 3.2866982780278357e-06,
+      "loss": 1.8407,
+      "step": 8100
+    },
+    {
+      "epoch": 76.42,
+      "eval_loss": 1.9792897701263428,
+      "eval_runtime": 2.1912,
+      "eval_samples_per_second": 327.212,
+      "eval_steps_per_second": 5.476,
+      "eval_wer": 0.09034034034034034,
+      "step": 8100
+    },
+    {
+      "epoch": 77.36,
+      "learning_rate": 3.0463131687536695e-06,
+      "loss": 1.8132,
+      "step": 8200
+    },
+    {
+      "epoch": 77.36,
+      "eval_loss": 2.020777702331543,
+      "eval_runtime": 2.3383,
+      "eval_samples_per_second": 306.636,
+      "eval_steps_per_second": 5.132,
+      "eval_wer": 0.0911745078411745,
+      "step": 8200
+    },
+    {
+      "epoch": 78.3,
+      "learning_rate": 2.815758480419235e-06,
+      "loss": 1.6622,
+      "step": 8300
+    },
+    {
+      "epoch": 78.3,
+      "eval_loss": 2.0105645656585693,
+      "eval_runtime": 2.3714,
+      "eval_samples_per_second": 302.358,
+      "eval_steps_per_second": 5.06,
+      "eval_wer": 0.09059059059059059,
+      "step": 8300
+    },
+    {
+      "epoch": 79.25,
+      "learning_rate": 2.5906269663556484e-06,
+      "loss": 2.1048,
+      "step": 8400
+    },
+    {
+      "epoch": 79.25,
+      "eval_loss": 1.9989068508148193,
+      "eval_runtime": 2.2272,
+      "eval_samples_per_second": 321.925,
+      "eval_steps_per_second": 5.388,
+      "eval_wer": 0.09150817484150818,
+      "step": 8400
+    },
+    {
+      "epoch": 80.19,
+      "learning_rate": 2.373529699842936e-06,
+      "loss": 1.7944,
+      "step": 8500
+    },
+    {
+      "epoch": 80.19,
+      "eval_loss": 1.9979627132415771,
+      "eval_runtime": 2.1554,
+      "eval_samples_per_second": 332.647,
+      "eval_steps_per_second": 5.567,
+      "eval_wer": 0.09125792459125792,
+      "step": 8500
+    },
+    {
+      "epoch": 81.13,
+      "learning_rate": 2.1647020871933288e-06,
+      "loss": 1.8029,
+      "step": 8600
+    },
+    {
+      "epoch": 81.13,
+      "eval_loss": 1.9869658946990967,
+      "eval_runtime": 2.1969,
+      "eval_samples_per_second": 326.373,
+      "eval_steps_per_second": 5.462,
+      "eval_wer": 0.08967300633967301,
+      "step": 8600
+    },
+    {
+      "epoch": 82.08,
+      "learning_rate": 1.964370567638303e-06,
+      "loss": 1.8474,
+      "step": 8700
+    },
+    {
+      "epoch": 82.08,
+      "eval_loss": 1.9901043176651,
+      "eval_runtime": 2.308,
+      "eval_samples_per_second": 310.659,
+      "eval_steps_per_second": 5.199,
+      "eval_wer": 0.08900567233900568,
+      "step": 8700
+    },
+    {
+      "epoch": 83.02,
+      "learning_rate": 1.772752367792452e-06,
+      "loss": 1.5574,
+      "step": 8800
+    },
+    {
+      "epoch": 83.02,
+      "eval_loss": 1.995169997215271,
+      "eval_runtime": 2.4713,
+      "eval_samples_per_second": 290.133,
+      "eval_steps_per_second": 4.856,
+      "eval_wer": 0.09050717384050717,
+      "step": 8800
+    },
+    {
+      "epoch": 83.96,
+      "learning_rate": 1.5900552661069135e-06,
+      "loss": 1.5757,
+      "step": 8900
+    },
+    {
+      "epoch": 83.96,
+      "eval_loss": 1.9981709718704224,
+      "eval_runtime": 2.3845,
+      "eval_samples_per_second": 300.687,
+      "eval_steps_per_second": 5.032,
+      "eval_wer": 0.090674007340674,
+      "step": 8900
+    },
+    {
+      "epoch": 84.91,
+      "learning_rate": 1.4164773675677745e-06,
+      "loss": 1.6461,
+      "step": 9000
+    },
+    {
+      "epoch": 84.91,
+      "eval_loss": 1.9857734441757202,
+      "eval_runtime": 2.5116,
+      "eval_samples_per_second": 285.476,
+      "eval_steps_per_second": 4.778,
+      "eval_wer": 0.09000667334000667,
+      "step": 9000
+    },
+    {
+      "epoch": 85.85,
+      "learning_rate": 1.2522068888837758e-06,
+      "loss": 1.7695,
+      "step": 9100
+    },
+    {
+      "epoch": 85.85,
+      "eval_loss": 1.9991123676300049,
+      "eval_runtime": 2.3638,
+      "eval_samples_per_second": 303.323,
+      "eval_steps_per_second": 5.077,
+      "eval_wer": 0.09050717384050717,
+      "step": 9100
+    },
+    {
+      "epoch": 86.79,
+      "learning_rate": 1.0989222905788767e-06,
+      "loss": 1.6583,
+      "step": 9200
+    },
+    {
+      "epoch": 86.79,
+      "eval_loss": 2.0011229515075684,
+      "eval_runtime": 2.6206,
+      "eval_samples_per_second": 273.605,
+      "eval_steps_per_second": 4.579,
+      "eval_wer": 0.0901735068401735,
+      "step": 9200
+    },
+    {
+      "epoch": 87.74,
+      "learning_rate": 9.536934087073702e-07,
+      "loss": 1.7586,
+      "step": 9300
+    },
+    {
+      "epoch": 87.74,
+      "eval_loss": 1.9869186878204346,
+      "eval_runtime": 2.2585,
+      "eval_samples_per_second": 317.471,
+      "eval_steps_per_second": 5.313,
+      "eval_wer": 0.09109109109109109,
+      "step": 9300
+    },
+    {
+      "epoch": 88.68,
+      "learning_rate": 8.182737598499846e-07,
+      "loss": 1.7142,
+      "step": 9400
+    },
+    {
+      "epoch": 88.68,
+      "eval_loss": 1.9956245422363281,
+      "eval_runtime": 2.3135,
+      "eval_samples_per_second": 309.919,
+      "eval_steps_per_second": 5.187,
+      "eval_wer": 0.08883883883883884,
+      "step": 9400
+    },
+    {
+      "epoch": 89.62,
+      "learning_rate": 6.928101843638202e-07,
+      "loss": 1.7371,
+      "step": 9500
+    },
+    {
+      "epoch": 89.62,
+      "eval_loss": 1.9968063831329346,
+      "eval_runtime": 2.2601,
+      "eval_samples_per_second": 317.242,
+      "eval_steps_per_second": 5.309,
+      "eval_wer": 0.08883883883883884,
+      "step": 9500
+    },
+    {
+      "epoch": 90.57,
+      "learning_rate": 5.774387268803871e-07,
+      "loss": 1.6964,
+      "step": 9600
+    },
+    {
+      "epoch": 90.57,
+      "eval_loss": 1.995816946029663,
+      "eval_runtime": 2.4368,
+      "eval_samples_per_second": 294.238,
+      "eval_steps_per_second": 4.924,
+      "eval_wer": 0.08917250583917251,
+      "step": 9600
+    },
+    {
+      "epoch": 91.51,
+      "learning_rate": 4.722844887875522e-07,
+      "loss": 1.7224,
+      "step": 9700
+    },
+    {
+      "epoch": 91.51,
+      "eval_loss": 1.9946993589401245,
+      "eval_runtime": 2.3446,
+      "eval_samples_per_second": 305.812,
+      "eval_steps_per_second": 5.118,
+      "eval_wer": 0.0890890890890891,
+      "step": 9700
+    },
+    {
+      "epoch": 92.45,
+      "learning_rate": 3.7746149257763984e-07,
+      "loss": 1.8655,
+      "step": 9800
+    },
+    {
+      "epoch": 92.45,
+      "eval_loss": 1.9976409673690796,
+      "eval_runtime": 2.2923,
+      "eval_samples_per_second": 312.785,
+      "eval_steps_per_second": 5.235,
+      "eval_wer": 0.09084084084084085,
+      "step": 9800
+    },
+    {
+      "epoch": 93.4,
+      "learning_rate": 2.9307255820877676e-07,
+      "loss": 1.6929,
+      "step": 9900
+    },
+    {
+      "epoch": 93.4,
+      "eval_loss": 1.9983611106872559,
+      "eval_runtime": 2.4001,
+      "eval_samples_per_second": 298.733,
+      "eval_steps_per_second": 5.0,
+      "eval_wer": 0.09092425759092426,
+      "step": 9900
+    },
+    {
+      "epoch": 94.34,
+      "learning_rate": 2.1920919161354304e-07,
+      "loss": 1.6306,
+      "step": 10000
+    },
+    {
+      "epoch": 94.34,
+      "eval_loss": 2.0011918544769287,
+      "eval_runtime": 2.4656,
+      "eval_samples_per_second": 290.798,
+      "eval_steps_per_second": 4.867,
+      "eval_wer": 0.09109109109109109,
+      "step": 10000
+    },
+    {
+      "epoch": 95.28,
+      "learning_rate": 1.5595148547582373e-07,
+      "loss": 1.7218,
+      "step": 10100
+    },
+    {
+      "epoch": 95.28,
+      "eval_loss": 2.00104022026062,
+      "eval_runtime": 2.3298,
+      "eval_samples_per_second": 307.747,
+      "eval_steps_per_second": 5.151,
+      "eval_wer": 0.09125792459125792,
+      "step": 10100
+    },
+    {
+      "epoch": 96.23,
+      "learning_rate": 1.0336803238345072e-07,
+      "loss": 1.7019,
+      "step": 10200
+    },
+    {
+      "epoch": 96.23,
+      "eval_loss": 1.9976770877838135,
+      "eval_runtime": 2.2461,
+      "eval_samples_per_second": 319.217,
+      "eval_steps_per_second": 5.343,
+      "eval_wer": 0.09075742409075742,
+      "step": 10200
+    },
+    {
+      "epoch": 97.17,
+      "learning_rate": 6.151585045082286e-08,
+      "loss": 1.902,
+      "step": 10300
+    },
+    {
+      "epoch": 97.17,
+      "eval_loss": 1.998861312866211,
+      "eval_runtime": 2.2497,
+      "eval_samples_per_second": 318.711,
+      "eval_steps_per_second": 5.334,
+      "eval_wer": 0.09084084084084085,
+      "step": 10300
+    },
+    {
+      "epoch": 98.11,
+      "learning_rate": 3.0697611999174206e-08,
+      "loss": 1.7555,
+      "step": 10400
+    },
+    {
+      "epoch": 98.11,
+      "eval_loss": 1.9963606595993042,
+      "eval_runtime": 2.2237,
+      "eval_samples_per_second": 322.442,
+      "eval_steps_per_second": 5.397,
+      "eval_wer": 0.09092425759092426,
+      "step": 10400
+    },
+    {
+      "epoch": 99.06,
+      "learning_rate": 1.0324200495079873e-08,
+      "loss": 1.5272,
+      "step": 10500
+    },
+    {
+      "epoch": 99.06,
+      "eval_loss": 1.9957144260406494,
+      "eval_runtime": 2.3635,
+      "eval_samples_per_second": 303.362,
+      "eval_steps_per_second": 5.077,
+      "eval_wer": 0.09059059059059059,
+      "step": 10500
+    },
+    {
+      "epoch": 100.0,
+      "learning_rate": 7.829508974999123e-10,
+      "loss": 1.8033,
+      "step": 10600
+    },
+    {
+      "epoch": 100.0,
+      "eval_loss": 1.995154619216919,
+      "eval_runtime": 2.2963,
+      "eval_samples_per_second": 312.239,
+      "eval_steps_per_second": 5.226,
+      "eval_wer": 0.09084084084084085,
+      "step": 10600
+    },
+    {
+      "epoch": 100.0,
+      "step": 10600,
+      "total_flos": 2.842046364754798e+19,
+      "train_loss": 21.743694989186412,
+      "train_runtime": 7460.3687,
+      "train_samples_per_second": 45.36,
+      "train_steps_per_second": 1.421
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 10600,
+  "num_train_epochs": 100,
+  "save_steps": 100,
+  "total_flos": 2.842046364754798e+19,
+  "trial_name": null,
+  "trial_params": null
+}