Upload 9 files

Browse files

Files changed (7) hide show

optimizer.pt +1 -1
pytorch_model.bin +1 -1
rng_state.pth +1 -1
scaler.pt +1 -1
scheduler.pt +1 -1
trainer_state.json +904 -469
training_args.bin +1 -1

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3ff92596eee289e22ee909d9db3e54be49e5269578bc28c874b0923d605c99f4
 size 2490594117

 version https://git-lfs.github.com/spec/v1
+oid sha256:a26de23e4cee971ebfea4e73cbebcbecf2f353ee840e397bd7fba7b0b54ef10c
 size 2490594117

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f5acf6c6c69ff0962ea52fcf3c08092b5c87f8235d9c6e2eb9319e26d7860675
 size 1262195949

 version https://git-lfs.github.com/spec/v1
+oid sha256:4c9febd254e3ad0f19dfaf7736e3d0c5642013d2ebba2ebb569a108ad5010ee3
 size 1262195949

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:590d6b01d811c7e73c2e9218d6e5e26c7cdd5fc5c481c09f59db840655e92ebf
 size 14639

 version https://git-lfs.github.com/spec/v1
+oid sha256:d83d70ece15c4ea129aa7063149300648d286eddf80529c75ef3b13aafe7b176
 size 14639

scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:173d780008a040a0fc5027480dac803663becc6aee0dda179d45ad7c2479552f
 size 557

 version https://git-lfs.github.com/spec/v1
+oid sha256:07298189395c5725bb1b4f10bfad10e5fa0ac1ee73b564ef9e9845a4a48e2219
 size 557

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5a1d1cbeb219183ce3cdb221d55dd357678c0d9dd21beec7553e578dc56a999b
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:37d47f3afb5f35fb1ad049d75966eeffc352b69dfe78a8ef8033b79c98c2c654
 size 627

trainer_state.json CHANGED Viewed

@@ -1,796 +1,1231 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 27.657824933687003,
-  "global_step": 5200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.53,
       "learning_rate": 0.0001,
-      "loss": 0.9903,
       "step": 100
     },
     {
-      "epoch": 0.53,
-      "eval_loss": 0.3881553113460541,
-      "eval_runtime": 209.4743,
-      "eval_samples_per_second": 19.344,
-      "eval_steps_per_second": 2.42,
-      "eval_wer": 0.4149805202965942,
       "step": 100
     },
     {
-      "epoch": 1.06,
-      "learning_rate": 9.933897408778425e-05,
-      "loss": 0.6655,
       "step": 200
     },
     {
-      "epoch": 1.06,
-      "eval_loss": 0.33381059765815735,
-      "eval_runtime": 209.3188,
-      "eval_samples_per_second": 19.358,
-      "eval_steps_per_second": 2.422,
-      "eval_wer": 0.35063466130451176,
       "step": 200
     },
     {
-      "epoch": 1.59,
-      "learning_rate": 9.867794817556849e-05,
-      "loss": 0.5789,
       "step": 300
     },
     {
-      "epoch": 1.59,
-      "eval_loss": 0.30856332182884216,
-      "eval_runtime": 210.7573,
-      "eval_samples_per_second": 19.226,
-      "eval_steps_per_second": 2.406,
-      "eval_wer": 0.34303129320095516,
       "step": 300
     },
     {
-      "epoch": 2.13,
-      "learning_rate": 9.801692226335273e-05,
-      "loss": 0.5539,
       "step": 400
     },
     {
-      "epoch": 2.13,
-      "eval_loss": 0.3059796392917633,
-      "eval_runtime": 210.5815,
-      "eval_samples_per_second": 19.242,
-      "eval_steps_per_second": 2.408,
-      "eval_wer": 0.31789619203217295,
       "step": 400
     },
     {
-      "epoch": 2.66,
-      "learning_rate": 9.735589635113697e-05,
-      "loss": 0.5041,
       "step": 500
     },
     {
-      "epoch": 2.66,
-      "eval_loss": 0.3157837688922882,
-      "eval_runtime": 211.1395,
-      "eval_samples_per_second": 19.191,
-      "eval_steps_per_second": 2.401,
-      "eval_wer": 0.3104813371873822,
       "step": 500
     },
     {
-      "epoch": 3.19,
-      "learning_rate": 9.669487043892121e-05,
-      "loss": 0.4771,
       "step": 600
     },
     {
-      "epoch": 3.19,
-      "eval_loss": 0.3155499994754791,
-      "eval_runtime": 213.4785,
-      "eval_samples_per_second": 18.981,
-      "eval_steps_per_second": 2.375,
-      "eval_wer": 0.32072389091366094,
       "step": 600
     },
     {
-      "epoch": 3.72,
-      "learning_rate": 9.603384452670545e-05,
-      "loss": 0.448,
       "step": 700
     },
     {
-      "epoch": 3.72,
-      "eval_loss": 0.29987651109695435,
-      "eval_runtime": 213.1151,
-      "eval_samples_per_second": 19.013,
       "eval_steps_per_second": 2.379,
-      "eval_wer": 0.3066482342591429,
       "step": 700
     },
     {
-      "epoch": 4.25,
-      "learning_rate": 9.537281861448969e-05,
-      "loss": 0.4454,
       "step": 800
     },
     {
-      "epoch": 4.25,
-      "eval_loss": 0.3030799925327301,
-      "eval_runtime": 214.1216,
-      "eval_samples_per_second": 18.924,
-      "eval_steps_per_second": 2.368,
-      "eval_wer": 0.32084956641950485,
       "step": 800
     },
     {
-      "epoch": 4.79,
-      "learning_rate": 9.471179270227393e-05,
-      "loss": 0.3857,
       "step": 900
     },
     {
-      "epoch": 4.79,
-      "eval_loss": 0.29331761598587036,
-      "eval_runtime": 214.8248,
-      "eval_samples_per_second": 18.862,
-      "eval_steps_per_second": 2.36,
-      "eval_wer": 0.2947718989568933,
       "step": 900
     },
     {
-      "epoch": 5.32,
-      "learning_rate": 9.405076679005818e-05,
-      "loss": 0.3722,
       "step": 1000
     },
     {
-      "epoch": 5.32,
-      "eval_loss": 0.28789493441581726,
-      "eval_runtime": 214.8964,
-      "eval_samples_per_second": 18.856,
-      "eval_steps_per_second": 2.359,
-      "eval_wer": 0.28578610028905366,
       "step": 1000
     },
     {
-      "epoch": 5.85,
-      "learning_rate": 9.338974087784242e-05,
-      "loss": 0.371,
       "step": 1100
     },
     {
-      "epoch": 5.85,
-      "eval_loss": 0.2818315625190735,
-      "eval_runtime": 215.1931,
-      "eval_samples_per_second": 18.83,
-      "eval_steps_per_second": 2.356,
-      "eval_wer": 0.2755435465627749,
       "step": 1100
     },
     {
-      "epoch": 6.38,
-      "learning_rate": 9.272871496562666e-05,
-      "loss": 0.358,
       "step": 1200
     },
     {
-      "epoch": 6.38,
-      "eval_loss": 0.30174919962882996,
-      "eval_runtime": 215.3959,
-      "eval_samples_per_second": 18.812,
-      "eval_steps_per_second": 2.354,
-      "eval_wer": 0.2778685434208873,
       "step": 1200
     },
     {
-      "epoch": 6.91,
-      "learning_rate": 9.20676890534109e-05,
-      "loss": 0.3459,
       "step": 1300
     },
     {
-      "epoch": 6.91,
-      "eval_loss": 0.2872300148010254,
-      "eval_runtime": 216.2384,
-      "eval_samples_per_second": 18.739,
-      "eval_steps_per_second": 2.345,
-      "eval_wer": 0.27422395375141384,
       "step": 1300
     },
     {
-      "epoch": 7.45,
-      "learning_rate": 9.140666314119514e-05,
-      "loss": 0.3293,
       "step": 1400
     },
     {
-      "epoch": 7.45,
-      "eval_loss": 0.31064674258232117,
-      "eval_runtime": 216.4276,
-      "eval_samples_per_second": 18.722,
-      "eval_steps_per_second": 2.343,
-      "eval_wer": 0.2762347618449164,
       "step": 1400
     },
     {
-      "epoch": 7.98,
-      "learning_rate": 9.074563722897938e-05,
-      "loss": 0.3305,
       "step": 1500
     },
     {
-      "epoch": 7.98,
-      "eval_loss": 0.2984163761138916,
-      "eval_runtime": 216.6335,
-      "eval_samples_per_second": 18.704,
       "eval_steps_per_second": 2.34,
-      "eval_wer": 0.2746638180218675,
       "step": 1500
     },
     {
-      "epoch": 8.51,
-      "learning_rate": 9.008461131676362e-05,
-      "loss": 0.322,
       "step": 1600
     },
     {
-      "epoch": 8.51,
-      "eval_loss": 0.3066250681877136,
-      "eval_runtime": 217.5565,
-      "eval_samples_per_second": 18.625,
-      "eval_steps_per_second": 2.33,
-      "eval_wer": 0.2688199070001257,
       "step": 1600
     },
     {
-      "epoch": 9.04,
-      "learning_rate": 8.942358540454786e-05,
-      "loss": 0.3051,
       "step": 1700
     },
     {
-      "epoch": 9.04,
-      "eval_loss": 0.3064703941345215,
-      "eval_runtime": 218.1465,
-      "eval_samples_per_second": 18.575,
-      "eval_steps_per_second": 2.324,
-      "eval_wer": 0.26743747643584265,
       "step": 1700
     },
     {
-      "epoch": 9.57,
-      "learning_rate": 8.87625594923321e-05,
-      "loss": 0.2906,
       "step": 1800
     },
     {
-      "epoch": 9.57,
-      "eval_loss": 0.2988126277923584,
-      "eval_runtime": 218.1544,
-      "eval_samples_per_second": 18.574,
-      "eval_steps_per_second": 2.324,
-      "eval_wer": 0.26209626743747644,
       "step": 1800
     },
     {
-      "epoch": 10.11,
-      "learning_rate": 8.810153358011635e-05,
-      "loss": 0.2908,
       "step": 1900
     },
     {
-      "epoch": 10.11,
-      "eval_loss": 0.31721261143684387,
-      "eval_runtime": 217.8764,
-      "eval_samples_per_second": 18.598,
-      "eval_steps_per_second": 2.327,
-      "eval_wer": 0.26448410204851075,
       "step": 1900
     },
     {
-      "epoch": 10.64,
-      "learning_rate": 8.744050766790059e-05,
-      "loss": 0.2644,
       "step": 2000
     },
     {
-      "epoch": 10.64,
-      "eval_loss": 0.328941285610199,
-      "eval_runtime": 217.9159,
-      "eval_samples_per_second": 18.594,
-      "eval_steps_per_second": 2.327,
-      "eval_wer": 0.25851451552092497,
       "step": 2000
     },
     {
-      "epoch": 11.17,
-      "learning_rate": 8.677948175568483e-05,
-      "loss": 0.2895,
       "step": 2100
     },
     {
-      "epoch": 11.17,
-      "eval_loss": 0.32557472586631775,
-      "eval_runtime": 218.4939,
-      "eval_samples_per_second": 18.545,
-      "eval_steps_per_second": 2.32,
-      "eval_wer": 0.25681789619203216,
       "step": 2100
     },
     {
-      "epoch": 11.7,
-      "learning_rate": 8.611845584346907e-05,
-      "loss": 0.2764,
       "step": 2200
     },
     {
-      "epoch": 11.7,
-      "eval_loss": 0.31102919578552246,
-      "eval_runtime": 221.5496,
-      "eval_samples_per_second": 18.289,
-      "eval_steps_per_second": 2.288,
-      "eval_wer": 0.2536760085459344,
       "step": 2200
     },
     {
-      "epoch": 12.23,
-      "learning_rate": 8.545742993125331e-05,
-      "loss": 0.2712,
       "step": 2300
     },
     {
-      "epoch": 12.23,
-      "eval_loss": 0.31744903326034546,
-      "eval_runtime": 229.9509,
-      "eval_samples_per_second": 17.621,
-      "eval_steps_per_second": 2.205,
-      "eval_wer": 0.25920573080306647,
       "step": 2300
     },
     {
-      "epoch": 12.76,
-      "learning_rate": 8.479640401903755e-05,
-      "loss": 0.2688,
       "step": 2400
     },
     {
-      "epoch": 12.76,
-      "eval_loss": 0.3221331238746643,
-      "eval_runtime": 231.8744,
-      "eval_samples_per_second": 17.475,
-      "eval_steps_per_second": 2.187,
-      "eval_wer": 0.25826316450923714,
       "step": 2400
     },
     {
-      "epoch": 13.3,
-      "learning_rate": 8.413537810682179e-05,
-      "loss": 0.2509,
       "step": 2500
     },
     {
-      "epoch": 13.3,
-      "eval_loss": 0.32597509026527405,
-      "eval_runtime": 232.2681,
-      "eval_samples_per_second": 17.445,
-      "eval_steps_per_second": 2.183,
-      "eval_wer": 0.2532989820284027,
       "step": 2500
     },
     {
-      "epoch": 13.83,
-      "learning_rate": 8.34809624537282e-05,
-      "loss": 0.2419,
       "step": 2600
     },
     {
-      "epoch": 13.83,
-      "eval_loss": 0.3077153265476227,
-      "eval_runtime": 232.0814,
-      "eval_samples_per_second": 17.459,
-      "eval_steps_per_second": 2.185,
-      "eval_wer": 0.25530979012190524,
       "step": 2600
     },
     {
-      "epoch": 14.36,
-      "learning_rate": 8.281993654151243e-05,
-      "loss": 0.2429,
       "step": 2700
     },
     {
-      "epoch": 14.36,
-      "eval_loss": 0.32647523283958435,
-      "eval_runtime": 232.8137,
-      "eval_samples_per_second": 17.404,
-      "eval_steps_per_second": 2.178,
-      "eval_wer": 0.2588287042855347,
       "step": 2700
     },
     {
-      "epoch": 14.89,
-      "learning_rate": 8.215891062929667e-05,
-      "loss": 0.2358,
       "step": 2800
     },
     {
-      "epoch": 14.89,
-      "eval_loss": 0.3333515226840973,
-      "eval_runtime": 232.1937,
-      "eval_samples_per_second": 17.451,
-      "eval_steps_per_second": 2.184,
-      "eval_wer": 0.25380168405177833,
       "step": 2800
     },
     {
-      "epoch": 15.42,
-      "learning_rate": 8.149788471708092e-05,
-      "loss": 0.2415,
       "step": 2900
     },
     {
-      "epoch": 15.42,
-      "eval_loss": 0.3471778631210327,
-      "eval_runtime": 232.185,
-      "eval_samples_per_second": 17.452,
-      "eval_steps_per_second": 2.184,
-      "eval_wer": 0.24921452808847555,
       "step": 2900
     },
     {
-      "epoch": 15.95,
-      "learning_rate": 8.083685880486515e-05,
-      "loss": 0.2384,
       "step": 3000
     },
     {
-      "epoch": 15.95,
-      "eval_loss": 0.3481573760509491,
-      "eval_runtime": 232.291,
-      "eval_samples_per_second": 17.444,
-      "eval_steps_per_second": 2.183,
-      "eval_wer": 0.2548070880985296,
       "step": 3000
     },
     {
-      "epoch": 16.49,
-      "learning_rate": 8.017583289264939e-05,
-      "loss": 0.2316,
       "step": 3100
     },
     {
-      "epoch": 16.49,
-      "eval_loss": 0.3469015955924988,
-      "eval_runtime": 232.5701,
-      "eval_samples_per_second": 17.423,
-      "eval_steps_per_second": 2.18,
-      "eval_wer": 0.24695236898328515,
       "step": 3100
     },
     {
-      "epoch": 17.02,
-      "learning_rate": 7.951480698043363e-05,
-      "loss": 0.225,
       "step": 3200
     },
     {
-      "epoch": 17.02,
-      "eval_loss": 0.3405754566192627,
-      "eval_runtime": 220.3171,
-      "eval_samples_per_second": 18.392,
-      "eval_steps_per_second": 2.301,
-      "eval_wer": 0.2588915420384567,
       "step": 3200
     },
     {
-      "epoch": 17.55,
-      "learning_rate": 7.885378106821787e-05,
-      "loss": 0.2108,
       "step": 3300
     },
     {
-      "epoch": 17.55,
-      "eval_loss": 0.34463852643966675,
-      "eval_runtime": 223.0068,
-      "eval_samples_per_second": 18.17,
-      "eval_steps_per_second": 2.273,
-      "eval_wer": 0.25072263415860246,
       "step": 3300
     },
     {
-      "epoch": 18.08,
-      "learning_rate": 7.819275515600211e-05,
-      "loss": 0.2179,
       "step": 3400
     },
     {
-      "epoch": 18.08,
-      "eval_loss": 0.34099045395851135,
-      "eval_runtime": 221.6762,
-      "eval_samples_per_second": 18.279,
-      "eval_steps_per_second": 2.287,
-      "eval_wer": 0.248586150559256,
       "step": 3400
     },
     {
-      "epoch": 18.62,
-      "learning_rate": 7.753172924378636e-05,
-      "loss": 0.2056,
       "step": 3500
     },
     {
-      "epoch": 18.62,
-      "eval_loss": 0.33803310990333557,
-      "eval_runtime": 221.1741,
-      "eval_samples_per_second": 18.32,
-      "eval_steps_per_second": 2.292,
-      "eval_wer": 0.248586150559256,
       "step": 3500
     },
     {
-      "epoch": 19.15,
-      "learning_rate": 7.687731359069276e-05,
-      "loss": 0.2088,
       "step": 3600
     },
     {
-      "epoch": 19.15,
-      "eval_loss": 0.33515065908432007,
-      "eval_runtime": 221.8587,
-      "eval_samples_per_second": 18.264,
-      "eval_steps_per_second": 2.285,
-      "eval_wer": 0.24437602111348497,
       "step": 3600
     },
     {
-      "epoch": 19.68,
-      "learning_rate": 7.6216287678477e-05,
-      "loss": 0.1994,
       "step": 3700
     },
     {
-      "epoch": 19.68,
-      "eval_loss": 0.3439195454120636,
-      "eval_runtime": 222.8182,
-      "eval_samples_per_second": 18.185,
-      "eval_steps_per_second": 2.275,
-      "eval_wer": 0.2422395375141385,
       "step": 3700
     },
     {
-      "epoch": 20.21,
-      "learning_rate": 7.555526176626125e-05,
-      "loss": 0.2027,
       "step": 3800
     },
     {
-      "epoch": 20.21,
-      "eval_loss": 0.37243127822875977,
-      "eval_runtime": 222.5733,
-      "eval_samples_per_second": 18.205,
-      "eval_steps_per_second": 2.278,
-      "eval_wer": 0.24337061706673369,
       "step": 3800
     },
     {
-      "epoch": 20.74,
-      "learning_rate": 7.489423585404549e-05,
-      "loss": 0.2044,
       "step": 3900
     },
     {
-      "epoch": 20.74,
-      "eval_loss": 0.3538868725299835,
-      "eval_runtime": 222.1787,
-      "eval_samples_per_second": 18.238,
-      "eval_steps_per_second": 2.282,
-      "eval_wer": 0.2501570943823049,
       "step": 3900
     },
     {
-      "epoch": 21.28,
-      "learning_rate": 7.423320994182971e-05,
-      "loss": 0.1932,
       "step": 4000
     },
     {
-      "epoch": 21.28,
-      "eval_loss": 0.34956350922584534,
-      "eval_runtime": 221.2804,
-      "eval_samples_per_second": 18.312,
-      "eval_steps_per_second": 2.291,
-      "eval_wer": 0.25304763101671485,
       "step": 4000
     },
     {
-      "epoch": 21.81,
-      "learning_rate": 7.357218402961397e-05,
-      "loss": 0.1903,
       "step": 4100
     },
     {
-      "epoch": 21.81,
-      "eval_loss": 0.3472049832344055,
-      "eval_runtime": 221.4938,
-      "eval_samples_per_second": 18.294,
-      "eval_steps_per_second": 2.289,
-      "eval_wer": 0.2465753424657534,
       "step": 4100
     },
     {
-      "epoch": 22.34,
-      "learning_rate": 7.291115811739821e-05,
-      "loss": 0.1895,
       "step": 4200
     },
     {
-      "epoch": 22.34,
-      "eval_loss": 0.34313011169433594,
-      "eval_runtime": 222.6794,
-      "eval_samples_per_second": 18.197,
-      "eval_steps_per_second": 2.277,
-      "eval_wer": 0.24286791504335806,
       "step": 4200
     },
     {
-      "epoch": 22.87,
-      "learning_rate": 7.225013220518244e-05,
-      "loss": 0.1865,
       "step": 4300
     },
     {
-      "epoch": 22.87,
-      "eval_loss": 0.3476735055446625,
-      "eval_runtime": 222.0492,
-      "eval_samples_per_second": 18.248,
-      "eval_steps_per_second": 2.283,
-      "eval_wer": 0.24481588538393867,
       "step": 4300
     },
     {
-      "epoch": 23.4,
-      "learning_rate": 7.158910629296669e-05,
-      "loss": 0.1851,
       "step": 4400
     },
     {
-      "epoch": 23.4,
-      "eval_loss": 0.3553401231765747,
-      "eval_runtime": 223.2051,
-      "eval_samples_per_second": 18.154,
-      "eval_steps_per_second": 2.271,
-      "eval_wer": 0.23922332537388463,
       "step": 4400
     },
     {
-      "epoch": 23.93,
-      "learning_rate": 7.092808038075093e-05,
-      "loss": 0.179,
       "step": 4500
     },
     {
-      "epoch": 23.93,
-      "eval_loss": 0.3559369742870331,
-      "eval_runtime": 226.903,
-      "eval_samples_per_second": 17.858,
-      "eval_steps_per_second": 2.234,
-      "eval_wer": 0.24255372627874827,
       "step": 4500
     },
     {
-      "epoch": 24.47,
-      "learning_rate": 7.026705446853516e-05,
-      "loss": 0.1797,
       "step": 4600
     },
     {
-      "epoch": 24.47,
-      "eval_loss": 0.3819045424461365,
-      "eval_runtime": 222.3201,
-      "eval_samples_per_second": 18.226,
-      "eval_steps_per_second": 2.28,
-      "eval_wer": 0.24644966695990952,
       "step": 4600
     },
     {
-      "epoch": 25.0,
-      "learning_rate": 6.960602855631942e-05,
-      "loss": 0.1889,
       "step": 4700
     },
     {
-      "epoch": 25.0,
-      "eval_loss": 0.3539634346961975,
-      "eval_runtime": 224.8629,
-      "eval_samples_per_second": 18.02,
-      "eval_steps_per_second": 2.255,
-      "eval_wer": 0.24073143144401157,
       "step": 4700
     },
     {
-      "epoch": 25.53,
-      "learning_rate": 6.894500264410366e-05,
-      "loss": 0.1679,
       "step": 4800
     },
     {
-      "epoch": 25.53,
-      "eval_loss": 0.3614364564418793,
-      "eval_runtime": 233.686,
-      "eval_samples_per_second": 17.34,
-      "eval_steps_per_second": 2.17,
-      "eval_wer": 0.2404172426794018,
       "step": 4800
     },
     {
-      "epoch": 26.06,
-      "learning_rate": 6.828397673188788e-05,
-      "loss": 0.1667,
       "step": 4900
     },
     {
-      "epoch": 26.06,
-      "eval_loss": 0.3456764817237854,
-      "eval_runtime": 234.7624,
-      "eval_samples_per_second": 17.26,
-      "eval_steps_per_second": 2.16,
-      "eval_wer": 0.24230237526706044,
       "step": 4900
     },
     {
-      "epoch": 26.59,
-      "learning_rate": 6.762295081967214e-05,
-      "loss": 0.1652,
       "step": 5000
     },
     {
-      "epoch": 26.59,
-      "eval_loss": 0.35390254855155945,
-      "eval_runtime": 235.3962,
-      "eval_samples_per_second": 17.214,
-      "eval_steps_per_second": 2.154,
-      "eval_wer": 0.23991454065602613,
       "step": 5000
     },
     {
-      "epoch": 27.13,
-      "learning_rate": 6.696192490745638e-05,
-      "loss": 0.1745,
       "step": 5100
     },
     {
-      "epoch": 27.13,
-      "eval_loss": 0.3428182601928711,
-      "eval_runtime": 234.2975,
-      "eval_samples_per_second": 17.294,
-      "eval_steps_per_second": 2.164,
-      "eval_wer": 0.2343219806459721,
       "step": 5100
     },
     {
-      "epoch": 27.66,
-      "learning_rate": 6.630089899524061e-05,
-      "loss": 0.1596,
       "step": 5200
     },
     {
-      "epoch": 27.66,
-      "eval_loss": 0.33925893902778625,
-      "eval_runtime": 236.9973,
-      "eval_samples_per_second": 17.097,
-      "eval_steps_per_second": 2.139,
-      "eval_wer": 0.234447656151816,
       "step": 5200
     }
   ],
-  "max_steps": 15228,
   "num_train_epochs": 81,
-  "total_flos": 2.2833398907064197e+19,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 39.13027744270205,
+  "global_step": 8100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.48,
       "learning_rate": 0.0001,
+      "loss": 1.0049,
       "step": 100
     },
     {
+      "epoch": 0.48,
+      "eval_loss": 0.4129045903682709,
+      "eval_runtime": 227.662,
+      "eval_samples_per_second": 19.551,
+      "eval_steps_per_second": 2.447,
+      "eval_wer": 0.4147929999433652,
       "step": 100
     },
     {
+      "epoch": 0.97,
+      "learning_rate": 9.940001199976001e-05,
+      "loss": 0.6812,
       "step": 200
     },
     {
+      "epoch": 0.97,
+      "eval_loss": 0.34252655506134033,
+      "eval_runtime": 227.479,
+      "eval_samples_per_second": 19.567,
+      "eval_steps_per_second": 2.449,
+      "eval_wer": 0.3746389533895905,
       "step": 200
     },
     {
+      "epoch": 1.45,
+      "learning_rate": 9.880002399952003e-05,
+      "loss": 0.5692,
       "step": 300
     },
     {
+      "epoch": 1.45,
+      "eval_loss": 0.3179880976676941,
+      "eval_runtime": 228.3215,
+      "eval_samples_per_second": 19.494,
+      "eval_steps_per_second": 2.44,
+      "eval_wer": 0.34637820694342186,
       "step": 300
     },
     {
+      "epoch": 1.93,
+      "learning_rate": 9.820003599928002e-05,
+      "loss": 0.571,
       "step": 400
     },
     {
+      "epoch": 1.93,
+      "eval_loss": 0.2999042272567749,
+      "eval_runtime": 230.9757,
+      "eval_samples_per_second": 19.27,
+      "eval_steps_per_second": 2.412,
+      "eval_wer": 0.32689584867191485,
       "step": 400
     },
     {
+      "epoch": 2.41,
+      "learning_rate": 9.760004799904002e-05,
+      "loss": 0.5005,
       "step": 500
     },
     {
+      "epoch": 2.41,
+      "eval_loss": 0.29656580090522766,
+      "eval_runtime": 233.3067,
+      "eval_samples_per_second": 19.078,
+      "eval_steps_per_second": 2.387,
+      "eval_wer": 0.3163617828623209,
       "step": 500
     },
     {
+      "epoch": 2.9,
+      "learning_rate": 9.700005999880004e-05,
+      "loss": 0.4887,
       "step": 600
     },
     {
+      "epoch": 2.9,
+      "eval_loss": 0.2906932234764099,
+      "eval_runtime": 231.4032,
+      "eval_samples_per_second": 19.235,
+      "eval_steps_per_second": 2.407,
+      "eval_wer": 0.30418530894262896,
       "step": 600
     },
     {
+      "epoch": 3.38,
+      "learning_rate": 9.640007199856004e-05,
+      "loss": 0.4437,
       "step": 700
     },
     {
+      "epoch": 3.38,
+      "eval_loss": 0.3040316700935364,
+      "eval_runtime": 234.1226,
+      "eval_samples_per_second": 19.011,
       "eval_steps_per_second": 2.379,
+      "eval_wer": 0.2976156765022371,
       "step": 700
     },
     {
+      "epoch": 3.86,
+      "learning_rate": 9.580008399832003e-05,
+      "loss": 0.4448,
       "step": 800
     },
     {
+      "epoch": 3.86,
+      "eval_loss": 0.29794958233833313,
+      "eval_runtime": 233.0536,
+      "eval_samples_per_second": 19.099,
+      "eval_steps_per_second": 2.39,
+      "eval_wer": 0.2977289460270714,
       "step": 800
     },
     {
+      "epoch": 4.35,
+      "learning_rate": 9.520009599808005e-05,
+      "loss": 0.4166,
       "step": 900
     },
     {
+      "epoch": 4.35,
+      "eval_loss": 0.28735384345054626,
+      "eval_runtime": 233.1123,
+      "eval_samples_per_second": 19.094,
+      "eval_steps_per_second": 2.389,
+      "eval_wer": 0.28730814974231184,
       "step": 900
     },
     {
+      "epoch": 4.83,
+      "learning_rate": 9.460010799784005e-05,
+      "loss": 0.3996,
       "step": 1000
     },
     {
+      "epoch": 4.83,
+      "eval_loss": 0.28613924980163574,
+      "eval_runtime": 233.6326,
+      "eval_samples_per_second": 19.051,
+      "eval_steps_per_second": 2.384,
+      "eval_wer": 0.28362689018519566,
       "step": 1000
     },
     {
+      "epoch": 5.31,
+      "learning_rate": 9.400011999760005e-05,
+      "loss": 0.3896,
       "step": 1100
     },
     {
+      "epoch": 5.31,
+      "eval_loss": 0.2923850119113922,
+      "eval_runtime": 234.9083,
+      "eval_samples_per_second": 18.948,
+      "eval_steps_per_second": 2.371,
+      "eval_wer": 0.27643427535821485,
       "step": 1100
     },
     {
+      "epoch": 5.8,
+      "learning_rate": 9.340013199736006e-05,
+      "loss": 0.3749,
       "step": 1200
     },
     {
+      "epoch": 5.8,
+      "eval_loss": 0.3192364275455475,
+      "eval_runtime": 236.1058,
+      "eval_samples_per_second": 18.852,
+      "eval_steps_per_second": 2.359,
+      "eval_wer": 0.2773970663193068,
       "step": 1200
     },
     {
+      "epoch": 6.28,
+      "learning_rate": 9.280014399712006e-05,
+      "loss": 0.3563,
       "step": 1300
     },
     {
+      "epoch": 6.28,
+      "eval_loss": 0.2812280058860779,
+      "eval_runtime": 236.2957,
+      "eval_samples_per_second": 18.837,
+      "eval_steps_per_second": 2.357,
+      "eval_wer": 0.2699779124426573,
       "step": 1300
     },
     {
+      "epoch": 6.76,
+      "learning_rate": 9.220015599688006e-05,
+      "loss": 0.341,
       "step": 1400
     },
     {
+      "epoch": 6.76,
+      "eval_loss": 0.287455677986145,
+      "eval_runtime": 236.5657,
+      "eval_samples_per_second": 18.815,
+      "eval_steps_per_second": 2.355,
+      "eval_wer": 0.27949255252874217,
       "step": 1400
     },
     {
+      "epoch": 7.25,
+      "learning_rate": 9.160016799664007e-05,
+      "loss": 0.3581,
       "step": 1500
     },
     {
+      "epoch": 7.25,
+      "eval_loss": 0.2976861596107483,
+      "eval_runtime": 238.0057,
+      "eval_samples_per_second": 18.701,
       "eval_steps_per_second": 2.34,
+      "eval_wer": 0.2733193634252704,
       "step": 1500
     },
     {
+      "epoch": 7.73,
+      "learning_rate": 9.100017999640008e-05,
+      "loss": 0.3335,
       "step": 1600
     },
     {
+      "epoch": 7.73,
+      "eval_loss": 0.3042807877063751,
+      "eval_runtime": 238.1461,
+      "eval_samples_per_second": 18.69,
+      "eval_steps_per_second": 2.339,
+      "eval_wer": 0.2717902248400068,
       "step": 1600
     },
     {
+      "epoch": 8.21,
+      "learning_rate": 9.040019199616007e-05,
+      "loss": 0.3017,
       "step": 1700
     },
     {
+      "epoch": 8.21,
+      "eval_loss": 0.3114258646965027,
+      "eval_runtime": 237.5998,
+      "eval_samples_per_second": 18.733,
+      "eval_steps_per_second": 2.344,
+      "eval_wer": 0.26901512148156537,
       "step": 1700
     },
     {
+      "epoch": 8.69,
+      "learning_rate": 8.980020399592008e-05,
+      "loss": 0.3119,
       "step": 1800
     },
     {
+      "epoch": 8.69,
+      "eval_loss": 0.2932363748550415,
+      "eval_runtime": 237.3835,
+      "eval_samples_per_second": 18.75,
+      "eval_steps_per_second": 2.346,
+      "eval_wer": 0.27280965056351586,
       "step": 1800
     },
     {
+      "epoch": 9.18,
+      "learning_rate": 8.920621587568248e-05,
+      "loss": 0.2963,
       "step": 1900
     },
     {
+      "epoch": 9.18,
+      "eval_loss": 0.3103686273097992,
+      "eval_runtime": 238.4335,
+      "eval_samples_per_second": 18.668,
+      "eval_steps_per_second": 2.336,
+      "eval_wer": 0.262615393328425,
       "step": 1900
     },
     {
+      "epoch": 9.66,
+      "learning_rate": 8.86062278754425e-05,
+      "loss": 0.2916,
       "step": 2000
     },
     {
+      "epoch": 9.66,
+      "eval_loss": 0.306538462638855,
+      "eval_runtime": 238.5115,
+      "eval_samples_per_second": 18.662,
+      "eval_steps_per_second": 2.335,
+      "eval_wer": 0.25802797757263407,
       "step": 2000
     },
     {
+      "epoch": 10.14,
+      "learning_rate": 8.80062398752025e-05,
+      "loss": 0.2996,
       "step": 2100
     },
     {
+      "epoch": 10.14,
+      "eval_loss": 0.29877138137817383,
+      "eval_runtime": 240.2761,
+      "eval_samples_per_second": 18.525,
+      "eval_steps_per_second": 2.318,
+      "eval_wer": 0.25072209322081895,
       "step": 2100
     },
     {
+      "epoch": 10.63,
+      "learning_rate": 8.74062518749625e-05,
+      "loss": 0.2754,
       "step": 2200
     },
     {
+      "epoch": 10.63,
+      "eval_loss": 0.30767822265625,
+      "eval_runtime": 238.3349,
+      "eval_samples_per_second": 18.675,
+      "eval_steps_per_second": 2.337,
+      "eval_wer": 0.24766381605029167,
       "step": 2200
     },
     {
+      "epoch": 11.11,
+      "learning_rate": 8.680626387472251e-05,
+      "loss": 0.2659,
       "step": 2300
     },
     {
+      "epoch": 11.11,
+      "eval_loss": 0.30970337986946106,
+      "eval_runtime": 237.7796,
+      "eval_samples_per_second": 18.719,
+      "eval_steps_per_second": 2.343,
+      "eval_wer": 0.2516848841819109,
       "step": 2300
     },
     {
+      "epoch": 11.59,
+      "learning_rate": 8.620627587448251e-05,
+      "loss": 0.2662,
       "step": 2400
     },
     {
+      "epoch": 11.59,
+      "eval_loss": 0.30694690346717834,
+      "eval_runtime": 238.8654,
+      "eval_samples_per_second": 18.634,
+      "eval_steps_per_second": 2.332,
+      "eval_wer": 0.2517981537067452,
       "step": 2400
     },
     {
+      "epoch": 12.08,
+      "learning_rate": 8.560628787424252e-05,
+      "loss": 0.2922,
       "step": 2500
     },
     {
+      "epoch": 12.08,
+      "eval_loss": 0.2964646518230438,
+      "eval_runtime": 238.0736,
+      "eval_samples_per_second": 18.696,
+      "eval_steps_per_second": 2.34,
+      "eval_wer": 0.25445998754035226,
       "step": 2500
     },
     {
+      "epoch": 12.56,
+      "learning_rate": 8.500629987400252e-05,
+      "loss": 0.2528,
       "step": 2600
     },
     {
+      "epoch": 12.56,
+      "eval_loss": 0.30119049549102783,
+      "eval_runtime": 238.9237,
+      "eval_samples_per_second": 18.629,
+      "eval_steps_per_second": 2.331,
+      "eval_wer": 0.25106190179532195,
       "step": 2600
     },
     {
+      "epoch": 13.04,
+      "learning_rate": 8.440631187376254e-05,
+      "loss": 0.2655,
       "step": 2700
     },
     {
+      "epoch": 13.04,
+      "eval_loss": 0.31211164593696594,
+      "eval_runtime": 238.5153,
+      "eval_samples_per_second": 18.661,
+      "eval_steps_per_second": 2.335,
+      "eval_wer": 0.2524211360933341,
       "step": 2700
     },
     {
+      "epoch": 13.53,
+      "learning_rate": 8.380632387352253e-05,
+      "loss": 0.2468,
       "step": 2800
     },
     {
+      "epoch": 13.53,
+      "eval_loss": 0.31889286637306213,
+      "eval_runtime": 238.3587,
+      "eval_samples_per_second": 18.674,
+      "eval_steps_per_second": 2.337,
+      "eval_wer": 0.25587585660078155,
       "step": 2800
     },
     {
+      "epoch": 14.01,
+      "learning_rate": 8.320633587328253e-05,
+      "loss": 0.2584,
       "step": 2900
     },
     {
+      "epoch": 14.01,
+      "eval_loss": 0.31399527192115784,
+      "eval_runtime": 238.7233,
+      "eval_samples_per_second": 18.645,
+      "eval_steps_per_second": 2.333,
+      "eval_wer": 0.2527609446678371,
       "step": 2900
     },
     {
+      "epoch": 14.49,
+      "learning_rate": 8.260634787304255e-05,
+      "loss": 0.2389,
       "step": 3000
     },
     {
+      "epoch": 14.49,
+      "eval_loss": 0.32613444328308105,
+      "eval_runtime": 238.1504,
+      "eval_samples_per_second": 18.69,
+      "eval_steps_per_second": 2.339,
+      "eval_wer": 0.25049555417115027,
       "step": 3000
     },
     {
+      "epoch": 14.97,
+      "learning_rate": 8.200635987280255e-05,
+      "loss": 0.2489,
       "step": 3100
     },
     {
+      "epoch": 14.97,
+      "eval_loss": 0.3339328169822693,
+      "eval_runtime": 238.2319,
+      "eval_samples_per_second": 18.683,
+      "eval_steps_per_second": 2.338,
+      "eval_wer": 0.2527609446678371,
       "step": 3100
     },
     {
+      "epoch": 15.46,
+      "learning_rate": 8.140637187256254e-05,
+      "loss": 0.2231,
       "step": 3200
     },
     {
+      "epoch": 15.46,
+      "eval_loss": 0.351179838180542,
+      "eval_runtime": 242.4013,
+      "eval_samples_per_second": 18.362,
+      "eval_steps_per_second": 2.298,
+      "eval_wer": 0.25327065752959166,
       "step": 3200
     },
     {
+      "epoch": 15.94,
+      "learning_rate": 8.080638387232256e-05,
+      "loss": 0.2336,
       "step": 3300
     },
     {
+      "epoch": 15.94,
+      "eval_loss": 0.3061370849609375,
+      "eval_runtime": 241.0412,
+      "eval_samples_per_second": 18.466,
+      "eval_steps_per_second": 2.311,
+      "eval_wer": 0.25576258707594723,
       "step": 3300
     },
     {
+      "epoch": 16.42,
+      "learning_rate": 8.020639587208256e-05,
+      "loss": 0.2236,
       "step": 3400
     },
     {
+      "epoch": 16.42,
+      "eval_loss": 0.30908501148223877,
+      "eval_runtime": 242.0206,
+      "eval_samples_per_second": 18.391,
+      "eval_steps_per_second": 2.301,
+      "eval_wer": 0.24817352891204622,
       "step": 3400
     },
     {
+      "epoch": 16.91,
+      "learning_rate": 7.960640787184257e-05,
+      "loss": 0.228,
       "step": 3500
     },
     {
+      "epoch": 16.91,
+      "eval_loss": 0.3035767078399658,
+      "eval_runtime": 241.4436,
+      "eval_samples_per_second": 18.435,
+      "eval_steps_per_second": 2.307,
+      "eval_wer": 0.24811689414962904,
       "step": 3500
     },
     {
+      "epoch": 17.39,
+      "learning_rate": 7.900641987160258e-05,
+      "loss": 0.2185,
       "step": 3600
     },
     {
+      "epoch": 17.39,
+      "eval_loss": 0.32117584347724915,
+      "eval_runtime": 241.6265,
+      "eval_samples_per_second": 18.421,
+      "eval_steps_per_second": 2.305,
+      "eval_wer": 0.24698419890128562,
       "step": 3600
     },
     {
+      "epoch": 17.87,
+      "learning_rate": 7.840643187136257e-05,
+      "loss": 0.2212,
       "step": 3700
     },
     {
+      "epoch": 17.87,
+      "eval_loss": 0.32781311869621277,
+      "eval_runtime": 242.3065,
+      "eval_samples_per_second": 18.369,
+      "eval_steps_per_second": 2.299,
+      "eval_wer": 0.2376394631024523,
       "step": 3700
     },
     {
+      "epoch": 18.36,
+      "learning_rate": 7.780644387112258e-05,
+      "loss": 0.2142,
       "step": 3800
     },
     {
+      "epoch": 18.36,
+      "eval_loss": 0.3259940445423126,
+      "eval_runtime": 241.5744,
+      "eval_samples_per_second": 18.425,
+      "eval_steps_per_second": 2.306,
+      "eval_wer": 0.23967831454947047,
       "step": 3800
     },
     {
+      "epoch": 18.84,
+      "learning_rate": 7.72064558708826e-05,
+      "loss": 0.214,
       "step": 3900
     },
     {
+      "epoch": 18.84,
+      "eval_loss": 0.31706514954566956,
+      "eval_runtime": 237.9228,
+      "eval_samples_per_second": 18.708,
+      "eval_steps_per_second": 2.341,
+      "eval_wer": 0.23950841026221895,
       "step": 3900
     },
     {
+      "epoch": 19.32,
+      "learning_rate": 7.66064678706426e-05,
+      "loss": 0.2157,
       "step": 4000
     },
     {
+      "epoch": 19.32,
+      "eval_loss": 0.3263161778450012,
+      "eval_runtime": 238.133,
+      "eval_samples_per_second": 18.691,
+      "eval_steps_per_second": 2.339,
+      "eval_wer": 0.2429631307696664,
       "step": 4000
     },
     {
+      "epoch": 19.81,
+      "learning_rate": 7.600647987040259e-05,
+      "loss": 0.2075,
       "step": 4100
     },
     {
+      "epoch": 19.81,
+      "eval_loss": 0.3325376510620117,
+      "eval_runtime": 238.7972,
+      "eval_samples_per_second": 18.639,
+      "eval_steps_per_second": 2.333,
+      "eval_wer": 0.2374129240527836,
       "step": 4100
     },
     {
+      "epoch": 20.29,
+      "learning_rate": 7.54064918701626e-05,
+      "loss": 0.2049,
       "step": 4200
     },
     {
+      "epoch": 20.29,
+      "eval_loss": 0.3318737745285034,
+      "eval_runtime": 238.8141,
+      "eval_samples_per_second": 18.638,
+      "eval_steps_per_second": 2.332,
+      "eval_wer": 0.24194370504615734,
       "step": 4200
     },
     {
+      "epoch": 20.77,
+      "learning_rate": 7.480650386992261e-05,
+      "loss": 0.2049,
       "step": 4300
     },
     {
+      "epoch": 20.77,
+      "eval_loss": 0.3494427800178528,
+      "eval_runtime": 237.8921,
+      "eval_samples_per_second": 18.71,
+      "eval_steps_per_second": 2.341,
+      "eval_wer": 0.24251005267032905,
       "step": 4300
     },
     {
+      "epoch": 21.26,
+      "learning_rate": 7.420651586968261e-05,
+      "loss": 0.2027,
       "step": 4400
     },
     {
+      "epoch": 21.26,
+      "eval_loss": 0.3245479166507721,
+      "eval_runtime": 238.6469,
+      "eval_samples_per_second": 18.651,
+      "eval_steps_per_second": 2.334,
+      "eval_wer": 0.24279322648241491,
       "step": 4400
     },
     {
+      "epoch": 21.74,
+      "learning_rate": 7.360652786944261e-05,
+      "loss": 0.1943,
       "step": 4500
     },
     {
+      "epoch": 21.74,
+      "eval_loss": 0.33962830901145935,
+      "eval_runtime": 241.874,
+      "eval_samples_per_second": 18.402,
+      "eval_steps_per_second": 2.303,
+      "eval_wer": 0.2394517754998018,
       "step": 4500
     },
     {
+      "epoch": 22.22,
+      "learning_rate": 7.300653986920262e-05,
+      "loss": 0.1908,
       "step": 4600
     },
     {
+      "epoch": 22.22,
+      "eval_loss": 0.336451917886734,
+      "eval_runtime": 243.387,
+      "eval_samples_per_second": 18.288,
+      "eval_steps_per_second": 2.289,
+      "eval_wer": 0.23718638500311492,
       "step": 4600
     },
     {
+      "epoch": 22.7,
+      "learning_rate": 7.240655186896262e-05,
+      "loss": 0.1907,
       "step": 4700
     },
     {
+      "epoch": 22.7,
+      "eval_loss": 0.32546359300613403,
+      "eval_runtime": 241.8966,
+      "eval_samples_per_second": 18.4,
+      "eval_steps_per_second": 2.303,
+      "eval_wer": 0.23803590643937247,
       "step": 4700
     },
     {
+      "epoch": 23.19,
+      "learning_rate": 7.180656386872263e-05,
+      "loss": 0.1805,
       "step": 4800
     },
     {
+      "epoch": 23.19,
+      "eval_loss": 0.3294132351875305,
+      "eval_runtime": 241.6869,
+      "eval_samples_per_second": 18.416,
+      "eval_steps_per_second": 2.305,
+      "eval_wer": 0.2310131958996432,
       "step": 4800
     },
     {
+      "epoch": 23.67,
+      "learning_rate": 7.120657586848264e-05,
+      "loss": 0.183,
       "step": 4900
     },
     {
+      "epoch": 23.67,
+      "eval_loss": 0.3282703459262848,
+      "eval_runtime": 241.8191,
+      "eval_samples_per_second": 18.406,
+      "eval_steps_per_second": 2.303,
+      "eval_wer": 0.23871552358837855,
       "step": 4900
     },
     {
+      "epoch": 24.15,
+      "learning_rate": 7.060658786824263e-05,
+      "loss": 0.1856,
       "step": 5000
     },
     {
+      "epoch": 24.15,
+      "eval_loss": 0.34477418661117554,
+      "eval_runtime": 239.7408,
+      "eval_samples_per_second": 18.566,
+      "eval_steps_per_second": 2.323,
+      "eval_wer": 0.2370164807158634,
       "step": 5000
     },
     {
+      "epoch": 24.64,
+      "learning_rate": 7.000659986800264e-05,
+      "loss": 0.1883,
       "step": 5100
     },
     {
+      "epoch": 24.64,
+      "eval_loss": 0.3297135829925537,
+      "eval_runtime": 239.2028,
+      "eval_samples_per_second": 18.608,
+      "eval_steps_per_second": 2.329,
+      "eval_wer": 0.23123973494931188,
       "step": 5100
     },
     {
+      "epoch": 25.12,
+      "learning_rate": 6.940661186776265e-05,
+      "loss": 0.1752,
       "step": 5200
     },
     {
+      "epoch": 25.12,
+      "eval_loss": 0.32844457030296326,
+      "eval_runtime": 239.4259,
+      "eval_samples_per_second": 18.59,
+      "eval_steps_per_second": 2.326,
+      "eval_wer": 0.23633686356685735,
       "step": 5200
+    },
+    {
+      "epoch": 25.6,
+      "learning_rate": 6.880662386752266e-05,
+      "loss": 0.1702,
+      "step": 5300
+    },
+    {
+      "epoch": 25.6,
+      "eval_loss": 0.3195815086364746,
+      "eval_runtime": 239.8214,
+      "eval_samples_per_second": 18.56,
+      "eval_steps_per_second": 2.323,
+      "eval_wer": 0.23814917596420684,
+      "step": 5300
+    },
+    {
+      "epoch": 26.09,
+      "learning_rate": 6.820663586728266e-05,
+      "loss": 0.1815,
+      "step": 5400
+    },
+    {
+      "epoch": 26.09,
+      "eval_loss": 0.3348907232284546,
+      "eval_runtime": 239.2339,
+      "eval_samples_per_second": 18.605,
+      "eval_steps_per_second": 2.328,
+      "eval_wer": 0.23418474259500482,
+      "step": 5400
+    },
+    {
+      "epoch": 26.57,
+      "learning_rate": 6.760664786704266e-05,
+      "loss": 0.1673,
+      "step": 5500
+    },
+    {
+      "epoch": 26.57,
+      "eval_loss": 0.33562546968460083,
+      "eval_runtime": 239.3973,
+      "eval_samples_per_second": 18.593,
+      "eval_steps_per_second": 2.327,
+      "eval_wer": 0.23418474259500482,
+      "step": 5500
+    },
+    {
+      "epoch": 27.05,
+      "learning_rate": 6.700665986680267e-05,
+      "loss": 0.1707,
+      "step": 5600
+    },
+    {
+      "epoch": 27.05,
+      "eval_loss": 0.3253572881221771,
+      "eval_runtime": 240.5261,
+      "eval_samples_per_second": 18.505,
+      "eval_steps_per_second": 2.316,
+      "eval_wer": 0.2327688735345755,
+      "step": 5600
+    },
+    {
+      "epoch": 27.54,
+      "learning_rate": 6.640667186656267e-05,
+      "loss": 0.1676,
+      "step": 5700
+    },
+    {
+      "epoch": 27.54,
+      "eval_loss": 0.3263373076915741,
+      "eval_runtime": 240.3409,
+      "eval_samples_per_second": 18.52,
+      "eval_steps_per_second": 2.318,
+      "eval_wer": 0.23214589114798664,
+      "step": 5700
+    },
+    {
+      "epoch": 28.02,
+      "learning_rate": 6.580668386632267e-05,
+      "loss": 0.1711,
+      "step": 5800
+    },
+    {
+      "epoch": 28.02,
+      "eval_loss": 0.3160211145877838,
+      "eval_runtime": 239.7456,
+      "eval_samples_per_second": 18.566,
+      "eval_steps_per_second": 2.323,
+      "eval_wer": 0.23333522115874725,
+      "step": 5800
+    },
+    {
+      "epoch": 28.5,
+      "learning_rate": 6.521269574608508e-05,
+      "loss": 0.1541,
+      "step": 5900
+    },
+    {
+      "epoch": 28.5,
+      "eval_loss": 0.3510294556617737,
+      "eval_runtime": 241.2363,
+      "eval_samples_per_second": 18.451,
+      "eval_steps_per_second": 2.309,
+      "eval_wer": 0.22948405731437957,
+      "step": 5900
+    },
+    {
+      "epoch": 28.98,
+      "learning_rate": 6.46127077458451e-05,
+      "loss": 0.1588,
+      "step": 6000
+    },
+    {
+      "epoch": 28.98,
+      "eval_loss": 0.3481566607952118,
+      "eval_runtime": 239.0227,
+      "eval_samples_per_second": 18.622,
+      "eval_steps_per_second": 2.33,
+      "eval_wer": 0.23667667214136037,
+      "step": 6000
+    },
+    {
+      "epoch": 29.47,
+      "learning_rate": 6.401271974560509e-05,
+      "loss": 0.1554,
+      "step": 6100
+    },
+    {
+      "epoch": 29.47,
+      "eval_loss": 0.3343554735183716,
+      "eval_runtime": 305.5597,
+      "eval_samples_per_second": 14.567,
+      "eval_steps_per_second": 1.823,
+      "eval_wer": 0.23254233448490683,
+      "step": 6100
+    },
+    {
+      "epoch": 29.95,
+      "learning_rate": 6.341273174536509e-05,
+      "loss": 0.1584,
+      "step": 6200
+    },
+    {
+      "epoch": 29.95,
+      "eval_loss": 0.33723703026771545,
+      "eval_runtime": 299.7981,
+      "eval_samples_per_second": 14.847,
+      "eval_steps_per_second": 1.858,
+      "eval_wer": 0.23265560400974117,
+      "step": 6200
+    },
+    {
+      "epoch": 30.43,
+      "learning_rate": 6.281874362512749e-05,
+      "loss": 0.1563,
+      "step": 6300
+    },
+    {
+      "epoch": 30.43,
+      "eval_loss": 0.34475767612457275,
+      "eval_runtime": 302.4221,
+      "eval_samples_per_second": 14.718,
+      "eval_steps_per_second": 1.842,
+      "eval_wer": 0.22925751826471089,
+      "step": 6300
+    },
+    {
+      "epoch": 30.92,
+      "learning_rate": 6.221875562488751e-05,
+      "loss": 0.1509,
+      "step": 6400
+    },
+    {
+      "epoch": 30.92,
+      "eval_loss": 0.34635189175605774,
+      "eval_runtime": 240.7665,
+      "eval_samples_per_second": 18.487,
+      "eval_steps_per_second": 2.313,
+      "eval_wer": 0.23078665684997451,
+      "step": 6400
+    },
+    {
+      "epoch": 31.4,
+      "learning_rate": 6.161876762464751e-05,
+      "loss": 0.1604,
+      "step": 6500
+    },
+    {
+      "epoch": 31.4,
+      "eval_loss": 0.3334050178527832,
+      "eval_runtime": 239.9789,
+      "eval_samples_per_second": 18.547,
+      "eval_steps_per_second": 2.321,
+      "eval_wer": 0.22823809254120178,
+      "step": 6500
+    },
+    {
+      "epoch": 31.88,
+      "learning_rate": 6.101877962440752e-05,
+      "loss": 0.1487,
+      "step": 6600
+    },
+    {
+      "epoch": 31.88,
+      "eval_loss": 0.35308021306991577,
+      "eval_runtime": 239.0592,
+      "eval_samples_per_second": 18.619,
+      "eval_steps_per_second": 2.33,
+      "eval_wer": 0.22948405731437957,
+      "step": 6600
+    },
+    {
+      "epoch": 32.37,
+      "learning_rate": 6.0418791624167514e-05,
+      "loss": 0.1492,
+      "step": 6700
+    },
+    {
+      "epoch": 32.37,
+      "eval_loss": 0.346653014421463,
+      "eval_runtime": 242.7759,
+      "eval_samples_per_second": 18.334,
+      "eval_steps_per_second": 2.294,
+      "eval_wer": 0.2333918559211644,
+      "step": 6700
+    },
+    {
+      "epoch": 32.85,
+      "learning_rate": 5.9818803623927524e-05,
+      "loss": 0.1419,
+      "step": 6800
+    },
+    {
+      "epoch": 32.85,
+      "eval_loss": 0.3448370397090912,
+      "eval_runtime": 240.5384,
+      "eval_samples_per_second": 18.504,
+      "eval_steps_per_second": 2.316,
+      "eval_wer": 0.22891770969020786,
+      "step": 6800
+    },
+    {
+      "epoch": 33.33,
+      "learning_rate": 5.921881562368753e-05,
+      "loss": 0.1473,
+      "step": 6900
+    },
+    {
+      "epoch": 33.33,
+      "eval_loss": 0.33699721097946167,
+      "eval_runtime": 240.2189,
+      "eval_samples_per_second": 18.529,
+      "eval_steps_per_second": 2.319,
+      "eval_wer": 0.22789828396669876,
+      "step": 6900
+    },
+    {
+      "epoch": 33.82,
+      "learning_rate": 5.861882762344754e-05,
+      "loss": 0.1421,
+      "step": 7000
+    },
+    {
+      "epoch": 33.82,
+      "eval_loss": 0.3586665093898773,
+      "eval_runtime": 240.0237,
+      "eval_samples_per_second": 18.544,
+      "eval_steps_per_second": 2.321,
+      "eval_wer": 0.22733193634252705,
+      "step": 7000
+    },
+    {
+      "epoch": 34.3,
+      "learning_rate": 5.801883962320754e-05,
+      "loss": 0.1478,
+      "step": 7100
+    },
+    {
+      "epoch": 34.3,
+      "eval_loss": 0.34202027320861816,
+      "eval_runtime": 241.148,
+      "eval_samples_per_second": 18.458,
+      "eval_steps_per_second": 2.31,
+      "eval_wer": 0.22829472730361897,
+      "step": 7100
+    },
+    {
+      "epoch": 34.78,
+      "learning_rate": 5.741885162296754e-05,
+      "loss": 0.1417,
+      "step": 7200
+    },
+    {
+      "epoch": 34.78,
+      "eval_loss": 0.3443390429019928,
+      "eval_runtime": 240.4384,
+      "eval_samples_per_second": 18.512,
+      "eval_steps_per_second": 2.317,
+      "eval_wer": 0.22971059636404825,
+      "step": 7200
+    },
+    {
+      "epoch": 35.27,
+      "learning_rate": 5.681886362272755e-05,
+      "loss": 0.144,
+      "step": 7300
+    },
+    {
+      "epoch": 35.27,
+      "eval_loss": 0.3634556531906128,
+      "eval_runtime": 240.4974,
+      "eval_samples_per_second": 18.507,
+      "eval_steps_per_second": 2.316,
+      "eval_wer": 0.2310131958996432,
+      "step": 7300
+    },
+    {
+      "epoch": 35.75,
+      "learning_rate": 5.621887562248755e-05,
+      "loss": 0.1389,
+      "step": 7400
+    },
+    {
+      "epoch": 35.75,
+      "eval_loss": 0.3476064205169678,
+      "eval_runtime": 242.249,
+      "eval_samples_per_second": 18.374,
+      "eval_steps_per_second": 2.299,
+      "eval_wer": 0.23452455116950785,
+      "step": 7400
+    },
+    {
+      "epoch": 36.23,
+      "learning_rate": 5.561888762224756e-05,
+      "loss": 0.1363,
+      "step": 7500
+    },
+    {
+      "epoch": 36.23,
+      "eval_loss": 0.3405874967575073,
+      "eval_runtime": 240.8953,
+      "eval_samples_per_second": 18.477,
+      "eval_steps_per_second": 2.312,
+      "eval_wer": 0.23152290876139775,
+      "step": 7500
+    },
+    {
+      "epoch": 36.71,
+      "learning_rate": 5.501889962200756e-05,
+      "loss": 0.1354,
+      "step": 7600
+    },
+    {
+      "epoch": 36.71,
+      "eval_loss": 0.3625139594078064,
+      "eval_runtime": 240.5012,
+      "eval_samples_per_second": 18.507,
+      "eval_steps_per_second": 2.316,
+      "eval_wer": 0.22886107492779068,
+      "step": 7600
+    },
+    {
+      "epoch": 37.2,
+      "learning_rate": 5.441891162176756e-05,
+      "loss": 0.1306,
+      "step": 7700
+    },
+    {
+      "epoch": 37.2,
+      "eval_loss": 0.3339903652667999,
+      "eval_runtime": 240.6242,
+      "eval_samples_per_second": 18.498,
+      "eval_steps_per_second": 2.315,
+      "eval_wer": 0.2261992410941836,
+      "step": 7700
+    },
+    {
+      "epoch": 37.68,
+      "learning_rate": 5.381892362152757e-05,
+      "loss": 0.1327,
+      "step": 7800
+    },
+    {
+      "epoch": 37.68,
+      "eval_loss": 0.3558659851551056,
+      "eval_runtime": 242.3369,
+      "eval_samples_per_second": 18.367,
+      "eval_steps_per_second": 2.298,
+      "eval_wer": 0.22676558871835534,
+      "step": 7800
+    },
+    {
+      "epoch": 38.16,
+      "learning_rate": 5.321893562128758e-05,
+      "loss": 0.1291,
+      "step": 7900
+    },
+    {
+      "epoch": 38.16,
+      "eval_loss": 0.34240660071372986,
+      "eval_runtime": 237.8177,
+      "eval_samples_per_second": 18.716,
+      "eval_steps_per_second": 2.342,
+      "eval_wer": 0.22580279775726342,
+      "step": 7900
+    },
+    {
+      "epoch": 38.65,
+      "learning_rate": 5.261894762104757e-05,
+      "loss": 0.1288,
+      "step": 8000
+    },
+    {
+      "epoch": 38.65,
+      "eval_loss": 0.33796748518943787,
+      "eval_runtime": 239.7462,
+      "eval_samples_per_second": 18.565,
+      "eval_steps_per_second": 2.323,
+      "eval_wer": 0.22999377017613412,
+      "step": 8000
+    },
+    {
+      "epoch": 39.13,
+      "learning_rate": 5.201895962080758e-05,
+      "loss": 0.1209,
+      "step": 8100
+    },
+    {
+      "epoch": 39.13,
+      "eval_loss": 0.3304120600223541,
+      "eval_runtime": 240.8061,
+      "eval_samples_per_second": 18.484,
+      "eval_steps_per_second": 2.313,
+      "eval_wer": 0.228634535878122,
+      "step": 8100
     }
   ],
+  "max_steps": 16767,
   "num_train_epochs": 81,
+  "total_flos": 3.507453466179225e+19,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d836bf9d40ae4e5da4460295756209b2d5ae5844a5759213fe101c783be365a6
 size 3003

 version https://git-lfs.github.com/spec/v1
+oid sha256:c0dbc9cc77df631948ae7d83684b5fb0e466543068f75683fc591ebe0414f071
 size 3003