Upload 9 files

Browse files

Files changed (7) hide show

optimizer.pt +1 -1
pytorch_model.bin +1 -1
rng_state.pth +1 -1
scaler.pt +1 -1
scheduler.pt +1 -1
trainer_state.json +471 -561
training_args.bin +1 -1

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4c79e728d98168d85015d00930e5f1bd407f25c2d89b2d55d9c9bb2f99ce3eee
 size 2490594117

 version https://git-lfs.github.com/spec/v1
+oid sha256:3ff92596eee289e22ee909d9db3e54be49e5269578bc28c874b0923d605c99f4
 size 2490594117

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ccfbee3b3ae99465c34b8091981ba73de06eaab423aefbdb55c7872677393c70
 size 1262195949

 version https://git-lfs.github.com/spec/v1
+oid sha256:f5acf6c6c69ff0962ea52fcf3c08092b5c87f8235d9c6e2eb9319e26d7860675
 size 1262195949

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ef516f13eae1058f7d3a5544d2d46b334d6f3f2c0af866334d159bdf2bf78524
 size 14639

 version https://git-lfs.github.com/spec/v1
+oid sha256:590d6b01d811c7e73c2e9218d6e5e26c7cdd5fc5c481c09f59db840655e92ebf
 size 14639

scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1cc746e056a378283285a9fcc1e3f23a267ec6b0193f2c4ba34347b78ae0c98f
 size 557

 version https://git-lfs.github.com/spec/v1
+oid sha256:173d780008a040a0fc5027480dac803663becc6aee0dda179d45ad7c2479552f
 size 557

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6bf093631f76407e20836696a637f5ab6e0d337c65ba9151883e190682646544
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:5a1d1cbeb219183ce3cdb221d55dd357678c0d9dd21beec7553e578dc56a999b
 size 627

trainer_state.json CHANGED Viewed

@@ -1,886 +1,796 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 37.90553745928339,
-  "global_step": 5800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.65,
       "learning_rate": 0.0001,
-      "loss": 1.0071,
       "step": 100
     },
     {
-      "epoch": 0.65,
-      "eval_loss": 0.3728577196598053,
-      "eval_runtime": 169.6136,
-      "eval_samples_per_second": 19.48,
-      "eval_steps_per_second": 2.435,
-      "eval_wer": 0.5494842925753878,
       "step": 100
     },
     {
-      "epoch": 1.31,
-      "learning_rate": 9.918652891889694e-05,
-      "loss": 0.6823,
       "step": 200
     },
     {
-      "epoch": 1.31,
-      "eval_loss": 0.33882805705070496,
-      "eval_runtime": 167.327,
-      "eval_samples_per_second": 19.746,
-      "eval_steps_per_second": 2.468,
-      "eval_wer": 0.5344461066057791,
       "step": 200
     },
     {
-      "epoch": 1.96,
-      "learning_rate": 9.837305783779387e-05,
-      "loss": 0.6063,
       "step": 300
     },
     {
-      "epoch": 1.96,
-      "eval_loss": 0.3208909332752228,
-      "eval_runtime": 174.661,
-      "eval_samples_per_second": 18.917,
-      "eval_steps_per_second": 2.365,
-      "eval_wer": 0.5098811117234864,
       "step": 300
     },
     {
-      "epoch": 2.61,
-      "learning_rate": 9.755958675669081e-05,
-      "loss": 0.5326,
       "step": 400
     },
     {
-      "epoch": 2.61,
-      "eval_loss": 0.30963289737701416,
-      "eval_runtime": 177.329,
-      "eval_samples_per_second": 18.632,
-      "eval_steps_per_second": 2.329,
-      "eval_wer": 0.5025588536335721,
       "step": 400
     },
     {
-      "epoch": 3.27,
-      "learning_rate": 9.674611567558773e-05,
-      "loss": 0.5074,
       "step": 500
     },
     {
-      "epoch": 3.27,
-      "eval_loss": 0.3118290901184082,
-      "eval_runtime": 173.1863,
-      "eval_samples_per_second": 19.078,
-      "eval_steps_per_second": 2.385,
-      "eval_wer": 0.4959452011652626,
       "step": 500
     },
     {
-      "epoch": 3.92,
-      "learning_rate": 9.593264459448467e-05,
-      "loss": 0.446,
       "step": 600
     },
     {
-      "epoch": 3.92,
-      "eval_loss": 0.30445897579193115,
-      "eval_runtime": 173.9457,
-      "eval_samples_per_second": 18.994,
-      "eval_steps_per_second": 2.374,
-      "eval_wer": 0.4865758601684907,
       "step": 600
     },
     {
-      "epoch": 4.57,
-      "learning_rate": 9.51191735133816e-05,
-      "loss": 0.4283,
       "step": 700
     },
     {
-      "epoch": 4.57,
-      "eval_loss": 0.30916285514831543,
-      "eval_runtime": 176.2446,
-      "eval_samples_per_second": 18.747,
-      "eval_steps_per_second": 2.343,
-      "eval_wer": 0.48366270372411624,
       "step": 700
     },
     {
-      "epoch": 5.23,
-      "learning_rate": 9.430570243227855e-05,
-      "loss": 0.41,
       "step": 800
     },
     {
-      "epoch": 5.23,
-      "eval_loss": 0.35956883430480957,
-      "eval_runtime": 169.7235,
-      "eval_samples_per_second": 19.467,
-      "eval_steps_per_second": 2.433,
-      "eval_wer": 0.4932682465947563,
       "step": 800
     },
     {
-      "epoch": 5.88,
-      "learning_rate": 9.349223135117547e-05,
-      "loss": 0.3802,
       "step": 900
     },
     {
-      "epoch": 5.88,
-      "eval_loss": 0.3234783411026001,
-      "eval_runtime": 171.4522,
-      "eval_samples_per_second": 19.271,
-      "eval_steps_per_second": 2.409,
-      "eval_wer": 0.47752145500354304,
       "step": 900
     },
     {
-      "epoch": 6.53,
-      "learning_rate": 9.267876027007241e-05,
-      "loss": 0.3852,
       "step": 1000
     },
     {
-      "epoch": 6.53,
-      "eval_loss": 0.32342973351478577,
-      "eval_runtime": 184.4459,
-      "eval_samples_per_second": 17.913,
-      "eval_steps_per_second": 2.239,
-      "eval_wer": 0.47815132666719157,
       "step": 1000
     },
     {
-      "epoch": 7.19,
-      "learning_rate": 9.186528918896934e-05,
-      "loss": 0.3539,
       "step": 1100
     },
     {
-      "epoch": 7.19,
-      "eval_loss": 0.33684083819389343,
-      "eval_runtime": 170.8359,
-      "eval_samples_per_second": 19.34,
-      "eval_steps_per_second": 2.418,
-      "eval_wer": 0.4796472718683568,
       "step": 1100
     },
     {
-      "epoch": 7.84,
-      "learning_rate": 9.105181810786628e-05,
-      "loss": 0.3444,
       "step": 1200
     },
     {
-      "epoch": 7.84,
-      "eval_loss": 0.3268304169178009,
-      "eval_runtime": 170.984,
-      "eval_samples_per_second": 19.323,
-      "eval_steps_per_second": 2.415,
-      "eval_wer": 0.4732698212739154,
       "step": 1200
     },
     {
-      "epoch": 8.5,
-      "learning_rate": 9.02383470267632e-05,
-      "loss": 0.336,
       "step": 1300
     },
     {
-      "epoch": 8.5,
-      "eval_loss": 0.34285250306129456,
-      "eval_runtime": 171.7981,
-      "eval_samples_per_second": 19.232,
-      "eval_steps_per_second": 2.404,
-      "eval_wer": 0.479883473742225,
       "step": 1300
     },
     {
-      "epoch": 9.15,
-      "learning_rate": 8.942487594566014e-05,
-      "loss": 0.3041,
       "step": 1400
     },
     {
-      "epoch": 9.15,
-      "eval_loss": 0.35453349351882935,
-      "eval_runtime": 172.0678,
-      "eval_samples_per_second": 19.202,
-      "eval_steps_per_second": 2.4,
-      "eval_wer": 0.46248326903393433,
       "step": 1400
     },
     {
-      "epoch": 9.8,
-      "learning_rate": 8.861140486455706e-05,
-      "loss": 0.3074,
       "step": 1500
     },
     {
-      "epoch": 9.8,
-      "eval_loss": 0.3339354693889618,
-      "eval_runtime": 172.1803,
-      "eval_samples_per_second": 19.189,
-      "eval_steps_per_second": 2.399,
-      "eval_wer": 0.46319187465553896,
       "step": 1500
     },
     {
-      "epoch": 10.46,
-      "learning_rate": 8.7797933783454e-05,
-      "loss": 0.2948,
       "step": 1600
     },
     {
-      "epoch": 10.46,
-      "eval_loss": 0.34325212240219116,
-      "eval_runtime": 171.9876,
-      "eval_samples_per_second": 19.211,
-      "eval_steps_per_second": 2.401,
-      "eval_wer": 0.4646090858987481,
       "step": 1600
     },
     {
-      "epoch": 11.11,
-      "learning_rate": 8.698446270235093e-05,
-      "loss": 0.2905,
       "step": 1700
     },
     {
-      "epoch": 11.11,
-      "eval_loss": 0.34282687306404114,
-      "eval_runtime": 172.5719,
-      "eval_samples_per_second": 19.146,
-      "eval_steps_per_second": 2.393,
-      "eval_wer": 0.4641366821510117,
       "step": 1700
     },
     {
-      "epoch": 11.76,
-      "learning_rate": 8.617099162124787e-05,
-      "loss": 0.296,
       "step": 1800
     },
     {
-      "epoch": 11.76,
-      "eval_loss": 0.35734105110168457,
-      "eval_runtime": 173.1126,
-      "eval_samples_per_second": 19.086,
-      "eval_steps_per_second": 2.386,
-      "eval_wer": 0.4665774348476498,
       "step": 1800
     },
     {
-      "epoch": 12.42,
-      "learning_rate": 8.535752054014479e-05,
-      "loss": 0.2669,
       "step": 1900
     },
     {
-      "epoch": 12.42,
-      "eval_loss": 0.34095147252082825,
-      "eval_runtime": 172.9162,
-      "eval_samples_per_second": 19.108,
-      "eval_steps_per_second": 2.388,
-      "eval_wer": 0.46224706716006614,
       "step": 1900
     },
     {
-      "epoch": 13.07,
-      "learning_rate": 8.454404945904173e-05,
-      "loss": 0.2778,
       "step": 2000
     },
     {
-      "epoch": 13.07,
-      "eval_loss": 0.3445983827114105,
-      "eval_runtime": 172.7429,
-      "eval_samples_per_second": 19.127,
-      "eval_steps_per_second": 2.391,
-      "eval_wer": 0.4621683332021101,
       "step": 2000
     },
     {
-      "epoch": 13.72,
-      "learning_rate": 8.373057837793867e-05,
-      "loss": 0.2605,
       "step": 2100
     },
     {
-      "epoch": 13.72,
-      "eval_loss": 0.364580363035202,
-      "eval_runtime": 173.3351,
-      "eval_samples_per_second": 19.061,
-      "eval_steps_per_second": 2.383,
-      "eval_wer": 0.4611447917486812,
       "step": 2100
     },
     {
-      "epoch": 14.38,
-      "learning_rate": 8.291710729683561e-05,
-      "loss": 0.2562,
       "step": 2200
     },
     {
-      "epoch": 14.38,
-      "eval_loss": 0.3529307544231415,
-      "eval_runtime": 173.4538,
-      "eval_samples_per_second": 19.048,
-      "eval_steps_per_second": 2.381,
-      "eval_wer": 0.46201086528619795,
       "step": 2200
     },
     {
-      "epoch": 15.03,
-      "learning_rate": 8.210363621573253e-05,
-      "loss": 0.2587,
       "step": 2300
     },
     {
-      "epoch": 15.03,
-      "eval_loss": 0.35722818970680237,
-      "eval_runtime": 173.1723,
-      "eval_samples_per_second": 19.079,
-      "eval_steps_per_second": 2.385,
-      "eval_wer": 0.4694118573340682,
       "step": 2300
     },
     {
-      "epoch": 15.68,
-      "learning_rate": 8.129016513462947e-05,
-      "loss": 0.242,
       "step": 2400
     },
     {
-      "epoch": 15.68,
-      "eval_loss": 0.36534029245376587,
-      "eval_runtime": 173.1065,
-      "eval_samples_per_second": 19.087,
-      "eval_steps_per_second": 2.386,
-      "eval_wer": 0.45894024092591135,
       "step": 2400
     },
     {
-      "epoch": 16.34,
-      "learning_rate": 8.047669405352641e-05,
-      "loss": 0.232,
       "step": 2500
     },
     {
-      "epoch": 16.34,
-      "eval_loss": 0.34964719414711,
-      "eval_runtime": 174.2382,
-      "eval_samples_per_second": 18.963,
-      "eval_steps_per_second": 2.37,
-      "eval_wer": 0.4605149200850327,
       "step": 2500
     },
     {
-      "epoch": 16.99,
-      "learning_rate": 7.966322297242333e-05,
-      "loss": 0.2474,
       "step": 2600
     },
     {
-      "epoch": 16.99,
-      "eval_loss": 0.3596344590187073,
-      "eval_runtime": 174.0298,
-      "eval_samples_per_second": 18.985,
-      "eval_steps_per_second": 2.373,
-      "eval_wer": 0.46783717817494685,
       "step": 2600
     },
     {
-      "epoch": 17.64,
-      "learning_rate": 7.884975189132027e-05,
-      "loss": 0.2137,
       "step": 2700
     },
     {
-      "epoch": 17.64,
-      "eval_loss": 0.3547351360321045,
-      "eval_runtime": 174.6108,
-      "eval_samples_per_second": 18.922,
-      "eval_steps_per_second": 2.365,
-      "eval_wer": 0.4609873238327691,
       "step": 2700
     },
     {
-      "epoch": 18.3,
-      "learning_rate": 7.80362808102172e-05,
-      "loss": 0.2261,
       "step": 2800
     },
     {
-      "epoch": 18.3,
-      "eval_loss": 0.35713937878608704,
-      "eval_runtime": 173.8691,
-      "eval_samples_per_second": 19.003,
-      "eval_steps_per_second": 2.375,
-      "eval_wer": 0.4579954334304385,
       "step": 2800
     },
     {
-      "epoch": 18.95,
-      "learning_rate": 7.723094443992517e-05,
-      "loss": 0.2141,
       "step": 2900
     },
     {
-      "epoch": 18.95,
-      "eval_loss": 0.36411064863204956,
-      "eval_runtime": 174.3463,
-      "eval_samples_per_second": 18.951,
-      "eval_steps_per_second": 2.369,
-      "eval_wer": 0.45563341469175656,
       "step": 2900
     },
     {
-      "epoch": 19.61,
-      "learning_rate": 7.64174733588221e-05,
-      "loss": 0.2201,
       "step": 3000
     },
     {
-      "epoch": 19.61,
-      "eval_loss": 0.34566032886505127,
-      "eval_runtime": 173.9331,
-      "eval_samples_per_second": 18.996,
-      "eval_steps_per_second": 2.374,
-      "eval_wer": 0.45303519407920634,
       "step": 3000
     },
     {
-      "epoch": 20.26,
-      "learning_rate": 7.560400227771903e-05,
-      "loss": 0.2243,
       "step": 3100
     },
     {
-      "epoch": 20.26,
-      "eval_loss": 0.3523178994655609,
-      "eval_runtime": 174.1671,
-      "eval_samples_per_second": 18.97,
-      "eval_steps_per_second": 2.371,
-      "eval_wer": 0.4571293598929218,
       "step": 3100
     },
     {
-      "epoch": 20.91,
-      "learning_rate": 7.479053119661597e-05,
-      "loss": 0.1891,
       "step": 3200
     },
     {
-      "epoch": 20.91,
-      "eval_loss": 0.337533563375473,
-      "eval_runtime": 174.612,
-      "eval_samples_per_second": 18.922,
-      "eval_steps_per_second": 2.365,
-      "eval_wer": 0.4541374694905913,
       "step": 3200
     },
     {
-      "epoch": 21.57,
-      "learning_rate": 7.39770601155129e-05,
-      "loss": 0.2033,
       "step": 3300
     },
     {
-      "epoch": 21.57,
-      "eval_loss": 0.3634466230869293,
-      "eval_runtime": 174.6521,
-      "eval_samples_per_second": 18.918,
-      "eval_steps_per_second": 2.365,
-      "eval_wer": 0.4579166994724825,
       "step": 3300
     },
     {
-      "epoch": 22.22,
-      "learning_rate": 7.316358903440983e-05,
-      "loss": 0.2035,
       "step": 3400
     },
     {
-      "epoch": 22.22,
-      "eval_loss": 0.3793589174747467,
-      "eval_runtime": 174.394,
-      "eval_samples_per_second": 18.946,
-      "eval_steps_per_second": 2.368,
-      "eval_wer": 0.4555546807338005,
       "step": 3400
     },
     {
-      "epoch": 22.87,
-      "learning_rate": 7.235011795330676e-05,
-      "loss": 0.1867,
       "step": 3500
     },
     {
-      "epoch": 22.87,
-      "eval_loss": 0.37910905480384827,
-      "eval_runtime": 174.9971,
-      "eval_samples_per_second": 18.88,
-      "eval_steps_per_second": 2.36,
-      "eval_wer": 0.454924809070152,
       "step": 3500
     },
     {
-      "epoch": 23.53,
-      "learning_rate": 7.15366468722037e-05,
-      "loss": 0.1956,
       "step": 3600
     },
     {
-      "epoch": 23.53,
-      "eval_loss": 0.3568515479564667,
-      "eval_runtime": 174.799,
-      "eval_samples_per_second": 18.902,
-      "eval_steps_per_second": 2.363,
-      "eval_wer": 0.45760176364065824,
       "step": 3600
     },
     {
-      "epoch": 24.18,
-      "learning_rate": 7.072317579110062e-05,
-      "loss": 0.1826,
       "step": 3700
     },
     {
-      "epoch": 24.18,
-      "eval_loss": 0.3747410178184509,
-      "eval_runtime": 175.1918,
-      "eval_samples_per_second": 18.859,
-      "eval_steps_per_second": 2.357,
-      "eval_wer": 0.4543736713644595,
       "step": 3700
     },
     {
-      "epoch": 24.83,
-      "learning_rate": 6.99178394208086e-05,
-      "loss": 0.1867,
       "step": 3800
     },
     {
-      "epoch": 24.83,
-      "eval_loss": 0.36731651425361633,
-      "eval_runtime": 175.3726,
-      "eval_samples_per_second": 18.84,
-      "eval_steps_per_second": 2.355,
-      "eval_wer": 0.45366506574285487,
       "step": 3800
     },
     {
-      "epoch": 25.49,
-      "learning_rate": 6.910436833970553e-05,
-      "loss": 0.1902,
       "step": 3900
     },
     {
-      "epoch": 25.49,
-      "eval_loss": 0.3835786283016205,
-      "eval_runtime": 182.8434,
-      "eval_samples_per_second": 18.07,
-      "eval_steps_per_second": 2.259,
-      "eval_wer": 0.4522478544996457,
       "step": 3900
     },
     {
-      "epoch": 26.14,
-      "learning_rate": 6.829089725860246e-05,
-      "loss": 0.1786,
       "step": 4000
     },
     {
-      "epoch": 26.14,
-      "eval_loss": 0.3528241813182831,
-      "eval_runtime": 182.8588,
-      "eval_samples_per_second": 18.069,
-      "eval_steps_per_second": 2.259,
-      "eval_wer": 0.4485473584757106,
       "step": 4000
     },
     {
-      "epoch": 26.79,
-      "learning_rate": 6.74774261774994e-05,
-      "loss": 0.178,
       "step": 4100
     },
     {
-      "epoch": 26.79,
-      "eval_loss": 0.3756342828273773,
-      "eval_runtime": 183.4843,
-      "eval_samples_per_second": 18.007,
-      "eval_steps_per_second": 2.251,
-      "eval_wer": 0.45303519407920634,
       "step": 4100
     },
     {
-      "epoch": 27.45,
-      "learning_rate": 6.666395509639632e-05,
-      "loss": 0.1783,
       "step": 4200
     },
     {
-      "epoch": 27.45,
-      "eval_loss": 0.38552403450012207,
-      "eval_runtime": 185.3761,
-      "eval_samples_per_second": 17.823,
-      "eval_steps_per_second": 2.228,
-      "eval_wer": 0.4515392488780411,
       "step": 4200
     },
     {
-      "epoch": 28.1,
-      "learning_rate": 6.585048401529326e-05,
-      "loss": 0.1747,
       "step": 4300
     },
     {
-      "epoch": 28.1,
-      "eval_loss": 0.3594723045825958,
-      "eval_runtime": 184.1815,
-      "eval_samples_per_second": 17.939,
-      "eval_steps_per_second": 2.242,
-      "eval_wer": 0.4475238170222817,
       "step": 4300
     },
     {
-      "epoch": 28.76,
-      "learning_rate": 6.503701293419018e-05,
-      "loss": 0.1776,
       "step": 4400
     },
     {
-      "epoch": 28.76,
-      "eval_loss": 0.3899536728858948,
-      "eval_runtime": 183.8028,
-      "eval_samples_per_second": 17.976,
-      "eval_steps_per_second": 2.247,
-      "eval_wer": 0.45303519407920634,
       "step": 4400
     },
     {
-      "epoch": 29.41,
-      "learning_rate": 6.422354185308712e-05,
-      "loss": 0.1615,
       "step": 4500
     },
     {
-      "epoch": 29.41,
-      "eval_loss": 0.37925612926483154,
-      "eval_runtime": 184.3645,
-      "eval_samples_per_second": 17.921,
-      "eval_steps_per_second": 2.24,
-      "eval_wer": 0.4487048263916227,
       "step": 4500
     },
     {
-      "epoch": 30.07,
-      "learning_rate": 6.341007077198405e-05,
-      "loss": 0.1665,
       "step": 4600
     },
     {
-      "epoch": 30.07,
-      "eval_loss": 0.3769548237323761,
-      "eval_runtime": 185.5661,
-      "eval_samples_per_second": 17.805,
-      "eval_steps_per_second": 2.226,
-      "eval_wer": 0.4504369734666562,
       "step": 4600
     },
     {
-      "epoch": 30.72,
-      "learning_rate": 6.2596599690881e-05,
-      "loss": 0.1562,
       "step": 4700
     },
     {
-      "epoch": 30.72,
-      "eval_loss": 0.38725826144218445,
-      "eval_runtime": 184.2843,
-      "eval_samples_per_second": 17.929,
-      "eval_steps_per_second": 2.241,
-      "eval_wer": 0.45090937721439256,
       "step": 4700
     },
     {
-      "epoch": 31.37,
-      "learning_rate": 6.178312860977793e-05,
-      "loss": 0.1558,
       "step": 4800
     },
     {
-      "epoch": 31.37,
-      "eval_loss": 0.37403690814971924,
-      "eval_runtime": 184.7842,
-      "eval_samples_per_second": 17.88,
-      "eval_steps_per_second": 2.235,
-      "eval_wer": 0.4494134320132273,
       "step": 4800
     },
     {
-      "epoch": 32.03,
-      "learning_rate": 6.0969657528674864e-05,
-      "loss": 0.1574,
       "step": 4900
     },
     {
-      "epoch": 32.03,
-      "eval_loss": 0.38782382011413574,
-      "eval_runtime": 185.4497,
-      "eval_samples_per_second": 17.816,
-      "eval_steps_per_second": 2.227,
-      "eval_wer": 0.44933469805527126,
       "step": 4900
     },
     {
-      "epoch": 32.68,
-      "learning_rate": 6.0156186447571796e-05,
-      "loss": 0.152,
       "step": 5000
     },
     {
-      "epoch": 32.68,
-      "eval_loss": 0.36702463030815125,
-      "eval_runtime": 184.067,
-      "eval_samples_per_second": 17.95,
-      "eval_steps_per_second": 2.244,
-      "eval_wer": 0.44933469805527126,
       "step": 5000
     },
     {
-      "epoch": 33.33,
-      "learning_rate": 5.934271536646873e-05,
-      "loss": 0.1477,
       "step": 5100
     },
     {
-      "epoch": 33.33,
-      "eval_loss": 0.36524683237075806,
-      "eval_runtime": 186.7144,
-      "eval_samples_per_second": 17.695,
-      "eval_steps_per_second": 2.212,
-      "eval_wer": 0.4496496338870955,
       "step": 5100
     },
     {
-      "epoch": 33.98,
-      "learning_rate": 5.852924428536566e-05,
-      "loss": 0.1561,
       "step": 5200
     },
     {
-      "epoch": 33.98,
-      "eval_loss": 0.3987789452075958,
-      "eval_runtime": 177.1487,
-      "eval_samples_per_second": 18.651,
-      "eval_steps_per_second": 2.331,
-      "eval_wer": 0.4535863317848988,
       "step": 5200
-    },
-    {
-      "epoch": 34.64,
-      "learning_rate": 5.771577320426259e-05,
-      "loss": 0.1441,
-      "step": 5300
-    },
-    {
-      "epoch": 34.64,
-      "eval_loss": 0.37290704250335693,
-      "eval_runtime": 178.4122,
-      "eval_samples_per_second": 18.519,
-      "eval_steps_per_second": 2.315,
-      "eval_wer": 0.4471301472325014,
-      "step": 5300
-    },
-    {
-      "epoch": 35.29,
-      "learning_rate": 5.691043683397056e-05,
-      "loss": 0.1462,
-      "step": 5400
-    },
-    {
-      "epoch": 35.29,
-      "eval_loss": 0.3913721740245819,
-      "eval_runtime": 175.0751,
-      "eval_samples_per_second": 18.872,
-      "eval_steps_per_second": 2.359,
-      "eval_wer": 0.4488622943075348,
-      "step": 5400
-    },
-    {
-      "epoch": 35.94,
-      "learning_rate": 5.6096965752867494e-05,
-      "loss": 0.1388,
-      "step": 5500
-    },
-    {
-      "epoch": 35.94,
-      "eval_loss": 0.3886808454990387,
-      "eval_runtime": 175.0289,
-      "eval_samples_per_second": 18.877,
-      "eval_steps_per_second": 2.36,
-      "eval_wer": 0.44807495472797415,
-      "step": 5500
-    },
-    {
-      "epoch": 36.6,
-      "learning_rate": 5.5283494671764426e-05,
-      "loss": 0.1362,
-      "step": 5600
-    },
-    {
-      "epoch": 36.6,
-      "eval_loss": 0.3816515803337097,
-      "eval_runtime": 175.1136,
-      "eval_samples_per_second": 18.868,
-      "eval_steps_per_second": 2.358,
-      "eval_wer": 0.445476734115424,
-      "step": 5600
-    },
-    {
-      "epoch": 37.25,
-      "learning_rate": 5.447002359066136e-05,
-      "loss": 0.1439,
-      "step": 5700
-    },
-    {
-      "epoch": 37.25,
-      "eval_loss": 0.39244014024734497,
-      "eval_runtime": 175.9891,
-      "eval_samples_per_second": 18.774,
-      "eval_steps_per_second": 2.347,
-      "eval_wer": 0.446657743484765,
-      "step": 5700
-    },
-    {
-      "epoch": 37.91,
-      "learning_rate": 5.365655250955829e-05,
-      "loss": 0.1299,
-      "step": 5800
-    },
-    {
-      "epoch": 37.91,
-      "eval_loss": 0.3693729341030121,
-      "eval_runtime": 176.2438,
-      "eval_samples_per_second": 18.747,
-      "eval_steps_per_second": 2.343,
-      "eval_wer": 0.4430359814187859,
-      "step": 5800
     }
   ],
-  "max_steps": 12393,
   "num_train_epochs": 81,
-  "total_flos": 2.5038038866869117e+19,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 27.657824933687003,
+  "global_step": 5200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.53,
       "learning_rate": 0.0001,
+      "loss": 0.9903,
       "step": 100
     },
     {
+      "epoch": 0.53,
+      "eval_loss": 0.3881553113460541,
+      "eval_runtime": 209.4743,
+      "eval_samples_per_second": 19.344,
+      "eval_steps_per_second": 2.42,
+      "eval_wer": 0.4149805202965942,
       "step": 100
     },
     {
+      "epoch": 1.06,
+      "learning_rate": 9.933897408778425e-05,
+      "loss": 0.6655,
       "step": 200
     },
     {
+      "epoch": 1.06,
+      "eval_loss": 0.33381059765815735,
+      "eval_runtime": 209.3188,
+      "eval_samples_per_second": 19.358,
+      "eval_steps_per_second": 2.422,
+      "eval_wer": 0.35063466130451176,
       "step": 200
     },
     {
+      "epoch": 1.59,
+      "learning_rate": 9.867794817556849e-05,
+      "loss": 0.5789,
       "step": 300
     },
     {
+      "epoch": 1.59,
+      "eval_loss": 0.30856332182884216,
+      "eval_runtime": 210.7573,
+      "eval_samples_per_second": 19.226,
+      "eval_steps_per_second": 2.406,
+      "eval_wer": 0.34303129320095516,
       "step": 300
     },
     {
+      "epoch": 2.13,
+      "learning_rate": 9.801692226335273e-05,
+      "loss": 0.5539,
       "step": 400
     },
     {
+      "epoch": 2.13,
+      "eval_loss": 0.3059796392917633,
+      "eval_runtime": 210.5815,
+      "eval_samples_per_second": 19.242,
+      "eval_steps_per_second": 2.408,
+      "eval_wer": 0.31789619203217295,
       "step": 400
     },
     {
+      "epoch": 2.66,
+      "learning_rate": 9.735589635113697e-05,
+      "loss": 0.5041,
       "step": 500
     },
     {
+      "epoch": 2.66,
+      "eval_loss": 0.3157837688922882,
+      "eval_runtime": 211.1395,
+      "eval_samples_per_second": 19.191,
+      "eval_steps_per_second": 2.401,
+      "eval_wer": 0.3104813371873822,
       "step": 500
     },
     {
+      "epoch": 3.19,
+      "learning_rate": 9.669487043892121e-05,
+      "loss": 0.4771,
       "step": 600
     },
     {
+      "epoch": 3.19,
+      "eval_loss": 0.3155499994754791,
+      "eval_runtime": 213.4785,
+      "eval_samples_per_second": 18.981,
+      "eval_steps_per_second": 2.375,
+      "eval_wer": 0.32072389091366094,
       "step": 600
     },
     {
+      "epoch": 3.72,
+      "learning_rate": 9.603384452670545e-05,
+      "loss": 0.448,
       "step": 700
     },
     {
+      "epoch": 3.72,
+      "eval_loss": 0.29987651109695435,
+      "eval_runtime": 213.1151,
+      "eval_samples_per_second": 19.013,
+      "eval_steps_per_second": 2.379,
+      "eval_wer": 0.3066482342591429,
       "step": 700
     },
     {
+      "epoch": 4.25,
+      "learning_rate": 9.537281861448969e-05,
+      "loss": 0.4454,
       "step": 800
     },
     {
+      "epoch": 4.25,
+      "eval_loss": 0.3030799925327301,
+      "eval_runtime": 214.1216,
+      "eval_samples_per_second": 18.924,
+      "eval_steps_per_second": 2.368,
+      "eval_wer": 0.32084956641950485,
       "step": 800
     },
     {
+      "epoch": 4.79,
+      "learning_rate": 9.471179270227393e-05,
+      "loss": 0.3857,
       "step": 900
     },
     {
+      "epoch": 4.79,
+      "eval_loss": 0.29331761598587036,
+      "eval_runtime": 214.8248,
+      "eval_samples_per_second": 18.862,
+      "eval_steps_per_second": 2.36,
+      "eval_wer": 0.2947718989568933,
       "step": 900
     },
     {
+      "epoch": 5.32,
+      "learning_rate": 9.405076679005818e-05,
+      "loss": 0.3722,
       "step": 1000
     },
     {
+      "epoch": 5.32,
+      "eval_loss": 0.28789493441581726,
+      "eval_runtime": 214.8964,
+      "eval_samples_per_second": 18.856,
+      "eval_steps_per_second": 2.359,
+      "eval_wer": 0.28578610028905366,
       "step": 1000
     },
     {
+      "epoch": 5.85,
+      "learning_rate": 9.338974087784242e-05,
+      "loss": 0.371,
       "step": 1100
     },
     {
+      "epoch": 5.85,
+      "eval_loss": 0.2818315625190735,
+      "eval_runtime": 215.1931,
+      "eval_samples_per_second": 18.83,
+      "eval_steps_per_second": 2.356,
+      "eval_wer": 0.2755435465627749,
       "step": 1100
     },
     {
+      "epoch": 6.38,
+      "learning_rate": 9.272871496562666e-05,
+      "loss": 0.358,
       "step": 1200
     },
     {
+      "epoch": 6.38,
+      "eval_loss": 0.30174919962882996,
+      "eval_runtime": 215.3959,
+      "eval_samples_per_second": 18.812,
+      "eval_steps_per_second": 2.354,
+      "eval_wer": 0.2778685434208873,
       "step": 1200
     },
     {
+      "epoch": 6.91,
+      "learning_rate": 9.20676890534109e-05,
+      "loss": 0.3459,
       "step": 1300
     },
     {
+      "epoch": 6.91,
+      "eval_loss": 0.2872300148010254,
+      "eval_runtime": 216.2384,
+      "eval_samples_per_second": 18.739,
+      "eval_steps_per_second": 2.345,
+      "eval_wer": 0.27422395375141384,
       "step": 1300
     },
     {
+      "epoch": 7.45,
+      "learning_rate": 9.140666314119514e-05,
+      "loss": 0.3293,
       "step": 1400
     },
     {
+      "epoch": 7.45,
+      "eval_loss": 0.31064674258232117,
+      "eval_runtime": 216.4276,
+      "eval_samples_per_second": 18.722,
+      "eval_steps_per_second": 2.343,
+      "eval_wer": 0.2762347618449164,
       "step": 1400
     },
     {
+      "epoch": 7.98,
+      "learning_rate": 9.074563722897938e-05,
+      "loss": 0.3305,
       "step": 1500
     },
     {
+      "epoch": 7.98,
+      "eval_loss": 0.2984163761138916,
+      "eval_runtime": 216.6335,
+      "eval_samples_per_second": 18.704,
+      "eval_steps_per_second": 2.34,
+      "eval_wer": 0.2746638180218675,
       "step": 1500
     },
     {
+      "epoch": 8.51,
+      "learning_rate": 9.008461131676362e-05,
+      "loss": 0.322,
       "step": 1600
     },
     {
+      "epoch": 8.51,
+      "eval_loss": 0.3066250681877136,
+      "eval_runtime": 217.5565,
+      "eval_samples_per_second": 18.625,
+      "eval_steps_per_second": 2.33,
+      "eval_wer": 0.2688199070001257,
       "step": 1600
     },
     {
+      "epoch": 9.04,
+      "learning_rate": 8.942358540454786e-05,
+      "loss": 0.3051,
       "step": 1700
     },
     {
+      "epoch": 9.04,
+      "eval_loss": 0.3064703941345215,
+      "eval_runtime": 218.1465,
+      "eval_samples_per_second": 18.575,
+      "eval_steps_per_second": 2.324,
+      "eval_wer": 0.26743747643584265,
       "step": 1700
     },
     {
+      "epoch": 9.57,
+      "learning_rate": 8.87625594923321e-05,
+      "loss": 0.2906,
       "step": 1800
     },
     {
+      "epoch": 9.57,
+      "eval_loss": 0.2988126277923584,
+      "eval_runtime": 218.1544,
+      "eval_samples_per_second": 18.574,
+      "eval_steps_per_second": 2.324,
+      "eval_wer": 0.26209626743747644,
       "step": 1800
     },
     {
+      "epoch": 10.11,
+      "learning_rate": 8.810153358011635e-05,
+      "loss": 0.2908,
       "step": 1900
     },
     {
+      "epoch": 10.11,
+      "eval_loss": 0.31721261143684387,
+      "eval_runtime": 217.8764,
+      "eval_samples_per_second": 18.598,
+      "eval_steps_per_second": 2.327,
+      "eval_wer": 0.26448410204851075,
       "step": 1900
     },
     {
+      "epoch": 10.64,
+      "learning_rate": 8.744050766790059e-05,
+      "loss": 0.2644,
       "step": 2000
     },
     {
+      "epoch": 10.64,
+      "eval_loss": 0.328941285610199,
+      "eval_runtime": 217.9159,
+      "eval_samples_per_second": 18.594,
+      "eval_steps_per_second": 2.327,
+      "eval_wer": 0.25851451552092497,
       "step": 2000
     },
     {
+      "epoch": 11.17,
+      "learning_rate": 8.677948175568483e-05,
+      "loss": 0.2895,
       "step": 2100
     },
     {
+      "epoch": 11.17,
+      "eval_loss": 0.32557472586631775,
+      "eval_runtime": 218.4939,
+      "eval_samples_per_second": 18.545,
+      "eval_steps_per_second": 2.32,
+      "eval_wer": 0.25681789619203216,
       "step": 2100
     },
     {
+      "epoch": 11.7,
+      "learning_rate": 8.611845584346907e-05,
+      "loss": 0.2764,
       "step": 2200
     },
     {
+      "epoch": 11.7,
+      "eval_loss": 0.31102919578552246,
+      "eval_runtime": 221.5496,
+      "eval_samples_per_second": 18.289,
+      "eval_steps_per_second": 2.288,
+      "eval_wer": 0.2536760085459344,
       "step": 2200
     },
     {
+      "epoch": 12.23,
+      "learning_rate": 8.545742993125331e-05,
+      "loss": 0.2712,
       "step": 2300
     },
     {
+      "epoch": 12.23,
+      "eval_loss": 0.31744903326034546,
+      "eval_runtime": 229.9509,
+      "eval_samples_per_second": 17.621,
+      "eval_steps_per_second": 2.205,
+      "eval_wer": 0.25920573080306647,
       "step": 2300
     },
     {
+      "epoch": 12.76,
+      "learning_rate": 8.479640401903755e-05,
+      "loss": 0.2688,
       "step": 2400
     },
     {
+      "epoch": 12.76,
+      "eval_loss": 0.3221331238746643,
+      "eval_runtime": 231.8744,
+      "eval_samples_per_second": 17.475,
+      "eval_steps_per_second": 2.187,
+      "eval_wer": 0.25826316450923714,
       "step": 2400
     },
     {
+      "epoch": 13.3,
+      "learning_rate": 8.413537810682179e-05,
+      "loss": 0.2509,
       "step": 2500
     },
     {
+      "epoch": 13.3,
+      "eval_loss": 0.32597509026527405,
+      "eval_runtime": 232.2681,
+      "eval_samples_per_second": 17.445,
+      "eval_steps_per_second": 2.183,
+      "eval_wer": 0.2532989820284027,
       "step": 2500
     },
     {
+      "epoch": 13.83,
+      "learning_rate": 8.34809624537282e-05,
+      "loss": 0.2419,
       "step": 2600
     },
     {
+      "epoch": 13.83,
+      "eval_loss": 0.3077153265476227,
+      "eval_runtime": 232.0814,
+      "eval_samples_per_second": 17.459,
+      "eval_steps_per_second": 2.185,
+      "eval_wer": 0.25530979012190524,
       "step": 2600
     },
     {
+      "epoch": 14.36,
+      "learning_rate": 8.281993654151243e-05,
+      "loss": 0.2429,
       "step": 2700
     },
     {
+      "epoch": 14.36,
+      "eval_loss": 0.32647523283958435,
+      "eval_runtime": 232.8137,
+      "eval_samples_per_second": 17.404,
+      "eval_steps_per_second": 2.178,
+      "eval_wer": 0.2588287042855347,
       "step": 2700
     },
     {
+      "epoch": 14.89,
+      "learning_rate": 8.215891062929667e-05,
+      "loss": 0.2358,
       "step": 2800
     },
     {
+      "epoch": 14.89,
+      "eval_loss": 0.3333515226840973,
+      "eval_runtime": 232.1937,
+      "eval_samples_per_second": 17.451,
+      "eval_steps_per_second": 2.184,
+      "eval_wer": 0.25380168405177833,
       "step": 2800
     },
     {
+      "epoch": 15.42,
+      "learning_rate": 8.149788471708092e-05,
+      "loss": 0.2415,
       "step": 2900
     },
     {
+      "epoch": 15.42,
+      "eval_loss": 0.3471778631210327,
+      "eval_runtime": 232.185,
+      "eval_samples_per_second": 17.452,
+      "eval_steps_per_second": 2.184,
+      "eval_wer": 0.24921452808847555,
       "step": 2900
     },
     {
+      "epoch": 15.95,
+      "learning_rate": 8.083685880486515e-05,
+      "loss": 0.2384,
       "step": 3000
     },
     {
+      "epoch": 15.95,
+      "eval_loss": 0.3481573760509491,
+      "eval_runtime": 232.291,
+      "eval_samples_per_second": 17.444,
+      "eval_steps_per_second": 2.183,
+      "eval_wer": 0.2548070880985296,
       "step": 3000
     },
     {
+      "epoch": 16.49,
+      "learning_rate": 8.017583289264939e-05,
+      "loss": 0.2316,
       "step": 3100
     },
     {
+      "epoch": 16.49,
+      "eval_loss": 0.3469015955924988,
+      "eval_runtime": 232.5701,
+      "eval_samples_per_second": 17.423,
+      "eval_steps_per_second": 2.18,
+      "eval_wer": 0.24695236898328515,
       "step": 3100
     },
     {
+      "epoch": 17.02,
+      "learning_rate": 7.951480698043363e-05,
+      "loss": 0.225,
       "step": 3200
     },
     {
+      "epoch": 17.02,
+      "eval_loss": 0.3405754566192627,
+      "eval_runtime": 220.3171,
+      "eval_samples_per_second": 18.392,
+      "eval_steps_per_second": 2.301,
+      "eval_wer": 0.2588915420384567,
       "step": 3200
     },
     {
+      "epoch": 17.55,
+      "learning_rate": 7.885378106821787e-05,
+      "loss": 0.2108,
       "step": 3300
     },
     {
+      "epoch": 17.55,
+      "eval_loss": 0.34463852643966675,
+      "eval_runtime": 223.0068,
+      "eval_samples_per_second": 18.17,
+      "eval_steps_per_second": 2.273,
+      "eval_wer": 0.25072263415860246,
       "step": 3300
     },
     {
+      "epoch": 18.08,
+      "learning_rate": 7.819275515600211e-05,
+      "loss": 0.2179,
       "step": 3400
     },
     {
+      "epoch": 18.08,
+      "eval_loss": 0.34099045395851135,
+      "eval_runtime": 221.6762,
+      "eval_samples_per_second": 18.279,
+      "eval_steps_per_second": 2.287,
+      "eval_wer": 0.248586150559256,
       "step": 3400
     },
     {
+      "epoch": 18.62,
+      "learning_rate": 7.753172924378636e-05,
+      "loss": 0.2056,
       "step": 3500
     },
     {
+      "epoch": 18.62,
+      "eval_loss": 0.33803310990333557,
+      "eval_runtime": 221.1741,
+      "eval_samples_per_second": 18.32,
+      "eval_steps_per_second": 2.292,
+      "eval_wer": 0.248586150559256,
       "step": 3500
     },
     {
+      "epoch": 19.15,
+      "learning_rate": 7.687731359069276e-05,
+      "loss": 0.2088,
       "step": 3600
     },
     {
+      "epoch": 19.15,
+      "eval_loss": 0.33515065908432007,
+      "eval_runtime": 221.8587,
+      "eval_samples_per_second": 18.264,
+      "eval_steps_per_second": 2.285,
+      "eval_wer": 0.24437602111348497,
       "step": 3600
     },
     {
+      "epoch": 19.68,
+      "learning_rate": 7.6216287678477e-05,
+      "loss": 0.1994,
       "step": 3700
     },
     {
+      "epoch": 19.68,
+      "eval_loss": 0.3439195454120636,
+      "eval_runtime": 222.8182,
+      "eval_samples_per_second": 18.185,
+      "eval_steps_per_second": 2.275,
+      "eval_wer": 0.2422395375141385,
       "step": 3700
     },
     {
+      "epoch": 20.21,
+      "learning_rate": 7.555526176626125e-05,
+      "loss": 0.2027,
       "step": 3800
     },
     {
+      "epoch": 20.21,
+      "eval_loss": 0.37243127822875977,
+      "eval_runtime": 222.5733,
+      "eval_samples_per_second": 18.205,
+      "eval_steps_per_second": 2.278,
+      "eval_wer": 0.24337061706673369,
       "step": 3800
     },
     {
+      "epoch": 20.74,
+      "learning_rate": 7.489423585404549e-05,
+      "loss": 0.2044,
       "step": 3900
     },
     {
+      "epoch": 20.74,
+      "eval_loss": 0.3538868725299835,
+      "eval_runtime": 222.1787,
+      "eval_samples_per_second": 18.238,
+      "eval_steps_per_second": 2.282,
+      "eval_wer": 0.2501570943823049,
       "step": 3900
     },
     {
+      "epoch": 21.28,
+      "learning_rate": 7.423320994182971e-05,
+      "loss": 0.1932,
       "step": 4000
     },
     {
+      "epoch": 21.28,
+      "eval_loss": 0.34956350922584534,
+      "eval_runtime": 221.2804,
+      "eval_samples_per_second": 18.312,
+      "eval_steps_per_second": 2.291,
+      "eval_wer": 0.25304763101671485,
       "step": 4000
     },
     {
+      "epoch": 21.81,
+      "learning_rate": 7.357218402961397e-05,
+      "loss": 0.1903,
       "step": 4100
     },
     {
+      "epoch": 21.81,
+      "eval_loss": 0.3472049832344055,
+      "eval_runtime": 221.4938,
+      "eval_samples_per_second": 18.294,
+      "eval_steps_per_second": 2.289,
+      "eval_wer": 0.2465753424657534,
       "step": 4100
     },
     {
+      "epoch": 22.34,
+      "learning_rate": 7.291115811739821e-05,
+      "loss": 0.1895,
       "step": 4200
     },
     {
+      "epoch": 22.34,
+      "eval_loss": 0.34313011169433594,
+      "eval_runtime": 222.6794,
+      "eval_samples_per_second": 18.197,
+      "eval_steps_per_second": 2.277,
+      "eval_wer": 0.24286791504335806,
       "step": 4200
     },
     {
+      "epoch": 22.87,
+      "learning_rate": 7.225013220518244e-05,
+      "loss": 0.1865,
       "step": 4300
     },
     {
+      "epoch": 22.87,
+      "eval_loss": 0.3476735055446625,
+      "eval_runtime": 222.0492,
+      "eval_samples_per_second": 18.248,
+      "eval_steps_per_second": 2.283,
+      "eval_wer": 0.24481588538393867,
       "step": 4300
     },
     {
+      "epoch": 23.4,
+      "learning_rate": 7.158910629296669e-05,
+      "loss": 0.1851,
       "step": 4400
     },
     {
+      "epoch": 23.4,
+      "eval_loss": 0.3553401231765747,
+      "eval_runtime": 223.2051,
+      "eval_samples_per_second": 18.154,
+      "eval_steps_per_second": 2.271,
+      "eval_wer": 0.23922332537388463,
       "step": 4400
     },
     {
+      "epoch": 23.93,
+      "learning_rate": 7.092808038075093e-05,
+      "loss": 0.179,
       "step": 4500
     },
     {
+      "epoch": 23.93,
+      "eval_loss": 0.3559369742870331,
+      "eval_runtime": 226.903,
+      "eval_samples_per_second": 17.858,
+      "eval_steps_per_second": 2.234,
+      "eval_wer": 0.24255372627874827,
       "step": 4500
     },
     {
+      "epoch": 24.47,
+      "learning_rate": 7.026705446853516e-05,
+      "loss": 0.1797,
       "step": 4600
     },
     {
+      "epoch": 24.47,
+      "eval_loss": 0.3819045424461365,
+      "eval_runtime": 222.3201,
+      "eval_samples_per_second": 18.226,
+      "eval_steps_per_second": 2.28,
+      "eval_wer": 0.24644966695990952,
       "step": 4600
     },
     {
+      "epoch": 25.0,
+      "learning_rate": 6.960602855631942e-05,
+      "loss": 0.1889,
       "step": 4700
     },
     {
+      "epoch": 25.0,
+      "eval_loss": 0.3539634346961975,
+      "eval_runtime": 224.8629,
+      "eval_samples_per_second": 18.02,
+      "eval_steps_per_second": 2.255,
+      "eval_wer": 0.24073143144401157,
       "step": 4700
     },
     {
+      "epoch": 25.53,
+      "learning_rate": 6.894500264410366e-05,
+      "loss": 0.1679,
       "step": 4800
     },
     {
+      "epoch": 25.53,
+      "eval_loss": 0.3614364564418793,
+      "eval_runtime": 233.686,
+      "eval_samples_per_second": 17.34,
+      "eval_steps_per_second": 2.17,
+      "eval_wer": 0.2404172426794018,
       "step": 4800
     },
     {
+      "epoch": 26.06,
+      "learning_rate": 6.828397673188788e-05,
+      "loss": 0.1667,
       "step": 4900
     },
     {
+      "epoch": 26.06,
+      "eval_loss": 0.3456764817237854,
+      "eval_runtime": 234.7624,
+      "eval_samples_per_second": 17.26,
+      "eval_steps_per_second": 2.16,
+      "eval_wer": 0.24230237526706044,
       "step": 4900
     },
     {
+      "epoch": 26.59,
+      "learning_rate": 6.762295081967214e-05,
+      "loss": 0.1652,
       "step": 5000
     },
     {
+      "epoch": 26.59,
+      "eval_loss": 0.35390254855155945,
+      "eval_runtime": 235.3962,
+      "eval_samples_per_second": 17.214,
+      "eval_steps_per_second": 2.154,
+      "eval_wer": 0.23991454065602613,
       "step": 5000
     },
     {
+      "epoch": 27.13,
+      "learning_rate": 6.696192490745638e-05,
+      "loss": 0.1745,
       "step": 5100
     },
     {
+      "epoch": 27.13,
+      "eval_loss": 0.3428182601928711,
+      "eval_runtime": 234.2975,
+      "eval_samples_per_second": 17.294,
+      "eval_steps_per_second": 2.164,
+      "eval_wer": 0.2343219806459721,
       "step": 5100
     },
     {
+      "epoch": 27.66,
+      "learning_rate": 6.630089899524061e-05,
+      "loss": 0.1596,
       "step": 5200
     },
     {
+      "epoch": 27.66,
+      "eval_loss": 0.33925893902778625,
+      "eval_runtime": 236.9973,
+      "eval_samples_per_second": 17.097,
+      "eval_steps_per_second": 2.139,
+      "eval_wer": 0.234447656151816,
       "step": 5200
     }
   ],
+  "max_steps": 15228,
   "num_train_epochs": 81,
+  "total_flos": 2.2833398907064197e+19,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:429d56e7f33237cdebb585dfadbe12372aa7b7c12ffbf8faf5185cef71f533cb
 size 3003

 version https://git-lfs.github.com/spec/v1
+oid sha256:d836bf9d40ae4e5da4460295756209b2d5ae5844a5759213fe101c783be365a6
 size 3003