Upload 8 files

Browse files

Files changed (8) hide show

config.json +107 -0
generation_config.json +7 -0
optimizer.pt +3 -0
pytorch_model.bin +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
trainer_state.json +1456 -0
training_args.bin +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,107 @@

+{
+  "_commit_hash": null,
+  "_name_or_path": "/disk1/data/users/yanyang/models/microsoft/git-base",
+  "architectures": [
+    "GitForCausalLM"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 101,
+  "classifier_dropout": null,
+  "eos_token_id": 102,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 1024,
+  "model_type": "git",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 6,
+  "num_image_with_embedding": null,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": null,
+  "use_cache": true,
+  "vision_config": {
+    "_name_or_path": "",
+    "add_cross_attention": false,
+    "architectures": null,
+    "attention_dropout": 0.0,
+    "bad_words_ids": null,
+    "begin_suppress_tokens": null,
+    "bos_token_id": null,
+    "chunk_size_feed_forward": 0,
+    "cross_attention_hidden_size": null,
+    "decoder_start_token_id": null,
+    "diversity_penalty": 0.0,
+    "do_sample": false,
+    "dropout": 0.0,
+    "early_stopping": false,
+    "encoder_no_repeat_ngram_size": 0,
+    "eos_token_id": null,
+    "exponential_decay_length_penalty": null,
+    "finetuning_task": null,
+    "forced_bos_token_id": null,
+    "forced_eos_token_id": null,
+    "hidden_act": "quick_gelu",
+    "hidden_size": 768,
+    "id2label": {
+      "0": "LABEL_0",
+      "1": "LABEL_1"
+    },
+    "image_size": 224,
+    "initializer_factor": 1.0,
+    "initializer_range": 0.02,
+    "intermediate_size": 3072,
+    "is_decoder": false,
+    "is_encoder_decoder": false,
+    "label2id": {
+      "LABEL_0": 0,
+      "LABEL_1": 1
+    },
+    "layer_norm_eps": 1e-05,
+    "length_penalty": 1.0,
+    "max_length": 20,
+    "min_length": 0,
+    "model_type": "git_vision_model",
+    "no_repeat_ngram_size": 0,
+    "num_attention_heads": 12,
+    "num_beam_groups": 1,
+    "num_beams": 1,
+    "num_channels": 3,
+    "num_hidden_layers": 12,
+    "num_return_sequences": 1,
+    "output_attentions": false,
+    "output_hidden_states": false,
+    "output_scores": false,
+    "pad_token_id": null,
+    "patch_size": 16,
+    "prefix": null,
+    "problem_type": null,
+    "projection_dim": 512,
+    "pruned_heads": {},
+    "remove_invalid_values": false,
+    "repetition_penalty": 1.0,
+    "return_dict": true,
+    "return_dict_in_generate": false,
+    "sep_token_id": null,
+    "suppress_tokens": null,
+    "task_specific_params": null,
+    "temperature": 1.0,
+    "tf_legacy_loss": false,
+    "tie_encoder_decoder": false,
+    "tie_word_embeddings": true,
+    "tokenizer_class": null,
+    "top_k": 50,
+    "top_p": 1.0,
+    "torch_dtype": null,
+    "torchscript": false,
+    "transformers_version": "4.32.0.dev0",
+    "typical_p": 1.0,
+    "use_bfloat16": false
+  },
+  "vocab_size": 30522
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 101,
+  "eos_token_id": 102,
+  "pad_token_id": 0,
+  "transformers_version": "4.32.0.dev0"
+}

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4731aa283775a54fe5457114d0f24a6ff4ebbd8c751a245aa4d51c6090d2dad9
+size 1413206981

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6745f02979cb52e524133a7c73f23193883ddfa2eb5143f0ec57fd7f9f192327
+size 706584273

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:55126575236cbb4caa6e973e4481d8aacce37dbd1a171ea49a68fabdcd65d3a9
+size 14575

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:61649215f1c8d228a8f096401009ad3ee0a9db2130083b6b0a45418ca473ebac
+size 627

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1456 @@

+{
+  "best_metric": 0.3922309875488281,
+  "best_model_checkpoint": "/data/users/yanyang/Projects/COCO_Caption_Refine/debug/git/2023-09-12-11-13-17_git-base/checkpoint-4800",
+  "epoch": 2.9702970297029703,
+  "global_step": 4800,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.03,
+      "learning_rate": 4.948432343234324e-05,
+      "loss": 6.7185,
+      "step": 50
+    },
+    {
+      "epoch": 0.03,
+      "eval_loss": 4.150215148925781,
+      "eval_runtime": 2.7394,
+      "eval_samples_per_second": 11.682,
+      "eval_steps_per_second": 5.841,
+      "eval_wer_score": 2.6076555023923444,
+      "step": 50
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 4.8968646864686466e-05,
+      "loss": 2.2563,
+      "step": 100
+    },
+    {
+      "epoch": 0.06,
+      "eval_loss": 0.7511033415794373,
+      "eval_runtime": 2.511,
+      "eval_samples_per_second": 12.744,
+      "eval_steps_per_second": 6.372,
+      "eval_wer_score": 1.8782079164854284,
+      "step": 100
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 4.8452970297029704e-05,
+      "loss": 0.6084,
+      "step": 150
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 0.5207427144050598,
+      "eval_runtime": 3.1225,
+      "eval_samples_per_second": 10.248,
+      "eval_steps_per_second": 5.124,
+      "eval_wer_score": 2.3458025228360158,
+      "step": 150
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 4.793729372937294e-05,
+      "loss": 0.5236,
+      "step": 200
+    },
+    {
+      "epoch": 0.12,
+      "eval_loss": 0.48739808797836304,
+      "eval_runtime": 3.4202,
+      "eval_samples_per_second": 9.356,
+      "eval_steps_per_second": 4.678,
+      "eval_wer_score": 2.6250543714658545,
+      "step": 200
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 4.7421617161716174e-05,
+      "loss": 0.5022,
+      "step": 250
+    },
+    {
+      "epoch": 0.15,
+      "eval_loss": 0.4747964143753052,
+      "eval_runtime": 3.5933,
+      "eval_samples_per_second": 8.906,
+      "eval_steps_per_second": 4.453,
+      "eval_wer_score": 2.889952153110048,
+      "step": 250
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 4.6905940594059406e-05,
+      "loss": 0.489,
+      "step": 300
+    },
+    {
+      "epoch": 0.19,
+      "eval_loss": 0.4658946096897125,
+      "eval_runtime": 3.2552,
+      "eval_samples_per_second": 9.83,
+      "eval_steps_per_second": 4.915,
+      "eval_wer_score": 3.058721183123097,
+      "step": 300
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 4.6390264026402644e-05,
+      "loss": 0.477,
+      "step": 350
+    },
+    {
+      "epoch": 0.22,
+      "eval_loss": 0.46055227518081665,
+      "eval_runtime": 3.7594,
+      "eval_samples_per_second": 8.512,
+      "eval_steps_per_second": 4.256,
+      "eval_wer_score": 2.9904306220095696,
+      "step": 350
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 4.5874587458745876e-05,
+      "loss": 0.4702,
+      "step": 400
+    },
+    {
+      "epoch": 0.25,
+      "eval_loss": 0.4569026827812195,
+      "eval_runtime": 3.9386,
+      "eval_samples_per_second": 8.125,
+      "eval_steps_per_second": 4.062,
+      "eval_wer_score": 2.941278816876903,
+      "step": 400
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 4.5358910891089114e-05,
+      "loss": 0.4673,
+      "step": 450
+    },
+    {
+      "epoch": 0.28,
+      "eval_loss": 0.45087775588035583,
+      "eval_runtime": 2.9403,
+      "eval_samples_per_second": 10.883,
+      "eval_steps_per_second": 5.442,
+      "eval_wer_score": 3.01739886907351,
+      "step": 450
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 4.4843234323432346e-05,
+      "loss": 0.4633,
+      "step": 500
+    },
+    {
+      "epoch": 0.31,
+      "eval_loss": 0.4465155601501465,
+      "eval_runtime": 3.3332,
+      "eval_samples_per_second": 9.6,
+      "eval_steps_per_second": 4.8,
+      "eval_wer_score": 3.111787733797303,
+      "step": 500
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 4.432755775577558e-05,
+      "loss": 0.4579,
+      "step": 550
+    },
+    {
+      "epoch": 0.34,
+      "eval_loss": 0.44231322407722473,
+      "eval_runtime": 3.3294,
+      "eval_samples_per_second": 9.611,
+      "eval_steps_per_second": 4.806,
+      "eval_wer_score": 3.1004784688995217,
+      "step": 550
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 4.3811881188118816e-05,
+      "loss": 0.4522,
+      "step": 600
+    },
+    {
+      "epoch": 0.37,
+      "eval_loss": 0.4409943222999573,
+      "eval_runtime": 4.0034,
+      "eval_samples_per_second": 7.993,
+      "eval_steps_per_second": 3.997,
+      "eval_wer_score": 3.08916920400174,
+      "step": 600
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 4.329620462046205e-05,
+      "loss": 0.4495,
+      "step": 650
+    },
+    {
+      "epoch": 0.4,
+      "eval_loss": 0.4370802044868469,
+      "eval_runtime": 2.7858,
+      "eval_samples_per_second": 11.487,
+      "eval_steps_per_second": 5.743,
+      "eval_wer_score": 3.1792083514571554,
+      "step": 650
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 4.278052805280528e-05,
+      "loss": 0.4498,
+      "step": 700
+    },
+    {
+      "epoch": 0.43,
+      "eval_loss": 0.43357548117637634,
+      "eval_runtime": 2.6149,
+      "eval_samples_per_second": 12.238,
+      "eval_steps_per_second": 6.119,
+      "eval_wer_score": 3.1222270552414093,
+      "step": 700
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 4.226485148514852e-05,
+      "loss": 0.4461,
+      "step": 750
+    },
+    {
+      "epoch": 0.46,
+      "eval_loss": 0.4354948401451111,
+      "eval_runtime": 2.7939,
+      "eval_samples_per_second": 11.454,
+      "eval_steps_per_second": 5.727,
+      "eval_wer_score": 3.187037842540235,
+      "step": 750
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 4.174917491749175e-05,
+      "loss": 0.4435,
+      "step": 800
+    },
+    {
+      "epoch": 0.5,
+      "eval_loss": 0.4297381043434143,
+      "eval_runtime": 2.5337,
+      "eval_samples_per_second": 12.63,
+      "eval_steps_per_second": 6.315,
+      "eval_wer_score": 3.207046541974772,
+      "step": 800
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 4.123349834983499e-05,
+      "loss": 0.4392,
+      "step": 850
+    },
+    {
+      "epoch": 0.53,
+      "eval_loss": 0.4316774606704712,
+      "eval_runtime": 2.6742,
+      "eval_samples_per_second": 11.966,
+      "eval_steps_per_second": 5.983,
+      "eval_wer_score": 3.1857329273597217,
+      "step": 850
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 4.071782178217822e-05,
+      "loss": 0.4385,
+      "step": 900
+    },
+    {
+      "epoch": 0.56,
+      "eval_loss": 0.42789211869239807,
+      "eval_runtime": 2.5419,
+      "eval_samples_per_second": 12.589,
+      "eval_steps_per_second": 6.294,
+      "eval_wer_score": 3.186602870813397,
+      "step": 900
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 4.020214521452145e-05,
+      "loss": 0.4352,
+      "step": 950
+    },
+    {
+      "epoch": 0.59,
+      "eval_loss": 0.4274422526359558,
+      "eval_runtime": 2.5697,
+      "eval_samples_per_second": 12.453,
+      "eval_steps_per_second": 6.226,
+      "eval_wer_score": 3.23836450630709,
+      "step": 950
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 3.968646864686469e-05,
+      "loss": 0.4354,
+      "step": 1000
+    },
+    {
+      "epoch": 0.62,
+      "eval_loss": 0.42688965797424316,
+      "eval_runtime": 2.9492,
+      "eval_samples_per_second": 10.85,
+      "eval_steps_per_second": 5.425,
+      "eval_wer_score": 3.192692474989126,
+      "step": 1000
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 3.917079207920793e-05,
+      "loss": 0.4336,
+      "step": 1050
+    },
+    {
+      "epoch": 0.65,
+      "eval_loss": 0.42364591360092163,
+      "eval_runtime": 3.3776,
+      "eval_samples_per_second": 9.474,
+      "eval_steps_per_second": 4.737,
+      "eval_wer_score": 3.1705089169204004,
+      "step": 1050
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 3.865511551155115e-05,
+      "loss": 0.4315,
+      "step": 1100
+    },
+    {
+      "epoch": 0.68,
+      "eval_loss": 0.42294472455978394,
+      "eval_runtime": 3.4043,
+      "eval_samples_per_second": 9.4,
+      "eval_steps_per_second": 4.7,
+      "eval_wer_score": 3.2618529795563287,
+      "step": 1100
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 3.813943894389439e-05,
+      "loss": 0.4297,
+      "step": 1150
+    },
+    {
+      "epoch": 0.71,
+      "eval_loss": 0.4200877547264099,
+      "eval_runtime": 3.2244,
+      "eval_samples_per_second": 9.924,
+      "eval_steps_per_second": 4.962,
+      "eval_wer_score": 3.2818616789908654,
+      "step": 1150
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 3.762376237623763e-05,
+      "loss": 0.429,
+      "step": 1200
+    },
+    {
+      "epoch": 0.74,
+      "eval_loss": 0.4193739593029022,
+      "eval_runtime": 3.0348,
+      "eval_samples_per_second": 10.544,
+      "eval_steps_per_second": 5.272,
+      "eval_wer_score": 3.281426707264028,
+      "step": 1200
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 3.710808580858086e-05,
+      "loss": 0.4272,
+      "step": 1250
+    },
+    {
+      "epoch": 0.77,
+      "eval_loss": 0.41733482480049133,
+      "eval_runtime": 3.4043,
+      "eval_samples_per_second": 9.4,
+      "eval_steps_per_second": 4.7,
+      "eval_wer_score": 3.2501087429317095,
+      "step": 1250
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 3.659240924092409e-05,
+      "loss": 0.4266,
+      "step": 1300
+    },
+    {
+      "epoch": 0.8,
+      "eval_loss": 0.4167550206184387,
+      "eval_runtime": 3.1991,
+      "eval_samples_per_second": 10.003,
+      "eval_steps_per_second": 5.001,
+      "eval_wer_score": 3.240539364941279,
+      "step": 1300
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 3.607673267326733e-05,
+      "loss": 0.4257,
+      "step": 1350
+    },
+    {
+      "epoch": 0.84,
+      "eval_loss": 0.4143298268318176,
+      "eval_runtime": 3.1177,
+      "eval_samples_per_second": 10.264,
+      "eval_steps_per_second": 5.132,
+      "eval_wer_score": 3.2570682905611137,
+      "step": 1350
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 3.556105610561056e-05,
+      "loss": 0.424,
+      "step": 1400
+    },
+    {
+      "epoch": 0.87,
+      "eval_loss": 0.4156000018119812,
+      "eval_runtime": 3.2132,
+      "eval_samples_per_second": 9.959,
+      "eval_steps_per_second": 4.979,
+      "eval_wer_score": 3.2035667681600697,
+      "step": 1400
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 3.50453795379538e-05,
+      "loss": 0.4249,
+      "step": 1450
+    },
+    {
+      "epoch": 0.9,
+      "eval_loss": 0.4149695038795471,
+      "eval_runtime": 3.367,
+      "eval_samples_per_second": 9.504,
+      "eval_steps_per_second": 4.752,
+      "eval_wer_score": 3.2470639408438453,
+      "step": 1450
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 3.452970297029703e-05,
+      "loss": 0.422,
+      "step": 1500
+    },
+    {
+      "epoch": 0.93,
+      "eval_loss": 0.4136950373649597,
+      "eval_runtime": 3.0485,
+      "eval_samples_per_second": 10.497,
+      "eval_steps_per_second": 5.249,
+      "eval_wer_score": 3.257938234014789,
+      "step": 1500
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 3.4014026402640264e-05,
+      "loss": 0.4193,
+      "step": 1550
+    },
+    {
+      "epoch": 0.96,
+      "eval_loss": 0.41170167922973633,
+      "eval_runtime": 3.4654,
+      "eval_samples_per_second": 9.234,
+      "eval_steps_per_second": 4.617,
+      "eval_wer_score": 3.2470639408438453,
+      "step": 1550
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 3.34983498349835e-05,
+      "loss": 0.4179,
+      "step": 1600
+    },
+    {
+      "epoch": 0.99,
+      "eval_loss": 0.412392795085907,
+      "eval_runtime": 3.3054,
+      "eval_samples_per_second": 9.681,
+      "eval_steps_per_second": 4.841,
+      "eval_wer_score": 3.2440191387559807,
+      "step": 1600
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 3.2982673267326734e-05,
+      "loss": 0.4164,
+      "step": 1650
+    },
+    {
+      "epoch": 1.02,
+      "eval_loss": 0.41018491983413696,
+      "eval_runtime": 3.215,
+      "eval_samples_per_second": 9.953,
+      "eval_steps_per_second": 4.977,
+      "eval_wer_score": 3.2679425837320575,
+      "step": 1650
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 3.2466996699669965e-05,
+      "loss": 0.4121,
+      "step": 1700
+    },
+    {
+      "epoch": 1.05,
+      "eval_loss": 0.4093266427516937,
+      "eval_runtime": 3.3525,
+      "eval_samples_per_second": 9.545,
+      "eval_steps_per_second": 4.773,
+      "eval_wer_score": 3.222705524140931,
+      "step": 1700
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 3.1951320132013203e-05,
+      "loss": 0.4103,
+      "step": 1750
+    },
+    {
+      "epoch": 1.08,
+      "eval_loss": 0.4072987139225006,
+      "eval_runtime": 3.3812,
+      "eval_samples_per_second": 9.464,
+      "eval_steps_per_second": 4.732,
+      "eval_wer_score": 3.1874728142670725,
+      "step": 1750
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 3.1435643564356435e-05,
+      "loss": 0.411,
+      "step": 1800
+    },
+    {
+      "epoch": 1.11,
+      "eval_loss": 0.4119817614555359,
+      "eval_runtime": 1.9138,
+      "eval_samples_per_second": 16.721,
+      "eval_steps_per_second": 8.36,
+      "eval_wer_score": 3.201391909525881,
+      "step": 1800
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 3.0919966996699673e-05,
+      "loss": 0.4095,
+      "step": 1850
+    },
+    {
+      "epoch": 1.14,
+      "eval_loss": 0.4093400537967682,
+      "eval_runtime": 2.0537,
+      "eval_samples_per_second": 15.582,
+      "eval_steps_per_second": 7.791,
+      "eval_wer_score": 3.218790778599391,
+      "step": 1850
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 3.0404290429042902e-05,
+      "loss": 0.4093,
+      "step": 1900
+    },
+    {
+      "epoch": 1.18,
+      "eval_loss": 0.4096407890319824,
+      "eval_runtime": 1.9992,
+      "eval_samples_per_second": 16.006,
+      "eval_steps_per_second": 8.003,
+      "eval_wer_score": 3.1705089169204004,
+      "step": 1900
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 2.988861386138614e-05,
+      "loss": 0.4081,
+      "step": 1950
+    },
+    {
+      "epoch": 1.21,
+      "eval_loss": 0.4094192683696747,
+      "eval_runtime": 2.0819,
+      "eval_samples_per_second": 15.371,
+      "eval_steps_per_second": 7.685,
+      "eval_wer_score": 3.1966072205306655,
+      "step": 1950
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 2.9372937293729375e-05,
+      "loss": 0.4083,
+      "step": 2000
+    },
+    {
+      "epoch": 1.24,
+      "eval_loss": 0.4079236090183258,
+      "eval_runtime": 1.9742,
+      "eval_samples_per_second": 16.209,
+      "eval_steps_per_second": 8.104,
+      "eval_wer_score": 3.2231404958677685,
+      "step": 2000
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 2.885726072607261e-05,
+      "loss": 0.4065,
+      "step": 2050
+    },
+    {
+      "epoch": 1.27,
+      "eval_loss": 0.4078274965286255,
+      "eval_runtime": 1.9767,
+      "eval_samples_per_second": 16.189,
+      "eval_steps_per_second": 8.094,
+      "eval_wer_score": 3.2292301000434973,
+      "step": 2050
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 2.834158415841584e-05,
+      "loss": 0.4074,
+      "step": 2100
+    },
+    {
+      "epoch": 1.3,
+      "eval_loss": 0.40426379442214966,
+      "eval_runtime": 2.1917,
+      "eval_samples_per_second": 14.601,
+      "eval_steps_per_second": 7.3,
+      "eval_wer_score": 3.2127011744236627,
+      "step": 2100
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 2.7825907590759077e-05,
+      "loss": 0.4066,
+      "step": 2150
+    },
+    {
+      "epoch": 1.33,
+      "eval_loss": 0.40665364265441895,
+      "eval_runtime": 2.255,
+      "eval_samples_per_second": 14.191,
+      "eval_steps_per_second": 7.095,
+      "eval_wer_score": 3.2053066550674205,
+      "step": 2150
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 2.731023102310231e-05,
+      "loss": 0.405,
+      "step": 2200
+    },
+    {
+      "epoch": 1.36,
+      "eval_loss": 0.4042993485927582,
+      "eval_runtime": 2.1192,
+      "eval_samples_per_second": 15.1,
+      "eval_steps_per_second": 7.55,
+      "eval_wer_score": 3.2448890822096566,
+      "step": 2200
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 2.6794554455445547e-05,
+      "loss": 0.4051,
+      "step": 2250
+    },
+    {
+      "epoch": 1.39,
+      "eval_loss": 0.4049427807331085,
+      "eval_runtime": 1.9064,
+      "eval_samples_per_second": 16.786,
+      "eval_steps_per_second": 8.393,
+      "eval_wer_score": 3.2109612875163114,
+      "step": 2250
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 2.6278877887788778e-05,
+      "loss": 0.4045,
+      "step": 2300
+    },
+    {
+      "epoch": 1.42,
+      "eval_loss": 0.4028187394142151,
+      "eval_runtime": 2.0181,
+      "eval_samples_per_second": 15.856,
+      "eval_steps_per_second": 7.928,
+      "eval_wer_score": 3.2035667681600697,
+      "step": 2300
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 2.5763201320132013e-05,
+      "loss": 0.4045,
+      "step": 2350
+    },
+    {
+      "epoch": 1.45,
+      "eval_loss": 0.4024648070335388,
+      "eval_runtime": 2.027,
+      "eval_samples_per_second": 15.787,
+      "eval_steps_per_second": 7.894,
+      "eval_wer_score": 3.1757285776424533,
+      "step": 2350
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 2.5247524752475248e-05,
+      "loss": 0.406,
+      "step": 2400
+    },
+    {
+      "epoch": 1.49,
+      "eval_loss": 0.400738000869751,
+      "eval_runtime": 2.1415,
+      "eval_samples_per_second": 14.942,
+      "eval_steps_per_second": 7.471,
+      "eval_wer_score": 3.204001739886907,
+      "step": 2400
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 2.4731848184818483e-05,
+      "loss": 0.4021,
+      "step": 2450
+    },
+    {
+      "epoch": 1.52,
+      "eval_loss": 0.40221601724624634,
+      "eval_runtime": 2.237,
+      "eval_samples_per_second": 14.305,
+      "eval_steps_per_second": 7.152,
+      "eval_wer_score": 3.144410613310135,
+      "step": 2450
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 2.4216171617161718e-05,
+      "loss": 0.4026,
+      "step": 2500
+    },
+    {
+      "epoch": 1.55,
+      "eval_loss": 0.4028313159942627,
+      "eval_runtime": 2.2063,
+      "eval_samples_per_second": 14.504,
+      "eval_steps_per_second": 7.252,
+      "eval_wer_score": 3.168769030013049,
+      "step": 2500
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 2.370049504950495e-05,
+      "loss": 0.4014,
+      "step": 2550
+    },
+    {
+      "epoch": 1.58,
+      "eval_loss": 0.4026516079902649,
+      "eval_runtime": 2.131,
+      "eval_samples_per_second": 15.016,
+      "eval_steps_per_second": 7.508,
+      "eval_wer_score": 3.2000869943453676,
+      "step": 2550
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 2.3184818481848185e-05,
+      "loss": 0.4015,
+      "step": 2600
+    },
+    {
+      "epoch": 1.61,
+      "eval_loss": 0.402204692363739,
+      "eval_runtime": 2.0851,
+      "eval_samples_per_second": 15.347,
+      "eval_steps_per_second": 7.673,
+      "eval_wer_score": 3.19182253153545,
+      "step": 2600
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 2.266914191419142e-05,
+      "loss": 0.401,
+      "step": 2650
+    },
+    {
+      "epoch": 1.64,
+      "eval_loss": 0.40174347162246704,
+      "eval_runtime": 2.1944,
+      "eval_samples_per_second": 14.583,
+      "eval_steps_per_second": 7.291,
+      "eval_wer_score": 3.189212701174424,
+      "step": 2650
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 2.2153465346534655e-05,
+      "loss": 0.4007,
+      "step": 2700
+    },
+    {
+      "epoch": 1.67,
+      "eval_loss": 0.40014830231666565,
+      "eval_runtime": 2.1544,
+      "eval_samples_per_second": 14.853,
+      "eval_steps_per_second": 7.427,
+      "eval_wer_score": 3.2148760330578514,
+      "step": 2700
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 2.1637788778877886e-05,
+      "loss": 0.399,
+      "step": 2750
+    },
+    {
+      "epoch": 1.7,
+      "eval_loss": 0.3999301791191101,
+      "eval_runtime": 2.196,
+      "eval_samples_per_second": 14.572,
+      "eval_steps_per_second": 7.286,
+      "eval_wer_score": 3.177468464549804,
+      "step": 2750
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 2.1122112211221125e-05,
+      "loss": 0.4004,
+      "step": 2800
+    },
+    {
+      "epoch": 1.73,
+      "eval_loss": 0.40041935443878174,
+      "eval_runtime": 2.2406,
+      "eval_samples_per_second": 14.282,
+      "eval_steps_per_second": 7.141,
+      "eval_wer_score": 3.186602870813397,
+      "step": 2800
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 2.0606435643564356e-05,
+      "loss": 0.3988,
+      "step": 2850
+    },
+    {
+      "epoch": 1.76,
+      "eval_loss": 0.4005739092826843,
+      "eval_runtime": 2.1589,
+      "eval_samples_per_second": 14.822,
+      "eval_steps_per_second": 7.411,
+      "eval_wer_score": 3.2235754675946064,
+      "step": 2850
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 2.009075907590759e-05,
+      "loss": 0.3985,
+      "step": 2900
+    },
+    {
+      "epoch": 1.79,
+      "eval_loss": 0.4012880325317383,
+      "eval_runtime": 2.1243,
+      "eval_samples_per_second": 15.064,
+      "eval_steps_per_second": 7.532,
+      "eval_wer_score": 3.2083514571552847,
+      "step": 2900
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 1.9575082508250826e-05,
+      "loss": 0.3995,
+      "step": 2950
+    },
+    {
+      "epoch": 1.83,
+      "eval_loss": 0.3977855443954468,
+      "eval_runtime": 2.1918,
+      "eval_samples_per_second": 14.6,
+      "eval_steps_per_second": 7.3,
+      "eval_wer_score": 3.192257503262288,
+      "step": 2950
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 1.905940594059406e-05,
+      "loss": 0.3975,
+      "step": 3000
+    },
+    {
+      "epoch": 1.86,
+      "eval_loss": 0.39725542068481445,
+      "eval_runtime": 2.2663,
+      "eval_samples_per_second": 14.12,
+      "eval_steps_per_second": 7.06,
+      "eval_wer_score": 3.174858634188778,
+      "step": 3000
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 1.8543729372937293e-05,
+      "loss": 0.3976,
+      "step": 3050
+    },
+    {
+      "epoch": 1.89,
+      "eval_loss": 0.39580366015434265,
+      "eval_runtime": 2.2795,
+      "eval_samples_per_second": 14.038,
+      "eval_steps_per_second": 7.019,
+      "eval_wer_score": 3.12396694214876,
+      "step": 3050
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 1.8028052805280528e-05,
+      "loss": 0.3977,
+      "step": 3100
+    },
+    {
+      "epoch": 1.92,
+      "eval_loss": 0.3961202800273895,
+      "eval_runtime": 2.1696,
+      "eval_samples_per_second": 14.749,
+      "eval_steps_per_second": 7.374,
+      "eval_wer_score": 3.165724227925185,
+      "step": 3100
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 1.7512376237623763e-05,
+      "loss": 0.3945,
+      "step": 3150
+    },
+    {
+      "epoch": 1.95,
+      "eval_loss": 0.396453857421875,
+      "eval_runtime": 1.988,
+      "eval_samples_per_second": 16.097,
+      "eval_steps_per_second": 8.048,
+      "eval_wer_score": 3.1805132666376688,
+      "step": 3150
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 1.6996699669966998e-05,
+      "loss": 0.3962,
+      "step": 3200
+    },
+    {
+      "epoch": 1.98,
+      "eval_loss": 0.39566469192504883,
+      "eval_runtime": 1.9188,
+      "eval_samples_per_second": 16.677,
+      "eval_steps_per_second": 8.339,
+      "eval_wer_score": 3.1852979556328838,
+      "step": 3200
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 1.648102310231023e-05,
+      "loss": 0.3953,
+      "step": 3250
+    },
+    {
+      "epoch": 2.01,
+      "eval_loss": 0.39734578132629395,
+      "eval_runtime": 2.1888,
+      "eval_samples_per_second": 14.62,
+      "eval_steps_per_second": 7.31,
+      "eval_wer_score": 3.13571117877338,
+      "step": 3250
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 1.5965346534653468e-05,
+      "loss": 0.3896,
+      "step": 3300
+    },
+    {
+      "epoch": 2.04,
+      "eval_loss": 0.3978061079978943,
+      "eval_runtime": 2.2259,
+      "eval_samples_per_second": 14.376,
+      "eval_steps_per_second": 7.188,
+      "eval_wer_score": 3.110047846889952,
+      "step": 3300
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 1.54496699669967e-05,
+      "loss": 0.3907,
+      "step": 3350
+    },
+    {
+      "epoch": 2.07,
+      "eval_loss": 0.3961105942726135,
+      "eval_runtime": 2.5092,
+      "eval_samples_per_second": 12.753,
+      "eval_steps_per_second": 6.377,
+      "eval_wer_score": 3.1274467159634622,
+      "step": 3350
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 1.4933993399339935e-05,
+      "loss": 0.3889,
+      "step": 3400
+    },
+    {
+      "epoch": 2.1,
+      "eval_loss": 0.3963559865951538,
+      "eval_runtime": 2.1557,
+      "eval_samples_per_second": 14.845,
+      "eval_steps_per_second": 7.422,
+      "eval_wer_score": 3.190517616354937,
+      "step": 3400
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 1.4418316831683168e-05,
+      "loss": 0.3902,
+      "step": 3450
+    },
+    {
+      "epoch": 2.13,
+      "eval_loss": 0.3959140479564667,
+      "eval_runtime": 2.1754,
+      "eval_samples_per_second": 14.71,
+      "eval_steps_per_second": 7.355,
+      "eval_wer_score": 3.1857329273597217,
+      "step": 3450
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 1.3902640264026403e-05,
+      "loss": 0.3902,
+      "step": 3500
+    },
+    {
+      "epoch": 2.17,
+      "eval_loss": 0.3955221176147461,
+      "eval_runtime": 2.075,
+      "eval_samples_per_second": 15.422,
+      "eval_steps_per_second": 7.711,
+      "eval_wer_score": 3.162244454110483,
+      "step": 3500
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 1.3386963696369636e-05,
+      "loss": 0.3891,
+      "step": 3550
+    },
+    {
+      "epoch": 2.2,
+      "eval_loss": 0.39533841609954834,
+      "eval_runtime": 2.1894,
+      "eval_samples_per_second": 14.616,
+      "eval_steps_per_second": 7.308,
+      "eval_wer_score": 3.17442366246194,
+      "step": 3550
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 1.2871287128712873e-05,
+      "loss": 0.3886,
+      "step": 3600
+    },
+    {
+      "epoch": 2.23,
+      "eval_loss": 0.3946349620819092,
+      "eval_runtime": 2.1424,
+      "eval_samples_per_second": 14.936,
+      "eval_steps_per_second": 7.468,
+      "eval_wer_score": 3.142670726402784,
+      "step": 3600
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 1.2355610561056106e-05,
+      "loss": 0.388,
+      "step": 3650
+    },
+    {
+      "epoch": 2.26,
+      "eval_loss": 0.3959529995918274,
+      "eval_runtime": 2.1922,
+      "eval_samples_per_second": 14.597,
+      "eval_steps_per_second": 7.299,
+      "eval_wer_score": 3.1309264897781643,
+      "step": 3650
+    },
+    {
+      "epoch": 2.29,
+      "learning_rate": 1.1839933993399341e-05,
+      "loss": 0.3888,
+      "step": 3700
+    },
+    {
+      "epoch": 2.29,
+      "eval_loss": 0.39452987909317017,
+      "eval_runtime": 2.1798,
+      "eval_samples_per_second": 14.68,
+      "eval_steps_per_second": 7.34,
+      "eval_wer_score": 3.13571117877338,
+      "step": 3700
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 1.1324257425742574e-05,
+      "loss": 0.3891,
+      "step": 3750
+    },
+    {
+      "epoch": 2.32,
+      "eval_loss": 0.39532509446144104,
+      "eval_runtime": 2.0097,
+      "eval_samples_per_second": 15.923,
+      "eval_steps_per_second": 7.961,
+      "eval_wer_score": 3.121357111787734,
+      "step": 3750
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 1.080858085808581e-05,
+      "loss": 0.3883,
+      "step": 3800
+    },
+    {
+      "epoch": 2.35,
+      "eval_loss": 0.39508694410324097,
+      "eval_runtime": 2.1667,
+      "eval_samples_per_second": 14.769,
+      "eval_steps_per_second": 7.385,
+      "eval_wer_score": 3.1361461505002173,
+      "step": 3800
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 1.0292904290429044e-05,
+      "loss": 0.3876,
+      "step": 3850
+    },
+    {
+      "epoch": 2.38,
+      "eval_loss": 0.39381179213523865,
+      "eval_runtime": 2.1778,
+      "eval_samples_per_second": 14.693,
+      "eval_steps_per_second": 7.347,
+      "eval_wer_score": 3.1309264897781643,
+      "step": 3850
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 9.777227722772278e-06,
+      "loss": 0.3879,
+      "step": 3900
+    },
+    {
+      "epoch": 2.41,
+      "eval_loss": 0.39416271448135376,
+      "eval_runtime": 2.2392,
+      "eval_samples_per_second": 14.291,
+      "eval_steps_per_second": 7.145,
+      "eval_wer_score": 3.148325358851675,
+      "step": 3900
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 9.261551155115513e-06,
+      "loss": 0.386,
+      "step": 3950
+    },
+    {
+      "epoch": 2.44,
+      "eval_loss": 0.39405977725982666,
+      "eval_runtime": 2.2548,
+      "eval_samples_per_second": 14.192,
+      "eval_steps_per_second": 7.096,
+      "eval_wer_score": 3.15311004784689,
+      "step": 3950
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 8.745874587458746e-06,
+      "loss": 0.3862,
+      "step": 4000
+    },
+    {
+      "epoch": 2.48,
+      "eval_loss": 0.3948515057563782,
+      "eval_runtime": 2.2104,
+      "eval_samples_per_second": 14.477,
+      "eval_steps_per_second": 7.239,
+      "eval_wer_score": 3.1378860374075686,
+      "step": 4000
+    },
+    {
+      "epoch": 2.51,
+      "learning_rate": 8.230198019801981e-06,
+      "loss": 0.3876,
+      "step": 4050
+    },
+    {
+      "epoch": 2.51,
+      "eval_loss": 0.3954794704914093,
+      "eval_runtime": 2.1178,
+      "eval_samples_per_second": 15.11,
+      "eval_steps_per_second": 7.555,
+      "eval_wer_score": 3.1470204436711615,
+      "step": 4050
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 7.714521452145216e-06,
+      "loss": 0.3876,
+      "step": 4100
+    },
+    {
+      "epoch": 2.54,
+      "eval_loss": 0.3942318856716156,
+      "eval_runtime": 2.1511,
+      "eval_samples_per_second": 14.876,
+      "eval_steps_per_second": 7.438,
+      "eval_wer_score": 3.1326663766855156,
+      "step": 4100
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 7.198844884488449e-06,
+      "loss": 0.3858,
+      "step": 4150
+    },
+    {
+      "epoch": 2.57,
+      "eval_loss": 0.39369016885757446,
+      "eval_runtime": 2.2193,
+      "eval_samples_per_second": 14.419,
+      "eval_steps_per_second": 7.21,
+      "eval_wer_score": 3.1270117442366248,
+      "step": 4150
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 6.6831683168316835e-06,
+      "loss": 0.3855,
+      "step": 4200
+    },
+    {
+      "epoch": 2.6,
+      "eval_loss": 0.3940153121948242,
+      "eval_runtime": 2.2424,
+      "eval_samples_per_second": 14.27,
+      "eval_steps_per_second": 7.135,
+      "eval_wer_score": 3.1491953023053503,
+      "step": 4200
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 6.167491749174918e-06,
+      "loss": 0.3864,
+      "step": 4250
+    },
+    {
+      "epoch": 2.63,
+      "eval_loss": 0.3938477337360382,
+      "eval_runtime": 2.1981,
+      "eval_samples_per_second": 14.558,
+      "eval_steps_per_second": 7.279,
+      "eval_wer_score": 3.1431056981296215,
+      "step": 4250
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 5.651815181518152e-06,
+      "loss": 0.3869,
+      "step": 4300
+    },
+    {
+      "epoch": 2.66,
+      "eval_loss": 0.3936881422996521,
+      "eval_runtime": 2.2164,
+      "eval_samples_per_second": 14.438,
+      "eval_steps_per_second": 7.219,
+      "eval_wer_score": 3.1583297085689432,
+      "step": 4300
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 5.136138613861386e-06,
+      "loss": 0.3841,
+      "step": 4350
+    },
+    {
+      "epoch": 2.69,
+      "eval_loss": 0.39349794387817383,
+      "eval_runtime": 2.2175,
+      "eval_samples_per_second": 14.43,
+      "eval_steps_per_second": 7.215,
+      "eval_wer_score": 3.1278816876903,
+      "step": 4350
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 4.62046204620462e-06,
+      "loss": 0.3866,
+      "step": 4400
+    },
+    {
+      "epoch": 2.72,
+      "eval_loss": 0.3936805725097656,
+      "eval_runtime": 1.9094,
+      "eval_samples_per_second": 16.759,
+      "eval_steps_per_second": 8.38,
+      "eval_wer_score": 3.119182253153545,
+      "step": 4400
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 4.104785478547855e-06,
+      "loss": 0.3848,
+      "step": 4450
+    },
+    {
+      "epoch": 2.75,
+      "eval_loss": 0.3931500315666199,
+      "eval_runtime": 2.1055,
+      "eval_samples_per_second": 15.198,
+      "eval_steps_per_second": 7.599,
+      "eval_wer_score": 3.1235319704219227,
+      "step": 4450
+    },
+    {
+      "epoch": 2.78,
+      "learning_rate": 3.589108910891089e-06,
+      "loss": 0.3849,
+      "step": 4500
+    },
+    {
+      "epoch": 2.78,
+      "eval_loss": 0.39277058839797974,
+      "eval_runtime": 2.1028,
+      "eval_samples_per_second": 15.218,
+      "eval_steps_per_second": 7.609,
+      "eval_wer_score": 3.1313614615050023,
+      "step": 4500
+    },
+    {
+      "epoch": 2.82,
+      "learning_rate": 3.073432343234324e-06,
+      "loss": 0.383,
+      "step": 4550
+    },
+    {
+      "epoch": 2.82,
+      "eval_loss": 0.3926939368247986,
+      "eval_runtime": 2.1315,
+      "eval_samples_per_second": 15.013,
+      "eval_steps_per_second": 7.506,
+      "eval_wer_score": 3.1230969986950847,
+      "step": 4550
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 2.557755775577558e-06,
+      "loss": 0.3839,
+      "step": 4600
+    },
+    {
+      "epoch": 2.85,
+      "eval_loss": 0.39277368783950806,
+      "eval_runtime": 2.1656,
+      "eval_samples_per_second": 14.776,
+      "eval_steps_per_second": 7.388,
+      "eval_wer_score": 3.115702479338843,
+      "step": 4600
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 2.042079207920792e-06,
+      "loss": 0.3843,
+      "step": 4650
+    },
+    {
+      "epoch": 2.88,
+      "eval_loss": 0.3926578164100647,
+      "eval_runtime": 2.2527,
+      "eval_samples_per_second": 14.205,
+      "eval_steps_per_second": 7.103,
+      "eval_wer_score": 3.1226620269682472,
+      "step": 4650
+    },
+    {
+      "epoch": 2.91,
+      "learning_rate": 1.5264026402640265e-06,
+      "loss": 0.3862,
+      "step": 4700
+    },
+    {
+      "epoch": 2.91,
+      "eval_loss": 0.3923312723636627,
+      "eval_runtime": 2.1236,
+      "eval_samples_per_second": 15.069,
+      "eval_steps_per_second": 7.534,
+      "eval_wer_score": 3.1287516311439756,
+      "step": 4700
+    },
+    {
+      "epoch": 2.94,
+      "learning_rate": 1.0107260726072606e-06,
+      "loss": 0.3848,
+      "step": 4750
+    },
+    {
+      "epoch": 2.94,
+      "eval_loss": 0.3923192024230957,
+      "eval_runtime": 2.1085,
+      "eval_samples_per_second": 15.177,
+      "eval_steps_per_second": 7.588,
+      "eval_wer_score": 3.1448455850369728,
+      "step": 4750
+    },
+    {
+      "epoch": 2.97,
+      "learning_rate": 4.950495049504951e-07,
+      "loss": 0.3856,
+      "step": 4800
+    },
+    {
+      "epoch": 2.97,
+      "eval_loss": 0.3922309875488281,
+      "eval_runtime": 2.9258,
+      "eval_samples_per_second": 10.937,
+      "eval_steps_per_second": 5.469,
+      "eval_wer_score": 3.133536320139191,
+      "step": 4800
+    }
+  ],
+  "max_steps": 4848,
+  "num_train_epochs": 3,
+  "total_flos": 5.746828131664773e+17,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5a85d06d6999d84181089a310cd7da505e2e39a08a57b1405f95bc86ff0876a8
+size 4155