Initial commit

Browse files

Files changed (12) hide show

README.md +96 -0
all_results.json +15 -0
config.json +31 -0
eval_results.json +10 -0
generation_config.json +6 -0
model.safetensors +3 -0
special_tokens_map.json +1 -0
tokenizer.json +0 -0
tokenizer_config.json +15 -0
train_results.json +8 -0
trainer_state.json +3426 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,96 @@

+---
+tags:
+- generated_from_trainer
+datasets:
+- uonlp/CulturaX
+metrics:
+- accuracy
+model-index:
+- name: gpt2+ts_cx-en_00000-00009_50k
+  results:
+  - task:
+      name: Causal Language Modeling
+      type: text-generation
+    dataset:
+      name: uonlp/CulturaX en
+      type: uonlp/CulturaX
+      args: en
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.3894698710798747
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# gpt2+ts_cx-en_00000-00009_50k
+This model is a fine-tuned version of [](https://huggingface.co/) on the uonlp/CulturaX en dataset.
+It achieves the following results on the evaluation set:
+- Loss: 3.4121
+- Accuracy: 0.3895
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-05
+- train_batch_size: 64
+- eval_batch_size: 64
+- seed: 42
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- num_epochs: 1.0
+### Training results
+| Training Loss | Epoch | Step   | Validation Loss | Accuracy |
+|:-------------:|:-----:|:------:|:---------------:|:--------:|
+| 4.375         | 0.04  | 10000  | 4.2815          | 0.3111   |
+| 4.0754        | 0.08  | 20000  | 3.9984          | 0.3341   |
+| 3.9409        | 0.11  | 30000  | 3.8615          | 0.3457   |
+| 3.8554        | 0.15  | 40000  | 3.7798          | 0.3531   |
+| 3.7973        | 0.19  | 50000  | 3.7210          | 0.3584   |
+| 3.7421        | 0.23  | 60000  | 3.6750          | 0.3630   |
+| 3.7097        | 0.27  | 70000  | 3.6378          | 0.3664   |
+| 3.6741        | 0.3   | 80000  | 3.6061          | 0.3694   |
+| 3.6599        | 0.34  | 90000  | 3.5803          | 0.3718   |
+| 3.6356        | 0.38  | 100000 | 3.5584          | 0.3741   |
+| 3.6131        | 0.42  | 110000 | 3.5423          | 0.3758   |
+| 3.5991        | 0.46  | 120000 | 3.5254          | 0.3776   |
+| 3.591         | 0.49  | 130000 | 3.5108          | 0.3790   |
+| 3.574         | 0.53  | 140000 | 3.4966          | 0.3805   |
+| 3.5606        | 0.57  | 150000 | 3.4866          | 0.3815   |
+| 3.5516        | 0.61  | 160000 | 3.4739          | 0.3828   |
+| 3.5423        | 0.64  | 170000 | 3.4650          | 0.3838   |
+| 3.5298        | 0.68  | 180000 | 3.4560          | 0.3847   |
+| 3.5287        | 0.72  | 190000 | 3.4479          | 0.3857   |
+| 3.5187        | 0.76  | 200000 | 3.4408          | 0.3863   |
+| 3.5157        | 0.8   | 210000 | 3.4339          | 0.3870   |
+| 3.5042        | 0.83  | 220000 | 3.4286          | 0.3876   |
+| 3.5033        | 0.87  | 230000 | 3.4229          | 0.3883   |
+| 3.501         | 0.91  | 240000 | 3.4188          | 0.3888   |
+| 3.4946        | 0.95  | 250000 | 3.4149          | 0.3892   |
+| 3.4971        | 0.99  | 260000 | 3.4126          | 0.3894   |
+### Framework versions
+- Transformers 4.37.1
+- Pytorch 2.1.2+cu121
+- Datasets 2.16.1
+- Tokenizers 0.15.1

all_results.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+    "epoch": 1.0,
+    "eval_accuracy": 0.3894698710798747,
+    "eval_loss": 3.4120876789093018,
+    "eval_runtime": 5016.6058,
+    "eval_samples": 443773,
+    "eval_samples_per_second": 88.461,
+    "eval_steps_per_second": 1.382,
+    "perplexity": 30.32849437151538,
+    "train_loss": 3.6950655784551065,
+    "train_runtime": 269467.2599,
+    "train_samples": 8434107,
+    "train_samples_per_second": 31.299,
+    "train_steps_per_second": 0.978
+}

config.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_embd": 768,
+  "n_head": 12,
+  "n_inner": null,
+  "n_layer": 12,
+  "n_positions": 1024,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.37.1",
+  "use_cache": true,
+  "vocab_size": 50257
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "epoch": 1.0,
+    "eval_accuracy": 0.3894698710798747,
+    "eval_loss": 3.4120876789093018,
+    "eval_runtime": 5016.6058,
+    "eval_samples": 443773,
+    "eval_samples_per_second": 88.461,
+    "eval_steps_per_second": 1.382,
+    "perplexity": 30.32849437151538
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": 50256,
+  "transformers_version": "4.37.1"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:35b202d2fec8227b98b48ed9e346d8eb881ffd6163c6a768999724918bf394c4
+size 497774208

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "added_tokens_decoder": {
+    "50256": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "model_max_length": 1000000000000000019884624838656,
+  "tokenizer_class": "PreTrainedTokenizerFast"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.0,
+    "train_loss": 3.6950655784551065,
+    "train_runtime": 269467.2599,
+    "train_samples": 8434107,
+    "train_samples_per_second": 31.299,
+    "train_steps_per_second": 0.978
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,3426 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 10000,
+  "global_step": 263566,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 4.990514709788061e-05,
+      "loss": 7.0943,
+      "step": 500
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 4.981029419576122e-05,
+      "loss": 6.2317,
+      "step": 1000
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 4.971544129364182e-05,
+      "loss": 5.9001,
+      "step": 1500
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 4.9620588391522424e-05,
+      "loss": 5.6651,
+      "step": 2000
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 4.9525735489403035e-05,
+      "loss": 5.4754,
+      "step": 2500
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 4.9430882587283645e-05,
+      "loss": 5.3245,
+      "step": 3000
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 4.933602968516425e-05,
+      "loss": 5.1815,
+      "step": 3500
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 4.924117678304486e-05,
+      "loss": 5.0484,
+      "step": 4000
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 4.914632388092546e-05,
+      "loss": 4.9349,
+      "step": 4500
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 4.905147097880607e-05,
+      "loss": 4.8371,
+      "step": 5000
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 4.895661807668668e-05,
+      "loss": 4.7574,
+      "step": 5500
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 4.886176517456728e-05,
+      "loss": 4.6903,
+      "step": 6000
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 4.876691227244789e-05,
+      "loss": 4.626,
+      "step": 6500
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 4.8672059370328496e-05,
+      "loss": 4.5767,
+      "step": 7000
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 4.85772064682091e-05,
+      "loss": 4.5388,
+      "step": 7500
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 4.848235356608971e-05,
+      "loss": 4.4959,
+      "step": 8000
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 4.838750066397032e-05,
+      "loss": 4.4589,
+      "step": 8500
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 4.8292647761850924e-05,
+      "loss": 4.4324,
+      "step": 9000
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 4.8197794859731535e-05,
+      "loss": 4.3988,
+      "step": 9500
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 4.810294195761214e-05,
+      "loss": 4.375,
+      "step": 10000
+    },
+    {
+      "epoch": 0.04,
+      "eval_accuracy": 0.31109238678227563,
+      "eval_loss": 4.28147029876709,
+      "eval_runtime": 5060.877,
+      "eval_samples_per_second": 87.687,
+      "eval_steps_per_second": 1.37,
+      "step": 10000
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 4.800808905549274e-05,
+      "loss": 4.3423,
+      "step": 10500
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 4.791323615337335e-05,
+      "loss": 4.3204,
+      "step": 11000
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 4.7818383251253956e-05,
+      "loss": 4.2991,
+      "step": 11500
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 4.772353034913457e-05,
+      "loss": 4.2818,
+      "step": 12000
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 4.762867744701517e-05,
+      "loss": 4.2627,
+      "step": 12500
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 4.7533824544895774e-05,
+      "loss": 4.2463,
+      "step": 13000
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 4.7438971642776385e-05,
+      "loss": 4.2265,
+      "step": 13500
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 4.734411874065699e-05,
+      "loss": 4.2159,
+      "step": 14000
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 4.72492658385376e-05,
+      "loss": 4.198,
+      "step": 14500
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 4.715441293641821e-05,
+      "loss": 4.1886,
+      "step": 15000
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 4.7059560034298813e-05,
+      "loss": 4.1675,
+      "step": 15500
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 4.696470713217942e-05,
+      "loss": 4.1553,
+      "step": 16000
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 4.686985423006002e-05,
+      "loss": 4.1466,
+      "step": 16500
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 4.677500132794063e-05,
+      "loss": 4.1307,
+      "step": 17000
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 4.668014842582124e-05,
+      "loss": 4.1282,
+      "step": 17500
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 4.6585295523701846e-05,
+      "loss": 4.1108,
+      "step": 18000
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 4.6490442621582456e-05,
+      "loss": 4.1135,
+      "step": 18500
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 4.639558971946305e-05,
+      "loss": 4.0876,
+      "step": 19000
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 4.6300736817343664e-05,
+      "loss": 4.0871,
+      "step": 19500
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 4.6205883915224274e-05,
+      "loss": 4.0754,
+      "step": 20000
+    },
+    {
+      "epoch": 0.08,
+      "eval_accuracy": 0.3340521142462603,
+      "eval_loss": 3.9983978271484375,
+      "eval_runtime": 5045.5203,
+      "eval_samples_per_second": 87.954,
+      "eval_steps_per_second": 1.374,
+      "step": 20000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 4.611103101310488e-05,
+      "loss": 4.0747,
+      "step": 20500
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 4.601617811098549e-05,
+      "loss": 4.0582,
+      "step": 21000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 4.592132520886609e-05,
+      "loss": 4.0545,
+      "step": 21500
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 4.5826472306746696e-05,
+      "loss": 4.0345,
+      "step": 22000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 4.5731619404627307e-05,
+      "loss": 4.0376,
+      "step": 22500
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 4.563676650250791e-05,
+      "loss": 4.0315,
+      "step": 23000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 4.554191360038852e-05,
+      "loss": 4.0217,
+      "step": 23500
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 4.544706069826913e-05,
+      "loss": 4.0135,
+      "step": 24000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 4.535220779614973e-05,
+      "loss": 4.0034,
+      "step": 24500
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 4.525735489403034e-05,
+      "loss": 4.004,
+      "step": 25000
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 4.516250199191095e-05,
+      "loss": 3.9939,
+      "step": 25500
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 4.506764908979155e-05,
+      "loss": 3.9871,
+      "step": 26000
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 4.4972796187672164e-05,
+      "loss": 3.9787,
+      "step": 26500
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 4.487794328555277e-05,
+      "loss": 3.9752,
+      "step": 27000
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 4.478309038343337e-05,
+      "loss": 3.9605,
+      "step": 27500
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 4.468823748131398e-05,
+      "loss": 3.9542,
+      "step": 28000
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 4.4593384579194585e-05,
+      "loss": 3.9518,
+      "step": 28500
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 4.4498531677075196e-05,
+      "loss": 3.9479,
+      "step": 29000
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 4.44036787749558e-05,
+      "loss": 3.9445,
+      "step": 29500
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 4.430882587283641e-05,
+      "loss": 3.9409,
+      "step": 30000
+    },
+    {
+      "epoch": 0.11,
+      "eval_accuracy": 0.3456931371386037,
+      "eval_loss": 3.86149525642395,
+      "eval_runtime": 5041.4629,
+      "eval_samples_per_second": 88.025,
+      "eval_steps_per_second": 1.375,
+      "step": 30000
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 4.4213972970717014e-05,
+      "loss": 3.9345,
+      "step": 30500
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 4.411912006859762e-05,
+      "loss": 3.9328,
+      "step": 31000
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 4.402426716647823e-05,
+      "loss": 3.9248,
+      "step": 31500
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 4.392941426435884e-05,
+      "loss": 3.9126,
+      "step": 32000
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 4.383456136223944e-05,
+      "loss": 3.9077,
+      "step": 32500
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 4.3739708460120046e-05,
+      "loss": 3.9102,
+      "step": 33000
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 4.364485555800065e-05,
+      "loss": 3.907,
+      "step": 33500
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 4.355000265588126e-05,
+      "loss": 3.9017,
+      "step": 34000
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 4.345514975376187e-05,
+      "loss": 3.8976,
+      "step": 34500
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 4.3360296851642475e-05,
+      "loss": 3.8917,
+      "step": 35000
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 4.3265443949523085e-05,
+      "loss": 3.8917,
+      "step": 35500
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 4.317059104740369e-05,
+      "loss": 3.8851,
+      "step": 36000
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 4.307573814528429e-05,
+      "loss": 3.8899,
+      "step": 36500
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 4.29808852431649e-05,
+      "loss": 3.8667,
+      "step": 37000
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 4.288603234104551e-05,
+      "loss": 3.8702,
+      "step": 37500
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 4.279117943892612e-05,
+      "loss": 3.8705,
+      "step": 38000
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 4.269632653680672e-05,
+      "loss": 3.8647,
+      "step": 38500
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 4.2601473634687325e-05,
+      "loss": 3.8612,
+      "step": 39000
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 4.2506620732567936e-05,
+      "loss": 3.8524,
+      "step": 39500
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 4.241176783044854e-05,
+      "loss": 3.8554,
+      "step": 40000
+    },
+    {
+      "epoch": 0.15,
+      "eval_accuracy": 0.3530753183612612,
+      "eval_loss": 3.7798092365264893,
+      "eval_runtime": 5037.6086,
+      "eval_samples_per_second": 88.092,
+      "eval_steps_per_second": 1.376,
+      "step": 40000
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 4.231691492832915e-05,
+      "loss": 3.8487,
+      "step": 40500
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 4.222206202620976e-05,
+      "loss": 3.851,
+      "step": 41000
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 4.2127209124090364e-05,
+      "loss": 3.8431,
+      "step": 41500
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 4.203235622197097e-05,
+      "loss": 3.8401,
+      "step": 42000
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 4.193750331985158e-05,
+      "loss": 3.8296,
+      "step": 42500
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 4.184265041773218e-05,
+      "loss": 3.8338,
+      "step": 43000
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 4.174779751561279e-05,
+      "loss": 3.8295,
+      "step": 43500
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 4.1652944613493396e-05,
+      "loss": 3.8285,
+      "step": 44000
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 4.1558091711374e-05,
+      "loss": 3.8217,
+      "step": 44500
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 4.146323880925461e-05,
+      "loss": 3.8262,
+      "step": 45000
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 4.1368385907135214e-05,
+      "loss": 3.8241,
+      "step": 45500
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 4.1273533005015825e-05,
+      "loss": 3.8145,
+      "step": 46000
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 4.117868010289643e-05,
+      "loss": 3.8207,
+      "step": 46500
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 4.108382720077704e-05,
+      "loss": 3.8128,
+      "step": 47000
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 4.098897429865764e-05,
+      "loss": 3.8053,
+      "step": 47500
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 4.089412139653825e-05,
+      "loss": 3.8023,
+      "step": 48000
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 4.079926849441886e-05,
+      "loss": 3.8084,
+      "step": 48500
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 4.070441559229947e-05,
+      "loss": 3.7967,
+      "step": 49000
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 4.060956269018007e-05,
+      "loss": 3.7947,
+      "step": 49500
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 4.0514709788060675e-05,
+      "loss": 3.7973,
+      "step": 50000
+    },
+    {
+      "epoch": 0.19,
+      "eval_accuracy": 0.35837528569747157,
+      "eval_loss": 3.7209770679473877,
+      "eval_runtime": 5052.5501,
+      "eval_samples_per_second": 87.831,
+      "eval_steps_per_second": 1.372,
+      "step": 50000
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 4.041985688594128e-05,
+      "loss": 3.7861,
+      "step": 50500
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 4.032500398382189e-05,
+      "loss": 3.7878,
+      "step": 51000
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 4.02301510817025e-05,
+      "loss": 3.7839,
+      "step": 51500
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 4.0135298179583104e-05,
+      "loss": 3.7898,
+      "step": 52000
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 4.0040445277463714e-05,
+      "loss": 3.7808,
+      "step": 52500
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 3.994559237534432e-05,
+      "loss": 3.7857,
+      "step": 53000
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 3.985073947322492e-05,
+      "loss": 3.7754,
+      "step": 53500
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 3.975588657110553e-05,
+      "loss": 3.769,
+      "step": 54000
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 3.9661033668986136e-05,
+      "loss": 3.7723,
+      "step": 54500
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 3.9566180766866747e-05,
+      "loss": 3.7719,
+      "step": 55000
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 3.947132786474736e-05,
+      "loss": 3.7684,
+      "step": 55500
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 3.9376474962627954e-05,
+      "loss": 3.7672,
+      "step": 56000
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 3.9281622060508565e-05,
+      "loss": 3.7595,
+      "step": 56500
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 3.918676915838917e-05,
+      "loss": 3.764,
+      "step": 57000
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 3.909191625626978e-05,
+      "loss": 3.7584,
+      "step": 57500
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 3.899706335415039e-05,
+      "loss": 3.7532,
+      "step": 58000
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 3.890221045203099e-05,
+      "loss": 3.7476,
+      "step": 58500
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 3.88073575499116e-05,
+      "loss": 3.7502,
+      "step": 59000
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 3.871250464779221e-05,
+      "loss": 3.7584,
+      "step": 59500
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 3.861765174567281e-05,
+      "loss": 3.7421,
+      "step": 60000
+    },
+    {
+      "epoch": 0.23,
+      "eval_accuracy": 0.3629990378932714,
+      "eval_loss": 3.6750495433807373,
+      "eval_runtime": 5050.4176,
+      "eval_samples_per_second": 87.869,
+      "eval_steps_per_second": 1.373,
+      "step": 60000
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 3.852279884355342e-05,
+      "loss": 3.7503,
+      "step": 60500
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 3.8427945941434025e-05,
+      "loss": 3.7485,
+      "step": 61000
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 3.8333093039314636e-05,
+      "loss": 3.745,
+      "step": 61500
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 3.823824013719524e-05,
+      "loss": 3.739,
+      "step": 62000
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 3.8143387235075843e-05,
+      "loss": 3.7411,
+      "step": 62500
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 3.8048534332956454e-05,
+      "loss": 3.739,
+      "step": 63000
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 3.795368143083706e-05,
+      "loss": 3.7388,
+      "step": 63500
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 3.785882852871767e-05,
+      "loss": 3.7339,
+      "step": 64000
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 3.776397562659827e-05,
+      "loss": 3.7328,
+      "step": 64500
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 3.7669122724478876e-05,
+      "loss": 3.7209,
+      "step": 65000
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 3.7574269822359486e-05,
+      "loss": 3.727,
+      "step": 65500
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 3.74794169202401e-05,
+      "loss": 3.7251,
+      "step": 66000
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 3.73845640181207e-05,
+      "loss": 3.7199,
+      "step": 66500
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 3.728971111600131e-05,
+      "loss": 3.7277,
+      "step": 67000
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 3.719485821388191e-05,
+      "loss": 3.7232,
+      "step": 67500
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 3.710000531176252e-05,
+      "loss": 3.7154,
+      "step": 68000
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 3.700515240964313e-05,
+      "loss": 3.7159,
+      "step": 68500
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 3.691029950752373e-05,
+      "loss": 3.711,
+      "step": 69000
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 3.681544660540434e-05,
+      "loss": 3.7094,
+      "step": 69500
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 3.672059370328495e-05,
+      "loss": 3.7097,
+      "step": 70000
+    },
+    {
+      "epoch": 0.27,
+      "eval_accuracy": 0.36635205507688484,
+      "eval_loss": 3.6377646923065186,
+      "eval_runtime": 5044.3649,
+      "eval_samples_per_second": 87.974,
+      "eval_steps_per_second": 1.375,
+      "step": 70000
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 3.662574080116555e-05,
+      "loss": 3.7109,
+      "step": 70500
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 3.653088789904616e-05,
+      "loss": 3.7069,
+      "step": 71000
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 3.6436034996926765e-05,
+      "loss": 3.7025,
+      "step": 71500
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 3.6341182094807376e-05,
+      "loss": 3.7032,
+      "step": 72000
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 3.6246329192687986e-05,
+      "loss": 3.7005,
+      "step": 72500
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 3.615147629056859e-05,
+      "loss": 3.704,
+      "step": 73000
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 3.6056623388449194e-05,
+      "loss": 3.6903,
+      "step": 73500
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 3.59617704863298e-05,
+      "loss": 3.6989,
+      "step": 74000
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 3.586691758421041e-05,
+      "loss": 3.6947,
+      "step": 74500
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 3.577206468209102e-05,
+      "loss": 3.6969,
+      "step": 75000
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 3.567721177997162e-05,
+      "loss": 3.696,
+      "step": 75500
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 3.5582358877852226e-05,
+      "loss": 3.6905,
+      "step": 76000
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 3.5487505975732836e-05,
+      "loss": 3.6851,
+      "step": 76500
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 3.539265307361344e-05,
+      "loss": 3.6857,
+      "step": 77000
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 3.529780017149405e-05,
+      "loss": 3.6889,
+      "step": 77500
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 3.5202947269374654e-05,
+      "loss": 3.6911,
+      "step": 78000
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 3.5108094367255265e-05,
+      "loss": 3.687,
+      "step": 78500
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 3.501324146513587e-05,
+      "loss": 3.6808,
+      "step": 79000
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 3.491838856301647e-05,
+      "loss": 3.6841,
+      "step": 79500
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 3.482353566089708e-05,
+      "loss": 3.6741,
+      "step": 80000
+    },
+    {
+      "epoch": 0.3,
+      "eval_accuracy": 0.36940481219098525,
+      "eval_loss": 3.606105089187622,
+      "eval_runtime": 5043.6804,
+      "eval_samples_per_second": 87.986,
+      "eval_steps_per_second": 1.375,
+      "step": 80000
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 3.4728682758777694e-05,
+      "loss": 3.6789,
+      "step": 80500
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 3.46338298566583e-05,
+      "loss": 3.6809,
+      "step": 81000
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 3.45389769545389e-05,
+      "loss": 3.6854,
+      "step": 81500
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 3.4444124052419505e-05,
+      "loss": 3.6692,
+      "step": 82000
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 3.4349271150300115e-05,
+      "loss": 3.6771,
+      "step": 82500
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 3.4254418248180726e-05,
+      "loss": 3.6773,
+      "step": 83000
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 3.415956534606133e-05,
+      "loss": 3.6701,
+      "step": 83500
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 3.406471244394194e-05,
+      "loss": 3.666,
+      "step": 84000
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 3.3969859541822544e-05,
+      "loss": 3.672,
+      "step": 84500
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 3.387500663970315e-05,
+      "loss": 3.6738,
+      "step": 85000
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 3.378015373758376e-05,
+      "loss": 3.6705,
+      "step": 85500
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 3.368530083546436e-05,
+      "loss": 3.6649,
+      "step": 86000
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 3.359044793334497e-05,
+      "loss": 3.6736,
+      "step": 86500
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 3.3495595031225576e-05,
+      "loss": 3.6689,
+      "step": 87000
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 3.340074212910618e-05,
+      "loss": 3.6665,
+      "step": 87500
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 3.330588922698679e-05,
+      "loss": 3.6641,
+      "step": 88000
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 3.3211036324867394e-05,
+      "loss": 3.6536,
+      "step": 88500
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 3.3116183422748005e-05,
+      "loss": 3.6658,
+      "step": 89000
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 3.3021330520628615e-05,
+      "loss": 3.6544,
+      "step": 89500
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 3.292647761850922e-05,
+      "loss": 3.6599,
+      "step": 90000
+    },
+    {
+      "epoch": 0.34,
+      "eval_accuracy": 0.37180447854264453,
+      "eval_loss": 3.5803401470184326,
+      "eval_runtime": 5042.0712,
+      "eval_samples_per_second": 88.014,
+      "eval_steps_per_second": 1.375,
+      "step": 90000
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 3.283162471638982e-05,
+      "loss": 3.6605,
+      "step": 90500
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 3.2736771814270426e-05,
+      "loss": 3.6603,
+      "step": 91000
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 3.264191891215104e-05,
+      "loss": 3.6576,
+      "step": 91500
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 3.254706601003165e-05,
+      "loss": 3.6511,
+      "step": 92000
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 3.245221310791225e-05,
+      "loss": 3.6518,
+      "step": 92500
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 3.2357360205792855e-05,
+      "loss": 3.6522,
+      "step": 93000
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 3.2262507303673465e-05,
+      "loss": 3.646,
+      "step": 93500
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 3.216765440155407e-05,
+      "loss": 3.6494,
+      "step": 94000
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 3.207280149943468e-05,
+      "loss": 3.6388,
+      "step": 94500
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 3.1977948597315284e-05,
+      "loss": 3.6456,
+      "step": 95000
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 3.1883095695195894e-05,
+      "loss": 3.6398,
+      "step": 95500
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 3.17882427930765e-05,
+      "loss": 3.6476,
+      "step": 96000
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 3.16933898909571e-05,
+      "loss": 3.6364,
+      "step": 96500
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 3.159853698883771e-05,
+      "loss": 3.6456,
+      "step": 97000
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 3.150368408671832e-05,
+      "loss": 3.645,
+      "step": 97500
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 3.1408831184598926e-05,
+      "loss": 3.6357,
+      "step": 98000
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 3.131397828247954e-05,
+      "loss": 3.6415,
+      "step": 98500
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 3.1219125380360134e-05,
+      "loss": 3.6314,
+      "step": 99000
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 3.1124272478240744e-05,
+      "loss": 3.64,
+      "step": 99500
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 3.1029419576121355e-05,
+      "loss": 3.6356,
+      "step": 100000
+    },
+    {
+      "epoch": 0.38,
+      "eval_accuracy": 0.37408231347678594,
+      "eval_loss": 3.558403253555298,
+      "eval_runtime": 5044.122,
+      "eval_samples_per_second": 87.978,
+      "eval_steps_per_second": 1.375,
+      "step": 100000
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 3.093456667400196e-05,
+      "loss": 3.637,
+      "step": 100500
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 3.083971377188257e-05,
+      "loss": 3.6353,
+      "step": 101000
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 3.074486086976317e-05,
+      "loss": 3.6331,
+      "step": 101500
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 3.065000796764378e-05,
+      "loss": 3.6288,
+      "step": 102000
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 3.055515506552439e-05,
+      "loss": 3.6273,
+      "step": 102500
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 3.046030216340499e-05,
+      "loss": 3.6351,
+      "step": 103000
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 3.03654492612856e-05,
+      "loss": 3.6285,
+      "step": 103500
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 3.027059635916621e-05,
+      "loss": 3.6256,
+      "step": 104000
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 3.0175743457046812e-05,
+      "loss": 3.6248,
+      "step": 104500
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 3.0080890554927423e-05,
+      "loss": 3.6182,
+      "step": 105000
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 2.9986037652808023e-05,
+      "loss": 3.6242,
+      "step": 105500
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 2.9891184750688634e-05,
+      "loss": 3.625,
+      "step": 106000
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 2.979633184856924e-05,
+      "loss": 3.6191,
+      "step": 106500
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 2.9701478946449845e-05,
+      "loss": 3.6267,
+      "step": 107000
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 2.9606626044330455e-05,
+      "loss": 3.6227,
+      "step": 107500
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 2.9511773142211062e-05,
+      "loss": 3.6217,
+      "step": 108000
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 2.9416920240091666e-05,
+      "loss": 3.6168,
+      "step": 108500
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 2.9322067337972277e-05,
+      "loss": 3.6204,
+      "step": 109000
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 2.922721443585288e-05,
+      "loss": 3.6217,
+      "step": 109500
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 2.9132361533733487e-05,
+      "loss": 3.6131,
+      "step": 110000
+    },
+    {
+      "epoch": 0.42,
+      "eval_accuracy": 0.37584134336520747,
+      "eval_loss": 3.542346715927124,
+      "eval_runtime": 5051.4787,
+      "eval_samples_per_second": 87.85,
+      "eval_steps_per_second": 1.373,
+      "step": 110000
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 2.9037508631614098e-05,
+      "loss": 3.6165,
+      "step": 110500
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 2.8942655729494698e-05,
+      "loss": 3.6129,
+      "step": 111000
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 2.884780282737531e-05,
+      "loss": 3.6177,
+      "step": 111500
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 2.8752949925255913e-05,
+      "loss": 3.6187,
+      "step": 112000
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 2.865809702313652e-05,
+      "loss": 3.6112,
+      "step": 112500
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 2.856324412101713e-05,
+      "loss": 3.6103,
+      "step": 113000
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 2.8468391218897734e-05,
+      "loss": 3.6103,
+      "step": 113500
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 2.837353831677834e-05,
+      "loss": 3.615,
+      "step": 114000
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 2.827868541465895e-05,
+      "loss": 3.6151,
+      "step": 114500
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 2.8183832512539555e-05,
+      "loss": 3.6039,
+      "step": 115000
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 2.8088979610420162e-05,
+      "loss": 3.6133,
+      "step": 115500
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 2.7994126708300766e-05,
+      "loss": 3.6063,
+      "step": 116000
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 2.7899273806181377e-05,
+      "loss": 3.6029,
+      "step": 116500
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 2.7804420904061984e-05,
+      "loss": 3.6082,
+      "step": 117000
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 2.7709568001942588e-05,
+      "loss": 3.6099,
+      "step": 117500
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 2.7614715099823195e-05,
+      "loss": 3.6035,
+      "step": 118000
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 2.75198621977038e-05,
+      "loss": 3.5997,
+      "step": 118500
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 2.742500929558441e-05,
+      "loss": 3.6032,
+      "step": 119000
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 2.7330156393465016e-05,
+      "loss": 3.5998,
+      "step": 119500
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 2.723530349134562e-05,
+      "loss": 3.5991,
+      "step": 120000
+    },
+    {
+      "epoch": 0.46,
+      "eval_accuracy": 0.3775510164297428,
+      "eval_loss": 3.525380849838257,
+      "eval_runtime": 5041.3032,
+      "eval_samples_per_second": 88.027,
+      "eval_steps_per_second": 1.375,
+      "step": 120000
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 2.714045058922623e-05,
+      "loss": 3.6027,
+      "step": 120500
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 2.7045597687106838e-05,
+      "loss": 3.5947,
+      "step": 121000
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 2.695074478498744e-05,
+      "loss": 3.6033,
+      "step": 121500
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 2.6855891882868052e-05,
+      "loss": 3.5933,
+      "step": 122000
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 2.6761038980748652e-05,
+      "loss": 3.594,
+      "step": 122500
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 2.6666186078629263e-05,
+      "loss": 3.599,
+      "step": 123000
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 2.6571333176509873e-05,
+      "loss": 3.6013,
+      "step": 123500
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 2.6476480274390474e-05,
+      "loss": 3.5982,
+      "step": 124000
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 2.6381627372271084e-05,
+      "loss": 3.5937,
+      "step": 124500
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 2.628677447015169e-05,
+      "loss": 3.5945,
+      "step": 125000
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 2.6191921568032295e-05,
+      "loss": 3.5926,
+      "step": 125500
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 2.6097068665912906e-05,
+      "loss": 3.5927,
+      "step": 126000
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 2.600221576379351e-05,
+      "loss": 3.5892,
+      "step": 126500
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 2.5907362861674116e-05,
+      "loss": 3.5938,
+      "step": 127000
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 2.5812509959554727e-05,
+      "loss": 3.5867,
+      "step": 127500
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 2.571765705743533e-05,
+      "loss": 3.5879,
+      "step": 128000
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 2.5622804155315938e-05,
+      "loss": 3.5909,
+      "step": 128500
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 2.552795125319654e-05,
+      "loss": 3.5861,
+      "step": 129000
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 2.543309835107715e-05,
+      "loss": 3.5913,
+      "step": 129500
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 2.533824544895776e-05,
+      "loss": 3.591,
+      "step": 130000
+    },
+    {
+      "epoch": 0.49,
+      "eval_accuracy": 0.37901210353247916,
+      "eval_loss": 3.510841131210327,
+      "eval_runtime": 5053.0574,
+      "eval_samples_per_second": 87.823,
+      "eval_steps_per_second": 1.372,
+      "step": 130000
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 2.5243392546838363e-05,
+      "loss": 3.5849,
+      "step": 130500
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 2.514853964471897e-05,
+      "loss": 3.5868,
+      "step": 131000
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 2.505368674259958e-05,
+      "loss": 3.5838,
+      "step": 131500
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 2.4958833840480184e-05,
+      "loss": 3.5848,
+      "step": 132000
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 2.486398093836079e-05,
+      "loss": 3.5818,
+      "step": 132500
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 2.47691280362414e-05,
+      "loss": 3.5842,
+      "step": 133000
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 2.4674275134122006e-05,
+      "loss": 3.584,
+      "step": 133500
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 2.457942223200261e-05,
+      "loss": 3.5817,
+      "step": 134000
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 2.448456932988322e-05,
+      "loss": 3.5781,
+      "step": 134500
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 2.4389716427763827e-05,
+      "loss": 3.5761,
+      "step": 135000
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 2.429486352564443e-05,
+      "loss": 3.5755,
+      "step": 135500
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 2.4200010623525038e-05,
+      "loss": 3.5822,
+      "step": 136000
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 2.4105157721405645e-05,
+      "loss": 3.5749,
+      "step": 136500
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 2.4010304819286252e-05,
+      "loss": 3.5812,
+      "step": 137000
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 2.391545191716686e-05,
+      "loss": 3.5786,
+      "step": 137500
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 2.3820599015047467e-05,
+      "loss": 3.5826,
+      "step": 138000
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 2.372574611292807e-05,
+      "loss": 3.5731,
+      "step": 138500
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 2.363089321080868e-05,
+      "loss": 3.5784,
+      "step": 139000
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 2.3536040308689285e-05,
+      "loss": 3.5738,
+      "step": 139500
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 2.3441187406569892e-05,
+      "loss": 3.574,
+      "step": 140000
+    },
+    {
+      "epoch": 0.53,
+      "eval_accuracy": 0.3804677520669924,
+      "eval_loss": 3.4966471195220947,
+      "eval_runtime": 5044.6959,
+      "eval_samples_per_second": 87.968,
+      "eval_steps_per_second": 1.375,
+      "step": 140000
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 2.33463345044505e-05,
+      "loss": 3.5722,
+      "step": 140500
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 2.3251481602331106e-05,
+      "loss": 3.5778,
+      "step": 141000
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 2.3156628700211713e-05,
+      "loss": 3.5722,
+      "step": 141500
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 2.306177579809232e-05,
+      "loss": 3.5658,
+      "step": 142000
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 2.2966922895972924e-05,
+      "loss": 3.5671,
+      "step": 142500
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 2.2872069993853535e-05,
+      "loss": 3.5696,
+      "step": 143000
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 2.2777217091734142e-05,
+      "loss": 3.5691,
+      "step": 143500
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 2.2682364189614745e-05,
+      "loss": 3.5737,
+      "step": 144000
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 2.2587511287495353e-05,
+      "loss": 3.5693,
+      "step": 144500
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 2.249265838537596e-05,
+      "loss": 3.5728,
+      "step": 145000
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 2.2397805483256567e-05,
+      "loss": 3.569,
+      "step": 145500
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 2.2302952581137174e-05,
+      "loss": 3.5559,
+      "step": 146000
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 2.220809967901778e-05,
+      "loss": 3.5673,
+      "step": 146500
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 2.2113246776898385e-05,
+      "loss": 3.567,
+      "step": 147000
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 2.2018393874778995e-05,
+      "loss": 3.5692,
+      "step": 147500
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 2.19235409726596e-05,
+      "loss": 3.5651,
+      "step": 148000
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 2.1828688070540206e-05,
+      "loss": 3.559,
+      "step": 148500
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 2.1733835168420813e-05,
+      "loss": 3.5657,
+      "step": 149000
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 2.163898226630142e-05,
+      "loss": 3.5632,
+      "step": 149500
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 2.1544129364182028e-05,
+      "loss": 3.5606,
+      "step": 150000
+    },
+    {
+      "epoch": 0.57,
+      "eval_accuracy": 0.38146521499584235,
+      "eval_loss": 3.486565113067627,
+      "eval_runtime": 5047.1623,
+      "eval_samples_per_second": 87.925,
+      "eval_steps_per_second": 1.374,
+      "step": 150000
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 2.1449276462062635e-05,
+      "loss": 3.5635,
+      "step": 150500
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 2.135442355994324e-05,
+      "loss": 3.569,
+      "step": 151000
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 2.125957065782385e-05,
+      "loss": 3.551,
+      "step": 151500
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 2.1164717755704456e-05,
+      "loss": 3.5543,
+      "step": 152000
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 2.106986485358506e-05,
+      "loss": 3.5556,
+      "step": 152500
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 2.0975011951465667e-05,
+      "loss": 3.5598,
+      "step": 153000
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 2.0880159049346274e-05,
+      "loss": 3.5592,
+      "step": 153500
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 2.078530614722688e-05,
+      "loss": 3.5562,
+      "step": 154000
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 2.069045324510749e-05,
+      "loss": 3.5561,
+      "step": 154500
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 2.0595600342988096e-05,
+      "loss": 3.5573,
+      "step": 155000
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 2.05007474408687e-05,
+      "loss": 3.5585,
+      "step": 155500
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 2.040589453874931e-05,
+      "loss": 3.5576,
+      "step": 156000
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 2.0311041636629917e-05,
+      "loss": 3.5529,
+      "step": 156500
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 2.021618873451052e-05,
+      "loss": 3.5575,
+      "step": 157000
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 2.0121335832391128e-05,
+      "loss": 3.5569,
+      "step": 157500
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 2.0026482930271735e-05,
+      "loss": 3.5537,
+      "step": 158000
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 1.9931630028152342e-05,
+      "loss": 3.5553,
+      "step": 158500
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 1.983677712603295e-05,
+      "loss": 3.5524,
+      "step": 159000
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 1.9741924223913557e-05,
+      "loss": 3.5562,
+      "step": 159500
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 1.9647071321794164e-05,
+      "loss": 3.5516,
+      "step": 160000
+    },
+    {
+      "epoch": 0.61,
+      "eval_accuracy": 0.3828251390025017,
+      "eval_loss": 3.4739012718200684,
+      "eval_runtime": 5050.1987,
+      "eval_samples_per_second": 87.872,
+      "eval_steps_per_second": 1.373,
+      "step": 160000
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 1.955221841967477e-05,
+      "loss": 3.5508,
+      "step": 160500
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 1.9457365517555375e-05,
+      "loss": 3.5424,
+      "step": 161000
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 1.936251261543598e-05,
+      "loss": 3.5526,
+      "step": 161500
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 1.9267659713316592e-05,
+      "loss": 3.5469,
+      "step": 162000
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 1.9172806811197196e-05,
+      "loss": 3.5401,
+      "step": 162500
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 1.9077953909077803e-05,
+      "loss": 3.5525,
+      "step": 163000
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 1.898310100695841e-05,
+      "loss": 3.5494,
+      "step": 163500
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 1.8888248104839014e-05,
+      "loss": 3.5527,
+      "step": 164000
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 1.8793395202719624e-05,
+      "loss": 3.5477,
+      "step": 164500
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 1.869854230060023e-05,
+      "loss": 3.548,
+      "step": 165000
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 1.8603689398480835e-05,
+      "loss": 3.5466,
+      "step": 165500
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 1.8508836496361442e-05,
+      "loss": 3.5491,
+      "step": 166000
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 1.8413983594242053e-05,
+      "loss": 3.5431,
+      "step": 166500
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 1.8319130692122657e-05,
+      "loss": 3.5462,
+      "step": 167000
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 1.8224277790003264e-05,
+      "loss": 3.5453,
+      "step": 167500
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 1.812942488788387e-05,
+      "loss": 3.5408,
+      "step": 168000
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 1.8034571985764478e-05,
+      "loss": 3.5465,
+      "step": 168500
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 1.7939719083645085e-05,
+      "loss": 3.5437,
+      "step": 169000
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 1.784486618152569e-05,
+      "loss": 3.533,
+      "step": 169500
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 1.7750013279406296e-05,
+      "loss": 3.5423,
+      "step": 170000
+    },
+    {
+      "epoch": 0.64,
+      "eval_accuracy": 0.38377248075624093,
+      "eval_loss": 3.4649875164031982,
+      "eval_runtime": 5024.5121,
+      "eval_samples_per_second": 88.322,
+      "eval_steps_per_second": 1.38,
+      "step": 170000
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 1.7655160377286907e-05,
+      "loss": 3.5446,
+      "step": 170500
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 1.756030747516751e-05,
+      "loss": 3.5374,
+      "step": 171000
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 1.7465454573048118e-05,
+      "loss": 3.5426,
+      "step": 171500
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 1.7370601670928725e-05,
+      "loss": 3.5391,
+      "step": 172000
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 1.727574876880933e-05,
+      "loss": 3.544,
+      "step": 172500
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 1.718089586668994e-05,
+      "loss": 3.5396,
+      "step": 173000
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 1.7086042964570546e-05,
+      "loss": 3.5385,
+      "step": 173500
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 1.699119006245115e-05,
+      "loss": 3.534,
+      "step": 174000
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 1.6896337160331757e-05,
+      "loss": 3.5374,
+      "step": 174500
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 1.6801484258212368e-05,
+      "loss": 3.5351,
+      "step": 175000
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 1.670663135609297e-05,
+      "loss": 3.5391,
+      "step": 175500
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 1.661177845397358e-05,
+      "loss": 3.5351,
+      "step": 176000
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 1.6516925551854186e-05,
+      "loss": 3.5315,
+      "step": 176500
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 1.6422072649734793e-05,
+      "loss": 3.5324,
+      "step": 177000
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 1.63272197476154e-05,
+      "loss": 3.5379,
+      "step": 177500
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 1.6232366845496007e-05,
+      "loss": 3.534,
+      "step": 178000
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 1.613751394337661e-05,
+      "loss": 3.5366,
+      "step": 178500
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 1.604266104125722e-05,
+      "loss": 3.5364,
+      "step": 179000
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 1.5947808139137825e-05,
+      "loss": 3.5398,
+      "step": 179500
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 1.5852955237018432e-05,
+      "loss": 3.5298,
+      "step": 180000
+    },
+    {
+      "epoch": 0.68,
+      "eval_accuracy": 0.3846720031995081,
+      "eval_loss": 3.455994129180908,
+      "eval_runtime": 5033.5621,
+      "eval_samples_per_second": 88.163,
+      "eval_steps_per_second": 1.378,
+      "step": 180000
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 1.575810233489904e-05,
+      "loss": 3.5337,
+      "step": 180500
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 1.5663249432779646e-05,
+      "loss": 3.5324,
+      "step": 181000
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 1.5568396530660254e-05,
+      "loss": 3.5307,
+      "step": 181500
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 1.547354362854086e-05,
+      "loss": 3.5273,
+      "step": 182000
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 1.5378690726421464e-05,
+      "loss": 3.5301,
+      "step": 182500
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 1.528383782430207e-05,
+      "loss": 3.5321,
+      "step": 183000
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 1.518898492218268e-05,
+      "loss": 3.5283,
+      "step": 183500
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 1.5094132020063287e-05,
+      "loss": 3.534,
+      "step": 184000
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 1.4999279117943893e-05,
+      "loss": 3.5346,
+      "step": 184500
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 1.4904426215824498e-05,
+      "loss": 3.5234,
+      "step": 185000
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 1.4809573313705107e-05,
+      "loss": 3.5243,
+      "step": 185500
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 1.4714720411585714e-05,
+      "loss": 3.5292,
+      "step": 186000
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 1.461986750946632e-05,
+      "loss": 3.5241,
+      "step": 186500
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 1.4525014607346927e-05,
+      "loss": 3.5258,
+      "step": 187000
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 1.4430161705227536e-05,
+      "loss": 3.5241,
+      "step": 187500
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 1.4335308803108141e-05,
+      "loss": 3.5281,
+      "step": 188000
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 1.4240455900988747e-05,
+      "loss": 3.5271,
+      "step": 188500
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 1.4145602998869354e-05,
+      "loss": 3.5222,
+      "step": 189000
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 1.405075009674996e-05,
+      "loss": 3.5197,
+      "step": 189500
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 1.3955897194630568e-05,
+      "loss": 3.5287,
+      "step": 190000
+    },
+    {
+      "epoch": 0.72,
+      "eval_accuracy": 0.38565153361158844,
+      "eval_loss": 3.447903871536255,
+      "eval_runtime": 5039.8049,
+      "eval_samples_per_second": 88.054,
+      "eval_steps_per_second": 1.376,
+      "step": 190000
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 1.3861044292511175e-05,
+      "loss": 3.5309,
+      "step": 190500
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 1.376619139039178e-05,
+      "loss": 3.5236,
+      "step": 191000
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 1.3671338488272386e-05,
+      "loss": 3.5268,
+      "step": 191500
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 1.3576485586152995e-05,
+      "loss": 3.5261,
+      "step": 192000
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 1.3481632684033602e-05,
+      "loss": 3.5242,
+      "step": 192500
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 1.3386779781914207e-05,
+      "loss": 3.5268,
+      "step": 193000
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 1.3291926879794815e-05,
+      "loss": 3.5302,
+      "step": 193500
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 1.3197073977675423e-05,
+      "loss": 3.525,
+      "step": 194000
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 1.3102221075556029e-05,
+      "loss": 3.5278,
+      "step": 194500
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 1.3007368173436634e-05,
+      "loss": 3.5221,
+      "step": 195000
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 1.2912515271317241e-05,
+      "loss": 3.5231,
+      "step": 195500
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 1.281766236919785e-05,
+      "loss": 3.5237,
+      "step": 196000
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 1.2722809467078456e-05,
+      "loss": 3.5236,
+      "step": 196500
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 1.2627956564959063e-05,
+      "loss": 3.5201,
+      "step": 197000
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 1.2533103662839668e-05,
+      "loss": 3.5221,
+      "step": 197500
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 1.2438250760720275e-05,
+      "loss": 3.5216,
+      "step": 198000
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 1.2343397858600881e-05,
+      "loss": 3.5202,
+      "step": 198500
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 1.224854495648149e-05,
+      "loss": 3.5207,
+      "step": 199000
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 1.2153692054362095e-05,
+      "loss": 3.5172,
+      "step": 199500
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 1.2058839152242702e-05,
+      "loss": 3.5187,
+      "step": 200000
+    },
+    {
+      "epoch": 0.76,
+      "eval_accuracy": 0.3863054900513532,
+      "eval_loss": 3.440758466720581,
+      "eval_runtime": 5028.552,
+      "eval_samples_per_second": 88.251,
+      "eval_steps_per_second": 1.379,
+      "step": 200000
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 1.196398625012331e-05,
+      "loss": 3.5153,
+      "step": 200500
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 1.1869133348003917e-05,
+      "loss": 3.5164,
+      "step": 201000
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 1.1774280445884522e-05,
+      "loss": 3.5225,
+      "step": 201500
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 1.1679427543765129e-05,
+      "loss": 3.5142,
+      "step": 202000
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 1.1584574641645736e-05,
+      "loss": 3.519,
+      "step": 202500
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 1.1489721739526343e-05,
+      "loss": 3.522,
+      "step": 203000
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 1.1394868837406949e-05,
+      "loss": 3.5142,
+      "step": 203500
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 1.1300015935287558e-05,
+      "loss": 3.5101,
+      "step": 204000
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 1.1205163033168163e-05,
+      "loss": 3.5151,
+      "step": 204500
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 1.111031013104877e-05,
+      "loss": 3.5112,
+      "step": 205000
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 1.1015457228929377e-05,
+      "loss": 3.5161,
+      "step": 205500
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 1.0920604326809984e-05,
+      "loss": 3.5135,
+      "step": 206000
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 1.082575142469059e-05,
+      "loss": 3.5143,
+      "step": 206500
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 1.0730898522571197e-05,
+      "loss": 3.5134,
+      "step": 207000
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 1.0636045620451804e-05,
+      "loss": 3.5162,
+      "step": 207500
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 1.054119271833241e-05,
+      "loss": 3.5202,
+      "step": 208000
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 1.0446339816213017e-05,
+      "loss": 3.507,
+      "step": 208500
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 1.0351486914093624e-05,
+      "loss": 3.5108,
+      "step": 209000
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 1.0256634011974231e-05,
+      "loss": 3.5144,
+      "step": 209500
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 1.0161781109854836e-05,
+      "loss": 3.5157,
+      "step": 210000
+    },
+    {
+      "epoch": 0.8,
+      "eval_accuracy": 0.3870160062789933,
+      "eval_loss": 3.4338622093200684,
+      "eval_runtime": 5031.2535,
+      "eval_samples_per_second": 88.203,
+      "eval_steps_per_second": 1.378,
+      "step": 210000
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 1.0066928207735445e-05,
+      "loss": 3.5167,
+      "step": 210500
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 9.97207530561605e-06,
+      "loss": 3.5107,
+      "step": 211000
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 9.877222403496658e-06,
+      "loss": 3.5114,
+      "step": 211500
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 9.782369501377265e-06,
+      "loss": 3.5121,
+      "step": 212000
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 9.687516599257872e-06,
+      "loss": 3.5084,
+      "step": 212500
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 9.592663697138478e-06,
+      "loss": 3.5178,
+      "step": 213000
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 9.497810795019085e-06,
+      "loss": 3.5076,
+      "step": 213500
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 9.402957892899692e-06,
+      "loss": 3.5102,
+      "step": 214000
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 9.308104990780299e-06,
+      "loss": 3.5069,
+      "step": 214500
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 9.213252088660904e-06,
+      "loss": 3.5108,
+      "step": 215000
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 9.118399186541513e-06,
+      "loss": 3.5087,
+      "step": 215500
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 9.023546284422119e-06,
+      "loss": 3.5041,
+      "step": 216000
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 8.928693382302724e-06,
+      "loss": 3.5125,
+      "step": 216500
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 8.833840480183333e-06,
+      "loss": 3.5084,
+      "step": 217000
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 8.738987578063938e-06,
+      "loss": 3.5034,
+      "step": 217500
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 8.644134675944546e-06,
+      "loss": 3.5077,
+      "step": 218000
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 8.549281773825151e-06,
+      "loss": 3.505,
+      "step": 218500
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 8.45442887170576e-06,
+      "loss": 3.5072,
+      "step": 219000
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 8.359575969586365e-06,
+      "loss": 3.5,
+      "step": 219500
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 8.264723067466972e-06,
+      "loss": 3.5042,
+      "step": 220000
+    },
+    {
+      "epoch": 0.83,
+      "eval_accuracy": 0.3876448779010485,
+      "eval_loss": 3.4285898208618164,
+      "eval_runtime": 5039.4169,
+      "eval_samples_per_second": 88.06,
+      "eval_steps_per_second": 1.376,
+      "step": 220000
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 8.16987016534758e-06,
+      "loss": 3.5075,
+      "step": 220500
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 8.075017263228187e-06,
+      "loss": 3.5056,
+      "step": 221000
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 7.980164361108792e-06,
+      "loss": 3.5089,
+      "step": 221500
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 7.8853114589894e-06,
+      "loss": 3.5114,
+      "step": 222000
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 7.790458556870006e-06,
+      "loss": 3.5076,
+      "step": 222500
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 7.695605654750614e-06,
+      "loss": 3.5053,
+      "step": 223000
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 7.60075275263122e-06,
+      "loss": 3.5058,
+      "step": 223500
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 7.505899850511827e-06,
+      "loss": 3.5078,
+      "step": 224000
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 7.411046948392433e-06,
+      "loss": 3.5084,
+      "step": 224500
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 7.31619404627304e-06,
+      "loss": 3.5038,
+      "step": 225000
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 7.221341144153647e-06,
+      "loss": 3.5015,
+      "step": 225500
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 7.126488242034253e-06,
+      "loss": 3.5034,
+      "step": 226000
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 7.03163533991486e-06,
+      "loss": 3.5098,
+      "step": 226500
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 6.936782437795466e-06,
+      "loss": 3.5001,
+      "step": 227000
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 6.841929535676074e-06,
+      "loss": 3.5055,
+      "step": 227500
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 6.74707663355668e-06,
+      "loss": 3.5018,
+      "step": 228000
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 6.652223731437288e-06,
+      "loss": 3.503,
+      "step": 228500
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 6.557370829317894e-06,
+      "loss": 3.503,
+      "step": 229000
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 6.462517927198501e-06,
+      "loss": 3.498,
+      "step": 229500
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 6.3676650250791075e-06,
+      "loss": 3.5033,
+      "step": 230000
+    },
+    {
+      "epoch": 0.87,
+      "eval_accuracy": 0.38827686860475785,
+      "eval_loss": 3.422902822494507,
+      "eval_runtime": 5026.5934,
+      "eval_samples_per_second": 88.285,
+      "eval_steps_per_second": 1.379,
+      "step": 230000
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 6.272812122959715e-06,
+      "loss": 3.5024,
+      "step": 230500
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 6.177959220840321e-06,
+      "loss": 3.4986,
+      "step": 231000
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 6.083106318720928e-06,
+      "loss": 3.5025,
+      "step": 231500
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 5.988253416601534e-06,
+      "loss": 3.5065,
+      "step": 232000
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 5.8934005144821415e-06,
+      "loss": 3.5047,
+      "step": 232500
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 5.798547612362748e-06,
+      "loss": 3.502,
+      "step": 233000
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 5.703694710243355e-06,
+      "loss": 3.5061,
+      "step": 233500
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 5.608841808123961e-06,
+      "loss": 3.5036,
+      "step": 234000
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 5.513988906004568e-06,
+      "loss": 3.4966,
+      "step": 234500
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 5.4191360038851754e-06,
+      "loss": 3.5048,
+      "step": 235000
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 5.324283101765782e-06,
+      "loss": 3.5024,
+      "step": 235500
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 5.229430199646389e-06,
+      "loss": 3.495,
+      "step": 236000
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 5.134577297526995e-06,
+      "loss": 3.5035,
+      "step": 236500
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 5.039724395407602e-06,
+      "loss": 3.5026,
+      "step": 237000
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 4.9448714932882094e-06,
+      "loss": 3.4997,
+      "step": 237500
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 4.850018591168816e-06,
+      "loss": 3.5035,
+      "step": 238000
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 4.755165689049423e-06,
+      "loss": 3.4975,
+      "step": 238500
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 4.660312786930029e-06,
+      "loss": 3.5003,
+      "step": 239000
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 4.5654598848106354e-06,
+      "loss": 3.4994,
+      "step": 239500
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 4.4706069826912426e-06,
+      "loss": 3.501,
+      "step": 240000
+    },
+    {
+      "epoch": 0.91,
+      "eval_accuracy": 0.38875705078485445,
+      "eval_loss": 3.4187748432159424,
+      "eval_runtime": 5045.601,
+      "eval_samples_per_second": 87.952,
+      "eval_steps_per_second": 1.374,
+      "step": 240000
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 4.375754080571849e-06,
+      "loss": 3.4917,
+      "step": 240500
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 4.280901178452456e-06,
+      "loss": 3.4986,
+      "step": 241000
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 4.186048276333063e-06,
+      "loss": 3.496,
+      "step": 241500
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 4.091195374213669e-06,
+      "loss": 3.4978,
+      "step": 242000
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 3.9963424720942765e-06,
+      "loss": 3.491,
+      "step": 242500
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 3.901489569974883e-06,
+      "loss": 3.4953,
+      "step": 243000
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 3.80663666785549e-06,
+      "loss": 3.4962,
+      "step": 243500
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 3.7117837657360967e-06,
+      "loss": 3.4982,
+      "step": 244000
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 3.6169308636167034e-06,
+      "loss": 3.4973,
+      "step": 244500
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 3.52207796149731e-06,
+      "loss": 3.4922,
+      "step": 245000
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 3.4272250593779172e-06,
+      "loss": 3.4921,
+      "step": 245500
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 3.332372157258524e-06,
+      "loss": 3.5039,
+      "step": 246000
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 3.2375192551391307e-06,
+      "loss": 3.5025,
+      "step": 246500
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 3.1426663530197374e-06,
+      "loss": 3.4964,
+      "step": 247000
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 3.0478134509003437e-06,
+      "loss": 3.4936,
+      "step": 247500
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 2.952960548780951e-06,
+      "loss": 3.4959,
+      "step": 248000
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 2.8581076466615575e-06,
+      "loss": 3.4963,
+      "step": 248500
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 2.7632547445421642e-06,
+      "loss": 3.5014,
+      "step": 249000
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 2.668401842422771e-06,
+      "loss": 3.4948,
+      "step": 249500
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 2.5735489403033776e-06,
+      "loss": 3.4946,
+      "step": 250000
+    },
+    {
+      "epoch": 0.95,
+      "eval_accuracy": 0.38918558969561506,
+      "eval_loss": 3.4148616790771484,
+      "eval_runtime": 5028.0262,
+      "eval_samples_per_second": 88.26,
+      "eval_steps_per_second": 1.379,
+      "step": 250000
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 2.4786960381839844e-06,
+      "loss": 3.4959,
+      "step": 250500
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 2.383843136064591e-06,
+      "loss": 3.4955,
+      "step": 251000
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 2.2889902339451978e-06,
+      "loss": 3.4869,
+      "step": 251500
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 2.1941373318258045e-06,
+      "loss": 3.4975,
+      "step": 252000
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 2.099284429706411e-06,
+      "loss": 3.4871,
+      "step": 252500
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 2.0044315275870183e-06,
+      "loss": 3.4889,
+      "step": 253000
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 1.909578625467625e-06,
+      "loss": 3.4928,
+      "step": 253500
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 1.8147257233482318e-06,
+      "loss": 3.4921,
+      "step": 254000
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.7198728212288385e-06,
+      "loss": 3.494,
+      "step": 254500
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.625019919109445e-06,
+      "loss": 3.4918,
+      "step": 255000
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.5301670169900519e-06,
+      "loss": 3.4919,
+      "step": 255500
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.4353141148706586e-06,
+      "loss": 3.4907,
+      "step": 256000
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.3404612127512653e-06,
+      "loss": 3.4937,
+      "step": 256500
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 1.2456083106318722e-06,
+      "loss": 3.4893,
+      "step": 257000
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 1.150755408512479e-06,
+      "loss": 3.4944,
+      "step": 257500
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 1.0559025063930857e-06,
+      "loss": 3.4914,
+      "step": 258000
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 9.610496042736924e-07,
+      "loss": 3.4947,
+      "step": 258500
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 8.661967021542991e-07,
+      "loss": 3.4916,
+      "step": 259000
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 7.713438000349059e-07,
+      "loss": 3.4884,
+      "step": 259500
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 6.764908979155126e-07,
+      "loss": 3.4971,
+      "step": 260000
+    },
+    {
+      "epoch": 0.99,
+      "eval_accuracy": 0.3894276158938788,
+      "eval_loss": 3.412609100341797,
+      "eval_runtime": 5032.8837,
+      "eval_samples_per_second": 88.175,
+      "eval_steps_per_second": 1.378,
+      "step": 260000
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 5.816379957961194e-07,
+      "loss": 3.4929,
+      "step": 260500
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 4.867850936767261e-07,
+      "loss": 3.4937,
+      "step": 261000
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 3.919321915573329e-07,
+      "loss": 3.4859,
+      "step": 261500
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 2.9707928943793967e-07,
+      "loss": 3.4796,
+      "step": 262000
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 2.022263873185464e-07,
+      "loss": 3.4871,
+      "step": 262500
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 1.0737348519915316e-07,
+      "loss": 3.4949,
+      "step": 263000
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 1.252058307975991e-08,
+      "loss": 3.4884,
+      "step": 263500
+    },
+    {
+      "epoch": 1.0,
+      "step": 263566,
+      "total_flos": 4.407529912270848e+18,
+      "train_loss": 3.6950655784551065,
+      "train_runtime": 269467.2599,
+      "train_samples_per_second": 31.299,
+      "train_steps_per_second": 0.978
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 263566,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 10000,
+  "total_flos": 4.407529912270848e+18,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3fdab7f7855ae6a771f26388f2d1505d0aef9de137fd2b12132902757927b853
+size 4728