{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 2.9575757575757575,
  "eval_steps": 100,
  "global_step": 183,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.08080808080808081,
      "grad_norm": 44.44057083129883,
      "learning_rate": 1.997617272301248e-05,
      "loss": 5.8337,
      "num_input_tokens_seen": 165120,
      "step": 5
    },
    {
      "epoch": 0.16161616161616163,
      "grad_norm": 103.08992004394531,
      "learning_rate": 1.9879568983287468e-05,
      "loss": 5.3632,
      "num_input_tokens_seen": 330240,
      "step": 10
    },
    {
      "epoch": 0.24242424242424243,
      "grad_norm": 152.83438110351562,
      "learning_rate": 1.9709418174260523e-05,
      "loss": 4.0589,
      "num_input_tokens_seen": 495360,
      "step": 15
    },
    {
      "epoch": 0.32323232323232326,
      "grad_norm": 30.29560661315918,
      "learning_rate": 1.9466986959828063e-05,
      "loss": 2.4357,
      "num_input_tokens_seen": 660480,
      "step": 20
    },
    {
      "epoch": 0.40404040404040403,
      "grad_norm": 17.686201095581055,
      "learning_rate": 1.9154080085253665e-05,
      "loss": 0.9083,
      "num_input_tokens_seen": 825600,
      "step": 25
    },
    {
      "epoch": 0.48484848484848486,
      "grad_norm": 35.6971321105957,
      "learning_rate": 1.877302694199442e-05,
      "loss": 0.3938,
      "num_input_tokens_seen": 990720,
      "step": 30
    },
    {
      "epoch": 0.5656565656565656,
      "grad_norm": 2.8081984519958496,
      "learning_rate": 1.8326664226872063e-05,
      "loss": 0.0899,
      "num_input_tokens_seen": 1155840,
      "step": 35
    },
    {
      "epoch": 0.6464646464646465,
      "grad_norm": 8.296229362487793,
      "learning_rate": 1.78183148246803e-05,
      "loss": 0.146,
      "num_input_tokens_seen": 1320960,
      "step": 40
    },
    {
      "epoch": 0.7272727272727273,
      "grad_norm": 0.22948819398880005,
      "learning_rate": 1.7251763071433767e-05,
      "loss": 0.0063,
      "num_input_tokens_seen": 1486080,
      "step": 45
    },
    {
      "epoch": 0.8080808080808081,
      "grad_norm": 0.0646950826048851,
      "learning_rate": 1.6631226582407954e-05,
      "loss": 0.0044,
      "num_input_tokens_seen": 1651200,
      "step": 50
    },
    {
      "epoch": 0.8888888888888888,
      "grad_norm": 0.02172955870628357,
      "learning_rate": 1.5961324854692254e-05,
      "loss": 0.1276,
      "num_input_tokens_seen": 1816320,
      "step": 55
    },
    {
      "epoch": 0.9696969696969697,
      "grad_norm": 0.0541376918554306,
      "learning_rate": 1.524704487799008e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 1981440,
      "step": 60
    },
    {
      "epoch": 1.0505050505050506,
      "grad_norm": 0.13547202944755554,
      "learning_rate": 1.4493704009671614e-05,
      "loss": 0.0022,
      "num_input_tokens_seen": 2146560,
      "step": 65
    },
    {
      "epoch": 1.1313131313131313,
      "grad_norm": 0.013837278820574284,
      "learning_rate": 1.3706910390450679e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 2311680,
      "step": 70
    },
    {
      "epoch": 1.2121212121212122,
      "grad_norm": 0.03892006352543831,
      "learning_rate": 1.2892521195365679e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 2476800,
      "step": 75
    },
    {
      "epoch": 1.2929292929292928,
      "grad_norm": 0.012091963551938534,
      "learning_rate": 1.2056599030859367e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 2641920,
      "step": 80
    },
    {
      "epoch": 1.3737373737373737,
      "grad_norm": 0.006173598114401102,
      "learning_rate": 1.1205366802553231e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 2807040,
      "step": 85
    },
    {
      "epoch": 1.4545454545454546,
      "grad_norm": 0.4339566230773926,
      "learning_rate": 1.0345161389697083e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 2972160,
      "step": 90
    },
    {
      "epoch": 1.5353535353535355,
      "grad_norm": 0.0292722936719656,
      "learning_rate": 9.482386471157905e-06,
      "loss": 0.0098,
      "num_input_tokens_seen": 3137280,
      "step": 95
    },
    {
      "epoch": 1.6161616161616161,
      "grad_norm": 0.005325205624103546,
      "learning_rate": 8.62346485412832e-06,
      "loss": 0.0006,
      "num_input_tokens_seen": 3302400,
      "step": 100
    },
    {
      "epoch": 1.6161616161616161,
      "eval_loss": 0.00015967342187650502,
      "eval_runtime": 5.2493,
      "eval_samples_per_second": 3.81,
      "eval_steps_per_second": 0.953,
      "num_input_tokens_seen": 3302400,
      "step": 100
    },
    {
      "epoch": 1.696969696969697,
      "grad_norm": 0.007624414283782244,
      "learning_rate": 7.774790660436857e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 3467520,
      "step": 105
    },
    {
      "epoch": 1.7777777777777777,
      "grad_norm": 0.0065308366902172565,
      "learning_rate": 6.942681726402474e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 3632640,
      "step": 110
    },
    {
      "epoch": 1.8585858585858586,
      "grad_norm": 0.013300992548465729,
      "learning_rate": 6.133332570585813e-06,
      "loss": 0.0924,
      "num_input_tokens_seen": 3797760,
      "step": 115
    },
    {
      "epoch": 1.9393939393939394,
      "grad_norm": 0.0058766137808561325,
      "learning_rate": 5.352768279562315e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 3962880,
      "step": 120
    },
    {
      "epoch": 2.0202020202020203,
      "grad_norm": 0.005420107860118151,
      "learning_rate": 4.606799655008009e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 4128000,
      "step": 125
    },
    {
      "epoch": 2.101010101010101,
      "grad_norm": 0.005477156024426222,
      "learning_rate": 3.900979955999271e-06,
      "loss": 0.0004,
      "num_input_tokens_seen": 4293120,
      "step": 130
    },
    {
      "epoch": 2.1818181818181817,
      "grad_norm": 0.006608647294342518,
      "learning_rate": 3.2405635585524566e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 4458240,
      "step": 135
    },
    {
      "epoch": 2.2626262626262625,
      "grad_norm": 0.003967109601944685,
      "learning_rate": 2.6304668401566334e-06,
      "loss": 0.0876,
      "num_input_tokens_seen": 4623360,
      "step": 140
    },
    {
      "epoch": 2.3434343434343434,
      "grad_norm": 0.12505555152893066,
      "learning_rate": 2.075231580489098e-06,
      "loss": 0.0005,
      "num_input_tokens_seen": 4788480,
      "step": 145
    },
    {
      "epoch": 2.4242424242424243,
      "grad_norm": 0.006287102587521076,
      "learning_rate": 1.5789911507718824e-06,
      "loss": 0.0686,
      "num_input_tokens_seen": 4953600,
      "step": 150
    },
    {
      "epoch": 2.505050505050505,
      "grad_norm": 0.01503635011613369,
      "learning_rate": 1.1454397434679022e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 5118720,
      "step": 155
    },
    {
      "epoch": 2.5858585858585856,
      "grad_norm": 0.008022545836865902,
      "learning_rate": 7.778048713818975e-07,
      "loss": 0.0003,
      "num_input_tokens_seen": 5283840,
      "step": 160
    },
    {
      "epoch": 2.6666666666666665,
      "grad_norm": 0.06714311242103577,
      "learning_rate": 4.788233408928588e-07,
      "loss": 0.0006,
      "num_input_tokens_seen": 5448960,
      "step": 165
    },
    {
      "epoch": 2.7474747474747474,
      "grad_norm": 0.0039028192404657602,
      "learning_rate": 2.507208781817638e-07,
      "loss": 0.0003,
      "num_input_tokens_seen": 5614080,
      "step": 170
    },
    {
      "epoch": 2.8282828282828283,
      "grad_norm": 0.00445741368457675,
      "learning_rate": 9.519556012436815e-08,
      "loss": 0.0001,
      "num_input_tokens_seen": 5779200,
      "step": 175
    },
    {
      "epoch": 2.909090909090909,
      "grad_norm": 0.010143210180103779,
      "learning_rate": 1.340517319543877e-08,
      "loss": 0.0002,
      "num_input_tokens_seen": 5944320,
      "step": 180
    },
    {
      "epoch": 2.9575757575757575,
      "num_input_tokens_seen": 6043392,
      "step": 183,
      "total_flos": 8.724962359229645e+16,
      "train_loss": 0.5365108480563138,
      "train_runtime": 4757.115,
      "train_samples_per_second": 1.249,
      "train_steps_per_second": 0.038
    }
  ],
  "logging_steps": 5,
  "max_steps": 183,
  "num_input_tokens_seen": 6043392,
  "num_train_epochs": 3,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 8.724962359229645e+16,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}