{
  "best_metric": 6.110002040863037,
  "best_model_checkpoint": "./results/models/checkpoint-242575",
  "epoch": 34.0,
  "eval_steps": 500,
  "global_step": 266050,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.06,
      "learning_rate": 0.001997444089456869,
      "loss": 6.3873,
      "step": 500
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.001994888178913738,
      "loss": 6.2714,
      "step": 1000
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.0019923322683706073,
      "loss": 6.3526,
      "step": 1500
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.001989776357827476,
      "loss": 6.3696,
      "step": 2000
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.001987220447284345,
      "loss": 6.3501,
      "step": 2500
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.001984664536741214,
      "loss": 6.3472,
      "step": 3000
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.001982108626198083,
      "loss": 6.347,
      "step": 3500
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.0019795527156549523,
      "loss": 6.3555,
      "step": 4000
    },
    {
      "epoch": 0.58,
      "learning_rate": 0.0019769968051118214,
      "loss": 6.3432,
      "step": 4500
    },
    {
      "epoch": 0.64,
      "learning_rate": 0.00197444089456869,
      "loss": 6.3439,
      "step": 5000
    },
    {
      "epoch": 0.7,
      "learning_rate": 0.001971884984025559,
      "loss": 6.3312,
      "step": 5500
    },
    {
      "epoch": 0.77,
      "learning_rate": 0.001969329073482428,
      "loss": 6.3279,
      "step": 6000
    },
    {
      "epoch": 0.83,
      "learning_rate": 0.0019667731629392973,
      "loss": 6.3177,
      "step": 6500
    },
    {
      "epoch": 0.89,
      "learning_rate": 0.001964217252396166,
      "loss": 6.3152,
      "step": 7000
    },
    {
      "epoch": 0.96,
      "learning_rate": 0.001961661341853035,
      "loss": 6.3086,
      "step": 7500
    },
    {
      "epoch": 1.0,
      "eval_loss": 6.252776145935059,
      "eval_runtime": 6.9192,
      "eval_samples_per_second": 36.276,
      "eval_steps_per_second": 1.156,
      "step": 7825
    },
    {
      "epoch": 1.02,
      "learning_rate": 0.001959105431309904,
      "loss": 6.3102,
      "step": 8000
    },
    {
      "epoch": 1.09,
      "learning_rate": 0.001956549520766773,
      "loss": 6.2978,
      "step": 8500
    },
    {
      "epoch": 1.15,
      "learning_rate": 0.0019539936102236422,
      "loss": 6.2904,
      "step": 9000
    },
    {
      "epoch": 1.21,
      "learning_rate": 0.001951437699680511,
      "loss": 6.2953,
      "step": 9500
    },
    {
      "epoch": 1.28,
      "learning_rate": 0.0019488817891373802,
      "loss": 6.2988,
      "step": 10000
    },
    {
      "epoch": 1.34,
      "learning_rate": 0.0019463258785942493,
      "loss": 6.2859,
      "step": 10500
    },
    {
      "epoch": 1.41,
      "learning_rate": 0.0019437699680511184,
      "loss": 6.2906,
      "step": 11000
    },
    {
      "epoch": 1.47,
      "learning_rate": 0.0019412140575079872,
      "loss": 6.2936,
      "step": 11500
    },
    {
      "epoch": 1.53,
      "learning_rate": 0.0019386581469648563,
      "loss": 6.288,
      "step": 12000
    },
    {
      "epoch": 1.6,
      "learning_rate": 0.0019361022364217254,
      "loss": 6.2888,
      "step": 12500
    },
    {
      "epoch": 1.66,
      "learning_rate": 0.0019335463258785943,
      "loss": 6.2866,
      "step": 13000
    },
    {
      "epoch": 1.73,
      "learning_rate": 0.0019309904153354633,
      "loss": 6.2776,
      "step": 13500
    },
    {
      "epoch": 1.79,
      "learning_rate": 0.0019284345047923324,
      "loss": 6.2706,
      "step": 14000
    },
    {
      "epoch": 1.85,
      "learning_rate": 0.0019258785942492015,
      "loss": 6.2705,
      "step": 14500
    },
    {
      "epoch": 1.92,
      "learning_rate": 0.0019233226837060702,
      "loss": 6.2807,
      "step": 15000
    },
    {
      "epoch": 1.98,
      "learning_rate": 0.0019207667731629392,
      "loss": 6.278,
      "step": 15500
    },
    {
      "epoch": 2.0,
      "eval_loss": 6.216161251068115,
      "eval_runtime": 6.9294,
      "eval_samples_per_second": 36.223,
      "eval_steps_per_second": 1.155,
      "step": 15650
    },
    {
      "epoch": 2.04,
      "learning_rate": 0.0019182108626198083,
      "loss": 6.2688,
      "step": 16000
    },
    {
      "epoch": 2.11,
      "learning_rate": 0.0019156549520766772,
      "loss": 6.2732,
      "step": 16500
    },
    {
      "epoch": 2.17,
      "learning_rate": 0.0019130990415335463,
      "loss": 6.2603,
      "step": 17000
    },
    {
      "epoch": 2.24,
      "learning_rate": 0.0019105431309904154,
      "loss": 6.2656,
      "step": 17500
    },
    {
      "epoch": 2.3,
      "learning_rate": 0.0019079872204472844,
      "loss": 6.2551,
      "step": 18000
    },
    {
      "epoch": 2.36,
      "learning_rate": 0.0019054313099041533,
      "loss": 6.259,
      "step": 18500
    },
    {
      "epoch": 2.43,
      "learning_rate": 0.0019028753993610224,
      "loss": 6.2607,
      "step": 19000
    },
    {
      "epoch": 2.49,
      "learning_rate": 0.0019003194888178915,
      "loss": 6.2634,
      "step": 19500
    },
    {
      "epoch": 2.56,
      "learning_rate": 0.0018977635782747603,
      "loss": 6.26,
      "step": 20000
    },
    {
      "epoch": 2.62,
      "learning_rate": 0.0018952076677316294,
      "loss": 6.2502,
      "step": 20500
    },
    {
      "epoch": 2.68,
      "learning_rate": 0.0018926517571884985,
      "loss": 6.2453,
      "step": 21000
    },
    {
      "epoch": 2.75,
      "learning_rate": 0.0018900958466453676,
      "loss": 6.2529,
      "step": 21500
    },
    {
      "epoch": 2.81,
      "learning_rate": 0.0018875399361022365,
      "loss": 6.2493,
      "step": 22000
    },
    {
      "epoch": 2.88,
      "learning_rate": 0.0018849840255591055,
      "loss": 6.2534,
      "step": 22500
    },
    {
      "epoch": 2.94,
      "learning_rate": 0.0018824281150159746,
      "loss": 6.2442,
      "step": 23000
    },
    {
      "epoch": 3.0,
      "eval_loss": 6.19460391998291,
      "eval_runtime": 6.7538,
      "eval_samples_per_second": 37.164,
      "eval_steps_per_second": 1.185,
      "step": 23475
    },
    {
      "epoch": 3.0,
      "learning_rate": 0.0018798722044728435,
      "loss": 6.2498,
      "step": 23500
    },
    {
      "epoch": 3.07,
      "learning_rate": 0.0018773162939297126,
      "loss": 6.2428,
      "step": 24000
    },
    {
      "epoch": 3.13,
      "learning_rate": 0.0018747603833865817,
      "loss": 6.2447,
      "step": 24500
    },
    {
      "epoch": 3.19,
      "learning_rate": 0.0018722044728434505,
      "loss": 6.24,
      "step": 25000
    },
    {
      "epoch": 3.26,
      "learning_rate": 0.0018696485623003194,
      "loss": 6.2476,
      "step": 25500
    },
    {
      "epoch": 3.32,
      "learning_rate": 0.0018670926517571885,
      "loss": 6.2486,
      "step": 26000
    },
    {
      "epoch": 3.39,
      "learning_rate": 0.0018645367412140576,
      "loss": 6.2428,
      "step": 26500
    },
    {
      "epoch": 3.45,
      "learning_rate": 0.0018619808306709264,
      "loss": 6.2475,
      "step": 27000
    },
    {
      "epoch": 3.51,
      "learning_rate": 0.0018594249201277955,
      "loss": 6.2481,
      "step": 27500
    },
    {
      "epoch": 3.58,
      "learning_rate": 0.0018568690095846646,
      "loss": 6.2381,
      "step": 28000
    },
    {
      "epoch": 3.64,
      "learning_rate": 0.0018543130990415334,
      "loss": 6.2402,
      "step": 28500
    },
    {
      "epoch": 3.71,
      "learning_rate": 0.0018517571884984025,
      "loss": 6.2389,
      "step": 29000
    },
    {
      "epoch": 3.77,
      "learning_rate": 0.0018492012779552716,
      "loss": 6.2414,
      "step": 29500
    },
    {
      "epoch": 3.83,
      "learning_rate": 0.0018466453674121407,
      "loss": 6.2373,
      "step": 30000
    },
    {
      "epoch": 3.9,
      "learning_rate": 0.0018440894568690096,
      "loss": 6.2408,
      "step": 30500
    },
    {
      "epoch": 3.96,
      "learning_rate": 0.0018415335463258786,
      "loss": 6.2299,
      "step": 31000
    },
    {
      "epoch": 4.0,
      "eval_loss": 6.177552700042725,
      "eval_runtime": 6.7861,
      "eval_samples_per_second": 36.987,
      "eval_steps_per_second": 1.179,
      "step": 31300
    },
    {
      "epoch": 4.03,
      "learning_rate": 0.0018389776357827477,
      "loss": 6.2279,
      "step": 31500
    },
    {
      "epoch": 4.09,
      "learning_rate": 0.0018364217252396166,
      "loss": 6.2341,
      "step": 32000
    },
    {
      "epoch": 4.15,
      "learning_rate": 0.0018338658146964857,
      "loss": 6.2291,
      "step": 32500
    },
    {
      "epoch": 4.22,
      "learning_rate": 0.0018313099041533548,
      "loss": 6.2349,
      "step": 33000
    },
    {
      "epoch": 4.28,
      "learning_rate": 0.0018287539936102238,
      "loss": 6.231,
      "step": 33500
    },
    {
      "epoch": 4.35,
      "learning_rate": 0.0018261980830670927,
      "loss": 6.2295,
      "step": 34000
    },
    {
      "epoch": 4.41,
      "learning_rate": 0.0018236421725239618,
      "loss": 6.2344,
      "step": 34500
    },
    {
      "epoch": 4.47,
      "learning_rate": 0.0018210862619808307,
      "loss": 6.2289,
      "step": 35000
    },
    {
      "epoch": 4.54,
      "learning_rate": 0.0018185303514376995,
      "loss": 6.2309,
      "step": 35500
    },
    {
      "epoch": 4.6,
      "learning_rate": 0.0018159744408945686,
      "loss": 6.2255,
      "step": 36000
    },
    {
      "epoch": 4.66,
      "learning_rate": 0.0018134185303514377,
      "loss": 6.2281,
      "step": 36500
    },
    {
      "epoch": 4.73,
      "learning_rate": 0.0018108626198083068,
      "loss": 6.2269,
      "step": 37000
    },
    {
      "epoch": 4.79,
      "learning_rate": 0.0018083067092651756,
      "loss": 6.2235,
      "step": 37500
    },
    {
      "epoch": 4.86,
      "learning_rate": 0.0018057507987220447,
      "loss": 6.2252,
      "step": 38000
    },
    {
      "epoch": 4.92,
      "learning_rate": 0.0018031948881789138,
      "loss": 6.2243,
      "step": 38500
    },
    {
      "epoch": 4.98,
      "learning_rate": 0.0018006389776357827,
      "loss": 6.2243,
      "step": 39000
    },
    {
      "epoch": 5.0,
      "eval_loss": 6.16984748840332,
      "eval_runtime": 6.9467,
      "eval_samples_per_second": 36.132,
      "eval_steps_per_second": 1.152,
      "step": 39125
    },
    {
      "epoch": 5.05,
      "learning_rate": 0.0017980830670926518,
      "loss": 6.2197,
      "step": 39500
    },
    {
      "epoch": 5.11,
      "learning_rate": 0.0017955271565495208,
      "loss": 6.2246,
      "step": 40000
    },
    {
      "epoch": 5.18,
      "learning_rate": 0.00179297124600639,
      "loss": 6.2219,
      "step": 40500
    },
    {
      "epoch": 5.24,
      "learning_rate": 0.0017904153354632588,
      "loss": 6.2246,
      "step": 41000
    },
    {
      "epoch": 5.3,
      "learning_rate": 0.0017878594249201279,
      "loss": 6.2203,
      "step": 41500
    },
    {
      "epoch": 5.37,
      "learning_rate": 0.001785303514376997,
      "loss": 6.2305,
      "step": 42000
    },
    {
      "epoch": 5.43,
      "learning_rate": 0.0017827476038338658,
      "loss": 6.225,
      "step": 42500
    },
    {
      "epoch": 5.5,
      "learning_rate": 0.001780191693290735,
      "loss": 6.2216,
      "step": 43000
    },
    {
      "epoch": 5.56,
      "learning_rate": 0.001777635782747604,
      "loss": 6.2242,
      "step": 43500
    },
    {
      "epoch": 5.62,
      "learning_rate": 0.001775079872204473,
      "loss": 6.224,
      "step": 44000
    },
    {
      "epoch": 5.69,
      "learning_rate": 0.001772523961661342,
      "loss": 6.2168,
      "step": 44500
    },
    {
      "epoch": 5.75,
      "learning_rate": 0.0017699680511182108,
      "loss": 6.2249,
      "step": 45000
    },
    {
      "epoch": 5.81,
      "learning_rate": 0.00176741214057508,
      "loss": 6.2202,
      "step": 45500
    },
    {
      "epoch": 5.88,
      "learning_rate": 0.0017648562300319488,
      "loss": 6.2227,
      "step": 46000
    },
    {
      "epoch": 5.94,
      "learning_rate": 0.0017623003194888178,
      "loss": 6.2162,
      "step": 46500
    },
    {
      "epoch": 6.0,
      "eval_loss": 6.162996768951416,
      "eval_runtime": 6.7939,
      "eval_samples_per_second": 36.945,
      "eval_steps_per_second": 1.178,
      "step": 46950
    },
    {
      "epoch": 6.01,
      "learning_rate": 0.001759744408945687,
      "loss": 6.2237,
      "step": 47000
    },
    {
      "epoch": 6.07,
      "learning_rate": 0.0017571884984025558,
      "loss": 6.2159,
      "step": 47500
    },
    {
      "epoch": 6.13,
      "learning_rate": 0.0017546325878594249,
      "loss": 6.2176,
      "step": 48000
    },
    {
      "epoch": 6.2,
      "learning_rate": 0.001752076677316294,
      "loss": 6.2175,
      "step": 48500
    },
    {
      "epoch": 6.26,
      "learning_rate": 0.001749520766773163,
      "loss": 6.2171,
      "step": 49000
    },
    {
      "epoch": 6.33,
      "learning_rate": 0.001746964856230032,
      "loss": 6.2105,
      "step": 49500
    },
    {
      "epoch": 6.39,
      "learning_rate": 0.001744408945686901,
      "loss": 6.221,
      "step": 50000
    },
    {
      "epoch": 6.45,
      "learning_rate": 0.00174185303514377,
      "loss": 6.2141,
      "step": 50500
    },
    {
      "epoch": 6.52,
      "learning_rate": 0.001739297124600639,
      "loss": 6.213,
      "step": 51000
    },
    {
      "epoch": 6.58,
      "learning_rate": 0.001736741214057508,
      "loss": 6.2182,
      "step": 51500
    },
    {
      "epoch": 6.65,
      "learning_rate": 0.0017341853035143771,
      "loss": 6.2085,
      "step": 52000
    },
    {
      "epoch": 6.71,
      "learning_rate": 0.0017316293929712462,
      "loss": 6.2142,
      "step": 52500
    },
    {
      "epoch": 6.77,
      "learning_rate": 0.001729073482428115,
      "loss": 6.2274,
      "step": 53000
    },
    {
      "epoch": 6.84,
      "learning_rate": 0.0017265175718849841,
      "loss": 6.2124,
      "step": 53500
    },
    {
      "epoch": 6.9,
      "learning_rate": 0.0017239616613418532,
      "loss": 6.2105,
      "step": 54000
    },
    {
      "epoch": 6.96,
      "learning_rate": 0.0017214057507987219,
      "loss": 6.2079,
      "step": 54500
    },
    {
      "epoch": 7.0,
      "eval_loss": 6.15675163269043,
      "eval_runtime": 6.7761,
      "eval_samples_per_second": 37.042,
      "eval_steps_per_second": 1.181,
      "step": 54775
    },
    {
      "epoch": 7.03,
      "learning_rate": 0.001718849840255591,
      "loss": 6.2153,
      "step": 55000
    },
    {
      "epoch": 7.09,
      "learning_rate": 0.00171629392971246,
      "loss": 6.2105,
      "step": 55500
    },
    {
      "epoch": 7.16,
      "learning_rate": 0.0017137380191693291,
      "loss": 6.2111,
      "step": 56000
    },
    {
      "epoch": 7.22,
      "learning_rate": 0.001711182108626198,
      "loss": 6.2167,
      "step": 56500
    },
    {
      "epoch": 7.28,
      "learning_rate": 0.001708626198083067,
      "loss": 6.216,
      "step": 57000
    },
    {
      "epoch": 7.35,
      "learning_rate": 0.0017060702875399362,
      "loss": 6.2144,
      "step": 57500
    },
    {
      "epoch": 7.41,
      "learning_rate": 0.001703514376996805,
      "loss": 6.2141,
      "step": 58000
    },
    {
      "epoch": 7.48,
      "learning_rate": 0.001700958466453674,
      "loss": 6.2139,
      "step": 58500
    },
    {
      "epoch": 7.54,
      "learning_rate": 0.0016984025559105432,
      "loss": 6.2117,
      "step": 59000
    },
    {
      "epoch": 7.6,
      "learning_rate": 0.0016958466453674123,
      "loss": 6.2122,
      "step": 59500
    },
    {
      "epoch": 7.67,
      "learning_rate": 0.0016932907348242811,
      "loss": 6.2096,
      "step": 60000
    },
    {
      "epoch": 7.73,
      "learning_rate": 0.0016907348242811502,
      "loss": 6.2055,
      "step": 60500
    },
    {
      "epoch": 7.8,
      "learning_rate": 0.0016881789137380193,
      "loss": 6.2088,
      "step": 61000
    },
    {
      "epoch": 7.86,
      "learning_rate": 0.0016856230031948882,
      "loss": 6.2105,
      "step": 61500
    },
    {
      "epoch": 7.92,
      "learning_rate": 0.0016830670926517573,
      "loss": 6.2161,
      "step": 62000
    },
    {
      "epoch": 7.99,
      "learning_rate": 0.0016805111821086263,
      "loss": 6.2105,
      "step": 62500
    },
    {
      "epoch": 8.0,
      "eval_loss": 6.1555399894714355,
      "eval_runtime": 6.9246,
      "eval_samples_per_second": 36.248,
      "eval_steps_per_second": 1.155,
      "step": 62600
    },
    {
      "epoch": 8.05,
      "learning_rate": 0.0016779552715654954,
      "loss": 6.2111,
      "step": 63000
    },
    {
      "epoch": 8.12,
      "learning_rate": 0.0016753993610223643,
      "loss": 6.2095,
      "step": 63500
    },
    {
      "epoch": 8.18,
      "learning_rate": 0.0016728434504792334,
      "loss": 6.2064,
      "step": 64000
    },
    {
      "epoch": 8.24,
      "learning_rate": 0.0016702875399361022,
      "loss": 6.2147,
      "step": 64500
    },
    {
      "epoch": 8.31,
      "learning_rate": 0.001667731629392971,
      "loss": 6.1994,
      "step": 65000
    },
    {
      "epoch": 8.37,
      "learning_rate": 0.0016651757188498402,
      "loss": 6.2094,
      "step": 65500
    },
    {
      "epoch": 8.43,
      "learning_rate": 0.0016626198083067093,
      "loss": 6.2075,
      "step": 66000
    },
    {
      "epoch": 8.5,
      "learning_rate": 0.0016600638977635781,
      "loss": 6.2085,
      "step": 66500
    },
    {
      "epoch": 8.56,
      "learning_rate": 0.0016575079872204472,
      "loss": 6.2004,
      "step": 67000
    },
    {
      "epoch": 8.63,
      "learning_rate": 0.0016549520766773163,
      "loss": 6.2112,
      "step": 67500
    },
    {
      "epoch": 8.69,
      "learning_rate": 0.0016523961661341854,
      "loss": 6.2051,
      "step": 68000
    },
    {
      "epoch": 8.75,
      "learning_rate": 0.0016498402555910543,
      "loss": 6.2024,
      "step": 68500
    },
    {
      "epoch": 8.82,
      "learning_rate": 0.0016472843450479233,
      "loss": 6.1996,
      "step": 69000
    },
    {
      "epoch": 8.88,
      "learning_rate": 0.0016447284345047924,
      "loss": 6.2066,
      "step": 69500
    },
    {
      "epoch": 8.95,
      "learning_rate": 0.0016421725239616613,
      "loss": 6.2013,
      "step": 70000
    },
    {
      "epoch": 9.0,
      "eval_loss": 6.147340297698975,
      "eval_runtime": 6.7973,
      "eval_samples_per_second": 36.927,
      "eval_steps_per_second": 1.177,
      "step": 70425
    },
    {
      "epoch": 9.01,
      "learning_rate": 0.0016396166134185304,
      "loss": 6.2085,
      "step": 70500
    },
    {
      "epoch": 9.07,
      "learning_rate": 0.0016370607028753995,
      "loss": 6.1978,
      "step": 71000
    },
    {
      "epoch": 9.14,
      "learning_rate": 0.0016345047923322685,
      "loss": 6.2017,
      "step": 71500
    },
    {
      "epoch": 9.2,
      "learning_rate": 0.0016319488817891374,
      "loss": 6.2047,
      "step": 72000
    },
    {
      "epoch": 9.27,
      "learning_rate": 0.0016293929712460065,
      "loss": 6.1998,
      "step": 72500
    },
    {
      "epoch": 9.33,
      "learning_rate": 0.0016268370607028756,
      "loss": 6.2027,
      "step": 73000
    },
    {
      "epoch": 9.39,
      "learning_rate": 0.0016242811501597444,
      "loss": 6.2024,
      "step": 73500
    },
    {
      "epoch": 9.46,
      "learning_rate": 0.0016217252396166135,
      "loss": 6.1936,
      "step": 74000
    },
    {
      "epoch": 9.52,
      "learning_rate": 0.0016191693290734824,
      "loss": 6.2042,
      "step": 74500
    },
    {
      "epoch": 9.58,
      "learning_rate": 0.0016166134185303515,
      "loss": 6.2021,
      "step": 75000
    },
    {
      "epoch": 9.65,
      "learning_rate": 0.0016140575079872203,
      "loss": 6.2054,
      "step": 75500
    },
    {
      "epoch": 9.71,
      "learning_rate": 0.0016115015974440894,
      "loss": 6.2051,
      "step": 76000
    },
    {
      "epoch": 9.78,
      "learning_rate": 0.0016089456869009585,
      "loss": 6.1963,
      "step": 76500
    },
    {
      "epoch": 9.84,
      "learning_rate": 0.0016063897763578274,
      "loss": 6.2039,
      "step": 77000
    },
    {
      "epoch": 9.9,
      "learning_rate": 0.0016038338658146965,
      "loss": 6.1993,
      "step": 77500
    },
    {
      "epoch": 9.97,
      "learning_rate": 0.0016012779552715655,
      "loss": 6.199,
      "step": 78000
    },
    {
      "epoch": 10.0,
      "eval_loss": 6.143795967102051,
      "eval_runtime": 6.7856,
      "eval_samples_per_second": 36.99,
      "eval_steps_per_second": 1.179,
      "step": 78250
    },
    {
      "epoch": 10.03,
      "learning_rate": 0.0015987220447284346,
      "loss": 6.1969,
      "step": 78500
    },
    {
      "epoch": 10.1,
      "learning_rate": 0.0015961661341853035,
      "loss": 6.2008,
      "step": 79000
    },
    {
      "epoch": 10.16,
      "learning_rate": 0.0015936102236421726,
      "loss": 6.1974,
      "step": 79500
    },
    {
      "epoch": 10.22,
      "learning_rate": 0.0015910543130990417,
      "loss": 6.1966,
      "step": 80000
    },
    {
      "epoch": 10.29,
      "learning_rate": 0.0015884984025559105,
      "loss": 6.199,
      "step": 80500
    },
    {
      "epoch": 10.35,
      "learning_rate": 0.0015859424920127796,
      "loss": 6.2016,
      "step": 81000
    },
    {
      "epoch": 10.42,
      "learning_rate": 0.0015833865814696487,
      "loss": 6.1986,
      "step": 81500
    },
    {
      "epoch": 10.48,
      "learning_rate": 0.0015808306709265178,
      "loss": 6.2013,
      "step": 82000
    },
    {
      "epoch": 10.54,
      "learning_rate": 0.0015782747603833866,
      "loss": 6.1922,
      "step": 82500
    },
    {
      "epoch": 10.61,
      "learning_rate": 0.0015757188498402557,
      "loss": 6.1999,
      "step": 83000
    },
    {
      "epoch": 10.67,
      "learning_rate": 0.0015731629392971248,
      "loss": 6.1989,
      "step": 83500
    },
    {
      "epoch": 10.73,
      "learning_rate": 0.0015706070287539937,
      "loss": 6.1963,
      "step": 84000
    },
    {
      "epoch": 10.8,
      "learning_rate": 0.0015680511182108625,
      "loss": 6.1966,
      "step": 84500
    },
    {
      "epoch": 10.86,
      "learning_rate": 0.0015654952076677316,
      "loss": 6.1955,
      "step": 85000
    },
    {
      "epoch": 10.93,
      "learning_rate": 0.0015629392971246005,
      "loss": 6.1943,
      "step": 85500
    },
    {
      "epoch": 10.99,
      "learning_rate": 0.0015603833865814696,
      "loss": 6.1953,
      "step": 86000
    },
    {
      "epoch": 11.0,
      "eval_loss": 6.140895366668701,
      "eval_runtime": 6.7824,
      "eval_samples_per_second": 37.007,
      "eval_steps_per_second": 1.18,
      "step": 86075
    },
    {
      "epoch": 11.05,
      "learning_rate": 0.0015578274760383386,
      "loss": 6.1972,
      "step": 86500
    },
    {
      "epoch": 11.12,
      "learning_rate": 0.0015552715654952077,
      "loss": 6.1896,
      "step": 87000
    },
    {
      "epoch": 11.18,
      "learning_rate": 0.0015527156549520766,
      "loss": 6.1901,
      "step": 87500
    },
    {
      "epoch": 11.25,
      "learning_rate": 0.0015501597444089457,
      "loss": 6.1917,
      "step": 88000
    },
    {
      "epoch": 11.31,
      "learning_rate": 0.0015476038338658148,
      "loss": 6.194,
      "step": 88500
    },
    {
      "epoch": 11.37,
      "learning_rate": 0.0015450479233226836,
      "loss": 6.1934,
      "step": 89000
    },
    {
      "epoch": 11.44,
      "learning_rate": 0.0015424920127795527,
      "loss": 6.1912,
      "step": 89500
    },
    {
      "epoch": 11.5,
      "learning_rate": 0.0015399361022364218,
      "loss": 6.1981,
      "step": 90000
    },
    {
      "epoch": 11.57,
      "learning_rate": 0.0015373801916932909,
      "loss": 6.1942,
      "step": 90500
    },
    {
      "epoch": 11.63,
      "learning_rate": 0.0015348242811501597,
      "loss": 6.1965,
      "step": 91000
    },
    {
      "epoch": 11.69,
      "learning_rate": 0.0015322683706070288,
      "loss": 6.1958,
      "step": 91500
    },
    {
      "epoch": 11.76,
      "learning_rate": 0.001529712460063898,
      "loss": 6.1981,
      "step": 92000
    },
    {
      "epoch": 11.82,
      "learning_rate": 0.0015271565495207668,
      "loss": 6.1972,
      "step": 92500
    },
    {
      "epoch": 11.88,
      "learning_rate": 0.0015246006389776359,
      "loss": 6.1959,
      "step": 93000
    },
    {
      "epoch": 11.95,
      "learning_rate": 0.001522044728434505,
      "loss": 6.1958,
      "step": 93500
    },
    {
      "epoch": 12.0,
      "eval_loss": 6.139165878295898,
      "eval_runtime": 6.8854,
      "eval_samples_per_second": 36.454,
      "eval_steps_per_second": 1.162,
      "step": 93900
    },
    {
      "epoch": 12.01,
      "learning_rate": 0.001519488817891374,
      "loss": 6.1901,
      "step": 94000
    },
    {
      "epoch": 12.08,
      "learning_rate": 0.0015169329073482427,
      "loss": 6.1945,
      "step": 94500
    },
    {
      "epoch": 12.14,
      "learning_rate": 0.0015143769968051118,
      "loss": 6.1949,
      "step": 95000
    },
    {
      "epoch": 12.2,
      "learning_rate": 0.0015118210862619808,
      "loss": 6.1881,
      "step": 95500
    },
    {
      "epoch": 12.27,
      "learning_rate": 0.0015092651757188497,
      "loss": 6.189,
      "step": 96000
    },
    {
      "epoch": 12.33,
      "learning_rate": 0.0015067092651757188,
      "loss": 6.1923,
      "step": 96500
    },
    {
      "epoch": 12.4,
      "learning_rate": 0.0015041533546325879,
      "loss": 6.1962,
      "step": 97000
    },
    {
      "epoch": 12.46,
      "learning_rate": 0.001501597444089457,
      "loss": 6.1911,
      "step": 97500
    },
    {
      "epoch": 12.52,
      "learning_rate": 0.0014990415335463258,
      "loss": 6.1948,
      "step": 98000
    },
    {
      "epoch": 12.59,
      "learning_rate": 0.001496485623003195,
      "loss": 6.197,
      "step": 98500
    },
    {
      "epoch": 12.65,
      "learning_rate": 0.001493929712460064,
      "loss": 6.1898,
      "step": 99000
    },
    {
      "epoch": 12.72,
      "learning_rate": 0.0014913738019169329,
      "loss": 6.1924,
      "step": 99500
    },
    {
      "epoch": 12.78,
      "learning_rate": 0.001488817891373802,
      "loss": 6.1898,
      "step": 100000
    },
    {
      "epoch": 12.84,
      "learning_rate": 0.001486261980830671,
      "loss": 6.1934,
      "step": 100500
    },
    {
      "epoch": 12.91,
      "learning_rate": 0.0014837060702875401,
      "loss": 6.1944,
      "step": 101000
    },
    {
      "epoch": 12.97,
      "learning_rate": 0.001481150159744409,
      "loss": 6.1935,
      "step": 101500
    },
    {
      "epoch": 13.0,
      "eval_loss": 6.138128280639648,
      "eval_runtime": 6.8154,
      "eval_samples_per_second": 36.829,
      "eval_steps_per_second": 1.174,
      "step": 101725
    },
    {
      "epoch": 13.04,
      "learning_rate": 0.001478594249201278,
      "loss": 6.1931,
      "step": 102000
    },
    {
      "epoch": 13.1,
      "learning_rate": 0.0014760383386581471,
      "loss": 6.1947,
      "step": 102500
    },
    {
      "epoch": 13.16,
      "learning_rate": 0.001473482428115016,
      "loss": 6.1916,
      "step": 103000
    },
    {
      "epoch": 13.23,
      "learning_rate": 0.001470926517571885,
      "loss": 6.1923,
      "step": 103500
    },
    {
      "epoch": 13.29,
      "learning_rate": 0.0014683706070287542,
      "loss": 6.189,
      "step": 104000
    },
    {
      "epoch": 13.35,
      "learning_rate": 0.0014658146964856228,
      "loss": 6.185,
      "step": 104500
    },
    {
      "epoch": 13.42,
      "learning_rate": 0.001463258785942492,
      "loss": 6.1979,
      "step": 105000
    },
    {
      "epoch": 13.48,
      "learning_rate": 0.001460702875399361,
      "loss": 6.1919,
      "step": 105500
    },
    {
      "epoch": 13.55,
      "learning_rate": 0.00145814696485623,
      "loss": 6.1907,
      "step": 106000
    },
    {
      "epoch": 13.61,
      "learning_rate": 0.001455591054313099,
      "loss": 6.1877,
      "step": 106500
    },
    {
      "epoch": 13.67,
      "learning_rate": 0.001453035143769968,
      "loss": 6.1884,
      "step": 107000
    },
    {
      "epoch": 13.74,
      "learning_rate": 0.0014504792332268371,
      "loss": 6.1904,
      "step": 107500
    },
    {
      "epoch": 13.8,
      "learning_rate": 0.001447923322683706,
      "loss": 6.1909,
      "step": 108000
    },
    {
      "epoch": 13.87,
      "learning_rate": 0.001445367412140575,
      "loss": 6.1957,
      "step": 108500
    },
    {
      "epoch": 13.93,
      "learning_rate": 0.0014428115015974441,
      "loss": 6.1914,
      "step": 109000
    },
    {
      "epoch": 13.99,
      "learning_rate": 0.0014402555910543132,
      "loss": 6.1865,
      "step": 109500
    },
    {
      "epoch": 14.0,
      "eval_loss": 6.134657859802246,
      "eval_runtime": 7.8402,
      "eval_samples_per_second": 32.015,
      "eval_steps_per_second": 1.02,
      "step": 109550
    },
    {
      "epoch": 14.06,
      "learning_rate": 0.001437699680511182,
      "loss": 6.189,
      "step": 110000
    },
    {
      "epoch": 14.12,
      "learning_rate": 0.0014351437699680512,
      "loss": 6.1883,
      "step": 110500
    },
    {
      "epoch": 14.19,
      "learning_rate": 0.0014325878594249203,
      "loss": 6.1902,
      "step": 111000
    },
    {
      "epoch": 14.25,
      "learning_rate": 0.0014300319488817891,
      "loss": 6.191,
      "step": 111500
    },
    {
      "epoch": 14.31,
      "learning_rate": 0.0014274760383386582,
      "loss": 6.1934,
      "step": 112000
    },
    {
      "epoch": 14.38,
      "learning_rate": 0.0014249201277955273,
      "loss": 6.1841,
      "step": 112500
    },
    {
      "epoch": 14.44,
      "learning_rate": 0.0014223642172523964,
      "loss": 6.1861,
      "step": 113000
    },
    {
      "epoch": 14.5,
      "learning_rate": 0.0014198083067092652,
      "loss": 6.1883,
      "step": 113500
    },
    {
      "epoch": 14.57,
      "learning_rate": 0.001417252396166134,
      "loss": 6.1884,
      "step": 114000
    },
    {
      "epoch": 14.63,
      "learning_rate": 0.0014146964856230032,
      "loss": 6.1797,
      "step": 114500
    },
    {
      "epoch": 14.7,
      "learning_rate": 0.001412140575079872,
      "loss": 6.1894,
      "step": 115000
    },
    {
      "epoch": 14.76,
      "learning_rate": 0.0014095846645367411,
      "loss": 6.187,
      "step": 115500
    },
    {
      "epoch": 14.82,
      "learning_rate": 0.0014070287539936102,
      "loss": 6.1863,
      "step": 116000
    },
    {
      "epoch": 14.89,
      "learning_rate": 0.0014044728434504793,
      "loss": 6.1849,
      "step": 116500
    },
    {
      "epoch": 14.95,
      "learning_rate": 0.0014019169329073482,
      "loss": 6.1896,
      "step": 117000
    },
    {
      "epoch": 15.0,
      "eval_loss": 6.130258083343506,
      "eval_runtime": 6.8222,
      "eval_samples_per_second": 36.792,
      "eval_steps_per_second": 1.173,
      "step": 117375
    },
    {
      "epoch": 15.02,
      "learning_rate": 0.0013993610223642173,
      "loss": 6.1876,
      "step": 117500
    },
    {
      "epoch": 15.08,
      "learning_rate": 0.0013968051118210863,
      "loss": 6.1846,
      "step": 118000
    },
    {
      "epoch": 15.14,
      "learning_rate": 0.0013942492012779552,
      "loss": 6.1883,
      "step": 118500
    },
    {
      "epoch": 15.21,
      "learning_rate": 0.0013916932907348243,
      "loss": 6.1785,
      "step": 119000
    },
    {
      "epoch": 15.27,
      "learning_rate": 0.0013891373801916934,
      "loss": 6.1827,
      "step": 119500
    },
    {
      "epoch": 15.34,
      "learning_rate": 0.0013865814696485625,
      "loss": 6.1879,
      "step": 120000
    },
    {
      "epoch": 15.4,
      "learning_rate": 0.0013840255591054313,
      "loss": 6.1734,
      "step": 120500
    },
    {
      "epoch": 15.46,
      "learning_rate": 0.0013814696485623004,
      "loss": 6.1852,
      "step": 121000
    },
    {
      "epoch": 15.53,
      "learning_rate": 0.0013789137380191695,
      "loss": 6.1903,
      "step": 121500
    },
    {
      "epoch": 15.59,
      "learning_rate": 0.0013763578274760384,
      "loss": 6.1877,
      "step": 122000
    },
    {
      "epoch": 15.65,
      "learning_rate": 0.0013738019169329074,
      "loss": 6.1779,
      "step": 122500
    },
    {
      "epoch": 15.72,
      "learning_rate": 0.0013712460063897765,
      "loss": 6.185,
      "step": 123000
    },
    {
      "epoch": 15.78,
      "learning_rate": 0.0013686900958466456,
      "loss": 6.1835,
      "step": 123500
    },
    {
      "epoch": 15.85,
      "learning_rate": 0.0013661341853035143,
      "loss": 6.1792,
      "step": 124000
    },
    {
      "epoch": 15.91,
      "learning_rate": 0.0013635782747603833,
      "loss": 6.182,
      "step": 124500
    },
    {
      "epoch": 15.97,
      "learning_rate": 0.0013610223642172524,
      "loss": 6.1884,
      "step": 125000
    },
    {
      "epoch": 16.0,
      "eval_loss": 6.127689361572266,
      "eval_runtime": 6.7878,
      "eval_samples_per_second": 36.978,
      "eval_steps_per_second": 1.179,
      "step": 125200
    },
    {
      "epoch": 16.04,
      "learning_rate": 0.0013584664536741213,
      "loss": 6.1881,
      "step": 125500
    },
    {
      "epoch": 16.1,
      "learning_rate": 0.0013559105431309904,
      "loss": 6.1847,
      "step": 126000
    },
    {
      "epoch": 16.17,
      "learning_rate": 0.0013533546325878595,
      "loss": 6.1822,
      "step": 126500
    },
    {
      "epoch": 16.23,
      "learning_rate": 0.0013507987220447283,
      "loss": 6.1777,
      "step": 127000
    },
    {
      "epoch": 16.29,
      "learning_rate": 0.0013482428115015974,
      "loss": 6.1886,
      "step": 127500
    },
    {
      "epoch": 16.36,
      "learning_rate": 0.0013456869009584665,
      "loss": 6.1844,
      "step": 128000
    },
    {
      "epoch": 16.42,
      "learning_rate": 0.0013431309904153356,
      "loss": 6.1775,
      "step": 128500
    },
    {
      "epoch": 16.49,
      "learning_rate": 0.0013405750798722044,
      "loss": 6.1829,
      "step": 129000
    },
    {
      "epoch": 16.55,
      "learning_rate": 0.0013380191693290735,
      "loss": 6.1766,
      "step": 129500
    },
    {
      "epoch": 16.61,
      "learning_rate": 0.0013354632587859426,
      "loss": 6.1847,
      "step": 130000
    },
    {
      "epoch": 16.68,
      "learning_rate": 0.0013329073482428115,
      "loss": 6.1804,
      "step": 130500
    },
    {
      "epoch": 16.74,
      "learning_rate": 0.0013303514376996806,
      "loss": 6.1774,
      "step": 131000
    },
    {
      "epoch": 16.81,
      "learning_rate": 0.0013277955271565496,
      "loss": 6.1767,
      "step": 131500
    },
    {
      "epoch": 16.87,
      "learning_rate": 0.0013252396166134187,
      "loss": 6.178,
      "step": 132000
    },
    {
      "epoch": 16.93,
      "learning_rate": 0.0013226837060702876,
      "loss": 6.1806,
      "step": 132500
    },
    {
      "epoch": 17.0,
      "learning_rate": 0.0013201277955271567,
      "loss": 6.1809,
      "step": 133000
    },
    {
      "epoch": 17.0,
      "eval_loss": 6.124339580535889,
      "eval_runtime": 6.8363,
      "eval_samples_per_second": 36.716,
      "eval_steps_per_second": 1.17,
      "step": 133025
    },
    {
      "epoch": 17.06,
      "learning_rate": 0.0013175718849840258,
      "loss": 6.1733,
      "step": 133500
    },
    {
      "epoch": 17.12,
      "learning_rate": 0.0013150159744408944,
      "loss": 6.1825,
      "step": 134000
    },
    {
      "epoch": 17.19,
      "learning_rate": 0.0013124600638977635,
      "loss": 6.1752,
      "step": 134500
    },
    {
      "epoch": 17.25,
      "learning_rate": 0.0013099041533546326,
      "loss": 6.1785,
      "step": 135000
    },
    {
      "epoch": 17.32,
      "learning_rate": 0.0013073482428115017,
      "loss": 6.1761,
      "step": 135500
    },
    {
      "epoch": 17.38,
      "learning_rate": 0.0013047923322683705,
      "loss": 6.1833,
      "step": 136000
    },
    {
      "epoch": 17.44,
      "learning_rate": 0.0013022364217252396,
      "loss": 6.1727,
      "step": 136500
    },
    {
      "epoch": 17.51,
      "learning_rate": 0.0012996805111821087,
      "loss": 6.1744,
      "step": 137000
    },
    {
      "epoch": 17.57,
      "learning_rate": 0.0012971246006389776,
      "loss": 6.1766,
      "step": 137500
    },
    {
      "epoch": 17.64,
      "learning_rate": 0.0012945686900958466,
      "loss": 6.1754,
      "step": 138000
    },
    {
      "epoch": 17.7,
      "learning_rate": 0.0012920127795527157,
      "loss": 6.1822,
      "step": 138500
    },
    {
      "epoch": 17.76,
      "learning_rate": 0.0012894568690095848,
      "loss": 6.1855,
      "step": 139000
    },
    {
      "epoch": 17.83,
      "learning_rate": 0.0012869009584664537,
      "loss": 6.1797,
      "step": 139500
    },
    {
      "epoch": 17.89,
      "learning_rate": 0.0012843450479233227,
      "loss": 6.1796,
      "step": 140000
    },
    {
      "epoch": 17.96,
      "learning_rate": 0.0012817891373801918,
      "loss": 6.1814,
      "step": 140500
    },
    {
      "epoch": 18.0,
      "eval_loss": 6.123664379119873,
      "eval_runtime": 6.845,
      "eval_samples_per_second": 36.669,
      "eval_steps_per_second": 1.169,
      "step": 140850
    },
    {
      "epoch": 18.02,
      "learning_rate": 0.0012792332268370607,
      "loss": 6.1872,
      "step": 141000
    },
    {
      "epoch": 18.08,
      "learning_rate": 0.0012766773162939298,
      "loss": 6.1834,
      "step": 141500
    },
    {
      "epoch": 18.15,
      "learning_rate": 0.0012741214057507989,
      "loss": 6.1793,
      "step": 142000
    },
    {
      "epoch": 18.21,
      "learning_rate": 0.001271565495207668,
      "loss": 6.1731,
      "step": 142500
    },
    {
      "epoch": 18.27,
      "learning_rate": 0.0012690095846645368,
      "loss": 6.183,
      "step": 143000
    },
    {
      "epoch": 18.34,
      "learning_rate": 0.001266453674121406,
      "loss": 6.1745,
      "step": 143500
    },
    {
      "epoch": 18.4,
      "learning_rate": 0.0012638977635782748,
      "loss": 6.1846,
      "step": 144000
    },
    {
      "epoch": 18.47,
      "learning_rate": 0.0012613418530351436,
      "loss": 6.1767,
      "step": 144500
    },
    {
      "epoch": 18.53,
      "learning_rate": 0.0012587859424920127,
      "loss": 6.1747,
      "step": 145000
    },
    {
      "epoch": 18.59,
      "learning_rate": 0.0012562300319488818,
      "loss": 6.1804,
      "step": 145500
    },
    {
      "epoch": 18.66,
      "learning_rate": 0.0012536741214057507,
      "loss": 6.1729,
      "step": 146000
    },
    {
      "epoch": 18.72,
      "learning_rate": 0.0012511182108626197,
      "loss": 6.1791,
      "step": 146500
    },
    {
      "epoch": 18.79,
      "learning_rate": 0.0012485623003194888,
      "loss": 6.173,
      "step": 147000
    },
    {
      "epoch": 18.85,
      "learning_rate": 0.001246006389776358,
      "loss": 6.1732,
      "step": 147500
    },
    {
      "epoch": 18.91,
      "learning_rate": 0.0012434504792332268,
      "loss": 6.1771,
      "step": 148000
    },
    {
      "epoch": 18.98,
      "learning_rate": 0.0012408945686900959,
      "loss": 6.1754,
      "step": 148500
    },
    {
      "epoch": 19.0,
      "eval_loss": 6.119473934173584,
      "eval_runtime": 6.9262,
      "eval_samples_per_second": 36.239,
      "eval_steps_per_second": 1.155,
      "step": 148675
    },
    {
      "epoch": 19.04,
      "learning_rate": 0.001238338658146965,
      "loss": 6.1773,
      "step": 149000
    },
    {
      "epoch": 19.11,
      "learning_rate": 0.0012357827476038338,
      "loss": 6.176,
      "step": 149500
    },
    {
      "epoch": 19.17,
      "learning_rate": 0.001233226837060703,
      "loss": 6.1746,
      "step": 150000
    },
    {
      "epoch": 19.23,
      "learning_rate": 0.001230670926517572,
      "loss": 6.1773,
      "step": 150500
    },
    {
      "epoch": 19.3,
      "learning_rate": 0.001228115015974441,
      "loss": 6.1771,
      "step": 151000
    },
    {
      "epoch": 19.36,
      "learning_rate": 0.00122555910543131,
      "loss": 6.1736,
      "step": 151500
    },
    {
      "epoch": 19.42,
      "learning_rate": 0.001223003194888179,
      "loss": 6.1724,
      "step": 152000
    },
    {
      "epoch": 19.49,
      "learning_rate": 0.001220447284345048,
      "loss": 6.1809,
      "step": 152500
    },
    {
      "epoch": 19.55,
      "learning_rate": 0.001217891373801917,
      "loss": 6.1769,
      "step": 153000
    },
    {
      "epoch": 19.62,
      "learning_rate": 0.001215335463258786,
      "loss": 6.1712,
      "step": 153500
    },
    {
      "epoch": 19.68,
      "learning_rate": 0.001212779552715655,
      "loss": 6.1779,
      "step": 154000
    },
    {
      "epoch": 19.74,
      "learning_rate": 0.001210223642172524,
      "loss": 6.1758,
      "step": 154500
    },
    {
      "epoch": 19.81,
      "learning_rate": 0.0012076677316293929,
      "loss": 6.1681,
      "step": 155000
    },
    {
      "epoch": 19.87,
      "learning_rate": 0.001205111821086262,
      "loss": 6.1728,
      "step": 155500
    },
    {
      "epoch": 19.94,
      "learning_rate": 0.001202555910543131,
      "loss": 6.1737,
      "step": 156000
    },
    {
      "epoch": 20.0,
      "learning_rate": 0.0012,
      "loss": 6.1769,
      "step": 156500
    },
    {
      "epoch": 20.0,
      "eval_loss": 6.11764669418335,
      "eval_runtime": 6.8248,
      "eval_samples_per_second": 36.778,
      "eval_steps_per_second": 1.172,
      "step": 156500
    },
    {
      "epoch": 20.06,
      "learning_rate": 0.001197444089456869,
      "loss": 6.1785,
      "step": 157000
    },
    {
      "epoch": 20.13,
      "learning_rate": 0.001194888178913738,
      "loss": 6.1772,
      "step": 157500
    },
    {
      "epoch": 20.19,
      "learning_rate": 0.0011923322683706071,
      "loss": 6.1648,
      "step": 158000
    },
    {
      "epoch": 20.26,
      "learning_rate": 0.001189776357827476,
      "loss": 6.1715,
      "step": 158500
    },
    {
      "epoch": 20.32,
      "learning_rate": 0.001187220447284345,
      "loss": 6.1745,
      "step": 159000
    },
    {
      "epoch": 20.38,
      "learning_rate": 0.0011846645367412142,
      "loss": 6.1769,
      "step": 159500
    },
    {
      "epoch": 20.45,
      "learning_rate": 0.001182108626198083,
      "loss": 6.1783,
      "step": 160000
    },
    {
      "epoch": 20.51,
      "learning_rate": 0.0011795527156549521,
      "loss": 6.1693,
      "step": 160500
    },
    {
      "epoch": 20.58,
      "learning_rate": 0.0011769968051118212,
      "loss": 6.1726,
      "step": 161000
    },
    {
      "epoch": 20.64,
      "learning_rate": 0.0011744408945686903,
      "loss": 6.1676,
      "step": 161500
    },
    {
      "epoch": 20.7,
      "learning_rate": 0.0011718849840255592,
      "loss": 6.1669,
      "step": 162000
    },
    {
      "epoch": 20.77,
      "learning_rate": 0.0011693290734824282,
      "loss": 6.1636,
      "step": 162500
    },
    {
      "epoch": 20.83,
      "learning_rate": 0.0011667731629392973,
      "loss": 6.1791,
      "step": 163000
    },
    {
      "epoch": 20.89,
      "learning_rate": 0.001164217252396166,
      "loss": 6.1757,
      "step": 163500
    },
    {
      "epoch": 20.96,
      "learning_rate": 0.001161661341853035,
      "loss": 6.1716,
      "step": 164000
    },
    {
      "epoch": 21.0,
      "eval_loss": 6.116322994232178,
      "eval_runtime": 6.8185,
      "eval_samples_per_second": 36.812,
      "eval_steps_per_second": 1.173,
      "step": 164325
    },
    {
      "epoch": 21.02,
      "learning_rate": 0.0011591054313099041,
      "loss": 6.1742,
      "step": 164500
    },
    {
      "epoch": 21.09,
      "learning_rate": 0.001156549520766773,
      "loss": 6.1689,
      "step": 165000
    },
    {
      "epoch": 21.15,
      "learning_rate": 0.001153993610223642,
      "loss": 6.162,
      "step": 165500
    },
    {
      "epoch": 21.21,
      "learning_rate": 0.0011514376996805112,
      "loss": 6.1729,
      "step": 166000
    },
    {
      "epoch": 21.28,
      "learning_rate": 0.0011488817891373803,
      "loss": 6.1756,
      "step": 166500
    },
    {
      "epoch": 21.34,
      "learning_rate": 0.0011463258785942491,
      "loss": 6.1694,
      "step": 167000
    },
    {
      "epoch": 21.41,
      "learning_rate": 0.0011437699680511182,
      "loss": 6.1755,
      "step": 167500
    },
    {
      "epoch": 21.47,
      "learning_rate": 0.0011412140575079873,
      "loss": 6.1735,
      "step": 168000
    },
    {
      "epoch": 21.53,
      "learning_rate": 0.0011386581469648562,
      "loss": 6.1676,
      "step": 168500
    },
    {
      "epoch": 21.6,
      "learning_rate": 0.0011361022364217252,
      "loss": 6.1716,
      "step": 169000
    },
    {
      "epoch": 21.66,
      "learning_rate": 0.0011335463258785943,
      "loss": 6.1737,
      "step": 169500
    },
    {
      "epoch": 21.73,
      "learning_rate": 0.0011309904153354634,
      "loss": 6.1743,
      "step": 170000
    },
    {
      "epoch": 21.79,
      "learning_rate": 0.0011284345047923323,
      "loss": 6.1749,
      "step": 170500
    },
    {
      "epoch": 21.85,
      "learning_rate": 0.0011258785942492014,
      "loss": 6.1724,
      "step": 171000
    },
    {
      "epoch": 21.92,
      "learning_rate": 0.0011233226837060704,
      "loss": 6.1676,
      "step": 171500
    },
    {
      "epoch": 21.98,
      "learning_rate": 0.0011207667731629393,
      "loss": 6.1823,
      "step": 172000
    },
    {
      "epoch": 22.0,
      "eval_loss": 6.115005016326904,
      "eval_runtime": 57.523,
      "eval_samples_per_second": 4.363,
      "eval_steps_per_second": 0.139,
      "step": 172150
    },
    {
      "epoch": 22.04,
      "learning_rate": 0.0011182108626198084,
      "loss": 6.1729,
      "step": 172500
    },
    {
      "epoch": 22.11,
      "learning_rate": 0.0011156549520766775,
      "loss": 6.1746,
      "step": 173000
    },
    {
      "epoch": 22.17,
      "learning_rate": 0.0011130990415335463,
      "loss": 6.1732,
      "step": 173500
    },
    {
      "epoch": 22.24,
      "learning_rate": 0.0011105431309904152,
      "loss": 6.1712,
      "step": 174000
    },
    {
      "epoch": 22.3,
      "learning_rate": 0.0011079872204472843,
      "loss": 6.1677,
      "step": 174500
    },
    {
      "epoch": 22.36,
      "learning_rate": 0.0011054313099041534,
      "loss": 6.1683,
      "step": 175000
    },
    {
      "epoch": 22.43,
      "learning_rate": 0.0011028753993610222,
      "loss": 6.1741,
      "step": 175500
    },
    {
      "epoch": 22.49,
      "learning_rate": 0.0011003194888178913,
      "loss": 6.1663,
      "step": 176000
    },
    {
      "epoch": 22.56,
      "learning_rate": 0.0010977635782747604,
      "loss": 6.1681,
      "step": 176500
    },
    {
      "epoch": 22.62,
      "learning_rate": 0.0010952076677316295,
      "loss": 6.174,
      "step": 177000
    },
    {
      "epoch": 22.68,
      "learning_rate": 0.0010926517571884984,
      "loss": 6.1674,
      "step": 177500
    },
    {
      "epoch": 22.75,
      "learning_rate": 0.0010900958466453674,
      "loss": 6.1701,
      "step": 178000
    },
    {
      "epoch": 22.81,
      "learning_rate": 0.0010875399361022365,
      "loss": 6.1724,
      "step": 178500
    },
    {
      "epoch": 22.88,
      "learning_rate": 0.0010849840255591054,
      "loss": 6.1712,
      "step": 179000
    },
    {
      "epoch": 22.94,
      "learning_rate": 0.0010824281150159745,
      "loss": 6.1679,
      "step": 179500
    },
    {
      "epoch": 23.0,
      "eval_loss": 6.114222049713135,
      "eval_runtime": 6.9135,
      "eval_samples_per_second": 36.306,
      "eval_steps_per_second": 1.157,
      "step": 179975
    },
    {
      "epoch": 23.0,
      "learning_rate": 0.0010798722044728436,
      "loss": 6.1666,
      "step": 180000
    },
    {
      "epoch": 23.07,
      "learning_rate": 0.0010773162939297126,
      "loss": 6.1702,
      "step": 180500
    },
    {
      "epoch": 23.13,
      "learning_rate": 0.0010747603833865815,
      "loss": 6.166,
      "step": 181000
    },
    {
      "epoch": 23.19,
      "learning_rate": 0.0010722044728434506,
      "loss": 6.1651,
      "step": 181500
    },
    {
      "epoch": 23.26,
      "learning_rate": 0.0010696485623003197,
      "loss": 6.1721,
      "step": 182000
    },
    {
      "epoch": 23.32,
      "learning_rate": 0.0010670926517571885,
      "loss": 6.1721,
      "step": 182500
    },
    {
      "epoch": 23.39,
      "learning_rate": 0.0010645367412140576,
      "loss": 6.168,
      "step": 183000
    },
    {
      "epoch": 23.45,
      "learning_rate": 0.0010619808306709265,
      "loss": 6.1732,
      "step": 183500
    },
    {
      "epoch": 23.51,
      "learning_rate": 0.0010594249201277954,
      "loss": 6.171,
      "step": 184000
    },
    {
      "epoch": 23.58,
      "learning_rate": 0.0010568690095846644,
      "loss": 6.1697,
      "step": 184500
    },
    {
      "epoch": 23.64,
      "learning_rate": 0.0010543130990415335,
      "loss": 6.1667,
      "step": 185000
    },
    {
      "epoch": 23.71,
      "learning_rate": 0.0010517571884984026,
      "loss": 6.1762,
      "step": 185500
    },
    {
      "epoch": 23.77,
      "learning_rate": 0.0010492012779552715,
      "loss": 6.1661,
      "step": 186000
    },
    {
      "epoch": 23.83,
      "learning_rate": 0.0010466453674121406,
      "loss": 6.1741,
      "step": 186500
    },
    {
      "epoch": 23.9,
      "learning_rate": 0.0010440894568690096,
      "loss": 6.166,
      "step": 187000
    },
    {
      "epoch": 23.96,
      "learning_rate": 0.0010415335463258785,
      "loss": 6.1697,
      "step": 187500
    },
    {
      "epoch": 24.0,
      "eval_loss": 6.112667083740234,
      "eval_runtime": 6.8444,
      "eval_samples_per_second": 36.672,
      "eval_steps_per_second": 1.169,
      "step": 187800
    },
    {
      "epoch": 24.03,
      "learning_rate": 0.0010389776357827476,
      "loss": 6.1674,
      "step": 188000
    },
    {
      "epoch": 24.09,
      "learning_rate": 0.0010364217252396167,
      "loss": 6.169,
      "step": 188500
    },
    {
      "epoch": 24.15,
      "learning_rate": 0.0010338658146964858,
      "loss": 6.1648,
      "step": 189000
    },
    {
      "epoch": 24.22,
      "learning_rate": 0.0010313099041533546,
      "loss": 6.1711,
      "step": 189500
    },
    {
      "epoch": 24.28,
      "learning_rate": 0.0010287539936102237,
      "loss": 6.1621,
      "step": 190000
    },
    {
      "epoch": 24.35,
      "learning_rate": 0.0010261980830670928,
      "loss": 6.1666,
      "step": 190500
    },
    {
      "epoch": 24.41,
      "learning_rate": 0.0010236421725239617,
      "loss": 6.1685,
      "step": 191000
    },
    {
      "epoch": 24.47,
      "learning_rate": 0.0010210862619808307,
      "loss": 6.171,
      "step": 191500
    },
    {
      "epoch": 24.54,
      "learning_rate": 0.0010185303514376998,
      "loss": 6.1777,
      "step": 192000
    },
    {
      "epoch": 24.6,
      "learning_rate": 0.001015974440894569,
      "loss": 6.1717,
      "step": 192500
    },
    {
      "epoch": 24.66,
      "learning_rate": 0.0010134185303514378,
      "loss": 6.1702,
      "step": 193000
    },
    {
      "epoch": 24.73,
      "learning_rate": 0.0010108626198083066,
      "loss": 6.1728,
      "step": 193500
    },
    {
      "epoch": 24.79,
      "learning_rate": 0.0010083067092651757,
      "loss": 6.1671,
      "step": 194000
    },
    {
      "epoch": 24.86,
      "learning_rate": 0.0010057507987220446,
      "loss": 6.16,
      "step": 194500
    },
    {
      "epoch": 24.92,
      "learning_rate": 0.0010031948881789137,
      "loss": 6.1631,
      "step": 195000
    },
    {
      "epoch": 24.98,
      "learning_rate": 0.0010006389776357828,
      "loss": 6.1719,
      "step": 195500
    },
    {
      "epoch": 25.0,
      "eval_loss": 6.112457275390625,
      "eval_runtime": 6.8286,
      "eval_samples_per_second": 36.757,
      "eval_steps_per_second": 1.172,
      "step": 195625
    },
    {
      "epoch": 25.05,
      "learning_rate": 0.0009980830670926518,
      "loss": 6.1638,
      "step": 196000
    },
    {
      "epoch": 25.11,
      "learning_rate": 0.0009955271565495207,
      "loss": 6.1723,
      "step": 196500
    },
    {
      "epoch": 25.18,
      "learning_rate": 0.0009929712460063898,
      "loss": 6.1753,
      "step": 197000
    },
    {
      "epoch": 25.24,
      "learning_rate": 0.0009904153354632589,
      "loss": 6.1636,
      "step": 197500
    },
    {
      "epoch": 25.3,
      "learning_rate": 0.0009878594249201277,
      "loss": 6.1734,
      "step": 198000
    },
    {
      "epoch": 25.37,
      "learning_rate": 0.0009853035143769968,
      "loss": 6.1705,
      "step": 198500
    },
    {
      "epoch": 25.43,
      "learning_rate": 0.000982747603833866,
      "loss": 6.1615,
      "step": 199000
    },
    {
      "epoch": 25.5,
      "learning_rate": 0.000980191693290735,
      "loss": 6.1636,
      "step": 199500
    },
    {
      "epoch": 25.56,
      "learning_rate": 0.0009776357827476038,
      "loss": 6.1756,
      "step": 200000
    },
    {
      "epoch": 25.62,
      "learning_rate": 0.0009750798722044729,
      "loss": 6.1726,
      "step": 200500
    },
    {
      "epoch": 25.69,
      "learning_rate": 0.0009725239616613418,
      "loss": 6.1758,
      "step": 201000
    },
    {
      "epoch": 25.75,
      "learning_rate": 0.0009699680511182109,
      "loss": 6.1662,
      "step": 201500
    },
    {
      "epoch": 25.81,
      "learning_rate": 0.0009674121405750799,
      "loss": 6.1656,
      "step": 202000
    },
    {
      "epoch": 25.88,
      "learning_rate": 0.0009648562300319489,
      "loss": 6.1568,
      "step": 202500
    },
    {
      "epoch": 25.94,
      "learning_rate": 0.0009623003194888179,
      "loss": 6.1678,
      "step": 203000
    },
    {
      "epoch": 26.0,
      "eval_loss": 6.112171649932861,
      "eval_runtime": 6.8367,
      "eval_samples_per_second": 36.714,
      "eval_steps_per_second": 1.17,
      "step": 203450
    },
    {
      "epoch": 26.01,
      "learning_rate": 0.0009597444089456869,
      "loss": 6.1698,
      "step": 203500
    },
    {
      "epoch": 26.07,
      "learning_rate": 0.000957188498402556,
      "loss": 6.158,
      "step": 204000
    },
    {
      "epoch": 26.13,
      "learning_rate": 0.000954632587859425,
      "loss": 6.1723,
      "step": 204500
    },
    {
      "epoch": 26.2,
      "learning_rate": 0.000952076677316294,
      "loss": 6.1665,
      "step": 205000
    },
    {
      "epoch": 26.26,
      "learning_rate": 0.000949520766773163,
      "loss": 6.1657,
      "step": 205500
    },
    {
      "epoch": 26.33,
      "learning_rate": 0.0009469648562300319,
      "loss": 6.1692,
      "step": 206000
    },
    {
      "epoch": 26.39,
      "learning_rate": 0.000944408945686901,
      "loss": 6.1713,
      "step": 206500
    },
    {
      "epoch": 26.45,
      "learning_rate": 0.0009418530351437699,
      "loss": 6.1642,
      "step": 207000
    },
    {
      "epoch": 26.52,
      "learning_rate": 0.000939297124600639,
      "loss": 6.1679,
      "step": 207500
    },
    {
      "epoch": 26.58,
      "learning_rate": 0.000936741214057508,
      "loss": 6.1662,
      "step": 208000
    },
    {
      "epoch": 26.65,
      "learning_rate": 0.0009341853035143771,
      "loss": 6.1701,
      "step": 208500
    },
    {
      "epoch": 26.71,
      "learning_rate": 0.000931629392971246,
      "loss": 6.1702,
      "step": 209000
    },
    {
      "epoch": 26.77,
      "learning_rate": 0.000929073482428115,
      "loss": 6.1672,
      "step": 209500
    },
    {
      "epoch": 26.84,
      "learning_rate": 0.0009265175718849841,
      "loss": 6.1697,
      "step": 210000
    },
    {
      "epoch": 26.9,
      "learning_rate": 0.000923961661341853,
      "loss": 6.1657,
      "step": 210500
    },
    {
      "epoch": 26.96,
      "learning_rate": 0.000921405750798722,
      "loss": 6.1664,
      "step": 211000
    },
    {
      "epoch": 27.0,
      "eval_loss": 6.112409591674805,
      "eval_runtime": 6.9228,
      "eval_samples_per_second": 36.257,
      "eval_steps_per_second": 1.156,
      "step": 211275
    },
    {
      "epoch": 27.03,
      "learning_rate": 0.000918849840255591,
      "loss": 6.164,
      "step": 211500
    },
    {
      "epoch": 27.09,
      "learning_rate": 0.0009162939297124601,
      "loss": 6.1717,
      "step": 212000
    },
    {
      "epoch": 27.16,
      "learning_rate": 0.0009137380191693291,
      "loss": 6.1646,
      "step": 212500
    },
    {
      "epoch": 27.22,
      "learning_rate": 0.0009111821086261981,
      "loss": 6.1641,
      "step": 213000
    },
    {
      "epoch": 27.28,
      "learning_rate": 0.0009086261980830671,
      "loss": 6.1634,
      "step": 213500
    },
    {
      "epoch": 27.35,
      "learning_rate": 0.0009060702875399361,
      "loss": 6.17,
      "step": 214000
    },
    {
      "epoch": 27.41,
      "learning_rate": 0.0009035143769968052,
      "loss": 6.1703,
      "step": 214500
    },
    {
      "epoch": 27.48,
      "learning_rate": 0.0009009584664536742,
      "loss": 6.1721,
      "step": 215000
    },
    {
      "epoch": 27.54,
      "learning_rate": 0.000898402555910543,
      "loss": 6.1701,
      "step": 215500
    },
    {
      "epoch": 27.6,
      "learning_rate": 0.0008958466453674121,
      "loss": 6.1649,
      "step": 216000
    },
    {
      "epoch": 27.67,
      "learning_rate": 0.0008932907348242811,
      "loss": 6.1727,
      "step": 216500
    },
    {
      "epoch": 27.73,
      "learning_rate": 0.0008907348242811502,
      "loss": 6.1688,
      "step": 217000
    },
    {
      "epoch": 27.8,
      "learning_rate": 0.0008881789137380192,
      "loss": 6.166,
      "step": 217500
    },
    {
      "epoch": 27.86,
      "learning_rate": 0.0008856230031948882,
      "loss": 6.1683,
      "step": 218000
    },
    {
      "epoch": 27.92,
      "learning_rate": 0.0008830670926517572,
      "loss": 6.1647,
      "step": 218500
    },
    {
      "epoch": 27.99,
      "learning_rate": 0.0008805111821086262,
      "loss": 6.1643,
      "step": 219000
    },
    {
      "epoch": 28.0,
      "eval_loss": 6.111097812652588,
      "eval_runtime": 6.8343,
      "eval_samples_per_second": 36.727,
      "eval_steps_per_second": 1.171,
      "step": 219100
    },
    {
      "epoch": 28.05,
      "learning_rate": 0.0008779552715654953,
      "loss": 6.1691,
      "step": 219500
    },
    {
      "epoch": 28.12,
      "learning_rate": 0.0008753993610223643,
      "loss": 6.1653,
      "step": 220000
    },
    {
      "epoch": 28.18,
      "learning_rate": 0.0008728434504792332,
      "loss": 6.1633,
      "step": 220500
    },
    {
      "epoch": 28.24,
      "learning_rate": 0.0008702875399361022,
      "loss": 6.1705,
      "step": 221000
    },
    {
      "epoch": 28.31,
      "learning_rate": 0.0008677316293929713,
      "loss": 6.1695,
      "step": 221500
    },
    {
      "epoch": 28.37,
      "learning_rate": 0.0008651757188498403,
      "loss": 6.168,
      "step": 222000
    },
    {
      "epoch": 28.43,
      "learning_rate": 0.0008626198083067092,
      "loss": 6.1652,
      "step": 222500
    },
    {
      "epoch": 28.5,
      "learning_rate": 0.0008600638977635783,
      "loss": 6.1695,
      "step": 223000
    },
    {
      "epoch": 28.56,
      "learning_rate": 0.0008575079872204473,
      "loss": 6.1675,
      "step": 223500
    },
    {
      "epoch": 28.63,
      "learning_rate": 0.0008549520766773164,
      "loss": 6.1634,
      "step": 224000
    },
    {
      "epoch": 28.69,
      "learning_rate": 0.0008523961661341853,
      "loss": 6.1728,
      "step": 224500
    },
    {
      "epoch": 28.75,
      "learning_rate": 0.0008498402555910543,
      "loss": 6.1689,
      "step": 225000
    },
    {
      "epoch": 28.82,
      "learning_rate": 0.0008472843450479233,
      "loss": 6.1664,
      "step": 225500
    },
    {
      "epoch": 28.88,
      "learning_rate": 0.0008447284345047923,
      "loss": 6.1696,
      "step": 226000
    },
    {
      "epoch": 28.95,
      "learning_rate": 0.0008421725239616614,
      "loss": 6.1629,
      "step": 226500
    },
    {
      "epoch": 29.0,
      "eval_loss": 6.1112260818481445,
      "eval_runtime": 6.8361,
      "eval_samples_per_second": 36.717,
      "eval_steps_per_second": 1.17,
      "step": 226925
    },
    {
      "epoch": 29.01,
      "learning_rate": 0.0008396166134185303,
      "loss": 6.1625,
      "step": 227000
    },
    {
      "epoch": 29.07,
      "learning_rate": 0.0008370607028753994,
      "loss": 6.167,
      "step": 227500
    },
    {
      "epoch": 29.14,
      "learning_rate": 0.0008345047923322684,
      "loss": 6.1627,
      "step": 228000
    },
    {
      "epoch": 29.2,
      "learning_rate": 0.0008319488817891374,
      "loss": 6.1653,
      "step": 228500
    },
    {
      "epoch": 29.27,
      "learning_rate": 0.0008293929712460064,
      "loss": 6.1711,
      "step": 229000
    },
    {
      "epoch": 29.33,
      "learning_rate": 0.0008268370607028754,
      "loss": 6.1661,
      "step": 229500
    },
    {
      "epoch": 29.39,
      "learning_rate": 0.0008242811501597445,
      "loss": 6.1655,
      "step": 230000
    },
    {
      "epoch": 29.46,
      "learning_rate": 0.0008217252396166134,
      "loss": 6.1738,
      "step": 230500
    },
    {
      "epoch": 29.52,
      "learning_rate": 0.0008191693290734825,
      "loss": 6.1657,
      "step": 231000
    },
    {
      "epoch": 29.58,
      "learning_rate": 0.0008166134185303514,
      "loss": 6.1686,
      "step": 231500
    },
    {
      "epoch": 29.65,
      "learning_rate": 0.0008140575079872204,
      "loss": 6.1636,
      "step": 232000
    },
    {
      "epoch": 29.71,
      "learning_rate": 0.0008115015974440895,
      "loss": 6.1645,
      "step": 232500
    },
    {
      "epoch": 29.78,
      "learning_rate": 0.0008089456869009585,
      "loss": 6.1653,
      "step": 233000
    },
    {
      "epoch": 29.84,
      "learning_rate": 0.0008063897763578275,
      "loss": 6.1602,
      "step": 233500
    },
    {
      "epoch": 29.9,
      "learning_rate": 0.0008038338658146965,
      "loss": 6.1667,
      "step": 234000
    },
    {
      "epoch": 29.97,
      "learning_rate": 0.0008012779552715655,
      "loss": 6.1712,
      "step": 234500
    },
    {
      "epoch": 30.0,
      "eval_loss": 6.1112165451049805,
      "eval_runtime": 6.8132,
      "eval_samples_per_second": 36.84,
      "eval_steps_per_second": 1.174,
      "step": 234750
    },
    {
      "epoch": 30.03,
      "learning_rate": 0.0007987220447284346,
      "loss": 6.1752,
      "step": 235000
    },
    {
      "epoch": 30.1,
      "learning_rate": 0.0007961661341853034,
      "loss": 6.1726,
      "step": 235500
    },
    {
      "epoch": 30.16,
      "learning_rate": 0.0007936102236421725,
      "loss": 6.1653,
      "step": 236000
    },
    {
      "epoch": 30.22,
      "learning_rate": 0.0007910543130990415,
      "loss": 6.1677,
      "step": 236500
    },
    {
      "epoch": 30.29,
      "learning_rate": 0.0007884984025559106,
      "loss": 6.1666,
      "step": 237000
    },
    {
      "epoch": 30.35,
      "learning_rate": 0.0007859424920127796,
      "loss": 6.1628,
      "step": 237500
    },
    {
      "epoch": 30.42,
      "learning_rate": 0.0007833865814696485,
      "loss": 6.1717,
      "step": 238000
    },
    {
      "epoch": 30.48,
      "learning_rate": 0.0007808306709265176,
      "loss": 6.1636,
      "step": 238500
    },
    {
      "epoch": 30.54,
      "learning_rate": 0.0007782747603833866,
      "loss": 6.1666,
      "step": 239000
    },
    {
      "epoch": 30.61,
      "learning_rate": 0.0007757188498402557,
      "loss": 6.1612,
      "step": 239500
    },
    {
      "epoch": 30.67,
      "learning_rate": 0.0007731629392971247,
      "loss": 6.1623,
      "step": 240000
    },
    {
      "epoch": 30.73,
      "learning_rate": 0.0007706070287539936,
      "loss": 6.1657,
      "step": 240500
    },
    {
      "epoch": 30.8,
      "learning_rate": 0.0007680511182108626,
      "loss": 6.1634,
      "step": 241000
    },
    {
      "epoch": 30.86,
      "learning_rate": 0.0007654952076677316,
      "loss": 6.1704,
      "step": 241500
    },
    {
      "epoch": 30.93,
      "learning_rate": 0.0007629392971246007,
      "loss": 6.1684,
      "step": 242000
    },
    {
      "epoch": 30.99,
      "learning_rate": 0.0007603833865814696,
      "loss": 6.1588,
      "step": 242500
    },
    {
      "epoch": 31.0,
      "eval_loss": 6.110002040863037,
      "eval_runtime": 6.9156,
      "eval_samples_per_second": 36.295,
      "eval_steps_per_second": 1.157,
      "step": 242575
    },
    {
      "epoch": 31.05,
      "learning_rate": 0.0007578274760383387,
      "loss": 6.167,
      "step": 243000
    },
    {
      "epoch": 31.12,
      "learning_rate": 0.0007552715654952077,
      "loss": 6.1609,
      "step": 243500
    },
    {
      "epoch": 31.18,
      "learning_rate": 0.0007527156549520767,
      "loss": 6.1638,
      "step": 244000
    },
    {
      "epoch": 31.25,
      "learning_rate": 0.0007501597444089458,
      "loss": 6.1655,
      "step": 244500
    },
    {
      "epoch": 31.31,
      "learning_rate": 0.0007476038338658147,
      "loss": 6.1675,
      "step": 245000
    },
    {
      "epoch": 31.37,
      "learning_rate": 0.0007450479233226837,
      "loss": 6.1714,
      "step": 245500
    },
    {
      "epoch": 31.44,
      "learning_rate": 0.0007424920127795527,
      "loss": 6.1628,
      "step": 246000
    },
    {
      "epoch": 31.5,
      "learning_rate": 0.0007399361022364218,
      "loss": 6.1674,
      "step": 246500
    },
    {
      "epoch": 31.57,
      "learning_rate": 0.0007373801916932907,
      "loss": 6.1589,
      "step": 247000
    },
    {
      "epoch": 31.63,
      "learning_rate": 0.0007348242811501597,
      "loss": 6.1727,
      "step": 247500
    },
    {
      "epoch": 31.69,
      "learning_rate": 0.0007322683706070288,
      "loss": 6.1688,
      "step": 248000
    },
    {
      "epoch": 31.76,
      "learning_rate": 0.0007297124600638978,
      "loss": 6.1678,
      "step": 248500
    },
    {
      "epoch": 31.82,
      "learning_rate": 0.0007271565495207669,
      "loss": 6.162,
      "step": 249000
    },
    {
      "epoch": 31.88,
      "learning_rate": 0.0007246006389776358,
      "loss": 6.1671,
      "step": 249500
    },
    {
      "epoch": 31.95,
      "learning_rate": 0.0007220447284345049,
      "loss": 6.1686,
      "step": 250000
    },
    {
      "epoch": 32.0,
      "eval_loss": 6.110647201538086,
      "eval_runtime": 6.86,
      "eval_samples_per_second": 36.589,
      "eval_steps_per_second": 1.166,
      "step": 250400
    },
    {
      "epoch": 32.01,
      "learning_rate": 0.0007194888178913738,
      "loss": 6.1651,
      "step": 250500
    },
    {
      "epoch": 32.08,
      "learning_rate": 0.0007169329073482428,
      "loss": 6.1736,
      "step": 251000
    },
    {
      "epoch": 32.14,
      "learning_rate": 0.0007143769968051118,
      "loss": 6.1687,
      "step": 251500
    },
    {
      "epoch": 32.2,
      "learning_rate": 0.0007118210862619808,
      "loss": 6.1646,
      "step": 252000
    },
    {
      "epoch": 32.27,
      "learning_rate": 0.0007092651757188499,
      "loss": 6.1676,
      "step": 252500
    },
    {
      "epoch": 32.33,
      "learning_rate": 0.0007067092651757189,
      "loss": 6.1536,
      "step": 253000
    },
    {
      "epoch": 32.4,
      "learning_rate": 0.0007041533546325878,
      "loss": 6.1628,
      "step": 253500
    },
    {
      "epoch": 32.46,
      "learning_rate": 0.0007015974440894569,
      "loss": 6.1662,
      "step": 254000
    },
    {
      "epoch": 32.52,
      "learning_rate": 0.0006990415335463259,
      "loss": 6.171,
      "step": 254500
    },
    {
      "epoch": 32.59,
      "learning_rate": 0.000696485623003195,
      "loss": 6.1691,
      "step": 255000
    },
    {
      "epoch": 32.65,
      "learning_rate": 0.0006939297124600638,
      "loss": 6.1668,
      "step": 255500
    },
    {
      "epoch": 32.72,
      "learning_rate": 0.0006913738019169329,
      "loss": 6.1738,
      "step": 256000
    },
    {
      "epoch": 32.78,
      "learning_rate": 0.0006888178913738019,
      "loss": 6.1652,
      "step": 256500
    },
    {
      "epoch": 32.84,
      "learning_rate": 0.0006862619808306709,
      "loss": 6.164,
      "step": 257000
    },
    {
      "epoch": 32.91,
      "learning_rate": 0.00068370607028754,
      "loss": 6.1592,
      "step": 257500
    },
    {
      "epoch": 32.97,
      "learning_rate": 0.0006811501597444089,
      "loss": 6.167,
      "step": 258000
    },
    {
      "epoch": 33.0,
      "eval_loss": 6.110122203826904,
      "eval_runtime": 6.8168,
      "eval_samples_per_second": 36.821,
      "eval_steps_per_second": 1.174,
      "step": 258225
    },
    {
      "epoch": 33.04,
      "learning_rate": 0.000678594249201278,
      "loss": 6.1653,
      "step": 258500
    },
    {
      "epoch": 33.1,
      "learning_rate": 0.000676038338658147,
      "loss": 6.1616,
      "step": 259000
    },
    {
      "epoch": 33.16,
      "learning_rate": 0.0006734824281150161,
      "loss": 6.1651,
      "step": 259500
    },
    {
      "epoch": 33.23,
      "learning_rate": 0.0006709265175718851,
      "loss": 6.1698,
      "step": 260000
    },
    {
      "epoch": 33.29,
      "learning_rate": 0.0006683706070287539,
      "loss": 6.1654,
      "step": 260500
    },
    {
      "epoch": 33.35,
      "learning_rate": 0.000665814696485623,
      "loss": 6.1634,
      "step": 261000
    },
    {
      "epoch": 33.42,
      "learning_rate": 0.000663258785942492,
      "loss": 6.1647,
      "step": 261500
    },
    {
      "epoch": 33.48,
      "learning_rate": 0.0006607028753993611,
      "loss": 6.1584,
      "step": 262000
    },
    {
      "epoch": 33.55,
      "learning_rate": 0.00065814696485623,
      "loss": 6.1657,
      "step": 262500
    },
    {
      "epoch": 33.61,
      "learning_rate": 0.000655591054313099,
      "loss": 6.1676,
      "step": 263000
    },
    {
      "epoch": 33.67,
      "learning_rate": 0.0006530351437699681,
      "loss": 6.1595,
      "step": 263500
    },
    {
      "epoch": 33.74,
      "learning_rate": 0.0006504792332268371,
      "loss": 6.1643,
      "step": 264000
    },
    {
      "epoch": 33.8,
      "learning_rate": 0.0006479233226837062,
      "loss": 6.1737,
      "step": 264500
    },
    {
      "epoch": 33.87,
      "learning_rate": 0.000645367412140575,
      "loss": 6.1674,
      "step": 265000
    },
    {
      "epoch": 33.93,
      "learning_rate": 0.0006428115015974441,
      "loss": 6.1719,
      "step": 265500
    },
    {
      "epoch": 33.99,
      "learning_rate": 0.0006402555910543131,
      "loss": 6.1695,
      "step": 266000
    },
    {
      "epoch": 34.0,
      "eval_loss": 6.110330104827881,
      "eval_runtime": 6.7957,
      "eval_samples_per_second": 36.935,
      "eval_steps_per_second": 1.177,
      "step": 266050
    }
  ],
  "logging_steps": 500,
  "max_steps": 391250,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 50,
  "save_steps": 500,
  "total_flos": 4.575802027758605e+19,
  "train_batch_size": 32,
  "trial_name": null,
  "trial_params": null
}