{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.5275206529312233,
  "eval_steps": 100,
  "global_step": 5300,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0009953219866626853,
      "grad_norm": 1.912980556488037,
      "learning_rate": 9.995023390066686e-06,
      "loss": 1.8703,
      "step": 10
    },
    {
      "epoch": 0.0019906439733253707,
      "grad_norm": 1.866821050643921,
      "learning_rate": 9.990046780133374e-06,
      "loss": 1.8723,
      "step": 20
    },
    {
      "epoch": 0.002985965959988056,
      "grad_norm": 2.058809280395508,
      "learning_rate": 9.985070170200061e-06,
      "loss": 1.8097,
      "step": 30
    },
    {
      "epoch": 0.003981287946650741,
      "grad_norm": 1.459013819694519,
      "learning_rate": 9.980093560266747e-06,
      "loss": 1.7456,
      "step": 40
    },
    {
      "epoch": 0.004976609933313427,
      "grad_norm": 0.9095586538314819,
      "learning_rate": 9.975116950333434e-06,
      "loss": 1.7195,
      "step": 50
    },
    {
      "epoch": 0.005971931919976112,
      "grad_norm": 1.1065226793289185,
      "learning_rate": 9.970140340400121e-06,
      "loss": 1.6502,
      "step": 60
    },
    {
      "epoch": 0.0069672539066387975,
      "grad_norm": 0.8301252126693726,
      "learning_rate": 9.965163730466807e-06,
      "loss": 1.5699,
      "step": 70
    },
    {
      "epoch": 0.007962575893301483,
      "grad_norm": 1.0762828588485718,
      "learning_rate": 9.960187120533493e-06,
      "loss": 1.5072,
      "step": 80
    },
    {
      "epoch": 0.008957897879964169,
      "grad_norm": 1.0814900398254395,
      "learning_rate": 9.95521051060018e-06,
      "loss": 1.4369,
      "step": 90
    },
    {
      "epoch": 0.009953219866626855,
      "grad_norm": 1.3561326265335083,
      "learning_rate": 9.950233900666867e-06,
      "loss": 1.3467,
      "step": 100
    },
    {
      "epoch": 0.009953219866626855,
      "eval_loss": 1.2846794128417969,
      "eval_runtime": 147.6242,
      "eval_samples_per_second": 1.375,
      "eval_steps_per_second": 0.691,
      "step": 100
    },
    {
      "epoch": 0.010948541853289539,
      "grad_norm": 1.438547968864441,
      "learning_rate": 9.945257290733553e-06,
      "loss": 1.2222,
      "step": 110
    },
    {
      "epoch": 0.011943863839952225,
      "grad_norm": 1.402588963508606,
      "learning_rate": 9.94028068080024e-06,
      "loss": 1.1001,
      "step": 120
    },
    {
      "epoch": 0.012939185826614909,
      "grad_norm": 1.4357985258102417,
      "learning_rate": 9.935304070866926e-06,
      "loss": 0.9657,
      "step": 130
    },
    {
      "epoch": 0.013934507813277595,
      "grad_norm": 2.137953042984009,
      "learning_rate": 9.930327460933613e-06,
      "loss": 0.8211,
      "step": 140
    },
    {
      "epoch": 0.014929829799940281,
      "grad_norm": 1.374299168586731,
      "learning_rate": 9.925350851000299e-06,
      "loss": 0.7142,
      "step": 150
    },
    {
      "epoch": 0.015925151786602965,
      "grad_norm": 1.1510456800460815,
      "learning_rate": 9.920374241066986e-06,
      "loss": 0.656,
      "step": 160
    },
    {
      "epoch": 0.01692047377326565,
      "grad_norm": 1.0226788520812988,
      "learning_rate": 9.915397631133673e-06,
      "loss": 0.6212,
      "step": 170
    },
    {
      "epoch": 0.017915795759928337,
      "grad_norm": 0.9365411400794983,
      "learning_rate": 9.910421021200359e-06,
      "loss": 0.6069,
      "step": 180
    },
    {
      "epoch": 0.018911117746591023,
      "grad_norm": 0.6880003213882446,
      "learning_rate": 9.905444411267046e-06,
      "loss": 0.6128,
      "step": 190
    },
    {
      "epoch": 0.01990643973325371,
      "grad_norm": 1.1190361976623535,
      "learning_rate": 9.900467801333732e-06,
      "loss": 0.5426,
      "step": 200
    },
    {
      "epoch": 0.01990643973325371,
      "eval_loss": 0.5788590908050537,
      "eval_runtime": 147.511,
      "eval_samples_per_second": 1.376,
      "eval_steps_per_second": 0.691,
      "step": 200
    },
    {
      "epoch": 0.02090176171991639,
      "grad_norm": 1.184279441833496,
      "learning_rate": 9.895491191400419e-06,
      "loss": 0.5887,
      "step": 210
    },
    {
      "epoch": 0.021897083706579078,
      "grad_norm": 0.7627615928649902,
      "learning_rate": 9.890514581467106e-06,
      "loss": 0.5433,
      "step": 220
    },
    {
      "epoch": 0.022892405693241764,
      "grad_norm": 0.7858164310455322,
      "learning_rate": 9.885537971533792e-06,
      "loss": 0.5843,
      "step": 230
    },
    {
      "epoch": 0.02388772767990445,
      "grad_norm": 0.695697009563446,
      "learning_rate": 9.880561361600478e-06,
      "loss": 0.5365,
      "step": 240
    },
    {
      "epoch": 0.024883049666567136,
      "grad_norm": 0.8994197845458984,
      "learning_rate": 9.875584751667165e-06,
      "loss": 0.5662,
      "step": 250
    },
    {
      "epoch": 0.025878371653229818,
      "grad_norm": 0.8016309142112732,
      "learning_rate": 9.870608141733852e-06,
      "loss": 0.5592,
      "step": 260
    },
    {
      "epoch": 0.026873693639892504,
      "grad_norm": 0.8534384369850159,
      "learning_rate": 9.865631531800538e-06,
      "loss": 0.5248,
      "step": 270
    },
    {
      "epoch": 0.02786901562655519,
      "grad_norm": 0.9857029914855957,
      "learning_rate": 9.860654921867225e-06,
      "loss": 0.5294,
      "step": 280
    },
    {
      "epoch": 0.028864337613217876,
      "grad_norm": 0.7766090631484985,
      "learning_rate": 9.855678311933912e-06,
      "loss": 0.5198,
      "step": 290
    },
    {
      "epoch": 0.029859659599880562,
      "grad_norm": 0.6832401752471924,
      "learning_rate": 9.850701702000598e-06,
      "loss": 0.5844,
      "step": 300
    },
    {
      "epoch": 0.029859659599880562,
      "eval_loss": 0.536589503288269,
      "eval_runtime": 147.4968,
      "eval_samples_per_second": 1.376,
      "eval_steps_per_second": 0.692,
      "step": 300
    },
    {
      "epoch": 0.030854981586543248,
      "grad_norm": 0.7720848917961121,
      "learning_rate": 9.845725092067284e-06,
      "loss": 0.5365,
      "step": 310
    },
    {
      "epoch": 0.03185030357320593,
      "grad_norm": 0.7022100687026978,
      "learning_rate": 9.840748482133971e-06,
      "loss": 0.4841,
      "step": 320
    },
    {
      "epoch": 0.03284562555986862,
      "grad_norm": 1.0030310153961182,
      "learning_rate": 9.835771872200658e-06,
      "loss": 0.4635,
      "step": 330
    },
    {
      "epoch": 0.0338409475465313,
      "grad_norm": 0.8628882765769958,
      "learning_rate": 9.830795262267344e-06,
      "loss": 0.4932,
      "step": 340
    },
    {
      "epoch": 0.034836269533193985,
      "grad_norm": 0.7178316712379456,
      "learning_rate": 9.825818652334031e-06,
      "loss": 0.6057,
      "step": 350
    },
    {
      "epoch": 0.035831591519856675,
      "grad_norm": 0.9564626216888428,
      "learning_rate": 9.820842042400718e-06,
      "loss": 0.5371,
      "step": 360
    },
    {
      "epoch": 0.03682691350651936,
      "grad_norm": 0.7041760683059692,
      "learning_rate": 9.815865432467404e-06,
      "loss": 0.513,
      "step": 370
    },
    {
      "epoch": 0.037822235493182046,
      "grad_norm": 1.0203750133514404,
      "learning_rate": 9.81088882253409e-06,
      "loss": 0.5118,
      "step": 380
    },
    {
      "epoch": 0.03881755747984473,
      "grad_norm": 0.8765382170677185,
      "learning_rate": 9.805912212600777e-06,
      "loss": 0.4529,
      "step": 390
    },
    {
      "epoch": 0.03981287946650742,
      "grad_norm": 0.9951983690261841,
      "learning_rate": 9.800935602667464e-06,
      "loss": 0.5336,
      "step": 400
    },
    {
      "epoch": 0.03981287946650742,
      "eval_loss": 0.5151349306106567,
      "eval_runtime": 147.6615,
      "eval_samples_per_second": 1.375,
      "eval_steps_per_second": 0.691,
      "step": 400
    },
    {
      "epoch": 0.0408082014531701,
      "grad_norm": 0.7691435813903809,
      "learning_rate": 9.79595899273415e-06,
      "loss": 0.506,
      "step": 410
    },
    {
      "epoch": 0.04180352343983278,
      "grad_norm": 1.1955533027648926,
      "learning_rate": 9.790982382800837e-06,
      "loss": 0.4692,
      "step": 420
    },
    {
      "epoch": 0.04279884542649547,
      "grad_norm": 1.128085732460022,
      "learning_rate": 9.786005772867525e-06,
      "loss": 0.4608,
      "step": 430
    },
    {
      "epoch": 0.043794167413158155,
      "grad_norm": 0.5518949627876282,
      "learning_rate": 9.78102916293421e-06,
      "loss": 0.5006,
      "step": 440
    },
    {
      "epoch": 0.044789489399820845,
      "grad_norm": 0.7164484858512878,
      "learning_rate": 9.776052553000896e-06,
      "loss": 0.4996,
      "step": 450
    },
    {
      "epoch": 0.04578481138648353,
      "grad_norm": 0.5959630012512207,
      "learning_rate": 9.771075943067583e-06,
      "loss": 0.4843,
      "step": 460
    },
    {
      "epoch": 0.04678013337314621,
      "grad_norm": 0.743648111820221,
      "learning_rate": 9.76609933313427e-06,
      "loss": 0.4363,
      "step": 470
    },
    {
      "epoch": 0.0477754553598089,
      "grad_norm": 0.8757079243659973,
      "learning_rate": 9.761122723200956e-06,
      "loss": 0.4665,
      "step": 480
    },
    {
      "epoch": 0.04877077734647158,
      "grad_norm": 1.0122153759002686,
      "learning_rate": 9.756146113267643e-06,
      "loss": 0.492,
      "step": 490
    },
    {
      "epoch": 0.04976609933313427,
      "grad_norm": 0.6179729700088501,
      "learning_rate": 9.751169503334329e-06,
      "loss": 0.5022,
      "step": 500
    },
    {
      "epoch": 0.04976609933313427,
      "eval_loss": 0.4993921220302582,
      "eval_runtime": 147.7401,
      "eval_samples_per_second": 1.374,
      "eval_steps_per_second": 0.69,
      "step": 500
    },
    {
      "epoch": 0.050761421319796954,
      "grad_norm": 0.952812671661377,
      "learning_rate": 9.746192893401016e-06,
      "loss": 0.4901,
      "step": 510
    },
    {
      "epoch": 0.051756743306459636,
      "grad_norm": 0.6715916991233826,
      "learning_rate": 9.741216283467702e-06,
      "loss": 0.5055,
      "step": 520
    },
    {
      "epoch": 0.052752065293122326,
      "grad_norm": 0.674640953540802,
      "learning_rate": 9.736239673534389e-06,
      "loss": 0.4874,
      "step": 530
    },
    {
      "epoch": 0.05374738727978501,
      "grad_norm": 0.7867962718009949,
      "learning_rate": 9.731263063601075e-06,
      "loss": 0.4956,
      "step": 540
    },
    {
      "epoch": 0.0547427092664477,
      "grad_norm": 0.9035332202911377,
      "learning_rate": 9.726286453667762e-06,
      "loss": 0.499,
      "step": 550
    },
    {
      "epoch": 0.05573803125311038,
      "grad_norm": 0.7009295225143433,
      "learning_rate": 9.72130984373445e-06,
      "loss": 0.5034,
      "step": 560
    },
    {
      "epoch": 0.05673335323977307,
      "grad_norm": 0.7018862366676331,
      "learning_rate": 9.716333233801135e-06,
      "loss": 0.5137,
      "step": 570
    },
    {
      "epoch": 0.05772867522643575,
      "grad_norm": 0.7812825441360474,
      "learning_rate": 9.711356623867822e-06,
      "loss": 0.4724,
      "step": 580
    },
    {
      "epoch": 0.058723997213098435,
      "grad_norm": 0.6245225071907043,
      "learning_rate": 9.70638001393451e-06,
      "loss": 0.4446,
      "step": 590
    },
    {
      "epoch": 0.059719319199761124,
      "grad_norm": 0.9083976149559021,
      "learning_rate": 9.701403404001195e-06,
      "loss": 0.4884,
      "step": 600
    },
    {
      "epoch": 0.059719319199761124,
      "eval_loss": 0.4891846477985382,
      "eval_runtime": 147.5284,
      "eval_samples_per_second": 1.376,
      "eval_steps_per_second": 0.691,
      "step": 600
    },
    {
      "epoch": 0.06071464118642381,
      "grad_norm": 0.6195352673530579,
      "learning_rate": 9.69642679406788e-06,
      "loss": 0.5121,
      "step": 610
    },
    {
      "epoch": 0.061709963173086496,
      "grad_norm": 0.8068727254867554,
      "learning_rate": 9.691450184134568e-06,
      "loss": 0.4689,
      "step": 620
    },
    {
      "epoch": 0.06270528515974919,
      "grad_norm": 1.0427749156951904,
      "learning_rate": 9.686473574201255e-06,
      "loss": 0.4968,
      "step": 630
    },
    {
      "epoch": 0.06370060714641186,
      "grad_norm": 0.698349118232727,
      "learning_rate": 9.681496964267941e-06,
      "loss": 0.4691,
      "step": 640
    },
    {
      "epoch": 0.06469592913307455,
      "grad_norm": 0.9104384183883667,
      "learning_rate": 9.676520354334628e-06,
      "loss": 0.4775,
      "step": 650
    },
    {
      "epoch": 0.06569125111973724,
      "grad_norm": 0.8729726076126099,
      "learning_rate": 9.671543744401316e-06,
      "loss": 0.5201,
      "step": 660
    },
    {
      "epoch": 0.06668657310639992,
      "grad_norm": 0.9858236908912659,
      "learning_rate": 9.666567134468001e-06,
      "loss": 0.4268,
      "step": 670
    },
    {
      "epoch": 0.0676818950930626,
      "grad_norm": 2.322754383087158,
      "learning_rate": 9.661590524534687e-06,
      "loss": 0.4744,
      "step": 680
    },
    {
      "epoch": 0.0686772170797253,
      "grad_norm": 0.9327623248100281,
      "learning_rate": 9.656613914601374e-06,
      "loss": 0.4355,
      "step": 690
    },
    {
      "epoch": 0.06967253906638797,
      "grad_norm": 0.6949413418769836,
      "learning_rate": 9.651637304668062e-06,
      "loss": 0.465,
      "step": 700
    },
    {
      "epoch": 0.06967253906638797,
      "eval_loss": 0.4817120432853699,
      "eval_runtime": 147.5643,
      "eval_samples_per_second": 1.376,
      "eval_steps_per_second": 0.691,
      "step": 700
    },
    {
      "epoch": 0.07066786105305066,
      "grad_norm": 0.5208165049552917,
      "learning_rate": 9.646660694734747e-06,
      "loss": 0.4973,
      "step": 710
    },
    {
      "epoch": 0.07166318303971335,
      "grad_norm": 0.8434884548187256,
      "learning_rate": 9.641684084801434e-06,
      "loss": 0.4721,
      "step": 720
    },
    {
      "epoch": 0.07265850502637604,
      "grad_norm": 0.7161769866943359,
      "learning_rate": 9.636707474868122e-06,
      "loss": 0.498,
      "step": 730
    },
    {
      "epoch": 0.07365382701303871,
      "grad_norm": 0.7036088705062866,
      "learning_rate": 9.631730864934807e-06,
      "loss": 0.4672,
      "step": 740
    },
    {
      "epoch": 0.0746491489997014,
      "grad_norm": 0.9175013899803162,
      "learning_rate": 9.626754255001493e-06,
      "loss": 0.4781,
      "step": 750
    },
    {
      "epoch": 0.07564447098636409,
      "grad_norm": 0.678519606590271,
      "learning_rate": 9.62177764506818e-06,
      "loss": 0.4048,
      "step": 760
    },
    {
      "epoch": 0.07663979297302677,
      "grad_norm": 0.6295528411865234,
      "learning_rate": 9.616801035134868e-06,
      "loss": 0.449,
      "step": 770
    },
    {
      "epoch": 0.07763511495968946,
      "grad_norm": 0.5424385666847229,
      "learning_rate": 9.611824425201553e-06,
      "loss": 0.4394,
      "step": 780
    },
    {
      "epoch": 0.07863043694635215,
      "grad_norm": 0.508836030960083,
      "learning_rate": 9.60684781526824e-06,
      "loss": 0.4317,
      "step": 790
    },
    {
      "epoch": 0.07962575893301484,
      "grad_norm": 0.6004147529602051,
      "learning_rate": 9.601871205334926e-06,
      "loss": 0.4308,
      "step": 800
    },
    {
      "epoch": 0.07962575893301484,
      "eval_loss": 0.47557342052459717,
      "eval_runtime": 147.5812,
      "eval_samples_per_second": 1.376,
      "eval_steps_per_second": 0.691,
      "step": 800
    },
    {
      "epoch": 0.08062108091967751,
      "grad_norm": 0.5553786754608154,
      "learning_rate": 9.596894595401613e-06,
      "loss": 0.4376,
      "step": 810
    },
    {
      "epoch": 0.0816164029063402,
      "grad_norm": 0.7254445552825928,
      "learning_rate": 9.591917985468299e-06,
      "loss": 0.4884,
      "step": 820
    },
    {
      "epoch": 0.08261172489300289,
      "grad_norm": 0.7175013422966003,
      "learning_rate": 9.586941375534986e-06,
      "loss": 0.4167,
      "step": 830
    },
    {
      "epoch": 0.08360704687966557,
      "grad_norm": 0.6464620232582092,
      "learning_rate": 9.581964765601674e-06,
      "loss": 0.4622,
      "step": 840
    },
    {
      "epoch": 0.08460236886632826,
      "grad_norm": 0.6999176144599915,
      "learning_rate": 9.57698815566836e-06,
      "loss": 0.4708,
      "step": 850
    },
    {
      "epoch": 0.08559769085299095,
      "grad_norm": 0.7939727306365967,
      "learning_rate": 9.572011545735047e-06,
      "loss": 0.4633,
      "step": 860
    },
    {
      "epoch": 0.08659301283965362,
      "grad_norm": 0.473017156124115,
      "learning_rate": 9.567034935801732e-06,
      "loss": 0.4585,
      "step": 870
    },
    {
      "epoch": 0.08758833482631631,
      "grad_norm": 0.7265183329582214,
      "learning_rate": 9.56205832586842e-06,
      "loss": 0.4485,
      "step": 880
    },
    {
      "epoch": 0.088583656812979,
      "grad_norm": 0.539735734462738,
      "learning_rate": 9.557081715935105e-06,
      "loss": 0.475,
      "step": 890
    },
    {
      "epoch": 0.08957897879964169,
      "grad_norm": 0.7587076425552368,
      "learning_rate": 9.552105106001792e-06,
      "loss": 0.4347,
      "step": 900
    },
    {
      "epoch": 0.08957897879964169,
      "eval_loss": 0.4690374732017517,
      "eval_runtime": 147.5672,
      "eval_samples_per_second": 1.376,
      "eval_steps_per_second": 0.691,
      "step": 900
    },
    {
      "epoch": 0.09057430078630437,
      "grad_norm": 0.7549741864204407,
      "learning_rate": 9.547128496068478e-06,
      "loss": 0.4434,
      "step": 910
    },
    {
      "epoch": 0.09156962277296705,
      "grad_norm": 0.686689555644989,
      "learning_rate": 9.542151886135165e-06,
      "loss": 0.4052,
      "step": 920
    },
    {
      "epoch": 0.09256494475962974,
      "grad_norm": 1.02870512008667,
      "learning_rate": 9.537175276201853e-06,
      "loss": 0.4806,
      "step": 930
    },
    {
      "epoch": 0.09356026674629242,
      "grad_norm": 0.7680675983428955,
      "learning_rate": 9.532198666268538e-06,
      "loss": 0.4609,
      "step": 940
    },
    {
      "epoch": 0.09455558873295511,
      "grad_norm": 0.5478435754776001,
      "learning_rate": 9.527222056335224e-06,
      "loss": 0.4171,
      "step": 950
    },
    {
      "epoch": 0.0955509107196178,
      "grad_norm": 0.5974985361099243,
      "learning_rate": 9.522245446401913e-06,
      "loss": 0.4686,
      "step": 960
    },
    {
      "epoch": 0.09654623270628049,
      "grad_norm": 0.997151792049408,
      "learning_rate": 9.517268836468598e-06,
      "loss": 0.4676,
      "step": 970
    },
    {
      "epoch": 0.09754155469294316,
      "grad_norm": 0.6366075277328491,
      "learning_rate": 9.512292226535284e-06,
      "loss": 0.4467,
      "step": 980
    },
    {
      "epoch": 0.09853687667960585,
      "grad_norm": 0.5682553052902222,
      "learning_rate": 9.507315616601971e-06,
      "loss": 0.4772,
      "step": 990
    },
    {
      "epoch": 0.09953219866626854,
      "grad_norm": 0.5869882106781006,
      "learning_rate": 9.502339006668659e-06,
      "loss": 0.3976,
      "step": 1000
    },
    {
      "epoch": 0.09953219866626854,
      "eval_loss": 0.46156319975852966,
      "eval_runtime": 147.6656,
      "eval_samples_per_second": 1.375,
      "eval_steps_per_second": 0.691,
      "step": 1000
    },
    {
      "epoch": 0.10052752065293122,
      "grad_norm": 0.5758237838745117,
      "learning_rate": 9.497362396735344e-06,
      "loss": 0.4528,
      "step": 1010
    },
    {
      "epoch": 0.10152284263959391,
      "grad_norm": 0.700281023979187,
      "learning_rate": 9.492385786802032e-06,
      "loss": 0.4545,
      "step": 1020
    },
    {
      "epoch": 0.1025181646262566,
      "grad_norm": 1.1320914030075073,
      "learning_rate": 9.487409176868719e-06,
      "loss": 0.4331,
      "step": 1030
    },
    {
      "epoch": 0.10351348661291927,
      "grad_norm": 0.6469867825508118,
      "learning_rate": 9.482432566935405e-06,
      "loss": 0.3759,
      "step": 1040
    },
    {
      "epoch": 0.10450880859958196,
      "grad_norm": 0.9471383094787598,
      "learning_rate": 9.47745595700209e-06,
      "loss": 0.4041,
      "step": 1050
    },
    {
      "epoch": 0.10550413058624465,
      "grad_norm": 0.5729160904884338,
      "learning_rate": 9.472479347068777e-06,
      "loss": 0.4871,
      "step": 1060
    },
    {
      "epoch": 0.10649945257290734,
      "grad_norm": 0.642436683177948,
      "learning_rate": 9.467502737135465e-06,
      "loss": 0.3893,
      "step": 1070
    },
    {
      "epoch": 0.10749477455957002,
      "grad_norm": 0.95659339427948,
      "learning_rate": 9.46252612720215e-06,
      "loss": 0.4486,
      "step": 1080
    },
    {
      "epoch": 0.1084900965462327,
      "grad_norm": 0.6642667055130005,
      "learning_rate": 9.457549517268838e-06,
      "loss": 0.5168,
      "step": 1090
    },
    {
      "epoch": 0.1094854185328954,
      "grad_norm": 0.5805796980857849,
      "learning_rate": 9.452572907335525e-06,
      "loss": 0.4019,
      "step": 1100
    },
    {
      "epoch": 0.1094854185328954,
      "eval_loss": 0.4559178054332733,
      "eval_runtime": 147.5891,
      "eval_samples_per_second": 1.375,
      "eval_steps_per_second": 0.691,
      "step": 1100
    },
    {
      "epoch": 0.11048074051955807,
      "grad_norm": 0.7006909251213074,
      "learning_rate": 9.44759629740221e-06,
      "loss": 0.457,
      "step": 1110
    },
    {
      "epoch": 0.11147606250622076,
      "grad_norm": 1.1821540594100952,
      "learning_rate": 9.442619687468896e-06,
      "loss": 0.3484,
      "step": 1120
    },
    {
      "epoch": 0.11247138449288345,
      "grad_norm": 0.7232743501663208,
      "learning_rate": 9.437643077535584e-06,
      "loss": 0.417,
      "step": 1130
    },
    {
      "epoch": 0.11346670647954614,
      "grad_norm": 0.6104183197021484,
      "learning_rate": 9.43266646760227e-06,
      "loss": 0.4821,
      "step": 1140
    },
    {
      "epoch": 0.11446202846620881,
      "grad_norm": 0.5961386561393738,
      "learning_rate": 9.427689857668956e-06,
      "loss": 0.4834,
      "step": 1150
    },
    {
      "epoch": 0.1154573504528715,
      "grad_norm": 0.5530894994735718,
      "learning_rate": 9.422713247735644e-06,
      "loss": 0.443,
      "step": 1160
    },
    {
      "epoch": 0.1164526724395342,
      "grad_norm": 0.5148622393608093,
      "learning_rate": 9.41773663780233e-06,
      "loss": 0.4029,
      "step": 1170
    },
    {
      "epoch": 0.11744799442619687,
      "grad_norm": 0.6148583292961121,
      "learning_rate": 9.412760027869017e-06,
      "loss": 0.4308,
      "step": 1180
    },
    {
      "epoch": 0.11844331641285956,
      "grad_norm": 0.7840449213981628,
      "learning_rate": 9.407783417935702e-06,
      "loss": 0.499,
      "step": 1190
    },
    {
      "epoch": 0.11943863839952225,
      "grad_norm": 0.6757422089576721,
      "learning_rate": 9.40280680800239e-06,
      "loss": 0.4263,
      "step": 1200
    },
    {
      "epoch": 0.11943863839952225,
      "eval_loss": 0.4505193829536438,
      "eval_runtime": 147.6664,
      "eval_samples_per_second": 1.375,
      "eval_steps_per_second": 0.691,
      "step": 1200
    },
    {
      "epoch": 0.12043396038618492,
      "grad_norm": 0.630874752998352,
      "learning_rate": 9.397830198069075e-06,
      "loss": 0.492,
      "step": 1210
    },
    {
      "epoch": 0.12142928237284761,
      "grad_norm": 0.7458256483078003,
      "learning_rate": 9.392853588135763e-06,
      "loss": 0.4612,
      "step": 1220
    },
    {
      "epoch": 0.1224246043595103,
      "grad_norm": 0.6903111934661865,
      "learning_rate": 9.38787697820245e-06,
      "loss": 0.4882,
      "step": 1230
    },
    {
      "epoch": 0.12341992634617299,
      "grad_norm": 1.0817712545394897,
      "learning_rate": 9.382900368269135e-06,
      "loss": 0.4658,
      "step": 1240
    },
    {
      "epoch": 0.12441524833283567,
      "grad_norm": 0.8182739615440369,
      "learning_rate": 9.377923758335823e-06,
      "loss": 0.4281,
      "step": 1250
    },
    {
      "epoch": 0.12541057031949837,
      "grad_norm": 0.5155394077301025,
      "learning_rate": 9.372947148402508e-06,
      "loss": 0.4312,
      "step": 1260
    },
    {
      "epoch": 0.12640589230616103,
      "grad_norm": 0.6190319657325745,
      "learning_rate": 9.367970538469196e-06,
      "loss": 0.4537,
      "step": 1270
    },
    {
      "epoch": 0.12740121429282372,
      "grad_norm": 0.7704219222068787,
      "learning_rate": 9.362993928535881e-06,
      "loss": 0.4873,
      "step": 1280
    },
    {
      "epoch": 0.1283965362794864,
      "grad_norm": 0.6395025849342346,
      "learning_rate": 9.358017318602569e-06,
      "loss": 0.4374,
      "step": 1290
    },
    {
      "epoch": 0.1293918582661491,
      "grad_norm": 0.9248729944229126,
      "learning_rate": 9.353040708669256e-06,
      "loss": 0.4183,
      "step": 1300
    },
    {
      "epoch": 0.1293918582661491,
      "eval_loss": 0.44450852274894714,
      "eval_runtime": 147.6747,
      "eval_samples_per_second": 1.375,
      "eval_steps_per_second": 0.691,
      "step": 1300
    },
    {
      "epoch": 0.1303871802528118,
      "grad_norm": 0.6703208088874817,
      "learning_rate": 9.348064098735942e-06,
      "loss": 0.4017,
      "step": 1310
    },
    {
      "epoch": 0.13138250223947448,
      "grad_norm": 0.7091432213783264,
      "learning_rate": 9.343087488802627e-06,
      "loss": 0.4858,
      "step": 1320
    },
    {
      "epoch": 0.13237782422613714,
      "grad_norm": 0.6519076824188232,
      "learning_rate": 9.338110878869316e-06,
      "loss": 0.402,
      "step": 1330
    },
    {
      "epoch": 0.13337314621279983,
      "grad_norm": 0.7192474603652954,
      "learning_rate": 9.333134268936002e-06,
      "loss": 0.4275,
      "step": 1340
    },
    {
      "epoch": 0.13436846819946252,
      "grad_norm": 0.626981794834137,
      "learning_rate": 9.328157659002687e-06,
      "loss": 0.4276,
      "step": 1350
    },
    {
      "epoch": 0.1353637901861252,
      "grad_norm": 0.8239569664001465,
      "learning_rate": 9.323181049069375e-06,
      "loss": 0.4384,
      "step": 1360
    },
    {
      "epoch": 0.1363591121727879,
      "grad_norm": 0.727737307548523,
      "learning_rate": 9.318204439136062e-06,
      "loss": 0.3892,
      "step": 1370
    },
    {
      "epoch": 0.1373544341594506,
      "grad_norm": 0.6430094242095947,
      "learning_rate": 9.313227829202748e-06,
      "loss": 0.3579,
      "step": 1380
    },
    {
      "epoch": 0.13834975614611328,
      "grad_norm": 0.7504476308822632,
      "learning_rate": 9.308251219269435e-06,
      "loss": 0.4585,
      "step": 1390
    },
    {
      "epoch": 0.13934507813277594,
      "grad_norm": 1.0239664316177368,
      "learning_rate": 9.303274609336122e-06,
      "loss": 0.4696,
      "step": 1400
    },
    {
      "epoch": 0.13934507813277594,
      "eval_loss": 0.43923673033714294,
      "eval_runtime": 147.7239,
      "eval_samples_per_second": 1.374,
      "eval_steps_per_second": 0.69,
      "step": 1400
    },
    {
      "epoch": 0.14034040011943863,
      "grad_norm": 0.6847706437110901,
      "learning_rate": 9.298297999402808e-06,
      "loss": 0.4823,
      "step": 1410
    },
    {
      "epoch": 0.14133572210610132,
      "grad_norm": 0.5733935832977295,
      "learning_rate": 9.293321389469493e-06,
      "loss": 0.4088,
      "step": 1420
    },
    {
      "epoch": 0.142331044092764,
      "grad_norm": 0.8858775496482849,
      "learning_rate": 9.28834477953618e-06,
      "loss": 0.3863,
      "step": 1430
    },
    {
      "epoch": 0.1433263660794267,
      "grad_norm": 0.6404774785041809,
      "learning_rate": 9.283368169602868e-06,
      "loss": 0.3951,
      "step": 1440
    },
    {
      "epoch": 0.1443216880660894,
      "grad_norm": 0.6125516891479492,
      "learning_rate": 9.278391559669554e-06,
      "loss": 0.4408,
      "step": 1450
    },
    {
      "epoch": 0.14531701005275208,
      "grad_norm": 0.5629742741584778,
      "learning_rate": 9.273414949736241e-06,
      "loss": 0.4319,
      "step": 1460
    },
    {
      "epoch": 0.14631233203941474,
      "grad_norm": 0.6768545508384705,
      "learning_rate": 9.268438339802927e-06,
      "loss": 0.4002,
      "step": 1470
    },
    {
      "epoch": 0.14730765402607743,
      "grad_norm": 0.6743785738945007,
      "learning_rate": 9.263461729869614e-06,
      "loss": 0.4779,
      "step": 1480
    },
    {
      "epoch": 0.14830297601274012,
      "grad_norm": 0.5943326354026794,
      "learning_rate": 9.2584851199363e-06,
      "loss": 0.4406,
      "step": 1490
    },
    {
      "epoch": 0.1492982979994028,
      "grad_norm": 0.8586482405662537,
      "learning_rate": 9.253508510002987e-06,
      "loss": 0.4326,
      "step": 1500
    },
    {
      "epoch": 0.1492982979994028,
      "eval_loss": 0.43489304184913635,
      "eval_runtime": 147.6747,
      "eval_samples_per_second": 1.375,
      "eval_steps_per_second": 0.691,
      "step": 1500
    },
    {
      "epoch": 0.1502936199860655,
      "grad_norm": 0.862763524055481,
      "learning_rate": 9.248531900069674e-06,
      "loss": 0.4917,
      "step": 1510
    },
    {
      "epoch": 0.15128894197272819,
      "grad_norm": 0.6556192636489868,
      "learning_rate": 9.24355529013636e-06,
      "loss": 0.4333,
      "step": 1520
    },
    {
      "epoch": 0.15228426395939088,
      "grad_norm": 0.5479542016983032,
      "learning_rate": 9.238578680203047e-06,
      "loss": 0.4176,
      "step": 1530
    },
    {
      "epoch": 0.15327958594605354,
      "grad_norm": 0.8119767308235168,
      "learning_rate": 9.233602070269733e-06,
      "loss": 0.4171,
      "step": 1540
    },
    {
      "epoch": 0.15427490793271623,
      "grad_norm": 0.9051875472068787,
      "learning_rate": 9.22862546033642e-06,
      "loss": 0.4529,
      "step": 1550
    },
    {
      "epoch": 0.15527022991937892,
      "grad_norm": 0.5972510576248169,
      "learning_rate": 9.223648850403106e-06,
      "loss": 0.4752,
      "step": 1560
    },
    {
      "epoch": 0.1562655519060416,
      "grad_norm": 0.6712588667869568,
      "learning_rate": 9.218672240469793e-06,
      "loss": 0.4179,
      "step": 1570
    },
    {
      "epoch": 0.1572608738927043,
      "grad_norm": 0.637656569480896,
      "learning_rate": 9.213695630536478e-06,
      "loss": 0.4624,
      "step": 1580
    },
    {
      "epoch": 0.15825619587936698,
      "grad_norm": 0.7319675087928772,
      "learning_rate": 9.208719020603166e-06,
      "loss": 0.4149,
      "step": 1590
    },
    {
      "epoch": 0.15925151786602967,
      "grad_norm": 0.6740835905075073,
      "learning_rate": 9.203742410669853e-06,
      "loss": 0.4348,
      "step": 1600
    },
    {
      "epoch": 0.15925151786602967,
      "eval_loss": 0.4290333390235901,
      "eval_runtime": 147.7478,
      "eval_samples_per_second": 1.374,
      "eval_steps_per_second": 0.69,
      "step": 1600
    },
    {
      "epoch": 0.16024683985269234,
      "grad_norm": 0.7110456824302673,
      "learning_rate": 9.198765800736539e-06,
      "loss": 0.3808,
      "step": 1610
    },
    {
      "epoch": 0.16124216183935502,
      "grad_norm": 0.6934688091278076,
      "learning_rate": 9.193789190803224e-06,
      "loss": 0.4279,
      "step": 1620
    },
    {
      "epoch": 0.16223748382601771,
      "grad_norm": 0.6783742308616638,
      "learning_rate": 9.188812580869912e-06,
      "loss": 0.413,
      "step": 1630
    },
    {
      "epoch": 0.1632328058126804,
      "grad_norm": 0.5934478044509888,
      "learning_rate": 9.183835970936599e-06,
      "loss": 0.476,
      "step": 1640
    },
    {
      "epoch": 0.1642281277993431,
      "grad_norm": 0.9043450951576233,
      "learning_rate": 9.178859361003285e-06,
      "loss": 0.392,
      "step": 1650
    },
    {
      "epoch": 0.16522344978600578,
      "grad_norm": 0.4757988154888153,
      "learning_rate": 9.173882751069972e-06,
      "loss": 0.3812,
      "step": 1660
    },
    {
      "epoch": 0.16621877177266844,
      "grad_norm": 0.7402971982955933,
      "learning_rate": 9.16890614113666e-06,
      "loss": 0.4293,
      "step": 1670
    },
    {
      "epoch": 0.16721409375933113,
      "grad_norm": 0.6279808282852173,
      "learning_rate": 9.163929531203345e-06,
      "loss": 0.4453,
      "step": 1680
    },
    {
      "epoch": 0.16820941574599382,
      "grad_norm": 0.6272904276847839,
      "learning_rate": 9.15895292127003e-06,
      "loss": 0.4215,
      "step": 1690
    },
    {
      "epoch": 0.1692047377326565,
      "grad_norm": 0.806103527545929,
      "learning_rate": 9.15397631133672e-06,
      "loss": 0.4236,
      "step": 1700
    },
    {
      "epoch": 0.1692047377326565,
      "eval_loss": 0.424538791179657,
      "eval_runtime": 147.6192,
      "eval_samples_per_second": 1.375,
      "eval_steps_per_second": 0.691,
      "step": 1700
    },
    {
      "epoch": 0.1702000597193192,
      "grad_norm": 0.7595136165618896,
      "learning_rate": 9.148999701403405e-06,
      "loss": 0.4473,
      "step": 1710
    },
    {
      "epoch": 0.1711953817059819,
      "grad_norm": 0.5029250979423523,
      "learning_rate": 9.14402309147009e-06,
      "loss": 0.4248,
      "step": 1720
    },
    {
      "epoch": 0.17219070369264458,
      "grad_norm": 0.7487345933914185,
      "learning_rate": 9.139046481536778e-06,
      "loss": 0.3795,
      "step": 1730
    },
    {
      "epoch": 0.17318602567930724,
      "grad_norm": 1.122206211090088,
      "learning_rate": 9.134069871603465e-06,
      "loss": 0.4026,
      "step": 1740
    },
    {
      "epoch": 0.17418134766596993,
      "grad_norm": 0.6429542899131775,
      "learning_rate": 9.129093261670151e-06,
      "loss": 0.4142,
      "step": 1750
    },
    {
      "epoch": 0.17517666965263262,
      "grad_norm": 0.7902116775512695,
      "learning_rate": 9.124116651736838e-06,
      "loss": 0.4266,
      "step": 1760
    },
    {
      "epoch": 0.1761719916392953,
      "grad_norm": 0.6928035020828247,
      "learning_rate": 9.119140041803524e-06,
      "loss": 0.4036,
      "step": 1770
    },
    {
      "epoch": 0.177167313625958,
      "grad_norm": 0.637829601764679,
      "learning_rate": 9.114163431870211e-06,
      "loss": 0.4139,
      "step": 1780
    },
    {
      "epoch": 0.1781626356126207,
      "grad_norm": 0.8418923616409302,
      "learning_rate": 9.109186821936897e-06,
      "loss": 0.4538,
      "step": 1790
    },
    {
      "epoch": 0.17915795759928338,
      "grad_norm": 0.6597120761871338,
      "learning_rate": 9.104210212003584e-06,
      "loss": 0.428,
      "step": 1800
    },
    {
      "epoch": 0.17915795759928338,
      "eval_loss": 0.4206041693687439,
      "eval_runtime": 147.6714,
      "eval_samples_per_second": 1.375,
      "eval_steps_per_second": 0.691,
      "step": 1800
    },
    {
      "epoch": 0.18015327958594604,
      "grad_norm": 0.9092034101486206,
      "learning_rate": 9.099233602070271e-06,
      "loss": 0.3827,
      "step": 1810
    },
    {
      "epoch": 0.18114860157260873,
      "grad_norm": 0.7151809334754944,
      "learning_rate": 9.094256992136957e-06,
      "loss": 0.4096,
      "step": 1820
    },
    {
      "epoch": 0.18214392355927142,
      "grad_norm": 0.812656819820404,
      "learning_rate": 9.089280382203644e-06,
      "loss": 0.398,
      "step": 1830
    },
    {
      "epoch": 0.1831392455459341,
      "grad_norm": 0.6819058060646057,
      "learning_rate": 9.08430377227033e-06,
      "loss": 0.4289,
      "step": 1840
    },
    {
      "epoch": 0.1841345675325968,
      "grad_norm": 0.6796212792396545,
      "learning_rate": 9.079327162337017e-06,
      "loss": 0.4107,
      "step": 1850
    },
    {
      "epoch": 0.1851298895192595,
      "grad_norm": 0.604881227016449,
      "learning_rate": 9.074350552403703e-06,
      "loss": 0.3888,
      "step": 1860
    },
    {
      "epoch": 0.18612521150592218,
      "grad_norm": 0.5823159217834473,
      "learning_rate": 9.06937394247039e-06,
      "loss": 0.4292,
      "step": 1870
    },
    {
      "epoch": 0.18712053349258484,
      "grad_norm": 0.6591698527336121,
      "learning_rate": 9.064397332537076e-06,
      "loss": 0.4559,
      "step": 1880
    },
    {
      "epoch": 0.18811585547924753,
      "grad_norm": 0.666591465473175,
      "learning_rate": 9.059420722603763e-06,
      "loss": 0.4486,
      "step": 1890
    },
    {
      "epoch": 0.18911117746591022,
      "grad_norm": 0.8700873255729675,
      "learning_rate": 9.05444411267045e-06,
      "loss": 0.3934,
      "step": 1900
    },
    {
      "epoch": 0.18911117746591022,
      "eval_loss": 0.41719409823417664,
      "eval_runtime": 147.6671,
      "eval_samples_per_second": 1.375,
      "eval_steps_per_second": 0.691,
      "step": 1900
    },
    {
      "epoch": 0.1901064994525729,
      "grad_norm": 0.5683835744857788,
      "learning_rate": 9.049467502737136e-06,
      "loss": 0.4148,
      "step": 1910
    },
    {
      "epoch": 0.1911018214392356,
      "grad_norm": 0.7323755621910095,
      "learning_rate": 9.044490892803823e-06,
      "loss": 0.4473,
      "step": 1920
    },
    {
      "epoch": 0.1920971434258983,
      "grad_norm": 0.8059419393539429,
      "learning_rate": 9.039514282870509e-06,
      "loss": 0.4092,
      "step": 1930
    },
    {
      "epoch": 0.19309246541256098,
      "grad_norm": 0.5238020420074463,
      "learning_rate": 9.034537672937196e-06,
      "loss": 0.4161,
      "step": 1940
    },
    {
      "epoch": 0.19408778739922364,
      "grad_norm": 0.7691717147827148,
      "learning_rate": 9.029561063003882e-06,
      "loss": 0.3996,
      "step": 1950
    },
    {
      "epoch": 0.19508310938588633,
      "grad_norm": 0.5275344848632812,
      "learning_rate": 9.024584453070569e-06,
      "loss": 0.3936,
      "step": 1960
    },
    {
      "epoch": 0.19607843137254902,
      "grad_norm": 0.9201516509056091,
      "learning_rate": 9.019607843137256e-06,
      "loss": 0.4327,
      "step": 1970
    },
    {
      "epoch": 0.1970737533592117,
      "grad_norm": 0.6645549535751343,
      "learning_rate": 9.014631233203942e-06,
      "loss": 0.439,
      "step": 1980
    },
    {
      "epoch": 0.1980690753458744,
      "grad_norm": 0.4919885993003845,
      "learning_rate": 9.009654623270628e-06,
      "loss": 0.3584,
      "step": 1990
    },
    {
      "epoch": 0.19906439733253709,
      "grad_norm": 0.7819716930389404,
      "learning_rate": 9.004678013337315e-06,
      "loss": 0.4258,
      "step": 2000
    },
    {
      "epoch": 0.19906439733253709,
      "eval_loss": 0.4135349690914154,
      "eval_runtime": 147.6676,
      "eval_samples_per_second": 1.375,
      "eval_steps_per_second": 0.691,
      "step": 2000
    },
    {
      "epoch": 0.20005971931919977,
      "grad_norm": 0.6763346195220947,
      "learning_rate": 8.999701403404002e-06,
      "loss": 0.3734,
      "step": 2010
    },
    {
      "epoch": 0.20105504130586244,
      "grad_norm": 0.974773108959198,
      "learning_rate": 8.994724793470688e-06,
      "loss": 0.4128,
      "step": 2020
    },
    {
      "epoch": 0.20205036329252513,
      "grad_norm": 0.7922454476356506,
      "learning_rate": 8.989748183537375e-06,
      "loss": 0.4699,
      "step": 2030
    },
    {
      "epoch": 0.20304568527918782,
      "grad_norm": 0.7217792272567749,
      "learning_rate": 8.984771573604062e-06,
      "loss": 0.4368,
      "step": 2040
    },
    {
      "epoch": 0.2040410072658505,
      "grad_norm": 0.9531657695770264,
      "learning_rate": 8.979794963670748e-06,
      "loss": 0.4124,
      "step": 2050
    },
    {
      "epoch": 0.2050363292525132,
      "grad_norm": 0.5895671248435974,
      "learning_rate": 8.974818353737434e-06,
      "loss": 0.4065,
      "step": 2060
    },
    {
      "epoch": 0.20603165123917588,
      "grad_norm": 0.6587451100349426,
      "learning_rate": 8.969841743804123e-06,
      "loss": 0.4182,
      "step": 2070
    },
    {
      "epoch": 0.20702697322583855,
      "grad_norm": 0.5056644678115845,
      "learning_rate": 8.964865133870808e-06,
      "loss": 0.4146,
      "step": 2080
    },
    {
      "epoch": 0.20802229521250123,
      "grad_norm": 0.8369359374046326,
      "learning_rate": 8.959888523937494e-06,
      "loss": 0.4258,
      "step": 2090
    },
    {
      "epoch": 0.20901761719916392,
      "grad_norm": 0.8079156279563904,
      "learning_rate": 8.954911914004181e-06,
      "loss": 0.4172,
      "step": 2100
    },
    {
      "epoch": 0.20901761719916392,
      "eval_loss": 0.40956470370292664,
      "eval_runtime": 147.7554,
      "eval_samples_per_second": 1.374,
      "eval_steps_per_second": 0.69,
      "step": 2100
    },
    {
      "epoch": 0.2100129391858266,
      "grad_norm": 0.5938236117362976,
      "learning_rate": 8.949935304070869e-06,
      "loss": 0.4058,
      "step": 2110
    },
    {
      "epoch": 0.2110082611724893,
      "grad_norm": 0.5103029608726501,
      "learning_rate": 8.944958694137554e-06,
      "loss": 0.3338,
      "step": 2120
    },
    {
      "epoch": 0.212003583159152,
      "grad_norm": 0.8399671316146851,
      "learning_rate": 8.939982084204241e-06,
      "loss": 0.4135,
      "step": 2130
    },
    {
      "epoch": 0.21299890514581468,
      "grad_norm": 0.8162589073181152,
      "learning_rate": 8.935005474270927e-06,
      "loss": 0.379,
      "step": 2140
    },
    {
      "epoch": 0.21399422713247734,
      "grad_norm": 0.5345713496208191,
      "learning_rate": 8.930028864337614e-06,
      "loss": 0.4356,
      "step": 2150
    },
    {
      "epoch": 0.21498954911914003,
      "grad_norm": 0.5709038972854614,
      "learning_rate": 8.9250522544043e-06,
      "loss": 0.3961,
      "step": 2160
    },
    {
      "epoch": 0.21598487110580272,
      "grad_norm": 0.8017010688781738,
      "learning_rate": 8.920075644470987e-06,
      "loss": 0.3934,
      "step": 2170
    },
    {
      "epoch": 0.2169801930924654,
      "grad_norm": 0.7133475542068481,
      "learning_rate": 8.915099034537673e-06,
      "loss": 0.386,
      "step": 2180
    },
    {
      "epoch": 0.2179755150791281,
      "grad_norm": 0.861768901348114,
      "learning_rate": 8.91012242460436e-06,
      "loss": 0.3981,
      "step": 2190
    },
    {
      "epoch": 0.2189708370657908,
      "grad_norm": 0.6387837529182434,
      "learning_rate": 8.905145814671047e-06,
      "loss": 0.4277,
      "step": 2200
    },
    {
      "epoch": 0.2189708370657908,
      "eval_loss": 0.40670302510261536,
      "eval_runtime": 147.76,
      "eval_samples_per_second": 1.374,
      "eval_steps_per_second": 0.69,
      "step": 2200
    },
    {
      "epoch": 0.21996615905245348,
      "grad_norm": 0.9591347575187683,
      "learning_rate": 8.900169204737733e-06,
      "loss": 0.3809,
      "step": 2210
    },
    {
      "epoch": 0.22096148103911614,
      "grad_norm": 0.6483083963394165,
      "learning_rate": 8.89519259480442e-06,
      "loss": 0.4071,
      "step": 2220
    },
    {
      "epoch": 0.22195680302577883,
      "grad_norm": 1.0261069536209106,
      "learning_rate": 8.890215984871106e-06,
      "loss": 0.4145,
      "step": 2230
    },
    {
      "epoch": 0.22295212501244152,
      "grad_norm": 0.6538086533546448,
      "learning_rate": 8.885239374937793e-06,
      "loss": 0.4322,
      "step": 2240
    },
    {
      "epoch": 0.2239474469991042,
      "grad_norm": 0.4469331204891205,
      "learning_rate": 8.880262765004479e-06,
      "loss": 0.4052,
      "step": 2250
    },
    {
      "epoch": 0.2249427689857669,
      "grad_norm": 0.5114856958389282,
      "learning_rate": 8.875286155071166e-06,
      "loss": 0.4143,
      "step": 2260
    },
    {
      "epoch": 0.2259380909724296,
      "grad_norm": 0.7658188343048096,
      "learning_rate": 8.870309545137854e-06,
      "loss": 0.4345,
      "step": 2270
    },
    {
      "epoch": 0.22693341295909228,
      "grad_norm": 0.6381837725639343,
      "learning_rate": 8.86533293520454e-06,
      "loss": 0.3868,
      "step": 2280
    },
    {
      "epoch": 0.22792873494575494,
      "grad_norm": 0.5213243961334229,
      "learning_rate": 8.860356325271225e-06,
      "loss": 0.3849,
      "step": 2290
    },
    {
      "epoch": 0.22892405693241763,
      "grad_norm": 0.7393907904624939,
      "learning_rate": 8.855379715337912e-06,
      "loss": 0.4282,
      "step": 2300
    },
    {
      "epoch": 0.22892405693241763,
      "eval_loss": 0.4041208326816559,
      "eval_runtime": 147.7723,
      "eval_samples_per_second": 1.374,
      "eval_steps_per_second": 0.69,
      "step": 2300
    },
    {
      "epoch": 0.22991937891908032,
      "grad_norm": 0.5622240304946899,
      "learning_rate": 8.8504031054046e-06,
      "loss": 0.3818,
      "step": 2310
    },
    {
      "epoch": 0.230914700905743,
      "grad_norm": 0.7211191654205322,
      "learning_rate": 8.845426495471285e-06,
      "loss": 0.3596,
      "step": 2320
    },
    {
      "epoch": 0.2319100228924057,
      "grad_norm": 0.5431678295135498,
      "learning_rate": 8.840449885537972e-06,
      "loss": 0.3645,
      "step": 2330
    },
    {
      "epoch": 0.2329053448790684,
      "grad_norm": 1.0264047384262085,
      "learning_rate": 8.83547327560466e-06,
      "loss": 0.4152,
      "step": 2340
    },
    {
      "epoch": 0.23390066686573108,
      "grad_norm": 0.6439436078071594,
      "learning_rate": 8.830496665671345e-06,
      "loss": 0.4169,
      "step": 2350
    },
    {
      "epoch": 0.23489598885239374,
      "grad_norm": 0.6291099786758423,
      "learning_rate": 8.825520055738031e-06,
      "loss": 0.4246,
      "step": 2360
    },
    {
      "epoch": 0.23589131083905643,
      "grad_norm": 0.5020752549171448,
      "learning_rate": 8.820543445804718e-06,
      "loss": 0.3649,
      "step": 2370
    },
    {
      "epoch": 0.23688663282571912,
      "grad_norm": 0.5813655257225037,
      "learning_rate": 8.815566835871405e-06,
      "loss": 0.403,
      "step": 2380
    },
    {
      "epoch": 0.2378819548123818,
      "grad_norm": 0.7793263792991638,
      "learning_rate": 8.810590225938091e-06,
      "loss": 0.4044,
      "step": 2390
    },
    {
      "epoch": 0.2388772767990445,
      "grad_norm": 1.0214496850967407,
      "learning_rate": 8.805613616004778e-06,
      "loss": 0.3804,
      "step": 2400
    },
    {
      "epoch": 0.2388772767990445,
      "eval_loss": 0.4011123776435852,
      "eval_runtime": 147.7863,
      "eval_samples_per_second": 1.374,
      "eval_steps_per_second": 0.69,
      "step": 2400
    },
    {
      "epoch": 0.2398725987857072,
      "grad_norm": 0.8854981064796448,
      "learning_rate": 8.800637006071466e-06,
      "loss": 0.3915,
      "step": 2410
    },
    {
      "epoch": 0.24086792077236985,
      "grad_norm": 0.6463388800621033,
      "learning_rate": 8.795660396138151e-06,
      "loss": 0.412,
      "step": 2420
    },
    {
      "epoch": 0.24186324275903254,
      "grad_norm": 1.0134918689727783,
      "learning_rate": 8.790683786204837e-06,
      "loss": 0.4514,
      "step": 2430
    },
    {
      "epoch": 0.24285856474569523,
      "grad_norm": 0.5260724425315857,
      "learning_rate": 8.785707176271524e-06,
      "loss": 0.393,
      "step": 2440
    },
    {
      "epoch": 0.24385388673235792,
      "grad_norm": 0.7072359323501587,
      "learning_rate": 8.780730566338212e-06,
      "loss": 0.4061,
      "step": 2450
    },
    {
      "epoch": 0.2448492087190206,
      "grad_norm": 0.505009114742279,
      "learning_rate": 8.775753956404897e-06,
      "loss": 0.4435,
      "step": 2460
    },
    {
      "epoch": 0.2458445307056833,
      "grad_norm": 0.707790195941925,
      "learning_rate": 8.770777346471584e-06,
      "loss": 0.3803,
      "step": 2470
    },
    {
      "epoch": 0.24683985269234598,
      "grad_norm": 1.0153621435165405,
      "learning_rate": 8.765800736538272e-06,
      "loss": 0.3942,
      "step": 2480
    },
    {
      "epoch": 0.24783517467900865,
      "grad_norm": 0.6652597188949585,
      "learning_rate": 8.760824126604957e-06,
      "loss": 0.3481,
      "step": 2490
    },
    {
      "epoch": 0.24883049666567134,
      "grad_norm": 0.49689826369285583,
      "learning_rate": 8.755847516671645e-06,
      "loss": 0.4101,
      "step": 2500
    },
    {
      "epoch": 0.24883049666567134,
      "eval_loss": 0.39822638034820557,
      "eval_runtime": 147.9245,
      "eval_samples_per_second": 1.372,
      "eval_steps_per_second": 0.69,
      "step": 2500
    },
    {
      "epoch": 0.24982581865233403,
      "grad_norm": 0.7141602635383606,
      "learning_rate": 8.75087090673833e-06,
      "loss": 0.362,
      "step": 2510
    },
    {
      "epoch": 0.25082114063899674,
      "grad_norm": 0.5883095264434814,
      "learning_rate": 8.745894296805018e-06,
      "loss": 0.4115,
      "step": 2520
    },
    {
      "epoch": 0.2518164626256594,
      "grad_norm": 0.6165831685066223,
      "learning_rate": 8.740917686871703e-06,
      "loss": 0.3849,
      "step": 2530
    },
    {
      "epoch": 0.25281178461232207,
      "grad_norm": 0.5670954585075378,
      "learning_rate": 8.73594107693839e-06,
      "loss": 0.3491,
      "step": 2540
    },
    {
      "epoch": 0.25380710659898476,
      "grad_norm": 1.0700769424438477,
      "learning_rate": 8.730964467005076e-06,
      "loss": 0.4068,
      "step": 2550
    },
    {
      "epoch": 0.25480242858564744,
      "grad_norm": 0.7089443206787109,
      "learning_rate": 8.725987857071763e-06,
      "loss": 0.4567,
      "step": 2560
    },
    {
      "epoch": 0.25579775057231013,
      "grad_norm": 0.5670477747917175,
      "learning_rate": 8.72101124713845e-06,
      "loss": 0.4037,
      "step": 2570
    },
    {
      "epoch": 0.2567930725589728,
      "grad_norm": 0.6892909407615662,
      "learning_rate": 8.716034637205136e-06,
      "loss": 0.3714,
      "step": 2580
    },
    {
      "epoch": 0.2577883945456355,
      "grad_norm": 0.8213964104652405,
      "learning_rate": 8.711058027271822e-06,
      "loss": 0.4305,
      "step": 2590
    },
    {
      "epoch": 0.2587837165322982,
      "grad_norm": 0.7234606146812439,
      "learning_rate": 8.70608141733851e-06,
      "loss": 0.4213,
      "step": 2600
    },
    {
      "epoch": 0.2587837165322982,
      "eval_loss": 0.39483293890953064,
      "eval_runtime": 147.915,
      "eval_samples_per_second": 1.372,
      "eval_steps_per_second": 0.69,
      "step": 2600
    },
    {
      "epoch": 0.2597790385189609,
      "grad_norm": 0.6947128176689148,
      "learning_rate": 8.701104807405197e-06,
      "loss": 0.3851,
      "step": 2610
    },
    {
      "epoch": 0.2607743605056236,
      "grad_norm": 0.8997359275817871,
      "learning_rate": 8.696128197471882e-06,
      "loss": 0.379,
      "step": 2620
    },
    {
      "epoch": 0.26176968249228627,
      "grad_norm": 0.8184422254562378,
      "learning_rate": 8.69115158753857e-06,
      "loss": 0.3615,
      "step": 2630
    },
    {
      "epoch": 0.26276500447894896,
      "grad_norm": 0.7109666466712952,
      "learning_rate": 8.686174977605257e-06,
      "loss": 0.4233,
      "step": 2640
    },
    {
      "epoch": 0.26376032646561165,
      "grad_norm": 0.6844655275344849,
      "learning_rate": 8.681198367671942e-06,
      "loss": 0.4142,
      "step": 2650
    },
    {
      "epoch": 0.2647556484522743,
      "grad_norm": 0.8344716429710388,
      "learning_rate": 8.676221757738628e-06,
      "loss": 0.3611,
      "step": 2660
    },
    {
      "epoch": 0.265750970438937,
      "grad_norm": 0.7269201278686523,
      "learning_rate": 8.671245147805315e-06,
      "loss": 0.4397,
      "step": 2670
    },
    {
      "epoch": 0.26674629242559966,
      "grad_norm": 0.5457523465156555,
      "learning_rate": 8.666268537872003e-06,
      "loss": 0.3724,
      "step": 2680
    },
    {
      "epoch": 0.26774161441226235,
      "grad_norm": 0.7520753145217896,
      "learning_rate": 8.661291927938688e-06,
      "loss": 0.3882,
      "step": 2690
    },
    {
      "epoch": 0.26873693639892504,
      "grad_norm": 0.49623236060142517,
      "learning_rate": 8.656315318005376e-06,
      "loss": 0.4115,
      "step": 2700
    },
    {
      "epoch": 0.26873693639892504,
      "eval_loss": 0.39236727356910706,
      "eval_runtime": 147.7377,
      "eval_samples_per_second": 1.374,
      "eval_steps_per_second": 0.69,
      "step": 2700
    },
    {
      "epoch": 0.26973225838558773,
      "grad_norm": 0.6592463254928589,
      "learning_rate": 8.651338708072063e-06,
      "loss": 0.3628,
      "step": 2710
    },
    {
      "epoch": 0.2707275803722504,
      "grad_norm": 0.9473317265510559,
      "learning_rate": 8.646362098138749e-06,
      "loss": 0.3842,
      "step": 2720
    },
    {
      "epoch": 0.2717229023589131,
      "grad_norm": 0.7774178385734558,
      "learning_rate": 8.641385488205434e-06,
      "loss": 0.3643,
      "step": 2730
    },
    {
      "epoch": 0.2727182243455758,
      "grad_norm": 0.6194160580635071,
      "learning_rate": 8.636408878272121e-06,
      "loss": 0.4647,
      "step": 2740
    },
    {
      "epoch": 0.2737135463322385,
      "grad_norm": 0.5518766641616821,
      "learning_rate": 8.631432268338809e-06,
      "loss": 0.3755,
      "step": 2750
    },
    {
      "epoch": 0.2747088683189012,
      "grad_norm": 0.9331585764884949,
      "learning_rate": 8.626455658405494e-06,
      "loss": 0.3881,
      "step": 2760
    },
    {
      "epoch": 0.27570419030556387,
      "grad_norm": 0.6080964207649231,
      "learning_rate": 8.621479048472182e-06,
      "loss": 0.3965,
      "step": 2770
    },
    {
      "epoch": 0.27669951229222656,
      "grad_norm": 0.8619922399520874,
      "learning_rate": 8.616502438538869e-06,
      "loss": 0.387,
      "step": 2780
    },
    {
      "epoch": 0.27769483427888925,
      "grad_norm": 0.7429324984550476,
      "learning_rate": 8.611525828605555e-06,
      "loss": 0.3837,
      "step": 2790
    },
    {
      "epoch": 0.2786901562655519,
      "grad_norm": 0.7918853759765625,
      "learning_rate": 8.60654921867224e-06,
      "loss": 0.3921,
      "step": 2800
    },
    {
      "epoch": 0.2786901562655519,
      "eval_loss": 0.3901057541370392,
      "eval_runtime": 147.7809,
      "eval_samples_per_second": 1.374,
      "eval_steps_per_second": 0.69,
      "step": 2800
    },
    {
      "epoch": 0.27968547825221457,
      "grad_norm": 0.6200188398361206,
      "learning_rate": 8.601572608738928e-06,
      "loss": 0.398,
      "step": 2810
    },
    {
      "epoch": 0.28068080023887726,
      "grad_norm": 0.6285167336463928,
      "learning_rate": 8.596595998805615e-06,
      "loss": 0.3676,
      "step": 2820
    },
    {
      "epoch": 0.28167612222553995,
      "grad_norm": 0.7586702704429626,
      "learning_rate": 8.5916193888723e-06,
      "loss": 0.3658,
      "step": 2830
    },
    {
      "epoch": 0.28267144421220264,
      "grad_norm": 0.915360152721405,
      "learning_rate": 8.586642778938988e-06,
      "loss": 0.3444,
      "step": 2840
    },
    {
      "epoch": 0.2836667661988653,
      "grad_norm": 0.8675612807273865,
      "learning_rate": 8.581666169005673e-06,
      "loss": 0.3939,
      "step": 2850
    },
    {
      "epoch": 0.284662088185528,
      "grad_norm": 0.8629066944122314,
      "learning_rate": 8.57668955907236e-06,
      "loss": 0.4055,
      "step": 2860
    },
    {
      "epoch": 0.2856574101721907,
      "grad_norm": 0.8615571856498718,
      "learning_rate": 8.571712949139048e-06,
      "loss": 0.4392,
      "step": 2870
    },
    {
      "epoch": 0.2866527321588534,
      "grad_norm": 0.675205409526825,
      "learning_rate": 8.566736339205734e-06,
      "loss": 0.3289,
      "step": 2880
    },
    {
      "epoch": 0.2876480541455161,
      "grad_norm": 0.6187378764152527,
      "learning_rate": 8.561759729272421e-06,
      "loss": 0.4067,
      "step": 2890
    },
    {
      "epoch": 0.2886433761321788,
      "grad_norm": 0.7826117277145386,
      "learning_rate": 8.556783119339106e-06,
      "loss": 0.367,
      "step": 2900
    },
    {
      "epoch": 0.2886433761321788,
      "eval_loss": 0.38809624314308167,
      "eval_runtime": 147.8617,
      "eval_samples_per_second": 1.373,
      "eval_steps_per_second": 0.69,
      "step": 2900
    },
    {
      "epoch": 0.28963869811884146,
      "grad_norm": 0.6546410322189331,
      "learning_rate": 8.551806509405794e-06,
      "loss": 0.3727,
      "step": 2910
    },
    {
      "epoch": 0.29063402010550415,
      "grad_norm": 0.8760982155799866,
      "learning_rate": 8.54682989947248e-06,
      "loss": 0.3967,
      "step": 2920
    },
    {
      "epoch": 0.29162934209216684,
      "grad_norm": 0.64844810962677,
      "learning_rate": 8.541853289539167e-06,
      "loss": 0.4046,
      "step": 2930
    },
    {
      "epoch": 0.2926246640788295,
      "grad_norm": 0.5126065015792847,
      "learning_rate": 8.536876679605854e-06,
      "loss": 0.3783,
      "step": 2940
    },
    {
      "epoch": 0.29361998606549217,
      "grad_norm": 0.7168049216270447,
      "learning_rate": 8.53190006967254e-06,
      "loss": 0.3606,
      "step": 2950
    },
    {
      "epoch": 0.29461530805215486,
      "grad_norm": 0.4847118854522705,
      "learning_rate": 8.526923459739225e-06,
      "loss": 0.3617,
      "step": 2960
    },
    {
      "epoch": 0.29561063003881755,
      "grad_norm": 0.6937541365623474,
      "learning_rate": 8.521946849805913e-06,
      "loss": 0.3878,
      "step": 2970
    },
    {
      "epoch": 0.29660595202548024,
      "grad_norm": 0.7482075095176697,
      "learning_rate": 8.5169702398726e-06,
      "loss": 0.4173,
      "step": 2980
    },
    {
      "epoch": 0.2976012740121429,
      "grad_norm": 0.7130847573280334,
      "learning_rate": 8.511993629939285e-06,
      "loss": 0.3717,
      "step": 2990
    },
    {
      "epoch": 0.2985965959988056,
      "grad_norm": 0.7087443470954895,
      "learning_rate": 8.507017020005973e-06,
      "loss": 0.3945,
      "step": 3000
    },
    {
      "epoch": 0.2985965959988056,
      "eval_loss": 0.3846234977245331,
      "eval_runtime": 147.9506,
      "eval_samples_per_second": 1.372,
      "eval_steps_per_second": 0.689,
      "step": 3000
    },
    {
      "epoch": 0.2995919179854683,
      "grad_norm": 0.5839470624923706,
      "learning_rate": 8.50204041007266e-06,
      "loss": 0.3672,
      "step": 3010
    },
    {
      "epoch": 0.300587239972131,
      "grad_norm": 0.5632269978523254,
      "learning_rate": 8.497063800139346e-06,
      "loss": 0.4038,
      "step": 3020
    },
    {
      "epoch": 0.3015825619587937,
      "grad_norm": 0.9807242155075073,
      "learning_rate": 8.492087190206031e-06,
      "loss": 0.435,
      "step": 3030
    },
    {
      "epoch": 0.30257788394545637,
      "grad_norm": 0.6134958267211914,
      "learning_rate": 8.487110580272719e-06,
      "loss": 0.3857,
      "step": 3040
    },
    {
      "epoch": 0.30357320593211906,
      "grad_norm": 0.9714884757995605,
      "learning_rate": 8.482133970339406e-06,
      "loss": 0.3375,
      "step": 3050
    },
    {
      "epoch": 0.30456852791878175,
      "grad_norm": 0.6158900856971741,
      "learning_rate": 8.477157360406092e-06,
      "loss": 0.3768,
      "step": 3060
    },
    {
      "epoch": 0.3055638499054444,
      "grad_norm": 0.5510846376419067,
      "learning_rate": 8.472180750472779e-06,
      "loss": 0.3618,
      "step": 3070
    },
    {
      "epoch": 0.3065591718921071,
      "grad_norm": 0.6374019384384155,
      "learning_rate": 8.467204140539466e-06,
      "loss": 0.3444,
      "step": 3080
    },
    {
      "epoch": 0.30755449387876976,
      "grad_norm": 0.6322264075279236,
      "learning_rate": 8.462227530606152e-06,
      "loss": 0.3841,
      "step": 3090
    },
    {
      "epoch": 0.30854981586543245,
      "grad_norm": 0.6326218843460083,
      "learning_rate": 8.457250920672837e-06,
      "loss": 0.3627,
      "step": 3100
    },
    {
      "epoch": 0.30854981586543245,
      "eval_loss": 0.38287338614463806,
      "eval_runtime": 147.987,
      "eval_samples_per_second": 1.372,
      "eval_steps_per_second": 0.689,
      "step": 3100
    },
    {
      "epoch": 0.30954513785209514,
      "grad_norm": 0.8483834862709045,
      "learning_rate": 8.452274310739525e-06,
      "loss": 0.4364,
      "step": 3110
    },
    {
      "epoch": 0.31054045983875783,
      "grad_norm": 0.9434365034103394,
      "learning_rate": 8.447297700806212e-06,
      "loss": 0.4027,
      "step": 3120
    },
    {
      "epoch": 0.3115357818254205,
      "grad_norm": 0.7766565680503845,
      "learning_rate": 8.442321090872898e-06,
      "loss": 0.3241,
      "step": 3130
    },
    {
      "epoch": 0.3125311038120832,
      "grad_norm": 0.7761719822883606,
      "learning_rate": 8.437344480939585e-06,
      "loss": 0.4041,
      "step": 3140
    },
    {
      "epoch": 0.3135264257987459,
      "grad_norm": 0.8227534890174866,
      "learning_rate": 8.432367871006272e-06,
      "loss": 0.3915,
      "step": 3150
    },
    {
      "epoch": 0.3145217477854086,
      "grad_norm": 0.6961987614631653,
      "learning_rate": 8.427391261072958e-06,
      "loss": 0.4119,
      "step": 3160
    },
    {
      "epoch": 0.3155170697720713,
      "grad_norm": 0.725043773651123,
      "learning_rate": 8.422414651139643e-06,
      "loss": 0.3811,
      "step": 3170
    },
    {
      "epoch": 0.31651239175873397,
      "grad_norm": 0.6801613569259644,
      "learning_rate": 8.41743804120633e-06,
      "loss": 0.3752,
      "step": 3180
    },
    {
      "epoch": 0.31750771374539666,
      "grad_norm": 0.6735227108001709,
      "learning_rate": 8.412461431273018e-06,
      "loss": 0.3538,
      "step": 3190
    },
    {
      "epoch": 0.31850303573205935,
      "grad_norm": 0.7424077391624451,
      "learning_rate": 8.407484821339704e-06,
      "loss": 0.3347,
      "step": 3200
    },
    {
      "epoch": 0.31850303573205935,
      "eval_loss": 0.38142284750938416,
      "eval_runtime": 148.3323,
      "eval_samples_per_second": 1.369,
      "eval_steps_per_second": 0.688,
      "step": 3200
    },
    {
      "epoch": 0.319498357718722,
      "grad_norm": 0.6526059508323669,
      "learning_rate": 8.402508211406391e-06,
      "loss": 0.4098,
      "step": 3210
    },
    {
      "epoch": 0.32049367970538467,
      "grad_norm": 0.8221137523651123,
      "learning_rate": 8.397531601473077e-06,
      "loss": 0.4044,
      "step": 3220
    },
    {
      "epoch": 0.32148900169204736,
      "grad_norm": 0.7967231869697571,
      "learning_rate": 8.392554991539764e-06,
      "loss": 0.3989,
      "step": 3230
    },
    {
      "epoch": 0.32248432367871005,
      "grad_norm": 0.8786621689796448,
      "learning_rate": 8.387578381606451e-06,
      "loss": 0.3113,
      "step": 3240
    },
    {
      "epoch": 0.32347964566537274,
      "grad_norm": 1.084957480430603,
      "learning_rate": 8.382601771673137e-06,
      "loss": 0.3855,
      "step": 3250
    },
    {
      "epoch": 0.32447496765203543,
      "grad_norm": 0.6978799104690552,
      "learning_rate": 8.377625161739822e-06,
      "loss": 0.3752,
      "step": 3260
    },
    {
      "epoch": 0.3254702896386981,
      "grad_norm": 0.6280369162559509,
      "learning_rate": 8.37264855180651e-06,
      "loss": 0.3831,
      "step": 3270
    },
    {
      "epoch": 0.3264656116253608,
      "grad_norm": 0.5700563192367554,
      "learning_rate": 8.367671941873197e-06,
      "loss": 0.3848,
      "step": 3280
    },
    {
      "epoch": 0.3274609336120235,
      "grad_norm": 0.6714605093002319,
      "learning_rate": 8.362695331939883e-06,
      "loss": 0.3894,
      "step": 3290
    },
    {
      "epoch": 0.3284562555986862,
      "grad_norm": 0.6634580492973328,
      "learning_rate": 8.35771872200657e-06,
      "loss": 0.4055,
      "step": 3300
    },
    {
      "epoch": 0.3284562555986862,
      "eval_loss": 0.3794529438018799,
      "eval_runtime": 147.906,
      "eval_samples_per_second": 1.372,
      "eval_steps_per_second": 0.69,
      "step": 3300
    },
    {
      "epoch": 0.3294515775853489,
      "grad_norm": 0.6699293255805969,
      "learning_rate": 8.352742112073257e-06,
      "loss": 0.3997,
      "step": 3310
    },
    {
      "epoch": 0.33044689957201157,
      "grad_norm": 0.5837434530258179,
      "learning_rate": 8.347765502139943e-06,
      "loss": 0.3506,
      "step": 3320
    },
    {
      "epoch": 0.33144222155867425,
      "grad_norm": 0.7900473475456238,
      "learning_rate": 8.342788892206629e-06,
      "loss": 0.3712,
      "step": 3330
    },
    {
      "epoch": 0.3324375435453369,
      "grad_norm": 0.5419691205024719,
      "learning_rate": 8.337812282273316e-06,
      "loss": 0.3755,
      "step": 3340
    },
    {
      "epoch": 0.3334328655319996,
      "grad_norm": 0.635683536529541,
      "learning_rate": 8.332835672340003e-06,
      "loss": 0.3995,
      "step": 3350
    },
    {
      "epoch": 0.33442818751866227,
      "grad_norm": 0.7266948223114014,
      "learning_rate": 8.327859062406689e-06,
      "loss": 0.398,
      "step": 3360
    },
    {
      "epoch": 0.33542350950532496,
      "grad_norm": 0.8439323902130127,
      "learning_rate": 8.322882452473376e-06,
      "loss": 0.4093,
      "step": 3370
    },
    {
      "epoch": 0.33641883149198765,
      "grad_norm": 0.6754797697067261,
      "learning_rate": 8.317905842540063e-06,
      "loss": 0.3638,
      "step": 3380
    },
    {
      "epoch": 0.33741415347865034,
      "grad_norm": 0.7690572142601013,
      "learning_rate": 8.312929232606749e-06,
      "loss": 0.3408,
      "step": 3390
    },
    {
      "epoch": 0.338409475465313,
      "grad_norm": 0.765877902507782,
      "learning_rate": 8.307952622673435e-06,
      "loss": 0.3418,
      "step": 3400
    },
    {
      "epoch": 0.338409475465313,
      "eval_loss": 0.37782156467437744,
      "eval_runtime": 147.8891,
      "eval_samples_per_second": 1.373,
      "eval_steps_per_second": 0.69,
      "step": 3400
    },
    {
      "epoch": 0.3394047974519757,
      "grad_norm": 0.7344104051589966,
      "learning_rate": 8.302976012740122e-06,
      "loss": 0.3443,
      "step": 3410
    },
    {
      "epoch": 0.3404001194386384,
      "grad_norm": 1.0199452638626099,
      "learning_rate": 8.29799940280681e-06,
      "loss": 0.4294,
      "step": 3420
    },
    {
      "epoch": 0.3413954414253011,
      "grad_norm": 0.5666326880455017,
      "learning_rate": 8.293022792873495e-06,
      "loss": 0.3274,
      "step": 3430
    },
    {
      "epoch": 0.3423907634119638,
      "grad_norm": 0.8385756611824036,
      "learning_rate": 8.288046182940182e-06,
      "loss": 0.4122,
      "step": 3440
    },
    {
      "epoch": 0.3433860853986265,
      "grad_norm": 0.777019739151001,
      "learning_rate": 8.28306957300687e-06,
      "loss": 0.4089,
      "step": 3450
    },
    {
      "epoch": 0.34438140738528916,
      "grad_norm": 0.682658851146698,
      "learning_rate": 8.278092963073555e-06,
      "loss": 0.3772,
      "step": 3460
    },
    {
      "epoch": 0.34537672937195185,
      "grad_norm": 0.6811783313751221,
      "learning_rate": 8.27311635314024e-06,
      "loss": 0.3523,
      "step": 3470
    },
    {
      "epoch": 0.3463720513586145,
      "grad_norm": 0.9056878685951233,
      "learning_rate": 8.268139743206928e-06,
      "loss": 0.3292,
      "step": 3480
    },
    {
      "epoch": 0.3473673733452772,
      "grad_norm": 0.6763057708740234,
      "learning_rate": 8.263163133273615e-06,
      "loss": 0.3326,
      "step": 3490
    },
    {
      "epoch": 0.34836269533193986,
      "grad_norm": 0.8847700953483582,
      "learning_rate": 8.258186523340301e-06,
      "loss": 0.4062,
      "step": 3500
    },
    {
      "epoch": 0.34836269533193986,
      "eval_loss": 0.37572577595710754,
      "eval_runtime": 147.9751,
      "eval_samples_per_second": 1.372,
      "eval_steps_per_second": 0.689,
      "step": 3500
    },
    {
      "epoch": 0.34935801731860255,
      "grad_norm": 0.7903834581375122,
      "learning_rate": 8.253209913406988e-06,
      "loss": 0.3546,
      "step": 3510
    },
    {
      "epoch": 0.35035333930526524,
      "grad_norm": 0.6501933336257935,
      "learning_rate": 8.248233303473674e-06,
      "loss": 0.3909,
      "step": 3520
    },
    {
      "epoch": 0.35134866129192793,
      "grad_norm": 0.6443967819213867,
      "learning_rate": 8.243256693540361e-06,
      "loss": 0.3315,
      "step": 3530
    },
    {
      "epoch": 0.3523439832785906,
      "grad_norm": 0.7020339965820312,
      "learning_rate": 8.238280083607047e-06,
      "loss": 0.383,
      "step": 3540
    },
    {
      "epoch": 0.3533393052652533,
      "grad_norm": 0.8711917400360107,
      "learning_rate": 8.233303473673734e-06,
      "loss": 0.3771,
      "step": 3550
    },
    {
      "epoch": 0.354334627251916,
      "grad_norm": 0.788311243057251,
      "learning_rate": 8.228326863740421e-06,
      "loss": 0.3299,
      "step": 3560
    },
    {
      "epoch": 0.3553299492385787,
      "grad_norm": 0.43669214844703674,
      "learning_rate": 8.223350253807107e-06,
      "loss": 0.3659,
      "step": 3570
    },
    {
      "epoch": 0.3563252712252414,
      "grad_norm": 0.550014078617096,
      "learning_rate": 8.218373643873794e-06,
      "loss": 0.3586,
      "step": 3580
    },
    {
      "epoch": 0.35732059321190407,
      "grad_norm": 0.9948114156723022,
      "learning_rate": 8.21339703394048e-06,
      "loss": 0.3743,
      "step": 3590
    },
    {
      "epoch": 0.35831591519856676,
      "grad_norm": 0.6710416078567505,
      "learning_rate": 8.208420424007167e-06,
      "loss": 0.3724,
      "step": 3600
    },
    {
      "epoch": 0.35831591519856676,
      "eval_loss": 0.37383729219436646,
      "eval_runtime": 147.9999,
      "eval_samples_per_second": 1.372,
      "eval_steps_per_second": 0.689,
      "step": 3600
    },
    {
      "epoch": 0.35931123718522945,
      "grad_norm": 0.7629538774490356,
      "learning_rate": 8.203443814073854e-06,
      "loss": 0.3942,
      "step": 3610
    },
    {
      "epoch": 0.3603065591718921,
      "grad_norm": 0.7567903399467468,
      "learning_rate": 8.19846720414054e-06,
      "loss": 0.3895,
      "step": 3620
    },
    {
      "epoch": 0.36130188115855477,
      "grad_norm": 0.5209780335426331,
      "learning_rate": 8.193490594207226e-06,
      "loss": 0.3395,
      "step": 3630
    },
    {
      "epoch": 0.36229720314521746,
      "grad_norm": 0.5655366778373718,
      "learning_rate": 8.188513984273913e-06,
      "loss": 0.3435,
      "step": 3640
    },
    {
      "epoch": 0.36329252513188015,
      "grad_norm": 0.8822707533836365,
      "learning_rate": 8.1835373743406e-06,
      "loss": 0.3442,
      "step": 3650
    },
    {
      "epoch": 0.36428784711854284,
      "grad_norm": 0.6264866590499878,
      "learning_rate": 8.178560764407286e-06,
      "loss": 0.3902,
      "step": 3660
    },
    {
      "epoch": 0.36528316910520553,
      "grad_norm": 0.6163113713264465,
      "learning_rate": 8.173584154473973e-06,
      "loss": 0.301,
      "step": 3670
    },
    {
      "epoch": 0.3662784910918682,
      "grad_norm": 0.7627054452896118,
      "learning_rate": 8.16860754454066e-06,
      "loss": 0.3504,
      "step": 3680
    },
    {
      "epoch": 0.3672738130785309,
      "grad_norm": 0.7021706104278564,
      "learning_rate": 8.163630934607346e-06,
      "loss": 0.3761,
      "step": 3690
    },
    {
      "epoch": 0.3682691350651936,
      "grad_norm": 0.8463016152381897,
      "learning_rate": 8.158654324674032e-06,
      "loss": 0.4096,
      "step": 3700
    },
    {
      "epoch": 0.3682691350651936,
      "eval_loss": 0.3721456229686737,
      "eval_runtime": 148.0333,
      "eval_samples_per_second": 1.371,
      "eval_steps_per_second": 0.689,
      "step": 3700
    },
    {
      "epoch": 0.3692644570518563,
      "grad_norm": 0.7081176042556763,
      "learning_rate": 8.153677714740719e-06,
      "loss": 0.3609,
      "step": 3710
    },
    {
      "epoch": 0.370259779038519,
      "grad_norm": 0.6312963366508484,
      "learning_rate": 8.148701104807406e-06,
      "loss": 0.3964,
      "step": 3720
    },
    {
      "epoch": 0.37125510102518167,
      "grad_norm": 0.5755221247673035,
      "learning_rate": 8.143724494874092e-06,
      "loss": 0.3701,
      "step": 3730
    },
    {
      "epoch": 0.37225042301184436,
      "grad_norm": 0.584368884563446,
      "learning_rate": 8.13874788494078e-06,
      "loss": 0.3748,
      "step": 3740
    },
    {
      "epoch": 0.373245744998507,
      "grad_norm": 0.588197648525238,
      "learning_rate": 8.133771275007467e-06,
      "loss": 0.3775,
      "step": 3750
    },
    {
      "epoch": 0.3742410669851697,
      "grad_norm": 0.6824856996536255,
      "learning_rate": 8.128794665074152e-06,
      "loss": 0.3842,
      "step": 3760
    },
    {
      "epoch": 0.37523638897183237,
      "grad_norm": 0.4867573082447052,
      "learning_rate": 8.123818055140838e-06,
      "loss": 0.3349,
      "step": 3770
    },
    {
      "epoch": 0.37623171095849506,
      "grad_norm": 1.023980975151062,
      "learning_rate": 8.118841445207525e-06,
      "loss": 0.2991,
      "step": 3780
    },
    {
      "epoch": 0.37722703294515775,
      "grad_norm": 0.8464593291282654,
      "learning_rate": 8.113864835274212e-06,
      "loss": 0.3673,
      "step": 3790
    },
    {
      "epoch": 0.37822235493182044,
      "grad_norm": 0.7149996757507324,
      "learning_rate": 8.108888225340898e-06,
      "loss": 0.3913,
      "step": 3800
    },
    {
      "epoch": 0.37822235493182044,
      "eval_loss": 0.37008264660835266,
      "eval_runtime": 148.0619,
      "eval_samples_per_second": 1.371,
      "eval_steps_per_second": 0.689,
      "step": 3800
    },
    {
      "epoch": 0.3792176769184831,
      "grad_norm": 0.5620415210723877,
      "learning_rate": 8.103911615407585e-06,
      "loss": 0.3409,
      "step": 3810
    },
    {
      "epoch": 0.3802129989051458,
      "grad_norm": 0.7163406014442444,
      "learning_rate": 8.098935005474273e-06,
      "loss": 0.3566,
      "step": 3820
    },
    {
      "epoch": 0.3812083208918085,
      "grad_norm": 0.6729508638381958,
      "learning_rate": 8.093958395540958e-06,
      "loss": 0.3606,
      "step": 3830
    },
    {
      "epoch": 0.3822036428784712,
      "grad_norm": 0.5905406475067139,
      "learning_rate": 8.088981785607644e-06,
      "loss": 0.3948,
      "step": 3840
    },
    {
      "epoch": 0.3831989648651339,
      "grad_norm": 0.896960437297821,
      "learning_rate": 8.084005175674331e-06,
      "loss": 0.3881,
      "step": 3850
    },
    {
      "epoch": 0.3841942868517966,
      "grad_norm": 0.6188758015632629,
      "learning_rate": 8.079028565741019e-06,
      "loss": 0.3632,
      "step": 3860
    },
    {
      "epoch": 0.38518960883845926,
      "grad_norm": 0.7011315822601318,
      "learning_rate": 8.074051955807704e-06,
      "loss": 0.3768,
      "step": 3870
    },
    {
      "epoch": 0.38618493082512195,
      "grad_norm": 0.546981930732727,
      "learning_rate": 8.069075345874391e-06,
      "loss": 0.3556,
      "step": 3880
    },
    {
      "epoch": 0.3871802528117846,
      "grad_norm": 0.6722966432571411,
      "learning_rate": 8.064098735941077e-06,
      "loss": 0.4264,
      "step": 3890
    },
    {
      "epoch": 0.3881755747984473,
      "grad_norm": 0.6407563090324402,
      "learning_rate": 8.059122126007764e-06,
      "loss": 0.3592,
      "step": 3900
    },
    {
      "epoch": 0.3881755747984473,
      "eval_loss": 0.3688708245754242,
      "eval_runtime": 148.1311,
      "eval_samples_per_second": 1.37,
      "eval_steps_per_second": 0.689,
      "step": 3900
    },
    {
      "epoch": 0.38917089678510997,
      "grad_norm": 0.45177608728408813,
      "learning_rate": 8.05414551607445e-06,
      "loss": 0.3733,
      "step": 3910
    },
    {
      "epoch": 0.39016621877177265,
      "grad_norm": 1.0299266576766968,
      "learning_rate": 8.049168906141137e-06,
      "loss": 0.351,
      "step": 3920
    },
    {
      "epoch": 0.39116154075843534,
      "grad_norm": 0.6861090660095215,
      "learning_rate": 8.044192296207823e-06,
      "loss": 0.3899,
      "step": 3930
    },
    {
      "epoch": 0.39215686274509803,
      "grad_norm": 0.6434109210968018,
      "learning_rate": 8.03921568627451e-06,
      "loss": 0.3285,
      "step": 3940
    },
    {
      "epoch": 0.3931521847317607,
      "grad_norm": 0.6049661040306091,
      "learning_rate": 8.034239076341198e-06,
      "loss": 0.37,
      "step": 3950
    },
    {
      "epoch": 0.3941475067184234,
      "grad_norm": 0.6799841523170471,
      "learning_rate": 8.029262466407883e-06,
      "loss": 0.381,
      "step": 3960
    },
    {
      "epoch": 0.3951428287050861,
      "grad_norm": 0.7383856177330017,
      "learning_rate": 8.02428585647457e-06,
      "loss": 0.3707,
      "step": 3970
    },
    {
      "epoch": 0.3961381506917488,
      "grad_norm": 0.8234820365905762,
      "learning_rate": 8.019309246541258e-06,
      "loss": 0.379,
      "step": 3980
    },
    {
      "epoch": 0.3971334726784115,
      "grad_norm": 0.743027925491333,
      "learning_rate": 8.014332636607943e-06,
      "loss": 0.362,
      "step": 3990
    },
    {
      "epoch": 0.39812879466507417,
      "grad_norm": 0.48385190963745117,
      "learning_rate": 8.009356026674629e-06,
      "loss": 0.3726,
      "step": 4000
    },
    {
      "epoch": 0.39812879466507417,
      "eval_loss": 0.36677852272987366,
      "eval_runtime": 148.1274,
      "eval_samples_per_second": 1.37,
      "eval_steps_per_second": 0.689,
      "step": 4000
    },
    {
      "epoch": 0.39912411665173686,
      "grad_norm": 0.776292622089386,
      "learning_rate": 8.004379416741316e-06,
      "loss": 0.3258,
      "step": 4010
    },
    {
      "epoch": 0.40011943863839955,
      "grad_norm": 0.7187590599060059,
      "learning_rate": 7.999402806808004e-06,
      "loss": 0.3639,
      "step": 4020
    },
    {
      "epoch": 0.4011147606250622,
      "grad_norm": 0.6233355402946472,
      "learning_rate": 7.99442619687469e-06,
      "loss": 0.3418,
      "step": 4030
    },
    {
      "epoch": 0.4021100826117249,
      "grad_norm": 0.9605082869529724,
      "learning_rate": 7.989449586941377e-06,
      "loss": 0.3686,
      "step": 4040
    },
    {
      "epoch": 0.40310540459838756,
      "grad_norm": 0.7882612943649292,
      "learning_rate": 7.984472977008064e-06,
      "loss": 0.3386,
      "step": 4050
    },
    {
      "epoch": 0.40410072658505025,
      "grad_norm": 0.8124802708625793,
      "learning_rate": 7.97949636707475e-06,
      "loss": 0.3412,
      "step": 4060
    },
    {
      "epoch": 0.40509604857171294,
      "grad_norm": 0.6348981857299805,
      "learning_rate": 7.974519757141435e-06,
      "loss": 0.3624,
      "step": 4070
    },
    {
      "epoch": 0.40609137055837563,
      "grad_norm": 0.8518906831741333,
      "learning_rate": 7.969543147208122e-06,
      "loss": 0.3494,
      "step": 4080
    },
    {
      "epoch": 0.4070866925450383,
      "grad_norm": 0.979092538356781,
      "learning_rate": 7.96456653727481e-06,
      "loss": 0.3677,
      "step": 4090
    },
    {
      "epoch": 0.408082014531701,
      "grad_norm": 0.6732219457626343,
      "learning_rate": 7.959589927341495e-06,
      "loss": 0.3395,
      "step": 4100
    },
    {
      "epoch": 0.408082014531701,
      "eval_loss": 0.365203857421875,
      "eval_runtime": 148.0813,
      "eval_samples_per_second": 1.371,
      "eval_steps_per_second": 0.689,
      "step": 4100
    },
    {
      "epoch": 0.4090773365183637,
      "grad_norm": 0.9068031907081604,
      "learning_rate": 7.954613317408183e-06,
      "loss": 0.3715,
      "step": 4110
    },
    {
      "epoch": 0.4100726585050264,
      "grad_norm": 0.8246614336967468,
      "learning_rate": 7.94963670747487e-06,
      "loss": 0.3661,
      "step": 4120
    },
    {
      "epoch": 0.4110679804916891,
      "grad_norm": 0.5856474041938782,
      "learning_rate": 7.944660097541556e-06,
      "loss": 0.3567,
      "step": 4130
    },
    {
      "epoch": 0.41206330247835177,
      "grad_norm": 0.4393113851547241,
      "learning_rate": 7.939683487608241e-06,
      "loss": 0.3469,
      "step": 4140
    },
    {
      "epoch": 0.41305862446501446,
      "grad_norm": 1.0827676057815552,
      "learning_rate": 7.934706877674928e-06,
      "loss": 0.3318,
      "step": 4150
    },
    {
      "epoch": 0.4140539464516771,
      "grad_norm": 0.6830149292945862,
      "learning_rate": 7.929730267741616e-06,
      "loss": 0.3726,
      "step": 4160
    },
    {
      "epoch": 0.4150492684383398,
      "grad_norm": 0.563925564289093,
      "learning_rate": 7.924753657808301e-06,
      "loss": 0.3732,
      "step": 4170
    },
    {
      "epoch": 0.41604459042500247,
      "grad_norm": 0.5630573034286499,
      "learning_rate": 7.919777047874989e-06,
      "loss": 0.3626,
      "step": 4180
    },
    {
      "epoch": 0.41703991241166516,
      "grad_norm": 0.7267017960548401,
      "learning_rate": 7.914800437941674e-06,
      "loss": 0.3414,
      "step": 4190
    },
    {
      "epoch": 0.41803523439832785,
      "grad_norm": 0.7420011758804321,
      "learning_rate": 7.909823828008362e-06,
      "loss": 0.379,
      "step": 4200
    },
    {
      "epoch": 0.41803523439832785,
      "eval_loss": 0.3634182810783386,
      "eval_runtime": 148.0601,
      "eval_samples_per_second": 1.371,
      "eval_steps_per_second": 0.689,
      "step": 4200
    },
    {
      "epoch": 0.41903055638499054,
      "grad_norm": 0.6270275115966797,
      "learning_rate": 7.904847218075047e-06,
      "loss": 0.347,
      "step": 4210
    },
    {
      "epoch": 0.4200258783716532,
      "grad_norm": 0.6264152526855469,
      "learning_rate": 7.899870608141735e-06,
      "loss": 0.3984,
      "step": 4220
    },
    {
      "epoch": 0.4210212003583159,
      "grad_norm": 0.7452067136764526,
      "learning_rate": 7.894893998208422e-06,
      "loss": 0.392,
      "step": 4230
    },
    {
      "epoch": 0.4220165223449786,
      "grad_norm": 0.5158396363258362,
      "learning_rate": 7.889917388275107e-06,
      "loss": 0.3624,
      "step": 4240
    },
    {
      "epoch": 0.4230118443316413,
      "grad_norm": 0.6692706942558289,
      "learning_rate": 7.884940778341795e-06,
      "loss": 0.359,
      "step": 4250
    },
    {
      "epoch": 0.424007166318304,
      "grad_norm": 1.1387830972671509,
      "learning_rate": 7.87996416840848e-06,
      "loss": 0.39,
      "step": 4260
    },
    {
      "epoch": 0.4250024883049667,
      "grad_norm": 0.76036137342453,
      "learning_rate": 7.874987558475168e-06,
      "loss": 0.299,
      "step": 4270
    },
    {
      "epoch": 0.42599781029162936,
      "grad_norm": 0.45447903871536255,
      "learning_rate": 7.870010948541853e-06,
      "loss": 0.3926,
      "step": 4280
    },
    {
      "epoch": 0.42699313227829205,
      "grad_norm": 0.8221507668495178,
      "learning_rate": 7.86503433860854e-06,
      "loss": 0.3743,
      "step": 4290
    },
    {
      "epoch": 0.4279884542649547,
      "grad_norm": 0.7328831553459167,
      "learning_rate": 7.860057728675226e-06,
      "loss": 0.3699,
      "step": 4300
    },
    {
      "epoch": 0.4279884542649547,
      "eval_loss": 0.36196640133857727,
      "eval_runtime": 148.0658,
      "eval_samples_per_second": 1.371,
      "eval_steps_per_second": 0.689,
      "step": 4300
    },
    {
      "epoch": 0.4289837762516174,
      "grad_norm": 0.8411442637443542,
      "learning_rate": 7.855081118741913e-06,
      "loss": 0.4047,
      "step": 4310
    },
    {
      "epoch": 0.42997909823828007,
      "grad_norm": 0.7502423524856567,
      "learning_rate": 7.8501045088086e-06,
      "loss": 0.3513,
      "step": 4320
    },
    {
      "epoch": 0.43097442022494276,
      "grad_norm": 0.566929042339325,
      "learning_rate": 7.845127898875286e-06,
      "loss": 0.3935,
      "step": 4330
    },
    {
      "epoch": 0.43196974221160545,
      "grad_norm": 0.7588290572166443,
      "learning_rate": 7.840151288941972e-06,
      "loss": 0.3324,
      "step": 4340
    },
    {
      "epoch": 0.43296506419826813,
      "grad_norm": 0.7947611808776855,
      "learning_rate": 7.835174679008661e-06,
      "loss": 0.3506,
      "step": 4350
    },
    {
      "epoch": 0.4339603861849308,
      "grad_norm": 0.6475954651832581,
      "learning_rate": 7.830198069075347e-06,
      "loss": 0.3103,
      "step": 4360
    },
    {
      "epoch": 0.4349557081715935,
      "grad_norm": 0.5702581405639648,
      "learning_rate": 7.825221459142032e-06,
      "loss": 0.3373,
      "step": 4370
    },
    {
      "epoch": 0.4359510301582562,
      "grad_norm": 0.7424353957176208,
      "learning_rate": 7.82024484920872e-06,
      "loss": 0.3593,
      "step": 4380
    },
    {
      "epoch": 0.4369463521449189,
      "grad_norm": 0.5749756693840027,
      "learning_rate": 7.815268239275407e-06,
      "loss": 0.3133,
      "step": 4390
    },
    {
      "epoch": 0.4379416741315816,
      "grad_norm": 0.5407712459564209,
      "learning_rate": 7.810291629342092e-06,
      "loss": 0.3584,
      "step": 4400
    },
    {
      "epoch": 0.4379416741315816,
      "eval_loss": 0.360762357711792,
      "eval_runtime": 148.1111,
      "eval_samples_per_second": 1.371,
      "eval_steps_per_second": 0.689,
      "step": 4400
    },
    {
      "epoch": 0.43893699611824427,
      "grad_norm": 0.5194666981697083,
      "learning_rate": 7.80531501940878e-06,
      "loss": 0.2957,
      "step": 4410
    },
    {
      "epoch": 0.43993231810490696,
      "grad_norm": 0.7961593866348267,
      "learning_rate": 7.800338409475467e-06,
      "loss": 0.3819,
      "step": 4420
    },
    {
      "epoch": 0.44092764009156965,
      "grad_norm": 0.6336628198623657,
      "learning_rate": 7.795361799542153e-06,
      "loss": 0.3123,
      "step": 4430
    },
    {
      "epoch": 0.4419229620782323,
      "grad_norm": 0.6935514211654663,
      "learning_rate": 7.790385189608838e-06,
      "loss": 0.3519,
      "step": 4440
    },
    {
      "epoch": 0.442918284064895,
      "grad_norm": 0.6400023698806763,
      "learning_rate": 7.785408579675526e-06,
      "loss": 0.3806,
      "step": 4450
    },
    {
      "epoch": 0.44391360605155766,
      "grad_norm": 0.9406591057777405,
      "learning_rate": 7.780431969742213e-06,
      "loss": 0.3282,
      "step": 4460
    },
    {
      "epoch": 0.44490892803822035,
      "grad_norm": 0.6432562470436096,
      "learning_rate": 7.775455359808899e-06,
      "loss": 0.302,
      "step": 4470
    },
    {
      "epoch": 0.44590425002488304,
      "grad_norm": 0.5700191259384155,
      "learning_rate": 7.770478749875586e-06,
      "loss": 0.3608,
      "step": 4480
    },
    {
      "epoch": 0.44689957201154573,
      "grad_norm": 0.7987110614776611,
      "learning_rate": 7.765502139942271e-06,
      "loss": 0.3363,
      "step": 4490
    },
    {
      "epoch": 0.4478948939982084,
      "grad_norm": 0.6581839323043823,
      "learning_rate": 7.760525530008959e-06,
      "loss": 0.3414,
      "step": 4500
    },
    {
      "epoch": 0.4478948939982084,
      "eval_loss": 0.35966184735298157,
      "eval_runtime": 148.1465,
      "eval_samples_per_second": 1.37,
      "eval_steps_per_second": 0.689,
      "step": 4500
    },
    {
      "epoch": 0.4488902159848711,
      "grad_norm": 0.6311335563659668,
      "learning_rate": 7.755548920075644e-06,
      "loss": 0.3768,
      "step": 4510
    },
    {
      "epoch": 0.4498855379715338,
      "grad_norm": 0.8850741982460022,
      "learning_rate": 7.750572310142332e-06,
      "loss": 0.3763,
      "step": 4520
    },
    {
      "epoch": 0.4508808599581965,
      "grad_norm": 0.5066502094268799,
      "learning_rate": 7.745595700209019e-06,
      "loss": 0.3412,
      "step": 4530
    },
    {
      "epoch": 0.4518761819448592,
      "grad_norm": 0.545430600643158,
      "learning_rate": 7.740619090275705e-06,
      "loss": 0.3737,
      "step": 4540
    },
    {
      "epoch": 0.45287150393152187,
      "grad_norm": 0.7061020731925964,
      "learning_rate": 7.735642480342392e-06,
      "loss": 0.3218,
      "step": 4550
    },
    {
      "epoch": 0.45386682591818456,
      "grad_norm": 0.5185464024543762,
      "learning_rate": 7.730665870409078e-06,
      "loss": 0.3489,
      "step": 4560
    },
    {
      "epoch": 0.4548621479048472,
      "grad_norm": 0.9102675318717957,
      "learning_rate": 7.725689260475765e-06,
      "loss": 0.3515,
      "step": 4570
    },
    {
      "epoch": 0.4558574698915099,
      "grad_norm": 0.7395256757736206,
      "learning_rate": 7.72071265054245e-06,
      "loss": 0.2873,
      "step": 4580
    },
    {
      "epoch": 0.45685279187817257,
      "grad_norm": 0.9186689853668213,
      "learning_rate": 7.715736040609138e-06,
      "loss": 0.3705,
      "step": 4590
    },
    {
      "epoch": 0.45784811386483526,
      "grad_norm": 0.6102734804153442,
      "learning_rate": 7.710759430675823e-06,
      "loss": 0.3389,
      "step": 4600
    },
    {
      "epoch": 0.45784811386483526,
      "eval_loss": 0.35844776034355164,
      "eval_runtime": 148.1097,
      "eval_samples_per_second": 1.371,
      "eval_steps_per_second": 0.689,
      "step": 4600
    },
    {
      "epoch": 0.45884343585149795,
      "grad_norm": 0.418071985244751,
      "learning_rate": 7.70578282074251e-06,
      "loss": 0.3454,
      "step": 4610
    },
    {
      "epoch": 0.45983875783816064,
      "grad_norm": 0.504802942276001,
      "learning_rate": 7.700806210809198e-06,
      "loss": 0.3419,
      "step": 4620
    },
    {
      "epoch": 0.46083407982482333,
      "grad_norm": 0.7918646335601807,
      "learning_rate": 7.695829600875884e-06,
      "loss": 0.3992,
      "step": 4630
    },
    {
      "epoch": 0.461829401811486,
      "grad_norm": 0.6944281458854675,
      "learning_rate": 7.690852990942571e-06,
      "loss": 0.3945,
      "step": 4640
    },
    {
      "epoch": 0.4628247237981487,
      "grad_norm": 0.648303210735321,
      "learning_rate": 7.685876381009257e-06,
      "loss": 0.3401,
      "step": 4650
    },
    {
      "epoch": 0.4638200457848114,
      "grad_norm": 0.812044084072113,
      "learning_rate": 7.680899771075944e-06,
      "loss": 0.3548,
      "step": 4660
    },
    {
      "epoch": 0.4648153677714741,
      "grad_norm": 0.7709999680519104,
      "learning_rate": 7.67592316114263e-06,
      "loss": 0.3702,
      "step": 4670
    },
    {
      "epoch": 0.4658106897581368,
      "grad_norm": 0.7904644012451172,
      "learning_rate": 7.670946551209317e-06,
      "loss": 0.3763,
      "step": 4680
    },
    {
      "epoch": 0.46680601174479947,
      "grad_norm": 0.7763231992721558,
      "learning_rate": 7.665969941276004e-06,
      "loss": 0.3495,
      "step": 4690
    },
    {
      "epoch": 0.46780133373146215,
      "grad_norm": 0.5270109176635742,
      "learning_rate": 7.66099333134269e-06,
      "loss": 0.3016,
      "step": 4700
    },
    {
      "epoch": 0.46780133373146215,
      "eval_loss": 0.35714709758758545,
      "eval_runtime": 148.1115,
      "eval_samples_per_second": 1.371,
      "eval_steps_per_second": 0.689,
      "step": 4700
    },
    {
      "epoch": 0.4687966557181248,
      "grad_norm": 0.6368373036384583,
      "learning_rate": 7.656016721409375e-06,
      "loss": 0.3323,
      "step": 4710
    },
    {
      "epoch": 0.4697919777047875,
      "grad_norm": 0.3973361551761627,
      "learning_rate": 7.651040111476064e-06,
      "loss": 0.3405,
      "step": 4720
    },
    {
      "epoch": 0.47078729969145017,
      "grad_norm": 0.8075085878372192,
      "learning_rate": 7.64606350154275e-06,
      "loss": 0.3436,
      "step": 4730
    },
    {
      "epoch": 0.47178262167811286,
      "grad_norm": 0.892672598361969,
      "learning_rate": 7.641086891609436e-06,
      "loss": 0.3662,
      "step": 4740
    },
    {
      "epoch": 0.47277794366477555,
      "grad_norm": 0.6311262845993042,
      "learning_rate": 7.636110281676123e-06,
      "loss": 0.3559,
      "step": 4750
    },
    {
      "epoch": 0.47377326565143824,
      "grad_norm": 0.7950363159179688,
      "learning_rate": 7.63113367174281e-06,
      "loss": 0.2974,
      "step": 4760
    },
    {
      "epoch": 0.4747685876381009,
      "grad_norm": 0.6539332270622253,
      "learning_rate": 7.626157061809496e-06,
      "loss": 0.3312,
      "step": 4770
    },
    {
      "epoch": 0.4757639096247636,
      "grad_norm": 0.7384660840034485,
      "learning_rate": 7.621180451876182e-06,
      "loss": 0.3825,
      "step": 4780
    },
    {
      "epoch": 0.4767592316114263,
      "grad_norm": 0.43817830085754395,
      "learning_rate": 7.6162038419428695e-06,
      "loss": 0.3462,
      "step": 4790
    },
    {
      "epoch": 0.477754553598089,
      "grad_norm": 0.7346156239509583,
      "learning_rate": 7.611227232009556e-06,
      "loss": 0.3377,
      "step": 4800
    },
    {
      "epoch": 0.477754553598089,
      "eval_loss": 0.355719655752182,
      "eval_runtime": 148.1914,
      "eval_samples_per_second": 1.37,
      "eval_steps_per_second": 0.688,
      "step": 4800
    },
    {
      "epoch": 0.4787498755847517,
      "grad_norm": 0.8043003082275391,
      "learning_rate": 7.6062506220762424e-06,
      "loss": 0.3625,
      "step": 4810
    },
    {
      "epoch": 0.4797451975714144,
      "grad_norm": 0.6644107103347778,
      "learning_rate": 7.601274012142929e-06,
      "loss": 0.3023,
      "step": 4820
    },
    {
      "epoch": 0.48074051955807706,
      "grad_norm": 0.7794090509414673,
      "learning_rate": 7.596297402209616e-06,
      "loss": 0.3552,
      "step": 4830
    },
    {
      "epoch": 0.4817358415447397,
      "grad_norm": 0.7449871301651001,
      "learning_rate": 7.591320792276302e-06,
      "loss": 0.3659,
      "step": 4840
    },
    {
      "epoch": 0.4827311635314024,
      "grad_norm": 0.881610631942749,
      "learning_rate": 7.586344182342988e-06,
      "loss": 0.3184,
      "step": 4850
    },
    {
      "epoch": 0.4837264855180651,
      "grad_norm": 0.8672296404838562,
      "learning_rate": 7.581367572409675e-06,
      "loss": 0.3324,
      "step": 4860
    },
    {
      "epoch": 0.48472180750472776,
      "grad_norm": 0.4788852334022522,
      "learning_rate": 7.576390962476362e-06,
      "loss": 0.3406,
      "step": 4870
    },
    {
      "epoch": 0.48571712949139045,
      "grad_norm": 0.6023631691932678,
      "learning_rate": 7.5714143525430485e-06,
      "loss": 0.3797,
      "step": 4880
    },
    {
      "epoch": 0.48671245147805314,
      "grad_norm": 0.6595234870910645,
      "learning_rate": 7.566437742609735e-06,
      "loss": 0.3199,
      "step": 4890
    },
    {
      "epoch": 0.48770777346471583,
      "grad_norm": 0.6189759969711304,
      "learning_rate": 7.561461132676421e-06,
      "loss": 0.373,
      "step": 4900
    },
    {
      "epoch": 0.48770777346471583,
      "eval_loss": 0.35428938269615173,
      "eval_runtime": 148.2777,
      "eval_samples_per_second": 1.369,
      "eval_steps_per_second": 0.688,
      "step": 4900
    },
    {
      "epoch": 0.4887030954513785,
      "grad_norm": 0.71135413646698,
      "learning_rate": 7.556484522743108e-06,
      "loss": 0.3232,
      "step": 4910
    },
    {
      "epoch": 0.4896984174380412,
      "grad_norm": 0.5228835940361023,
      "learning_rate": 7.551507912809794e-06,
      "loss": 0.3428,
      "step": 4920
    },
    {
      "epoch": 0.4906937394247039,
      "grad_norm": 0.9015726447105408,
      "learning_rate": 7.546531302876481e-06,
      "loss": 0.3889,
      "step": 4930
    },
    {
      "epoch": 0.4916890614113666,
      "grad_norm": 0.8351202011108398,
      "learning_rate": 7.541554692943168e-06,
      "loss": 0.3367,
      "step": 4940
    },
    {
      "epoch": 0.4926843833980293,
      "grad_norm": 0.6578547954559326,
      "learning_rate": 7.536578083009855e-06,
      "loss": 0.3646,
      "step": 4950
    },
    {
      "epoch": 0.49367970538469197,
      "grad_norm": 1.1061774492263794,
      "learning_rate": 7.531601473076541e-06,
      "loss": 0.351,
      "step": 4960
    },
    {
      "epoch": 0.49467502737135466,
      "grad_norm": 0.636061429977417,
      "learning_rate": 7.526624863143227e-06,
      "loss": 0.3434,
      "step": 4970
    },
    {
      "epoch": 0.4956703493580173,
      "grad_norm": 0.6666164994239807,
      "learning_rate": 7.521648253209915e-06,
      "loss": 0.3462,
      "step": 4980
    },
    {
      "epoch": 0.49666567134468,
      "grad_norm": 0.8288053274154663,
      "learning_rate": 7.5166716432766e-06,
      "loss": 0.3862,
      "step": 4990
    },
    {
      "epoch": 0.49766099333134267,
      "grad_norm": 0.5653735399246216,
      "learning_rate": 7.511695033343287e-06,
      "loss": 0.3559,
      "step": 5000
    },
    {
      "epoch": 0.49766099333134267,
      "eval_loss": 0.35338979959487915,
      "eval_runtime": 148.2313,
      "eval_samples_per_second": 1.369,
      "eval_steps_per_second": 0.688,
      "step": 5000
    },
    {
      "epoch": 0.49865631531800536,
      "grad_norm": 1.083835482597351,
      "learning_rate": 7.506718423409973e-06,
      "loss": 0.3697,
      "step": 5010
    },
    {
      "epoch": 0.49965163730466805,
      "grad_norm": 0.7271355986595154,
      "learning_rate": 7.501741813476661e-06,
      "loss": 0.2915,
      "step": 5020
    },
    {
      "epoch": 0.5006469592913307,
      "grad_norm": 0.6525740027427673,
      "learning_rate": 7.496765203543347e-06,
      "loss": 0.3571,
      "step": 5030
    },
    {
      "epoch": 0.5016422812779935,
      "grad_norm": 1.00348961353302,
      "learning_rate": 7.4917885936100336e-06,
      "loss": 0.3254,
      "step": 5040
    },
    {
      "epoch": 0.5026376032646561,
      "grad_norm": 0.7707570195198059,
      "learning_rate": 7.486811983676721e-06,
      "loss": 0.3544,
      "step": 5050
    },
    {
      "epoch": 0.5036329252513188,
      "grad_norm": 0.7804340720176697,
      "learning_rate": 7.4818353737434065e-06,
      "loss": 0.3346,
      "step": 5060
    },
    {
      "epoch": 0.5046282472379815,
      "grad_norm": 1.0899609327316284,
      "learning_rate": 7.476858763810093e-06,
      "loss": 0.3296,
      "step": 5070
    },
    {
      "epoch": 0.5056235692246441,
      "grad_norm": 0.6863502264022827,
      "learning_rate": 7.471882153876779e-06,
      "loss": 0.3569,
      "step": 5080
    },
    {
      "epoch": 0.5066188912113069,
      "grad_norm": 1.15005362033844,
      "learning_rate": 7.466905543943467e-06,
      "loss": 0.2829,
      "step": 5090
    },
    {
      "epoch": 0.5076142131979695,
      "grad_norm": 0.699102520942688,
      "learning_rate": 7.461928934010153e-06,
      "loss": 0.3727,
      "step": 5100
    },
    {
      "epoch": 0.5076142131979695,
      "eval_loss": 0.35266318917274475,
      "eval_runtime": 148.2339,
      "eval_samples_per_second": 1.369,
      "eval_steps_per_second": 0.688,
      "step": 5100
    },
    {
      "epoch": 0.5086095351846323,
      "grad_norm": 0.9547719359397888,
      "learning_rate": 7.45695232407684e-06,
      "loss": 0.4042,
      "step": 5110
    },
    {
      "epoch": 0.5096048571712949,
      "grad_norm": 0.9959189891815186,
      "learning_rate": 7.451975714143525e-06,
      "loss": 0.3115,
      "step": 5120
    },
    {
      "epoch": 0.5106001791579576,
      "grad_norm": 0.6266285181045532,
      "learning_rate": 7.446999104210213e-06,
      "loss": 0.3485,
      "step": 5130
    },
    {
      "epoch": 0.5115955011446203,
      "grad_norm": 0.711664617061615,
      "learning_rate": 7.442022494276899e-06,
      "loss": 0.3699,
      "step": 5140
    },
    {
      "epoch": 0.512590823131283,
      "grad_norm": 1.0690807104110718,
      "learning_rate": 7.4370458843435855e-06,
      "loss": 0.3248,
      "step": 5150
    },
    {
      "epoch": 0.5135861451179456,
      "grad_norm": 1.2619460821151733,
      "learning_rate": 7.432069274410272e-06,
      "loss": 0.3284,
      "step": 5160
    },
    {
      "epoch": 0.5145814671046084,
      "grad_norm": 0.9510999917984009,
      "learning_rate": 7.427092664476959e-06,
      "loss": 0.3491,
      "step": 5170
    },
    {
      "epoch": 0.515576789091271,
      "grad_norm": 1.012990117073059,
      "learning_rate": 7.422116054543646e-06,
      "loss": 0.3659,
      "step": 5180
    },
    {
      "epoch": 0.5165721110779337,
      "grad_norm": 0.5469540953636169,
      "learning_rate": 7.417139444610332e-06,
      "loss": 0.2709,
      "step": 5190
    },
    {
      "epoch": 0.5175674330645964,
      "grad_norm": 0.6974226236343384,
      "learning_rate": 7.4121628346770195e-06,
      "loss": 0.3668,
      "step": 5200
    },
    {
      "epoch": 0.5175674330645964,
      "eval_loss": 0.35165390372276306,
      "eval_runtime": 148.2087,
      "eval_samples_per_second": 1.37,
      "eval_steps_per_second": 0.688,
      "step": 5200
    },
    {
      "epoch": 0.518562755051259,
      "grad_norm": 0.8949996829032898,
      "learning_rate": 7.407186224743705e-06,
      "loss": 0.3305,
      "step": 5210
    },
    {
      "epoch": 0.5195580770379218,
      "grad_norm": 0.6786302328109741,
      "learning_rate": 7.4022096148103915e-06,
      "loss": 0.3312,
      "step": 5220
    },
    {
      "epoch": 0.5205533990245844,
      "grad_norm": 0.6699957251548767,
      "learning_rate": 7.397233004877078e-06,
      "loss": 0.3429,
      "step": 5230
    },
    {
      "epoch": 0.5215487210112472,
      "grad_norm": 0.5877237915992737,
      "learning_rate": 7.392256394943765e-06,
      "loss": 0.3214,
      "step": 5240
    },
    {
      "epoch": 0.5225440429979098,
      "grad_norm": 0.7005926966667175,
      "learning_rate": 7.387279785010452e-06,
      "loss": 0.3816,
      "step": 5250
    },
    {
      "epoch": 0.5235393649845725,
      "grad_norm": 0.7223731279373169,
      "learning_rate": 7.382303175077138e-06,
      "loss": 0.3773,
      "step": 5260
    },
    {
      "epoch": 0.5245346869712352,
      "grad_norm": 0.9617743492126465,
      "learning_rate": 7.377326565143824e-06,
      "loss": 0.3441,
      "step": 5270
    },
    {
      "epoch": 0.5255300089578979,
      "grad_norm": 0.6759951114654541,
      "learning_rate": 7.372349955210511e-06,
      "loss": 0.3464,
      "step": 5280
    },
    {
      "epoch": 0.5265253309445606,
      "grad_norm": 0.600290834903717,
      "learning_rate": 7.367373345277198e-06,
      "loss": 0.3202,
      "step": 5290
    },
    {
      "epoch": 0.5275206529312233,
      "grad_norm": 0.6212776899337769,
      "learning_rate": 7.362396735343884e-06,
      "loss": 0.3995,
      "step": 5300
    },
    {
      "epoch": 0.5275206529312233,
      "eval_loss": 0.35058361291885376,
      "eval_runtime": 148.2235,
      "eval_samples_per_second": 1.37,
      "eval_steps_per_second": 0.688,
      "step": 5300
    }
  ],
  "logging_steps": 10,
  "max_steps": 20094,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 2.109336661739546e+19,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}