{'loss': 1.3717, 'grad_norm': 0.8425632119178772, 'learning_rate': 4.982499124956248e-05, 'epoch': 0.18} {'loss': 1.353, 'grad_norm': 0.8637511134147644, 'learning_rate': 4.964998249912496e-05, 'epoch': 0.35} {'loss': 1.3378, 'grad_norm': 1.4266023635864258, 'learning_rate': 4.947497374868744e-05, 'epoch': 0.53} {'loss': 1.3218, 'grad_norm': 2.0084288120269775, 'learning_rate': 4.929996499824991e-05, 'epoch': 0.7} {'loss': 1.307, 'grad_norm': 1.9190274477005005, 'learning_rate': 4.912495624781239e-05, 'epoch': 0.88} [3 0 1 ... 0 0 0] [0 0 2 ... 0 1 0] {'eval_loss': 1.3398776054382324, 'eval_accuracy': 0.34759741812096584, 'eval_runtime': 5.0308, 'eval_samples_per_second': 831.486, 'eval_steps_per_second': 13.119, 'epoch': 1.0} {'loss': 1.2642, 'grad_norm': 3.536259412765503, 'learning_rate': 4.894994749737487e-05, 'epoch': 1.05} {'loss': 1.1756, 'grad_norm': 3.510762929916382, 'learning_rate': 4.8774938746937346e-05, 'epoch': 1.23} {'loss': 1.1696, 'grad_norm': 4.958428859710693, 'learning_rate': 4.859992999649983e-05, 'epoch': 1.4} {'loss': 1.1518, 'grad_norm': 4.598385334014893, 'learning_rate': 4.842492124606231e-05, 'epoch': 1.58} {'loss': 1.1337, 'grad_norm': 3.808668851852417, 'learning_rate': 4.824991249562478e-05, 'epoch': 1.75} {'loss': 1.1199, 'grad_norm': 4.093677520751953, 'learning_rate': 4.807490374518726e-05, 'epoch': 1.93} [3 0 3 ... 0 0 0] [0 0 2 ... 0 1 0] {'eval_loss': 1.3871146440505981, 'eval_accuracy': 0.36146306478603873, 'eval_runtime': 5.168, 'eval_samples_per_second': 809.403, 'eval_steps_per_second': 12.771, 'epoch': 2.0} {'loss': 0.9912, 'grad_norm': 7.0247344970703125, 'learning_rate': 4.7899894994749736e-05, 'epoch': 2.1} {'loss': 0.9039, 'grad_norm': 5.99714469909668, 'learning_rate': 4.7724886244312216e-05, 'epoch': 2.28} {'loss': 0.906, 'grad_norm': 8.772993087768555, 'learning_rate': 4.75498774938747e-05, 'epoch': 2.45} {'loss': 0.8987, 'grad_norm': 7.529561519622803, 'learning_rate': 4.737486874343717e-05, 'epoch': 2.63} {'loss': 0.8948, 'grad_norm': 7.655035018920898, 'learning_rate': 4.719985999299965e-05, 'epoch': 2.8} {'loss': 0.8947, 'grad_norm': 7.14945125579834, 'learning_rate': 4.702485124256213e-05, 'epoch': 2.98} [3 3 3 ... 2 1 0] [0 0 2 ... 0 1 0] {'eval_loss': 1.4768593311309814, 'eval_accuracy': 0.3853693521396127, 'eval_runtime': 5.0272, 'eval_samples_per_second': 832.08, 'eval_steps_per_second': 13.129, 'epoch': 3.0} {'loss': 0.6962, 'grad_norm': 9.295475006103516, 'learning_rate': 4.6849842492124606e-05, 'epoch': 3.15} {'loss': 0.6763, 'grad_norm': 10.301146507263184, 'learning_rate': 4.6674833741687086e-05, 'epoch': 3.33} {'loss': 0.6865, 'grad_norm': 7.7962565422058105, 'learning_rate': 4.649982499124956e-05, 'epoch': 3.5} {'loss': 0.6819, 'grad_norm': 7.269796848297119, 'learning_rate': 4.632481624081204e-05, 'epoch': 3.68} {'loss': 0.696, 'grad_norm': 8.324944496154785, 'learning_rate': 4.614980749037452e-05, 'epoch': 3.85} [3 3 2 ... 0 1 0] [0 0 2 ... 0 1 0] {'eval_loss': 1.6681735515594482, 'eval_accuracy': 0.396127181448721, 'eval_runtime': 5.0295, 'eval_samples_per_second': 831.699, 'eval_steps_per_second': 13.123, 'epoch': 4.0} {'loss': 0.667, 'grad_norm': 10.500767707824707, 'learning_rate': 4.5974798739936995e-05, 'epoch': 4.03} {'loss': 0.4947, 'grad_norm': 10.41182804107666, 'learning_rate': 4.5799789989499476e-05, 'epoch': 4.2} {'loss': 0.5094, 'grad_norm': 10.82896614074707, 'learning_rate': 4.5624781239061956e-05, 'epoch': 4.38} {'loss': 0.5182, 'grad_norm': 7.591678619384766, 'learning_rate': 4.544977248862443e-05, 'epoch': 4.55} {'loss': 0.5407, 'grad_norm': 7.200017929077148, 'learning_rate': 4.527476373818691e-05, 'epoch': 4.73} {'loss': 0.5363, 'grad_norm': 9.024789810180664, 'learning_rate': 4.5099754987749384e-05, 'epoch': 4.9} [1 3 3 ... 2 1 0] [0 0 2 ... 0 1 0] {'eval_loss': 1.9205493927001953, 'eval_accuracy': 0.3891943581161846, 'eval_runtime': 5.2354, 'eval_samples_per_second': 798.976, 'eval_steps_per_second': 12.606, 'epoch': 5.0} {'loss': 0.4685, 'grad_norm': 7.957944393157959, 'learning_rate': 4.4924746237311865e-05, 'epoch': 5.08} {'loss': 0.3755, 'grad_norm': 8.208980560302734, 'learning_rate': 4.4749737486874346e-05, 'epoch': 5.25} {'loss': 0.3929, 'grad_norm': 10.96563720703125, 'learning_rate': 4.457472873643682e-05, 'epoch': 5.43} {'loss': 0.4053, 'grad_norm': 12.499752044677734, 'learning_rate': 4.43997199859993e-05, 'epoch': 5.6} {'loss': 0.4152, 'grad_norm': 9.879837989807129, 'learning_rate': 4.422471123556178e-05, 'epoch': 5.78} {'loss': 0.4206, 'grad_norm': 8.698701858520508, 'learning_rate': 4.4049702485124255e-05, 'epoch': 5.95} [3 3 3 ... 3 1 0] [0 0 2 ... 0 1 0] {'eval_loss': 2.0211398601531982, 'eval_accuracy': 0.3923021754721492, 'eval_runtime': 4.8116, 'eval_samples_per_second': 869.359, 'eval_steps_per_second': 13.717, 'epoch': 6.0} {'loss': 0.3254, 'grad_norm': 8.286091804504395, 'learning_rate': 4.3874693734686735e-05, 'epoch': 6.13} {'loss': 0.2994, 'grad_norm': 11.987117767333984, 'learning_rate': 4.3699684984249216e-05, 'epoch': 6.3} {'loss': 0.317, 'grad_norm': 12.051315307617188, 'learning_rate': 4.3524676233811696e-05, 'epoch': 6.48} {'loss': 0.323, 'grad_norm': 10.532122611999512, 'learning_rate': 4.334966748337417e-05, 'epoch': 6.65} {'loss': 0.3356, 'grad_norm': 10.152750015258789, 'learning_rate': 4.317465873293665e-05, 'epoch': 6.83} [3 2 1 ... 0 1 0] [0 0 2 ... 0 1 0] {'eval_loss': 2.379138946533203, 'eval_accuracy': 0.39803968443700694, 'eval_runtime': 5.2366, 'eval_samples_per_second': 798.799, 'eval_steps_per_second': 12.604, 'epoch': 7.0} {'loss': 0.3413, 'grad_norm': 5.218087196350098, 'learning_rate': 4.299964998249913e-05, 'epoch': 7.0} {'loss': 0.2253, 'grad_norm': 13.4560546875, 'learning_rate': 4.2824641232061605e-05, 'epoch': 7.18} {'loss': 0.2508, 'grad_norm': 8.933915138244629, 'learning_rate': 4.2649632481624086e-05, 'epoch': 7.35} {'loss': 0.2584, 'grad_norm': 9.784185409545898, 'learning_rate': 4.2474623731186566e-05, 'epoch': 7.53} {'loss': 0.2605, 'grad_norm': 8.28528118133545, 'learning_rate': 4.229961498074904e-05, 'epoch': 7.7} {'loss': 0.2744, 'grad_norm': 7.679172515869141, 'learning_rate': 4.212460623031152e-05, 'epoch': 7.88} [3 0 3 ... 2 1 0] [0 0 2 ... 0 1 0] {'eval_loss': 2.4870290756225586, 'eval_accuracy': 0.4044943820224719, 'eval_runtime': 4.9619, 'eval_samples_per_second': 843.029, 'eval_steps_per_second': 13.301, 'epoch': 8.0} {'loss': 0.2535, 'grad_norm': 9.526900291442871, 'learning_rate': 4.1949597479873995e-05, 'epoch': 8.05} {'loss': 0.2008, 'grad_norm': 9.026641845703125, 'learning_rate': 4.1774588729436475e-05, 'epoch': 8.23} {'loss': 0.2046, 'grad_norm': 11.880026817321777, 'learning_rate': 4.1599579978998956e-05, 'epoch': 8.4} {'loss': 0.2181, 'grad_norm': 8.357426643371582, 'learning_rate': 4.142457122856143e-05, 'epoch': 8.58} {'loss': 0.2219, 'grad_norm': 11.225452423095703, 'learning_rate': 4.124956247812391e-05, 'epoch': 8.75} {'loss': 0.2318, 'grad_norm': 12.459203720092773, 'learning_rate': 4.107455372768639e-05, 'epoch': 8.93} [3 1 1 ... 0 1 0] [0 0 2 ... 0 1 0] {'eval_loss': 3.0215201377868652, 'eval_accuracy': 0.41310064546975855, 'eval_runtime': 5.1665, 'eval_samples_per_second': 809.638, 'eval_steps_per_second': 12.775, 'epoch': 9.0} {'loss': 0.1826, 'grad_norm': 7.637009620666504, 'learning_rate': 4.0899544977248865e-05, 'epoch': 9.1} {'loss': 0.1748, 'grad_norm': 9.161368370056152, 'learning_rate': 4.0724536226811345e-05, 'epoch': 9.28} {'loss': 0.1798, 'grad_norm': 11.175768852233887, 'learning_rate': 4.054952747637382e-05, 'epoch': 9.45} {'loss': 0.1844, 'grad_norm': 8.664103507995605, 'learning_rate': 4.03745187259363e-05, 'epoch': 9.63} {'loss': 0.1886, 'grad_norm': 10.091923713684082, 'learning_rate': 4.019950997549878e-05, 'epoch': 9.8} {'loss': 0.1974, 'grad_norm': 14.300283432006836, 'learning_rate': 4.0024501225061254e-05, 'epoch': 9.98} [3 2 1 ... 0 1 0] [0 0 2 ... 0 1 0] {'eval_loss': 2.8925366401672363, 'eval_accuracy': 0.4004303131723643, 'eval_runtime': 5.2183, 'eval_samples_per_second': 801.606, 'eval_steps_per_second': 12.648, 'epoch': 10.0} {'loss': 0.1477, 'grad_norm': 8.367982864379883, 'learning_rate': 3.9849492474623735e-05, 'epoch': 10.15} {'loss': 0.1506, 'grad_norm': 14.6441068649292, 'learning_rate': 3.9674483724186215e-05, 'epoch': 10.33} {'loss': 0.1605, 'grad_norm': 11.409436225891113, 'learning_rate': 3.949947497374869e-05, 'epoch': 10.5} {'loss': 0.1671, 'grad_norm': 9.97114372253418, 'learning_rate': 3.932446622331117e-05, 'epoch': 10.68} {'loss': 0.1697, 'grad_norm': 8.829890251159668, 'learning_rate': 3.914945747287364e-05, 'epoch': 10.85} [1 2 3 ... 0 1 0] [0 0 2 ... 0 1 0] {'eval_loss': 3.009945869445801, 'eval_accuracy': 0.39875687305761415, 'eval_runtime': 5.0345, 'eval_samples_per_second': 830.865, 'eval_steps_per_second': 13.11, 'epoch': 11.0} {'loss': 0.165, 'grad_norm': 5.728878974914551, 'learning_rate': 3.8974448722436124e-05, 'epoch': 11.03} {'loss': 0.1222, 'grad_norm': 8.60106086730957, 'learning_rate': 3.8799439971998605e-05, 'epoch': 11.2} {'loss': 0.1342, 'grad_norm': 7.297552108764648, 'learning_rate': 3.862443122156108e-05, 'epoch': 11.38} {'loss': 0.1353, 'grad_norm': 4.835112571716309, 'learning_rate': 3.844942247112356e-05, 'epoch': 11.55} {'loss': 0.1392, 'grad_norm': 11.95632553100586, 'learning_rate': 3.827441372068604e-05, 'epoch': 11.73} {'loss': 0.1528, 'grad_norm': 10.495340347290039, 'learning_rate': 3.809940497024851e-05, 'epoch': 11.9} [3 2 1 ... 0 1 0] [0 0 2 ... 0 1 0] {'eval_loss': 3.1882576942443848, 'eval_accuracy': 0.4030600047812575, 'eval_runtime': 5.081, 'eval_samples_per_second': 823.256, 'eval_steps_per_second': 12.989, 'epoch': 12.0} {'loss': 0.1336, 'grad_norm': 5.680872917175293, 'learning_rate': 3.7924396219810994e-05, 'epoch': 12.08} {'loss': 0.1106, 'grad_norm': 13.108353614807129, 'learning_rate': 3.774938746937347e-05, 'epoch': 12.25} {'loss': 0.1201, 'grad_norm': 12.21268081665039, 'learning_rate': 3.757437871893595e-05, 'epoch': 12.43} {'loss': 0.1296, 'grad_norm': 8.980371475219727, 'learning_rate': 3.739936996849843e-05, 'epoch': 12.6} {'loss': 0.1321, 'grad_norm': 7.842797756195068, 'learning_rate': 3.72243612180609e-05, 'epoch': 12.78} {'loss': 0.1329, 'grad_norm': 6.895508289337158, 'learning_rate': 3.7049352467623383e-05, 'epoch': 12.95} [3 2 3 ... 2 1 0] [0 0 2 ... 0 1 0] {'eval_loss': 3.032676935195923, 'eval_accuracy': 0.4037771934018647, 'eval_runtime': 5.1875, 'eval_samples_per_second': 806.363, 'eval_steps_per_second': 12.723, 'epoch': 13.0} {'loss': 0.1095, 'grad_norm': 8.161698341369629, 'learning_rate': 3.6874343717185864e-05, 'epoch': 13.13} {'loss': 0.11, 'grad_norm': 10.45121955871582, 'learning_rate': 3.669933496674834e-05, 'epoch': 13.3} {'loss': 0.1098, 'grad_norm': 9.682628631591797, 'learning_rate': 3.652432621631082e-05, 'epoch': 13.48} {'loss': 0.1158, 'grad_norm': 11.448630332946777, 'learning_rate': 3.634931746587329e-05, 'epoch': 13.65} {'loss': 0.1209, 'grad_norm': 9.775908470153809, 'learning_rate': 3.617430871543577e-05, 'epoch': 13.83} [3 3 3 ... 2 1 0] [0 0 2 ... 0 1 0] {'eval_loss': 3.31455397605896, 'eval_accuracy': 0.4044943820224719, 'eval_runtime': 4.9726, 'eval_samples_per_second': 841.209, 'eval_steps_per_second': 13.273, 'epoch': 14.0} {'loss': 0.1192, 'grad_norm': 9.81877613067627, 'learning_rate': 3.5999299964998253e-05, 'epoch': 14.0} {'loss': 0.0886, 'grad_norm': 15.937920570373535, 'learning_rate': 3.582429121456073e-05, 'epoch': 14.18} {'loss': 0.0958, 'grad_norm': 6.875291347503662, 'learning_rate': 3.564928246412321e-05, 'epoch': 14.35} {'loss': 0.1014, 'grad_norm': 7.694157123565674, 'learning_rate': 3.547427371368569e-05, 'epoch': 14.53} {'loss': 0.1067, 'grad_norm': 12.248181343078613, 'learning_rate': 3.529926496324816e-05, 'epoch': 14.7} {'loss': 0.1086, 'grad_norm': 9.317180633544922, 'learning_rate': 3.512425621281064e-05, 'epoch': 14.88} [3 2 3 ... 3 1 0] [0 0 2 ... 0 1 0] {'eval_loss': 3.6231369972229004, 'eval_accuracy': 0.4030600047812575, 'eval_runtime': 5.3002, 'eval_samples_per_second': 789.213, 'eval_steps_per_second': 12.452, 'epoch': 15.0} {'loss': 0.1006, 'grad_norm': 10.558964729309082, 'learning_rate': 3.494924746237312e-05, 'epoch': 15.05} {'loss': 0.0861, 'grad_norm': 10.458243370056152, 'learning_rate': 3.47742387119356e-05, 'epoch': 15.23} {'loss': 0.093, 'grad_norm': 9.602523803710938, 'learning_rate': 3.459922996149808e-05, 'epoch': 15.4} {'loss': 0.0933, 'grad_norm': 4.416888236999512, 'learning_rate': 3.442422121106055e-05, 'epoch': 15.58} {'loss': 0.0936, 'grad_norm': 10.379509925842285, 'learning_rate': 3.424921246062303e-05, 'epoch': 15.75} {'loss': 0.0946, 'grad_norm': 8.990747451782227, 'learning_rate': 3.4074203710185506e-05, 'epoch': 15.93} [3 2 1 ... 2 1 0] [0 0 2 ... 0 1 0] {'eval_loss': 3.832923650741577, 'eval_accuracy': 0.40162562754004305, 'eval_runtime': 4.9281, 'eval_samples_per_second': 848.799, 'eval_steps_per_second': 13.392, 'epoch': 16.0} {'loss': 0.0851, 'grad_norm': 6.862658977508545, 'learning_rate': 3.389919495974799e-05, 'epoch': 16.1} {'loss': 0.0804, 'grad_norm': 11.915144920349121, 'learning_rate': 3.372418620931047e-05, 'epoch': 16.28} {'loss': 0.0823, 'grad_norm': 6.436585426330566, 'learning_rate': 3.354917745887294e-05, 'epoch': 16.45} {'loss': 0.0843, 'grad_norm': 7.386220932006836, 'learning_rate': 3.337416870843542e-05, 'epoch': 16.63} {'loss': 0.091, 'grad_norm': 4.029330253601074, 'learning_rate': 3.31991599579979e-05, 'epoch': 16.8} {'loss': 0.0917, 'grad_norm': 5.387266635894775, 'learning_rate': 3.3024151207560376e-05, 'epoch': 16.98} [3 2 1 ... 0 1 0] [0 0 2 ... 0 1 0] {'eval_loss': 3.410829544067383, 'eval_accuracy': 0.40831938799904377, 'eval_runtime': 5.2414, 'eval_samples_per_second': 798.063, 'eval_steps_per_second': 12.592, 'epoch': 17.0} {'loss': 0.073, 'grad_norm': 9.562952995300293, 'learning_rate': 3.284914245712286e-05, 'epoch': 17.15} {'loss': 0.0729, 'grad_norm': 10.405723571777344, 'learning_rate': 3.267413370668533e-05, 'epoch': 17.33} {'loss': 0.0827, 'grad_norm': 7.683832168579102, 'learning_rate': 3.249912495624781e-05, 'epoch': 17.5} {'loss': 0.0782, 'grad_norm': 14.459450721740723, 'learning_rate': 3.232411620581029e-05, 'epoch': 17.68} {'loss': 0.0823, 'grad_norm': 6.0533294677734375, 'learning_rate': 3.2149107455372765e-05, 'epoch': 17.85} [3 2 3 ... 3 1 0] [0 0 2 ... 0 1 0] {'eval_loss': 3.9160263538360596, 'eval_accuracy': 0.3989959359311499, 'eval_runtime': 5.0434, 'eval_samples_per_second': 829.402, 'eval_steps_per_second': 13.086, 'epoch': 18.0} {'loss': 0.0819, 'grad_norm': 13.131736755371094, 'learning_rate': 3.1974098704935246e-05, 'epoch': 18.03} {'loss': 0.0665, 'grad_norm': 10.132059097290039, 'learning_rate': 3.179908995449773e-05, 'epoch': 18.2} {'loss': 0.0713, 'grad_norm': 6.755238056182861, 'learning_rate': 3.16240812040602e-05, 'epoch': 18.38} {'loss': 0.0743, 'grad_norm': 8.763909339904785, 'learning_rate': 3.144907245362268e-05, 'epoch': 18.55} {'loss': 0.0724, 'grad_norm': 2.1036832332611084, 'learning_rate': 3.1274063703185155e-05, 'epoch': 18.73} {'loss': 0.0759, 'grad_norm': 13.36906909942627, 'learning_rate': 3.109905495274764e-05, 'epoch': 18.9} [1 2 1 ... 1 1 1] [0 0 2 ... 0 1 0] {'eval_loss': 4.189084529876709, 'eval_accuracy': 0.4021037532871145, 'eval_runtime': 5.0162, 'eval_samples_per_second': 833.894, 'eval_steps_per_second': 13.157, 'epoch': 19.0} {'loss': 0.0701, 'grad_norm': 6.931128978729248, 'learning_rate': 3.092404620231012e-05, 'epoch': 19.08} {'loss': 0.0673, 'grad_norm': 8.906102180480957, 'learning_rate': 3.07490374518726e-05, 'epoch': 19.25} {'loss': 0.0699, 'grad_norm': 3.3540921211242676, 'learning_rate': 3.057402870143508e-05, 'epoch': 19.43} {'loss': 0.0653, 'grad_norm': 1.4383997917175293, 'learning_rate': 3.0399019950997554e-05, 'epoch': 19.6} {'loss': 0.0741, 'grad_norm': 6.478917121887207, 'learning_rate': 3.0224011200560032e-05, 'epoch': 19.78} {'loss': 0.0722, 'grad_norm': 2.372495651245117, 'learning_rate': 3.004900245012251e-05, 'epoch': 19.95} [3 2 3 ... 3 1 0] [0 0 2 ... 0 1 0] {'eval_loss': 4.461926460266113, 'eval_accuracy': 0.41166626822854413, 'eval_runtime': 5.2339, 'eval_samples_per_second': 799.21, 'eval_steps_per_second': 12.61, 'epoch': 20.0} {'loss': 0.062, 'grad_norm': 10.013936042785645, 'learning_rate': 2.987399369968499e-05, 'epoch': 20.13} {'loss': 0.0579, 'grad_norm': 13.088051795959473, 'learning_rate': 2.9698984949247467e-05, 'epoch': 20.3} {'loss': 0.0659, 'grad_norm': 12.37696647644043, 'learning_rate': 2.9523976198809944e-05, 'epoch': 20.48} {'loss': 0.0646, 'grad_norm': 9.104371070861816, 'learning_rate': 2.934896744837242e-05, 'epoch': 20.65} {'loss': 0.0629, 'grad_norm': 1.534743309020996, 'learning_rate': 2.91739586979349e-05, 'epoch': 20.83} [3 2 3 ... 3 1 0] [0 0 2 ... 0 1 0] {'eval_loss': 3.8825600147247314, 'eval_accuracy': 0.40999282811379395, 'eval_runtime': 4.87, 'eval_samples_per_second': 858.939, 'eval_steps_per_second': 13.552, 'epoch': 21.0} {'loss': 0.0694, 'grad_norm': 4.8683085441589355, 'learning_rate': 2.899894994749738e-05, 'epoch': 21.0} {'loss': 0.055, 'grad_norm': 10.0079927444458, 'learning_rate': 2.8823941197059856e-05, 'epoch': 21.18} {'loss': 0.0565, 'grad_norm': 8.396007537841797, 'learning_rate': 2.8648932446622333e-05, 'epoch': 21.35} {'loss': 0.0575, 'grad_norm': 9.76453971862793, 'learning_rate': 2.847392369618481e-05, 'epoch': 21.53} {'loss': 0.061, 'grad_norm': 4.032108783721924, 'learning_rate': 2.829891494574729e-05, 'epoch': 21.7} {'loss': 0.061, 'grad_norm': 6.91244649887085, 'learning_rate': 2.812390619530977e-05, 'epoch': 21.88} [3 3 1 ... 3 1 0] [0 0 2 ... 0 1 0] {'eval_loss': 4.351003170013428, 'eval_accuracy': 0.4066459478842936, 'eval_runtime': 5.1312, 'eval_samples_per_second': 815.21, 'eval_steps_per_second': 12.863, 'epoch': 22.0} {'loss': 0.0585, 'grad_norm': 6.355452060699463, 'learning_rate': 2.7948897444872246e-05, 'epoch': 22.05} {'loss': 0.0533, 'grad_norm': 3.642059803009033, 'learning_rate': 2.7773888694434723e-05, 'epoch': 22.23} {'loss': 0.0553, 'grad_norm': 10.472013473510742, 'learning_rate': 2.7598879943997203e-05, 'epoch': 22.4} {'loss': 0.0544, 'grad_norm': 6.09908390045166, 'learning_rate': 2.742387119355968e-05, 'epoch': 22.58} {'loss': 0.0572, 'grad_norm': 7.71782112121582, 'learning_rate': 2.7248862443122158e-05, 'epoch': 22.75} {'loss': 0.0599, 'grad_norm': 6.481327533721924, 'learning_rate': 2.7073853692684635e-05, 'epoch': 22.93}