Training in progress, epoch 37

91e44c2 verified 8 months ago

29.9 kB

	{'loss': 1.3717, 'grad_norm': 0.8425632119178772, 'learning_rate': 4.982499124956248e-05, 'epoch': 0.18}
	{'loss': 1.353, 'grad_norm': 0.8637511134147644, 'learning_rate': 4.964998249912496e-05, 'epoch': 0.35}
	{'loss': 1.3378, 'grad_norm': 1.4266023635864258, 'learning_rate': 4.947497374868744e-05, 'epoch': 0.53}
	{'loss': 1.3218, 'grad_norm': 2.0084288120269775, 'learning_rate': 4.929996499824991e-05, 'epoch': 0.7}
	{'loss': 1.307, 'grad_norm': 1.9190274477005005, 'learning_rate': 4.912495624781239e-05, 'epoch': 0.88}
	[3 0 1 ... 0 0 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 1.3398776054382324, 'eval_accuracy': 0.34759741812096584, 'eval_runtime': 5.0308, 'eval_samples_per_second': 831.486, 'eval_steps_per_second': 13.119, 'epoch': 1.0}
	{'loss': 1.2642, 'grad_norm': 3.536259412765503, 'learning_rate': 4.894994749737487e-05, 'epoch': 1.05}
	{'loss': 1.1756, 'grad_norm': 3.510762929916382, 'learning_rate': 4.8774938746937346e-05, 'epoch': 1.23}
	{'loss': 1.1696, 'grad_norm': 4.958428859710693, 'learning_rate': 4.859992999649983e-05, 'epoch': 1.4}
	{'loss': 1.1518, 'grad_norm': 4.598385334014893, 'learning_rate': 4.842492124606231e-05, 'epoch': 1.58}
	{'loss': 1.1337, 'grad_norm': 3.808668851852417, 'learning_rate': 4.824991249562478e-05, 'epoch': 1.75}
	{'loss': 1.1199, 'grad_norm': 4.093677520751953, 'learning_rate': 4.807490374518726e-05, 'epoch': 1.93}
	[3 0 3 ... 0 0 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 1.3871146440505981, 'eval_accuracy': 0.36146306478603873, 'eval_runtime': 5.168, 'eval_samples_per_second': 809.403, 'eval_steps_per_second': 12.771, 'epoch': 2.0}
	{'loss': 0.9912, 'grad_norm': 7.0247344970703125, 'learning_rate': 4.7899894994749736e-05, 'epoch': 2.1}
	{'loss': 0.9039, 'grad_norm': 5.99714469909668, 'learning_rate': 4.7724886244312216e-05, 'epoch': 2.28}
	{'loss': 0.906, 'grad_norm': 8.772993087768555, 'learning_rate': 4.75498774938747e-05, 'epoch': 2.45}
	{'loss': 0.8987, 'grad_norm': 7.529561519622803, 'learning_rate': 4.737486874343717e-05, 'epoch': 2.63}
	{'loss': 0.8948, 'grad_norm': 7.655035018920898, 'learning_rate': 4.719985999299965e-05, 'epoch': 2.8}
	{'loss': 0.8947, 'grad_norm': 7.14945125579834, 'learning_rate': 4.702485124256213e-05, 'epoch': 2.98}
	[3 3 3 ... 2 1 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 1.4768593311309814, 'eval_accuracy': 0.3853693521396127, 'eval_runtime': 5.0272, 'eval_samples_per_second': 832.08, 'eval_steps_per_second': 13.129, 'epoch': 3.0}
	{'loss': 0.6962, 'grad_norm': 9.295475006103516, 'learning_rate': 4.6849842492124606e-05, 'epoch': 3.15}
	{'loss': 0.6763, 'grad_norm': 10.301146507263184, 'learning_rate': 4.6674833741687086e-05, 'epoch': 3.33}
	{'loss': 0.6865, 'grad_norm': 7.7962565422058105, 'learning_rate': 4.649982499124956e-05, 'epoch': 3.5}
	{'loss': 0.6819, 'grad_norm': 7.269796848297119, 'learning_rate': 4.632481624081204e-05, 'epoch': 3.68}
	{'loss': 0.696, 'grad_norm': 8.324944496154785, 'learning_rate': 4.614980749037452e-05, 'epoch': 3.85}
	[3 3 2 ... 0 1 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 1.6681735515594482, 'eval_accuracy': 0.396127181448721, 'eval_runtime': 5.0295, 'eval_samples_per_second': 831.699, 'eval_steps_per_second': 13.123, 'epoch': 4.0}
	{'loss': 0.667, 'grad_norm': 10.500767707824707, 'learning_rate': 4.5974798739936995e-05, 'epoch': 4.03}
	{'loss': 0.4947, 'grad_norm': 10.41182804107666, 'learning_rate': 4.5799789989499476e-05, 'epoch': 4.2}
	{'loss': 0.5094, 'grad_norm': 10.82896614074707, 'learning_rate': 4.5624781239061956e-05, 'epoch': 4.38}
	{'loss': 0.5182, 'grad_norm': 7.591678619384766, 'learning_rate': 4.544977248862443e-05, 'epoch': 4.55}
	{'loss': 0.5407, 'grad_norm': 7.200017929077148, 'learning_rate': 4.527476373818691e-05, 'epoch': 4.73}
	{'loss': 0.5363, 'grad_norm': 9.024789810180664, 'learning_rate': 4.5099754987749384e-05, 'epoch': 4.9}
	[1 3 3 ... 2 1 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 1.9205493927001953, 'eval_accuracy': 0.3891943581161846, 'eval_runtime': 5.2354, 'eval_samples_per_second': 798.976, 'eval_steps_per_second': 12.606, 'epoch': 5.0}
	{'loss': 0.4685, 'grad_norm': 7.957944393157959, 'learning_rate': 4.4924746237311865e-05, 'epoch': 5.08}
	{'loss': 0.3755, 'grad_norm': 8.208980560302734, 'learning_rate': 4.4749737486874346e-05, 'epoch': 5.25}
	{'loss': 0.3929, 'grad_norm': 10.96563720703125, 'learning_rate': 4.457472873643682e-05, 'epoch': 5.43}
	{'loss': 0.4053, 'grad_norm': 12.499752044677734, 'learning_rate': 4.43997199859993e-05, 'epoch': 5.6}
	{'loss': 0.4152, 'grad_norm': 9.879837989807129, 'learning_rate': 4.422471123556178e-05, 'epoch': 5.78}
	{'loss': 0.4206, 'grad_norm': 8.698701858520508, 'learning_rate': 4.4049702485124255e-05, 'epoch': 5.95}
	[3 3 3 ... 3 1 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 2.0211398601531982, 'eval_accuracy': 0.3923021754721492, 'eval_runtime': 4.8116, 'eval_samples_per_second': 869.359, 'eval_steps_per_second': 13.717, 'epoch': 6.0}
	{'loss': 0.3254, 'grad_norm': 8.286091804504395, 'learning_rate': 4.3874693734686735e-05, 'epoch': 6.13}
	{'loss': 0.2994, 'grad_norm': 11.987117767333984, 'learning_rate': 4.3699684984249216e-05, 'epoch': 6.3}
	{'loss': 0.317, 'grad_norm': 12.051315307617188, 'learning_rate': 4.3524676233811696e-05, 'epoch': 6.48}
	{'loss': 0.323, 'grad_norm': 10.532122611999512, 'learning_rate': 4.334966748337417e-05, 'epoch': 6.65}
	{'loss': 0.3356, 'grad_norm': 10.152750015258789, 'learning_rate': 4.317465873293665e-05, 'epoch': 6.83}
	[3 2 1 ... 0 1 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 2.379138946533203, 'eval_accuracy': 0.39803968443700694, 'eval_runtime': 5.2366, 'eval_samples_per_second': 798.799, 'eval_steps_per_second': 12.604, 'epoch': 7.0}
	{'loss': 0.3413, 'grad_norm': 5.218087196350098, 'learning_rate': 4.299964998249913e-05, 'epoch': 7.0}
	{'loss': 0.2253, 'grad_norm': 13.4560546875, 'learning_rate': 4.2824641232061605e-05, 'epoch': 7.18}
	{'loss': 0.2508, 'grad_norm': 8.933915138244629, 'learning_rate': 4.2649632481624086e-05, 'epoch': 7.35}
	{'loss': 0.2584, 'grad_norm': 9.784185409545898, 'learning_rate': 4.2474623731186566e-05, 'epoch': 7.53}
	{'loss': 0.2605, 'grad_norm': 8.28528118133545, 'learning_rate': 4.229961498074904e-05, 'epoch': 7.7}
	{'loss': 0.2744, 'grad_norm': 7.679172515869141, 'learning_rate': 4.212460623031152e-05, 'epoch': 7.88}
	[3 0 3 ... 2 1 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 2.4870290756225586, 'eval_accuracy': 0.4044943820224719, 'eval_runtime': 4.9619, 'eval_samples_per_second': 843.029, 'eval_steps_per_second': 13.301, 'epoch': 8.0}
	{'loss': 0.2535, 'grad_norm': 9.526900291442871, 'learning_rate': 4.1949597479873995e-05, 'epoch': 8.05}
	{'loss': 0.2008, 'grad_norm': 9.026641845703125, 'learning_rate': 4.1774588729436475e-05, 'epoch': 8.23}
	{'loss': 0.2046, 'grad_norm': 11.880026817321777, 'learning_rate': 4.1599579978998956e-05, 'epoch': 8.4}
	{'loss': 0.2181, 'grad_norm': 8.357426643371582, 'learning_rate': 4.142457122856143e-05, 'epoch': 8.58}
	{'loss': 0.2219, 'grad_norm': 11.225452423095703, 'learning_rate': 4.124956247812391e-05, 'epoch': 8.75}
	{'loss': 0.2318, 'grad_norm': 12.459203720092773, 'learning_rate': 4.107455372768639e-05, 'epoch': 8.93}
	[3 1 1 ... 0 1 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 3.0215201377868652, 'eval_accuracy': 0.41310064546975855, 'eval_runtime': 5.1665, 'eval_samples_per_second': 809.638, 'eval_steps_per_second': 12.775, 'epoch': 9.0}
	{'loss': 0.1826, 'grad_norm': 7.637009620666504, 'learning_rate': 4.0899544977248865e-05, 'epoch': 9.1}
	{'loss': 0.1748, 'grad_norm': 9.161368370056152, 'learning_rate': 4.0724536226811345e-05, 'epoch': 9.28}
	{'loss': 0.1798, 'grad_norm': 11.175768852233887, 'learning_rate': 4.054952747637382e-05, 'epoch': 9.45}
	{'loss': 0.1844, 'grad_norm': 8.664103507995605, 'learning_rate': 4.03745187259363e-05, 'epoch': 9.63}
	{'loss': 0.1886, 'grad_norm': 10.091923713684082, 'learning_rate': 4.019950997549878e-05, 'epoch': 9.8}
	{'loss': 0.1974, 'grad_norm': 14.300283432006836, 'learning_rate': 4.0024501225061254e-05, 'epoch': 9.98}
	[3 2 1 ... 0 1 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 2.8925366401672363, 'eval_accuracy': 0.4004303131723643, 'eval_runtime': 5.2183, 'eval_samples_per_second': 801.606, 'eval_steps_per_second': 12.648, 'epoch': 10.0}
	{'loss': 0.1477, 'grad_norm': 8.367982864379883, 'learning_rate': 3.9849492474623735e-05, 'epoch': 10.15}
	{'loss': 0.1506, 'grad_norm': 14.6441068649292, 'learning_rate': 3.9674483724186215e-05, 'epoch': 10.33}
	{'loss': 0.1605, 'grad_norm': 11.409436225891113, 'learning_rate': 3.949947497374869e-05, 'epoch': 10.5}
	{'loss': 0.1671, 'grad_norm': 9.97114372253418, 'learning_rate': 3.932446622331117e-05, 'epoch': 10.68}
	{'loss': 0.1697, 'grad_norm': 8.829890251159668, 'learning_rate': 3.914945747287364e-05, 'epoch': 10.85}
	[1 2 3 ... 0 1 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 3.009945869445801, 'eval_accuracy': 0.39875687305761415, 'eval_runtime': 5.0345, 'eval_samples_per_second': 830.865, 'eval_steps_per_second': 13.11, 'epoch': 11.0}
	{'loss': 0.165, 'grad_norm': 5.728878974914551, 'learning_rate': 3.8974448722436124e-05, 'epoch': 11.03}
	{'loss': 0.1222, 'grad_norm': 8.60106086730957, 'learning_rate': 3.8799439971998605e-05, 'epoch': 11.2}
	{'loss': 0.1342, 'grad_norm': 7.297552108764648, 'learning_rate': 3.862443122156108e-05, 'epoch': 11.38}
	{'loss': 0.1353, 'grad_norm': 4.835112571716309, 'learning_rate': 3.844942247112356e-05, 'epoch': 11.55}
	{'loss': 0.1392, 'grad_norm': 11.95632553100586, 'learning_rate': 3.827441372068604e-05, 'epoch': 11.73}
	{'loss': 0.1528, 'grad_norm': 10.495340347290039, 'learning_rate': 3.809940497024851e-05, 'epoch': 11.9}
	[3 2 1 ... 0 1 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 3.1882576942443848, 'eval_accuracy': 0.4030600047812575, 'eval_runtime': 5.081, 'eval_samples_per_second': 823.256, 'eval_steps_per_second': 12.989, 'epoch': 12.0}
	{'loss': 0.1336, 'grad_norm': 5.680872917175293, 'learning_rate': 3.7924396219810994e-05, 'epoch': 12.08}
	{'loss': 0.1106, 'grad_norm': 13.108353614807129, 'learning_rate': 3.774938746937347e-05, 'epoch': 12.25}
	{'loss': 0.1201, 'grad_norm': 12.21268081665039, 'learning_rate': 3.757437871893595e-05, 'epoch': 12.43}
	{'loss': 0.1296, 'grad_norm': 8.980371475219727, 'learning_rate': 3.739936996849843e-05, 'epoch': 12.6}
	{'loss': 0.1321, 'grad_norm': 7.842797756195068, 'learning_rate': 3.72243612180609e-05, 'epoch': 12.78}
	{'loss': 0.1329, 'grad_norm': 6.895508289337158, 'learning_rate': 3.7049352467623383e-05, 'epoch': 12.95}
	[3 2 3 ... 2 1 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 3.032676935195923, 'eval_accuracy': 0.4037771934018647, 'eval_runtime': 5.1875, 'eval_samples_per_second': 806.363, 'eval_steps_per_second': 12.723, 'epoch': 13.0}
	{'loss': 0.1095, 'grad_norm': 8.161698341369629, 'learning_rate': 3.6874343717185864e-05, 'epoch': 13.13}
	{'loss': 0.11, 'grad_norm': 10.45121955871582, 'learning_rate': 3.669933496674834e-05, 'epoch': 13.3}
	{'loss': 0.1098, 'grad_norm': 9.682628631591797, 'learning_rate': 3.652432621631082e-05, 'epoch': 13.48}
	{'loss': 0.1158, 'grad_norm': 11.448630332946777, 'learning_rate': 3.634931746587329e-05, 'epoch': 13.65}
	{'loss': 0.1209, 'grad_norm': 9.775908470153809, 'learning_rate': 3.617430871543577e-05, 'epoch': 13.83}
	[3 3 3 ... 2 1 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 3.31455397605896, 'eval_accuracy': 0.4044943820224719, 'eval_runtime': 4.9726, 'eval_samples_per_second': 841.209, 'eval_steps_per_second': 13.273, 'epoch': 14.0}
	{'loss': 0.1192, 'grad_norm': 9.81877613067627, 'learning_rate': 3.5999299964998253e-05, 'epoch': 14.0}
	{'loss': 0.0886, 'grad_norm': 15.937920570373535, 'learning_rate': 3.582429121456073e-05, 'epoch': 14.18}
	{'loss': 0.0958, 'grad_norm': 6.875291347503662, 'learning_rate': 3.564928246412321e-05, 'epoch': 14.35}
	{'loss': 0.1014, 'grad_norm': 7.694157123565674, 'learning_rate': 3.547427371368569e-05, 'epoch': 14.53}
	{'loss': 0.1067, 'grad_norm': 12.248181343078613, 'learning_rate': 3.529926496324816e-05, 'epoch': 14.7}
	{'loss': 0.1086, 'grad_norm': 9.317180633544922, 'learning_rate': 3.512425621281064e-05, 'epoch': 14.88}
	[3 2 3 ... 3 1 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 3.6231369972229004, 'eval_accuracy': 0.4030600047812575, 'eval_runtime': 5.3002, 'eval_samples_per_second': 789.213, 'eval_steps_per_second': 12.452, 'epoch': 15.0}
	{'loss': 0.1006, 'grad_norm': 10.558964729309082, 'learning_rate': 3.494924746237312e-05, 'epoch': 15.05}
	{'loss': 0.0861, 'grad_norm': 10.458243370056152, 'learning_rate': 3.47742387119356e-05, 'epoch': 15.23}
	{'loss': 0.093, 'grad_norm': 9.602523803710938, 'learning_rate': 3.459922996149808e-05, 'epoch': 15.4}
	{'loss': 0.0933, 'grad_norm': 4.416888236999512, 'learning_rate': 3.442422121106055e-05, 'epoch': 15.58}
	{'loss': 0.0936, 'grad_norm': 10.379509925842285, 'learning_rate': 3.424921246062303e-05, 'epoch': 15.75}
	{'loss': 0.0946, 'grad_norm': 8.990747451782227, 'learning_rate': 3.4074203710185506e-05, 'epoch': 15.93}
	[3 2 1 ... 2 1 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 3.832923650741577, 'eval_accuracy': 0.40162562754004305, 'eval_runtime': 4.9281, 'eval_samples_per_second': 848.799, 'eval_steps_per_second': 13.392, 'epoch': 16.0}
	{'loss': 0.0851, 'grad_norm': 6.862658977508545, 'learning_rate': 3.389919495974799e-05, 'epoch': 16.1}
	{'loss': 0.0804, 'grad_norm': 11.915144920349121, 'learning_rate': 3.372418620931047e-05, 'epoch': 16.28}
	{'loss': 0.0823, 'grad_norm': 6.436585426330566, 'learning_rate': 3.354917745887294e-05, 'epoch': 16.45}
	{'loss': 0.0843, 'grad_norm': 7.386220932006836, 'learning_rate': 3.337416870843542e-05, 'epoch': 16.63}
	{'loss': 0.091, 'grad_norm': 4.029330253601074, 'learning_rate': 3.31991599579979e-05, 'epoch': 16.8}
	{'loss': 0.0917, 'grad_norm': 5.387266635894775, 'learning_rate': 3.3024151207560376e-05, 'epoch': 16.98}
	[3 2 1 ... 0 1 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 3.410829544067383, 'eval_accuracy': 0.40831938799904377, 'eval_runtime': 5.2414, 'eval_samples_per_second': 798.063, 'eval_steps_per_second': 12.592, 'epoch': 17.0}
	{'loss': 0.073, 'grad_norm': 9.562952995300293, 'learning_rate': 3.284914245712286e-05, 'epoch': 17.15}
	{'loss': 0.0729, 'grad_norm': 10.405723571777344, 'learning_rate': 3.267413370668533e-05, 'epoch': 17.33}
	{'loss': 0.0827, 'grad_norm': 7.683832168579102, 'learning_rate': 3.249912495624781e-05, 'epoch': 17.5}
	{'loss': 0.0782, 'grad_norm': 14.459450721740723, 'learning_rate': 3.232411620581029e-05, 'epoch': 17.68}
	{'loss': 0.0823, 'grad_norm': 6.0533294677734375, 'learning_rate': 3.2149107455372765e-05, 'epoch': 17.85}
	[3 2 3 ... 3 1 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 3.9160263538360596, 'eval_accuracy': 0.3989959359311499, 'eval_runtime': 5.0434, 'eval_samples_per_second': 829.402, 'eval_steps_per_second': 13.086, 'epoch': 18.0}
	{'loss': 0.0819, 'grad_norm': 13.131736755371094, 'learning_rate': 3.1974098704935246e-05, 'epoch': 18.03}
	{'loss': 0.0665, 'grad_norm': 10.132059097290039, 'learning_rate': 3.179908995449773e-05, 'epoch': 18.2}
	{'loss': 0.0713, 'grad_norm': 6.755238056182861, 'learning_rate': 3.16240812040602e-05, 'epoch': 18.38}
	{'loss': 0.0743, 'grad_norm': 8.763909339904785, 'learning_rate': 3.144907245362268e-05, 'epoch': 18.55}
	{'loss': 0.0724, 'grad_norm': 2.1036832332611084, 'learning_rate': 3.1274063703185155e-05, 'epoch': 18.73}
	{'loss': 0.0759, 'grad_norm': 13.36906909942627, 'learning_rate': 3.109905495274764e-05, 'epoch': 18.9}
	[1 2 1 ... 1 1 1] [0 0 2 ... 0 1 0]
	{'eval_loss': 4.189084529876709, 'eval_accuracy': 0.4021037532871145, 'eval_runtime': 5.0162, 'eval_samples_per_second': 833.894, 'eval_steps_per_second': 13.157, 'epoch': 19.0}
	{'loss': 0.0701, 'grad_norm': 6.931128978729248, 'learning_rate': 3.092404620231012e-05, 'epoch': 19.08}
	{'loss': 0.0673, 'grad_norm': 8.906102180480957, 'learning_rate': 3.07490374518726e-05, 'epoch': 19.25}
	{'loss': 0.0699, 'grad_norm': 3.3540921211242676, 'learning_rate': 3.057402870143508e-05, 'epoch': 19.43}
	{'loss': 0.0653, 'grad_norm': 1.4383997917175293, 'learning_rate': 3.0399019950997554e-05, 'epoch': 19.6}
	{'loss': 0.0741, 'grad_norm': 6.478917121887207, 'learning_rate': 3.0224011200560032e-05, 'epoch': 19.78}
	{'loss': 0.0722, 'grad_norm': 2.372495651245117, 'learning_rate': 3.004900245012251e-05, 'epoch': 19.95}
	[3 2 3 ... 3 1 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 4.461926460266113, 'eval_accuracy': 0.41166626822854413, 'eval_runtime': 5.2339, 'eval_samples_per_second': 799.21, 'eval_steps_per_second': 12.61, 'epoch': 20.0}
	{'loss': 0.062, 'grad_norm': 10.013936042785645, 'learning_rate': 2.987399369968499e-05, 'epoch': 20.13}
	{'loss': 0.0579, 'grad_norm': 13.088051795959473, 'learning_rate': 2.9698984949247467e-05, 'epoch': 20.3}
	{'loss': 0.0659, 'grad_norm': 12.37696647644043, 'learning_rate': 2.9523976198809944e-05, 'epoch': 20.48}
	{'loss': 0.0646, 'grad_norm': 9.104371070861816, 'learning_rate': 2.934896744837242e-05, 'epoch': 20.65}
	{'loss': 0.0629, 'grad_norm': 1.534743309020996, 'learning_rate': 2.91739586979349e-05, 'epoch': 20.83}
	[3 2 3 ... 3 1 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 3.8825600147247314, 'eval_accuracy': 0.40999282811379395, 'eval_runtime': 4.87, 'eval_samples_per_second': 858.939, 'eval_steps_per_second': 13.552, 'epoch': 21.0}
	{'loss': 0.0694, 'grad_norm': 4.8683085441589355, 'learning_rate': 2.899894994749738e-05, 'epoch': 21.0}
	{'loss': 0.055, 'grad_norm': 10.0079927444458, 'learning_rate': 2.8823941197059856e-05, 'epoch': 21.18}
	{'loss': 0.0565, 'grad_norm': 8.396007537841797, 'learning_rate': 2.8648932446622333e-05, 'epoch': 21.35}
	{'loss': 0.0575, 'grad_norm': 9.76453971862793, 'learning_rate': 2.847392369618481e-05, 'epoch': 21.53}
	{'loss': 0.061, 'grad_norm': 4.032108783721924, 'learning_rate': 2.829891494574729e-05, 'epoch': 21.7}
	{'loss': 0.061, 'grad_norm': 6.91244649887085, 'learning_rate': 2.812390619530977e-05, 'epoch': 21.88}
	[3 3 1 ... 3 1 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 4.351003170013428, 'eval_accuracy': 0.4066459478842936, 'eval_runtime': 5.1312, 'eval_samples_per_second': 815.21, 'eval_steps_per_second': 12.863, 'epoch': 22.0}
	{'loss': 0.0585, 'grad_norm': 6.355452060699463, 'learning_rate': 2.7948897444872246e-05, 'epoch': 22.05}
	{'loss': 0.0533, 'grad_norm': 3.642059803009033, 'learning_rate': 2.7773888694434723e-05, 'epoch': 22.23}
	{'loss': 0.0553, 'grad_norm': 10.472013473510742, 'learning_rate': 2.7598879943997203e-05, 'epoch': 22.4}
	{'loss': 0.0544, 'grad_norm': 6.09908390045166, 'learning_rate': 2.742387119355968e-05, 'epoch': 22.58}
	{'loss': 0.0572, 'grad_norm': 7.71782112121582, 'learning_rate': 2.7248862443122158e-05, 'epoch': 22.75}
	{'loss': 0.0599, 'grad_norm': 6.481327533721924, 'learning_rate': 2.7073853692684635e-05, 'epoch': 22.93}
	[3 3 1 ... 0 1 1] [0 0 2 ... 0 1 0]
	{'eval_loss': 4.76491641998291, 'eval_accuracy': 0.41023189098732965, 'eval_runtime': 5.0443, 'eval_samples_per_second': 829.251, 'eval_steps_per_second': 13.084, 'epoch': 23.0}
	{'loss': 0.0519, 'grad_norm': 2.8318750858306885, 'learning_rate': 2.6898844942247116e-05, 'epoch': 23.1}
	{'loss': 0.0532, 'grad_norm': 7.258909702301025, 'learning_rate': 2.6723836191809593e-05, 'epoch': 23.28}
	{'loss': 0.0501, 'grad_norm': 0.505663275718689, 'learning_rate': 2.654882744137207e-05, 'epoch': 23.45}
	{'loss': 0.0534, 'grad_norm': 6.822935581207275, 'learning_rate': 2.6373818690934547e-05, 'epoch': 23.63}
	{'loss': 0.0539, 'grad_norm': 3.6410772800445557, 'learning_rate': 2.6198809940497028e-05, 'epoch': 23.8}
	{'loss': 0.0515, 'grad_norm': 2.032815933227539, 'learning_rate': 2.6023801190059505e-05, 'epoch': 23.98}
	[3 2 1 ... 3 1 1] [0 0 2 ... 0 1 0]
	{'eval_loss': 4.693360805511475, 'eval_accuracy': 0.4133397083432943, 'eval_runtime': 5.1254, 'eval_samples_per_second': 816.131, 'eval_steps_per_second': 12.877, 'epoch': 24.0}
	{'loss': 0.0478, 'grad_norm': 8.752219200134277, 'learning_rate': 2.5848792439621982e-05, 'epoch': 24.15}
	{'loss': 0.0488, 'grad_norm': 4.398344039916992, 'learning_rate': 2.567378368918446e-05, 'epoch': 24.33}
	{'loss': 0.0467, 'grad_norm': 5.432986736297607, 'learning_rate': 2.549877493874694e-05, 'epoch': 24.5}
	{'loss': 0.0502, 'grad_norm': 0.2259376496076584, 'learning_rate': 2.5323766188309417e-05, 'epoch': 24.68}
	{'loss': 0.0514, 'grad_norm': 0.8192177414894104, 'learning_rate': 2.5148757437871894e-05, 'epoch': 24.85}
	[3 2 1 ... 3 1 1] [0 0 2 ... 0 1 0]
	{'eval_loss': 5.038031578063965, 'eval_accuracy': 0.41357877121683, 'eval_runtime': 5.0505, 'eval_samples_per_second': 828.237, 'eval_steps_per_second': 13.068, 'epoch': 25.0}
	{'loss': 0.0477, 'grad_norm': 13.82257080078125, 'learning_rate': 2.497374868743437e-05, 'epoch': 25.03}
	{'loss': 0.0445, 'grad_norm': 8.870857238769531, 'learning_rate': 2.4798739936996852e-05, 'epoch': 25.2}
	{'loss': 0.0446, 'grad_norm': 10.2579345703125, 'learning_rate': 2.462373118655933e-05, 'epoch': 25.38}
	{'loss': 0.0465, 'grad_norm': 10.811075210571289, 'learning_rate': 2.4448722436121807e-05, 'epoch': 25.55}
	{'loss': 0.0483, 'grad_norm': 3.9272687435150146, 'learning_rate': 2.4273713685684284e-05, 'epoch': 25.73}
	{'loss': 0.0481, 'grad_norm': 0.8690231442451477, 'learning_rate': 2.4098704935246764e-05, 'epoch': 25.9}
	[3 2 1 ... 0 1 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 5.644454002380371, 'eval_accuracy': 0.4164475256992589, 'eval_runtime': 5.0482, 'eval_samples_per_second': 828.609, 'eval_steps_per_second': 13.074, 'epoch': 26.0}
	{'loss': 0.0456, 'grad_norm': 1.7615258693695068, 'learning_rate': 2.392369618480924e-05, 'epoch': 26.08}
	{'loss': 0.0369, 'grad_norm': 2.96238112449646, 'learning_rate': 2.374868743437172e-05, 'epoch': 26.25}
	{'loss': 0.0442, 'grad_norm': 1.997531771659851, 'learning_rate': 2.3573678683934196e-05, 'epoch': 26.43}
	{'loss': 0.0428, 'grad_norm': 10.590956687927246, 'learning_rate': 2.3398669933496677e-05, 'epoch': 26.6}
	{'loss': 0.0449, 'grad_norm': 15.461783409118652, 'learning_rate': 2.3223661183059154e-05, 'epoch': 26.78}
	{'loss': 0.0463, 'grad_norm': 9.42243480682373, 'learning_rate': 2.304865243262163e-05, 'epoch': 26.95}
	[3 2 1 ... 3 1 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 5.401566028594971, 'eval_accuracy': 0.4150131484580445, 'eval_runtime': 5.1892, 'eval_samples_per_second': 806.096, 'eval_steps_per_second': 12.719, 'epoch': 27.0}
	{'loss': 0.0376, 'grad_norm': 3.698101043701172, 'learning_rate': 2.2873643682184108e-05, 'epoch': 27.13}
	{'loss': 0.0379, 'grad_norm': 11.145508766174316, 'learning_rate': 2.269863493174659e-05, 'epoch': 27.3}
	{'loss': 0.0411, 'grad_norm': 1.2739465236663818, 'learning_rate': 2.2523626181309066e-05, 'epoch': 27.48}
	{'loss': 0.0397, 'grad_norm': 0.7999504208564758, 'learning_rate': 2.2348617430871543e-05, 'epoch': 27.65}
	{'loss': 0.043, 'grad_norm': 0.1800367683172226, 'learning_rate': 2.217360868043402e-05, 'epoch': 27.83}
	[3 3 1 ... 0 1 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 5.35640811920166, 'eval_accuracy': 0.41190533110207983, 'eval_runtime': 5.0585, 'eval_samples_per_second': 826.922, 'eval_steps_per_second': 13.047, 'epoch': 28.0}
	{'loss': 0.0421, 'grad_norm': 14.743362426757812, 'learning_rate': 2.19985999299965e-05, 'epoch': 28.0}
	{'loss': 0.0352, 'grad_norm': 8.293474197387695, 'learning_rate': 2.182359117955898e-05, 'epoch': 28.18}
	{'loss': 0.0375, 'grad_norm': 0.09835419803857803, 'learning_rate': 2.164858242912146e-05, 'epoch': 28.35}
	{'loss': 0.0406, 'grad_norm': 1.9000002145767212, 'learning_rate': 2.1473573678683936e-05, 'epoch': 28.53}
	{'loss': 0.039, 'grad_norm': 3.016406774520874, 'learning_rate': 2.1298564928246413e-05, 'epoch': 28.7}
	{'loss': 0.0412, 'grad_norm': 5.020988941192627, 'learning_rate': 2.1123556177808894e-05, 'epoch': 28.88}
	[3 2 3 ... 0 1 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 5.662747383117676, 'eval_accuracy': 0.4150131484580445, 'eval_runtime': 5.1888, 'eval_samples_per_second': 806.157, 'eval_steps_per_second': 12.72, 'epoch': 29.0}
	{'loss': 0.0356, 'grad_norm': 0.3864443004131317, 'learning_rate': 2.094854742737137e-05, 'epoch': 29.05}
	{'loss': 0.0337, 'grad_norm': 15.130627632141113, 'learning_rate': 2.0773538676933848e-05, 'epoch': 29.23}
	{'loss': 0.0352, 'grad_norm': 7.543297290802002, 'learning_rate': 2.0598529926496325e-05, 'epoch': 29.4}
	{'loss': 0.0356, 'grad_norm': 8.53040885925293, 'learning_rate': 2.0423521176058806e-05, 'epoch': 29.58}
	{'loss': 0.0361, 'grad_norm': 1.1327402591705322, 'learning_rate': 2.0248512425621283e-05, 'epoch': 29.75}
	{'loss': 0.0407, 'grad_norm': 10.344635009765625, 'learning_rate': 2.007350367518376e-05, 'epoch': 29.93}
	[3 2 1 ... 0 1 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 5.793868064880371, 'eval_accuracy': 0.41668658857279467, 'eval_runtime': 5.0419, 'eval_samples_per_second': 829.64, 'eval_steps_per_second': 13.09, 'epoch': 30.0}
	{'loss': 0.0329, 'grad_norm': 16.23655891418457, 'learning_rate': 1.9898494924746238e-05, 'epoch': 30.1}
	{'loss': 0.034, 'grad_norm': 2.007812023162842, 'learning_rate': 1.9723486174308718e-05, 'epoch': 30.28}
	{'loss': 0.0322, 'grad_norm': 12.726685523986816, 'learning_rate': 1.9548477423871195e-05, 'epoch': 30.45}
	{'loss': 0.0329, 'grad_norm': 2.3587682247161865, 'learning_rate': 1.9373468673433673e-05, 'epoch': 30.63}
	{'loss': 0.0324, 'grad_norm': 1.474263310432434, 'learning_rate': 1.919845992299615e-05, 'epoch': 30.8}
	{'loss': 0.0333, 'grad_norm': 9.734752655029297, 'learning_rate': 1.902345117255863e-05, 'epoch': 30.98}
	[3 2 1 ... 0 1 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 6.531726360321045, 'eval_accuracy': 0.4171647143198661, 'eval_runtime': 5.0183, 'eval_samples_per_second': 833.542, 'eval_steps_per_second': 13.152, 'epoch': 31.0}
	{'loss': 0.0276, 'grad_norm': 9.097105026245117, 'learning_rate': 1.8848442422121108e-05, 'epoch': 31.15}
	{'loss': 0.0306, 'grad_norm': 3.0445449352264404, 'learning_rate': 1.8673433671683585e-05, 'epoch': 31.33}
	{'loss': 0.0314, 'grad_norm': 10.850336074829102, 'learning_rate': 1.8498424921246062e-05, 'epoch': 31.5}
	{'loss': 0.0311, 'grad_norm': 5.208418846130371, 'learning_rate': 1.8323416170808543e-05, 'epoch': 31.68}
	{'loss': 0.0357, 'grad_norm': 4.947464466094971, 'learning_rate': 1.814840742037102e-05, 'epoch': 31.85}
	[3 3 1 ... 0 1 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 6.864943504333496, 'eval_accuracy': 0.4152522113315802, 'eval_runtime': 4.8648, 'eval_samples_per_second': 859.858, 'eval_steps_per_second': 13.567, 'epoch': 32.0}
	{'loss': 0.0313, 'grad_norm': 0.3636768162250519, 'learning_rate': 1.7973398669933497e-05, 'epoch': 32.03}
	{'loss': 0.0272, 'grad_norm': 2.6205763816833496, 'learning_rate': 1.7798389919495974e-05, 'epoch': 32.2}
	{'loss': 0.029, 'grad_norm': 9.222456932067871, 'learning_rate': 1.7623381169058455e-05, 'epoch': 32.38}
	{'loss': 0.0281, 'grad_norm': 1.3722457885742188, 'learning_rate': 1.7448372418620932e-05, 'epoch': 32.55}
	{'loss': 0.0321, 'grad_norm': 11.45699405670166, 'learning_rate': 1.727336366818341e-05, 'epoch': 32.73}
	{'loss': 0.0305, 'grad_norm': 0.09024574607610703, 'learning_rate': 1.7098354917745887e-05, 'epoch': 32.9}
	[3 2 1 ... 0 1 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 6.757059097290039, 'eval_accuracy': 0.41071001673440116, 'eval_runtime': 5.0513, 'eval_samples_per_second': 828.1, 'eval_steps_per_second': 13.066, 'epoch': 33.0}
	{'loss': 0.0277, 'grad_norm': 0.11980203539133072, 'learning_rate': 1.6923346167308367e-05, 'epoch': 33.08}
	{'loss': 0.0263, 'grad_norm': 2.554237127304077, 'learning_rate': 1.6748337416870844e-05, 'epoch': 33.25}
	{'loss': 0.0266, 'grad_norm': 10.364316940307617, 'learning_rate': 1.657332866643332e-05, 'epoch': 33.43}
	{'loss': 0.0271, 'grad_norm': 0.14868643879890442, 'learning_rate': 1.63983199159958e-05, 'epoch': 33.6}
	{'loss': 0.0279, 'grad_norm': 10.8546724319458, 'learning_rate': 1.6223311165558276e-05, 'epoch': 33.78}
	{'loss': 0.0315, 'grad_norm': 0.9444659352302551, 'learning_rate': 1.6048302415120757e-05, 'epoch': 33.95}
	[3 2 1 ... 0 1 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 6.816629886627197, 'eval_accuracy': 0.4114272053550084, 'eval_runtime': 5.0039, 'eval_samples_per_second': 835.94, 'eval_steps_per_second': 13.19, 'epoch': 34.0}
	{'loss': 0.0239, 'grad_norm': 4.370516300201416, 'learning_rate': 1.5873293664683234e-05, 'epoch': 34.13}
	{'loss': 0.0249, 'grad_norm': 5.466342926025391, 'learning_rate': 1.569828491424571e-05, 'epoch': 34.3}
	{'loss': 0.0251, 'grad_norm': 16.983070373535156, 'learning_rate': 1.552327616380819e-05, 'epoch': 34.48}
	{'loss': 0.0274, 'grad_norm': 0.02922905795276165, 'learning_rate': 1.5348267413370672e-05, 'epoch': 34.65}
	{'loss': 0.0248, 'grad_norm': 0.06802476197481155, 'learning_rate': 1.517325866293315e-05, 'epoch': 34.83}
	[3 2 0 ... 0 1 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 7.650357723236084, 'eval_accuracy': 0.4073631365049008, 'eval_runtime': 5.0405, 'eval_samples_per_second': 829.881, 'eval_steps_per_second': 13.094, 'epoch': 35.0}
	{'loss': 0.0247, 'grad_norm': 2.287425994873047, 'learning_rate': 1.4998249912495627e-05, 'epoch': 35.0}
	{'loss': 0.0234, 'grad_norm': 2.3862667083740234, 'learning_rate': 1.4823241162058105e-05, 'epoch': 35.18}
	{'loss': 0.0235, 'grad_norm': 7.395076751708984, 'learning_rate': 1.4648232411620583e-05, 'epoch': 35.35}
	{'loss': 0.0222, 'grad_norm': 8.860566139221191, 'learning_rate': 1.4473223661183062e-05, 'epoch': 35.53}
	{'loss': 0.0235, 'grad_norm': 5.510901927947998, 'learning_rate': 1.4298214910745539e-05, 'epoch': 35.7}
	{'loss': 0.0261, 'grad_norm': 11.366517066955566, 'learning_rate': 1.4123206160308016e-05, 'epoch': 35.88}
	[3 2 1 ... 3 1 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 7.031704425811768, 'eval_accuracy': 0.4152522113315802, 'eval_runtime': 5.2031, 'eval_samples_per_second': 803.937, 'eval_steps_per_second': 12.685, 'epoch': 36.0}
	{'loss': 0.0239, 'grad_norm': 0.3292062282562256, 'learning_rate': 1.3948197409870495e-05, 'epoch': 36.05}
	{'loss': 0.0214, 'grad_norm': 9.884589195251465, 'learning_rate': 1.3773188659432972e-05, 'epoch': 36.23}
	{'loss': 0.0213, 'grad_norm': 7.254868984222412, 'learning_rate': 1.3598179908995451e-05, 'epoch': 36.4}
	{'loss': 0.0208, 'grad_norm': 0.014455192722380161, 'learning_rate': 1.3423171158557928e-05, 'epoch': 36.58}
	{'loss': 0.022, 'grad_norm': 0.26347845792770386, 'learning_rate': 1.3248162408120407e-05, 'epoch': 36.75}
	{'loss': 0.0216, 'grad_norm': 0.6166219115257263, 'learning_rate': 1.3073153657682884e-05, 'epoch': 36.93}