{'loss': 1.3717, 'grad_norm': 0.8425632119178772, 'learning_rate': 4.982499124956248e-05, 'epoch': 0.18}
{'loss': 1.353, 'grad_norm': 0.8637511134147644, 'learning_rate': 4.964998249912496e-05, 'epoch': 0.35}
{'loss': 1.3378, 'grad_norm': 1.4266023635864258, 'learning_rate': 4.947497374868744e-05, 'epoch': 0.53}
{'loss': 1.3218, 'grad_norm': 2.0084288120269775, 'learning_rate': 4.929996499824991e-05, 'epoch': 0.7}
{'loss': 1.307, 'grad_norm': 1.9190274477005005, 'learning_rate': 4.912495624781239e-05, 'epoch': 0.88}
[3 0 1 ... 0 0 0] [0 0 2 ... 0 1 0]
{'eval_loss': 1.3398776054382324, 'eval_accuracy': 0.34759741812096584, 'eval_runtime': 5.0308, 'eval_samples_per_second': 831.486, 'eval_steps_per_second': 13.119, 'epoch': 1.0}
{'loss': 1.2642, 'grad_norm': 3.536259412765503, 'learning_rate': 4.894994749737487e-05, 'epoch': 1.05}
{'loss': 1.1756, 'grad_norm': 3.510762929916382, 'learning_rate': 4.8774938746937346e-05, 'epoch': 1.23}
{'loss': 1.1696, 'grad_norm': 4.958428859710693, 'learning_rate': 4.859992999649983e-05, 'epoch': 1.4}
{'loss': 1.1518, 'grad_norm': 4.598385334014893, 'learning_rate': 4.842492124606231e-05, 'epoch': 1.58}
{'loss': 1.1337, 'grad_norm': 3.808668851852417, 'learning_rate': 4.824991249562478e-05, 'epoch': 1.75}
{'loss': 1.1199, 'grad_norm': 4.093677520751953, 'learning_rate': 4.807490374518726e-05, 'epoch': 1.93}
[3 0 3 ... 0 0 0] [0 0 2 ... 0 1 0]
{'eval_loss': 1.3871146440505981, 'eval_accuracy': 0.36146306478603873, 'eval_runtime': 5.168, 'eval_samples_per_second': 809.403, 'eval_steps_per_second': 12.771, 'epoch': 2.0}
{'loss': 0.9912, 'grad_norm': 7.0247344970703125, 'learning_rate': 4.7899894994749736e-05, 'epoch': 2.1}
{'loss': 0.9039, 'grad_norm': 5.99714469909668, 'learning_rate': 4.7724886244312216e-05, 'epoch': 2.28}
{'loss': 0.906, 'grad_norm': 8.772993087768555, 'learning_rate': 4.75498774938747e-05, 'epoch': 2.45}
{'loss': 0.8987, 'grad_norm': 7.529561519622803, 'learning_rate': 4.737486874343717e-05, 'epoch': 2.63}
{'loss': 0.8948, 'grad_norm': 7.655035018920898, 'learning_rate': 4.719985999299965e-05, 'epoch': 2.8}
{'loss': 0.8947, 'grad_norm': 7.14945125579834, 'learning_rate': 4.702485124256213e-05, 'epoch': 2.98}
[3 3 3 ... 2 1 0] [0 0 2 ... 0 1 0]
{'eval_loss': 1.4768593311309814, 'eval_accuracy': 0.3853693521396127, 'eval_runtime': 5.0272, 'eval_samples_per_second': 832.08, 'eval_steps_per_second': 13.129, 'epoch': 3.0}
{'loss': 0.6962, 'grad_norm': 9.295475006103516, 'learning_rate': 4.6849842492124606e-05, 'epoch': 3.15}
{'loss': 0.6763, 'grad_norm': 10.301146507263184, 'learning_rate': 4.6674833741687086e-05, 'epoch': 3.33}
{'loss': 0.6865, 'grad_norm': 7.7962565422058105, 'learning_rate': 4.649982499124956e-05, 'epoch': 3.5}
{'loss': 0.6819, 'grad_norm': 7.269796848297119, 'learning_rate': 4.632481624081204e-05, 'epoch': 3.68}
{'loss': 0.696, 'grad_norm': 8.324944496154785, 'learning_rate': 4.614980749037452e-05, 'epoch': 3.85}
[3 3 2 ... 0 1 0] [0 0 2 ... 0 1 0]
{'eval_loss': 1.6681735515594482, 'eval_accuracy': 0.396127181448721, 'eval_runtime': 5.0295, 'eval_samples_per_second': 831.699, 'eval_steps_per_second': 13.123, 'epoch': 4.0}
{'loss': 0.667, 'grad_norm': 10.500767707824707, 'learning_rate': 4.5974798739936995e-05, 'epoch': 4.03}
{'loss': 0.4947, 'grad_norm': 10.41182804107666, 'learning_rate': 4.5799789989499476e-05, 'epoch': 4.2}
{'loss': 0.5094, 'grad_norm': 10.82896614074707, 'learning_rate': 4.5624781239061956e-05, 'epoch': 4.38}
{'loss': 0.5182, 'grad_norm': 7.591678619384766, 'learning_rate': 4.544977248862443e-05, 'epoch': 4.55}
{'loss': 0.5407, 'grad_norm': 7.200017929077148, 'learning_rate': 4.527476373818691e-05, 'epoch': 4.73}
{'loss': 0.5363, 'grad_norm': 9.024789810180664, 'learning_rate': 4.5099754987749384e-05, 'epoch': 4.9}
[1 3 3 ... 2 1 0] [0 0 2 ... 0 1 0]
{'eval_loss': 1.9205493927001953, 'eval_accuracy': 0.3891943581161846, 'eval_runtime': 5.2354, 'eval_samples_per_second': 798.976, 'eval_steps_per_second': 12.606, 'epoch': 5.0}
{'loss': 0.4685, 'grad_norm': 7.957944393157959, 'learning_rate': 4.4924746237311865e-05, 'epoch': 5.08}
{'loss': 0.3755, 'grad_norm': 8.208980560302734, 'learning_rate': 4.4749737486874346e-05, 'epoch': 5.25}
{'loss': 0.3929, 'grad_norm': 10.96563720703125, 'learning_rate': 4.457472873643682e-05, 'epoch': 5.43}
{'loss': 0.4053, 'grad_norm': 12.499752044677734, 'learning_rate': 4.43997199859993e-05, 'epoch': 5.6}
{'loss': 0.4152, 'grad_norm': 9.879837989807129, 'learning_rate': 4.422471123556178e-05, 'epoch': 5.78}
{'loss': 0.4206, 'grad_norm': 8.698701858520508, 'learning_rate': 4.4049702485124255e-05, 'epoch': 5.95}
[3 3 3 ... 3 1 0] [0 0 2 ... 0 1 0]
{'eval_loss': 2.0211398601531982, 'eval_accuracy': 0.3923021754721492, 'eval_runtime': 4.8116, 'eval_samples_per_second': 869.359, 'eval_steps_per_second': 13.717, 'epoch': 6.0}
{'loss': 0.3254, 'grad_norm': 8.286091804504395, 'learning_rate': 4.3874693734686735e-05, 'epoch': 6.13}
{'loss': 0.2994, 'grad_norm': 11.987117767333984, 'learning_rate': 4.3699684984249216e-05, 'epoch': 6.3}
{'loss': 0.317, 'grad_norm': 12.051315307617188, 'learning_rate': 4.3524676233811696e-05, 'epoch': 6.48}
{'loss': 0.323, 'grad_norm': 10.532122611999512, 'learning_rate': 4.334966748337417e-05, 'epoch': 6.65}
{'loss': 0.3356, 'grad_norm': 10.152750015258789, 'learning_rate': 4.317465873293665e-05, 'epoch': 6.83}