{'loss': 1.3761, 'grad_norm': 0.7730531692504883, 'learning_rate': 4.9416637498541595e-05, 'epoch': 0.18} {'loss': 1.3555, 'grad_norm': 1.0094777345657349, 'learning_rate': 4.883327499708319e-05, 'epoch': 0.35} {'loss': 1.3407, 'grad_norm': 1.4118744134902954, 'learning_rate': 4.824991249562478e-05, 'epoch': 0.53} {'loss': 1.3239, 'grad_norm': 1.75937819480896, 'learning_rate': 4.7666549994166374e-05, 'epoch': 0.7} {'loss': 1.3078, 'grad_norm': 2.0291476249694824, 'learning_rate': 4.708318749270797e-05, 'epoch': 0.88} [3 0 2 ... 1 0 0] [0 0 2 ... 0 1 0] {'eval_loss': 1.3425624370574951, 'eval_accuracy': 0.3356442744441788, 'eval_runtime': 5.0243, 'eval_samples_per_second': 832.548, 'eval_steps_per_second': 13.136, 'epoch': 1.0} {'loss': 1.2699, 'grad_norm': 3.673710584640503, 'learning_rate': 4.649982499124956e-05, 'epoch': 1.05} {'loss': 1.1936, 'grad_norm': 4.002831935882568, 'learning_rate': 4.591646248979116e-05, 'epoch': 1.23} {'loss': 1.18, 'grad_norm': 4.384771347045898, 'learning_rate': 4.533309998833275e-05, 'epoch': 1.4} {'loss': 1.1671, 'grad_norm': 4.2930779457092285, 'learning_rate': 4.4749737486874346e-05, 'epoch': 1.58} {'loss': 1.1474, 'grad_norm': 4.147246360778809, 'learning_rate': 4.416637498541594e-05, 'epoch': 1.75} {'loss': 1.1327, 'grad_norm': 3.8827412128448486, 'learning_rate': 4.358301248395754e-05, 'epoch': 1.93} [3 0 3 ... 1 2 0] [0 0 2 ... 0 1 0] {'eval_loss': 1.4079196453094482, 'eval_accuracy': 0.3559646186947167, 'eval_runtime': 5.2105, 'eval_samples_per_second': 802.8, 'eval_steps_per_second': 12.667, 'epoch': 2.0} {'loss': 1.0111, 'grad_norm': 7.289278984069824, 'learning_rate': 4.299964998249913e-05, 'epoch': 2.1} {'loss': 0.922, 'grad_norm': 5.99396276473999, 'learning_rate': 4.2416287481040724e-05, 'epoch': 2.28} {'loss': 0.9247, 'grad_norm': 7.640910625457764, 'learning_rate': 4.183292497958232e-05, 'epoch': 2.45} {'loss': 0.9288, 'grad_norm': 7.306181907653809, 'learning_rate': 4.124956247812391e-05, 'epoch': 2.63} {'loss': 0.9135, 'grad_norm': 7.07468318939209, 'learning_rate': 4.06661999766655e-05, 'epoch': 2.8} {'loss': 0.911, 'grad_norm': 7.503607273101807, 'learning_rate': 4.0082837475207096e-05, 'epoch': 2.98} [1 3 2 ... 2 2 0] [0 0 2 ... 0 1 0] {'eval_loss': 1.5413333177566528, 'eval_accuracy': 0.37891465455414775, 'eval_runtime': 5.0548, 'eval_samples_per_second': 827.538, 'eval_steps_per_second': 13.057, 'epoch': 3.0} {'loss': 0.7285, 'grad_norm': 8.317388534545898, 'learning_rate': 3.949947497374869e-05, 'epoch': 3.15} {'loss': 0.7047, 'grad_norm': 7.8821024894714355, 'learning_rate': 3.891611247229028e-05, 'epoch': 3.33} {'loss': 0.7098, 'grad_norm': 8.3794584274292, 'learning_rate': 3.8332749970831875e-05, 'epoch': 3.5} {'loss': 0.7054, 'grad_norm': 7.861841678619385, 'learning_rate': 3.774938746937347e-05, 'epoch': 3.68} {'loss': 0.7139, 'grad_norm': 7.322680950164795, 'learning_rate': 3.716602496791506e-05, 'epoch': 3.85} [0 3 2 ... 1 0 3] [0 0 2 ... 0 1 0] {'eval_loss': 1.7088218927383423, 'eval_accuracy': 0.3942146784604351, 'eval_runtime': 4.8304, 'eval_samples_per_second': 865.981, 'eval_steps_per_second': 13.664, 'epoch': 4.0} {'loss': 0.6896, 'grad_norm': 11.274810791015625, 'learning_rate': 3.658266246645666e-05, 'epoch': 4.03} {'loss': 0.5212, 'grad_norm': 7.982595920562744, 'learning_rate': 3.5999299964998253e-05, 'epoch': 4.2} {'loss': 0.541, 'grad_norm': 9.061874389648438, 'learning_rate': 3.5415937463539846e-05, 'epoch': 4.38} {'loss': 0.5457, 'grad_norm': 10.760665893554688, 'learning_rate': 3.483257496208144e-05, 'epoch': 4.55} {'loss': 0.5594, 'grad_norm': 9.166933059692383, 'learning_rate': 3.424921246062303e-05, 'epoch': 4.73} {'loss': 0.548, 'grad_norm': 7.9511590003967285, 'learning_rate': 3.3665849959164625e-05, 'epoch': 4.9} [3 3 2 ... 2 1 0] [0 0 2 ... 0 1 0] {'eval_loss': 1.9117132425308228, 'eval_accuracy': 0.3901506096103275, 'eval_runtime': 5.2105, 'eval_samples_per_second': 802.804, 'eval_steps_per_second': 12.667, 'epoch': 5.0} {'loss': 0.4888, 'grad_norm': 9.013420104980469, 'learning_rate': 3.308248745770622e-05, 'epoch': 5.08} {'loss': 0.4091, 'grad_norm': 7.150439739227295, 'learning_rate': 3.249912495624781e-05, 'epoch': 5.25} {'loss': 0.4203, 'grad_norm': 12.627585411071777, 'learning_rate': 3.1915762454789404e-05, 'epoch': 5.43} {'loss': 0.4193, 'grad_norm': 12.276535034179688, 'learning_rate': 3.1332399953331e-05, 'epoch': 5.6} {'loss': 0.4366, 'grad_norm': 9.403146743774414, 'learning_rate': 3.07490374518726e-05, 'epoch': 5.78} {'loss': 0.4389, 'grad_norm': 10.061423301696777, 'learning_rate': 3.016567495041419e-05, 'epoch': 5.95} [3 3 2 ... 0 2 0] [0 0 2 ... 0 1 0] {'eval_loss': 2.1178853511810303, 'eval_accuracy': 0.39708343294286397, 'eval_runtime': 5.0462, 'eval_samples_per_second': 828.941, 'eval_steps_per_second': 13.079, 'epoch': 6.0} {'loss': 0.345, 'grad_norm': 5.357309341430664, 'learning_rate': 2.9582312448955786e-05, 'epoch': 6.13} {'loss': 0.3185, 'grad_norm': 9.139286994934082, 'learning_rate': 2.899894994749738e-05, 'epoch': 6.3} {'loss': 0.3268, 'grad_norm': 12.152942657470703, 'learning_rate': 2.8415587446038972e-05, 'epoch': 6.48} {'loss': 0.3392, 'grad_norm': 11.67481517791748, 'learning_rate': 2.7832224944580565e-05, 'epoch': 6.65} {'loss': 0.3422, 'grad_norm': 10.386246681213379, 'learning_rate': 2.7248862443122158e-05, 'epoch': 6.83} [3 3 2 ... 0 2 0] [0 0 2 ... 0 1 0] {'eval_loss': 2.5686843395233154, 'eval_accuracy': 0.40019125029882857, 'eval_runtime': 5.2255, 'eval_samples_per_second': 800.492, 'eval_steps_per_second': 12.63, 'epoch': 7.0} {'loss': 0.3466, 'grad_norm': 12.66191291809082, 'learning_rate': 2.666549994166375e-05, 'epoch': 7.0} {'loss': 0.2463, 'grad_norm': 10.925546646118164, 'learning_rate': 2.6082137440205344e-05, 'epoch': 7.18} {'loss': 0.2567, 'grad_norm': 7.959372043609619, 'learning_rate': 2.549877493874694e-05, 'epoch': 7.35} {'loss': 0.2633, 'grad_norm': 6.9901533126831055, 'learning_rate': 2.4915412437288533e-05, 'epoch': 7.53} {'loss': 0.2673, 'grad_norm': 9.302663803100586, 'learning_rate': 2.4332049935830126e-05, 'epoch': 7.7} {'loss': 0.2707, 'grad_norm': 7.5390095710754395, 'learning_rate': 2.374868743437172e-05, 'epoch': 7.88}