{'loss': 1.3761, 'grad_norm': 0.7730531692504883, 'learning_rate': 4.9416637498541595e-05, 'epoch': 0.18}
{'loss': 1.3555, 'grad_norm': 1.0094777345657349, 'learning_rate': 4.883327499708319e-05, 'epoch': 0.35}
{'loss': 1.3407, 'grad_norm': 1.4118744134902954, 'learning_rate': 4.824991249562478e-05, 'epoch': 0.53}
{'loss': 1.3239, 'grad_norm': 1.75937819480896, 'learning_rate': 4.7666549994166374e-05, 'epoch': 0.7}
{'loss': 1.3078, 'grad_norm': 2.0291476249694824, 'learning_rate': 4.708318749270797e-05, 'epoch': 0.88}
[3 0 2 ... 1 0 0] [0 0 2 ... 0 1 0]
{'eval_loss': 1.3425624370574951, 'eval_accuracy': 0.3356442744441788, 'eval_runtime': 5.0243, 'eval_samples_per_second': 832.548, 'eval_steps_per_second': 13.136, 'epoch': 1.0}
{'loss': 1.2699, 'grad_norm': 3.673710584640503, 'learning_rate': 4.649982499124956e-05, 'epoch': 1.05}
{'loss': 1.1936, 'grad_norm': 4.002831935882568, 'learning_rate': 4.591646248979116e-05, 'epoch': 1.23}
{'loss': 1.18, 'grad_norm': 4.384771347045898, 'learning_rate': 4.533309998833275e-05, 'epoch': 1.4}
{'loss': 1.1671, 'grad_norm': 4.2930779457092285, 'learning_rate': 4.4749737486874346e-05, 'epoch': 1.58}
{'loss': 1.1474, 'grad_norm': 4.147246360778809, 'learning_rate': 4.416637498541594e-05, 'epoch': 1.75}
{'loss': 1.1327, 'grad_norm': 3.8827412128448486, 'learning_rate': 4.358301248395754e-05, 'epoch': 1.93}