|
{'loss': 1.3717, 'grad_norm': 0.8425632119178772, 'learning_rate': 4.982499124956248e-05, 'epoch': 0.18} |
|
{'loss': 1.353, 'grad_norm': 0.8637511134147644, 'learning_rate': 4.964998249912496e-05, 'epoch': 0.35} |
|
{'loss': 1.3378, 'grad_norm': 1.4266023635864258, 'learning_rate': 4.947497374868744e-05, 'epoch': 0.53} |
|
{'loss': 1.3218, 'grad_norm': 2.0084288120269775, 'learning_rate': 4.929996499824991e-05, 'epoch': 0.7} |
|
{'loss': 1.307, 'grad_norm': 1.9190274477005005, 'learning_rate': 4.912495624781239e-05, 'epoch': 0.88} |
|
[3 0 1 ... 0 0 0] [0 0 2 ... 0 1 0] |
|
{'eval_loss': 1.3398776054382324, 'eval_accuracy': 0.34759741812096584, 'eval_runtime': 5.0308, 'eval_samples_per_second': 831.486, 'eval_steps_per_second': 13.119, 'epoch': 1.0} |
|
{'loss': 1.2642, 'grad_norm': 3.536259412765503, 'learning_rate': 4.894994749737487e-05, 'epoch': 1.05} |
|
{'loss': 1.1756, 'grad_norm': 3.510762929916382, 'learning_rate': 4.8774938746937346e-05, 'epoch': 1.23} |
|
{'loss': 1.1696, 'grad_norm': 4.958428859710693, 'learning_rate': 4.859992999649983e-05, 'epoch': 1.4} |
|
{'loss': 1.1518, 'grad_norm': 4.598385334014893, 'learning_rate': 4.842492124606231e-05, 'epoch': 1.58} |
|
{'loss': 1.1337, 'grad_norm': 3.808668851852417, 'learning_rate': 4.824991249562478e-05, 'epoch': 1.75} |
|
{'loss': 1.1199, 'grad_norm': 4.093677520751953, 'learning_rate': 4.807490374518726e-05, 'epoch': 1.93} |
|
[3 0 3 ... 0 0 0] [0 0 2 ... 0 1 0] |
|
{'eval_loss': 1.3871146440505981, 'eval_accuracy': 0.36146306478603873, 'eval_runtime': 5.168, 'eval_samples_per_second': 809.403, 'eval_steps_per_second': 12.771, 'epoch': 2.0} |
|
{'loss': 0.9912, 'grad_norm': 7.0247344970703125, 'learning_rate': 4.7899894994749736e-05, 'epoch': 2.1} |
|
{'loss': 0.9039, 'grad_norm': 5.99714469909668, 'learning_rate': 4.7724886244312216e-05, 'epoch': 2.28} |
|
{'loss': 0.906, 'grad_norm': 8.772993087768555, 'learning_rate': 4.75498774938747e-05, 'epoch': 2.45} |
|
{'loss': 0.8987, 'grad_norm': 7.529561519622803, 'learning_rate': 4.737486874343717e-05, 'epoch': 2.63} |
|
{'loss': 0.8948, 'grad_norm': 7.655035018920898, 'learning_rate': 4.719985999299965e-05, 'epoch': 2.8} |
|
{'loss': 0.8947, 'grad_norm': 7.14945125579834, 'learning_rate': 4.702485124256213e-05, 'epoch': 2.98} |
|
|