File size: 2,931 Bytes
413e382 db4d950 566905d 56d83b4 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 |
{'loss': 1.3717, 'grad_norm': 0.8425632119178772, 'learning_rate': 4.982499124956248e-05, 'epoch': 0.18} {'loss': 1.353, 'grad_norm': 0.8637511134147644, 'learning_rate': 4.964998249912496e-05, 'epoch': 0.35} {'loss': 1.3378, 'grad_norm': 1.4266023635864258, 'learning_rate': 4.947497374868744e-05, 'epoch': 0.53} {'loss': 1.3218, 'grad_norm': 2.0084288120269775, 'learning_rate': 4.929996499824991e-05, 'epoch': 0.7} {'loss': 1.307, 'grad_norm': 1.9190274477005005, 'learning_rate': 4.912495624781239e-05, 'epoch': 0.88} [3 0 1 ... 0 0 0] [0 0 2 ... 0 1 0] {'eval_loss': 1.3398776054382324, 'eval_accuracy': 0.34759741812096584, 'eval_runtime': 5.0308, 'eval_samples_per_second': 831.486, 'eval_steps_per_second': 13.119, 'epoch': 1.0} {'loss': 1.2642, 'grad_norm': 3.536259412765503, 'learning_rate': 4.894994749737487e-05, 'epoch': 1.05} {'loss': 1.1756, 'grad_norm': 3.510762929916382, 'learning_rate': 4.8774938746937346e-05, 'epoch': 1.23} {'loss': 1.1696, 'grad_norm': 4.958428859710693, 'learning_rate': 4.859992999649983e-05, 'epoch': 1.4} {'loss': 1.1518, 'grad_norm': 4.598385334014893, 'learning_rate': 4.842492124606231e-05, 'epoch': 1.58} {'loss': 1.1337, 'grad_norm': 3.808668851852417, 'learning_rate': 4.824991249562478e-05, 'epoch': 1.75} {'loss': 1.1199, 'grad_norm': 4.093677520751953, 'learning_rate': 4.807490374518726e-05, 'epoch': 1.93} [3 0 3 ... 0 0 0] [0 0 2 ... 0 1 0] {'eval_loss': 1.3871146440505981, 'eval_accuracy': 0.36146306478603873, 'eval_runtime': 5.168, 'eval_samples_per_second': 809.403, 'eval_steps_per_second': 12.771, 'epoch': 2.0} {'loss': 0.9912, 'grad_norm': 7.0247344970703125, 'learning_rate': 4.7899894994749736e-05, 'epoch': 2.1} {'loss': 0.9039, 'grad_norm': 5.99714469909668, 'learning_rate': 4.7724886244312216e-05, 'epoch': 2.28} {'loss': 0.906, 'grad_norm': 8.772993087768555, 'learning_rate': 4.75498774938747e-05, 'epoch': 2.45} {'loss': 0.8987, 'grad_norm': 7.529561519622803, 'learning_rate': 4.737486874343717e-05, 'epoch': 2.63} {'loss': 0.8948, 'grad_norm': 7.655035018920898, 'learning_rate': 4.719985999299965e-05, 'epoch': 2.8} {'loss': 0.8947, 'grad_norm': 7.14945125579834, 'learning_rate': 4.702485124256213e-05, 'epoch': 2.98} [3 3 3 ... 2 1 0] [0 0 2 ... 0 1 0] {'eval_loss': 1.4768593311309814, 'eval_accuracy': 0.3853693521396127, 'eval_runtime': 5.0272, 'eval_samples_per_second': 832.08, 'eval_steps_per_second': 13.129, 'epoch': 3.0} {'loss': 0.6962, 'grad_norm': 9.295475006103516, 'learning_rate': 4.6849842492124606e-05, 'epoch': 3.15} {'loss': 0.6763, 'grad_norm': 10.301146507263184, 'learning_rate': 4.6674833741687086e-05, 'epoch': 3.33} {'loss': 0.6865, 'grad_norm': 7.7962565422058105, 'learning_rate': 4.649982499124956e-05, 'epoch': 3.5} {'loss': 0.6819, 'grad_norm': 7.269796848297119, 'learning_rate': 4.632481624081204e-05, 'epoch': 3.68} {'loss': 0.696, 'grad_norm': 8.324944496154785, 'learning_rate': 4.614980749037452e-05, 'epoch': 3.85} |