Training in progress, epoch 12

427fbd2 verified 8 months ago

9.45 kB

	{'loss': 1.3717, 'grad_norm': 0.8425632119178772, 'learning_rate': 4.982499124956248e-05, 'epoch': 0.18}
	{'loss': 1.353, 'grad_norm': 0.8637511134147644, 'learning_rate': 4.964998249912496e-05, 'epoch': 0.35}
	{'loss': 1.3378, 'grad_norm': 1.4266023635864258, 'learning_rate': 4.947497374868744e-05, 'epoch': 0.53}
	{'loss': 1.3218, 'grad_norm': 2.0084288120269775, 'learning_rate': 4.929996499824991e-05, 'epoch': 0.7}
	{'loss': 1.307, 'grad_norm': 1.9190274477005005, 'learning_rate': 4.912495624781239e-05, 'epoch': 0.88}
	[3 0 1 ... 0 0 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 1.3398776054382324, 'eval_accuracy': 0.34759741812096584, 'eval_runtime': 5.0308, 'eval_samples_per_second': 831.486, 'eval_steps_per_second': 13.119, 'epoch': 1.0}
	{'loss': 1.2642, 'grad_norm': 3.536259412765503, 'learning_rate': 4.894994749737487e-05, 'epoch': 1.05}
	{'loss': 1.1756, 'grad_norm': 3.510762929916382, 'learning_rate': 4.8774938746937346e-05, 'epoch': 1.23}
	{'loss': 1.1696, 'grad_norm': 4.958428859710693, 'learning_rate': 4.859992999649983e-05, 'epoch': 1.4}
	{'loss': 1.1518, 'grad_norm': 4.598385334014893, 'learning_rate': 4.842492124606231e-05, 'epoch': 1.58}
	{'loss': 1.1337, 'grad_norm': 3.808668851852417, 'learning_rate': 4.824991249562478e-05, 'epoch': 1.75}
	{'loss': 1.1199, 'grad_norm': 4.093677520751953, 'learning_rate': 4.807490374518726e-05, 'epoch': 1.93}
	[3 0 3 ... 0 0 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 1.3871146440505981, 'eval_accuracy': 0.36146306478603873, 'eval_runtime': 5.168, 'eval_samples_per_second': 809.403, 'eval_steps_per_second': 12.771, 'epoch': 2.0}
	{'loss': 0.9912, 'grad_norm': 7.0247344970703125, 'learning_rate': 4.7899894994749736e-05, 'epoch': 2.1}
	{'loss': 0.9039, 'grad_norm': 5.99714469909668, 'learning_rate': 4.7724886244312216e-05, 'epoch': 2.28}
	{'loss': 0.906, 'grad_norm': 8.772993087768555, 'learning_rate': 4.75498774938747e-05, 'epoch': 2.45}
	{'loss': 0.8987, 'grad_norm': 7.529561519622803, 'learning_rate': 4.737486874343717e-05, 'epoch': 2.63}
	{'loss': 0.8948, 'grad_norm': 7.655035018920898, 'learning_rate': 4.719985999299965e-05, 'epoch': 2.8}
	{'loss': 0.8947, 'grad_norm': 7.14945125579834, 'learning_rate': 4.702485124256213e-05, 'epoch': 2.98}
	[3 3 3 ... 2 1 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 1.4768593311309814, 'eval_accuracy': 0.3853693521396127, 'eval_runtime': 5.0272, 'eval_samples_per_second': 832.08, 'eval_steps_per_second': 13.129, 'epoch': 3.0}
	{'loss': 0.6962, 'grad_norm': 9.295475006103516, 'learning_rate': 4.6849842492124606e-05, 'epoch': 3.15}
	{'loss': 0.6763, 'grad_norm': 10.301146507263184, 'learning_rate': 4.6674833741687086e-05, 'epoch': 3.33}
	{'loss': 0.6865, 'grad_norm': 7.7962565422058105, 'learning_rate': 4.649982499124956e-05, 'epoch': 3.5}
	{'loss': 0.6819, 'grad_norm': 7.269796848297119, 'learning_rate': 4.632481624081204e-05, 'epoch': 3.68}
	{'loss': 0.696, 'grad_norm': 8.324944496154785, 'learning_rate': 4.614980749037452e-05, 'epoch': 3.85}
	[3 3 2 ... 0 1 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 1.6681735515594482, 'eval_accuracy': 0.396127181448721, 'eval_runtime': 5.0295, 'eval_samples_per_second': 831.699, 'eval_steps_per_second': 13.123, 'epoch': 4.0}
	{'loss': 0.667, 'grad_norm': 10.500767707824707, 'learning_rate': 4.5974798739936995e-05, 'epoch': 4.03}
	{'loss': 0.4947, 'grad_norm': 10.41182804107666, 'learning_rate': 4.5799789989499476e-05, 'epoch': 4.2}
	{'loss': 0.5094, 'grad_norm': 10.82896614074707, 'learning_rate': 4.5624781239061956e-05, 'epoch': 4.38}
	{'loss': 0.5182, 'grad_norm': 7.591678619384766, 'learning_rate': 4.544977248862443e-05, 'epoch': 4.55}
	{'loss': 0.5407, 'grad_norm': 7.200017929077148, 'learning_rate': 4.527476373818691e-05, 'epoch': 4.73}
	{'loss': 0.5363, 'grad_norm': 9.024789810180664, 'learning_rate': 4.5099754987749384e-05, 'epoch': 4.9}
	[1 3 3 ... 2 1 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 1.9205493927001953, 'eval_accuracy': 0.3891943581161846, 'eval_runtime': 5.2354, 'eval_samples_per_second': 798.976, 'eval_steps_per_second': 12.606, 'epoch': 5.0}
	{'loss': 0.4685, 'grad_norm': 7.957944393157959, 'learning_rate': 4.4924746237311865e-05, 'epoch': 5.08}
	{'loss': 0.3755, 'grad_norm': 8.208980560302734, 'learning_rate': 4.4749737486874346e-05, 'epoch': 5.25}
	{'loss': 0.3929, 'grad_norm': 10.96563720703125, 'learning_rate': 4.457472873643682e-05, 'epoch': 5.43}
	{'loss': 0.4053, 'grad_norm': 12.499752044677734, 'learning_rate': 4.43997199859993e-05, 'epoch': 5.6}
	{'loss': 0.4152, 'grad_norm': 9.879837989807129, 'learning_rate': 4.422471123556178e-05, 'epoch': 5.78}
	{'loss': 0.4206, 'grad_norm': 8.698701858520508, 'learning_rate': 4.4049702485124255e-05, 'epoch': 5.95}
	[3 3 3 ... 3 1 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 2.0211398601531982, 'eval_accuracy': 0.3923021754721492, 'eval_runtime': 4.8116, 'eval_samples_per_second': 869.359, 'eval_steps_per_second': 13.717, 'epoch': 6.0}
	{'loss': 0.3254, 'grad_norm': 8.286091804504395, 'learning_rate': 4.3874693734686735e-05, 'epoch': 6.13}
	{'loss': 0.2994, 'grad_norm': 11.987117767333984, 'learning_rate': 4.3699684984249216e-05, 'epoch': 6.3}
	{'loss': 0.317, 'grad_norm': 12.051315307617188, 'learning_rate': 4.3524676233811696e-05, 'epoch': 6.48}
	{'loss': 0.323, 'grad_norm': 10.532122611999512, 'learning_rate': 4.334966748337417e-05, 'epoch': 6.65}
	{'loss': 0.3356, 'grad_norm': 10.152750015258789, 'learning_rate': 4.317465873293665e-05, 'epoch': 6.83}
	[3 2 1 ... 0 1 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 2.379138946533203, 'eval_accuracy': 0.39803968443700694, 'eval_runtime': 5.2366, 'eval_samples_per_second': 798.799, 'eval_steps_per_second': 12.604, 'epoch': 7.0}
	{'loss': 0.3413, 'grad_norm': 5.218087196350098, 'learning_rate': 4.299964998249913e-05, 'epoch': 7.0}
	{'loss': 0.2253, 'grad_norm': 13.4560546875, 'learning_rate': 4.2824641232061605e-05, 'epoch': 7.18}
	{'loss': 0.2508, 'grad_norm': 8.933915138244629, 'learning_rate': 4.2649632481624086e-05, 'epoch': 7.35}
	{'loss': 0.2584, 'grad_norm': 9.784185409545898, 'learning_rate': 4.2474623731186566e-05, 'epoch': 7.53}
	{'loss': 0.2605, 'grad_norm': 8.28528118133545, 'learning_rate': 4.229961498074904e-05, 'epoch': 7.7}
	{'loss': 0.2744, 'grad_norm': 7.679172515869141, 'learning_rate': 4.212460623031152e-05, 'epoch': 7.88}
	[3 0 3 ... 2 1 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 2.4870290756225586, 'eval_accuracy': 0.4044943820224719, 'eval_runtime': 4.9619, 'eval_samples_per_second': 843.029, 'eval_steps_per_second': 13.301, 'epoch': 8.0}
	{'loss': 0.2535, 'grad_norm': 9.526900291442871, 'learning_rate': 4.1949597479873995e-05, 'epoch': 8.05}
	{'loss': 0.2008, 'grad_norm': 9.026641845703125, 'learning_rate': 4.1774588729436475e-05, 'epoch': 8.23}
	{'loss': 0.2046, 'grad_norm': 11.880026817321777, 'learning_rate': 4.1599579978998956e-05, 'epoch': 8.4}
	{'loss': 0.2181, 'grad_norm': 8.357426643371582, 'learning_rate': 4.142457122856143e-05, 'epoch': 8.58}
	{'loss': 0.2219, 'grad_norm': 11.225452423095703, 'learning_rate': 4.124956247812391e-05, 'epoch': 8.75}
	{'loss': 0.2318, 'grad_norm': 12.459203720092773, 'learning_rate': 4.107455372768639e-05, 'epoch': 8.93}
	[3 1 1 ... 0 1 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 3.0215201377868652, 'eval_accuracy': 0.41310064546975855, 'eval_runtime': 5.1665, 'eval_samples_per_second': 809.638, 'eval_steps_per_second': 12.775, 'epoch': 9.0}
	{'loss': 0.1826, 'grad_norm': 7.637009620666504, 'learning_rate': 4.0899544977248865e-05, 'epoch': 9.1}
	{'loss': 0.1748, 'grad_norm': 9.161368370056152, 'learning_rate': 4.0724536226811345e-05, 'epoch': 9.28}
	{'loss': 0.1798, 'grad_norm': 11.175768852233887, 'learning_rate': 4.054952747637382e-05, 'epoch': 9.45}
	{'loss': 0.1844, 'grad_norm': 8.664103507995605, 'learning_rate': 4.03745187259363e-05, 'epoch': 9.63}
	{'loss': 0.1886, 'grad_norm': 10.091923713684082, 'learning_rate': 4.019950997549878e-05, 'epoch': 9.8}
	{'loss': 0.1974, 'grad_norm': 14.300283432006836, 'learning_rate': 4.0024501225061254e-05, 'epoch': 9.98}
	[3 2 1 ... 0 1 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 2.8925366401672363, 'eval_accuracy': 0.4004303131723643, 'eval_runtime': 5.2183, 'eval_samples_per_second': 801.606, 'eval_steps_per_second': 12.648, 'epoch': 10.0}
	{'loss': 0.1477, 'grad_norm': 8.367982864379883, 'learning_rate': 3.9849492474623735e-05, 'epoch': 10.15}
	{'loss': 0.1506, 'grad_norm': 14.6441068649292, 'learning_rate': 3.9674483724186215e-05, 'epoch': 10.33}
	{'loss': 0.1605, 'grad_norm': 11.409436225891113, 'learning_rate': 3.949947497374869e-05, 'epoch': 10.5}
	{'loss': 0.1671, 'grad_norm': 9.97114372253418, 'learning_rate': 3.932446622331117e-05, 'epoch': 10.68}
	{'loss': 0.1697, 'grad_norm': 8.829890251159668, 'learning_rate': 3.914945747287364e-05, 'epoch': 10.85}
	[1 2 3 ... 0 1 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 3.009945869445801, 'eval_accuracy': 0.39875687305761415, 'eval_runtime': 5.0345, 'eval_samples_per_second': 830.865, 'eval_steps_per_second': 13.11, 'epoch': 11.0}
	{'loss': 0.165, 'grad_norm': 5.728878974914551, 'learning_rate': 3.8974448722436124e-05, 'epoch': 11.03}
	{'loss': 0.1222, 'grad_norm': 8.60106086730957, 'learning_rate': 3.8799439971998605e-05, 'epoch': 11.2}
	{'loss': 0.1342, 'grad_norm': 7.297552108764648, 'learning_rate': 3.862443122156108e-05, 'epoch': 11.38}
	{'loss': 0.1353, 'grad_norm': 4.835112571716309, 'learning_rate': 3.844942247112356e-05, 'epoch': 11.55}
	{'loss': 0.1392, 'grad_norm': 11.95632553100586, 'learning_rate': 3.827441372068604e-05, 'epoch': 11.73}
	{'loss': 0.1528, 'grad_norm': 10.495340347290039, 'learning_rate': 3.809940497024851e-05, 'epoch': 11.9}