Training in progress, epoch 13

ef045ab verified 8 months ago

10.3 kB

	{'loss': 1.3761, 'grad_norm': 0.7730531692504883, 'learning_rate': 4.9416637498541595e-05, 'epoch': 0.18}
	{'loss': 1.3555, 'grad_norm': 1.0094777345657349, 'learning_rate': 4.883327499708319e-05, 'epoch': 0.35}
	{'loss': 1.3407, 'grad_norm': 1.4118744134902954, 'learning_rate': 4.824991249562478e-05, 'epoch': 0.53}
	{'loss': 1.3239, 'grad_norm': 1.75937819480896, 'learning_rate': 4.7666549994166374e-05, 'epoch': 0.7}
	{'loss': 1.3078, 'grad_norm': 2.0291476249694824, 'learning_rate': 4.708318749270797e-05, 'epoch': 0.88}
	[3 0 2 ... 1 0 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 1.3425624370574951, 'eval_accuracy': 0.3356442744441788, 'eval_runtime': 5.0243, 'eval_samples_per_second': 832.548, 'eval_steps_per_second': 13.136, 'epoch': 1.0}
	{'loss': 1.2699, 'grad_norm': 3.673710584640503, 'learning_rate': 4.649982499124956e-05, 'epoch': 1.05}
	{'loss': 1.1936, 'grad_norm': 4.002831935882568, 'learning_rate': 4.591646248979116e-05, 'epoch': 1.23}
	{'loss': 1.18, 'grad_norm': 4.384771347045898, 'learning_rate': 4.533309998833275e-05, 'epoch': 1.4}
	{'loss': 1.1671, 'grad_norm': 4.2930779457092285, 'learning_rate': 4.4749737486874346e-05, 'epoch': 1.58}
	{'loss': 1.1474, 'grad_norm': 4.147246360778809, 'learning_rate': 4.416637498541594e-05, 'epoch': 1.75}
	{'loss': 1.1327, 'grad_norm': 3.8827412128448486, 'learning_rate': 4.358301248395754e-05, 'epoch': 1.93}
	[3 0 3 ... 1 2 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 1.4079196453094482, 'eval_accuracy': 0.3559646186947167, 'eval_runtime': 5.2105, 'eval_samples_per_second': 802.8, 'eval_steps_per_second': 12.667, 'epoch': 2.0}
	{'loss': 1.0111, 'grad_norm': 7.289278984069824, 'learning_rate': 4.299964998249913e-05, 'epoch': 2.1}
	{'loss': 0.922, 'grad_norm': 5.99396276473999, 'learning_rate': 4.2416287481040724e-05, 'epoch': 2.28}
	{'loss': 0.9247, 'grad_norm': 7.640910625457764, 'learning_rate': 4.183292497958232e-05, 'epoch': 2.45}
	{'loss': 0.9288, 'grad_norm': 7.306181907653809, 'learning_rate': 4.124956247812391e-05, 'epoch': 2.63}
	{'loss': 0.9135, 'grad_norm': 7.07468318939209, 'learning_rate': 4.06661999766655e-05, 'epoch': 2.8}
	{'loss': 0.911, 'grad_norm': 7.503607273101807, 'learning_rate': 4.0082837475207096e-05, 'epoch': 2.98}
	[1 3 2 ... 2 2 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 1.5413333177566528, 'eval_accuracy': 0.37891465455414775, 'eval_runtime': 5.0548, 'eval_samples_per_second': 827.538, 'eval_steps_per_second': 13.057, 'epoch': 3.0}
	{'loss': 0.7285, 'grad_norm': 8.317388534545898, 'learning_rate': 3.949947497374869e-05, 'epoch': 3.15}
	{'loss': 0.7047, 'grad_norm': 7.8821024894714355, 'learning_rate': 3.891611247229028e-05, 'epoch': 3.33}
	{'loss': 0.7098, 'grad_norm': 8.3794584274292, 'learning_rate': 3.8332749970831875e-05, 'epoch': 3.5}
	{'loss': 0.7054, 'grad_norm': 7.861841678619385, 'learning_rate': 3.774938746937347e-05, 'epoch': 3.68}
	{'loss': 0.7139, 'grad_norm': 7.322680950164795, 'learning_rate': 3.716602496791506e-05, 'epoch': 3.85}
	[0 3 2 ... 1 0 3] [0 0 2 ... 0 1 0]
	{'eval_loss': 1.7088218927383423, 'eval_accuracy': 0.3942146784604351, 'eval_runtime': 4.8304, 'eval_samples_per_second': 865.981, 'eval_steps_per_second': 13.664, 'epoch': 4.0}
	{'loss': 0.6896, 'grad_norm': 11.274810791015625, 'learning_rate': 3.658266246645666e-05, 'epoch': 4.03}
	{'loss': 0.5212, 'grad_norm': 7.982595920562744, 'learning_rate': 3.5999299964998253e-05, 'epoch': 4.2}
	{'loss': 0.541, 'grad_norm': 9.061874389648438, 'learning_rate': 3.5415937463539846e-05, 'epoch': 4.38}
	{'loss': 0.5457, 'grad_norm': 10.760665893554688, 'learning_rate': 3.483257496208144e-05, 'epoch': 4.55}
	{'loss': 0.5594, 'grad_norm': 9.166933059692383, 'learning_rate': 3.424921246062303e-05, 'epoch': 4.73}
	{'loss': 0.548, 'grad_norm': 7.9511590003967285, 'learning_rate': 3.3665849959164625e-05, 'epoch': 4.9}
	[3 3 2 ... 2 1 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 1.9117132425308228, 'eval_accuracy': 0.3901506096103275, 'eval_runtime': 5.2105, 'eval_samples_per_second': 802.804, 'eval_steps_per_second': 12.667, 'epoch': 5.0}
	{'loss': 0.4888, 'grad_norm': 9.013420104980469, 'learning_rate': 3.308248745770622e-05, 'epoch': 5.08}
	{'loss': 0.4091, 'grad_norm': 7.150439739227295, 'learning_rate': 3.249912495624781e-05, 'epoch': 5.25}
	{'loss': 0.4203, 'grad_norm': 12.627585411071777, 'learning_rate': 3.1915762454789404e-05, 'epoch': 5.43}
	{'loss': 0.4193, 'grad_norm': 12.276535034179688, 'learning_rate': 3.1332399953331e-05, 'epoch': 5.6}
	{'loss': 0.4366, 'grad_norm': 9.403146743774414, 'learning_rate': 3.07490374518726e-05, 'epoch': 5.78}
	{'loss': 0.4389, 'grad_norm': 10.061423301696777, 'learning_rate': 3.016567495041419e-05, 'epoch': 5.95}
	[3 3 2 ... 0 2 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 2.1178853511810303, 'eval_accuracy': 0.39708343294286397, 'eval_runtime': 5.0462, 'eval_samples_per_second': 828.941, 'eval_steps_per_second': 13.079, 'epoch': 6.0}
	{'loss': 0.345, 'grad_norm': 5.357309341430664, 'learning_rate': 2.9582312448955786e-05, 'epoch': 6.13}
	{'loss': 0.3185, 'grad_norm': 9.139286994934082, 'learning_rate': 2.899894994749738e-05, 'epoch': 6.3}
	{'loss': 0.3268, 'grad_norm': 12.152942657470703, 'learning_rate': 2.8415587446038972e-05, 'epoch': 6.48}
	{'loss': 0.3392, 'grad_norm': 11.67481517791748, 'learning_rate': 2.7832224944580565e-05, 'epoch': 6.65}
	{'loss': 0.3422, 'grad_norm': 10.386246681213379, 'learning_rate': 2.7248862443122158e-05, 'epoch': 6.83}
	[3 3 2 ... 0 2 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 2.5686843395233154, 'eval_accuracy': 0.40019125029882857, 'eval_runtime': 5.2255, 'eval_samples_per_second': 800.492, 'eval_steps_per_second': 12.63, 'epoch': 7.0}
	{'loss': 0.3466, 'grad_norm': 12.66191291809082, 'learning_rate': 2.666549994166375e-05, 'epoch': 7.0}
	{'loss': 0.2463, 'grad_norm': 10.925546646118164, 'learning_rate': 2.6082137440205344e-05, 'epoch': 7.18}
	{'loss': 0.2567, 'grad_norm': 7.959372043609619, 'learning_rate': 2.549877493874694e-05, 'epoch': 7.35}
	{'loss': 0.2633, 'grad_norm': 6.9901533126831055, 'learning_rate': 2.4915412437288533e-05, 'epoch': 7.53}
	{'loss': 0.2673, 'grad_norm': 9.302663803100586, 'learning_rate': 2.4332049935830126e-05, 'epoch': 7.7}
	{'loss': 0.2707, 'grad_norm': 7.5390095710754395, 'learning_rate': 2.374868743437172e-05, 'epoch': 7.88}
	[3 3 2 ... 0 2 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 2.6005923748016357, 'eval_accuracy': 0.40186469041357875, 'eval_runtime': 5.0961, 'eval_samples_per_second': 820.83, 'eval_steps_per_second': 12.951, 'epoch': 8.0}
	{'loss': 0.2521, 'grad_norm': 11.431685447692871, 'learning_rate': 2.3165324932913312e-05, 'epoch': 8.05}
	{'loss': 0.2028, 'grad_norm': 9.693059921264648, 'learning_rate': 2.2581962431454905e-05, 'epoch': 8.23}
	{'loss': 0.2121, 'grad_norm': 9.10946273803711, 'learning_rate': 2.19985999299965e-05, 'epoch': 8.4}
	{'loss': 0.2177, 'grad_norm': 8.21375560760498, 'learning_rate': 2.1415237428538097e-05, 'epoch': 8.58}
	{'loss': 0.2168, 'grad_norm': 10.813612937927246, 'learning_rate': 2.083187492707969e-05, 'epoch': 8.75}
	{'loss': 0.2258, 'grad_norm': 13.434950828552246, 'learning_rate': 2.0248512425621283e-05, 'epoch': 8.93}
	[3 3 2 ... 1 1 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 2.8581974506378174, 'eval_accuracy': 0.4068850107578293, 'eval_runtime': 5.0368, 'eval_samples_per_second': 830.489, 'eval_steps_per_second': 13.104, 'epoch': 9.0}
	{'loss': 0.1887, 'grad_norm': 6.9538679122924805, 'learning_rate': 1.9665149924162876e-05, 'epoch': 9.1}
	{'loss': 0.1698, 'grad_norm': 12.299108505249023, 'learning_rate': 1.908178742270447e-05, 'epoch': 9.28}
	{'loss': 0.1803, 'grad_norm': 5.436443328857422, 'learning_rate': 1.8498424921246062e-05, 'epoch': 9.45}
	{'loss': 0.1738, 'grad_norm': 13.313374519348145, 'learning_rate': 1.7915062419787655e-05, 'epoch': 9.63}
	{'loss': 0.1803, 'grad_norm': 12.164106369018555, 'learning_rate': 1.733169991832925e-05, 'epoch': 9.8}
	{'loss': 0.1817, 'grad_norm': 7.353409767150879, 'learning_rate': 1.6748337416870844e-05, 'epoch': 9.98}
	[3 2 2 ... 1 1 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 3.2134830951690674, 'eval_accuracy': 0.4030600047812575, 'eval_runtime': 5.0478, 'eval_samples_per_second': 828.674, 'eval_steps_per_second': 13.075, 'epoch': 10.0}
	{'loss': 0.1378, 'grad_norm': 11.336491584777832, 'learning_rate': 1.6164974915412437e-05, 'epoch': 10.15}
	{'loss': 0.1412, 'grad_norm': 2.564628839492798, 'learning_rate': 1.5581612413954034e-05, 'epoch': 10.33}
	{'loss': 0.1461, 'grad_norm': 11.924559593200684, 'learning_rate': 1.4998249912495627e-05, 'epoch': 10.5}
	{'loss': 0.1509, 'grad_norm': 15.88939094543457, 'learning_rate': 1.441488741103722e-05, 'epoch': 10.68}
	{'loss': 0.1506, 'grad_norm': 10.029004096984863, 'learning_rate': 1.3831524909578814e-05, 'epoch': 10.85}
	[3 3 2 ... 1 2 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 3.263962507247925, 'eval_accuracy': 0.4073631365049008, 'eval_runtime': 5.0448, 'eval_samples_per_second': 829.174, 'eval_steps_per_second': 13.083, 'epoch': 11.0}
	{'loss': 0.1472, 'grad_norm': 6.226803779602051, 'learning_rate': 1.3248162408120407e-05, 'epoch': 11.03}
	{'loss': 0.1201, 'grad_norm': 7.718882083892822, 'learning_rate': 1.2664799906662e-05, 'epoch': 11.2}
	{'loss': 0.1216, 'grad_norm': 11.733613014221191, 'learning_rate': 1.2081437405203595e-05, 'epoch': 11.38}
	{'loss': 0.1209, 'grad_norm': 8.20969009399414, 'learning_rate': 1.1498074903745188e-05, 'epoch': 11.55}
	{'loss': 0.1172, 'grad_norm': 13.481611251831055, 'learning_rate': 1.0914712402286782e-05, 'epoch': 11.73}
	{'loss': 0.1285, 'grad_norm': 12.055659294128418, 'learning_rate': 1.0331349900828375e-05, 'epoch': 11.9}
	[3 3 2 ... 0 1 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 3.6060633659362793, 'eval_accuracy': 0.40855845087257947, 'eval_runtime': 5.1896, 'eval_samples_per_second': 806.033, 'eval_steps_per_second': 12.718, 'epoch': 12.0}
	{'loss': 0.118, 'grad_norm': 4.554361820220947, 'learning_rate': 9.74798739936997e-06, 'epoch': 12.08}
	{'loss': 0.1015, 'grad_norm': 8.723073959350586, 'learning_rate': 9.164624897911563e-06, 'epoch': 12.25}
	{'loss': 0.1028, 'grad_norm': 8.068249702453613, 'learning_rate': 8.581262396453156e-06, 'epoch': 12.43}
	{'loss': 0.1055, 'grad_norm': 6.202993869781494, 'learning_rate': 7.99789989499475e-06, 'epoch': 12.6}
	{'loss': 0.1077, 'grad_norm': 6.989070415496826, 'learning_rate': 7.414537393536344e-06, 'epoch': 12.78}
	{'loss': 0.1067, 'grad_norm': 9.214164733886719, 'learning_rate': 6.831174892077938e-06, 'epoch': 12.95}