longformer-spans / checkpoint-492 /trainer_state.json

Training in progress, epoch 12, checkpoint

e009f1f verified 8 months ago

13.9 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 12.0,
	"eval_steps": 500,
	"global_step": 492,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 1.0,
	"eval_B": {
	"f1-score": 0.668295065950171,
	"precision": 0.7871116225546605,
	"recall": 0.5806451612903226,
	"support": 1178.0
	},
	"eval_I": {
	"f1-score": 0.9265394121049587,
	"precision": 0.9208257120459891,
	"recall": 0.9323244616117254,
	"support": 18899.0
	},
	"eval_O": {
	"f1-score": 0.8679097538295895,
	"precision": 0.8648200526675119,
	"recall": 0.8710216110019646,
	"support": 10180.0
	},
	"eval_accuracy": 0.8980070727434973,
	"eval_loss": 0.28059592843055725,
	"eval_macro avg": {
	"f1-score": 0.820914743961573,
	"precision": 0.8575857957560539,
	"recall": 0.7946637446346708,
	"support": 30257.0
	},
	"eval_runtime": 1.3597,
	"eval_samples_per_second": 59.57,
	"eval_steps_per_second": 8.09,
	"eval_weighted avg": {
	"f1-score": 0.896759137754772,
	"precision": 0.8967766387772022,
	"recall": 0.8980070727434973,
	"support": 30257.0
	},
	"step": 41
	},
	{
	"epoch": 2.0,
	"eval_B": {
	"f1-score": 0.8330464716006883,
	"precision": 0.8446771378708552,
	"recall": 0.8217317487266553,
	"support": 1178.0
	},
	"eval_I": {
	"f1-score": 0.9456807848767648,
	"precision": 0.950406156477127,
	"recall": 0.9410021694269538,
	"support": 18899.0
	},
	"eval_O": {
	"f1-score": 0.8991690558336167,
	"precision": 0.8897009327819982,
	"recall": 0.9088408644400786,
	"support": 10180.0
	},
	"eval_accuracy": 0.9255378920580362,
	"eval_loss": 0.19417612254619598,
	"eval_macro avg": {
	"f1-score": 0.89263210410369,
	"precision": 0.8949280757099934,
	"recall": 0.8905249275312292,
	"support": 30257.0
	},
	"eval_runtime": 1.3644,
	"eval_samples_per_second": 59.368,
	"eval_steps_per_second": 8.062,
	"eval_weighted avg": {
	"f1-score": 0.925646656486691,
	"precision": 0.9258654564363231,
	"recall": 0.9255378920580362,
	"support": 30257.0
	},
	"step": 82
	},
	{
	"epoch": 3.0,
	"eval_B": {
	"f1-score": 0.8500201045436268,
	"precision": 0.8074866310160428,
	"recall": 0.8972835314091681,
	"support": 1178.0
	},
	"eval_I": {
	"f1-score": 0.9522313010685104,
	"precision": 0.942701581540057,
	"recall": 0.9619556590295782,
	"support": 18899.0
	},
	"eval_O": {
	"f1-score": 0.907826437534647,
	"precision": 0.9321121804822519,
	"recall": 0.8847740667976425,
	"support": 10180.0
	},
	"eval_accuracy": 0.9334699408401361,
	"eval_loss": 0.18320441246032715,
	"eval_macro avg": {
	"f1-score": 0.9033592810489282,
	"precision": 0.894100131012784,
	"recall": 0.9146710857454629,
	"support": 30257.0
	},
	"eval_runtime": 1.3637,
	"eval_samples_per_second": 59.395,
	"eval_steps_per_second": 8.066,
	"eval_weighted avg": {
	"f1-score": 0.9333118344895024,
	"precision": 0.9338744237092824,
	"recall": 0.9334699408401361,
	"support": 30257.0
	},
	"step": 123
	},
	{
	"epoch": 4.0,
	"eval_B": {
	"f1-score": 0.8664440734557596,
	"precision": 0.8522167487684729,
	"recall": 0.8811544991511036,
	"support": 1178.0
	},
	"eval_I": {
	"f1-score": 0.9518863198966544,
	"precision": 0.9485603194619588,
	"recall": 0.9552357267580295,
	"support": 18899.0
	},
	"eval_O": {
	"f1-score": 0.9081091791747165,
	"precision": 0.9159588288198262,
	"recall": 0.9003929273084479,
	"support": 10180.0
	},
	"eval_accuracy": 0.9338995934825,
	"eval_loss": 0.17474766075611115,
	"eval_macro avg": {
	"f1-score": 0.9088131908423769,
	"precision": 0.905578632350086,
	"recall": 0.912261051072527,
	"support": 30257.0
	},
	"eval_runtime": 1.3717,
	"eval_samples_per_second": 59.053,
	"eval_steps_per_second": 8.02,
	"eval_weighted avg": {
	"f1-score": 0.9338309192007261,
	"precision": 0.9338405554069026,
	"recall": 0.9338995934825,
	"support": 30257.0
	},
	"step": 164
	},
	{
	"epoch": 5.0,
	"eval_B": {
	"f1-score": 0.8666666666666667,
	"precision": 0.8224085365853658,
	"recall": 0.9159592529711376,
	"support": 1178.0
	},
	"eval_I": {
	"f1-score": 0.9542531309396725,
	"precision": 0.9393582120155833,
	"recall": 0.9696280226467009,
	"support": 18899.0
	},
	"eval_O": {
	"f1-score": 0.9089055411123006,
	"precision": 0.9446858111688037,
	"recall": 0.8757367387033399,
	"support": 10180.0
	},
	"eval_accuracy": 0.9359487060845424,
	"eval_loss": 0.18612883985042572,
	"eval_macro avg": {
	"f1-score": 0.9099417795728799,
	"precision": 0.9021508532565843,
	"recall": 0.9204413381070594,
	"support": 30257.0
	},
	"eval_runtime": 1.3578,
	"eval_samples_per_second": 59.654,
	"eval_steps_per_second": 8.101,
	"eval_weighted avg": {
	"f1-score": 0.9355858698312928,
	"precision": 0.9365974704259672,
	"recall": 0.9359487060845424,
	"support": 30257.0
	},
	"step": 205
	},
	{
	"epoch": 6.0,
	"eval_B": {
	"f1-score": 0.8542262147815436,
	"precision": 0.8229740361919748,
	"recall": 0.8879456706281834,
	"support": 1178.0
	},
	"eval_I": {
	"f1-score": 0.9509714713911042,
	"precision": 0.962094547029837,
	"recall": 0.9401026509339119,
	"support": 18899.0
	},
	"eval_O": {
	"f1-score": 0.9120247354944683,
	"precision": 0.897328643407168,
	"recall": 0.9272102161100196,
	"support": 10180.0
	},
	"eval_accuracy": 0.9337343424662061,
	"eval_loss": 0.19629183411598206,
	"eval_macro avg": {
	"f1-score": 0.9057408072223719,
	"precision": 0.8941324088763266,
	"recall": 0.9184195125573716,
	"support": 30257.0
	},
	"eval_runtime": 1.3603,
	"eval_samples_per_second": 59.544,
	"eval_steps_per_second": 8.086,
	"eval_weighted avg": {
	"f1-score": 0.9341012038922174,
	"precision": 0.9348875912627161,
	"recall": 0.9337343424662061,
	"support": 30257.0
	},
	"step": 246
	},
	{
	"epoch": 7.0,
	"eval_B": {
	"f1-score": 0.8589743589743589,
	"precision": 0.8133535660091047,
	"recall": 0.9100169779286927,
	"support": 1178.0
	},
	"eval_I": {
	"f1-score": 0.9495904221802143,
	"precision": 0.9424149252175725,
	"recall": 0.9568760251865178,
	"support": 18899.0
	},
	"eval_O": {
	"f1-score": 0.9019568489713999,
	"precision": 0.9218461538461539,
	"recall": 0.8829076620825147,
	"support": 10180.0
	},
	"eval_accuracy": 0.9301649205142611,
	"eval_loss": 0.23149603605270386,
	"eval_macro avg": {
	"f1-score": 0.9035072100419911,
	"precision": 0.8925382150242771,
	"recall": 0.9166002217325749,
	"support": 30257.0
	},
	"eval_runtime": 1.3656,
	"eval_samples_per_second": 59.314,
	"eval_steps_per_second": 8.055,
	"eval_weighted avg": {
	"f1-score": 0.9300360877213377,
	"precision": 0.9304697762038363,
	"recall": 0.9301649205142611,
	"support": 30257.0
	},
	"step": 287
	},
	{
	"epoch": 8.0,
	"eval_B": {
	"f1-score": 0.87409200968523,
	"precision": 0.833076923076923,
	"recall": 0.9193548387096774,
	"support": 1178.0
	},
	"eval_I": {
	"f1-score": 0.952083279518508,
	"precision": 0.9300999293428889,
	"recall": 0.9751309593100164,
	"support": 18899.0
	},
	"eval_O": {
	"f1-score": 0.9016198312891373,
	"precision": 0.9527507382697146,
	"recall": 0.8556974459724951,
	"support": 10180.0
	},
	"eval_accuracy": 0.9327758865717024,
	"eval_loss": 0.2542731761932373,
	"eval_macro avg": {
	"f1-score": 0.9092650401642918,
	"precision": 0.9053091968965088,
	"recall": 0.9167277479973963,
	"support": 30257.0
	},
	"eval_runtime": 1.3569,
	"eval_samples_per_second": 59.697,
	"eval_steps_per_second": 8.107,
	"eval_weighted avg": {
	"f1-score": 0.932068353424097,
	"precision": 0.9339434079922521,
	"recall": 0.9327758865717024,
	"support": 30257.0
	},
	"step": 328
	},
	{
	"epoch": 9.0,
	"eval_B": {
	"f1-score": 0.8768793173506705,
	"precision": 0.8409976617303195,
	"recall": 0.9159592529711376,
	"support": 1178.0
	},
	"eval_I": {
	"f1-score": 0.9543993519220215,
	"precision": 0.9428438661710037,
	"recall": 0.9662416000846605,
	"support": 18899.0
	},
	"eval_O": {
	"f1-score": 0.9107449711917517,
	"precision": 0.9379554445138455,
	"recall": 0.8850687622789783,
	"support": 10180.0
	},
	"eval_accuracy": 0.9369732623855637,
	"eval_loss": 0.23665204644203186,
	"eval_macro avg": {
	"f1-score": 0.9140078801548146,
	"precision": 0.9072656574717229,
	"recall": 0.9224232051115923,
	"support": 30257.0
	},
	"eval_runtime": 1.3607,
	"eval_samples_per_second": 59.526,
	"eval_steps_per_second": 8.084,
	"eval_weighted avg": {
	"f1-score": 0.9366936905359226,
	"precision": 0.9372339589990767,
	"recall": 0.9369732623855637,
	"support": 30257.0
	},
	"step": 369
	},
	{
	"epoch": 10.0,
	"eval_B": {
	"f1-score": 0.8608903020667728,
	"precision": 0.8094170403587444,
	"recall": 0.9193548387096774,
	"support": 1178.0
	},
	"eval_I": {
	"f1-score": 0.9494098249103614,
	"precision": 0.9393060590367686,
	"recall": 0.9597333192232393,
	"support": 18899.0
	},
	"eval_O": {
	"f1-score": 0.9020162716660771,
	"precision": 0.9288167343115828,
	"recall": 0.8767190569744597,
	"support": 10180.0
	},
	"eval_accuracy": 0.9302310209207787,
	"eval_loss": 0.27300411462783813,
	"eval_macro avg": {
	"f1-score": 0.9041054662144038,
	"precision": 0.8925132779023652,
	"recall": 0.9186024049691256,
	"support": 30257.0
	},
	"eval_runtime": 1.3606,
	"eval_samples_per_second": 59.531,
	"eval_steps_per_second": 8.084,
	"eval_weighted avg": {
	"f1-score": 0.9300178703234373,
	"precision": 0.9307199272423042,
	"recall": 0.9302310209207787,
	"support": 30257.0
	},
	"step": 410
	},
	{
	"epoch": 11.0,
	"eval_B": {
	"f1-score": 0.8705882352941178,
	"precision": 0.8337218337218337,
	"recall": 0.9108658743633277,
	"support": 1178.0
	},
	"eval_I": {
	"f1-score": 0.9516225883090098,
	"precision": 0.9392393320964749,
	"recall": 0.9643367373935129,
	"support": 18899.0
	},
	"eval_O": {
	"f1-score": 0.9045882710422363,
	"precision": 0.9336190675308383,
	"recall": 0.8773084479371316,
	"support": 10180.0
	},
	"eval_accuracy": 0.932974187791255,
	"eval_loss": 0.2785099744796753,
	"eval_macro avg": {
	"f1-score": 0.9089330315484546,
	"precision": 0.9021934111163823,
	"recall": 0.9175036865646574,
	"support": 30257.0
	},
	"eval_runtime": 1.357,
	"eval_samples_per_second": 59.689,
	"eval_steps_per_second": 8.106,
	"eval_weighted avg": {
	"f1-score": 0.9326429202114688,
	"precision": 0.9332402605968713,
	"recall": 0.932974187791255,
	"support": 30257.0
	},
	"step": 451
	},
	{
	"epoch": 12.0,
	"eval_B": {
	"f1-score": 0.871941272430669,
	"precision": 0.8390894819466248,
	"recall": 0.9074702886247877,
	"support": 1178.0
	},
	"eval_I": {
	"f1-score": 0.9533659666298226,
	"precision": 0.9483742604324834,
	"recall": 0.9584104979099424,
	"support": 18899.0
	},
	"eval_O": {
	"f1-score": 0.9108851674641149,
	"precision": 0.924524484014569,
	"recall": 0.8976424361493124,
	"support": 10180.0
	},
	"eval_accuracy": 0.9359817562878012,
	"eval_loss": 0.2702731788158417,
	"eval_macro avg": {
	"f1-score": 0.9120641355082021,
	"precision": 0.903996075464559,
	"recall": 0.9211744075613475,
	"support": 30257.0
	},
	"eval_runtime": 1.3674,
	"eval_samples_per_second": 59.235,
	"eval_steps_per_second": 8.044,
	"eval_weighted avg": {
	"f1-score": 0.9359031373581331,
	"precision": 0.9360951781377842,
	"recall": 0.9359817562878012,
	"support": 30257.0
	},
	"step": 492
	}
	],
	"logging_steps": 500,
	"max_steps": 656,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 16,
	"save_steps": 500,
	"total_flos": 1720081324029600.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}