Training in progress, epoch 12, checkpoint

Browse files

Files changed (5) hide show

checkpoint-492/model.safetensors +1 -1
checkpoint-492/optimizer.pt +1 -1
checkpoint-492/rng_state.pth +1 -1
checkpoint-492/trainer_state.json +313 -313
checkpoint-492/training_args.bin +1 -1

checkpoint-492/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5f654de3cb6d034f7cd2b5c93ed8a374660f2efaa5ac98bc8f2d3769665276a0
 size 592318676

 version https://git-lfs.github.com/spec/v1
+oid sha256:8e981afc5c5878689d86a12cba5beeb3cd2dd40a2e80920babd987c6740c66e4
 size 592318676

checkpoint-492/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a88e4378c93ca8b85a34fe8b3624410a08726bd6ae258d2eb3c2997f59f610ec
 size 1014645498

 version https://git-lfs.github.com/spec/v1
+oid sha256:dfbc2026ea09efb4e1cc1b855fddf0d0568e9e9574396508e395ce28d81a4464
 size 1014645498

checkpoint-492/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1c189466643703424c77db24cb1c70bb1b76b65752ddeeaa3d7bb424b6ea3dcb
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:b6e53e706c63ba0c275c9b6332ceadb76c337b40858f3ddadb0ab10622a334eb
 size 14244

checkpoint-492/trainer_state.json CHANGED Viewed

@@ -11,468 +11,468 @@
     {
       "epoch": 1.0,
       "eval_B": {
-        "f1-score": 0.3128571428571429,
-        "precision": 0.8202247191011236,
-        "recall": 0.19329214474845544,
-        "support": 1133.0
       },
       "eval_I": {
-        "f1-score": 0.9039097402761301,
-        "precision": 0.8412101850981866,
-        "recall": 0.9767086674303169,
-        "support": 18333.0
       },
       "eval_O": {
-        "f1-score": 0.8155702872684006,
-        "precision": 0.9249453797712376,
-        "recall": 0.7293271179570329,
-        "support": 9868.0
       },
-      "eval_accuracy": 0.8632303811277017,
-      "eval_loss": 0.36073023080825806,
       "eval_macro avg": {
-        "f1-score": 0.6774457234672245,
-        "precision": 0.8621267613235158,
-        "recall": 0.6331093100452684,
-        "support": 29334.0
-      },
-      "eval_runtime": 1.3518,
-      "eval_samples_per_second": 59.181,
-      "eval_steps_per_second": 7.398,
       "eval_weighted avg": {
-        "f1-score": 0.8513633328596172,
-        "precision": 0.8685682804162133,
-        "recall": 0.8632303811277017,
-        "support": 29334.0
       },
       "step": 41
     },
     {
       "epoch": 2.0,
       "eval_B": {
-        "f1-score": 0.8334742180896026,
-        "precision": 0.7996755879967559,
-        "recall": 0.8702559576345984,
-        "support": 1133.0
       },
       "eval_I": {
-        "f1-score": 0.937247128465528,
-        "precision": 0.9331675137882557,
-        "recall": 0.9413625702285496,
-        "support": 18333.0
       },
       "eval_O": {
-        "f1-score": 0.878356867779204,
-        "precision": 0.8902883314250026,
-        "recall": 0.8667409809485205,
-        "support": 9868.0
       },
-      "eval_accuracy": 0.9135133292425173,
-      "eval_loss": 0.2531818747520447,
       "eval_macro avg": {
-        "f1-score": 0.8830260714447782,
-        "precision": 0.874377144403338,
-        "recall": 0.892786502937223,
-        "support": 29334.0
-      },
-      "eval_runtime": 1.3577,
-      "eval_samples_per_second": 58.925,
-      "eval_steps_per_second": 7.366,
       "eval_weighted avg": {
-        "f1-score": 0.9134282220801536,
-        "precision": 0.9135868864110707,
-        "recall": 0.9135133292425173,
-        "support": 29334.0
       },
       "step": 82
     },
     {
       "epoch": 3.0,
       "eval_B": {
-        "f1-score": 0.8486869528970404,
-        "precision": 0.8041074249605056,
-        "recall": 0.8984995586937334,
-        "support": 1133.0
       },
       "eval_I": {
-        "f1-score": 0.9447329870821681,
-        "precision": 0.9231209660628774,
-        "recall": 0.9673812251131839,
-        "support": 18333.0
       },
       "eval_O": {
-        "f1-score": 0.8850672933133945,
-        "precision": 0.9356368563685636,
-        "recall": 0.8396838265099311,
-        "support": 9868.0
       },
-      "eval_accuracy": 0.9217631417467785,
-      "eval_loss": 0.22803974151611328,
       "eval_macro avg": {
-        "f1-score": 0.8928290777642011,
-        "precision": 0.8876217491306488,
-        "recall": 0.9018548701056162,
-        "support": 29334.0
-      },
-      "eval_runtime": 1.356,
-      "eval_samples_per_second": 58.998,
-      "eval_steps_per_second": 7.375,
       "eval_weighted avg": {
-        "f1-score": 0.9209516676970857,
-        "precision": 0.9227345360999514,
-        "recall": 0.9217631417467785,
-        "support": 29334.0
       },
       "step": 123
     },
     {
       "epoch": 4.0,
       "eval_B": {
-        "f1-score": 0.854157960718763,
-        "precision": 0.8111111111111111,
-        "recall": 0.9020300088261254,
-        "support": 1133.0
       },
       "eval_I": {
-        "f1-score": 0.9440852236591055,
-        "precision": 0.9180539091893006,
-        "recall": 0.9716358479245077,
-        "support": 18333.0
       },
       "eval_O": {
-        "f1-score": 0.8818167107179459,
-        "precision": 0.9426825049013955,
-        "recall": 0.8283340089177138,
-        "support": 9868.0
       },
-      "eval_accuracy": 0.9207404377173246,
-      "eval_loss": 0.2642991840839386,
       "eval_macro avg": {
-        "f1-score": 0.8933532983652714,
-        "precision": 0.8906158417339357,
-        "recall": 0.9006666218894489,
-        "support": 29334.0
-      },
-      "eval_runtime": 1.3563,
-      "eval_samples_per_second": 58.983,
-      "eval_steps_per_second": 7.373,
       "eval_weighted avg": {
-        "f1-score": 0.9196646443104053,
-        "precision": 0.9222084326864153,
-        "recall": 0.9207404377173246,
-        "support": 29334.0
       },
       "step": 164
     },
     {
       "epoch": 5.0,
       "eval_B": {
-        "f1-score": 0.8555835432409741,
-        "precision": 0.8158526821457166,
-        "recall": 0.8993821712268314,
-        "support": 1133.0
       },
       "eval_I": {
-        "f1-score": 0.9461865426257119,
-        "precision": 0.9278074866310161,
-        "recall": 0.965308460153821,
-        "support": 18333.0
       },
       "eval_O": {
-        "f1-score": 0.8893479527517347,
-        "precision": 0.9316391077571856,
-        "recall": 0.8507296311309283,
-        "support": 9868.0
       },
-      "eval_accuracy": 0.9242176314174678,
-      "eval_loss": 0.2475498616695404,
       "eval_macro avg": {
-        "f1-score": 0.8970393462061402,
-        "precision": 0.8917664255113061,
-        "recall": 0.9051400875038601,
-        "support": 29334.0
-      },
-      "eval_runtime": 1.35,
-      "eval_samples_per_second": 59.258,
-      "eval_steps_per_second": 7.407,
       "eval_weighted avg": {
-        "f1-score": 0.9235664975183513,
-        "precision": 0.924772293469197,
-        "recall": 0.9242176314174678,
-        "support": 29334.0
       },
       "step": 205
     },
     {
       "epoch": 6.0,
       "eval_B": {
-        "f1-score": 0.8523908523908524,
-        "precision": 0.8058176100628931,
-        "recall": 0.9046778464254193,
-        "support": 1133.0
       },
       "eval_I": {
-        "f1-score": 0.946049991866833,
-        "precision": 0.9404408990459764,
-        "recall": 0.951726395025364,
-        "support": 18333.0
       },
       "eval_O": {
-        "f1-score": 0.894565722248026,
-        "precision": 0.9114523083394679,
-        "recall": 0.8782934738548844,
-        "support": 9868.0
       },
-      "eval_accuracy": 0.9252062453126065,
-      "eval_loss": 0.25544244050979614,
       "eval_macro avg": {
-        "f1-score": 0.8976688555019038,
-        "precision": 0.8859036058161124,
-        "recall": 0.9115659051018893,
-        "support": 29334.0
-      },
-      "eval_runtime": 1.3498,
-      "eval_samples_per_second": 59.268,
-      "eval_steps_per_second": 7.408,
       "eval_weighted avg": {
-        "f1-score": 0.9251131071042821,
-        "precision": 0.9254893888697421,
-        "recall": 0.9252062453126065,
-        "support": 29334.0
       },
       "step": 246
     },
     {
       "epoch": 7.0,
       "eval_B": {
-        "f1-score": 0.8621276595744681,
-        "precision": 0.8323746918652424,
-        "recall": 0.8940864960282436,
-        "support": 1133.0
       },
       "eval_I": {
-        "f1-score": 0.9492181202643882,
-        "precision": 0.9353455123113582,
-        "recall": 0.9635084274259532,
-        "support": 18333.0
       },
       "eval_O": {
-        "f1-score": 0.8978010471204189,
-        "precision": 0.9287261698440208,
-        "recall": 0.8688690717470612,
-        "support": 9868.0
       },
-      "eval_accuracy": 0.9289902502215859,
-      "eval_loss": 0.2822054922580719,
       "eval_macro avg": {
-        "f1-score": 0.9030489423197584,
-        "precision": 0.8988154580068738,
-        "recall": 0.9088213317337527,
-        "support": 29334.0
-      },
-      "eval_runtime": 1.3549,
-      "eval_samples_per_second": 59.046,
-      "eval_steps_per_second": 7.381,
       "eval_weighted avg": {
-        "f1-score": 0.9285575499450874,
-        "precision": 0.9291415983878176,
-        "recall": 0.9289902502215859,
-        "support": 29334.0
       },
       "step": 287
     },
     {
       "epoch": 8.0,
       "eval_B": {
-        "f1-score": 0.8576228475430492,
-        "precision": 0.8181089743589743,
-        "recall": 0.9011473962930273,
-        "support": 1133.0
       },
       "eval_I": {
-        "f1-score": 0.9478573729996776,
-        "precision": 0.933372111469515,
-        "recall": 0.9627993236240658,
-        "support": 18333.0
       },
       "eval_O": {
-        "f1-score": 0.8941868403087749,
-        "precision": 0.9279564032697548,
-        "recall": 0.8627888123226591,
-        "support": 9868.0
       },
-      "eval_accuracy": 0.9267743914911025,
-      "eval_loss": 0.30678361654281616,
       "eval_macro avg": {
-        "f1-score": 0.899889020283834,
-        "precision": 0.8931458296994147,
-        "recall": 0.9089118440799174,
-        "support": 29334.0
-      },
-      "eval_runtime": 1.3533,
-      "eval_samples_per_second": 59.116,
-      "eval_steps_per_second": 7.39,
       "eval_weighted avg": {
-        "f1-score": 0.926317298889901,
-        "precision": 0.9270983219126366,
-        "recall": 0.9267743914911025,
-        "support": 29334.0
       },
       "step": 328
     },
     {
       "epoch": 9.0,
       "eval_B": {
-        "f1-score": 0.8592150170648465,
-        "precision": 0.8315441783649876,
-        "recall": 0.8887908208296558,
-        "support": 1133.0
       },
       "eval_I": {
-        "f1-score": 0.9436033408458174,
-        "precision": 0.9180683108038387,
-        "recall": 0.9705994654448262,
-        "support": 18333.0
       },
       "eval_O": {
-        "f1-score": 0.8819388467945618,
-        "precision": 0.9387941883079739,
-        "recall": 0.8315768139440616,
-        "support": 9868.0
       },
-      "eval_accuracy": 0.9206722574486943,
-      "eval_loss": 0.3574488162994385,
       "eval_macro avg": {
-        "f1-score": 0.8949190682350753,
-        "precision": 0.8961355591589334,
-        "recall": 0.8969890334061811,
-        "support": 29334.0
-      },
-      "eval_runtime": 1.3536,
-      "eval_samples_per_second": 59.1,
-      "eval_steps_per_second": 7.388,
       "eval_weighted avg": {
-        "f1-score": 0.9195998909875767,
-        "precision": 0.9216986072911089,
-        "recall": 0.9206722574486943,
-        "support": 29334.0
       },
       "step": 369
     },
     {
       "epoch": 10.0,
       "eval_B": {
-        "f1-score": 0.8638334778837814,
-        "precision": 0.8491048593350383,
-        "recall": 0.8790820829655781,
-        "support": 1133.0
       },
       "eval_I": {
-        "f1-score": 0.9512108939686336,
-        "precision": 0.9479900314226893,
-        "recall": 0.9544537173403153,
-        "support": 18333.0
       },
       "eval_O": {
-        "f1-score": 0.9047059424658934,
-        "precision": 0.9123982273523652,
-        "recall": 0.897142278070531,
-        "support": 9868.0
       },
-      "eval_accuracy": 0.9322629031158383,
-      "eval_loss": 0.3227890431880951,
       "eval_macro avg": {
-        "f1-score": 0.9065834381061029,
-        "precision": 0.9031643727033641,
-        "recall": 0.9102260261254749,
-        "support": 29334.0
-      },
-      "eval_runtime": 1.3497,
-      "eval_samples_per_second": 59.273,
-      "eval_steps_per_second": 7.409,
       "eval_weighted avg": {
-        "f1-score": 0.9321916850692957,
-        "precision": 0.9321975441198576,
-        "recall": 0.9322629031158383,
-        "support": 29334.0
       },
       "step": 410
     },
     {
       "epoch": 11.0,
       "eval_B": {
-        "f1-score": 0.8647237929534581,
-        "precision": 0.8524871355060034,
-        "recall": 0.8773168578993822,
-        "support": 1133.0
       },
       "eval_I": {
-        "f1-score": 0.9492643877109477,
-        "precision": 0.941372096765542,
-        "recall": 0.9572901325478645,
-        "support": 18333.0
       },
       "eval_O": {
-        "f1-score": 0.9002217294900223,
-        "precision": 0.9164304461942258,
-        "recall": 0.8845764085934333,
-        "support": 9868.0
       },
-      "eval_accuracy": 0.9297402331765187,
-      "eval_loss": 0.3397265374660492,
       "eval_macro avg": {
-        "f1-score": 0.9047366367181428,
-        "precision": 0.9034298928219237,
-        "recall": 0.9063944663468934,
-        "support": 29334.0
-      },
-      "eval_runtime": 1.3481,
-      "eval_samples_per_second": 59.344,
-      "eval_steps_per_second": 7.418,
       "eval_weighted avg": {
-        "f1-score": 0.9295010603371041,
-        "precision": 0.9295485858585807,
-        "recall": 0.9297402331765187,
-        "support": 29334.0
       },
       "step": 451
     },
     {
       "epoch": 12.0,
       "eval_B": {
-        "f1-score": 0.8619354838709679,
-        "precision": 0.8406040268456376,
-        "recall": 0.884377758164166,
-        "support": 1133.0
       },
       "eval_I": {
-        "f1-score": 0.9481537342777884,
-        "precision": 0.9364758459246648,
-        "recall": 0.9601265477554137,
-        "support": 18333.0
       },
       "eval_O": {
-        "f1-score": 0.8965337774539398,
-        "precision": 0.9215707254440403,
-        "recall": 0.8728212403729225,
-        "support": 9868.0
       },
-      "eval_accuracy": 0.9278311856548714,
-      "eval_loss": 0.37686192989349365,
       "eval_macro avg": {
-        "f1-score": 0.9022076652008987,
-        "precision": 0.8995501994047809,
-        "recall": 0.9057751820975007,
-        "support": 29334.0
-      },
-      "eval_runtime": 1.3518,
-      "eval_samples_per_second": 59.18,
-      "eval_steps_per_second": 7.397,
       "eval_weighted avg": {
-        "f1-score": 0.927458601951864,
-        "precision": 0.9277587769971628,
-        "recall": 0.9278311856548714,
-        "support": 29334.0
       },
       "step": 492
     }
@@ -482,7 +482,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 16,
   "save_steps": 500,
-  "total_flos": 1725439832827200.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

     {
       "epoch": 1.0,
       "eval_B": {
+        "f1-score": 0.668295065950171,
+        "precision": 0.7871116225546605,
+        "recall": 0.5806451612903226,
+        "support": 1178.0
       },
       "eval_I": {
+        "f1-score": 0.9265394121049587,
+        "precision": 0.9208257120459891,
+        "recall": 0.9323244616117254,
+        "support": 18899.0
       },
       "eval_O": {
+        "f1-score": 0.8679097538295895,
+        "precision": 0.8648200526675119,
+        "recall": 0.8710216110019646,
+        "support": 10180.0
       },
+      "eval_accuracy": 0.8980070727434973,
+      "eval_loss": 0.28059592843055725,
       "eval_macro avg": {
+        "f1-score": 0.820914743961573,
+        "precision": 0.8575857957560539,
+        "recall": 0.7946637446346708,
+        "support": 30257.0
+      },
+      "eval_runtime": 1.3597,
+      "eval_samples_per_second": 59.57,
+      "eval_steps_per_second": 8.09,
       "eval_weighted avg": {
+        "f1-score": 0.896759137754772,
+        "precision": 0.8967766387772022,
+        "recall": 0.8980070727434973,
+        "support": 30257.0
       },
       "step": 41
     },
     {
       "epoch": 2.0,
       "eval_B": {
+        "f1-score": 0.8330464716006883,
+        "precision": 0.8446771378708552,
+        "recall": 0.8217317487266553,
+        "support": 1178.0
       },
       "eval_I": {
+        "f1-score": 0.9456807848767648,
+        "precision": 0.950406156477127,
+        "recall": 0.9410021694269538,
+        "support": 18899.0
       },
       "eval_O": {
+        "f1-score": 0.8991690558336167,
+        "precision": 0.8897009327819982,
+        "recall": 0.9088408644400786,
+        "support": 10180.0
       },
+      "eval_accuracy": 0.9255378920580362,
+      "eval_loss": 0.19417612254619598,
       "eval_macro avg": {
+        "f1-score": 0.89263210410369,
+        "precision": 0.8949280757099934,
+        "recall": 0.8905249275312292,
+        "support": 30257.0
+      },
+      "eval_runtime": 1.3644,
+      "eval_samples_per_second": 59.368,
+      "eval_steps_per_second": 8.062,
       "eval_weighted avg": {
+        "f1-score": 0.925646656486691,
+        "precision": 0.9258654564363231,
+        "recall": 0.9255378920580362,
+        "support": 30257.0
       },
       "step": 82
     },
     {
       "epoch": 3.0,
       "eval_B": {
+        "f1-score": 0.8500201045436268,
+        "precision": 0.8074866310160428,
+        "recall": 0.8972835314091681,
+        "support": 1178.0
       },
       "eval_I": {
+        "f1-score": 0.9522313010685104,
+        "precision": 0.942701581540057,
+        "recall": 0.9619556590295782,
+        "support": 18899.0
       },
       "eval_O": {
+        "f1-score": 0.907826437534647,
+        "precision": 0.9321121804822519,
+        "recall": 0.8847740667976425,
+        "support": 10180.0
       },
+      "eval_accuracy": 0.9334699408401361,
+      "eval_loss": 0.18320441246032715,
       "eval_macro avg": {
+        "f1-score": 0.9033592810489282,
+        "precision": 0.894100131012784,
+        "recall": 0.9146710857454629,
+        "support": 30257.0
+      },
+      "eval_runtime": 1.3637,
+      "eval_samples_per_second": 59.395,
+      "eval_steps_per_second": 8.066,
       "eval_weighted avg": {
+        "f1-score": 0.9333118344895024,
+        "precision": 0.9338744237092824,
+        "recall": 0.9334699408401361,
+        "support": 30257.0
       },
       "step": 123
     },
     {
       "epoch": 4.0,
       "eval_B": {
+        "f1-score": 0.8664440734557596,
+        "precision": 0.8522167487684729,
+        "recall": 0.8811544991511036,
+        "support": 1178.0
       },
       "eval_I": {
+        "f1-score": 0.9518863198966544,
+        "precision": 0.9485603194619588,
+        "recall": 0.9552357267580295,
+        "support": 18899.0
       },
       "eval_O": {
+        "f1-score": 0.9081091791747165,
+        "precision": 0.9159588288198262,
+        "recall": 0.9003929273084479,
+        "support": 10180.0
       },
+      "eval_accuracy": 0.9338995934825,
+      "eval_loss": 0.17474766075611115,
       "eval_macro avg": {
+        "f1-score": 0.9088131908423769,
+        "precision": 0.905578632350086,
+        "recall": 0.912261051072527,
+        "support": 30257.0
+      },
+      "eval_runtime": 1.3717,
+      "eval_samples_per_second": 59.053,
+      "eval_steps_per_second": 8.02,
       "eval_weighted avg": {
+        "f1-score": 0.9338309192007261,
+        "precision": 0.9338405554069026,
+        "recall": 0.9338995934825,
+        "support": 30257.0
       },
       "step": 164
     },
     {
       "epoch": 5.0,
       "eval_B": {
+        "f1-score": 0.8666666666666667,
+        "precision": 0.8224085365853658,
+        "recall": 0.9159592529711376,
+        "support": 1178.0
       },
       "eval_I": {
+        "f1-score": 0.9542531309396725,
+        "precision": 0.9393582120155833,
+        "recall": 0.9696280226467009,
+        "support": 18899.0
       },
       "eval_O": {
+        "f1-score": 0.9089055411123006,
+        "precision": 0.9446858111688037,
+        "recall": 0.8757367387033399,
+        "support": 10180.0
       },
+      "eval_accuracy": 0.9359487060845424,
+      "eval_loss": 0.18612883985042572,
       "eval_macro avg": {
+        "f1-score": 0.9099417795728799,
+        "precision": 0.9021508532565843,
+        "recall": 0.9204413381070594,
+        "support": 30257.0
+      },
+      "eval_runtime": 1.3578,
+      "eval_samples_per_second": 59.654,
+      "eval_steps_per_second": 8.101,
       "eval_weighted avg": {
+        "f1-score": 0.9355858698312928,
+        "precision": 0.9365974704259672,
+        "recall": 0.9359487060845424,
+        "support": 30257.0
       },
       "step": 205
     },
     {
       "epoch": 6.0,
       "eval_B": {
+        "f1-score": 0.8542262147815436,
+        "precision": 0.8229740361919748,
+        "recall": 0.8879456706281834,
+        "support": 1178.0
       },
       "eval_I": {
+        "f1-score": 0.9509714713911042,
+        "precision": 0.962094547029837,
+        "recall": 0.9401026509339119,
+        "support": 18899.0
       },
       "eval_O": {
+        "f1-score": 0.9120247354944683,
+        "precision": 0.897328643407168,
+        "recall": 0.9272102161100196,
+        "support": 10180.0
       },
+      "eval_accuracy": 0.9337343424662061,
+      "eval_loss": 0.19629183411598206,
       "eval_macro avg": {
+        "f1-score": 0.9057408072223719,
+        "precision": 0.8941324088763266,
+        "recall": 0.9184195125573716,
+        "support": 30257.0
+      },
+      "eval_runtime": 1.3603,
+      "eval_samples_per_second": 59.544,
+      "eval_steps_per_second": 8.086,
       "eval_weighted avg": {
+        "f1-score": 0.9341012038922174,
+        "precision": 0.9348875912627161,
+        "recall": 0.9337343424662061,
+        "support": 30257.0
       },
       "step": 246
     },
     {
       "epoch": 7.0,
       "eval_B": {
+        "f1-score": 0.8589743589743589,
+        "precision": 0.8133535660091047,
+        "recall": 0.9100169779286927,
+        "support": 1178.0
       },
       "eval_I": {
+        "f1-score": 0.9495904221802143,
+        "precision": 0.9424149252175725,
+        "recall": 0.9568760251865178,
+        "support": 18899.0
       },
       "eval_O": {
+        "f1-score": 0.9019568489713999,
+        "precision": 0.9218461538461539,
+        "recall": 0.8829076620825147,
+        "support": 10180.0
       },
+      "eval_accuracy": 0.9301649205142611,
+      "eval_loss": 0.23149603605270386,
       "eval_macro avg": {
+        "f1-score": 0.9035072100419911,
+        "precision": 0.8925382150242771,
+        "recall": 0.9166002217325749,
+        "support": 30257.0
+      },
+      "eval_runtime": 1.3656,
+      "eval_samples_per_second": 59.314,
+      "eval_steps_per_second": 8.055,
       "eval_weighted avg": {
+        "f1-score": 0.9300360877213377,
+        "precision": 0.9304697762038363,
+        "recall": 0.9301649205142611,
+        "support": 30257.0
       },
       "step": 287
     },
     {
       "epoch": 8.0,
       "eval_B": {
+        "f1-score": 0.87409200968523,
+        "precision": 0.833076923076923,
+        "recall": 0.9193548387096774,
+        "support": 1178.0
       },
       "eval_I": {
+        "f1-score": 0.952083279518508,
+        "precision": 0.9300999293428889,
+        "recall": 0.9751309593100164,
+        "support": 18899.0
       },
       "eval_O": {
+        "f1-score": 0.9016198312891373,
+        "precision": 0.9527507382697146,
+        "recall": 0.8556974459724951,
+        "support": 10180.0
       },
+      "eval_accuracy": 0.9327758865717024,
+      "eval_loss": 0.2542731761932373,
       "eval_macro avg": {
+        "f1-score": 0.9092650401642918,
+        "precision": 0.9053091968965088,
+        "recall": 0.9167277479973963,
+        "support": 30257.0
+      },
+      "eval_runtime": 1.3569,
+      "eval_samples_per_second": 59.697,
+      "eval_steps_per_second": 8.107,
       "eval_weighted avg": {
+        "f1-score": 0.932068353424097,
+        "precision": 0.9339434079922521,
+        "recall": 0.9327758865717024,
+        "support": 30257.0
       },
       "step": 328
     },
     {
       "epoch": 9.0,
       "eval_B": {
+        "f1-score": 0.8768793173506705,
+        "precision": 0.8409976617303195,
+        "recall": 0.9159592529711376,
+        "support": 1178.0
       },
       "eval_I": {
+        "f1-score": 0.9543993519220215,
+        "precision": 0.9428438661710037,
+        "recall": 0.9662416000846605,
+        "support": 18899.0
       },
       "eval_O": {
+        "f1-score": 0.9107449711917517,
+        "precision": 0.9379554445138455,
+        "recall": 0.8850687622789783,
+        "support": 10180.0
       },
+      "eval_accuracy": 0.9369732623855637,
+      "eval_loss": 0.23665204644203186,
       "eval_macro avg": {
+        "f1-score": 0.9140078801548146,
+        "precision": 0.9072656574717229,
+        "recall": 0.9224232051115923,
+        "support": 30257.0
+      },
+      "eval_runtime": 1.3607,
+      "eval_samples_per_second": 59.526,
+      "eval_steps_per_second": 8.084,
       "eval_weighted avg": {
+        "f1-score": 0.9366936905359226,
+        "precision": 0.9372339589990767,
+        "recall": 0.9369732623855637,
+        "support": 30257.0
       },
       "step": 369
     },
     {
       "epoch": 10.0,
       "eval_B": {
+        "f1-score": 0.8608903020667728,
+        "precision": 0.8094170403587444,
+        "recall": 0.9193548387096774,
+        "support": 1178.0
       },
       "eval_I": {
+        "f1-score": 0.9494098249103614,
+        "precision": 0.9393060590367686,
+        "recall": 0.9597333192232393,
+        "support": 18899.0
       },
       "eval_O": {
+        "f1-score": 0.9020162716660771,
+        "precision": 0.9288167343115828,
+        "recall": 0.8767190569744597,
+        "support": 10180.0
       },
+      "eval_accuracy": 0.9302310209207787,
+      "eval_loss": 0.27300411462783813,
       "eval_macro avg": {
+        "f1-score": 0.9041054662144038,
+        "precision": 0.8925132779023652,
+        "recall": 0.9186024049691256,
+        "support": 30257.0
+      },
+      "eval_runtime": 1.3606,
+      "eval_samples_per_second": 59.531,
+      "eval_steps_per_second": 8.084,
       "eval_weighted avg": {
+        "f1-score": 0.9300178703234373,
+        "precision": 0.9307199272423042,
+        "recall": 0.9302310209207787,
+        "support": 30257.0
       },
       "step": 410
     },
     {
       "epoch": 11.0,
       "eval_B": {
+        "f1-score": 0.8705882352941178,
+        "precision": 0.8337218337218337,
+        "recall": 0.9108658743633277,
+        "support": 1178.0
       },
       "eval_I": {
+        "f1-score": 0.9516225883090098,
+        "precision": 0.9392393320964749,
+        "recall": 0.9643367373935129,
+        "support": 18899.0
       },
       "eval_O": {
+        "f1-score": 0.9045882710422363,
+        "precision": 0.9336190675308383,
+        "recall": 0.8773084479371316,
+        "support": 10180.0
       },
+      "eval_accuracy": 0.932974187791255,
+      "eval_loss": 0.2785099744796753,
       "eval_macro avg": {
+        "f1-score": 0.9089330315484546,
+        "precision": 0.9021934111163823,
+        "recall": 0.9175036865646574,
+        "support": 30257.0
+      },
+      "eval_runtime": 1.357,
+      "eval_samples_per_second": 59.689,
+      "eval_steps_per_second": 8.106,
       "eval_weighted avg": {
+        "f1-score": 0.9326429202114688,
+        "precision": 0.9332402605968713,
+        "recall": 0.932974187791255,
+        "support": 30257.0
       },
       "step": 451
     },
     {
       "epoch": 12.0,
       "eval_B": {
+        "f1-score": 0.871941272430669,
+        "precision": 0.8390894819466248,
+        "recall": 0.9074702886247877,
+        "support": 1178.0
       },
       "eval_I": {
+        "f1-score": 0.9533659666298226,
+        "precision": 0.9483742604324834,
+        "recall": 0.9584104979099424,
+        "support": 18899.0
       },
       "eval_O": {
+        "f1-score": 0.9108851674641149,
+        "precision": 0.924524484014569,
+        "recall": 0.8976424361493124,
+        "support": 10180.0
       },
+      "eval_accuracy": 0.9359817562878012,
+      "eval_loss": 0.2702731788158417,
       "eval_macro avg": {
+        "f1-score": 0.9120641355082021,
+        "precision": 0.903996075464559,
+        "recall": 0.9211744075613475,
+        "support": 30257.0
+      },
+      "eval_runtime": 1.3674,
+      "eval_samples_per_second": 59.235,
+      "eval_steps_per_second": 8.044,
       "eval_weighted avg": {
+        "f1-score": 0.9359031373581331,
+        "precision": 0.9360951781377842,
+        "recall": 0.9359817562878012,
+        "support": 30257.0
       },
       "step": 492
     }
   "num_input_tokens_seen": 0,
   "num_train_epochs": 16,
   "save_steps": 500,
+  "total_flos": 1720081324029600.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

checkpoint-492/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5a85704f2105e1c46ca0823f01fbb52a10555bceb380a6c1ee60701ae82dec74
 size 4664

 version https://git-lfs.github.com/spec/v1
+oid sha256:652d293bb850de701018062dce9e70536f9289fef58a5600464855a993d48087
 size 4664