End of training

Browse files

Files changed (5) hide show

README.md +5 -5
all_results.json +12 -11
eval_results.json +8 -7
train_results.json +4 -4
trainer_state.json +80 -183

README.md CHANGED Viewed

@@ -19,11 +19,11 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [DTAI-KULeuven/robbert-2023-dutch-base](https://huggingface.co/DTAI-KULeuven/robbert-2023-dutch-base) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.6600
-- Precision: 0.6285
-- Recall: 0.6293
-- Fscore: 0.6282
-- Accuracy: 0.6290
 ## Model description

 This model is a fine-tuned version of [DTAI-KULeuven/robbert-2023-dutch-base](https://huggingface.co/DTAI-KULeuven/robbert-2023-dutch-base) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.6591
+- Precision: 0.6282
+- Recall: 0.6290
+- Fscore: 0.6278
+- Accuracy: 0.6285
 ## Model description

all_results.json CHANGED Viewed

@@ -1,16 +1,17 @@
 {
     "epoch": 1.0,
-    "eval_fscore": 0.6321511851241228,
-    "eval_loss": 0.6710947155952454,
-    "eval_precision": 0.6327920074497231,
-    "eval_recall": 0.6336155271716182,
-    "eval_runtime": 2673.8432,
     "eval_samples": 834159,
-    "eval_samples_per_second": 311.97,
-    "eval_steps_per_second": 19.498,
-    "train_loss": 0.5972718149742211,
-    "train_runtime": 22981.0662,
     "train_samples": 868047,
-    "train_samples_per_second": 37.772,
-    "train_steps_per_second": 0.59
 }

 {
     "epoch": 1.0,
+    "eval_accuracy": 0.6284593225032638,
+    "eval_fscore": 0.6277856730232845,
+    "eval_loss": 0.659059464931488,
+    "eval_precision": 0.6282084760632409,
+    "eval_recall": 0.6289991449960104,
+    "eval_runtime": 939.6401,
     "eval_samples": 834159,
+    "eval_samples_per_second": 887.743,
+    "eval_steps_per_second": 13.871,
+    "train_loss": 0.6080337204928948,
+    "train_runtime": 5529.9878,
     "train_samples": 868047,
+    "train_samples_per_second": 156.971,
+    "train_steps_per_second": 1.226
 }

eval_results.json CHANGED Viewed

@@ -1,11 +1,12 @@
 {
     "epoch": 1.0,
-    "eval_fscore": 0.6321511851241228,
-    "eval_loss": 0.6710947155952454,
-    "eval_precision": 0.6327920074497231,
-    "eval_recall": 0.6336155271716182,
-    "eval_runtime": 2673.8432,
     "eval_samples": 834159,
-    "eval_samples_per_second": 311.97,
-    "eval_steps_per_second": 19.498
 }

 {
     "epoch": 1.0,
+    "eval_accuracy": 0.6284593225032638,
+    "eval_fscore": 0.6277856730232845,
+    "eval_loss": 0.659059464931488,
+    "eval_precision": 0.6282084760632409,
+    "eval_recall": 0.6289991449960104,
+    "eval_runtime": 939.6401,
     "eval_samples": 834159,
+    "eval_samples_per_second": 887.743,
+    "eval_steps_per_second": 13.871
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.5972718149742211,
-    "train_runtime": 22981.0662,
     "train_samples": 868047,
-    "train_samples_per_second": 37.772,
-    "train_steps_per_second": 0.59
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.6080337204928948,
+    "train_runtime": 5529.9878,
     "train_samples": 868047,
+    "train_samples_per_second": 156.971,
+    "train_steps_per_second": 1.226
 }

trainer_state.json CHANGED Viewed

@@ -1,247 +1,144 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9999815678395665,
-  "eval_steps": 2500,
-  "global_step": 13563,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.04,
-      "learning_rate": 9.634299196342994e-06,
-      "loss": 0.6609,
       "step": 500
     },
     {
-      "epoch": 0.07,
-      "learning_rate": 9.267861092678611e-06,
-      "loss": 0.6467,
       "step": 1000
     },
     {
-      "epoch": 0.11,
-      "learning_rate": 8.899211088992112e-06,
-      "loss": 0.6414,
       "step": 1500
     },
     {
-      "epoch": 0.15,
-      "learning_rate": 8.530561085305612e-06,
-      "loss": 0.6322,
       "step": 2000
     },
-    {
-      "epoch": 0.18,
-      "learning_rate": 8.161911081619111e-06,
-      "loss": 0.6266,
-      "step": 2500
-    },
-    {
-      "epoch": 0.18,
-      "eval_fscore": 0.6023351654273126,
-      "eval_loss": 0.6601094007492065,
-      "eval_precision": 0.6348626173773073,
-      "eval_recall": 0.6216278871239599,
-      "eval_runtime": 2683.597,
-      "eval_samples_per_second": 310.836,
-      "eval_steps_per_second": 19.427,
-      "step": 2500
-    },
-    {
-      "epoch": 0.22,
-      "learning_rate": 7.793261077932612e-06,
-      "loss": 0.6193,
-      "step": 3000
-    },
-    {
-      "epoch": 0.26,
-      "learning_rate": 7.424611074246111e-06,
-      "loss": 0.6134,
-      "step": 3500
-    },
     {
       "epoch": 0.29,
-      "learning_rate": 7.055961070559611e-06,
-      "loss": 0.6069,
-      "step": 4000
-    },
-    {
-      "epoch": 0.33,
-      "learning_rate": 6.687311066873111e-06,
-      "loss": 0.6043,
-      "step": 4500
-    },
-    {
-      "epoch": 0.37,
-      "learning_rate": 6.318661063186611e-06,
-      "loss": 0.6008,
-      "step": 5000
     },
     {
       "epoch": 0.37,
-      "eval_fscore": 0.6295517813114804,
-      "eval_loss": 0.6481114625930786,
-      "eval_precision": 0.6323627402469738,
-      "eval_recall": 0.6327219192535836,
-      "eval_runtime": 2681.3189,
-      "eval_samples_per_second": 311.1,
-      "eval_steps_per_second": 19.444,
-      "step": 5000
-    },
-    {
-      "epoch": 0.41,
-      "learning_rate": 5.950011059500111e-06,
-      "loss": 0.5989,
-      "step": 5500
     },
     {
       "epoch": 0.44,
-      "learning_rate": 5.581361055813611e-06,
-      "loss": 0.6005,
-      "step": 6000
-    },
-    {
-      "epoch": 0.48,
-      "learning_rate": 5.212711052127111e-06,
-      "loss": 0.5894,
-      "step": 6500
     },
     {
       "epoch": 0.52,
-      "learning_rate": 4.8440610484406105e-06,
-      "loss": 0.5871,
-      "step": 7000
-    },
-    {
-      "epoch": 0.55,
-      "learning_rate": 4.475411044754111e-06,
-      "loss": 0.5925,
-      "step": 7500
-    },
-    {
-      "epoch": 0.55,
-      "eval_fscore": 0.6292509682845455,
-      "eval_loss": 0.6569201946258545,
-      "eval_precision": 0.6303328699646444,
-      "eval_recall": 0.6311007791866495,
-      "eval_runtime": 2678.5974,
-      "eval_samples_per_second": 311.416,
-      "eval_steps_per_second": 19.464,
-      "step": 7500
     },
     {
       "epoch": 0.59,
-      "learning_rate": 4.1074983410749835e-06,
-      "loss": 0.5859,
-      "step": 8000
     },
     {
-      "epoch": 0.63,
-      "learning_rate": 3.7388483373884836e-06,
-      "loss": 0.5817,
-      "step": 8500
     },
     {
       "epoch": 0.66,
-      "learning_rate": 3.370935633709357e-06,
-      "loss": 0.5819,
-      "step": 9000
-    },
-    {
-      "epoch": 0.7,
-      "learning_rate": 3.0022856300228566e-06,
-      "loss": 0.5812,
-      "step": 9500
-    },
-    {
-      "epoch": 0.74,
-      "learning_rate": 2.6336356263363567e-06,
-      "loss": 0.5824,
-      "step": 10000
     },
     {
       "epoch": 0.74,
-      "eval_fscore": 0.6275101578247589,
-      "eval_loss": 0.6671798825263977,
-      "eval_precision": 0.6346007218237036,
-      "eval_recall": 0.6333714931104397,
-      "eval_runtime": 2680.7422,
-      "eval_samples_per_second": 311.167,
-      "eval_steps_per_second": 19.448,
-      "step": 10000
-    },
-    {
-      "epoch": 0.77,
-      "learning_rate": 2.2649856226498564e-06,
-      "loss": 0.5762,
-      "step": 10500
     },
     {
       "epoch": 0.81,
-      "learning_rate": 1.8963356189633564e-06,
-      "loss": 0.5709,
-      "step": 11000
-    },
-    {
-      "epoch": 0.85,
-      "learning_rate": 1.5276856152768563e-06,
-      "loss": 0.5717,
-      "step": 11500
     },
     {
       "epoch": 0.88,
-      "learning_rate": 1.159035611590356e-06,
-      "loss": 0.5687,
-      "step": 12000
-    },
-    {
-      "epoch": 0.92,
-      "learning_rate": 7.903856079038562e-07,
-      "loss": 0.5661,
-      "step": 12500
     },
     {
-      "epoch": 0.92,
-      "eval_fscore": 0.6327639400151716,
-      "eval_loss": 0.672634482383728,
-      "eval_precision": 0.6340222342544792,
-      "eval_recall": 0.6347830614243537,
-      "eval_runtime": 2680.9501,
-      "eval_samples_per_second": 311.143,
-      "eval_steps_per_second": 19.446,
-      "step": 12500
     },
     {
       "epoch": 0.96,
-      "learning_rate": 4.2247290422472906e-07,
-      "loss": 0.5723,
-      "step": 13000
-    },
-    {
-      "epoch": 1.0,
-      "learning_rate": 5.3822900538229014e-08,
-      "loss": 0.5705,
-      "step": 13500
     },
     {
       "epoch": 1.0,
-      "step": 13563,
-      "total_flos": 2.0223656129308262e+17,
-      "train_loss": 0.5972718149742211,
-      "train_runtime": 22981.0662,
-      "train_samples_per_second": 37.772,
-      "train_steps_per_second": 0.59
     }
   ],
   "logging_steps": 500,
-  "max_steps": 13563,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
-  "total_flos": 2.0223656129308262e+17,
-  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 2000,
+  "global_step": 6782,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.07,
+      "learning_rate": 9.26570333235034e-06,
+      "loss": 0.6511,
       "step": 500
     },
     {
+      "epoch": 0.15,
+      "learning_rate": 8.529932173400177e-06,
+      "loss": 0.6334,
       "step": 1000
     },
     {
+      "epoch": 0.22,
+      "learning_rate": 7.792686523149514e-06,
+      "loss": 0.6255,
       "step": 1500
     },
     {
+      "epoch": 0.29,
+      "learning_rate": 7.05544087289885e-06,
+      "loss": 0.616,
       "step": 2000
     },
     {
       "epoch": 0.29,
+      "eval_accuracy": 0.6266611041779805,
+      "eval_fscore": 0.6266318238581281,
+      "eval_loss": 0.6498423218727112,
+      "eval_precision": 0.6295307854237061,
+      "eval_recall": 0.629852593471248,
+      "eval_runtime": 927.8313,
+      "eval_samples_per_second": 899.042,
+      "eval_steps_per_second": 14.048,
+      "step": 2000
     },
     {
       "epoch": 0.37,
+      "learning_rate": 6.318195222648187e-06,
+      "loss": 0.6115,
+      "step": 2500
     },
     {
       "epoch": 0.44,
+      "learning_rate": 5.580949572397524e-06,
+      "loss": 0.6085,
+      "step": 3000
     },
     {
       "epoch": 0.52,
+      "learning_rate": 4.84370392214686e-06,
+      "loss": 0.6009,
+      "step": 3500
     },
     {
       "epoch": 0.59,
+      "learning_rate": 4.106458271896196e-06,
+      "loss": 0.6033,
+      "step": 4000
     },
     {
+      "epoch": 0.59,
+      "eval_accuracy": 0.6227865430931033,
+      "eval_fscore": 0.6227524751090208,
+      "eval_loss": 0.6584447622299194,
+      "eval_precision": 0.627835745995615,
+      "eval_recall": 0.627405168660975,
+      "eval_runtime": 922.5319,
+      "eval_samples_per_second": 904.206,
+      "eval_steps_per_second": 14.129,
+      "step": 4000
     },
     {
       "epoch": 0.66,
+      "learning_rate": 3.3692126216455325e-06,
+      "loss": 0.5969,
+      "step": 4500
     },
     {
       "epoch": 0.74,
+      "learning_rate": 2.6334414626953703e-06,
+      "loss": 0.5968,
+      "step": 5000
     },
     {
       "epoch": 0.81,
+      "learning_rate": 1.897670303745208e-06,
+      "loss": 0.5922,
+      "step": 5500
     },
     {
       "epoch": 0.88,
+      "learning_rate": 1.1604246534945445e-06,
+      "loss": 0.5896,
+      "step": 6000
     },
     {
+      "epoch": 0.88,
+      "eval_accuracy": 0.6289963903764151,
+      "eval_fscore": 0.6282163376402503,
+      "eval_loss": 0.659950852394104,
+      "eval_precision": 0.6285056225987752,
+      "eval_recall": 0.6292816037736055,
+      "eval_runtime": 919.1018,
+      "eval_samples_per_second": 907.581,
+      "eval_steps_per_second": 14.181,
+      "step": 6000
     },
     {
       "epoch": 0.96,
+      "learning_rate": 4.231790032438809e-07,
+      "loss": 0.5894,
+      "step": 6500
     },
     {
       "epoch": 1.0,
+      "step": 6782,
+      "total_flos": 5.709819056802048e+16,
+      "train_loss": 0.6080337204928948,
+      "train_runtime": 5529.9878,
+      "train_samples_per_second": 156.971,
+      "train_steps_per_second": 1.226
     }
   ],
   "logging_steps": 500,
+  "max_steps": 6782,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
+  "total_flos": 5.709819056802048e+16,
+  "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null
 }