End of training

Browse files

Files changed (5) hide show

README.md +5 -1
all_results.json +6 -6
eval_results.json +3 -3
train_results.json +3 -3
trainer_state.json +43 -3

README.md CHANGED Viewed

@@ -3,6 +3,8 @@ license: mit
 base_model: unicamp-dl/ptt5-small-t5-vocab
 tags:
 - generated_from_trainer
 model-index:
 - name: debug_t5-small_squad
   results: []
@@ -13,7 +15,9 @@ should probably proofread and complete it, then remove this comment. -->
 # debug_t5-small_squad
-This model is a fine-tuned version of [unicamp-dl/ptt5-small-t5-vocab](https://huggingface.co/unicamp-dl/ptt5-small-t5-vocab) on an unknown dataset.
 ## Model description

 base_model: unicamp-dl/ptt5-small-t5-vocab
 tags:
 - generated_from_trainer
+datasets:
+- tiagoblima/qg_squad_v1_pt
 model-index:
 - name: debug_t5-small_squad
   results: []
 # debug_t5-small_squad
+This model is a fine-tuned version of [unicamp-dl/ptt5-small-t5-vocab](https://huggingface.co/unicamp-dl/ptt5-small-t5-vocab) on the tiagoblima/qg_squad_v1_pt dataset.
+It achieves the following results on the evaluation set:
+- Loss: 1.5534
 ## Model description

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 2.0,
     "eval_loss": 1.553363561630249,
-    "eval_runtime": 136.5092,
     "eval_samples": 14945,
-    "eval_samples_per_second": 109.48,
-    "eval_steps_per_second": 13.691,
     "train_loss": 1.505635230187694,
-    "train_runtime": 4170.6739,
     "train_samples": 87599,
-    "train_samples_per_second": 42.007,
-    "train_steps_per_second": 0.656
 }

 {
     "epoch": 2.0,
     "eval_loss": 1.553363561630249,
+    "eval_runtime": 128.6101,
     "eval_samples": 14945,
+    "eval_samples_per_second": 116.204,
+    "eval_steps_per_second": 14.532,
     "train_loss": 1.505635230187694,
+    "train_runtime": 4543.9022,
     "train_samples": 87599,
+    "train_samples_per_second": 38.557,
+    "train_steps_per_second": 0.603
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 2.0,
     "eval_loss": 1.553363561630249,
-    "eval_runtime": 136.5092,
     "eval_samples": 14945,
-    "eval_samples_per_second": 109.48,
-    "eval_steps_per_second": 13.691
 }

 {
     "epoch": 2.0,
     "eval_loss": 1.553363561630249,
+    "eval_runtime": 128.6101,
     "eval_samples": 14945,
+    "eval_samples_per_second": 116.204,
+    "eval_steps_per_second": 14.532
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 2.0,
     "train_loss": 1.505635230187694,
-    "train_runtime": 4170.6739,
     "train_samples": 87599,
-    "train_samples_per_second": 42.007,
-    "train_steps_per_second": 0.656
 }

 {
     "epoch": 2.0,
     "train_loss": 1.505635230187694,
+    "train_runtime": 4543.9022,
     "train_samples": 87599,
+    "train_samples_per_second": 38.557,
+    "train_steps_per_second": 0.603
 }

trainer_state.json CHANGED Viewed

@@ -14,38 +14,78 @@
       "loss": 1.8198,
       "step": 500
     },
     {
       "epoch": 0.73,
       "learning_rate": 6.347699050401752e-05,
       "loss": 1.5114,
       "step": 1000
     },
     {
       "epoch": 1.1,
       "learning_rate": 4.52154857560263e-05,
       "loss": 1.4445,
       "step": 1500
     },
     {
       "epoch": 1.46,
       "learning_rate": 2.695398100803506e-05,
       "loss": 1.4118,
       "step": 2000
     },
     {
       "epoch": 1.83,
       "learning_rate": 8.692476260043827e-06,
       "loss": 1.3941,
       "step": 2500
     },
     {
       "epoch": 2.0,
       "step": 2738,
       "total_flos": 1.7783709700718592e+16,
       "train_loss": 1.505635230187694,
-      "train_runtime": 4170.6739,
-      "train_samples_per_second": 42.007,
-      "train_steps_per_second": 0.656
     }
   ],
   "logging_steps": 500,

       "loss": 1.8198,
       "step": 500
     },
+    {
+      "None_loss": 1.661426305770874,
+      "None_runtime": 129.2092,
+      "None_samples_per_second": 115.665,
+      "None_steps_per_second": 14.465,
+      "epoch": 0.37,
+      "step": 500
+    },
     {
       "epoch": 0.73,
       "learning_rate": 6.347699050401752e-05,
       "loss": 1.5114,
       "step": 1000
     },
+    {
+      "None_loss": 1.5952973365783691,
+      "None_runtime": 129.3057,
+      "None_samples_per_second": 115.579,
+      "None_steps_per_second": 14.454,
+      "epoch": 0.73,
+      "step": 1000
+    },
     {
       "epoch": 1.1,
       "learning_rate": 4.52154857560263e-05,
       "loss": 1.4445,
       "step": 1500
     },
+    {
+      "None_loss": 1.5740190744400024,
+      "None_runtime": 129.646,
+      "None_samples_per_second": 115.275,
+      "None_steps_per_second": 14.416,
+      "epoch": 1.1,
+      "step": 1500
+    },
     {
       "epoch": 1.46,
       "learning_rate": 2.695398100803506e-05,
       "loss": 1.4118,
       "step": 2000
     },
+    {
+      "None_loss": 1.5628818273544312,
+      "None_runtime": 129.6751,
+      "None_samples_per_second": 115.25,
+      "None_steps_per_second": 14.413,
+      "epoch": 1.46,
+      "step": 2000
+    },
     {
       "epoch": 1.83,
       "learning_rate": 8.692476260043827e-06,
       "loss": 1.3941,
       "step": 2500
     },
+    {
+      "None_loss": 1.5557925701141357,
+      "None_runtime": 128.5071,
+      "None_samples_per_second": 116.297,
+      "None_steps_per_second": 14.544,
+      "epoch": 1.83,
+      "step": 2500
+    },
     {
       "epoch": 2.0,
       "step": 2738,
       "total_flos": 1.7783709700718592e+16,
       "train_loss": 1.505635230187694,
+      "train_runtime": 4543.9022,
+      "train_samples_per_second": 38.557,
+      "train_steps_per_second": 0.603
     }
   ],
   "logging_steps": 500,