End of training

Files changed (5) hide show

README.md CHANGED Viewed

@@ -3,6 +3,8 @@ license: mit
 base_model: unicamp-dl/ptt5-small-t5-vocab
 tags:
 - generated_from_trainer
 model-index:
 - name: debug_t5-small_squad
   results: []
@@ -13,7 +15,9 @@ should probably proofread and complete it, then remove this comment. -->
 # debug_t5-small_squad
-This model is a fine-tuned version of [unicamp-dl/ptt5-small-t5-vocab](https://huggingface.co/unicamp-dl/ptt5-small-t5-vocab) on an unknown dataset.
 ## Model description

 base_model: unicamp-dl/ptt5-small-t5-vocab
 tags:
 - generated_from_trainer
+datasets:
+- tiagoblima/qg_squad_v1_pt
 model-index:
 - name: debug_t5-small_squad
   results: []
 # debug_t5-small_squad
+This model is a fine-tuned version of [unicamp-dl/ptt5-small-t5-vocab](https://huggingface.co/unicamp-dl/ptt5-small-t5-vocab) on the tiagoblima/qg_squad_v1_pt dataset.
+It achieves the following results on the evaluation set:
+- Loss: 1.5534
 ## Model description

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 2.0,
-    "eval_loss": 1.5792150497436523,
-    "eval_runtime": 130.2194,
     "eval_samples": 14945,
-    "eval_samples_per_second": 114.768,
-    "eval_steps_per_second": 14.353,
-    "train_loss": 1.4037482273500275,
-    "train_runtime": 3969.1352,
     "train_samples": 87599,
-    "train_samples_per_second": 44.14,
-    "train_steps_per_second": 0.69
 }

 {
     "epoch": 2.0,
+    "eval_loss": 1.553363561630249,
+    "eval_runtime": 136.5092,
     "eval_samples": 14945,
+    "eval_samples_per_second": 109.48,
+    "eval_steps_per_second": 13.691,
+    "train_loss": 1.505635230187694,
+    "train_runtime": 4170.6739,
     "train_samples": 87599,
+    "train_samples_per_second": 42.007,
+    "train_steps_per_second": 0.656
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 2.0,
-    "eval_loss": 1.5792150497436523,
-    "eval_runtime": 130.2194,
     "eval_samples": 14945,
-    "eval_samples_per_second": 114.768,
-    "eval_steps_per_second": 14.353
 }

 {
     "epoch": 2.0,
+    "eval_loss": 1.553363561630249,
+    "eval_runtime": 136.5092,
     "eval_samples": 14945,
+    "eval_samples_per_second": 109.48,
+    "eval_steps_per_second": 13.691
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 2.0,
-    "train_loss": 1.4037482273500275,
-    "train_runtime": 3969.1352,
     "train_samples": 87599,
-    "train_samples_per_second": 44.14,
-    "train_steps_per_second": 0.69
 }

 {
     "epoch": 2.0,
+    "train_loss": 1.505635230187694,
+    "train_runtime": 4170.6739,
     "train_samples": 87599,
+    "train_samples_per_second": 42.007,
+    "train_steps_per_second": 0.656
 }

trainer_state.json CHANGED Viewed

@@ -10,42 +10,42 @@
   "log_history": [
     {
       "epoch": 0.37,
-      "learning_rate": 8.692476260043827e-06,
-      "loss": 1.2919,
       "step": 500
     },
     {
       "epoch": 0.73,
-      "learning_rate": 0.0,
-      "loss": 1.4435,
       "step": 1000
     },
     {
       "epoch": 1.1,
-      "learning_rate": 0.0,
-      "loss": 1.4318,
       "step": 1500
     },
     {
       "epoch": 1.46,
-      "learning_rate": 0.0,
-      "loss": 1.4235,
       "step": 2000
     },
     {
       "epoch": 1.83,
-      "learning_rate": 0.0,
-      "loss": 1.4192,
       "step": 2500
     },
     {
       "epoch": 2.0,
       "step": 2738,
       "total_flos": 1.7783709700718592e+16,
-      "train_loss": 1.4037482273500275,
-      "train_runtime": 3969.1352,
-      "train_samples_per_second": 44.14,
-      "train_steps_per_second": 0.69
     }
   ],
   "logging_steps": 500,

   "log_history": [
     {
       "epoch": 0.37,
+      "learning_rate": 8.173849525200878e-05,
+      "loss": 1.8198,
       "step": 500
     },
     {
       "epoch": 0.73,
+      "learning_rate": 6.347699050401752e-05,
+      "loss": 1.5114,
       "step": 1000
     },
     {
       "epoch": 1.1,
+      "learning_rate": 4.52154857560263e-05,
+      "loss": 1.4445,
       "step": 1500
     },
     {
       "epoch": 1.46,
+      "learning_rate": 2.695398100803506e-05,
+      "loss": 1.4118,
       "step": 2000
     },
     {
       "epoch": 1.83,
+      "learning_rate": 8.692476260043827e-06,
+      "loss": 1.3941,
       "step": 2500
     },
     {
       "epoch": 2.0,
       "step": 2738,
       "total_flos": 1.7783709700718592e+16,
+      "train_loss": 1.505635230187694,
+      "train_runtime": 4170.6739,
+      "train_samples_per_second": 42.007,
+      "train_steps_per_second": 0.656
     }
   ],
   "logging_steps": 500,