Training in progress, step 120, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:18d771d1ba7e75f1df6bc8616753766c4fed0f75d3b829f27d7d0ed7d1fbeb21
 size 90207248

 version https://git-lfs.github.com/spec/v1
+oid sha256:0381e17ad67838d9326b9da0e8bbf5d7dae3cca78b0989bdfaeb5676f2c0dc9a
 size 90207248

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:50abfbb964a041a0ecd2c05662ae310e221345f353e8e91c2e2783c27548b0f2
 size 46057082

 version https://git-lfs.github.com/spec/v1
+oid sha256:c08b60ab90c9e9df7f9e749017533082baa95260dc3a724edc586aea64d91122
 size 46057082

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d18dfa738a56d4fb0586c033e72b600668509fd5c57ebfd840a07513002f7efd
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:07dfe20848f8d608005744ae38acc083db9fafe304cece19e4d34dbae99c1b75
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:398198b060b9edcfe93ff59de4a929b40cbc42323ec0afb0426f8d7b821a61c1
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e549a35cd7e532c378c88126565a201f68fd1d73868bbbba082980ce1de2c27
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.8914665579795837,
-  "best_model_checkpoint": "miner_id_24/checkpoint-110",
-  "epoch": 0.26252983293556087,
   "eval_steps": 5,
-  "global_step": 110,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -961,6 +961,92 @@
       "eval_samples_per_second": 6.731,
       "eval_steps_per_second": 3.384,
       "step": 110
     }
   ],
   "logging_steps": 1,
@@ -989,7 +1075,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.153367887413248e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.8851180672645569,
+  "best_model_checkpoint": "miner_id_24/checkpoint-120",
+  "epoch": 0.2863961813842482,
   "eval_steps": 5,
+  "global_step": 120,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 6.731,
       "eval_steps_per_second": 3.384,
       "step": 110
+    },
+    {
+      "epoch": 0.2649164677804296,
+      "grad_norm": 0.7203396558761597,
+      "learning_rate": 0.00017975624426754848,
+      "loss": 0.8293,
+      "step": 111
+    },
+    {
+      "epoch": 0.26730310262529833,
+      "grad_norm": 0.7326956391334534,
+      "learning_rate": 0.00017936784788148328,
+      "loss": 0.6584,
+      "step": 112
+    },
+    {
+      "epoch": 0.26968973747016706,
+      "grad_norm": 0.6840059161186218,
+      "learning_rate": 0.00017897618899405423,
+      "loss": 1.1639,
+      "step": 113
+    },
+    {
+      "epoch": 0.2720763723150358,
+      "grad_norm": 0.6619966626167297,
+      "learning_rate": 0.00017858128370482426,
+      "loss": 0.8015,
+      "step": 114
+    },
+    {
+      "epoch": 0.2744630071599045,
+      "grad_norm": 0.6595175862312317,
+      "learning_rate": 0.000178183148246803,
+      "loss": 0.6991,
+      "step": 115
+    },
+    {
+      "epoch": 0.2744630071599045,
+      "eval_loss": 0.8872358202934265,
+      "eval_runtime": 26.2874,
+      "eval_samples_per_second": 6.733,
+      "eval_steps_per_second": 3.386,
+      "step": 115
+    },
+    {
+      "epoch": 0.27684964200477324,
+      "grad_norm": 0.4921382963657379,
+      "learning_rate": 0.00017778179898577973,
+      "loss": 0.4813,
+      "step": 116
+    },
+    {
+      "epoch": 0.27923627684964203,
+      "grad_norm": 0.7563897967338562,
+      "learning_rate": 0.00017737725241965069,
+      "loss": 0.9247,
+      "step": 117
+    },
+    {
+      "epoch": 0.28162291169451076,
+      "grad_norm": 0.8728365302085876,
+      "learning_rate": 0.00017696952517774062,
+      "loss": 0.9356,
+      "step": 118
+    },
+    {
+      "epoch": 0.2840095465393795,
+      "grad_norm": 0.763297438621521,
+      "learning_rate": 0.00017655863402011947,
+      "loss": 0.9925,
+      "step": 119
+    },
+    {
+      "epoch": 0.2863961813842482,
+      "grad_norm": 0.9378253221511841,
+      "learning_rate": 0.00017614459583691346,
+      "loss": 1.1245,
+      "step": 120
+    },
+    {
+      "epoch": 0.2863961813842482,
+      "eval_loss": 0.8851180672645569,
+      "eval_runtime": 26.2919,
+      "eval_samples_per_second": 6.732,
+      "eval_steps_per_second": 3.385,
+      "step": 120
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.349128604450816e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null