Upload 8 files

Browse files

Files changed (5) hide show

adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +261 -5

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9cd696e217478d0fd2598209d39fb1a98794e14440ff92a6e3eb44f0cdc3e1c9
 size 23093424

 version https://git-lfs.github.com/spec/v1
+oid sha256:529b74d808e7406775eb8e3196fe594af28c4ea71ec9f5ae5dba2ee6bc7b58b9
 size 23093424

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4ac3e086bd43e4d2c77c39b96a5efc4ba30f382377f9c12bbb6e02c6a8ca8b59
 size 46298682

 version https://git-lfs.github.com/spec/v1
+oid sha256:058caa8e6c0fc57c07b779f33b25636610ecf2cf367654b5843fc8dc63021f1f
 size 46298682

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5d46c56b2ff5f1d7e4350bd5a78a3c38071bcb0e540a8783b3d5dcf4123df2f0
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:c792e52c193f0f16c8ed09ef3cbc20ef01c97daab2c1902596f6e68ba633485b
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ab30705be11a7f0d47ae24808b51c36fd3d9958a81ef53b71ea1841770f6e963
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d2053d27afacc6bc6dded4d38ad7a85f2c6d88921977580cd78f5c5f7e27ff9a
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 2.909609317779541,
-  "best_model_checkpoint": "outputs-6_7/checkpoint-48000",
-  "epoch": 2.061041169297357,
   "eval_steps": 4000,
-  "global_step": 48000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -775,6 +775,262 @@
       "eval_samples_per_second": 14.272,
       "eval_steps_per_second": 3.568,
       "step": 48000
     }
   ],
   "logging_steps": 500,
@@ -794,7 +1050,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.807418710561096e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 2.8960378170013428,
+  "best_model_checkpoint": "outputs-6_7/checkpoint-64000",
+  "epoch": 2.7480548923964756,
   "eval_steps": 4000,
+  "global_step": 64000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 14.272,
       "eval_steps_per_second": 3.568,
       "step": 48000
+    },
+    {
+      "epoch": 2.082510348144204,
+      "grad_norm": 0.7904226183891296,
+      "learning_rate": 0.00028752952290977794,
+      "loss": 2.2271,
+      "step": 48500
+    },
+    {
+      "epoch": 2.1039795269910515,
+      "grad_norm": 0.8151206374168396,
+      "learning_rate": 0.0002874006956671104,
+      "loss": 2.2104,
+      "step": 49000
+    },
+    {
+      "epoch": 2.1254487058378992,
+      "grad_norm": 0.6942662596702576,
+      "learning_rate": 0.0002872718684244428,
+      "loss": 2.2197,
+      "step": 49500
+    },
+    {
+      "epoch": 2.1469178846847465,
+      "grad_norm": 0.6846303939819336,
+      "learning_rate": 0.0002871430411817752,
+      "loss": 2.2286,
+      "step": 50000
+    },
+    {
+      "epoch": 2.1683870635315943,
+      "grad_norm": 0.8961315155029297,
+      "learning_rate": 0.0002870142139391076,
+      "loss": 2.2329,
+      "step": 50500
+    },
+    {
+      "epoch": 2.1898562423784416,
+      "grad_norm": 0.5635807514190674,
+      "learning_rate": 0.0002868853866964401,
+      "loss": 2.2216,
+      "step": 51000
+    },
+    {
+      "epoch": 2.211325421225289,
+      "grad_norm": 0.6454870700836182,
+      "learning_rate": 0.00028675655945377247,
+      "loss": 2.2119,
+      "step": 51500
+    },
+    {
+      "epoch": 2.2327946000721366,
+      "grad_norm": 0.5770113468170166,
+      "learning_rate": 0.00028662773221110486,
+      "loss": 2.2216,
+      "step": 52000
+    },
+    {
+      "epoch": 2.2327946000721366,
+      "eval_loss": 2.9131178855895996,
+      "eval_runtime": 170.3262,
+      "eval_samples_per_second": 14.678,
+      "eval_steps_per_second": 3.669,
+      "step": 52000
+    },
+    {
+      "epoch": 2.254263778918984,
+      "grad_norm": 0.6589009165763855,
+      "learning_rate": 0.0002864989049684373,
+      "loss": 2.2237,
+      "step": 52500
+    },
+    {
+      "epoch": 2.2757329577658316,
+      "grad_norm": 0.6595714688301086,
+      "learning_rate": 0.0002863700777257697,
+      "loss": 2.2331,
+      "step": 53000
+    },
+    {
+      "epoch": 2.297202136612679,
+      "grad_norm": 0.5528385639190674,
+      "learning_rate": 0.0002862412504831021,
+      "loss": 2.2316,
+      "step": 53500
+    },
+    {
+      "epoch": 2.318671315459526,
+      "grad_norm": 0.6706179976463318,
+      "learning_rate": 0.00028611242324043455,
+      "loss": 2.2312,
+      "step": 54000
+    },
+    {
+      "epoch": 2.340140494306374,
+      "grad_norm": 0.6599323153495789,
+      "learning_rate": 0.000285983595997767,
+      "loss": 2.2228,
+      "step": 54500
+    },
+    {
+      "epoch": 2.3616096731532212,
+      "grad_norm": 0.7218915820121765,
+      "learning_rate": 0.0002858547687550994,
+      "loss": 2.2269,
+      "step": 55000
+    },
+    {
+      "epoch": 2.3830788520000685,
+      "grad_norm": 0.6501777768135071,
+      "learning_rate": 0.0002857259415124318,
+      "loss": 2.225,
+      "step": 55500
+    },
+    {
+      "epoch": 2.4045480308469163,
+      "grad_norm": 0.6774255037307739,
+      "learning_rate": 0.00028559711426976423,
+      "loss": 2.2193,
+      "step": 56000
+    },
+    {
+      "epoch": 2.4045480308469163,
+      "eval_loss": 2.90551495552063,
+      "eval_runtime": 173.4554,
+      "eval_samples_per_second": 14.413,
+      "eval_steps_per_second": 3.603,
+      "step": 56000
+    },
+    {
+      "epoch": 2.4260172096937636,
+      "grad_norm": 0.667073130607605,
+      "learning_rate": 0.00028546828702709663,
+      "loss": 2.2228,
+      "step": 56500
+    },
+    {
+      "epoch": 2.4474863885406113,
+      "grad_norm": 0.776077389717102,
+      "learning_rate": 0.000285339459784429,
+      "loss": 2.226,
+      "step": 57000
+    },
+    {
+      "epoch": 2.4689555673874586,
+      "grad_norm": 0.7873576879501343,
+      "learning_rate": 0.00028521063254176147,
+      "loss": 2.2219,
+      "step": 57500
+    },
+    {
+      "epoch": 2.490424746234306,
+      "grad_norm": 0.7621210813522339,
+      "learning_rate": 0.0002850818052990939,
+      "loss": 2.2226,
+      "step": 58000
+    },
+    {
+      "epoch": 2.5118939250811536,
+      "grad_norm": 0.774750828742981,
+      "learning_rate": 0.0002849529780564263,
+      "loss": 2.2328,
+      "step": 58500
+    },
+    {
+      "epoch": 2.533363103928001,
+      "grad_norm": 0.707665205001831,
+      "learning_rate": 0.0002848241508137587,
+      "loss": 2.2342,
+      "step": 59000
+    },
+    {
+      "epoch": 2.554832282774848,
+      "grad_norm": 0.7524703741073608,
+      "learning_rate": 0.00028469532357109116,
+      "loss": 2.2296,
+      "step": 59500
+    },
+    {
+      "epoch": 2.576301461621696,
+      "grad_norm": 0.6186488270759583,
+      "learning_rate": 0.00028456649632842355,
+      "loss": 2.2282,
+      "step": 60000
+    },
+    {
+      "epoch": 2.576301461621696,
+      "eval_loss": 2.907226085662842,
+      "eval_runtime": 176.429,
+      "eval_samples_per_second": 14.17,
+      "eval_steps_per_second": 3.543,
+      "step": 60000
+    },
+    {
+      "epoch": 2.5977706404685432,
+      "grad_norm": 0.6811486482620239,
+      "learning_rate": 0.00028443766908575594,
+      "loss": 2.2357,
+      "step": 60500
+    },
+    {
+      "epoch": 2.619239819315391,
+      "grad_norm": 0.7401767373085022,
+      "learning_rate": 0.0002843088418430884,
+      "loss": 2.2264,
+      "step": 61000
+    },
+    {
+      "epoch": 2.6407089981622383,
+      "grad_norm": 0.6240813136100769,
+      "learning_rate": 0.00028418001460042084,
+      "loss": 2.2402,
+      "step": 61500
+    },
+    {
+      "epoch": 2.6621781770090855,
+      "grad_norm": 0.6217384338378906,
+      "learning_rate": 0.00028405118735775324,
+      "loss": 2.2294,
+      "step": 62000
+    },
+    {
+      "epoch": 2.6836473558559333,
+      "grad_norm": 0.5563312768936157,
+      "learning_rate": 0.00028392236011508563,
+      "loss": 2.2344,
+      "step": 62500
+    },
+    {
+      "epoch": 2.7051165347027806,
+      "grad_norm": 0.7275550961494446,
+      "learning_rate": 0.0002837935328724181,
+      "loss": 2.2233,
+      "step": 63000
+    },
+    {
+      "epoch": 2.7265857135496283,
+      "grad_norm": 0.6657426953315735,
+      "learning_rate": 0.00028366470562975047,
+      "loss": 2.2269,
+      "step": 63500
+    },
+    {
+      "epoch": 2.7480548923964756,
+      "grad_norm": 0.5833483934402466,
+      "learning_rate": 0.0002835358783870829,
+      "loss": 2.2234,
+      "step": 64000
+    },
+    {
+      "epoch": 2.7480548923964756,
+      "eval_loss": 2.8960378170013428,
+      "eval_runtime": 165.7901,
+      "eval_samples_per_second": 15.079,
+      "eval_steps_per_second": 3.77,
+      "step": 64000
     }
   ],
   "logging_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 7.740828282336215e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null