Training in progress, step 14000, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +491 -3
last-checkpoint/training_args.bin +1 -1

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2172da14deb5ca9f0e6f14d8f6ea79f495f134705213512eb214acc738ae1a2b
 size 1715561468

 version https://git-lfs.github.com/spec/v1
+oid sha256:ba212990d194dca4f44ced4ca63ccf9ef184764cc7f8172c878fbac719c06d49
 size 1715561468

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:98ea6b956ce4901179558c59f0fb06e1bc9747de38c7f9ca931ce9b196acb81d
 size 3431474364

 version https://git-lfs.github.com/spec/v1
+oid sha256:aaf08772128513652918e0bba4e572e2c66384e3a11c4c8c40940608c79e2518
 size 3431474364

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f6d8bcb19c39d66027f3d7d9fbbeb3905ddad266891b5c1549b07d8b38abb6d1
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:811402e95375709703215e6c97e1c03c4e9ff165e81e964713fe6305f44ed804
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fdbc17eea2364605baa35c3a731dcb44b37215b8ffcd0664293786485aa92f95
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:1f2d0d921e9513c8f152071073b4ae78b683c89f70f41659678cef15c9b0b508
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.1257974660796118,
   "eval_steps": 1000,
-  "global_step": 2800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -121,6 +121,494 @@
       "learning_rate": 4.999922185102915e-05,
       "loss": 1.0514,
       "step": 2800
     }
   ],
   "logging_steps": 200,
@@ -140,7 +628,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.01409263517696e+16,
   "train_batch_size": 6,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.6289873303980591,
   "eval_steps": 1000,
+  "global_step": 14000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 4.999922185102915e-05,
       "loss": 1.0514,
       "step": 2800
+    },
+    {
+      "epoch": 0.13478299937101268,
+      "grad_norm": 2.352109432220459,
+      "learning_rate": 4.9999106504350065e-05,
+      "loss": 1.0327,
+      "step": 3000
+    },
+    {
+      "epoch": 0.13478299937101268,
+      "eval_loss": 3.369852066040039,
+      "eval_runtime": 1064.8233,
+      "eval_samples_per_second": 9.301,
+      "eval_steps_per_second": 0.146,
+      "step": 3000
+    },
+    {
+      "epoch": 0.14376853266241352,
+      "grad_norm": 0.7272612452507019,
+      "learning_rate": 4.999898318918469e-05,
+      "loss": 1.0379,
+      "step": 3200
+    },
+    {
+      "epoch": 0.15275406595381436,
+      "grad_norm": 1.021616816520691,
+      "learning_rate": 4.999885190557234e-05,
+      "loss": 1.0416,
+      "step": 3400
+    },
+    {
+      "epoch": 0.1617395992452152,
+      "grad_norm": 2.4565377235412598,
+      "learning_rate": 4.999871265355485e-05,
+      "loss": 1.0212,
+      "step": 3600
+    },
+    {
+      "epoch": 0.17072513253661606,
+      "grad_norm": 20.56285858154297,
+      "learning_rate": 4.9998565433176624e-05,
+      "loss": 1.0219,
+      "step": 3800
+    },
+    {
+      "epoch": 0.1797106658280169,
+      "grad_norm": 0.7909038662910461,
+      "learning_rate": 4.9998410244484574e-05,
+      "loss": 1.0075,
+      "step": 4000
+    },
+    {
+      "epoch": 0.1797106658280169,
+      "eval_loss": 3.339078903198242,
+      "eval_runtime": 1066.4833,
+      "eval_samples_per_second": 9.287,
+      "eval_steps_per_second": 0.145,
+      "step": 4000
+    },
+    {
+      "epoch": 0.18869619911941773,
+      "grad_norm": 2.09454607963562,
+      "learning_rate": 4.999824708752817e-05,
+      "loss": 0.9825,
+      "step": 4200
+    },
+    {
+      "epoch": 0.19768173241081857,
+      "grad_norm": 2.223658323287964,
+      "learning_rate": 4.999807596235943e-05,
+      "loss": 0.9851,
+      "step": 4400
+    },
+    {
+      "epoch": 0.20666726570221944,
+      "grad_norm": 1.121969223022461,
+      "learning_rate": 4.999789686903289e-05,
+      "loss": 1.0041,
+      "step": 4600
+    },
+    {
+      "epoch": 0.21565279899362028,
+      "grad_norm": 4.0251312255859375,
+      "learning_rate": 4.9997709807605626e-05,
+      "loss": 0.9841,
+      "step": 4800
+    },
+    {
+      "epoch": 0.22463833228502111,
+      "grad_norm": 1.6437472105026245,
+      "learning_rate": 4.9997514778137275e-05,
+      "loss": 0.9483,
+      "step": 5000
+    },
+    {
+      "epoch": 0.22463833228502111,
+      "eval_loss": 3.2980644702911377,
+      "eval_runtime": 1067.9785,
+      "eval_samples_per_second": 9.274,
+      "eval_steps_per_second": 0.145,
+      "step": 5000
+    },
+    {
+      "epoch": 0.23362386557642195,
+      "grad_norm": 0.8991021513938904,
+      "learning_rate": 4.999731178069001e-05,
+      "loss": 0.9541,
+      "step": 5200
+    },
+    {
+      "epoch": 0.24260939886782282,
+      "grad_norm": 3.1451597213745117,
+      "learning_rate": 4.999710081532853e-05,
+      "loss": 0.9589,
+      "step": 5400
+    },
+    {
+      "epoch": 0.2515949321592236,
+      "grad_norm": 2.142390489578247,
+      "learning_rate": 4.999688188212007e-05,
+      "loss": 0.9677,
+      "step": 5600
+    },
+    {
+      "epoch": 0.2605804654506245,
+      "grad_norm": 2.2872331142425537,
+      "learning_rate": 4.999665498113444e-05,
+      "loss": 0.962,
+      "step": 5800
+    },
+    {
+      "epoch": 0.26956599874202536,
+      "grad_norm": 2.730259418487549,
+      "learning_rate": 4.999642011244394e-05,
+      "loss": 0.9581,
+      "step": 6000
+    },
+    {
+      "epoch": 0.26956599874202536,
+      "eval_loss": 3.3341598510742188,
+      "eval_runtime": 1066.5406,
+      "eval_samples_per_second": 9.286,
+      "eval_steps_per_second": 0.145,
+      "step": 6000
+    },
+    {
+      "epoch": 0.2785515320334262,
+      "grad_norm": 2.8416945934295654,
+      "learning_rate": 4.999617727612344e-05,
+      "loss": 0.9675,
+      "step": 6200
+    },
+    {
+      "epoch": 0.28753706532482703,
+      "grad_norm": 2.8148677349090576,
+      "learning_rate": 4.9995926472250356e-05,
+      "loss": 0.9411,
+      "step": 6400
+    },
+    {
+      "epoch": 0.2965225986162279,
+      "grad_norm": 1.3317234516143799,
+      "learning_rate": 4.999566770090462e-05,
+      "loss": 0.9279,
+      "step": 6600
+    },
+    {
+      "epoch": 0.3055081319076287,
+      "grad_norm": 3.403902053833008,
+      "learning_rate": 4.999540096216872e-05,
+      "loss": 0.9293,
+      "step": 6800
+    },
+    {
+      "epoch": 0.31449366519902955,
+      "grad_norm": 1.70892333984375,
+      "learning_rate": 4.9995126256127675e-05,
+      "loss": 0.9475,
+      "step": 7000
+    },
+    {
+      "epoch": 0.31449366519902955,
+      "eval_loss": 3.238970994949341,
+      "eval_runtime": 1068.527,
+      "eval_samples_per_second": 9.269,
+      "eval_steps_per_second": 0.145,
+      "step": 7000
+    },
+    {
+      "epoch": 0.3234791984904304,
+      "grad_norm": 3.11971378326416,
+      "learning_rate": 4.999484358286907e-05,
+      "loss": 0.9465,
+      "step": 7200
+    },
+    {
+      "epoch": 0.3324647317818312,
+      "grad_norm": 1.395370364189148,
+      "learning_rate": 4.9994552942482975e-05,
+      "loss": 0.9445,
+      "step": 7400
+    },
+    {
+      "epoch": 0.3414502650732321,
+      "grad_norm": 6.5639424324035645,
+      "learning_rate": 4.999425433506204e-05,
+      "loss": 0.9263,
+      "step": 7600
+    },
+    {
+      "epoch": 0.35043579836463296,
+      "grad_norm": 2.2011075019836426,
+      "learning_rate": 4.999394776070146e-05,
+      "loss": 0.9193,
+      "step": 7800
+    },
+    {
+      "epoch": 0.3594213316560338,
+      "grad_norm": 2.9525458812713623,
+      "learning_rate": 4.999363321949895e-05,
+      "loss": 0.9405,
+      "step": 8000
+    },
+    {
+      "epoch": 0.3594213316560338,
+      "eval_loss": 3.2370519638061523,
+      "eval_runtime": 1068.6545,
+      "eval_samples_per_second": 9.268,
+      "eval_steps_per_second": 0.145,
+      "step": 8000
+    },
+    {
+      "epoch": 0.36840686494743463,
+      "grad_norm": 4.726866245269775,
+      "learning_rate": 4.999331071155477e-05,
+      "loss": 0.9391,
+      "step": 8200
+    },
+    {
+      "epoch": 0.37739239823883547,
+      "grad_norm": 2.23179292678833,
+      "learning_rate": 4.9992980236971723e-05,
+      "loss": 0.9352,
+      "step": 8400
+    },
+    {
+      "epoch": 0.3863779315302363,
+      "grad_norm": 2.175626516342163,
+      "learning_rate": 4.9992641795855134e-05,
+      "loss": 0.9359,
+      "step": 8600
+    },
+    {
+      "epoch": 0.39536346482163714,
+      "grad_norm": 5.489994525909424,
+      "learning_rate": 4.9992295388312895e-05,
+      "loss": 0.918,
+      "step": 8800
+    },
+    {
+      "epoch": 0.404348998113038,
+      "grad_norm": 1.484823226928711,
+      "learning_rate": 4.9991941014455414e-05,
+      "loss": 0.9075,
+      "step": 9000
+    },
+    {
+      "epoch": 0.404348998113038,
+      "eval_loss": 3.1722910404205322,
+      "eval_runtime": 1070.0307,
+      "eval_samples_per_second": 9.256,
+      "eval_steps_per_second": 0.145,
+      "step": 9000
+    },
+    {
+      "epoch": 0.4133345314044389,
+      "grad_norm": 1.1743195056915283,
+      "learning_rate": 4.9991578674395656e-05,
+      "loss": 0.9116,
+      "step": 9200
+    },
+    {
+      "epoch": 0.4223200646958397,
+      "grad_norm": 4.027889728546143,
+      "learning_rate": 4.999120836824912e-05,
+      "loss": 0.9023,
+      "step": 9400
+    },
+    {
+      "epoch": 0.43130559798724055,
+      "grad_norm": 3.1647088527679443,
+      "learning_rate": 4.9990830096133826e-05,
+      "loss": 0.8992,
+      "step": 9600
+    },
+    {
+      "epoch": 0.4402911312786414,
+      "grad_norm": 1.6494026184082031,
+      "learning_rate": 4.9990443858170366e-05,
+      "loss": 0.8881,
+      "step": 9800
+    },
+    {
+      "epoch": 0.44927666457004223,
+      "grad_norm": 2.5967679023742676,
+      "learning_rate": 4.999004965448184e-05,
+      "loss": 0.8889,
+      "step": 10000
+    },
+    {
+      "epoch": 0.44927666457004223,
+      "eval_loss": 3.1767914295196533,
+      "eval_runtime": 1067.4091,
+      "eval_samples_per_second": 9.279,
+      "eval_steps_per_second": 0.145,
+      "step": 10000
+    },
+    {
+      "epoch": 0.45826219786144307,
+      "grad_norm": 2.703774929046631,
+      "learning_rate": 4.998964748519391e-05,
+      "loss": 0.8845,
+      "step": 10200
+    },
+    {
+      "epoch": 0.4672477311528439,
+      "grad_norm": 5.934618949890137,
+      "learning_rate": 4.998923735043477e-05,
+      "loss": 0.899,
+      "step": 10400
+    },
+    {
+      "epoch": 0.47623326444424474,
+      "grad_norm": 7.952963352203369,
+      "learning_rate": 4.9988819250335136e-05,
+      "loss": 0.8968,
+      "step": 10600
+    },
+    {
+      "epoch": 0.48521879773564563,
+      "grad_norm": 3.2846908569335938,
+      "learning_rate": 4.99883931850283e-05,
+      "loss": 0.8687,
+      "step": 10800
+    },
+    {
+      "epoch": 0.4942043310270465,
+      "grad_norm": 1.9633086919784546,
+      "learning_rate": 4.998795915465005e-05,
+      "loss": 0.8537,
+      "step": 11000
+    },
+    {
+      "epoch": 0.4942043310270465,
+      "eval_loss": 3.1828198432922363,
+      "eval_runtime": 1068.8128,
+      "eval_samples_per_second": 9.266,
+      "eval_steps_per_second": 0.145,
+      "step": 11000
+    },
+    {
+      "epoch": 0.5031898643184473,
+      "grad_norm": 6.807458400726318,
+      "learning_rate": 4.9987517159338744e-05,
+      "loss": 0.8482,
+      "step": 11200
+    },
+    {
+      "epoch": 0.5121753976098481,
+      "grad_norm": 2.9921388626098633,
+      "learning_rate": 4.998706719923526e-05,
+      "loss": 0.8662,
+      "step": 11400
+    },
+    {
+      "epoch": 0.521160930901249,
+      "grad_norm": 0.7828212380409241,
+      "learning_rate": 4.998660927448304e-05,
+      "loss": 0.88,
+      "step": 11600
+    },
+    {
+      "epoch": 0.5301464641926499,
+      "grad_norm": 3.1086294651031494,
+      "learning_rate": 4.9986143385228026e-05,
+      "loss": 0.8536,
+      "step": 11800
+    },
+    {
+      "epoch": 0.5391319974840507,
+      "grad_norm": 3.759007453918457,
+      "learning_rate": 4.998566953161874e-05,
+      "loss": 0.8321,
+      "step": 12000
+    },
+    {
+      "epoch": 0.5391319974840507,
+      "eval_loss": 3.1765565872192383,
+      "eval_runtime": 1069.9445,
+      "eval_samples_per_second": 9.257,
+      "eval_steps_per_second": 0.145,
+      "step": 12000
+    },
+    {
+      "epoch": 0.5481175307754516,
+      "grad_norm": 4.347619533538818,
+      "learning_rate": 4.9985187713806206e-05,
+      "loss": 0.8713,
+      "step": 12200
+    },
+    {
+      "epoch": 0.5571030640668524,
+      "grad_norm": 2.748655080795288,
+      "learning_rate": 4.9984697931944024e-05,
+      "loss": 0.8457,
+      "step": 12400
+    },
+    {
+      "epoch": 0.5660885973582532,
+      "grad_norm": 2.891540288925171,
+      "learning_rate": 4.998420018618829e-05,
+      "loss": 0.8212,
+      "step": 12600
+    },
+    {
+      "epoch": 0.5750741306496541,
+      "grad_norm": 4.089766025543213,
+      "learning_rate": 4.998369447669768e-05,
+      "loss": 0.8288,
+      "step": 12800
+    },
+    {
+      "epoch": 0.5840596639410549,
+      "grad_norm": 4.722995758056641,
+      "learning_rate": 4.9983180803633376e-05,
+      "loss": 0.8757,
+      "step": 13000
+    },
+    {
+      "epoch": 0.5840596639410549,
+      "eval_loss": 3.168459892272949,
+      "eval_runtime": 1070.7464,
+      "eval_samples_per_second": 9.25,
+      "eval_steps_per_second": 0.145,
+      "step": 13000
+    },
+    {
+      "epoch": 0.5930451972324557,
+      "grad_norm": 7.390491008758545,
+      "learning_rate": 4.998265916715912e-05,
+      "loss": 0.8477,
+      "step": 13200
+    },
+    {
+      "epoch": 0.6020307305238566,
+      "grad_norm": 2.4633262157440186,
+      "learning_rate": 4.9982129567441185e-05,
+      "loss": 0.8415,
+      "step": 13400
+    },
+    {
+      "epoch": 0.6110162638152574,
+      "grad_norm": 5.4892473220825195,
+      "learning_rate": 4.998159200464837e-05,
+      "loss": 0.8176,
+      "step": 13600
+    },
+    {
+      "epoch": 0.6200017971066583,
+      "grad_norm": 4.862381458282471,
+      "learning_rate": 4.998104647895203e-05,
+      "loss": 0.8336,
+      "step": 13800
+    },
+    {
+      "epoch": 0.6289873303980591,
+      "grad_norm": 8.079172134399414,
+      "learning_rate": 4.998049299052606e-05,
+      "loss": 0.8147,
+      "step": 14000
+    },
+    {
+      "epoch": 0.6289873303980591,
+      "eval_loss": 3.1354148387908936,
+      "eval_runtime": 1070.1274,
+      "eval_samples_per_second": 9.255,
+      "eval_steps_per_second": 0.145,
+      "step": 14000
     }
   ],
   "logging_steps": 200,
       "attributes": {}
     }
   },
+  "total_flos": 2.00704631758848e+17,
   "train_batch_size": 6,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1541949d48e8cbfda4e239106fbb1c4580dc3f4206861a71b9bbccdf63200f9c
 size 5240

 version https://git-lfs.github.com/spec/v1
+oid sha256:befd02aaf8966ad3b2e0325fdff20577e54e5843141cd14048ed8a8fb00ce681
 size 5240