Upload 13 files

Browse files

Files changed (6) hide show

model-00001-of-00002.safetensors +1 -1
model-00002-of-00002.safetensors +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +83 -267
training_args.bin +1 -1

model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:75062e60de22a5d873b6ce8e79ae9db4e533f4767b4f66218660a005800858a8
 size 4999863872

 version https://git-lfs.github.com/spec/v1
+oid sha256:36f4082807a4a91ad2133d752fd587814a29439888c9a3db8d97583619044e9f
 size 4999863872

model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6ef9b77c4c19d82f30dafb4f2cb9dd20f7459d18ca029b5770272dcca5a9718a
 size 482809696

 version https://git-lfs.github.com/spec/v1
+oid sha256:0fb02e929fe4112ec14b7703127a33f20068fba2973643efa9ba4ddf3fce3aea
 size 482809696

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3cd1ba6163965f93c56f9d9d3074e781525d5b3b78f81275ac09db230b4c4827
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:529fe7f11f242c337c0f1a103ac077595ea1499207d09d52224640ca121e2a94
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cd5acb8703ce3553c1eb28840ca61a21bf710c4b95062c0ce822e72326bdacac
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e165e1f46e8a630f28d55072c8f17768fb98c886bdc1313ee5c85479b03c11ab
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.6402289867401123,
-  "best_model_checkpoint": "nllb_200_distilled_1.3B_ENtoFO_bsz_64_epochs_10lr0.0001/checkpoint-7500",
-  "epoch": 2.635885382917266,
   "eval_steps": 500,
-  "global_step": 7500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -45,13 +45,13 @@
     },
     {
       "epoch": 0.17572569219448442,
-      "eval_bleu": 39.6289,
-      "eval_chrf++": 58.7253,
-      "eval_gen_len": 17.6964,
-      "eval_loss": 0.8153083920478821,
-      "eval_runtime": 3428.0218,
-      "eval_samples_per_second": 2.136,
-      "eval_steps_per_second": 1.068,
       "step": 500
     },
     {
@@ -91,13 +91,13 @@
     },
     {
       "epoch": 0.35145138438896883,
-      "eval_bleu": 41.3868,
-      "eval_chrf++": 60.2285,
-      "eval_gen_len": 17.8309,
-      "eval_loss": 0.7573392987251282,
-      "eval_runtime": 3438.4799,
-      "eval_samples_per_second": 2.129,
-      "eval_steps_per_second": 1.065,
       "step": 1000
     },
     {
@@ -137,13 +137,13 @@
     },
     {
       "epoch": 0.5271770765834533,
-      "eval_bleu": 41.8145,
-      "eval_chrf++": 60.6355,
-      "eval_gen_len": 17.7981,
-      "eval_loss": 0.7231032252311707,
-      "eval_runtime": 3422.1307,
-      "eval_samples_per_second": 2.139,
-      "eval_steps_per_second": 1.07,
       "step": 1500
     },
     {
@@ -183,13 +183,13 @@
     },
     {
       "epoch": 0.7029027687779377,
-      "eval_bleu": 42.7477,
-      "eval_chrf++": 61.3889,
-      "eval_gen_len": 17.7144,
-      "eval_loss": 0.6981974244117737,
-      "eval_runtime": 3442.4579,
-      "eval_samples_per_second": 2.127,
-      "eval_steps_per_second": 1.063,
       "step": 2000
     },
     {
@@ -229,13 +229,13 @@
     },
     {
       "epoch": 0.8786284609724221,
-      "eval_bleu": 43.5398,
-      "eval_chrf++": 61.9091,
-      "eval_gen_len": 17.8354,
-      "eval_loss": 0.6773364543914795,
-      "eval_runtime": 3438.2409,
-      "eval_samples_per_second": 2.129,
-      "eval_steps_per_second": 1.065,
       "step": 2500
     },
     {
@@ -275,13 +275,13 @@
     },
     {
       "epoch": 1.0543541531669065,
-      "eval_bleu": 43.8509,
-      "eval_chrf++": 62.1772,
-      "eval_gen_len": 17.8905,
-      "eval_loss": 0.6679165959358215,
-      "eval_runtime": 3455.7087,
-      "eval_samples_per_second": 2.119,
-      "eval_steps_per_second": 1.059,
       "step": 3000
     },
     {
@@ -321,13 +321,13 @@
     },
     {
       "epoch": 1.2300798453613908,
-      "eval_bleu": 44.0794,
-      "eval_chrf++": 62.3925,
-      "eval_gen_len": 17.7716,
-      "eval_loss": 0.6606557369232178,
-      "eval_runtime": 3446.6004,
-      "eval_samples_per_second": 2.124,
-      "eval_steps_per_second": 1.062,
       "step": 3500
     },
     {
@@ -367,13 +367,13 @@
     },
     {
       "epoch": 1.4058055375558753,
-      "eval_bleu": 44.0555,
-      "eval_chrf++": 62.3227,
-      "eval_gen_len": 17.7384,
-      "eval_loss": 0.6558951139450073,
-      "eval_runtime": 3448.9332,
-      "eval_samples_per_second": 2.123,
-      "eval_steps_per_second": 1.061,
       "step": 4000
     },
     {
@@ -413,13 +413,13 @@
     },
     {
       "epoch": 1.5815312297503596,
-      "eval_bleu": 43.6701,
-      "eval_chrf++": 62.1631,
-      "eval_gen_len": 17.6893,
-      "eval_loss": 0.6474220156669617,
-      "eval_runtime": 3434.705,
-      "eval_samples_per_second": 2.131,
-      "eval_steps_per_second": 1.066,
       "step": 4500
     },
     {
@@ -459,13 +459,13 @@
     },
     {
       "epoch": 1.757256921944844,
-      "eval_bleu": 44.2084,
-      "eval_chrf++": 62.587,
-      "eval_gen_len": 17.7677,
-      "eval_loss": 0.6390019059181213,
-      "eval_runtime": 3462.9771,
-      "eval_samples_per_second": 2.114,
-      "eval_steps_per_second": 1.057,
       "step": 5000
     },
     {
@@ -505,205 +505,21 @@
     },
     {
       "epoch": 1.9329826141393285,
-      "eval_bleu": 44.5351,
-      "eval_chrf++": 62.758,
-      "eval_gen_len": 17.7998,
-      "eval_loss": 0.6315435767173767,
-      "eval_runtime": 3432.7408,
-      "eval_samples_per_second": 2.133,
-      "eval_steps_per_second": 1.066,
       "step": 5500
-    },
-    {
-      "epoch": 1.9681277525782255,
-      "grad_norm": 0.5488588213920593,
-      "learning_rate": 8.17531305903399e-05,
-      "loss": 0.5845,
-      "step": 5600
-    },
-    {
-      "epoch": 2.0032728910171222,
-      "grad_norm": 0.49017634987831116,
-      "learning_rate": 8.139534883720931e-05,
-      "loss": 0.59,
-      "step": 5700
-    },
-    {
-      "epoch": 2.038418029456019,
-      "grad_norm": 0.5274912118911743,
-      "learning_rate": 8.103756708407871e-05,
-      "loss": 0.4667,
-      "step": 5800
-    },
-    {
-      "epoch": 2.0735631678949162,
-      "grad_norm": 1.4353556632995605,
-      "learning_rate": 8.067978533094812e-05,
-      "loss": 0.4706,
-      "step": 5900
-    },
-    {
-      "epoch": 2.108708306333813,
-      "grad_norm": 0.5296390056610107,
-      "learning_rate": 8.032200357781753e-05,
-      "loss": 0.4697,
-      "step": 6000
-    },
-    {
-      "epoch": 2.108708306333813,
-      "eval_bleu": 44.1342,
-      "eval_chrf++": 62.5401,
-      "eval_gen_len": 17.7677,
-      "eval_loss": 0.6582108736038208,
-      "eval_runtime": 3425.6987,
-      "eval_samples_per_second": 2.137,
-      "eval_steps_per_second": 1.069,
-      "step": 6000
-    },
-    {
-      "epoch": 2.14385344477271,
-      "grad_norm": 0.6416345238685608,
-      "learning_rate": 7.996422182468695e-05,
-      "loss": 0.4882,
-      "step": 6100
-    },
-    {
-      "epoch": 2.1789985832116066,
-      "grad_norm": 0.5234227180480957,
-      "learning_rate": 7.960644007155635e-05,
-      "loss": 0.4835,
-      "step": 6200
-    },
-    {
-      "epoch": 2.2141437216505038,
-      "grad_norm": 0.4757489860057831,
-      "learning_rate": 7.924865831842576e-05,
-      "loss": 0.4771,
-      "step": 6300
-    },
-    {
-      "epoch": 2.2492888600894005,
-      "grad_norm": 0.5438205599784851,
-      "learning_rate": 7.889087656529517e-05,
-      "loss": 0.4829,
-      "step": 6400
-    },
-    {
-      "epoch": 2.2844339985282973,
-      "grad_norm": 0.5392005443572998,
-      "learning_rate": 7.853309481216459e-05,
-      "loss": 0.474,
-      "step": 6500
-    },
-    {
-      "epoch": 2.2844339985282973,
-      "eval_bleu": 44.2923,
-      "eval_chrf++": 62.5586,
-      "eval_gen_len": 17.7492,
-      "eval_loss": 0.6481789350509644,
-      "eval_runtime": 3422.6338,
-      "eval_samples_per_second": 2.139,
-      "eval_steps_per_second": 1.07,
-      "step": 6500
-    },
-    {
-      "epoch": 2.319579136967194,
-      "grad_norm": 0.5046759843826294,
-      "learning_rate": 7.8175313059034e-05,
-      "loss": 0.4802,
-      "step": 6600
-    },
-    {
-      "epoch": 2.354724275406091,
-      "grad_norm": 0.49111250042915344,
-      "learning_rate": 7.78175313059034e-05,
-      "loss": 0.4916,
-      "step": 6700
-    },
-    {
-      "epoch": 2.389869413844988,
-      "grad_norm": 0.5712496638298035,
-      "learning_rate": 7.745974955277281e-05,
-      "loss": 0.4845,
-      "step": 6800
-    },
-    {
-      "epoch": 2.425014552283885,
-      "grad_norm": 0.6314510703086853,
-      "learning_rate": 7.710196779964223e-05,
-      "loss": 0.484,
-      "step": 6900
-    },
-    {
-      "epoch": 2.4601596907227816,
-      "grad_norm": 0.6166778802871704,
-      "learning_rate": 7.674418604651163e-05,
-      "loss": 0.488,
-      "step": 7000
-    },
-    {
-      "epoch": 2.4601596907227816,
-      "eval_bleu": 44.7709,
-      "eval_chrf++": 62.9298,
-      "eval_gen_len": 17.7547,
-      "eval_loss": 0.6452430486679077,
-      "eval_runtime": 3438.1607,
-      "eval_samples_per_second": 2.129,
-      "eval_steps_per_second": 1.065,
-      "step": 7000
-    },
-    {
-      "epoch": 2.495304829161679,
-      "grad_norm": 0.5143587589263916,
-      "learning_rate": 7.638640429338104e-05,
-      "loss": 0.4875,
-      "step": 7100
-    },
-    {
-      "epoch": 2.5304499676005756,
-      "grad_norm": 0.5172815322875977,
-      "learning_rate": 7.602862254025045e-05,
-      "loss": 0.4805,
-      "step": 7200
-    },
-    {
-      "epoch": 2.5655951060394724,
-      "grad_norm": 0.49376818537712097,
-      "learning_rate": 7.567084078711986e-05,
-      "loss": 0.488,
-      "step": 7300
-    },
-    {
-      "epoch": 2.600740244478369,
-      "grad_norm": 0.5714296102523804,
-      "learning_rate": 7.531305903398927e-05,
-      "loss": 0.4893,
-      "step": 7400
-    },
-    {
-      "epoch": 2.635885382917266,
-      "grad_norm": 0.47455132007598877,
-      "learning_rate": 7.495527728085868e-05,
-      "loss": 0.4767,
-      "step": 7500
-    },
-    {
-      "epoch": 2.635885382917266,
-      "eval_bleu": 44.8961,
-      "eval_chrf++": 63.0641,
-      "eval_gen_len": 17.7427,
-      "eval_loss": 0.6402289867401123,
-      "eval_runtime": 3447.7653,
-      "eval_samples_per_second": 2.123,
-      "eval_steps_per_second": 1.062,
-      "step": 7500
     }
   ],
   "logging_steps": 100,
   "max_steps": 28450,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
-  "save_steps": 1500,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
@@ -716,7 +532,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.268447098428719e+18,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.6349581480026245,
+  "best_model_checkpoint": "nllb_200_distilled_1.3B_ENtoFO_bsz_64_epochs_10lr0.0001/checkpoint-5500",
+  "epoch": 1.9329826141393285,
   "eval_steps": 500,
+  "global_step": 5500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     },
     {
       "epoch": 0.17572569219448442,
+      "eval_bleu": 39.5852,
+      "eval_chrf++": 58.6112,
+      "eval_gen_len": 17.7742,
+      "eval_loss": 0.8167479634284973,
+      "eval_runtime": 3590.7671,
+      "eval_samples_per_second": 2.039,
+      "eval_steps_per_second": 1.02,
       "step": 500
     },
     {
     },
     {
       "epoch": 0.35145138438896883,
+      "eval_bleu": 41.4406,
+      "eval_chrf++": 60.2627,
+      "eval_gen_len": 17.9384,
+      "eval_loss": 0.7587867975234985,
+      "eval_runtime": 3432.3677,
+      "eval_samples_per_second": 2.133,
+      "eval_steps_per_second": 1.067,
       "step": 1000
     },
     {
     },
     {
       "epoch": 0.5271770765834533,
+      "eval_bleu": 41.9609,
+      "eval_chrf++": 60.633,
+      "eval_gen_len": 17.8868,
+      "eval_loss": 0.7227240800857544,
+      "eval_runtime": 3519.7091,
+      "eval_samples_per_second": 2.08,
+      "eval_steps_per_second": 1.04,
       "step": 1500
     },
     {
     },
     {
       "epoch": 0.7029027687779377,
+      "eval_bleu": 42.6374,
+      "eval_chrf++": 61.2613,
+      "eval_gen_len": 17.7972,
+      "eval_loss": 0.7011950612068176,
+      "eval_runtime": 3436.4901,
+      "eval_samples_per_second": 2.13,
+      "eval_steps_per_second": 1.065,
       "step": 2000
     },
     {
     },
     {
       "epoch": 0.8786284609724221,
+      "eval_bleu": 43.3601,
+      "eval_chrf++": 61.7425,
+      "eval_gen_len": 17.935,
+      "eval_loss": 0.6797980666160583,
+      "eval_runtime": 3463.8249,
+      "eval_samples_per_second": 2.114,
+      "eval_steps_per_second": 1.057,
       "step": 2500
     },
     {
     },
     {
       "epoch": 1.0543541531669065,
+      "eval_bleu": 43.6802,
+      "eval_chrf++": 62.0773,
+      "eval_gen_len": 17.9802,
+      "eval_loss": 0.6721383929252625,
+      "eval_runtime": 3607.5103,
+      "eval_samples_per_second": 2.029,
+      "eval_steps_per_second": 1.015,
       "step": 3000
     },
     {
     },
     {
       "epoch": 1.2300798453613908,
+      "eval_bleu": 43.9272,
+      "eval_chrf++": 62.2949,
+      "eval_gen_len": 17.8805,
+      "eval_loss": 0.6639961004257202,
+      "eval_runtime": 3511.7691,
+      "eval_samples_per_second": 2.085,
+      "eval_steps_per_second": 1.042,
       "step": 3500
     },
     {
     },
     {
       "epoch": 1.4058055375558753,
+      "eval_bleu": 43.7946,
+      "eval_chrf++": 62.1568,
+      "eval_gen_len": 17.8172,
+      "eval_loss": 0.6595008373260498,
+      "eval_runtime": 3539.6035,
+      "eval_samples_per_second": 2.068,
+      "eval_steps_per_second": 1.034,
       "step": 4000
     },
     {
     },
     {
       "epoch": 1.5815312297503596,
+      "eval_bleu": 43.8068,
+      "eval_chrf++": 62.1665,
+      "eval_gen_len": 17.8271,
+      "eval_loss": 0.64792400598526,
+      "eval_runtime": 3653.4406,
+      "eval_samples_per_second": 2.004,
+      "eval_steps_per_second": 1.002,
       "step": 4500
     },
     {
     },
     {
       "epoch": 1.757256921944844,
+      "eval_bleu": 44.0163,
+      "eval_chrf++": 62.4374,
+      "eval_gen_len": 17.8788,
+      "eval_loss": 0.6403423547744751,
+      "eval_runtime": 3440.4393,
+      "eval_samples_per_second": 2.128,
+      "eval_steps_per_second": 1.064,
       "step": 5000
     },
     {
     },
     {
       "epoch": 1.9329826141393285,
+      "eval_bleu": 44.5286,
+      "eval_chrf++": 62.728,
+      "eval_gen_len": 17.8899,
+      "eval_loss": 0.6349581480026245,
+      "eval_runtime": 3524.4692,
+      "eval_samples_per_second": 2.077,
+      "eval_steps_per_second": 1.039,
       "step": 5500
     }
   ],
   "logging_steps": 100,
   "max_steps": 28450,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
+  "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
       "attributes": {}
     }
   },
+  "total_flos": 2.3968643831845356e+18,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb6596237356fc3a8b7aecd2f98c6065ef55e3bf7a37e9b82308f262d8e9d03a
 size 5304

 version https://git-lfs.github.com/spec/v1
+oid sha256:c8cf5c96d2df8bf58fd891f9907effe03685c6ca5d8073324d1011c8629e1259
 size 5304