End of training

Browse files

Files changed (9) hide show

README.md +7 -7
adapter_config.json +5 -5
adapter_model.safetensors +1 -1
all_results.json +7 -7
eval_results.json +4 -4
metrics.json +1 -1
train_results.json +3 -3
trainer_state.json +81 -81
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -16,7 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.1311
 ## Model description
@@ -35,7 +35,7 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 3e-05
 - train_batch_size: 4
 - eval_batch_size: 4
 - seed: 42
@@ -50,11 +50,11 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 1.1084        | 0.34  | 50   | 1.1509          |
-| 1.0641        | 0.68  | 100  | 1.1312          |
-| 1.04          | 1.02  | 150  | 1.1267          |
-| 1.016         | 1.36  | 200  | 1.1304          |
-| 1.0272        | 1.7   | 250  | 1.1311          |
 ### Framework versions

 This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.1436
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 5e-05
 - train_batch_size: 4
 - eval_batch_size: 4
 - seed: 42
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 1.0965        | 0.34  | 50   | 1.1430          |
+| 1.0622        | 0.68  | 100  | 1.1252          |
+| 1.022         | 1.02  | 150  | 1.1218          |
+| 0.9513        | 1.36  | 200  | 1.1433          |
+| 0.9607        | 1.7   | 250  | 1.1436          |
 ### Framework versions

adapter_config.json CHANGED Viewed

@@ -10,7 +10,7 @@
   "layers_to_transform": null,
   "loftq_config": {},
   "lora_alpha": 16,
-  "lora_dropout": 0.1,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
@@ -19,13 +19,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "o_proj",
-    "k_proj",
     "q_proj",
-    "up_proj",
     "down_proj",
     "gate_proj",
-    "v_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

   "layers_to_transform": null,
   "loftq_config": {},
   "lora_alpha": 16,
+  "lora_dropout": 0.05,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "q_proj",
     "down_proj",
+    "v_proj",
     "gate_proj",
+    "up_proj",
+    "k_proj",
+    "o_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:670b0288c7dfa7cfe688367ff6afc89d6b2d0fc950c82206416a1016080b70a4
 size 335605144

 version https://git-lfs.github.com/spec/v1
+oid sha256:b3b839704789f616e132915bc53976f5d9af234dc59e7dc285def6cd551eff0c
 size 335605144

all_results.json CHANGED Viewed

@@ -1,11 +1,11 @@
 {
     "epoch": 2.0,
-    "eval_loss": 1.2889022827148438,
-    "eval_runtime": 26.7524,
-    "eval_samples_per_second": 32.67,
-    "eval_steps_per_second": 2.056,
-    "train_loss": 1.0463855915329083,
-    "train_runtime": 868.1968,
-    "train_samples_per_second": 5.427,
     "train_steps_per_second": 0.339
 }

 {
     "epoch": 2.0,
+    "eval_loss": 1.1302779912948608,
+    "eval_runtime": 15.6893,
+    "eval_samples_per_second": 16.699,
+    "eval_steps_per_second": 4.207,
+    "train_loss": 1.0100539411817278,
+    "train_runtime": 867.3678,
+    "train_samples_per_second": 5.433,
     "train_steps_per_second": 0.339
 }

eval_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 2.0,
-    "eval_loss": 1.2889022827148438,
-    "eval_runtime": 26.7524,
-    "eval_samples_per_second": 32.67,
-    "eval_steps_per_second": 2.056
 }

 {
     "epoch": 2.0,
+    "eval_loss": 1.1302779912948608,
+    "eval_runtime": 15.6893,
+    "eval_samples_per_second": 16.699,
+    "eval_steps_per_second": 4.207
 }

metrics.json CHANGED Viewed

	@@ -1 +1 @@
1	- {"run_name": "./output", "train_runtime": ~~2763~~.~~6536~~, "train_samples_per_second": 12.~~007~~, "train_steps_per_second": 0.~~187~~, "~~total_flos": 5.99394721244119e+17, "~~train_loss": 1.~~2557983950758533~~, "epoch": 2.0, "eval_loss": 1.~~2889022827148438~~, "eval_runtime": 48.~~1894~~, "eval_samples_per_second": 18.~~137~~, "eval_steps_per_second": 1.~~141~~}


1	+ {"run_name": "./output", "train_runtime": 868.1968, "train_samples_per_second": 5.427, "train_steps_per_second": 0.339, "train_loss": 1.0463855915329083, "epoch": 2.0, "eval_loss": 1.1302779912948608, "eval_runtime": 15.6893, "eval_samples_per_second": 16.699, "eval_steps_per_second": 4.207}

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 2.0,
-    "train_loss": 1.0463855915329083,
-    "train_runtime": 868.1968,
-    "train_samples_per_second": 5.427,
     "train_steps_per_second": 0.339
 }

 {
     "epoch": 2.0,
+    "train_loss": 1.0100539411817278,
+    "train_runtime": 867.3678,
+    "train_samples_per_second": 5.433,
     "train_steps_per_second": 0.339
 }

trainer_state.json CHANGED Viewed

@@ -10,225 +10,225 @@
   "log_history": [
     {
       "epoch": 0.07,
-      "learning_rate": 3e-05,
-      "loss": 1.2091,
       "step": 10
     },
     {
       "epoch": 0.14,
-      "learning_rate": 3e-05,
-      "loss": 1.1462,
       "step": 20
     },
     {
       "epoch": 0.2,
-      "learning_rate": 3e-05,
-      "loss": 1.1415,
       "step": 30
     },
     {
       "epoch": 0.27,
-      "learning_rate": 3e-05,
-      "loss": 1.1181,
       "step": 40
     },
     {
       "epoch": 0.34,
-      "learning_rate": 3e-05,
-      "loss": 1.1084,
       "step": 50
     },
     {
       "epoch": 0.34,
-      "eval_loss": 1.1509493589401245,
-      "eval_runtime": 15.7829,
-      "eval_samples_per_second": 16.6,
-      "eval_steps_per_second": 4.182,
       "step": 50
     },
     {
       "epoch": 0.41,
-      "learning_rate": 3e-05,
-      "loss": 1.0965,
       "step": 60
     },
     {
       "epoch": 0.48,
-      "learning_rate": 3e-05,
-      "loss": 1.0929,
       "step": 70
     },
     {
       "epoch": 0.54,
-      "learning_rate": 3e-05,
-      "loss": 1.1405,
       "step": 80
     },
     {
       "epoch": 0.61,
-      "learning_rate": 3e-05,
-      "loss": 1.1153,
       "step": 90
     },
     {
       "epoch": 0.68,
-      "learning_rate": 3e-05,
-      "loss": 1.0641,
       "step": 100
     },
     {
       "epoch": 0.68,
-      "eval_loss": 1.131222128868103,
-      "eval_runtime": 15.7708,
-      "eval_samples_per_second": 16.613,
-      "eval_steps_per_second": 4.185,
       "step": 100
     },
     {
       "epoch": 0.75,
-      "learning_rate": 3e-05,
-      "loss": 1.0562,
       "step": 110
     },
     {
       "epoch": 0.81,
-      "learning_rate": 3e-05,
-      "loss": 1.1051,
       "step": 120
     },
     {
       "epoch": 0.88,
-      "learning_rate": 3e-05,
-      "loss": 1.0951,
       "step": 130
     },
     {
       "epoch": 0.95,
-      "learning_rate": 3e-05,
-      "loss": 1.0712,
       "step": 140
     },
     {
       "epoch": 1.02,
-      "learning_rate": 3e-05,
-      "loss": 1.04,
       "step": 150
     },
     {
       "epoch": 1.02,
-      "eval_loss": 1.1267426013946533,
-      "eval_runtime": 15.8691,
-      "eval_samples_per_second": 16.51,
-      "eval_steps_per_second": 4.159,
       "step": 150
     },
     {
       "epoch": 1.09,
-      "learning_rate": 3e-05,
-      "loss": 0.9894,
       "step": 160
     },
     {
       "epoch": 1.15,
-      "learning_rate": 3e-05,
-      "loss": 1.0622,
       "step": 170
     },
     {
       "epoch": 1.22,
-      "learning_rate": 3e-05,
-      "loss": 0.9794,
       "step": 180
     },
     {
       "epoch": 1.29,
-      "learning_rate": 3e-05,
-      "loss": 0.9593,
       "step": 190
     },
     {
       "epoch": 1.36,
-      "learning_rate": 3e-05,
-      "loss": 1.016,
       "step": 200
     },
     {
       "epoch": 1.36,
-      "eval_loss": 1.1303731203079224,
-      "eval_runtime": 15.6796,
-      "eval_samples_per_second": 16.71,
-      "eval_steps_per_second": 4.209,
       "step": 200
     },
     {
       "epoch": 1.43,
-      "learning_rate": 3e-05,
-      "loss": 0.9869,
       "step": 210
     },
     {
       "epoch": 1.49,
-      "learning_rate": 3e-05,
-      "loss": 0.9076,
       "step": 220
     },
     {
       "epoch": 1.56,
-      "learning_rate": 3e-05,
-      "loss": 0.9926,
       "step": 230
     },
     {
       "epoch": 1.63,
-      "learning_rate": 3e-05,
-      "loss": 0.9892,
       "step": 240
     },
     {
       "epoch": 1.7,
-      "learning_rate": 3e-05,
-      "loss": 1.0272,
       "step": 250
     },
     {
       "epoch": 1.7,
-      "eval_loss": 1.1311020851135254,
-      "eval_runtime": 15.7521,
-      "eval_samples_per_second": 16.633,
-      "eval_steps_per_second": 4.19,
       "step": 250
     },
     {
       "epoch": 1.77,
-      "learning_rate": 3e-05,
-      "loss": 0.9765,
       "step": 260
     },
     {
       "epoch": 1.83,
-      "learning_rate": 3e-05,
-      "loss": 1.0433,
       "step": 270
     },
     {
       "epoch": 1.9,
-      "learning_rate": 3e-05,
-      "loss": 0.9614,
       "step": 280
     },
     {
       "epoch": 1.97,
-      "learning_rate": 3e-05,
-      "loss": 0.9299,
       "step": 290
     },
     {
       "epoch": 2.0,
       "step": 294,
       "total_flos": 7.021903495711949e+16,
-      "train_loss": 1.0463855915329083,
-      "train_runtime": 868.1968,
-      "train_samples_per_second": 5.427,
       "train_steps_per_second": 0.339
     }
   ],

   "log_history": [
     {
       "epoch": 0.07,
+      "learning_rate": 5e-05,
+      "loss": 1.1773,
       "step": 10
     },
     {
       "epoch": 0.14,
+      "learning_rate": 5e-05,
+      "loss": 1.1468,
       "step": 20
     },
     {
       "epoch": 0.2,
+      "learning_rate": 5e-05,
+      "loss": 1.1279,
       "step": 30
     },
     {
       "epoch": 0.27,
+      "learning_rate": 5e-05,
+      "loss": 1.1021,
       "step": 40
     },
     {
       "epoch": 0.34,
+      "learning_rate": 5e-05,
+      "loss": 1.0965,
       "step": 50
     },
     {
       "epoch": 0.34,
+      "eval_loss": 1.1430302858352661,
+      "eval_runtime": 15.7711,
+      "eval_samples_per_second": 16.613,
+      "eval_steps_per_second": 4.185,
       "step": 50
     },
     {
       "epoch": 0.41,
+      "learning_rate": 5e-05,
+      "loss": 1.0874,
       "step": 60
     },
     {
       "epoch": 0.48,
+      "learning_rate": 5e-05,
+      "loss": 1.0742,
       "step": 70
     },
     {
       "epoch": 0.54,
+      "learning_rate": 5e-05,
+      "loss": 1.1263,
       "step": 80
     },
     {
       "epoch": 0.61,
+      "learning_rate": 5e-05,
+      "loss": 1.1085,
       "step": 90
     },
     {
       "epoch": 0.68,
+      "learning_rate": 5e-05,
+      "loss": 1.0622,
       "step": 100
     },
     {
       "epoch": 0.68,
+      "eval_loss": 1.1251620054244995,
+      "eval_runtime": 15.7412,
+      "eval_samples_per_second": 16.644,
+      "eval_steps_per_second": 4.193,
       "step": 100
     },
     {
       "epoch": 0.75,
+      "learning_rate": 5e-05,
+      "loss": 1.0416,
       "step": 110
     },
     {
       "epoch": 0.81,
+      "learning_rate": 5e-05,
+      "loss": 1.102,
       "step": 120
     },
     {
       "epoch": 0.88,
+      "learning_rate": 5e-05,
+      "loss": 1.0927,
       "step": 130
     },
     {
       "epoch": 0.95,
+      "learning_rate": 5e-05,
+      "loss": 1.0662,
       "step": 140
     },
     {
       "epoch": 1.02,
+      "learning_rate": 5e-05,
+      "loss": 1.022,
       "step": 150
     },
     {
       "epoch": 1.02,
+      "eval_loss": 1.1217572689056396,
+      "eval_runtime": 15.7347,
+      "eval_samples_per_second": 16.651,
+      "eval_steps_per_second": 4.195,
       "step": 150
     },
     {
       "epoch": 1.09,
+      "learning_rate": 5e-05,
+      "loss": 0.9443,
       "step": 160
     },
     {
       "epoch": 1.15,
+      "learning_rate": 5e-05,
+      "loss": 1.0,
       "step": 170
     },
     {
       "epoch": 1.22,
+      "learning_rate": 5e-05,
+      "loss": 0.9185,
       "step": 180
     },
     {
       "epoch": 1.29,
+      "learning_rate": 5e-05,
+      "loss": 0.8956,
       "step": 190
     },
     {
       "epoch": 1.36,
+      "learning_rate": 5e-05,
+      "loss": 0.9513,
       "step": 200
     },
     {
       "epoch": 1.36,
+      "eval_loss": 1.143324613571167,
+      "eval_runtime": 15.8072,
+      "eval_samples_per_second": 16.575,
+      "eval_steps_per_second": 4.175,
       "step": 200
     },
     {
       "epoch": 1.43,
+      "learning_rate": 5e-05,
+      "loss": 0.9233,
       "step": 210
     },
     {
       "epoch": 1.49,
+      "learning_rate": 5e-05,
+      "loss": 0.8422,
       "step": 220
     },
     {
       "epoch": 1.56,
+      "learning_rate": 5e-05,
+      "loss": 0.928,
       "step": 230
     },
     {
       "epoch": 1.63,
+      "learning_rate": 5e-05,
+      "loss": 0.9318,
       "step": 240
     },
     {
       "epoch": 1.7,
+      "learning_rate": 5e-05,
+      "loss": 0.9607,
       "step": 250
     },
     {
       "epoch": 1.7,
+      "eval_loss": 1.1436448097229004,
+      "eval_runtime": 15.7943,
+      "eval_samples_per_second": 16.588,
+      "eval_steps_per_second": 4.179,
       "step": 250
     },
     {
       "epoch": 1.77,
+      "learning_rate": 5e-05,
+      "loss": 0.9034,
       "step": 260
     },
     {
       "epoch": 1.83,
+      "learning_rate": 5e-05,
+      "loss": 0.977,
       "step": 270
     },
     {
       "epoch": 1.9,
+      "learning_rate": 5e-05,
+      "loss": 0.8984,
       "step": 280
     },
     {
       "epoch": 1.97,
+      "learning_rate": 5e-05,
+      "loss": 0.8655,
       "step": 290
     },
     {
       "epoch": 2.0,
       "step": 294,
       "total_flos": 7.021903495711949e+16,
+      "train_loss": 1.0100539411817278,
+      "train_runtime": 867.3678,
+      "train_samples_per_second": 5.433,
       "train_steps_per_second": 0.339
     }
   ],

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:575d23392a793f463c05c62aed6a20c9f3f1d14af4f07046c639ce932527d18b
 size 6712

 version https://git-lfs.github.com/spec/v1
+oid sha256:865ed33e039a712b5469b18103737a06f20880f83c7c5347d5c09ad77bd65241
 size 6712