End of training

Browse files

Files changed (4) hide show

README.md +12 -9
all_results.json +13 -0
eval_results.json +12 -12
runs/Oct04_18-05-32_ip-172-16-43-187.us-west-2.compute.internal/events.out.tfevents.1728084019.ip-172-16-43-187.us-west-2.compute.internal.55061.1 +3 -0

README.md CHANGED Viewed

@@ -1,7 +1,10 @@
 ---
 base_model: TII-Frontier-Team/falcon3-3b-instruct
 library_name: peft
 tags:
 - trl
 - dpo
 - generated_from_trainer
@@ -15,17 +18,17 @@ should probably proofread and complete it, then remove this comment. -->
 # zephyr-7b-dpo-qlora
-This model is a fine-tuned version of [TII-Frontier-Team/falcon3-3b-instruct](https://huggingface.co/TII-Frontier-Team/falcon3-3b-instruct) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.0299
-- Rewards/chosen: -4.6289
-- Rewards/rejected: -10.4404
-- Rewards/accuracies: 0.9302
-- Rewards/margins: 5.8116
-- Logps/rejected: -1079.9603
-- Logps/chosen: -495.6860
-- Logits/rejected: 2.0537
-- Logits/chosen: 2.2623
 ## Model description

 ---
 base_model: TII-Frontier-Team/falcon3-3b-instruct
+datasets:
+- TII-Frontier-Team/Reasoning_DPO
 library_name: peft
 tags:
+- alignment-handbook
 - trl
 - dpo
 - generated_from_trainer
 # zephyr-7b-dpo-qlora
+This model is a fine-tuned version of [TII-Frontier-Team/falcon3-3b-instruct](https://huggingface.co/TII-Frontier-Team/falcon3-3b-instruct) on the TII-Frontier-Team/Reasoning_DPO dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.0299
+- Rewards/chosen: -4.6362
+- Rewards/rejected: -10.4479
+- Rewards/accuracies: 0.9306
+- Rewards/margins: 5.8117
+- Logps/rejected: -1080.7013
+- Logps/chosen: -496.4129
+- Logits/rejected: 2.0470
+- Logits/chosen: 2.2558
 ## Model description

all_results.json CHANGED Viewed

@@ -1,5 +1,18 @@
 {
     "epoch": 1.0,
     "total_flos": 0.0,
     "train_loss": 0.18858218038370866,
     "train_runtime": 16104.4918,

 {
     "epoch": 1.0,
+    "eval_logits/chosen": 2.2557647228240967,
+    "eval_logits/rejected": 2.0469555854797363,
+    "eval_logps/chosen": -496.4129333496094,
+    "eval_logps/rejected": -1080.7012939453125,
+    "eval_loss": 0.029871011152863503,
+    "eval_rewards/accuracies": 0.9305970072746277,
+    "eval_rewards/chosen": -4.636161804199219,
+    "eval_rewards/margins": 5.8116912841796875,
+    "eval_rewards/rejected": -10.44785213470459,
+    "eval_runtime": 215.9125,
+    "eval_samples": 21417,
+    "eval_samples_per_second": 99.193,
+    "eval_steps_per_second": 1.552,
     "total_flos": 0.0,
     "train_loss": 0.18858218038370866,
     "train_runtime": 16104.4918,

eval_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
     "epoch": 1.0,
-    "eval_logits/chosen": 2.140789270401001,
-    "eval_logits/rejected": 1.9412086009979248,
-    "eval_logps/chosen": -503.5469665527344,
-    "eval_logps/rejected": -1102.4208984375,
-    "eval_loss": 0.028598472476005554,
-    "eval_rewards/accuracies": 0.9253731369972229,
-    "eval_rewards/chosen": -4.707759380340576,
-    "eval_rewards/margins": 5.957462787628174,
-    "eval_rewards/rejected": -10.66522216796875,
-    "eval_runtime": 214.7372,
     "eval_samples": 21417,
-    "eval_samples_per_second": 99.736,
-    "eval_steps_per_second": 1.56
 }

 {
     "epoch": 1.0,
+    "eval_logits/chosen": 2.2557647228240967,
+    "eval_logits/rejected": 2.0469555854797363,
+    "eval_logps/chosen": -496.4129333496094,
+    "eval_logps/rejected": -1080.7012939453125,
+    "eval_loss": 0.029871011152863503,
+    "eval_rewards/accuracies": 0.9305970072746277,
+    "eval_rewards/chosen": -4.636161804199219,
+    "eval_rewards/margins": 5.8116912841796875,
+    "eval_rewards/rejected": -10.44785213470459,
+    "eval_runtime": 215.9125,
     "eval_samples": 21417,
+    "eval_samples_per_second": 99.193,
+    "eval_steps_per_second": 1.552
 }

runs/Oct04_18-05-32_ip-172-16-43-187.us-west-2.compute.internal/events.out.tfevents.1728084019.ip-172-16-43-187.us-west-2.compute.internal.55061.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0ca4bc2743b9d78d09472dc0e18055fd858bec5a5e4211226899eeb0eee23e16
+size 828