NicholasCorrado
/

zephyr-7b-uf-rlced-conifer-group-dpo-2e-alr-0.1

@@ -3,9 +3,15 @@ library_name: transformers
 license: apache-2.0
 base_model: alignment-handbook/zephyr-7b-sft-full
 tags:
 - trl
 - dpo
 - generated_from_trainer
 model-index:
 - name: zephyr-7b-uf-rlced-conifer-group-dpo-2e-alr-0.1
   results: []
@@ -16,7 +22,7 @@ should probably proofread and complete it, then remove this comment. -->
 # zephyr-7b-uf-rlced-conifer-group-dpo-2e-alr-0.1
-This model is a fine-tuned version of [alignment-handbook/zephyr-7b-sft-full](https://huggingface.co/alignment-handbook/zephyr-7b-sft-full) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.2391
 - Rewards/chosen: -3.1721

 license: apache-2.0
 base_model: alignment-handbook/zephyr-7b-sft-full
 tags:
+- alignment-handbook
 - trl
 - dpo
 - generated_from_trainer
+- trl
+- dpo
+- generated_from_trainer
+datasets:
+- data/zephyr_uf_rlced_conifer_ref
 model-index:
 - name: zephyr-7b-uf-rlced-conifer-group-dpo-2e-alr-0.1
   results: []
 # zephyr-7b-uf-rlced-conifer-group-dpo-2e-alr-0.1
+This model is a fine-tuned version of [alignment-handbook/zephyr-7b-sft-full](https://huggingface.co/alignment-handbook/zephyr-7b-sft-full) on the data/zephyr_uf_rlced_conifer_ref dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.2391
 - Rewards/chosen: -3.1721

all_results.json CHANGED Viewed

@@ -1,5 +1,41 @@
 {
     "epoch": 1.9986120749479528,
     "total_flos": 0.0,
     "train_loss": 0.1639749237232738,
     "train_runtime": 41844.7516,

 {
     "epoch": 1.9986120749479528,
+    "eval_alpha_0_uf": 0.2676650285720825,
+    "eval_alpha_1_rlced_conifer": 0.7323350310325623,
+    "eval_excess_loss": 0.030186501687000458,
+    "eval_logits/chosen": 0.4870572090148926,
+    "eval_logits/chosen_0_uf": 1.0820865631103516,
+    "eval_logits/chosen_1_rlced_conifer": 0.28715550899505615,
+    "eval_logits/rejected": 2.986161470413208,
+    "eval_logits/rejected_0_uf": 3.2023887634277344,
+    "eval_logits/rejected_1_rlced_conifer": 2.983372449874878,
+    "eval_logps/chosen": -709.6791381835938,
+    "eval_logps/chosen_0_uf": -540.6270141601562,
+    "eval_logps/chosen_1_rlced_conifer": -758.7691650390625,
+    "eval_logps/rejected": -1280.523193359375,
+    "eval_logps/rejected_0_uf": -637.3894653320312,
+    "eval_logps/rejected_1_rlced_conifer": -1461.084716796875,
+    "eval_loss": 0.23909305036067963,
+    "eval_rewards/accuracies": 0.8787593841552734,
+    "eval_rewards/accuracies_0_uf": 0.7750738263130188,
+    "eval_rewards/accuracies_1_rlced_conifer": 0.9088166356086731,
+    "eval_rewards/chosen": -3.172097682952881,
+    "eval_rewards/chosen_0_uf": -2.5136752128601074,
+    "eval_rewards/chosen_1_rlced_conifer": -3.3518855571746826,
+    "eval_rewards/margins": 5.5957794189453125,
+    "eval_rewards/margins_0_uf": 1.444154977798462,
+    "eval_rewards/margins_1_rlced_conifer": 6.783605575561523,
+    "eval_rewards/rejected": -8.767877578735352,
+    "eval_rewards/rejected_0_uf": -3.9578301906585693,
+    "eval_rewards/rejected_1_rlced_conifer": -10.135491371154785,
+    "eval_runtime": 389.8118,
+    "eval_samples": 8491,
+    "eval_samples_per_second": 21.782,
+    "eval_steps_per_second": 0.341,
+    "eval_task_excess_loss_0_uf": 0.06897441555737657,
+    "eval_task_excess_loss_1_rlced_conifer": 0.03781096797136794,
+    "eval_task_loss_0_uf": 0.5032874345779419,
+    "eval_task_loss_1_rlced_conifer": 0.17440924048423767,
     "total_flos": 0.0,
     "train_loss": 0.1639749237232738,
     "train_runtime": 41844.7516,

config.json CHANGED Viewed

@@ -22,6 +22,6 @@
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.44.2",
-  "use_cache": false,
   "vocab_size": 32000
 }

   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.44.2",
+  "use_cache": true,
   "vocab_size": 32000
 }

eval_results.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+    "epoch": 1.9986120749479528,
+    "eval_alpha_0_uf": 0.2676650285720825,
+    "eval_alpha_1_rlced_conifer": 0.7323350310325623,
+    "eval_excess_loss": 0.030186501687000458,
+    "eval_logits/chosen": 0.4870572090148926,
+    "eval_logits/chosen_0_uf": 1.0820865631103516,
+    "eval_logits/chosen_1_rlced_conifer": 0.28715550899505615,
+    "eval_logits/rejected": 2.986161470413208,
+    "eval_logits/rejected_0_uf": 3.2023887634277344,
+    "eval_logits/rejected_1_rlced_conifer": 2.983372449874878,
+    "eval_logps/chosen": -709.6791381835938,
+    "eval_logps/chosen_0_uf": -540.6270141601562,
+    "eval_logps/chosen_1_rlced_conifer": -758.7691650390625,
+    "eval_logps/rejected": -1280.523193359375,
+    "eval_logps/rejected_0_uf": -637.3894653320312,
+    "eval_logps/rejected_1_rlced_conifer": -1461.084716796875,
+    "eval_loss": 0.23909305036067963,
+    "eval_rewards/accuracies": 0.8787593841552734,
+    "eval_rewards/accuracies_0_uf": 0.7750738263130188,
+    "eval_rewards/accuracies_1_rlced_conifer": 0.9088166356086731,
+    "eval_rewards/chosen": -3.172097682952881,
+    "eval_rewards/chosen_0_uf": -2.5136752128601074,
+    "eval_rewards/chosen_1_rlced_conifer": -3.3518855571746826,
+    "eval_rewards/margins": 5.5957794189453125,
+    "eval_rewards/margins_0_uf": 1.444154977798462,
+    "eval_rewards/margins_1_rlced_conifer": 6.783605575561523,
+    "eval_rewards/rejected": -8.767877578735352,
+    "eval_rewards/rejected_0_uf": -3.9578301906585693,
+    "eval_rewards/rejected_1_rlced_conifer": -10.135491371154785,
+    "eval_runtime": 389.8118,
+    "eval_samples": 8491,
+    "eval_samples_per_second": 21.782,
+    "eval_steps_per_second": 0.341,
+    "eval_task_excess_loss_0_uf": 0.06897441555737657,
+    "eval_task_excess_loss_1_rlced_conifer": 0.03781096797136794,
+    "eval_task_loss_0_uf": 0.5032874345779419,
+    "eval_task_loss_1_rlced_conifer": 0.17440924048423767
+}