Model save

Browse files

Files changed (11) hide show

README.md +3 -18
adapter_config.json +3 -3
adapter_model.safetensors +1 -1
all_results.json +5 -20
runs/Feb08_14-59-32_uclaml04.cs.ucla.edu/events.out.tfevents.1707433228.uclaml04.cs.ucla.edu.2385848.0 +3 -0
runs/Feb08_15-01-43_uclaml04.cs.ucla.edu/events.out.tfevents.1707433358.uclaml04.cs.ucla.edu.2386554.0 +3 -0
runs/Feb08_15-09-49_uclaml04.cs.ucla.edu/events.out.tfevents.1707433845.uclaml04.cs.ucla.edu.2387930.0 +3 -0
runs/Feb08_15-34-19_uclaml04.cs.ucla.edu/events.out.tfevents.1707435315.uclaml04.cs.ucla.edu.2392295.0 +3 -0
train_results.json +5 -5
trainer_state.json +15 -1557
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -14,18 +14,6 @@ should probably proofread and complete it, then remove this comment. -->
 # zephyr-ds
 This model is a fine-tuned version of [alignment-handbook/zephyr-7b-sft-full](https://huggingface.co/alignment-handbook/zephyr-7b-sft-full) on the None dataset.
-It achieves the following results on the evaluation set:
-- Loss: 0.1909
-- Rewards/chosen: -3.7579
-- Rewards/rejected: -6.7356
-- Rewards/accuracies: 0.6940
-- Rewards/margins: 2.9777
-- Logps/rejected: -329.6432
-- Logps/chosen: -319.5546
-- Logits/rejected: -2.7931
-- Logits/chosen: -2.8199
-- Use Label: 12554.0557
-- Pred Label: 19507.9434
 ## Model description
@@ -49,10 +37,10 @@ The following hyperparameters were used during training:
 - eval_batch_size: 4
 - seed: 42
 - distributed_type: multi-GPU
-- num_devices: 2
-- gradient_accumulation_steps: 8
 - total_train_batch_size: 64
-- total_eval_batch_size: 8
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.1
@@ -60,9 +48,6 @@ The following hyperparameters were used during training:
 ### Training results
-| Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen | Use Label  | Pred Label |
-|:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|:----------:|:----------:|
-| 0.1523        | 1.0   | 955  | 0.1909          | -3.7579        | -6.7356          | 0.6940             | 2.9777          | -329.6432      | -319.5546    | -2.7931         | -2.8199       | 12338.0557 | 18723.9434 |
 ### Framework versions

 # zephyr-ds
 This model is a fine-tuned version of [alignment-handbook/zephyr-7b-sft-full](https://huggingface.co/alignment-handbook/zephyr-7b-sft-full) on the None dataset.
 ## Model description
 - eval_batch_size: 4
 - seed: 42
 - distributed_type: multi-GPU
+- num_devices: 4
+- gradient_accumulation_steps: 4
 - total_train_batch_size: 64
+- total_eval_batch_size: 16
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.1
 ### Training results
 ### Framework versions

adapter_config.json CHANGED Viewed

@@ -16,10 +16,10 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "o_proj",
     "k_proj",
-    "v_proj",
-    "q_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "k_proj",
+    "o_proj",
+    "q_proj",
+    "v_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3531f89b4e1e9bc6009cebd20925a01848158b16d4bf4ab4f06d2ed6775e1dcc
 size 218138576

 version https://git-lfs.github.com/spec/v1
+oid sha256:9c4851d0fda021876b9eb5ecbd6ec0d108d643bb4b81a517a68af72134d8b407
 size 218138576

all_results.json CHANGED Viewed

@@ -1,23 +1,8 @@
 {
     "epoch": 1.0,
-    "eval_logits/chosen": -2.819918155670166,
-    "eval_logits/rejected": -2.7931315898895264,
-    "eval_logps/chosen": -319.5545654296875,
-    "eval_logps/rejected": -329.6432189941406,
-    "eval_loss": 0.19092892110347748,
-    "eval_pred_label": 19507.943359375,
-    "eval_rewards/accuracies": 0.6940000057220459,
-    "eval_rewards/chosen": -3.757920265197754,
-    "eval_rewards/margins": 2.9776601791381836,
-    "eval_rewards/rejected": -6.735579967498779,
-    "eval_runtime": 855.9781,
-    "eval_samples": 2000,
-    "eval_samples_per_second": 2.337,
-    "eval_steps_per_second": 0.292,
-    "eval_use_label": 12554.0556640625,
-    "train_loss": 0.3070014505486214,
-    "train_runtime": 47653.0179,
-    "train_samples": 61135,
-    "train_samples_per_second": 1.283,
-    "train_steps_per_second": 0.02
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.6931471824645996,
+    "train_runtime": 27.1859,
+    "train_samples": 61,
+    "train_samples_per_second": 2.244,
+    "train_steps_per_second": 0.037
 }

runs/Feb08_14-59-32_uclaml04.cs.ucla.edu/events.out.tfevents.1707433228.uclaml04.cs.ucla.edu.2385848.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fa54768cfc2f83049fb86b75de8c756bcb27aab3caaea706223643d1c02f9012
+size 4347

runs/Feb08_15-01-43_uclaml04.cs.ucla.edu/events.out.tfevents.1707433358.uclaml04.cs.ucla.edu.2386554.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ad7407776a324966662a5f2d4339fbd7528167f3ec857759d5d6c24ad8b64b80
+size 5361

runs/Feb08_15-09-49_uclaml04.cs.ucla.edu/events.out.tfevents.1707433845.uclaml04.cs.ucla.edu.2387930.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6d158d8e5701738b059dcc0c207f95d0252be70aa30bbb4173b970950eebbb59
+size 5361

runs/Feb08_15-34-19_uclaml04.cs.ucla.edu/events.out.tfevents.1707435315.uclaml04.cs.ucla.edu.2392295.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a815b5325316e61e68940e9a8e8bfd421c1ed2a17527dcf13597710f5f5b8e10
+size 5202

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.3070014505486214,
-    "train_runtime": 47653.0179,
-    "train_samples": 61135,
-    "train_samples_per_second": 1.283,
-    "train_steps_per_second": 0.02
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.6931471824645996,
+    "train_runtime": 27.1859,
+    "train_samples": 61,
+    "train_samples_per_second": 2.244,
+    "train_steps_per_second": 0.037
 }

trainer_state.json CHANGED Viewed

@@ -1,1581 +1,39 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9997382884061764,
-  "eval_steps": 100,
-  "global_step": 955,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.0,
-      "learning_rate": 1.0416666666666667e-07,
-      "logits/chosen": -2.899709463119507,
-      "logits/rejected": -2.879509687423706,
-      "logps/chosen": -314.8815612792969,
-      "logps/rejected": -239.785888671875,
       "loss": 0.6931,
-      "pred_label": 0.0,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
       "rewards/margins": 0.0,
       "rewards/rejected": 0.0,
-      "step": 1,
-      "use_label": 18.0
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 1.0416666666666667e-06,
-      "logits/chosen": -2.871338129043579,
-      "logits/rejected": -2.8671977519989014,
-      "logps/chosen": -304.6894226074219,
-      "logps/rejected": -284.7349853515625,
-      "loss": 0.6939,
-      "pred_label": 0.0,
-      "rewards/accuracies": 0.4131944477558136,
-      "rewards/chosen": 0.0006341927801258862,
-      "rewards/margins": -0.0011922286357730627,
-      "rewards/rejected": 0.0018264217069372535,
-      "step": 10,
-      "use_label": 178.0
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 2.0833333333333334e-06,
-      "logits/chosen": -2.761018991470337,
-      "logits/rejected": -2.7763421535491943,
-      "logps/chosen": -255.852783203125,
-      "logps/rejected": -260.04364013671875,
-      "loss": 0.6902,
-      "pred_label": 0.0,
-      "rewards/accuracies": 0.5531250238418579,
-      "rewards/chosen": 0.0032608681358397007,
-      "rewards/margins": 0.006093679927289486,
-      "rewards/rejected": -0.002832812489941716,
-      "step": 20,
-      "use_label": 482.0
-    },
-    {
-      "epoch": 0.03,
-      "learning_rate": 3.125e-06,
-      "logits/chosen": -2.85542631149292,
-      "logits/rejected": -2.8387763500213623,
-      "logps/chosen": -274.9126892089844,
-      "logps/rejected": -252.97470092773438,
-      "loss": 0.6909,
-      "pred_label": 0.0,
-      "rewards/accuracies": 0.565625011920929,
-      "rewards/chosen": 0.0062743439339101315,
-      "rewards/margins": 0.007127248682081699,
-      "rewards/rejected": -0.0008529046317562461,
-      "step": 30,
-      "use_label": 802.0
-    },
-    {
-      "epoch": 0.04,
-      "learning_rate": 4.166666666666667e-06,
-      "logits/chosen": -2.829822301864624,
-      "logits/rejected": -2.8364169597625732,
-      "logps/chosen": -279.52288818359375,
-      "logps/rejected": -273.93243408203125,
-      "loss": 0.6846,
-      "pred_label": 0.0,
-      "rewards/accuracies": 0.5687500238418579,
-      "rewards/chosen": 0.0057884035632014275,
-      "rewards/margins": 0.016727477312088013,
-      "rewards/rejected": -0.010939070954918861,
-      "step": 40,
-      "use_label": 1122.0
-    },
-    {
-      "epoch": 0.05,
-      "learning_rate": 5.208333333333334e-06,
-      "logits/chosen": -2.8475687503814697,
-      "logits/rejected": -2.8291072845458984,
-      "logps/chosen": -266.10870361328125,
-      "logps/rejected": -257.93243408203125,
-      "loss": 0.6748,
-      "pred_label": 0.0,
-      "rewards/accuracies": 0.5874999761581421,
-      "rewards/chosen": 0.009051208384335041,
-      "rewards/margins": 0.03577073663473129,
-      "rewards/rejected": -0.026719529181718826,
-      "step": 50,
-      "use_label": 1442.0
-    },
-    {
-      "epoch": 0.06,
-      "learning_rate": 6.25e-06,
-      "logits/chosen": -2.8435542583465576,
-      "logits/rejected": -2.857710838317871,
-      "logps/chosen": -308.6976623535156,
-      "logps/rejected": -283.2618103027344,
-      "loss": 0.6705,
-      "pred_label": 0.0,
-      "rewards/accuracies": 0.609375,
-      "rewards/chosen": 0.015249615535140038,
-      "rewards/margins": 0.05724747106432915,
-      "rewards/rejected": -0.04199784994125366,
-      "step": 60,
-      "use_label": 1762.0
-    },
-    {
-      "epoch": 0.07,
-      "learning_rate": 7.291666666666667e-06,
-      "logits/chosen": -2.8543457984924316,
-      "logits/rejected": -2.8572847843170166,
-      "logps/chosen": -284.14410400390625,
-      "logps/rejected": -268.72344970703125,
-      "loss": 0.648,
-      "pred_label": 0.0,
-      "rewards/accuracies": 0.6875,
-      "rewards/chosen": 0.023584356531500816,
-      "rewards/margins": 0.11067845672369003,
-      "rewards/rejected": -0.08709411323070526,
-      "step": 70,
-      "use_label": 2082.0
-    },
-    {
-      "epoch": 0.08,
-      "learning_rate": 8.333333333333334e-06,
-      "logits/chosen": -2.8060286045074463,
-      "logits/rejected": -2.802976131439209,
-      "logps/chosen": -310.8707580566406,
-      "logps/rejected": -279.11822509765625,
-      "loss": 0.6203,
-      "pred_label": 1.2999999523162842,
-      "rewards/accuracies": 0.703125,
-      "rewards/chosen": 0.010406842455267906,
-      "rewards/margins": 0.17813482880592346,
-      "rewards/rejected": -0.1677280068397522,
-      "step": 80,
-      "use_label": 2400.699951171875
-    },
-    {
-      "epoch": 0.09,
-      "learning_rate": 9.375000000000001e-06,
-      "logits/chosen": -2.7980992794036865,
-      "logits/rejected": -2.7999019622802734,
-      "logps/chosen": -295.4351806640625,
-      "logps/rejected": -256.0653381347656,
-      "loss": 0.6197,
-      "pred_label": 3.612499952316284,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": 0.03518597409129143,
-      "rewards/margins": 0.2245054543018341,
-      "rewards/rejected": -0.1893194615840912,
-      "step": 90,
-      "use_label": 2718.387451171875
-    },
-    {
-      "epoch": 0.1,
-      "learning_rate": 9.953434225844005e-06,
-      "logits/chosen": -2.806431770324707,
-      "logits/rejected": -2.791755437850952,
-      "logps/chosen": -275.9968566894531,
-      "logps/rejected": -271.8335876464844,
-      "loss": 0.6156,
-      "pred_label": 14.262499809265137,
-      "rewards/accuracies": 0.6625000238418579,
-      "rewards/chosen": 0.036512341350317,
-      "rewards/margins": 0.2290469855070114,
-      "rewards/rejected": -0.1925346404314041,
-      "step": 100,
-      "use_label": 3027.737548828125
-    },
-    {
-      "epoch": 0.12,
-      "learning_rate": 9.837019790454017e-06,
-      "logits/chosen": -2.8026273250579834,
-      "logits/rejected": -2.7944607734680176,
-      "logps/chosen": -273.5028076171875,
-      "logps/rejected": -257.3667907714844,
-      "loss": 0.5959,
-      "pred_label": 32.9375,
-      "rewards/accuracies": 0.6937500238418579,
-      "rewards/chosen": 0.0005084859440103173,
-      "rewards/margins": 0.29547563195228577,
-      "rewards/rejected": -0.2949671447277069,
-      "step": 110,
-      "use_label": 3329.0625
-    },
-    {
-      "epoch": 0.13,
-      "learning_rate": 9.72060535506403e-06,
-      "logits/chosen": -2.8184993267059326,
-      "logits/rejected": -2.8210482597351074,
-      "logps/chosen": -295.52386474609375,
-      "logps/rejected": -268.7758483886719,
-      "loss": 0.5615,
-      "pred_label": 68.7125015258789,
-      "rewards/accuracies": 0.671875,
-      "rewards/chosen": 0.014611599035561085,
-      "rewards/margins": 0.31382012367248535,
-      "rewards/rejected": -0.29920852184295654,
-      "step": 120,
-      "use_label": 3613.28759765625
-    },
-    {
-      "epoch": 0.14,
-      "learning_rate": 9.60419091967404e-06,
-      "logits/chosen": -2.841566801071167,
-      "logits/rejected": -2.8285374641418457,
-      "logps/chosen": -295.79296875,
-      "logps/rejected": -278.8650817871094,
-      "loss": 0.5672,
-      "pred_label": 103.5999984741211,
-      "rewards/accuracies": 0.6781250238418579,
-      "rewards/chosen": -0.02395879104733467,
-      "rewards/margins": 0.3047763705253601,
-      "rewards/rejected": -0.3287351727485657,
-      "step": 130,
-      "use_label": 3898.39990234375
-    },
-    {
-      "epoch": 0.15,
-      "learning_rate": 9.487776484284052e-06,
-      "logits/chosen": -2.814074993133545,
-      "logits/rejected": -2.8163723945617676,
-      "logps/chosen": -268.4273376464844,
-      "logps/rejected": -256.7865905761719,
-      "loss": 0.5278,
-      "pred_label": 150.2375030517578,
-      "rewards/accuracies": 0.7093750238418579,
-      "rewards/chosen": -0.06842182576656342,
-      "rewards/margins": 0.4312126040458679,
-      "rewards/rejected": -0.49963444471359253,
-      "step": 140,
-      "use_label": 4171.7626953125
-    },
-    {
-      "epoch": 0.16,
-      "learning_rate": 9.371362048894065e-06,
-      "logits/chosen": -2.8159050941467285,
-      "logits/rejected": -2.8136250972747803,
-      "logps/chosen": -302.8164978027344,
-      "logps/rejected": -282.1024475097656,
-      "loss": 0.512,
-      "pred_label": 220.6125030517578,
-      "rewards/accuracies": 0.6499999761581421,
-      "rewards/chosen": -0.09125231206417084,
-      "rewards/margins": 0.46096962690353394,
-      "rewards/rejected": -0.5522218942642212,
-      "step": 150,
-      "use_label": 4421.3876953125
-    },
-    {
-      "epoch": 0.17,
-      "learning_rate": 9.254947613504075e-06,
-      "logits/chosen": -2.824867010116577,
-      "logits/rejected": -2.7856192588806152,
-      "logps/chosen": -289.77410888671875,
-      "logps/rejected": -281.7305603027344,
-      "loss": 0.4774,
-      "pred_label": 313.2124938964844,
-      "rewards/accuracies": 0.7281249761581421,
-      "rewards/chosen": 0.016176635399460793,
-      "rewards/margins": 0.6861985325813293,
-      "rewards/rejected": -0.6700219511985779,
-      "step": 160,
-      "use_label": 4648.78759765625
-    },
-    {
-      "epoch": 0.18,
-      "learning_rate": 9.138533178114087e-06,
-      "logits/chosen": -2.834872007369995,
-      "logits/rejected": -2.8196887969970703,
-      "logps/chosen": -291.0771179199219,
-      "logps/rejected": -259.09747314453125,
-      "loss": 0.4858,
-      "pred_label": 410.9375,
-      "rewards/accuracies": 0.684374988079071,
-      "rewards/chosen": -0.12445585429668427,
-      "rewards/margins": 0.6846336126327515,
-      "rewards/rejected": -0.8090893626213074,
-      "step": 170,
-      "use_label": 4871.0625
-    },
-    {
-      "epoch": 0.19,
-      "learning_rate": 9.022118742724098e-06,
-      "logits/chosen": -2.812523126602173,
-      "logits/rejected": -2.798945188522339,
-      "logps/chosen": -249.18258666992188,
-      "logps/rejected": -272.2208557128906,
-      "loss": 0.4293,
-      "pred_label": 534.9000244140625,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -0.22158575057983398,
-      "rewards/margins": 0.7619065046310425,
-      "rewards/rejected": -0.9834922552108765,
-      "step": 180,
-      "use_label": 5067.10009765625
-    },
-    {
-      "epoch": 0.2,
-      "learning_rate": 8.90570430733411e-06,
-      "logits/chosen": -2.852125883102417,
-      "logits/rejected": -2.8234543800354004,
-      "logps/chosen": -306.91717529296875,
-      "logps/rejected": -280.7167663574219,
-      "loss": 0.4155,
-      "pred_label": 671.125,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -0.15123331546783447,
-      "rewards/margins": 0.8876510858535767,
-      "rewards/rejected": -1.0388844013214111,
-      "step": 190,
-      "use_label": 5250.875
-    },
-    {
-      "epoch": 0.21,
-      "learning_rate": 8.789289871944122e-06,
-      "logits/chosen": -2.8436083793640137,
-      "logits/rejected": -2.84915828704834,
-      "logps/chosen": -272.04266357421875,
-      "logps/rejected": -273.80450439453125,
-      "loss": 0.4063,
-      "pred_label": 820.5999755859375,
-      "rewards/accuracies": 0.721875011920929,
-      "rewards/chosen": -0.2906159460544586,
-      "rewards/margins": 0.9353755712509155,
-      "rewards/rejected": -1.2259914875030518,
-      "step": 200,
-      "use_label": 5421.39990234375
-    },
-    {
-      "epoch": 0.22,
-      "learning_rate": 8.672875436554133e-06,
-      "logits/chosen": -2.7995848655700684,
-      "logits/rejected": -2.805274724960327,
-      "logps/chosen": -287.6289978027344,
-      "logps/rejected": -278.2756652832031,
-      "loss": 0.381,
-      "pred_label": 977.75,
-      "rewards/accuracies": 0.6937500238418579,
-      "rewards/chosen": -0.4142700135707855,
-      "rewards/margins": 0.9491223096847534,
-      "rewards/rejected": -1.3633924722671509,
-      "step": 210,
-      "use_label": 5584.25
-    },
-    {
-      "epoch": 0.23,
-      "learning_rate": 8.556461001164145e-06,
-      "logits/chosen": -2.8255257606506348,
-      "logits/rejected": -2.829308271408081,
-      "logps/chosen": -284.17547607421875,
-      "logps/rejected": -283.9212951660156,
-      "loss": 0.3555,
-      "pred_label": 1152.0999755859375,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -0.5653145909309387,
-      "rewards/margins": 0.9969175457954407,
-      "rewards/rejected": -1.5622321367263794,
-      "step": 220,
-      "use_label": 5729.89990234375
-    },
-    {
-      "epoch": 0.24,
-      "learning_rate": 8.440046565774158e-06,
-      "logits/chosen": -2.8168904781341553,
-      "logits/rejected": -2.8215222358703613,
-      "logps/chosen": -316.2763977050781,
-      "logps/rejected": -286.81451416015625,
-      "loss": 0.3603,
-      "pred_label": 1315.9000244140625,
-      "rewards/accuracies": 0.6781250238418579,
-      "rewards/chosen": -0.6668749451637268,
-      "rewards/margins": 1.111903429031372,
-      "rewards/rejected": -1.778778314590454,
-      "step": 230,
-      "use_label": 5886.10009765625
-    },
-    {
-      "epoch": 0.25,
-      "learning_rate": 8.323632130384168e-06,
-      "logits/chosen": -2.781104803085327,
-      "logits/rejected": -2.7607803344726562,
-      "logps/chosen": -306.5365295410156,
-      "logps/rejected": -278.3562927246094,
-      "loss": 0.3714,
-      "pred_label": 1495.112548828125,
-      "rewards/accuracies": 0.703125,
-      "rewards/chosen": -0.6257501244544983,
-      "rewards/margins": 1.2071430683135986,
-      "rewards/rejected": -1.8328930139541626,
-      "step": 240,
-      "use_label": 6026.8876953125
-    },
-    {
-      "epoch": 0.26,
-      "learning_rate": 8.20721769499418e-06,
-      "logits/chosen": -2.78596830368042,
-      "logits/rejected": -2.7599189281463623,
-      "logps/chosen": -307.82861328125,
-      "logps/rejected": -302.6281433105469,
-      "loss": 0.3539,
-      "pred_label": 1677.699951171875,
-      "rewards/accuracies": 0.715624988079071,
-      "rewards/chosen": -0.6732528805732727,
-      "rewards/margins": 1.3034615516662598,
-      "rewards/rejected": -1.9767143726348877,
-      "step": 250,
-      "use_label": 6164.2998046875
-    },
-    {
-      "epoch": 0.27,
-      "learning_rate": 8.090803259604193e-06,
-      "logits/chosen": -2.815549373626709,
-      "logits/rejected": -2.7940564155578613,
-      "logps/chosen": -286.57562255859375,
-      "logps/rejected": -281.46282958984375,
-      "loss": 0.3442,
-      "pred_label": 1858.2874755859375,
-      "rewards/accuracies": 0.671875,
-      "rewards/chosen": -0.8266381025314331,
-      "rewards/margins": 1.193564772605896,
-      "rewards/rejected": -2.020203113555908,
-      "step": 260,
-      "use_label": 6303.71240234375
-    },
-    {
-      "epoch": 0.28,
-      "learning_rate": 7.974388824214203e-06,
-      "logits/chosen": -2.788181781768799,
-      "logits/rejected": -2.777799129486084,
-      "logps/chosen": -282.0382080078125,
-      "logps/rejected": -283.30877685546875,
-      "loss": 0.3539,
-      "pred_label": 2042.800048828125,
-      "rewards/accuracies": 0.7281249761581421,
-      "rewards/chosen": -0.7480707764625549,
-      "rewards/margins": 1.517256736755371,
-      "rewards/rejected": -2.2653274536132812,
-      "step": 270,
-      "use_label": 6439.2001953125
-    },
-    {
-      "epoch": 0.29,
-      "learning_rate": 7.857974388824214e-06,
-      "logits/chosen": -2.876176357269287,
-      "logits/rejected": -2.8538033962249756,
-      "logps/chosen": -301.6811828613281,
-      "logps/rejected": -271.5317077636719,
-      "loss": 0.3156,
-      "pred_label": 2233.362548828125,
-      "rewards/accuracies": 0.7281249761581421,
-      "rewards/chosen": -0.7781136631965637,
-      "rewards/margins": 1.399305820465088,
-      "rewards/rejected": -2.177419424057007,
-      "step": 280,
-      "use_label": 6568.6376953125
-    },
-    {
-      "epoch": 0.3,
-      "learning_rate": 7.741559953434226e-06,
-      "logits/chosen": -2.8401272296905518,
-      "logits/rejected": -2.8481698036193848,
-      "logps/chosen": -298.8213806152344,
-      "logps/rejected": -259.22357177734375,
-      "loss": 0.3398,
-      "pred_label": 2423.125,
-      "rewards/accuracies": 0.684374988079071,
-      "rewards/chosen": -0.863988995552063,
-      "rewards/margins": 1.1683231592178345,
-      "rewards/rejected": -2.0323121547698975,
-      "step": 290,
-      "use_label": 6698.875
-    },
-    {
-      "epoch": 0.31,
-      "learning_rate": 7.625145518044238e-06,
-      "logits/chosen": -2.8349387645721436,
-      "logits/rejected": -2.8150177001953125,
-      "logps/chosen": -300.6407775878906,
-      "logps/rejected": -268.7109375,
-      "loss": 0.3379,
-      "pred_label": 2605.0625,
-      "rewards/accuracies": 0.675000011920929,
-      "rewards/chosen": -0.9172398447990417,
-      "rewards/margins": 1.3402159214019775,
-      "rewards/rejected": -2.257455348968506,
-      "step": 300,
-      "use_label": 6836.9375
-    },
-    {
-      "epoch": 0.32,
-      "learning_rate": 7.50873108265425e-06,
-      "logits/chosen": -2.8097264766693115,
-      "logits/rejected": -2.7792162895202637,
-      "logps/chosen": -285.2196044921875,
-      "logps/rejected": -293.2747497558594,
-      "loss": 0.31,
-      "pred_label": 2792.4375,
-      "rewards/accuracies": 0.721875011920929,
-      "rewards/chosen": -1.0178813934326172,
-      "rewards/margins": 1.7013041973114014,
-      "rewards/rejected": -2.7191855907440186,
-      "step": 310,
-      "use_label": 6969.5625
-    },
-    {
-      "epoch": 0.33,
-      "learning_rate": 7.392316647264262e-06,
-      "logits/chosen": -2.8490498065948486,
-      "logits/rejected": -2.822798728942871,
-      "logps/chosen": -310.70599365234375,
-      "logps/rejected": -291.4599609375,
-      "loss": 0.2964,
-      "pred_label": 2987.39990234375,
-      "rewards/accuracies": 0.7281249761581421,
-      "rewards/chosen": -0.986463189125061,
-      "rewards/margins": 1.725873589515686,
-      "rewards/rejected": -2.712336540222168,
-      "step": 320,
-      "use_label": 7094.60009765625
-    },
-    {
-      "epoch": 0.35,
-      "learning_rate": 7.275902211874272e-06,
-      "logits/chosen": -2.826206684112549,
-      "logits/rejected": -2.804277181625366,
-      "logps/chosen": -272.4220275878906,
-      "logps/rejected": -269.9629821777344,
-      "loss": 0.3185,
-      "pred_label": 3184.550048828125,
-      "rewards/accuracies": 0.6875,
-      "rewards/chosen": -1.161760687828064,
-      "rewards/margins": 1.4867627620697021,
-      "rewards/rejected": -2.6485238075256348,
-      "step": 330,
-      "use_label": 7217.4501953125
-    },
-    {
-      "epoch": 0.36,
-      "learning_rate": 7.1594877764842855e-06,
-      "logits/chosen": -2.8520660400390625,
-      "logits/rejected": -2.832625150680542,
-      "logps/chosen": -307.9129943847656,
-      "logps/rejected": -286.85198974609375,
-      "loss": 0.315,
-      "pred_label": 3378.5625,
-      "rewards/accuracies": 0.6468750238418579,
-      "rewards/chosen": -1.1871546506881714,
-      "rewards/margins": 1.394044280052185,
-      "rewards/rejected": -2.5811991691589355,
-      "step": 340,
-      "use_label": 7343.4375
-    },
-    {
-      "epoch": 0.37,
-      "learning_rate": 7.043073341094296e-06,
-      "logits/chosen": -2.8574576377868652,
-      "logits/rejected": -2.8412604331970215,
-      "logps/chosen": -302.08367919921875,
-      "logps/rejected": -297.78802490234375,
-      "loss": 0.2612,
-      "pred_label": 3585.8125,
-      "rewards/accuracies": 0.6875,
-      "rewards/chosen": -1.353593349456787,
-      "rewards/margins": 1.50961172580719,
-      "rewards/rejected": -2.8632051944732666,
-      "step": 350,
-      "use_label": 7456.1875
-    },
-    {
-      "epoch": 0.38,
-      "learning_rate": 6.9266589057043075e-06,
-      "logits/chosen": -2.9001529216766357,
-      "logits/rejected": -2.8869528770446777,
-      "logps/chosen": -308.5780944824219,
-      "logps/rejected": -304.3133544921875,
-      "loss": 0.2686,
-      "pred_label": 3807.35009765625,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -1.5075533390045166,
-      "rewards/margins": 1.8883936405181885,
-      "rewards/rejected": -3.395947217941284,
-      "step": 360,
-      "use_label": 7554.64990234375
-    },
-    {
-      "epoch": 0.39,
-      "learning_rate": 6.81024447031432e-06,
-      "logits/chosen": -2.8611207008361816,
-      "logits/rejected": -2.8043880462646484,
-      "logps/chosen": -299.6781921386719,
-      "logps/rejected": -303.0309753417969,
-      "loss": 0.2914,
-      "pred_label": 4018.550048828125,
-      "rewards/accuracies": 0.721875011920929,
-      "rewards/chosen": -1.2945538759231567,
-      "rewards/margins": 1.9656009674072266,
-      "rewards/rejected": -3.2601547241210938,
-      "step": 370,
-      "use_label": 7663.4501953125
-    },
-    {
-      "epoch": 0.4,
-      "learning_rate": 6.693830034924331e-06,
-      "logits/chosen": -2.864997148513794,
-      "logits/rejected": -2.836440324783325,
-      "logps/chosen": -297.97845458984375,
-      "logps/rejected": -299.3329772949219,
-      "loss": 0.2302,
-      "pred_label": 4235.9501953125,
-      "rewards/accuracies": 0.746874988079071,
-      "rewards/chosen": -1.5762511491775513,
-      "rewards/margins": 2.1133368015289307,
-      "rewards/rejected": -3.6895878314971924,
-      "step": 380,
-      "use_label": 7766.0498046875
-    },
-    {
-      "epoch": 0.41,
-      "learning_rate": 6.5774155995343425e-06,
-      "logits/chosen": -2.817526340484619,
-      "logits/rejected": -2.8043646812438965,
-      "logps/chosen": -289.15155029296875,
-      "logps/rejected": -285.8031005859375,
-      "loss": 0.2728,
-      "pred_label": 4468.28759765625,
-      "rewards/accuracies": 0.671875,
-      "rewards/chosen": -1.684571623802185,
-      "rewards/margins": 2.025607109069824,
-      "rewards/rejected": -3.7101783752441406,
-      "step": 390,
-      "use_label": 7853.71240234375
-    },
-    {
-      "epoch": 0.42,
-      "learning_rate": 6.461001164144355e-06,
-      "logits/chosen": -2.853013038635254,
-      "logits/rejected": -2.8416590690612793,
-      "logps/chosen": -306.99212646484375,
-      "logps/rejected": -285.7340393066406,
-      "loss": 0.2494,
-      "pred_label": 4690.5751953125,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": -1.374151587486267,
-      "rewards/margins": 2.0254199504852295,
-      "rewards/rejected": -3.399571657180786,
-      "step": 400,
-      "use_label": 7951.4248046875
-    },
-    {
-      "epoch": 0.43,
-      "learning_rate": 6.344586728754366e-06,
-      "logits/chosen": -2.840266227722168,
-      "logits/rejected": -2.8314151763916016,
-      "logps/chosen": -298.0084533691406,
-      "logps/rejected": -289.5139465332031,
-      "loss": 0.2554,
-      "pred_label": 4908.03759765625,
-      "rewards/accuracies": 0.6812499761581421,
-      "rewards/chosen": -1.3851497173309326,
-      "rewards/margins": 1.9138154983520508,
-      "rewards/rejected": -3.2989654541015625,
-      "step": 410,
-      "use_label": 8053.96240234375
-    },
-    {
-      "epoch": 0.44,
-      "learning_rate": 6.228172293364378e-06,
-      "logits/chosen": -2.8333933353424072,
-      "logits/rejected": -2.8114962577819824,
-      "logps/chosen": -281.6308288574219,
-      "logps/rejected": -283.6402282714844,
-      "loss": 0.2814,
-      "pred_label": 5120.16259765625,
-      "rewards/accuracies": 0.6968749761581421,
-      "rewards/chosen": -1.2441003322601318,
-      "rewards/margins": 1.8000373840332031,
-      "rewards/rejected": -3.044137954711914,
-      "step": 420,
-      "use_label": 8161.83740234375
-    },
-    {
-      "epoch": 0.45,
-      "learning_rate": 6.11175785797439e-06,
-      "logits/chosen": -2.8557116985321045,
-      "logits/rejected": -2.82271146774292,
-      "logps/chosen": -305.80322265625,
-      "logps/rejected": -291.4790954589844,
-      "loss": 0.2721,
-      "pred_label": 5342.97509765625,
-      "rewards/accuracies": 0.6468750238418579,
-      "rewards/chosen": -1.548147439956665,
-      "rewards/margins": 1.3705997467041016,
-      "rewards/rejected": -2.9187471866607666,
-      "step": 430,
-      "use_label": 8259.025390625
-    },
-    {
-      "epoch": 0.46,
-      "learning_rate": 5.995343422584401e-06,
-      "logits/chosen": -2.8646130561828613,
-      "logits/rejected": -2.8445792198181152,
-      "logps/chosen": -299.37811279296875,
-      "logps/rejected": -275.6679382324219,
-      "loss": 0.2555,
-      "pred_label": 5555.8876953125,
-      "rewards/accuracies": 0.668749988079071,
-      "rewards/chosen": -1.6375954151153564,
-      "rewards/margins": 1.7932894229888916,
-      "rewards/rejected": -3.430884838104248,
-      "step": 440,
-      "use_label": 8366.1123046875
-    },
-    {
-      "epoch": 0.47,
-      "learning_rate": 5.878928987194412e-06,
-      "logits/chosen": -2.757448434829712,
-      "logits/rejected": -2.7369332313537598,
-      "logps/chosen": -273.22796630859375,
-      "logps/rejected": -287.7809143066406,
-      "loss": 0.2421,
-      "pred_label": 5778.60009765625,
-      "rewards/accuracies": 0.715624988079071,
-      "rewards/chosen": -1.5854363441467285,
-      "rewards/margins": 1.861823320388794,
-      "rewards/rejected": -3.4472599029541016,
-      "step": 450,
-      "use_label": 8463.400390625
-    },
-    {
-      "epoch": 0.48,
-      "learning_rate": 5.762514551804425e-06,
-      "logits/chosen": -2.8731637001037598,
-      "logits/rejected": -2.8510243892669678,
-      "logps/chosen": -322.58294677734375,
-      "logps/rejected": -296.1365966796875,
-      "loss": 0.2765,
-      "pred_label": 5993.14990234375,
-      "rewards/accuracies": 0.6875,
-      "rewards/chosen": -1.682427167892456,
-      "rewards/margins": 1.4240281581878662,
-      "rewards/rejected": -3.1064553260803223,
-      "step": 460,
-      "use_label": 8568.849609375
-    },
-    {
-      "epoch": 0.49,
-      "learning_rate": 5.6461001164144355e-06,
-      "logits/chosen": -2.85316801071167,
-      "logits/rejected": -2.828878164291382,
-      "logps/chosen": -312.8523254394531,
-      "logps/rejected": -301.6842346191406,
-      "loss": 0.2612,
-      "pred_label": 6206.52490234375,
-      "rewards/accuracies": 0.690625011920929,
-      "rewards/chosen": -1.7460191249847412,
-      "rewards/margins": 1.790623426437378,
-      "rewards/rejected": -3.536642551422119,
-      "step": 470,
-      "use_label": 8675.474609375
-    },
-    {
-      "epoch": 0.5,
-      "learning_rate": 5.529685681024447e-06,
-      "logits/chosen": -2.793785810470581,
-      "logits/rejected": -2.7770721912384033,
-      "logps/chosen": -273.039306640625,
-      "logps/rejected": -294.2169189453125,
-      "loss": 0.2638,
-      "pred_label": 6428.9248046875,
-      "rewards/accuracies": 0.612500011920929,
-      "rewards/chosen": -2.0260262489318848,
-      "rewards/margins": 1.4155540466308594,
-      "rewards/rejected": -3.441580295562744,
-      "step": 480,
-      "use_label": 8773.0751953125
-    },
-    {
-      "epoch": 0.51,
-      "learning_rate": 5.413271245634459e-06,
-      "logits/chosen": -2.8139758110046387,
-      "logits/rejected": -2.8046863079071045,
-      "logps/chosen": -302.76043701171875,
-      "logps/rejected": -283.40069580078125,
-      "loss": 0.2434,
-      "pred_label": 6654.64990234375,
-      "rewards/accuracies": 0.703125,
-      "rewards/chosen": -1.7550468444824219,
-      "rewards/margins": 1.9198501110076904,
-      "rewards/rejected": -3.6748969554901123,
-      "step": 490,
-      "use_label": 8867.349609375
-    },
-    {
-      "epoch": 0.52,
-      "learning_rate": 5.2968568102444705e-06,
-      "logits/chosen": -2.846433162689209,
-      "logits/rejected": -2.8172895908355713,
-      "logps/chosen": -307.9965515136719,
-      "logps/rejected": -305.2622375488281,
-      "loss": 0.2286,
-      "pred_label": 6898.72509765625,
-      "rewards/accuracies": 0.6812499761581421,
-      "rewards/chosen": -1.8360557556152344,
-      "rewards/margins": 2.077921152114868,
-      "rewards/rejected": -3.9139761924743652,
-      "step": 500,
-      "use_label": 8943.275390625
-    },
-    {
-      "epoch": 0.53,
-      "learning_rate": 5.180442374854482e-06,
-      "logits/chosen": -2.8676562309265137,
-      "logits/rejected": -2.8552956581115723,
-      "logps/chosen": -297.22064208984375,
-      "logps/rejected": -299.2649841308594,
-      "loss": 0.2153,
-      "pred_label": 7138.83740234375,
-      "rewards/accuracies": 0.703125,
-      "rewards/chosen": -2.125028610229492,
-      "rewards/margins": 2.392963409423828,
-      "rewards/rejected": -4.51799201965332,
-      "step": 510,
-      "use_label": 9023.162109375
-    },
-    {
-      "epoch": 0.54,
-      "learning_rate": 5.064027939464494e-06,
-      "logits/chosen": -2.861607074737549,
-      "logits/rejected": -2.824428081512451,
-      "logps/chosen": -300.9296569824219,
-      "logps/rejected": -300.1321716308594,
-      "loss": 0.2336,
-      "pred_label": 7372.25,
-      "rewards/accuracies": 0.715624988079071,
-      "rewards/chosen": -1.6840749979019165,
-      "rewards/margins": 2.552696466445923,
-      "rewards/rejected": -4.236771583557129,
-      "step": 520,
-      "use_label": 9109.75
-    },
-    {
-      "epoch": 0.55,
-      "learning_rate": 4.947613504074506e-06,
-      "logits/chosen": -2.8984599113464355,
-      "logits/rejected": -2.8596012592315674,
-      "logps/chosen": -308.25140380859375,
-      "logps/rejected": -307.4395446777344,
-      "loss": 0.2249,
-      "pred_label": 7615.60009765625,
-      "rewards/accuracies": 0.721875011920929,
-      "rewards/chosen": -1.700122594833374,
-      "rewards/margins": 2.4561877250671387,
-      "rewards/rejected": -4.156310558319092,
-      "step": 530,
-      "use_label": 9186.400390625
-    },
-    {
-      "epoch": 0.57,
-      "learning_rate": 4.831199068684517e-06,
-      "logits/chosen": -2.8835153579711914,
-      "logits/rejected": -2.8658623695373535,
-      "logps/chosen": -307.30853271484375,
-      "logps/rejected": -305.19061279296875,
-      "loss": 0.231,
-      "pred_label": 7856.7001953125,
-      "rewards/accuracies": 0.7406250238418579,
-      "rewards/chosen": -1.5762898921966553,
-      "rewards/margins": 2.7267935276031494,
-      "rewards/rejected": -4.303083419799805,
-      "step": 540,
-      "use_label": 9265.2998046875
-    },
-    {
-      "epoch": 0.58,
-      "learning_rate": 4.714784633294529e-06,
-      "logits/chosen": -2.853215456008911,
-      "logits/rejected": -2.827068567276001,
-      "logps/chosen": -299.76446533203125,
-      "logps/rejected": -309.46734619140625,
-      "loss": 0.2155,
-      "pred_label": 8086.875,
-      "rewards/accuracies": 0.684374988079071,
-      "rewards/chosen": -1.7928301095962524,
-      "rewards/margins": 2.323638677597046,
-      "rewards/rejected": -4.116468906402588,
-      "step": 550,
-      "use_label": 9355.125
-    },
-    {
-      "epoch": 0.59,
-      "learning_rate": 4.598370197904541e-06,
-      "logits/chosen": -2.834362506866455,
-      "logits/rejected": -2.810864210128784,
-      "logps/chosen": -316.2347717285156,
-      "logps/rejected": -276.0157775878906,
-      "loss": 0.258,
-      "pred_label": 8320.0126953125,
-      "rewards/accuracies": 0.659375011920929,
-      "rewards/chosen": -1.946148157119751,
-      "rewards/margins": 1.932668685913086,
-      "rewards/rejected": -3.878816604614258,
-      "step": 560,
-      "use_label": 9441.9873046875
-    },
-    {
-      "epoch": 0.6,
-      "learning_rate": 4.481955762514552e-06,
-      "logits/chosen": -2.818577766418457,
-      "logits/rejected": -2.800201416015625,
-      "logps/chosen": -287.69390869140625,
-      "logps/rejected": -290.1914367675781,
-      "loss": 0.211,
-      "pred_label": 8550.4873046875,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -1.9045298099517822,
-      "rewards/margins": 2.01288104057312,
-      "rewards/rejected": -3.9174110889434814,
-      "step": 570,
-      "use_label": 9531.5126953125
-    },
-    {
-      "epoch": 0.61,
-      "learning_rate": 4.365541327124564e-06,
-      "logits/chosen": -2.833016872406006,
-      "logits/rejected": -2.8276636600494385,
-      "logps/chosen": -294.7558288574219,
-      "logps/rejected": -301.39459228515625,
-      "loss": 0.2456,
-      "pred_label": 8784.2001953125,
-      "rewards/accuracies": 0.6937500238418579,
-      "rewards/chosen": -2.0422422885894775,
-      "rewards/margins": 2.122627019882202,
-      "rewards/rejected": -4.164869785308838,
-      "step": 580,
-      "use_label": 9617.7998046875
-    },
-    {
-      "epoch": 0.62,
-      "learning_rate": 4.249126891734576e-06,
-      "logits/chosen": -2.8091092109680176,
-      "logits/rejected": -2.805959939956665,
-      "logps/chosen": -306.3221740722656,
-      "logps/rejected": -315.2014465332031,
-      "loss": 0.245,
-      "pred_label": 9015.087890625,
-      "rewards/accuracies": 0.6812499761581421,
-      "rewards/chosen": -1.8414281606674194,
-      "rewards/margins": 2.2786455154418945,
-      "rewards/rejected": -4.1200737953186035,
-      "step": 590,
-      "use_label": 9706.912109375
-    },
-    {
-      "epoch": 0.63,
-      "learning_rate": 4.132712456344587e-06,
-      "logits/chosen": -2.8337035179138184,
-      "logits/rejected": -2.829528570175171,
-      "logps/chosen": -313.0551452636719,
-      "logps/rejected": -332.26055908203125,
-      "loss": 0.197,
-      "pred_label": 9257.0126953125,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -1.633183240890503,
-      "rewards/margins": 2.7223196029663086,
-      "rewards/rejected": -4.355503082275391,
-      "step": 600,
-      "use_label": 9784.9873046875
-    },
-    {
-      "epoch": 0.64,
-      "learning_rate": 4.0162980209545985e-06,
-      "logits/chosen": -2.84791898727417,
-      "logits/rejected": -2.8361434936523438,
-      "logps/chosen": -317.21636962890625,
-      "logps/rejected": -296.84759521484375,
-      "loss": 0.2117,
-      "pred_label": 9493.875,
-      "rewards/accuracies": 0.6968749761581421,
-      "rewards/chosen": -1.8508695363998413,
-      "rewards/margins": 2.29063081741333,
-      "rewards/rejected": -4.141500949859619,
-      "step": 610,
-      "use_label": 9868.125
-    },
-    {
-      "epoch": 0.65,
-      "learning_rate": 3.899883585564611e-06,
-      "logits/chosen": -2.854703426361084,
-      "logits/rejected": -2.7970035076141357,
-      "logps/chosen": -306.46490478515625,
-      "logps/rejected": -295.9690856933594,
-      "loss": 0.2274,
-      "pred_label": 9722.4501953125,
-      "rewards/accuracies": 0.7093750238418579,
-      "rewards/chosen": -2.2507681846618652,
-      "rewards/margins": 2.2558112144470215,
-      "rewards/rejected": -4.506579399108887,
-      "step": 620,
-      "use_label": 9959.5498046875
-    },
-    {
-      "epoch": 0.66,
-      "learning_rate": 3.7834691501746217e-06,
-      "logits/chosen": -2.8078906536102295,
-      "logits/rejected": -2.794034957885742,
-      "logps/chosen": -300.4102478027344,
-      "logps/rejected": -319.0257263183594,
-      "loss": 0.2013,
-      "pred_label": 9961.900390625,
-      "rewards/accuracies": 0.715624988079071,
-      "rewards/chosen": -2.219250440597534,
-      "rewards/margins": 2.7064452171325684,
-      "rewards/rejected": -4.925694942474365,
-      "step": 630,
-      "use_label": 10040.099609375
-    },
-    {
-      "epoch": 0.67,
-      "learning_rate": 3.6670547147846336e-06,
-      "logits/chosen": -2.818479061126709,
-      "logits/rejected": -2.7741947174072266,
-      "logps/chosen": -286.0899353027344,
-      "logps/rejected": -285.6925048828125,
-      "loss": 0.2183,
-      "pred_label": 10201.8125,
-      "rewards/accuracies": 0.6499999761581421,
-      "rewards/chosen": -2.2236666679382324,
-      "rewards/margins": 2.530942440032959,
-      "rewards/rejected": -4.75460958480835,
-      "step": 640,
-      "use_label": 10120.1875
-    },
-    {
-      "epoch": 0.68,
-      "learning_rate": 3.5506402793946454e-06,
-      "logits/chosen": -2.786527156829834,
-      "logits/rejected": -2.7697250843048096,
-      "logps/chosen": -311.5790100097656,
-      "logps/rejected": -327.41448974609375,
-      "loss": 0.1862,
-      "pred_label": 10438.400390625,
-      "rewards/accuracies": 0.7437499761581421,
-      "rewards/chosen": -2.290921688079834,
-      "rewards/margins": 3.1013052463531494,
-      "rewards/rejected": -5.392226696014404,
-      "step": 650,
-      "use_label": 10203.599609375
-    },
-    {
-      "epoch": 0.69,
-      "learning_rate": 3.434225844004657e-06,
-      "logits/chosen": -2.833200693130493,
-      "logits/rejected": -2.8118557929992676,
-      "logps/chosen": -307.580322265625,
-      "logps/rejected": -289.68023681640625,
-      "loss": 0.2361,
-      "pred_label": 10677.7626953125,
-      "rewards/accuracies": 0.65625,
-      "rewards/chosen": -2.9750688076019287,
-      "rewards/margins": 1.9074808359146118,
-      "rewards/rejected": -4.882550239562988,
-      "step": 660,
-      "use_label": 10284.2373046875
-    },
-    {
-      "epoch": 0.7,
-      "learning_rate": 3.3178114086146686e-06,
-      "logits/chosen": -2.823399066925049,
-      "logits/rejected": -2.794682025909424,
-      "logps/chosen": -306.1806640625,
-      "logps/rejected": -300.6312255859375,
-      "loss": 0.1964,
-      "pred_label": 10918.8251953125,
-      "rewards/accuracies": 0.7406250238418579,
-      "rewards/chosen": -2.6798641681671143,
-      "rewards/margins": 2.8597590923309326,
-      "rewards/rejected": -5.539623737335205,
-      "step": 670,
-      "use_label": 10363.1748046875
-    },
-    {
-      "epoch": 0.71,
-      "learning_rate": 3.20139697322468e-06,
-      "logits/chosen": -2.8301963806152344,
-      "logits/rejected": -2.8216447830200195,
-      "logps/chosen": -326.2012634277344,
-      "logps/rejected": -316.03192138671875,
-      "loss": 0.2123,
-      "pred_label": 11164.5625,
-      "rewards/accuracies": 0.6625000238418579,
-      "rewards/chosen": -2.6657440662384033,
-      "rewards/margins": 2.024155855178833,
-      "rewards/rejected": -4.689899444580078,
-      "step": 680,
-      "use_label": 10437.4375
-    },
-    {
-      "epoch": 0.72,
-      "learning_rate": 3.0849825378346914e-06,
-      "logits/chosen": -2.808143138885498,
-      "logits/rejected": -2.7844669818878174,
-      "logps/chosen": -309.50946044921875,
-      "logps/rejected": -288.86865234375,
-      "loss": 0.1798,
-      "pred_label": 11412.3876953125,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -2.7414073944091797,
-      "rewards/margins": 2.5902717113494873,
-      "rewards/rejected": -5.331678867340088,
-      "step": 690,
-      "use_label": 10509.6123046875
-    },
-    {
-      "epoch": 0.73,
-      "learning_rate": 2.9685681024447033e-06,
-      "logits/chosen": -2.7990927696228027,
-      "logits/rejected": -2.770561695098877,
-      "logps/chosen": -296.21697998046875,
-      "logps/rejected": -300.41229248046875,
-      "loss": 0.1884,
-      "pred_label": 11669.099609375,
-      "rewards/accuracies": 0.703125,
-      "rewards/chosen": -2.7120413780212402,
-      "rewards/margins": 2.8404040336608887,
-      "rewards/rejected": -5.552445411682129,
-      "step": 700,
-      "use_label": 10572.900390625
-    },
-    {
-      "epoch": 0.74,
-      "learning_rate": 2.852153667054715e-06,
-      "logits/chosen": -2.8590335845947266,
-      "logits/rejected": -2.842290163040161,
-      "logps/chosen": -300.3395080566406,
-      "logps/rejected": -291.9437561035156,
-      "loss": 0.1848,
-      "pred_label": 11914.4501953125,
-      "rewards/accuracies": 0.7093750238418579,
-      "rewards/chosen": -2.490241527557373,
-      "rewards/margins": 2.938403606414795,
-      "rewards/rejected": -5.428645133972168,
-      "step": 710,
-      "use_label": 10647.5498046875
-    },
-    {
-      "epoch": 0.75,
-      "learning_rate": 2.735739231664727e-06,
-      "logits/chosen": -2.8020033836364746,
-      "logits/rejected": -2.8077361583709717,
-      "logps/chosen": -307.3730773925781,
-      "logps/rejected": -305.9153137207031,
-      "loss": 0.1691,
-      "pred_label": 12175.75,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -3.191791534423828,
-      "rewards/margins": 2.743975877761841,
-      "rewards/rejected": -5.93576717376709,
-      "step": 720,
-      "use_label": 10706.25
-    },
-    {
-      "epoch": 0.76,
-      "learning_rate": 2.6193247962747383e-06,
-      "logits/chosen": -2.84368896484375,
-      "logits/rejected": -2.8325092792510986,
-      "logps/chosen": -319.6998596191406,
-      "logps/rejected": -299.0663146972656,
-      "loss": 0.1831,
-      "pred_label": 12431.7001953125,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -2.6903202533721924,
-      "rewards/margins": 2.7115437984466553,
-      "rewards/rejected": -5.401864051818848,
-      "step": 730,
-      "use_label": 10770.2998046875
-    },
-    {
-      "epoch": 0.77,
-      "learning_rate": 2.5029103608847497e-06,
-      "logits/chosen": -2.8156962394714355,
-      "logits/rejected": -2.816779613494873,
-      "logps/chosen": -331.8976135253906,
-      "logps/rejected": -335.2292175292969,
-      "loss": 0.184,
-      "pred_label": 12686.3251953125,
-      "rewards/accuracies": 0.715624988079071,
-      "rewards/chosen": -3.126286745071411,
-      "rewards/margins": 3.2427031993865967,
-      "rewards/rejected": -6.36898946762085,
-      "step": 740,
-      "use_label": 10835.6748046875
-    },
-    {
-      "epoch": 0.79,
-      "learning_rate": 2.3864959254947616e-06,
-      "logits/chosen": -2.8092589378356934,
-      "logits/rejected": -2.7743942737579346,
-      "logps/chosen": -294.40643310546875,
-      "logps/rejected": -323.6761169433594,
-      "loss": 0.1726,
-      "pred_label": 12944.5498046875,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -3.147745132446289,
-      "rewards/margins": 3.201345443725586,
-      "rewards/rejected": -6.349090576171875,
-      "step": 750,
-      "use_label": 10897.4501953125
-    },
-    {
-      "epoch": 0.8,
-      "learning_rate": 2.2700814901047734e-06,
-      "logits/chosen": -2.81386399269104,
-      "logits/rejected": -2.815582752227783,
-      "logps/chosen": -326.869873046875,
-      "logps/rejected": -325.6067199707031,
-      "loss": 0.1704,
-      "pred_label": 13210.6748046875,
-      "rewards/accuracies": 0.734375,
-      "rewards/chosen": -3.039788246154785,
-      "rewards/margins": 3.261427402496338,
-      "rewards/rejected": -6.301215171813965,
-      "step": 760,
-      "use_label": 10951.3251953125
-    },
-    {
-      "epoch": 0.81,
-      "learning_rate": 2.153667054714785e-06,
-      "logits/chosen": -2.886383533477783,
-      "logits/rejected": -2.861985445022583,
-      "logps/chosen": -347.4055480957031,
-      "logps/rejected": -348.0740661621094,
-      "loss": 0.171,
-      "pred_label": 13468.4375,
-      "rewards/accuracies": 0.715624988079071,
-      "rewards/chosen": -3.009340763092041,
-      "rewards/margins": 3.336160182952881,
-      "rewards/rejected": -6.3454999923706055,
-      "step": 770,
-      "use_label": 11013.5625
-    },
-    {
-      "epoch": 0.82,
-      "learning_rate": 2.0372526193247966e-06,
-      "logits/chosen": -2.831890344619751,
-      "logits/rejected": -2.814185619354248,
-      "logps/chosen": -318.90240478515625,
-      "logps/rejected": -319.7893981933594,
-      "loss": 0.1618,
-      "pred_label": 13735.0751953125,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -3.30363392829895,
-      "rewards/margins": 2.769784688949585,
-      "rewards/rejected": -6.073418140411377,
-      "step": 780,
-      "use_label": 11066.9248046875
-    },
-    {
-      "epoch": 0.83,
-      "learning_rate": 1.920838183934808e-06,
-      "logits/chosen": -2.845829486846924,
-      "logits/rejected": -2.8150553703308105,
-      "logps/chosen": -299.32720947265625,
-      "logps/rejected": -322.7772521972656,
-      "loss": 0.1829,
-      "pred_label": 13994.1875,
-      "rewards/accuracies": 0.675000011920929,
-      "rewards/chosen": -3.5865261554718018,
-      "rewards/margins": 2.9081783294677734,
-      "rewards/rejected": -6.494704246520996,
-      "step": 790,
-      "use_label": 11127.8125
-    },
-    {
-      "epoch": 0.84,
-      "learning_rate": 1.8044237485448196e-06,
-      "logits/chosen": -2.7826781272888184,
-      "logits/rejected": -2.74163818359375,
-      "logps/chosen": -319.0447082519531,
-      "logps/rejected": -339.4092712402344,
-      "loss": 0.1622,
-      "pred_label": 14244.275390625,
-      "rewards/accuracies": 0.7093750238418579,
-      "rewards/chosen": -3.1698780059814453,
-      "rewards/margins": 3.544410228729248,
-      "rewards/rejected": -6.714288234710693,
-      "step": 800,
-      "use_label": 11197.724609375
-    },
-    {
-      "epoch": 0.85,
-      "learning_rate": 1.6880093131548315e-06,
-      "logits/chosen": -2.7925405502319336,
-      "logits/rejected": -2.7898240089416504,
-      "logps/chosen": -316.834716796875,
-      "logps/rejected": -300.3663330078125,
-      "loss": 0.1831,
-      "pred_label": 14493.287109375,
-      "rewards/accuracies": 0.6937500238418579,
-      "rewards/chosen": -3.4652843475341797,
-      "rewards/margins": 2.749237060546875,
-      "rewards/rejected": -6.214521408081055,
-      "step": 810,
-      "use_label": 11268.712890625
-    },
-    {
-      "epoch": 0.86,
-      "learning_rate": 1.5715948777648429e-06,
-      "logits/chosen": -2.7998623847961426,
-      "logits/rejected": -2.7955284118652344,
-      "logps/chosen": -329.0666198730469,
-      "logps/rejected": -320.14495849609375,
-      "loss": 0.203,
-      "pred_label": 14746.7998046875,
-      "rewards/accuracies": 0.6937500238418579,
-      "rewards/chosen": -3.2825725078582764,
-      "rewards/margins": 3.25768780708313,
-      "rewards/rejected": -6.540260314941406,
-      "step": 820,
-      "use_label": 11335.2001953125
-    },
-    {
-      "epoch": 0.87,
-      "learning_rate": 1.4551804423748547e-06,
-      "logits/chosen": -2.800252914428711,
-      "logits/rejected": -2.7940683364868164,
-      "logps/chosen": -293.72113037109375,
-      "logps/rejected": -365.59320068359375,
-      "loss": 0.1561,
-      "pred_label": 15014.0126953125,
-      "rewards/accuracies": 0.734375,
-      "rewards/chosen": -3.40069842338562,
-      "rewards/margins": 3.9982776641845703,
-      "rewards/rejected": -7.3989763259887695,
-      "step": 830,
-      "use_label": 11387.9873046875
-    },
-    {
-      "epoch": 0.88,
-      "learning_rate": 1.3387660069848663e-06,
-      "logits/chosen": -2.803891181945801,
-      "logits/rejected": -2.8099112510681152,
-      "logps/chosen": -318.6631164550781,
-      "logps/rejected": -330.1468811035156,
-      "loss": 0.1712,
-      "pred_label": 15274.9873046875,
-      "rewards/accuracies": 0.6781250238418579,
-      "rewards/chosen": -3.874751567840576,
-      "rewards/margins": 2.169405698776245,
-      "rewards/rejected": -6.044157981872559,
-      "step": 840,
-      "use_label": 11447.0126953125
-    },
-    {
-      "epoch": 0.89,
-      "learning_rate": 1.222351571594878e-06,
-      "logits/chosen": -2.803412914276123,
-      "logits/rejected": -2.825878620147705,
-      "logps/chosen": -309.2081604003906,
-      "logps/rejected": -315.7529602050781,
-      "loss": 0.1758,
-      "pred_label": 15528.2001953125,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": -3.5470733642578125,
-      "rewards/margins": 3.1740689277648926,
-      "rewards/rejected": -6.721141815185547,
-      "step": 850,
-      "use_label": 11513.7998046875
-    },
-    {
-      "epoch": 0.9,
-      "learning_rate": 1.1059371362048893e-06,
-      "logits/chosen": -2.7905640602111816,
-      "logits/rejected": -2.7931439876556396,
-      "logps/chosen": -333.94171142578125,
-      "logps/rejected": -340.4829406738281,
-      "loss": 0.194,
-      "pred_label": 15781.775390625,
-      "rewards/accuracies": 0.640625,
-      "rewards/chosen": -4.047911643981934,
-      "rewards/margins": 2.3354756832122803,
-      "rewards/rejected": -6.383387565612793,
-      "step": 860,
-      "use_label": 11580.224609375
-    },
-    {
-      "epoch": 0.91,
-      "learning_rate": 9.895227008149012e-07,
-      "logits/chosen": -2.773538112640381,
-      "logits/rejected": -2.7751145362854004,
-      "logps/chosen": -297.7669982910156,
-      "logps/rejected": -327.5148010253906,
-      "loss": 0.1636,
-      "pred_label": 16038.3251953125,
-      "rewards/accuracies": 0.7093750238418579,
-      "rewards/chosen": -3.391941547393799,
-      "rewards/margins": 3.371931552886963,
-      "rewards/rejected": -6.7638726234436035,
-      "step": 870,
-      "use_label": 11643.6748046875
-    },
-    {
-      "epoch": 0.92,
-      "learning_rate": 8.731082654249128e-07,
-      "logits/chosen": -2.8104777336120605,
-      "logits/rejected": -2.7986841201782227,
-      "logps/chosen": -308.0206298828125,
-      "logps/rejected": -325.0122985839844,
-      "loss": 0.1666,
-      "pred_label": 16292.400390625,
-      "rewards/accuracies": 0.6875,
-      "rewards/chosen": -3.5868797302246094,
-      "rewards/margins": 2.8977627754211426,
-      "rewards/rejected": -6.484642028808594,
-      "step": 880,
-      "use_label": 11709.599609375
-    },
-    {
-      "epoch": 0.93,
-      "learning_rate": 7.566938300349244e-07,
-      "logits/chosen": -2.830348491668701,
-      "logits/rejected": -2.8405864238739014,
-      "logps/chosen": -300.59930419921875,
-      "logps/rejected": -333.3864440917969,
-      "loss": 0.1743,
-      "pred_label": 16542.474609375,
-      "rewards/accuracies": 0.703125,
-      "rewards/chosen": -3.5683798789978027,
-      "rewards/margins": 2.9162092208862305,
-      "rewards/rejected": -6.48459005355835,
-      "step": 890,
-      "use_label": 11779.525390625
-    },
-    {
-      "epoch": 0.94,
-      "learning_rate": 6.402793946449361e-07,
-      "logits/chosen": -2.7899200916290283,
-      "logits/rejected": -2.780874252319336,
-      "logps/chosen": -311.51422119140625,
-      "logps/rejected": -318.4853210449219,
-      "loss": 0.1903,
-      "pred_label": 16801.587890625,
-      "rewards/accuracies": 0.7093750238418579,
-      "rewards/chosen": -3.593315601348877,
-      "rewards/margins": 2.630795955657959,
-      "rewards/rejected": -6.224111080169678,
-      "step": 900,
-      "use_label": 11840.412109375
-    },
-    {
-      "epoch": 0.95,
-      "learning_rate": 5.238649592549476e-07,
-      "logits/chosen": -2.805046558380127,
-      "logits/rejected": -2.774458408355713,
-      "logps/chosen": -337.86859130859375,
-      "logps/rejected": -338.61444091796875,
-      "loss": 0.1984,
-      "pred_label": 17054.8125,
-      "rewards/accuracies": 0.6937500238418579,
-      "rewards/chosen": -3.481353282928467,
-      "rewards/margins": 3.0629849433898926,
-      "rewards/rejected": -6.544338226318359,
-      "step": 910,
-      "use_label": 11907.1875
-    },
-    {
-      "epoch": 0.96,
-      "learning_rate": 4.0745052386495924e-07,
-      "logits/chosen": -2.776197671890259,
-      "logits/rejected": -2.7662010192871094,
-      "logps/chosen": -325.04901123046875,
-      "logps/rejected": -332.0552978515625,
-      "loss": 0.1684,
-      "pred_label": 17301.6875,
-      "rewards/accuracies": 0.6968749761581421,
-      "rewards/chosen": -3.9256300926208496,
-      "rewards/margins": 2.9148411750793457,
-      "rewards/rejected": -6.8404717445373535,
-      "step": 920,
-      "use_label": 11980.3125
-    },
-    {
-      "epoch": 0.97,
-      "learning_rate": 2.910360884749709e-07,
-      "logits/chosen": -2.7972004413604736,
-      "logits/rejected": -2.7847728729248047,
-      "logps/chosen": -313.59600830078125,
-      "logps/rejected": -332.9956359863281,
-      "loss": 0.1698,
-      "pred_label": 17560.25,
-      "rewards/accuracies": 0.7593749761581421,
-      "rewards/chosen": -3.093097686767578,
-      "rewards/margins": 4.027865886688232,
-      "rewards/rejected": -7.120964050292969,
-      "step": 930,
-      "use_label": 12041.75
-    },
-    {
-      "epoch": 0.98,
-      "learning_rate": 1.7462165308498255e-07,
-      "logits/chosen": -2.8208765983581543,
-      "logits/rejected": -2.8135807514190674,
-      "logps/chosen": -323.46075439453125,
-      "logps/rejected": -343.5670471191406,
-      "loss": 0.1804,
-      "pred_label": 17812.375,
-      "rewards/accuracies": 0.7281249761581421,
-      "rewards/chosen": -3.7054646015167236,
-      "rewards/margins": 3.41404390335083,
-      "rewards/rejected": -7.119508266448975,
-      "step": 940,
-      "use_label": 12109.625
-    },
-    {
-      "epoch": 0.99,
-      "learning_rate": 5.8207217694994185e-08,
-      "logits/chosen": -2.8133676052093506,
-      "logits/rejected": -2.7860281467437744,
-      "logps/chosen": -309.82440185546875,
-      "logps/rejected": -331.61480712890625,
-      "loss": 0.1523,
-      "pred_label": 18072.86328125,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -3.8211193084716797,
-      "rewards/margins": 3.1999752521514893,
-      "rewards/rejected": -7.021093845367432,
-      "step": 950,
-      "use_label": 12169.1376953125
-    },
-    {
-      "epoch": 1.0,
-      "eval_logits/chosen": -2.819918155670166,
-      "eval_logits/rejected": -2.7931315898895264,
-      "eval_logps/chosen": -319.5545654296875,
-      "eval_logps/rejected": -329.6432189941406,
-      "eval_loss": 0.19092892110347748,
-      "eval_pred_label": 18723.943359375,
-      "eval_rewards/accuracies": 0.6940000057220459,
-      "eval_rewards/chosen": -3.757920265197754,
-      "eval_rewards/margins": 2.9776601791381836,
-      "eval_rewards/rejected": -6.735579967498779,
-      "eval_runtime": 857.7691,
-      "eval_samples_per_second": 2.332,
-      "eval_steps_per_second": 0.291,
-      "eval_use_label": 12338.0556640625,
-      "step": 955
     },
     {
       "epoch": 1.0,
-      "step": 955,
       "total_flos": 0.0,
-      "train_loss": 0.3070014505486214,
-      "train_runtime": 47653.0179,
-      "train_samples_per_second": 1.283,
-      "train_steps_per_second": 0.02
     }
   ],
   "logging_steps": 10,
-  "max_steps": 955,
   "num_train_epochs": 1,
-  "save_steps": 50,
   "total_flos": 0.0,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 1,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 1.0,
+      "learning_rate": 0.0,
+      "logps/chosen": -242.30880737304688,
+      "logps/rejected": -225.008056640625,
       "loss": 0.6931,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
       "rewards/margins": 0.0,
       "rewards/rejected": 0.0,
+      "step": 1
     },
     {
       "epoch": 1.0,
+      "step": 1,
       "total_flos": 0.0,
+      "train_loss": 0.6931471824645996,
+      "train_runtime": 27.1859,
+      "train_samples_per_second": 2.244,
+      "train_steps_per_second": 0.037
     }
   ],
   "logging_steps": 10,
+  "max_steps": 1,
   "num_train_epochs": 1,
+  "save_steps": 100,
   "total_flos": 0.0,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3c29657dde208ca196ea18410c6b1a73428e06a2ce35fbe02875332ab53008a6
-size 4792

 version https://git-lfs.github.com/spec/v1
+oid sha256:d299158ded921c7c4a382f6de9a9047ea7879151db50274c82a74d2f19ddaeb9
+size 4664