diff --git "a/trainer_state.json" "b/trainer_state.json"
new file mode 100644--- /dev/null
+++ "b/trainer_state.json"
@@ -0,0 +1,7110 @@
+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 8.0,
+  "eval_steps": 1,
+  "global_step": 472,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01694915254237288,
+      "grad_norm": 39.081620832935286,
+      "learning_rate": 1.0416666666666666e-08,
+      "logits/chosen": -0.04004784673452377,
+      "logits/rejected": -0.012884330004453659,
+      "logps/chosen": -24.14839744567871,
+      "logps/rejected": -35.14466094970703,
+      "loss": 0.6931,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": 0.0,
+      "rewards/margins": 0.0,
+      "rewards/rejected": 0.0,
+      "step": 1
+    },
+    {
+      "epoch": 0.03389830508474576,
+      "grad_norm": 41.95997929051618,
+      "learning_rate": 2.083333333333333e-08,
+      "logits/chosen": 0.18785351514816284,
+      "logits/rejected": 0.21833035349845886,
+      "logps/chosen": -31.55377197265625,
+      "logps/rejected": -35.9189567565918,
+      "loss": 0.6931,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": 0.0,
+      "rewards/margins": 0.0,
+      "rewards/rejected": 0.0,
+      "step": 2
+    },
+    {
+      "epoch": 0.05084745762711865,
+      "grad_norm": 41.574477134990545,
+      "learning_rate": 3.125e-08,
+      "logits/chosen": -0.13298606872558594,
+      "logits/rejected": -0.12034030258655548,
+      "logps/chosen": -27.085824966430664,
+      "logps/rejected": -44.451595306396484,
+      "loss": 0.6789,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": 0.043108198791742325,
+      "rewards/margins": 0.03870103508234024,
+      "rewards/rejected": 0.004407165572047234,
+      "step": 3
+    },
+    {
+      "epoch": 0.06779661016949153,
+      "grad_norm": 38.12229749762995,
+      "learning_rate": 4.166666666666666e-08,
+      "logits/chosen": -0.02340121753513813,
+      "logits/rejected": 0.04097435995936394,
+      "logps/chosen": -26.125139236450195,
+      "logps/rejected": -34.786293029785156,
+      "loss": 0.7018,
+      "rewards/accuracies": 0.4375,
+      "rewards/chosen": 0.005571034736931324,
+      "rewards/margins": -0.0023282519541680813,
+      "rewards/rejected": 0.007899284362792969,
+      "step": 4
+    },
+    {
+      "epoch": 0.0847457627118644,
+      "grad_norm": 43.98516972909633,
+      "learning_rate": 5.208333333333333e-08,
+      "logits/chosen": -0.07847192883491516,
+      "logits/rejected": -0.08863978832960129,
+      "logps/chosen": -28.029014587402344,
+      "logps/rejected": -24.517436981201172,
+      "loss": 0.6959,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": 0.022370003163814545,
+      "rewards/margins": 0.06014883145689964,
+      "rewards/rejected": -0.0377788320183754,
+      "step": 5
+    },
+    {
+      "epoch": 0.1016949152542373,
+      "grad_norm": 37.8616646433652,
+      "learning_rate": 6.25e-08,
+      "logits/chosen": 0.01001177728176117,
+      "logits/rejected": 0.03767494484782219,
+      "logps/chosen": -34.69060134887695,
+      "logps/rejected": -34.56515884399414,
+      "loss": 0.6964,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.0483599528670311,
+      "rewards/margins": -0.05064802244305611,
+      "rewards/rejected": 0.002288064919412136,
+      "step": 6
+    },
+    {
+      "epoch": 0.11864406779661017,
+      "grad_norm": 39.48592290044396,
+      "learning_rate": 7.291666666666667e-08,
+      "logits/chosen": 0.09730193018913269,
+      "logits/rejected": 0.12533338367938995,
+      "logps/chosen": -26.894184112548828,
+      "logps/rejected": -29.685768127441406,
+      "loss": 0.6871,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.014862039126455784,
+      "rewards/margins": 0.04402291774749756,
+      "rewards/rejected": -0.05888495221734047,
+      "step": 7
+    },
+    {
+      "epoch": 0.13559322033898305,
+      "grad_norm": 41.45250718986053,
+      "learning_rate": 8.333333333333333e-08,
+      "logits/chosen": -0.07943608611822128,
+      "logits/rejected": -0.05526775121688843,
+      "logps/chosen": -23.665637969970703,
+      "logps/rejected": -35.581138610839844,
+      "loss": 0.7069,
+      "rewards/accuracies": 0.4375,
+      "rewards/chosen": 0.0016717063263058662,
+      "rewards/margins": -0.02722988836467266,
+      "rewards/rejected": 0.028901590034365654,
+      "step": 8
+    },
+    {
+      "epoch": 0.15254237288135594,
+      "grad_norm": 36.01634420144333,
+      "learning_rate": 9.375e-08,
+      "logits/chosen": -0.0029595959931612015,
+      "logits/rejected": 0.01232635322958231,
+      "logps/chosen": -30.279748916625977,
+      "logps/rejected": -24.777137756347656,
+      "loss": 0.6932,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -0.024993158876895905,
+      "rewards/margins": 0.01761629246175289,
+      "rewards/rejected": -0.04260944947600365,
+      "step": 9
+    },
+    {
+      "epoch": 0.1694915254237288,
+      "grad_norm": 39.56478667920128,
+      "learning_rate": 1.0416666666666667e-07,
+      "logits/chosen": 0.18664813041687012,
+      "logits/rejected": 0.15227466821670532,
+      "logps/chosen": -33.973602294921875,
+      "logps/rejected": -33.727115631103516,
+      "loss": 0.7043,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": 0.0049431659281253815,
+      "rewards/margins": -0.026568636298179626,
+      "rewards/rejected": 0.031511805951595306,
+      "step": 10
+    },
+    {
+      "epoch": 0.1864406779661017,
+      "grad_norm": 39.96998647964932,
+      "learning_rate": 1.1458333333333332e-07,
+      "logits/chosen": 0.22770923376083374,
+      "logits/rejected": 0.2530755400657654,
+      "logps/chosen": -25.40655517578125,
+      "logps/rejected": -39.74527359008789,
+      "loss": 0.6944,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": -0.05294986814260483,
+      "rewards/margins": -0.01789700984954834,
+      "rewards/rejected": -0.035052862018346786,
+      "step": 11
+    },
+    {
+      "epoch": 0.2033898305084746,
+      "grad_norm": 41.34319202972142,
+      "learning_rate": 1.25e-07,
+      "logits/chosen": 0.05755678564310074,
+      "logits/rejected": 0.05909465625882149,
+      "logps/chosen": -23.82120704650879,
+      "logps/rejected": -29.727937698364258,
+      "loss": 0.6877,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.028387153521180153,
+      "rewards/margins": 0.04089733213186264,
+      "rewards/rejected": -0.012510182335972786,
+      "step": 12
+    },
+    {
+      "epoch": 0.22033898305084745,
+      "grad_norm": 39.52994008664552,
+      "learning_rate": 1.3541666666666666e-07,
+      "logits/chosen": 0.010963734239339828,
+      "logits/rejected": -0.006987990811467171,
+      "logps/chosen": -23.91936683654785,
+      "logps/rejected": -30.996225357055664,
+      "loss": 0.6894,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.013032305985689163,
+      "rewards/margins": -0.01489502377808094,
+      "rewards/rejected": 0.001862717792391777,
+      "step": 13
+    },
+    {
+      "epoch": 0.23728813559322035,
+      "grad_norm": 43.22009535631131,
+      "learning_rate": 1.4583333333333335e-07,
+      "logits/chosen": 0.1792532503604889,
+      "logits/rejected": 0.23038198053836823,
+      "logps/chosen": -38.606624603271484,
+      "logps/rejected": -52.0256462097168,
+      "loss": 0.6851,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 0.030375886708498,
+      "rewards/margins": 0.07139457017183304,
+      "rewards/rejected": -0.04101867973804474,
+      "step": 14
+    },
+    {
+      "epoch": 0.2542372881355932,
+      "grad_norm": 38.55173749063397,
+      "learning_rate": 1.5624999999999999e-07,
+      "logits/chosen": -0.00039753085002303123,
+      "logits/rejected": 0.006743618752807379,
+      "logps/chosen": -20.85459327697754,
+      "logps/rejected": -31.867145538330078,
+      "loss": 0.6931,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.015277398750185966,
+      "rewards/margins": -0.01538792997598648,
+      "rewards/rejected": 0.00011053076013922691,
+      "step": 15
+    },
+    {
+      "epoch": 0.2711864406779661,
+      "grad_norm": 36.132422216008756,
+      "learning_rate": 1.6666666666666665e-07,
+      "logits/chosen": -0.036632318049669266,
+      "logits/rejected": -0.05143912881612778,
+      "logps/chosen": -25.975902557373047,
+      "logps/rejected": -30.601673126220703,
+      "loss": 0.6783,
+      "rewards/accuracies": 0.4375,
+      "rewards/chosen": -0.025256335735321045,
+      "rewards/margins": -0.011055359616875648,
+      "rewards/rejected": -0.014200975187122822,
+      "step": 16
+    },
+    {
+      "epoch": 0.288135593220339,
+      "grad_norm": 38.93415568334601,
+      "learning_rate": 1.7708333333333334e-07,
+      "logits/chosen": -0.03795609995722771,
+      "logits/rejected": -0.04627775773406029,
+      "logps/chosen": -22.88838768005371,
+      "logps/rejected": -28.53569984436035,
+      "loss": 0.6799,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 0.0017479183152318,
+      "rewards/margins": 0.0676286369562149,
+      "rewards/rejected": -0.06588071584701538,
+      "step": 17
+    },
+    {
+      "epoch": 0.3050847457627119,
+      "grad_norm": 37.216443506833954,
+      "learning_rate": 1.875e-07,
+      "logits/chosen": 0.12987589836120605,
+      "logits/rejected": 0.16591012477874756,
+      "logps/chosen": -20.29220962524414,
+      "logps/rejected": -27.848968505859375,
+      "loss": 0.6856,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.02715757116675377,
+      "rewards/margins": 0.0035054399631917477,
+      "rewards/rejected": -0.030663013458251953,
+      "step": 18
+    },
+    {
+      "epoch": 0.3220338983050847,
+      "grad_norm": 36.09119961798322,
+      "learning_rate": 1.9791666666666664e-07,
+      "logits/chosen": 0.11148576438426971,
+      "logits/rejected": 0.1186145693063736,
+      "logps/chosen": -19.455955505371094,
+      "logps/rejected": -30.798999786376953,
+      "loss": 0.6764,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.03620731830596924,
+      "rewards/margins": 0.08103629946708679,
+      "rewards/rejected": -0.044828981161117554,
+      "step": 19
+    },
+    {
+      "epoch": 0.3389830508474576,
+      "grad_norm": 34.52699754862708,
+      "learning_rate": 2.0833333333333333e-07,
+      "logits/chosen": -0.040645819157361984,
+      "logits/rejected": -0.09117074310779572,
+      "logps/chosen": -30.70236587524414,
+      "logps/rejected": -31.846435546875,
+      "loss": 0.6725,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.025728441774845123,
+      "rewards/margins": 0.05640077590942383,
+      "rewards/rejected": -0.030672335997223854,
+      "step": 20
+    },
+    {
+      "epoch": 0.3559322033898305,
+      "grad_norm": 38.450864425486444,
+      "learning_rate": 2.1875e-07,
+      "logits/chosen": -0.04155284911394119,
+      "logits/rejected": -0.08195465058088303,
+      "logps/chosen": -24.620819091796875,
+      "logps/rejected": -35.44722366333008,
+      "loss": 0.6753,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.007430051453411579,
+      "rewards/margins": 0.049906615167856216,
+      "rewards/rejected": -0.04247656092047691,
+      "step": 21
+    },
+    {
+      "epoch": 0.3728813559322034,
+      "grad_norm": 38.60964633502043,
+      "learning_rate": 2.2916666666666663e-07,
+      "logits/chosen": 0.037601783871650696,
+      "logits/rejected": 0.051545850932598114,
+      "logps/chosen": -20.464923858642578,
+      "logps/rejected": -25.813556671142578,
+      "loss": 0.656,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.0019244614522904158,
+      "rewards/margins": 0.10572130233049393,
+      "rewards/rejected": -0.10379683971405029,
+      "step": 22
+    },
+    {
+      "epoch": 0.3898305084745763,
+      "grad_norm": 37.53125515825806,
+      "learning_rate": 2.3958333333333335e-07,
+      "logits/chosen": -0.04523741453886032,
+      "logits/rejected": -0.08811002969741821,
+      "logps/chosen": -26.055984497070312,
+      "logps/rejected": -25.679134368896484,
+      "loss": 0.6379,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -0.054784782230854034,
+      "rewards/margins": 0.07096240669488907,
+      "rewards/rejected": -0.1257471889257431,
+      "step": 23
+    },
+    {
+      "epoch": 0.4067796610169492,
+      "grad_norm": 40.26892670789944,
+      "learning_rate": 2.5e-07,
+      "logits/chosen": -0.08595943450927734,
+      "logits/rejected": -0.09404819458723068,
+      "logps/chosen": -30.186988830566406,
+      "logps/rejected": -33.44403076171875,
+      "loss": 0.6393,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.04100564867258072,
+      "rewards/margins": 0.07639746367931366,
+      "rewards/rejected": -0.11740311980247498,
+      "step": 24
+    },
+    {
+      "epoch": 0.423728813559322,
+      "grad_norm": 47.582895505174676,
+      "learning_rate": 2.604166666666667e-07,
+      "logits/chosen": 0.002766113728284836,
+      "logits/rejected": 0.002811681479215622,
+      "logps/chosen": -35.549591064453125,
+      "logps/rejected": -32.83184051513672,
+      "loss": 0.6482,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.07030116766691208,
+      "rewards/margins": 0.06389589607715607,
+      "rewards/rejected": -0.13419707119464874,
+      "step": 25
+    },
+    {
+      "epoch": 0.4406779661016949,
+      "grad_norm": 34.075640070522816,
+      "learning_rate": 2.708333333333333e-07,
+      "logits/chosen": -0.02534855529665947,
+      "logits/rejected": -0.011001847684383392,
+      "logps/chosen": -22.414587020874023,
+      "logps/rejected": -28.95859146118164,
+      "loss": 0.621,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.008834121748805046,
+      "rewards/margins": 0.2195996344089508,
+      "rewards/rejected": -0.228433758020401,
+      "step": 26
+    },
+    {
+      "epoch": 0.4576271186440678,
+      "grad_norm": 34.47879927670914,
+      "learning_rate": 2.8125e-07,
+      "logits/chosen": 0.0005891900509595871,
+      "logits/rejected": -0.04569123312830925,
+      "logps/chosen": -27.095754623413086,
+      "logps/rejected": -34.3789176940918,
+      "loss": 0.622,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.00932928267866373,
+      "rewards/margins": 0.28314852714538574,
+      "rewards/rejected": -0.2924777865409851,
+      "step": 27
+    },
+    {
+      "epoch": 0.4745762711864407,
+      "grad_norm": 33.381546864263576,
+      "learning_rate": 2.916666666666667e-07,
+      "logits/chosen": -0.03613307327032089,
+      "logits/rejected": -0.07326073944568634,
+      "logps/chosen": -20.990463256835938,
+      "logps/rejected": -26.562923431396484,
+      "loss": 0.6157,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.00729251466691494,
+      "rewards/margins": 0.15824466943740845,
+      "rewards/rejected": -0.16553716361522675,
+      "step": 28
+    },
+    {
+      "epoch": 0.4915254237288136,
+      "grad_norm": 39.396295244537285,
+      "learning_rate": 3.020833333333333e-07,
+      "logits/chosen": 0.06360377371311188,
+      "logits/rejected": 0.0748274177312851,
+      "logps/chosen": -23.62378692626953,
+      "logps/rejected": -31.0860595703125,
+      "loss": 0.6277,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.017558498308062553,
+      "rewards/margins": 0.13148798048496246,
+      "rewards/rejected": -0.14904648065567017,
+      "step": 29
+    },
+    {
+      "epoch": 0.5084745762711864,
+      "grad_norm": 35.102940131398256,
+      "learning_rate": 3.1249999999999997e-07,
+      "logits/chosen": 0.06532293558120728,
+      "logits/rejected": 0.06247016414999962,
+      "logps/chosen": -26.590116500854492,
+      "logps/rejected": -34.515804290771484,
+      "loss": 0.5964,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.0014454489573836327,
+      "rewards/margins": 0.5317557454109192,
+      "rewards/rejected": -0.5332012176513672,
+      "step": 30
+    },
+    {
+      "epoch": 0.5254237288135594,
+      "grad_norm": 34.11889459677525,
+      "learning_rate": 3.2291666666666666e-07,
+      "logits/chosen": 0.09973854571580887,
+      "logits/rejected": 0.1072133332490921,
+      "logps/chosen": -25.892887115478516,
+      "logps/rejected": -32.363502502441406,
+      "loss": 0.5721,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.006193090230226517,
+      "rewards/margins": 0.30112165212631226,
+      "rewards/rejected": -0.29492852091789246,
+      "step": 31
+    },
+    {
+      "epoch": 0.5423728813559322,
+      "grad_norm": 32.761918192518266,
+      "learning_rate": 3.333333333333333e-07,
+      "logits/chosen": 0.037455491721630096,
+      "logits/rejected": -0.05081958696246147,
+      "logps/chosen": -33.243309020996094,
+      "logps/rejected": -35.219573974609375,
+      "loss": 0.5398,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.022554118186235428,
+      "rewards/margins": 0.5276864767074585,
+      "rewards/rejected": -0.5502405166625977,
+      "step": 32
+    },
+    {
+      "epoch": 0.559322033898305,
+      "grad_norm": 30.482548567561853,
+      "learning_rate": 3.4375e-07,
+      "logits/chosen": 0.041740238666534424,
+      "logits/rejected": 0.10962522029876709,
+      "logps/chosen": -24.476438522338867,
+      "logps/rejected": -38.58897399902344,
+      "loss": 0.5268,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.003558039665222168,
+      "rewards/margins": 0.8583400249481201,
+      "rewards/rejected": -0.8618981838226318,
+      "step": 33
+    },
+    {
+      "epoch": 0.576271186440678,
+      "grad_norm": 31.30582576136025,
+      "learning_rate": 3.541666666666667e-07,
+      "logits/chosen": 0.002660442143678665,
+      "logits/rejected": 0.017039887607097626,
+      "logps/chosen": -27.219778060913086,
+      "logps/rejected": -33.36122131347656,
+      "loss": 0.5383,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.02310222014784813,
+      "rewards/margins": 0.5289267301559448,
+      "rewards/rejected": -0.5520289540290833,
+      "step": 34
+    },
+    {
+      "epoch": 0.5932203389830508,
+      "grad_norm": 32.89490941791439,
+      "learning_rate": 3.645833333333333e-07,
+      "logits/chosen": 0.03442692011594772,
+      "logits/rejected": 0.06397214531898499,
+      "logps/chosen": -20.274240493774414,
+      "logps/rejected": -44.2073974609375,
+      "loss": 0.5019,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 0.0024875528179109097,
+      "rewards/margins": 1.1822435855865479,
+      "rewards/rejected": -1.1797560453414917,
+      "step": 35
+    },
+    {
+      "epoch": 0.6101694915254238,
+      "grad_norm": 31.03945146034194,
+      "learning_rate": 3.75e-07,
+      "logits/chosen": -0.0311665628105402,
+      "logits/rejected": -0.02556237392127514,
+      "logps/chosen": -22.00820541381836,
+      "logps/rejected": -27.99129295349121,
+      "loss": 0.5159,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.02089952491223812,
+      "rewards/margins": 0.5325387716293335,
+      "rewards/rejected": -0.5534383058547974,
+      "step": 36
+    },
+    {
+      "epoch": 0.6271186440677966,
+      "grad_norm": 29.670396668547138,
+      "learning_rate": 3.8541666666666665e-07,
+      "logits/chosen": 0.0932985171675682,
+      "logits/rejected": 0.08139631897211075,
+      "logps/chosen": -26.00881576538086,
+      "logps/rejected": -29.33023452758789,
+      "loss": 0.4997,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.10078494995832443,
+      "rewards/margins": 0.5040473341941833,
+      "rewards/rejected": -0.6048322916030884,
+      "step": 37
+    },
+    {
+      "epoch": 0.6440677966101694,
+      "grad_norm": 33.08140356711789,
+      "learning_rate": 3.958333333333333e-07,
+      "logits/chosen": -0.01641334407031536,
+      "logits/rejected": -0.005850490182638168,
+      "logps/chosen": -28.798660278320312,
+      "logps/rejected": -50.10844421386719,
+      "loss": 0.5076,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.050310466438531876,
+      "rewards/margins": 0.6731055974960327,
+      "rewards/rejected": -0.7234160304069519,
+      "step": 38
+    },
+    {
+      "epoch": 0.6610169491525424,
+      "grad_norm": 34.20951880392297,
+      "learning_rate": 4.0625e-07,
+      "logits/chosen": -0.1090591624379158,
+      "logits/rejected": -0.12284770607948303,
+      "logps/chosen": -33.75372314453125,
+      "logps/rejected": -42.935585021972656,
+      "loss": 0.5746,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.08654585480690002,
+      "rewards/margins": 1.2381523847579956,
+      "rewards/rejected": -1.3246984481811523,
+      "step": 39
+    },
+    {
+      "epoch": 0.6779661016949152,
+      "grad_norm": 30.690269873517938,
+      "learning_rate": 4.1666666666666667e-07,
+      "logits/chosen": -0.0014614351093769073,
+      "logits/rejected": 0.08014758676290512,
+      "logps/chosen": -25.105735778808594,
+      "logps/rejected": -36.967323303222656,
+      "loss": 0.5205,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.09284328669309616,
+      "rewards/margins": 0.7982729077339172,
+      "rewards/rejected": -0.8911161422729492,
+      "step": 40
+    },
+    {
+      "epoch": 0.6949152542372882,
+      "grad_norm": 30.04204632805336,
+      "learning_rate": 4.270833333333333e-07,
+      "logits/chosen": 0.053642358630895615,
+      "logits/rejected": 0.044470448046922684,
+      "logps/chosen": -24.64603042602539,
+      "logps/rejected": -41.87240219116211,
+      "loss": 0.4837,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.10667266696691513,
+      "rewards/margins": 1.2056063413619995,
+      "rewards/rejected": -1.3122789859771729,
+      "step": 41
+    },
+    {
+      "epoch": 0.711864406779661,
+      "grad_norm": 31.020878298393608,
+      "learning_rate": 4.375e-07,
+      "logits/chosen": 0.019134098663926125,
+      "logits/rejected": 0.01840081252157688,
+      "logps/chosen": -23.039093017578125,
+      "logps/rejected": -33.015777587890625,
+      "loss": 0.4991,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.04813046008348465,
+      "rewards/margins": 0.9387863874435425,
+      "rewards/rejected": -0.9869168996810913,
+      "step": 42
+    },
+    {
+      "epoch": 0.7288135593220338,
+      "grad_norm": 32.27135984427571,
+      "learning_rate": 4.479166666666667e-07,
+      "logits/chosen": 0.008926652371883392,
+      "logits/rejected": -0.005259339697659016,
+      "logps/chosen": -42.513465881347656,
+      "logps/rejected": -36.392086029052734,
+      "loss": 0.4953,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.16403140127658844,
+      "rewards/margins": 0.2477284073829651,
+      "rewards/rejected": -0.4117598235607147,
+      "step": 43
+    },
+    {
+      "epoch": 0.7457627118644068,
+      "grad_norm": 31.70747032110601,
+      "learning_rate": 4.5833333333333327e-07,
+      "logits/chosen": 0.08293592184782028,
+      "logits/rejected": 0.14042136073112488,
+      "logps/chosen": -27.64384651184082,
+      "logps/rejected": -43.646812438964844,
+      "loss": 0.5279,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.002585211768746376,
+      "rewards/margins": 0.8831788897514343,
+      "rewards/rejected": -0.8805936574935913,
+      "step": 44
+    },
+    {
+      "epoch": 0.7627118644067796,
+      "grad_norm": 32.92194369706788,
+      "learning_rate": 4.6874999999999996e-07,
+      "logits/chosen": 0.0978875681757927,
+      "logits/rejected": 0.07510063052177429,
+      "logps/chosen": -25.6392822265625,
+      "logps/rejected": -43.59218215942383,
+      "loss": 0.4975,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.05219133943319321,
+      "rewards/margins": 1.5015443563461304,
+      "rewards/rejected": -1.553735613822937,
+      "step": 45
+    },
+    {
+      "epoch": 0.7796610169491526,
+      "grad_norm": 31.09847853088202,
+      "learning_rate": 4.791666666666667e-07,
+      "logits/chosen": 0.05425513535737991,
+      "logits/rejected": 0.060507796704769135,
+      "logps/chosen": -31.77846908569336,
+      "logps/rejected": -39.067787170410156,
+      "loss": 0.4798,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.18950122594833374,
+      "rewards/margins": 0.7816174626350403,
+      "rewards/rejected": -0.971118688583374,
+      "step": 46
+    },
+    {
+      "epoch": 0.7966101694915254,
+      "grad_norm": 31.87817139649752,
+      "learning_rate": 4.895833333333333e-07,
+      "logits/chosen": 0.06690789759159088,
+      "logits/rejected": 0.06767144054174423,
+      "logps/chosen": -29.99129867553711,
+      "logps/rejected": -34.969505310058594,
+      "loss": 0.4447,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.09975402057170868,
+      "rewards/margins": 0.3266308903694153,
+      "rewards/rejected": -0.42638492584228516,
+      "step": 47
+    },
+    {
+      "epoch": 0.8135593220338984,
+      "grad_norm": 26.865616424406536,
+      "learning_rate": 5e-07,
+      "logits/chosen": -0.09880068153142929,
+      "logits/rejected": -0.10087430477142334,
+      "logps/chosen": -28.3320369720459,
+      "logps/rejected": -43.12381362915039,
+      "loss": 0.3955,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.10569320619106293,
+      "rewards/margins": 1.8550941944122314,
+      "rewards/rejected": -1.960787296295166,
+      "step": 48
+    },
+    {
+      "epoch": 0.8305084745762712,
+      "grad_norm": 25.76308856645317,
+      "learning_rate": 4.999931375995349e-07,
+      "logits/chosen": -0.12734848260879517,
+      "logits/rejected": -0.11239587515592575,
+      "logps/chosen": -23.94550132751465,
+      "logps/rejected": -32.49237823486328,
+      "loss": 0.4445,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.11973586678504944,
+      "rewards/margins": 0.8172601461410522,
+      "rewards/rejected": -0.9369959831237793,
+      "step": 49
+    },
+    {
+      "epoch": 0.847457627118644,
+      "grad_norm": 30.25637466477477,
+      "learning_rate": 4.999725507748798e-07,
+      "logits/chosen": -0.015037477016448975,
+      "logits/rejected": -0.009709347039461136,
+      "logps/chosen": -25.780975341796875,
+      "logps/rejected": -41.78852462768555,
+      "loss": 0.4786,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.08354266732931137,
+      "rewards/margins": 1.2830588817596436,
+      "rewards/rejected": -1.3666014671325684,
+      "step": 50
+    },
+    {
+      "epoch": 0.864406779661017,
+      "grad_norm": 33.41966487787268,
+      "learning_rate": 4.99938240656235e-07,
+      "logits/chosen": 0.04738205671310425,
+      "logits/rejected": 0.07401569187641144,
+      "logps/chosen": -26.12303924560547,
+      "logps/rejected": -49.93025207519531,
+      "loss": 0.4347,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.14142322540283203,
+      "rewards/margins": 0.954620361328125,
+      "rewards/rejected": -1.096043586730957,
+      "step": 51
+    },
+    {
+      "epoch": 0.8813559322033898,
+      "grad_norm": 27.061236838799616,
+      "learning_rate": 4.998902091271985e-07,
+      "logits/chosen": -0.06941650807857513,
+      "logits/rejected": -0.05763792619109154,
+      "logps/chosen": -23.328826904296875,
+      "logps/rejected": -35.76228713989258,
+      "loss": 0.389,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.26782581210136414,
+      "rewards/margins": 0.8718900680541992,
+      "rewards/rejected": -1.1397159099578857,
+      "step": 52
+    },
+    {
+      "epoch": 0.8983050847457628,
+      "grad_norm": 27.553317644610285,
+      "learning_rate": 4.998284588246634e-07,
+      "logits/chosen": -0.03946888446807861,
+      "logits/rejected": -0.03690715879201889,
+      "logps/chosen": -28.930063247680664,
+      "logps/rejected": -32.62754440307617,
+      "loss": 0.4152,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.32019758224487305,
+      "rewards/margins": 1.2472233772277832,
+      "rewards/rejected": -1.5674208402633667,
+      "step": 53
+    },
+    {
+      "epoch": 0.9152542372881356,
+      "grad_norm": 29.763675864173276,
+      "learning_rate": 4.997529931386719e-07,
+      "logits/chosen": -0.17749209702014923,
+      "logits/rejected": -0.16170337796211243,
+      "logps/chosen": -30.868289947509766,
+      "logps/rejected": -32.478729248046875,
+      "loss": 0.4555,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.2578313648700714,
+      "rewards/margins": 0.5673401355743408,
+      "rewards/rejected": -0.8251715898513794,
+      "step": 54
+    },
+    {
+      "epoch": 0.9322033898305084,
+      "grad_norm": 33.13736711358155,
+      "learning_rate": 4.996638162122302e-07,
+      "logits/chosen": -0.06908832490444183,
+      "logits/rejected": -0.05076206475496292,
+      "logps/chosen": -30.415069580078125,
+      "logps/rejected": -35.18532180786133,
+      "loss": 0.4454,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.15613248944282532,
+      "rewards/margins": 1.203932523727417,
+      "rewards/rejected": -1.36006498336792,
+      "step": 55
+    },
+    {
+      "epoch": 0.9491525423728814,
+      "grad_norm": 43.11633871701129,
+      "learning_rate": 4.995609329410804e-07,
+      "logits/chosen": -0.008376002311706543,
+      "logits/rejected": 0.001994941383600235,
+      "logps/chosen": -20.613399505615234,
+      "logps/rejected": -35.50030517578125,
+      "loss": 0.4126,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.1881721019744873,
+      "rewards/margins": 1.925746202468872,
+      "rewards/rejected": -2.1139183044433594,
+      "step": 56
+    },
+    {
+      "epoch": 0.9661016949152542,
+      "grad_norm": 24.797060027751225,
+      "learning_rate": 4.994443489734322e-07,
+      "logits/chosen": -0.015878597274422646,
+      "logits/rejected": 0.03222089633345604,
+      "logps/chosen": -26.61467742919922,
+      "logps/rejected": -43.46265411376953,
+      "loss": 0.3777,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.20103216171264648,
+      "rewards/margins": 2.2574026584625244,
+      "rewards/rejected": -2.458434820175171,
+      "step": 57
+    },
+    {
+      "epoch": 0.9830508474576272,
+      "grad_norm": 31.271746187315504,
+      "learning_rate": 4.993140707096525e-07,
+      "logits/chosen": -0.010781673714518547,
+      "logits/rejected": 0.019774336367845535,
+      "logps/chosen": -32.57569885253906,
+      "logps/rejected": -40.327457427978516,
+      "loss": 0.3741,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.2783823311328888,
+      "rewards/margins": 1.6766613721847534,
+      "rewards/rejected": -1.9550437927246094,
+      "step": 58
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 24.272642085140525,
+      "learning_rate": 4.991701053019145e-07,
+      "logits/chosen": -0.01512301154434681,
+      "logits/rejected": -0.009732574224472046,
+      "logps/chosen": -26.456878662109375,
+      "logps/rejected": -43.373043060302734,
+      "loss": 0.3705,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.21655352413654327,
+      "rewards/margins": 1.63704514503479,
+      "rewards/rejected": -1.8535985946655273,
+      "step": 59
+    },
+    {
+      "epoch": 1.0169491525423728,
+      "grad_norm": 21.176773022731307,
+      "learning_rate": 4.990124606538042e-07,
+      "logits/chosen": -0.06877182424068451,
+      "logits/rejected": -0.03728486970067024,
+      "logps/chosen": -18.644493103027344,
+      "logps/rejected": -34.91282272338867,
+      "loss": 0.2702,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.03750162199139595,
+      "rewards/margins": 2.20272159576416,
+      "rewards/rejected": -2.165220022201538,
+      "step": 60
+    },
+    {
+      "epoch": 1.0338983050847457,
+      "grad_norm": 22.165507363954195,
+      "learning_rate": 4.988411454198874e-07,
+      "logits/chosen": 0.04961461201310158,
+      "logits/rejected": 0.038518860936164856,
+      "logps/chosen": -26.093852996826172,
+      "logps/rejected": -32.088096618652344,
+      "loss": 0.3406,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.02193521521985531,
+      "rewards/margins": 0.8063233494758606,
+      "rewards/rejected": -0.7843881249427795,
+      "step": 61
+    },
+    {
+      "epoch": 1.0508474576271187,
+      "grad_norm": 23.06392685939665,
+      "learning_rate": 4.98656169005234e-07,
+      "logits/chosen": 0.16032031178474426,
+      "logits/rejected": 0.11802197992801666,
+      "logps/chosen": -28.6109676361084,
+      "logps/rejected": -37.80739974975586,
+      "loss": 0.2784,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": 0.09771008789539337,
+      "rewards/margins": 2.0157761573791504,
+      "rewards/rejected": -1.9180662631988525,
+      "step": 62
+    },
+    {
+      "epoch": 1.0677966101694916,
+      "grad_norm": 19.615263753046836,
+      "learning_rate": 4.984575415649018e-07,
+      "logits/chosen": -0.06321832537651062,
+      "logits/rejected": -0.0122019462287426,
+      "logps/chosen": -26.929264068603516,
+      "logps/rejected": -45.03318405151367,
+      "loss": 0.2581,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.20472079515457153,
+      "rewards/margins": 2.59661602973938,
+      "rewards/rejected": -2.8013365268707275,
+      "step": 63
+    },
+    {
+      "epoch": 1.0847457627118644,
+      "grad_norm": 18.50797643625125,
+      "learning_rate": 4.982452740033792e-07,
+      "logits/chosen": -0.06859354674816132,
+      "logits/rejected": -0.07365603744983673,
+      "logps/chosen": -26.131860733032227,
+      "logps/rejected": -34.671546936035156,
+      "loss": 0.2422,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.026859302073717117,
+      "rewards/margins": 2.035529375076294,
+      "rewards/rejected": -2.0623886585235596,
+      "step": 64
+    },
+    {
+      "epoch": 1.1016949152542372,
+      "grad_norm": 20.414520001604362,
+      "learning_rate": 4.980193779739863e-07,
+      "logits/chosen": 0.009079991839826107,
+      "logits/rejected": -0.0031675295904278755,
+      "logps/chosen": -29.644994735717773,
+      "logps/rejected": -45.55342102050781,
+      "loss": 0.2681,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.13062885403633118,
+      "rewards/margins": 2.6173148155212402,
+      "rewards/rejected": -2.747943878173828,
+      "step": 65
+    },
+    {
+      "epoch": 1.11864406779661,
+      "grad_norm": 20.9255946117037,
+      "learning_rate": 4.977798658782351e-07,
+      "logits/chosen": -0.08888844400644302,
+      "logits/rejected": -0.0911368578672409,
+      "logps/chosen": -26.463741302490234,
+      "logps/rejected": -41.51061248779297,
+      "loss": 0.2946,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.03352803736925125,
+      "rewards/margins": 1.772619605064392,
+      "rewards/rejected": -1.806147575378418,
+      "step": 66
+    },
+    {
+      "epoch": 1.1355932203389831,
+      "grad_norm": 21.302356946411365,
+      "learning_rate": 4.975267508651491e-07,
+      "logits/chosen": -0.028940977528691292,
+      "logits/rejected": 0.0028336727991700172,
+      "logps/chosen": -25.707382202148438,
+      "logps/rejected": -30.72091293334961,
+      "loss": 0.2749,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.02922699600458145,
+      "rewards/margins": 1.9206253290176392,
+      "rewards/rejected": -1.9498521089553833,
+      "step": 67
+    },
+    {
+      "epoch": 1.152542372881356,
+      "grad_norm": 19.180516279847765,
+      "learning_rate": 4.97260046830541e-07,
+      "logits/chosen": -0.1452866494655609,
+      "logits/rejected": -0.038837701082229614,
+      "logps/chosen": -20.76878547668457,
+      "logps/rejected": -42.36342239379883,
+      "loss": 0.2481,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.08528683334589005,
+      "rewards/margins": 2.6560869216918945,
+      "rewards/rejected": -2.5708000659942627,
+      "step": 68
+    },
+    {
+      "epoch": 1.1694915254237288,
+      "grad_norm": 21.190018630764428,
+      "learning_rate": 4.969797684162497e-07,
+      "logits/chosen": -0.12156227976083755,
+      "logits/rejected": -0.0709511935710907,
+      "logps/chosen": -22.62305450439453,
+      "logps/rejected": -36.76183319091797,
+      "loss": 0.2828,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.10709138959646225,
+      "rewards/margins": 2.4480578899383545,
+      "rewards/rejected": -2.3409664630889893,
+      "step": 69
+    },
+    {
+      "epoch": 1.1864406779661016,
+      "grad_norm": 17.29217666731802,
+      "learning_rate": 4.966859310093372e-07,
+      "logits/chosen": 0.007492711767554283,
+      "logits/rejected": 0.019001876935362816,
+      "logps/chosen": -27.733966827392578,
+      "logps/rejected": -40.42127227783203,
+      "loss": 0.2438,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.1447516232728958,
+      "rewards/margins": 2.107698678970337,
+      "rewards/rejected": -2.252450466156006,
+      "step": 70
+    },
+    {
+      "epoch": 1.2033898305084745,
+      "grad_norm": 25.122032977225658,
+      "learning_rate": 4.96378550741243e-07,
+      "logits/chosen": -0.057199642062187195,
+      "logits/rejected": -0.06447561085224152,
+      "logps/chosen": -27.951690673828125,
+      "logps/rejected": -37.76457977294922,
+      "loss": 0.2896,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.13775676488876343,
+      "rewards/margins": 1.7086197137832642,
+      "rewards/rejected": -1.8463765382766724,
+      "step": 71
+    },
+    {
+      "epoch": 1.2203389830508475,
+      "grad_norm": 17.44185897051635,
+      "learning_rate": 4.960576444868992e-07,
+      "logits/chosen": -0.03605864569544792,
+      "logits/rejected": -0.08552936464548111,
+      "logps/chosen": -26.663238525390625,
+      "logps/rejected": -49.157798767089844,
+      "loss": 0.2207,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.12792766094207764,
+      "rewards/margins": 3.0712804794311523,
+      "rewards/rejected": -3.1992080211639404,
+      "step": 72
+    },
+    {
+      "epoch": 1.2372881355932204,
+      "grad_norm": 23.51722551646514,
+      "learning_rate": 4.957232298638035e-07,
+      "logits/chosen": -0.14576715230941772,
+      "logits/rejected": -0.1281927525997162,
+      "logps/chosen": -26.146411895751953,
+      "logps/rejected": -39.19955825805664,
+      "loss": 0.2843,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.11095957458019257,
+      "rewards/margins": 2.2008328437805176,
+      "rewards/rejected": -2.3117926120758057,
+      "step": 73
+    },
+    {
+      "epoch": 1.2542372881355932,
+      "grad_norm": 17.504748122629483,
+      "learning_rate": 4.953753252310525e-07,
+      "logits/chosen": -0.10337841510772705,
+      "logits/rejected": -0.11298589408397675,
+      "logps/chosen": -26.215497970581055,
+      "logps/rejected": -36.04429244995117,
+      "loss": 0.2075,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.19672133028507233,
+      "rewards/margins": 1.8031116724014282,
+      "rewards/rejected": -1.9998328685760498,
+      "step": 74
+    },
+    {
+      "epoch": 1.271186440677966,
+      "grad_norm": 20.652812065700907,
+      "learning_rate": 4.950139496883334e-07,
+      "logits/chosen": 0.06242116168141365,
+      "logits/rejected": 0.06666561216115952,
+      "logps/chosen": -23.245695114135742,
+      "logps/rejected": -31.755294799804688,
+      "loss": 0.2429,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.064823217689991,
+      "rewards/margins": 2.3041014671325684,
+      "rewards/rejected": -2.2392783164978027,
+      "step": 75
+    },
+    {
+      "epoch": 1.288135593220339,
+      "grad_norm": 23.08981113112083,
+      "learning_rate": 4.94639123074876e-07,
+      "logits/chosen": -0.0955105572938919,
+      "logits/rejected": -0.06442946940660477,
+      "logps/chosen": -23.934703826904297,
+      "logps/rejected": -35.5153694152832,
+      "loss": 0.2569,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.10075034201145172,
+      "rewards/margins": 2.1841156482696533,
+      "rewards/rejected": -2.2848658561706543,
+      "step": 76
+    },
+    {
+      "epoch": 1.305084745762712,
+      "grad_norm": 21.41973590257042,
+      "learning_rate": 4.942508659683626e-07,
+      "logits/chosen": -0.04648435115814209,
+      "logits/rejected": -0.013210049830377102,
+      "logps/chosen": -32.94620132446289,
+      "logps/rejected": -53.122039794921875,
+      "loss": 0.269,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 0.09716464579105377,
+      "rewards/margins": 3.2333667278289795,
+      "rewards/rejected": -3.1362016201019287,
+      "step": 77
+    },
+    {
+      "epoch": 1.3220338983050848,
+      "grad_norm": 22.84510019593904,
+      "learning_rate": 4.938491996837994e-07,
+      "logits/chosen": -0.005726225674152374,
+      "logits/rejected": -0.0035298746079206467,
+      "logps/chosen": -21.76548957824707,
+      "logps/rejected": -39.55729293823242,
+      "loss": 0.2568,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 0.0918298214673996,
+      "rewards/margins": 2.4565834999084473,
+      "rewards/rejected": -2.3647537231445312,
+      "step": 78
+    },
+    {
+      "epoch": 1.3389830508474576,
+      "grad_norm": 17.384288528010632,
+      "learning_rate": 4.934341462723454e-07,
+      "logits/chosen": -0.14137157797813416,
+      "logits/rejected": -0.1316397786140442,
+      "logps/chosen": -20.925193786621094,
+      "logps/rejected": -36.4559211730957,
+      "loss": 0.2113,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 0.10143867135047913,
+      "rewards/margins": 2.8934736251831055,
+      "rewards/rejected": -2.7920351028442383,
+      "step": 79
+    },
+    {
+      "epoch": 1.3559322033898304,
+      "grad_norm": 20.990326447186,
+      "learning_rate": 4.930057285201027e-07,
+      "logits/chosen": -0.09045147150754929,
+      "logits/rejected": -0.08031099289655685,
+      "logps/chosen": -21.96762466430664,
+      "logps/rejected": -36.81184387207031,
+      "loss": 0.2569,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.19079303741455078,
+      "rewards/margins": 2.315279483795166,
+      "rewards/rejected": -2.506072759628296,
+      "step": 80
+    },
+    {
+      "epoch": 1.3728813559322033,
+      "grad_norm": 18.098050286729354,
+      "learning_rate": 4.925639699468645e-07,
+      "logits/chosen": -0.08457757532596588,
+      "logits/rejected": -0.07319922745227814,
+      "logps/chosen": -21.135604858398438,
+      "logps/rejected": -33.960086822509766,
+      "loss": 0.1857,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 0.054994210600852966,
+      "rewards/margins": 2.582826852798462,
+      "rewards/rejected": -2.5278327465057373,
+      "step": 81
+    },
+    {
+      "epoch": 1.3898305084745763,
+      "grad_norm": 18.355783625838907,
+      "learning_rate": 4.921088948048246e-07,
+      "logits/chosen": 0.0004070308059453964,
+      "logits/rejected": 0.010508737526834011,
+      "logps/chosen": -19.553733825683594,
+      "logps/rejected": -24.943431854248047,
+      "loss": 0.2258,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 0.1966938078403473,
+      "rewards/margins": 2.039564609527588,
+      "rewards/rejected": -1.8428709506988525,
+      "step": 82
+    },
+    {
+      "epoch": 1.4067796610169492,
+      "grad_norm": 18.59890208951988,
+      "learning_rate": 4.916405280772462e-07,
+      "logits/chosen": 0.061064671725034714,
+      "logits/rejected": 0.04233198240399361,
+      "logps/chosen": -31.1833553314209,
+      "logps/rejected": -37.992191314697266,
+      "loss": 0.2471,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.24824562668800354,
+      "rewards/margins": 2.010815143585205,
+      "rewards/rejected": -2.259060859680176,
+      "step": 83
+    },
+    {
+      "epoch": 1.423728813559322,
+      "grad_norm": 18.608818270077023,
+      "learning_rate": 4.911588954770896e-07,
+      "logits/chosen": 0.006485683843493462,
+      "logits/rejected": 0.017345350235700607,
+      "logps/chosen": -23.56964683532715,
+      "logps/rejected": -33.626216888427734,
+      "loss": 0.2325,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.10479970276355743,
+      "rewards/margins": 2.1866378784179688,
+      "rewards/rejected": -2.2914376258850098,
+      "step": 84
+    },
+    {
+      "epoch": 1.4406779661016949,
+      "grad_norm": 27.860656554762212,
+      "learning_rate": 4.906640234456011e-07,
+      "logits/chosen": -0.10989750176668167,
+      "logits/rejected": -0.08497381210327148,
+      "logps/chosen": -20.454971313476562,
+      "logps/rejected": -33.20934295654297,
+      "loss": 0.2399,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 0.07277680188417435,
+      "rewards/margins": 2.7808988094329834,
+      "rewards/rejected": -2.7081220149993896,
+      "step": 85
+    },
+    {
+      "epoch": 1.457627118644068,
+      "grad_norm": 17.529622871109098,
+      "learning_rate": 4.90155939150861e-07,
+      "logits/chosen": -0.01597762666642666,
+      "logits/rejected": -0.02296941541135311,
+      "logps/chosen": -25.70912742614746,
+      "logps/rejected": -41.43511199951172,
+      "loss": 0.1949,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.09175632894039154,
+      "rewards/margins": 3.4984822273254395,
+      "rewards/rejected": -3.590238571166992,
+      "step": 86
+    },
+    {
+      "epoch": 1.4745762711864407,
+      "grad_norm": 19.778355379129565,
+      "learning_rate": 4.896346704862927e-07,
+      "logits/chosen": -0.00542130321264267,
+      "logits/rejected": -0.00442717969417572,
+      "logps/chosen": -25.11708641052246,
+      "logps/rejected": -38.2928581237793,
+      "loss": 0.2137,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.42681190371513367,
+      "rewards/margins": 2.821324348449707,
+      "rewards/rejected": -3.248136281967163,
+      "step": 87
+    },
+    {
+      "epoch": 1.4915254237288136,
+      "grad_norm": 20.237221371085674,
+      "learning_rate": 4.891002460691305e-07,
+      "logits/chosen": -0.12523381412029266,
+      "logits/rejected": -0.12707139551639557,
+      "logps/chosen": -28.615737915039062,
+      "logps/rejected": -44.548152923583984,
+      "loss": 0.2198,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.43669962882995605,
+      "rewards/margins": 3.5562210083007812,
+      "rewards/rejected": -3.992920160293579,
+      "step": 88
+    },
+    {
+      "epoch": 1.5084745762711864,
+      "grad_norm": 31.896672790729536,
+      "learning_rate": 4.885526952388497e-07,
+      "logits/chosen": -0.15658609569072723,
+      "logits/rejected": -0.15329544246196747,
+      "logps/chosen": -26.822874069213867,
+      "logps/rejected": -40.6098747253418,
+      "loss": 0.2059,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.17557695508003235,
+      "rewards/margins": 3.500253200531006,
+      "rewards/rejected": -3.675830364227295,
+      "step": 89
+    },
+    {
+      "epoch": 1.5254237288135593,
+      "grad_norm": 19.488400567309405,
+      "learning_rate": 4.879920480555549e-07,
+      "logits/chosen": -0.08191860467195511,
+      "logits/rejected": -0.008589975535869598,
+      "logps/chosen": -31.191484451293945,
+      "logps/rejected": -51.83546829223633,
+      "loss": 0.2254,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.1294003576040268,
+      "rewards/margins": 2.9513542652130127,
+      "rewards/rejected": -3.080754518508911,
+      "step": 90
+    },
+    {
+      "epoch": 1.542372881355932,
+      "grad_norm": 20.01485074144144,
+      "learning_rate": 4.874183352983297e-07,
+      "logits/chosen": -0.022624505683779716,
+      "logits/rejected": -0.03187233582139015,
+      "logps/chosen": -24.933706283569336,
+      "logps/rejected": -31.99811363220215,
+      "loss": 0.2481,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 0.09345364570617676,
+      "rewards/margins": 2.6890523433685303,
+      "rewards/rejected": -2.5955986976623535,
+      "step": 91
+    },
+    {
+      "epoch": 1.559322033898305,
+      "grad_norm": 17.44552952468708,
+      "learning_rate": 4.868315884635478e-07,
+      "logits/chosen": -0.13437671959400177,
+      "logits/rejected": -0.09966325759887695,
+      "logps/chosen": -28.581546783447266,
+      "logps/rejected": -40.725303649902344,
+      "loss": 0.1702,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.3545893132686615,
+      "rewards/margins": 2.1073248386383057,
+      "rewards/rejected": -2.4619140625,
+      "step": 92
+    },
+    {
+      "epoch": 1.576271186440678,
+      "grad_norm": 25.932478195676993,
+      "learning_rate": 4.862318397631433e-07,
+      "logits/chosen": -0.04836834594607353,
+      "logits/rejected": -0.06467059254646301,
+      "logps/chosen": -24.941530227661133,
+      "logps/rejected": -38.25274658203125,
+      "loss": 0.252,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.04554582014679909,
+      "rewards/margins": 2.8091211318969727,
+      "rewards/rejected": -2.8546671867370605,
+      "step": 93
+    },
+    {
+      "epoch": 1.5932203389830508,
+      "grad_norm": 17.31152835419153,
+      "learning_rate": 4.856191221228422e-07,
+      "logits/chosen": -0.14374472200870514,
+      "logits/rejected": -0.1499704271554947,
+      "logps/chosen": -25.189186096191406,
+      "logps/rejected": -48.39046859741211,
+      "loss": 0.2548,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.014746442437171936,
+      "rewards/margins": 3.3370161056518555,
+      "rewards/rejected": -3.351762533187866,
+      "step": 94
+    },
+    {
+      "epoch": 1.6101694915254239,
+      "grad_norm": 21.553200648682367,
+      "learning_rate": 4.84993469180355e-07,
+      "logits/chosen": -0.25248920917510986,
+      "logits/rejected": -0.1786680817604065,
+      "logps/chosen": -21.31267547607422,
+      "logps/rejected": -40.57464599609375,
+      "loss": 0.1897,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.06702820956707001,
+      "rewards/margins": 3.686950206756592,
+      "rewards/rejected": -3.619922399520874,
+      "step": 95
+    },
+    {
+      "epoch": 1.6271186440677967,
+      "grad_norm": 16.618810404954317,
+      "learning_rate": 4.843549152835302e-07,
+      "logits/chosen": -0.17732582986354828,
+      "logits/rejected": -0.15217895805835724,
+      "logps/chosen": -29.09910774230957,
+      "logps/rejected": -38.864524841308594,
+      "loss": 0.1892,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 0.05224495008587837,
+      "rewards/margins": 2.6117098331451416,
+      "rewards/rejected": -2.559464693069458,
+      "step": 96
+    },
+    {
+      "epoch": 1.6440677966101696,
+      "grad_norm": 16.96144669030696,
+      "learning_rate": 4.837034954884681e-07,
+      "logits/chosen": -0.13769695162773132,
+      "logits/rejected": -0.09738799184560776,
+      "logps/chosen": -16.64884376525879,
+      "logps/rejected": -34.0985107421875,
+      "loss": 0.2166,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.0295465886592865,
+      "rewards/margins": 3.098619222640991,
+      "rewards/rejected": -3.0690724849700928,
+      "step": 97
+    },
+    {
+      "epoch": 1.6610169491525424,
+      "grad_norm": 17.80864093537469,
+      "learning_rate": 4.83039245557597e-07,
+      "logits/chosen": -0.016016261652112007,
+      "logits/rejected": -0.05212865397334099,
+      "logps/chosen": -26.810836791992188,
+      "logps/rejected": -38.81320571899414,
+      "loss": 0.1875,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.07362563908100128,
+      "rewards/margins": 2.9003326892852783,
+      "rewards/rejected": -2.9739584922790527,
+      "step": 98
+    },
+    {
+      "epoch": 1.6779661016949152,
+      "grad_norm": 20.332172117010963,
+      "learning_rate": 4.823622019577088e-07,
+      "logits/chosen": -0.22029350697994232,
+      "logits/rejected": -0.1754826307296753,
+      "logps/chosen": -24.44580841064453,
+      "logps/rejected": -31.48262596130371,
+      "loss": 0.2123,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.004874859936535358,
+      "rewards/margins": 2.326341152191162,
+      "rewards/rejected": -2.3312156200408936,
+      "step": 99
+    },
+    {
+      "epoch": 1.694915254237288,
+      "grad_norm": 20.940720757392302,
+      "learning_rate": 4.816724018579583e-07,
+      "logits/chosen": -0.08975666761398315,
+      "logits/rejected": -0.03957574442028999,
+      "logps/chosen": -36.57925796508789,
+      "logps/rejected": -41.47373962402344,
+      "loss": 0.2237,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 0.10056591033935547,
+      "rewards/margins": 3.393941879272461,
+      "rewards/rejected": -3.2933762073516846,
+      "step": 100
+    },
+    {
+      "epoch": 1.711864406779661,
+      "grad_norm": 17.000783102847848,
+      "learning_rate": 4.809698831278217e-07,
+      "logits/chosen": -0.09356296807527542,
+      "logits/rejected": -0.09570194780826569,
+      "logps/chosen": -25.839569091796875,
+      "logps/rejected": -42.873077392578125,
+      "loss": 0.1959,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.1941157877445221,
+      "rewards/margins": 3.0593459606170654,
+      "rewards/rejected": -3.2534618377685547,
+      "step": 101
+    },
+    {
+      "epoch": 1.7288135593220337,
+      "grad_norm": 26.43033048122211,
+      "learning_rate": 4.802546843350177e-07,
+      "logits/chosen": -0.03907548263669014,
+      "logits/rejected": -0.0613831952214241,
+      "logps/chosen": -25.94208335876465,
+      "logps/rejected": -34.799400329589844,
+      "loss": 0.257,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.1075030267238617,
+      "rewards/margins": 2.6531782150268555,
+      "rewards/rejected": -2.545675277709961,
+      "step": 102
+    },
+    {
+      "epoch": 1.7457627118644068,
+      "grad_norm": 19.25248915197079,
+      "learning_rate": 4.795268447433906e-07,
+      "logits/chosen": -0.23271867632865906,
+      "logits/rejected": -0.2442181557416916,
+      "logps/chosen": -21.609224319458008,
+      "logps/rejected": -39.6169319152832,
+      "loss": 0.1843,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.4244083762168884,
+      "rewards/margins": 3.7757644653320312,
+      "rewards/rejected": -4.2001729011535645,
+      "step": 103
+    },
+    {
+      "epoch": 1.7627118644067796,
+      "grad_norm": 21.40405538405152,
+      "learning_rate": 4.787864043107546e-07,
+      "logits/chosen": -0.10186932981014252,
+      "logits/rejected": -0.10761649906635284,
+      "logps/chosen": -24.1138858795166,
+      "logps/rejected": -23.169330596923828,
+      "loss": 0.2512,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.08395804464817047,
+      "rewards/margins": 0.9992507696151733,
+      "rewards/rejected": -0.9152926802635193,
+      "step": 104
+    },
+    {
+      "epoch": 1.7796610169491527,
+      "grad_norm": 20.65970281462911,
+      "learning_rate": 4.780334036866996e-07,
+      "logits/chosen": -0.1446046382188797,
+      "logits/rejected": -0.16783642768859863,
+      "logps/chosen": -29.0926513671875,
+      "logps/rejected": -47.739131927490234,
+      "loss": 0.1819,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.4550026059150696,
+      "rewards/margins": 3.175567865371704,
+      "rewards/rejected": -3.630570650100708,
+      "step": 105
+    },
+    {
+      "epoch": 1.7966101694915255,
+      "grad_norm": 16.55598459027438,
+      "learning_rate": 4.772678842103605e-07,
+      "logits/chosen": -0.06549476087093353,
+      "logits/rejected": -0.04416227340698242,
+      "logps/chosen": -25.375438690185547,
+      "logps/rejected": -39.032981872558594,
+      "loss": 0.138,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.16781294345855713,
+      "rewards/margins": 3.484158992767334,
+      "rewards/rejected": -3.6519718170166016,
+      "step": 106
+    },
+    {
+      "epoch": 1.8135593220338984,
+      "grad_norm": 16.11829115416798,
+      "learning_rate": 4.764898879081467e-07,
+      "logits/chosen": -0.05152374878525734,
+      "logits/rejected": -0.07160673290491104,
+      "logps/chosen": -23.518722534179688,
+      "logps/rejected": -43.82634735107422,
+      "loss": 0.1763,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.2105274647474289,
+      "rewards/margins": 3.0297629833221436,
+      "rewards/rejected": -2.819235324859619,
+      "step": 107
+    },
+    {
+      "epoch": 1.8305084745762712,
+      "grad_norm": 18.544747915953614,
+      "learning_rate": 4.7569945749143586e-07,
+      "logits/chosen": -0.00994398258626461,
+      "logits/rejected": 0.006802310235798359,
+      "logps/chosen": -23.792747497558594,
+      "logps/rejected": -47.211280822753906,
+      "loss": 0.2052,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.3990446925163269,
+      "rewards/margins": 3.575429916381836,
+      "rewards/rejected": -3.9744746685028076,
+      "step": 108
+    },
+    {
+      "epoch": 1.847457627118644,
+      "grad_norm": 15.674768365246683,
+      "learning_rate": 4.748966363542285e-07,
+      "logits/chosen": -0.10318706929683685,
+      "logits/rejected": -0.04973382502794266,
+      "logps/chosen": -20.84232521057129,
+      "logps/rejected": -39.88136672973633,
+      "loss": 0.1698,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.17250564694404602,
+      "rewards/margins": 3.216583251953125,
+      "rewards/rejected": -3.0440773963928223,
+      "step": 109
+    },
+    {
+      "epoch": 1.8644067796610169,
+      "grad_norm": 16.323100274211107,
+      "learning_rate": 4.7408146857076563e-07,
+      "logits/chosen": 0.08578380197286606,
+      "logits/rejected": 0.04284593090415001,
+      "logps/chosen": -37.73735809326172,
+      "logps/rejected": -38.75680923461914,
+      "loss": 0.1792,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 0.11772266030311584,
+      "rewards/margins": 2.448854446411133,
+      "rewards/rejected": -2.33113169670105,
+      "step": 110
+    },
+    {
+      "epoch": 1.8813559322033897,
+      "grad_norm": 16.578710310200407,
+      "learning_rate": 4.732539988931096e-07,
+      "logits/chosen": -0.26771169900894165,
+      "logits/rejected": -0.26380079984664917,
+      "logps/chosen": -23.918312072753906,
+      "logps/rejected": -43.63589096069336,
+      "loss": 0.1382,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.2503085136413574,
+      "rewards/margins": 3.4693069458007812,
+      "rewards/rejected": -3.7196154594421387,
+      "step": 111
+    },
+    {
+      "epoch": 1.8983050847457628,
+      "grad_norm": 19.979288606666017,
+      "learning_rate": 4.7241427274868683e-07,
+      "logits/chosen": -0.048879463225603104,
+      "logits/rejected": 0.00943760946393013,
+      "logps/chosen": -24.316715240478516,
+      "logps/rejected": -42.57545471191406,
+      "loss": 0.2025,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.01973732002079487,
+      "rewards/margins": 3.4818313121795654,
+      "rewards/rejected": -3.5015687942504883,
+      "step": 112
+    },
+    {
+      "epoch": 1.9152542372881356,
+      "grad_norm": 16.77919383034577,
+      "learning_rate": 4.7156233623779383e-07,
+      "logits/chosen": -0.017183750867843628,
+      "logits/rejected": -0.02489522099494934,
+      "logps/chosen": -30.669607162475586,
+      "logps/rejected": -35.61785125732422,
+      "loss": 0.171,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.1518259346485138,
+      "rewards/margins": 2.721503973007202,
+      "rewards/rejected": -2.8733298778533936,
+      "step": 113
+    },
+    {
+      "epoch": 1.9322033898305084,
+      "grad_norm": 25.510192937611073,
+      "learning_rate": 4.7069823613106687e-07,
+      "logits/chosen": -0.25519174337387085,
+      "logits/rejected": -0.21938219666481018,
+      "logps/chosen": -32.64997100830078,
+      "logps/rejected": -46.399112701416016,
+      "loss": 0.198,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.36455288529396057,
+      "rewards/margins": 3.620523452758789,
+      "rewards/rejected": -3.985076904296875,
+      "step": 114
+    },
+    {
+      "epoch": 1.9491525423728815,
+      "grad_norm": 21.709479844123084,
+      "learning_rate": 4.698220198669136e-07,
+      "logits/chosen": -0.15014870464801788,
+      "logits/rejected": -0.14446985721588135,
+      "logps/chosen": -23.829439163208008,
+      "logps/rejected": -37.09071350097656,
+      "loss": 0.2222,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.201849102973938,
+      "rewards/margins": 3.0588748455047607,
+      "rewards/rejected": -3.26072359085083,
+      "step": 115
+    },
+    {
+      "epoch": 1.9661016949152543,
+      "grad_norm": 20.84348155110451,
+      "learning_rate": 4.6893373554890917e-07,
+      "logits/chosen": -0.1855657547712326,
+      "logits/rejected": -0.1457989662885666,
+      "logps/chosen": -30.961164474487305,
+      "logps/rejected": -47.25037384033203,
+      "loss": 0.217,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.3446941375732422,
+      "rewards/margins": 3.6179933547973633,
+      "rewards/rejected": -3.9626879692077637,
+      "step": 116
+    },
+    {
+      "epoch": 1.9830508474576272,
+      "grad_norm": 14.188597523254197,
+      "learning_rate": 4.6803343194315546e-07,
+      "logits/chosen": -0.09809039533138275,
+      "logits/rejected": -0.060599129647016525,
+      "logps/chosen": -29.427833557128906,
+      "logps/rejected": -46.29072952270508,
+      "loss": 0.1172,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.34794139862060547,
+      "rewards/margins": 3.890174388885498,
+      "rewards/rejected": -4.2381157875061035,
+      "step": 117
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 14.21262907810025,
+      "learning_rate": 4.6712115847560353e-07,
+      "logits/chosen": -0.0804528221487999,
+      "logits/rejected": -0.0880361869931221,
+      "logps/chosen": -22.719079971313477,
+      "logps/rejected": -47.828243255615234,
+      "loss": 0.1696,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 0.2510998249053955,
+      "rewards/margins": 4.143679618835449,
+      "rewards/rejected": -3.8925797939300537,
+      "step": 118
+    },
+    {
+      "epoch": 2.016949152542373,
+      "grad_norm": 7.256194218627331,
+      "learning_rate": 4.661969652293402e-07,
+      "logits/chosen": -0.057237230241298676,
+      "logits/rejected": -0.03790592402219772,
+      "logps/chosen": -21.60989761352539,
+      "logps/rejected": -43.51523208618164,
+      "loss": 0.0744,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.11654786765575409,
+      "rewards/margins": 3.8127760887145996,
+      "rewards/rejected": -3.69622802734375,
+      "step": 119
+    },
+    {
+      "epoch": 2.0338983050847457,
+      "grad_norm": 8.74634777891102,
+      "learning_rate": 4.652609029418388e-07,
+      "logits/chosen": 0.03335125744342804,
+      "logits/rejected": 0.031772270798683167,
+      "logps/chosen": -21.453704833984375,
+      "logps/rejected": -40.3062858581543,
+      "loss": 0.0893,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.10782061517238617,
+      "rewards/margins": 4.060611248016357,
+      "rewards/rejected": -3.9527902603149414,
+      "step": 120
+    },
+    {
+      "epoch": 2.0508474576271185,
+      "grad_norm": 8.313099929127045,
+      "learning_rate": 4.6431302300217366e-07,
+      "logits/chosen": -0.20796310901641846,
+      "logits/rejected": -0.18069806694984436,
+      "logps/chosen": -27.584365844726562,
+      "logps/rejected": -37.579673767089844,
+      "loss": 0.0917,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.3969431519508362,
+      "rewards/margins": 3.233177900314331,
+      "rewards/rejected": -2.8362350463867188,
+      "step": 121
+    },
+    {
+      "epoch": 2.0677966101694913,
+      "grad_norm": 10.855796103467934,
+      "learning_rate": 4.633533774481987e-07,
+      "logits/chosen": -0.07592164725065231,
+      "logits/rejected": -0.0696810930967331,
+      "logps/chosen": -27.249908447265625,
+      "logps/rejected": -45.94511413574219,
+      "loss": 0.0845,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.021982379257678986,
+      "rewards/margins": 4.154269695281982,
+      "rewards/rejected": -4.176252365112305,
+      "step": 122
+    },
+    {
+      "epoch": 2.084745762711864,
+      "grad_norm": 7.255720151076396,
+      "learning_rate": 4.623820189636905e-07,
+      "logits/chosen": -0.19116753339767456,
+      "logits/rejected": -0.1705985963344574,
+      "logps/chosen": -26.491065979003906,
+      "logps/rejected": -50.236698150634766,
+      "loss": 0.0909,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 0.14240173995494843,
+      "rewards/margins": 4.492888927459717,
+      "rewards/rejected": -4.350486755371094,
+      "step": 123
+    },
+    {
+      "epoch": 2.1016949152542375,
+      "grad_norm": 8.03074731997706,
+      "learning_rate": 4.613990008754565e-07,
+      "logits/chosen": -0.12923955917358398,
+      "logits/rejected": -0.14741843938827515,
+      "logps/chosen": -28.261474609375,
+      "logps/rejected": -36.72936248779297,
+      "loss": 0.1005,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 0.6439403295516968,
+      "rewards/margins": 3.5893638134002686,
+      "rewards/rejected": -2.9454240798950195,
+      "step": 124
+    },
+    {
+      "epoch": 2.1186440677966103,
+      "grad_norm": 7.19275728016155,
+      "learning_rate": 4.60404377150407e-07,
+      "logits/chosen": -0.09195713698863983,
+      "logits/rejected": -0.042211033403873444,
+      "logps/chosen": -23.310510635375977,
+      "logps/rejected": -41.93342590332031,
+      "loss": 0.0925,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.0040088072419166565,
+      "rewards/margins": 3.2483134269714355,
+      "rewards/rejected": -3.2443044185638428,
+      "step": 125
+    },
+    {
+      "epoch": 2.135593220338983,
+      "grad_norm": 7.466339863674321,
+      "learning_rate": 4.593982023925925e-07,
+      "logits/chosen": -0.07431389391422272,
+      "logits/rejected": -0.06840626150369644,
+      "logps/chosen": -25.431446075439453,
+      "logps/rejected": -39.0665168762207,
+      "loss": 0.09,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.14491936564445496,
+      "rewards/margins": 3.5672109127044678,
+      "rewards/rejected": -3.4222917556762695,
+      "step": 126
+    },
+    {
+      "epoch": 2.152542372881356,
+      "grad_norm": 8.19688100505555,
+      "learning_rate": 4.58380531840206e-07,
+      "logits/chosen": -0.120096854865551,
+      "logits/rejected": -0.10113926976919174,
+      "logps/chosen": -26.030086517333984,
+      "logps/rejected": -37.91970443725586,
+      "loss": 0.0953,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.21827784180641174,
+      "rewards/margins": 4.060682773590088,
+      "rewards/rejected": -3.842404842376709,
+      "step": 127
+    },
+    {
+      "epoch": 2.169491525423729,
+      "grad_norm": 9.892790899219712,
+      "learning_rate": 4.5735142136255045e-07,
+      "logits/chosen": -0.23804128170013428,
+      "logits/rejected": -0.23227332532405853,
+      "logps/chosen": -27.41203498840332,
+      "logps/rejected": -49.19248962402344,
+      "loss": 0.0933,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.12989288568496704,
+      "rewards/margins": 4.297806262969971,
+      "rewards/rejected": -4.427699565887451,
+      "step": 128
+    },
+    {
+      "epoch": 2.1864406779661016,
+      "grad_norm": 6.571853125948924,
+      "learning_rate": 4.5631092745697164e-07,
+      "logits/chosen": -0.00046368176117539406,
+      "logits/rejected": 0.014133242890238762,
+      "logps/chosen": -25.415313720703125,
+      "logps/rejected": -41.508079528808594,
+      "loss": 0.0569,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.3947104215621948,
+      "rewards/margins": 4.418177127838135,
+      "rewards/rejected": -4.023467063903809,
+      "step": 129
+    },
+    {
+      "epoch": 2.2033898305084745,
+      "grad_norm": 7.081057065438042,
+      "learning_rate": 4.5525910724575645e-07,
+      "logits/chosen": -0.20635852217674255,
+      "logits/rejected": -0.1863619089126587,
+      "logps/chosen": -27.593435287475586,
+      "logps/rejected": -50.18062210083008,
+      "loss": 0.0915,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.3062703311443329,
+      "rewards/margins": 4.946234703063965,
+      "rewards/rejected": -4.639964580535889,
+      "step": 130
+    },
+    {
+      "epoch": 2.2203389830508473,
+      "grad_norm": 6.94722893216983,
+      "learning_rate": 4.54196018472997e-07,
+      "logits/chosen": -0.1825593113899231,
+      "logits/rejected": -0.18460941314697266,
+      "logps/chosen": -25.40302276611328,
+      "logps/rejected": -57.28022003173828,
+      "loss": 0.0597,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.3234606981277466,
+      "rewards/margins": 5.864286422729492,
+      "rewards/rejected": -6.187747001647949,
+      "step": 131
+    },
+    {
+      "epoch": 2.23728813559322,
+      "grad_norm": 6.703220344523385,
+      "learning_rate": 4.5312171950142033e-07,
+      "logits/chosen": -0.1518273502588272,
+      "logits/rejected": -0.09540899842977524,
+      "logps/chosen": -21.725143432617188,
+      "logps/rejected": -38.91670608520508,
+      "loss": 0.0716,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.3190383315086365,
+      "rewards/margins": 4.065824508666992,
+      "rewards/rejected": -3.746786117553711,
+      "step": 132
+    },
+    {
+      "epoch": 2.2542372881355934,
+      "grad_norm": 7.318607428943175,
+      "learning_rate": 4.520362693091845e-07,
+      "logits/chosen": -0.12475726008415222,
+      "logits/rejected": -0.12865117192268372,
+      "logps/chosen": -23.161043167114258,
+      "logps/rejected": -36.68880081176758,
+      "loss": 0.0762,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.030918624252080917,
+      "rewards/margins": 3.1682627201080322,
+      "rewards/rejected": -3.1373443603515625,
+      "step": 133
+    },
+    {
+      "epoch": 2.2711864406779663,
+      "grad_norm": 6.4216049351024065,
+      "learning_rate": 4.5093972748664087e-07,
+      "logits/chosen": -0.09874700009822845,
+      "logits/rejected": -0.10628420114517212,
+      "logps/chosen": -28.58932113647461,
+      "logps/rejected": -47.10905075073242,
+      "loss": 0.055,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.31862539052963257,
+      "rewards/margins": 4.816265106201172,
+      "rewards/rejected": -4.4976396560668945,
+      "step": 134
+    },
+    {
+      "epoch": 2.288135593220339,
+      "grad_norm": 5.595876217706418,
+      "learning_rate": 4.498321542330622e-07,
+      "logits/chosen": -0.17151176929473877,
+      "logits/rejected": -0.18770024180412292,
+      "logps/chosen": -22.070384979248047,
+      "logps/rejected": -49.778038024902344,
+      "loss": 0.0435,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.06101692467927933,
+      "rewards/margins": 5.113625526428223,
+      "rewards/rejected": -5.052608013153076,
+      "step": 135
+    },
+    {
+      "epoch": 2.305084745762712,
+      "grad_norm": 8.583744234061204,
+      "learning_rate": 4.4871361035333833e-07,
+      "logits/chosen": -0.1267111748456955,
+      "logits/rejected": -0.11681263148784637,
+      "logps/chosen": -21.870920181274414,
+      "logps/rejected": -39.6839714050293,
+      "loss": 0.0796,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.31499701738357544,
+      "rewards/margins": 3.777963638305664,
+      "rewards/rejected": -3.4629664421081543,
+      "step": 136
+    },
+    {
+      "epoch": 2.3220338983050848,
+      "grad_norm": 7.125850476151505,
+      "learning_rate": 4.475841572546374e-07,
+      "logits/chosen": -0.19854867458343506,
+      "logits/rejected": -0.16304975748062134,
+      "logps/chosen": -28.775941848754883,
+      "logps/rejected": -39.197044372558594,
+      "loss": 0.0799,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.10516883432865143,
+      "rewards/margins": 3.753281593322754,
+      "rewards/rejected": -3.858450174331665,
+      "step": 137
+    },
+    {
+      "epoch": 2.3389830508474576,
+      "grad_norm": 8.162386927617444,
+      "learning_rate": 4.464438569430353e-07,
+      "logits/chosen": -0.18249069154262543,
+      "logits/rejected": -0.19290274381637573,
+      "logps/chosen": -25.261497497558594,
+      "logps/rejected": -37.97518539428711,
+      "loss": 0.0598,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.16362299025058746,
+      "rewards/margins": 3.9931089878082275,
+      "rewards/rejected": -3.829486131668091,
+      "step": 138
+    },
+    {
+      "epoch": 2.3559322033898304,
+      "grad_norm": 6.79825948010009,
+      "learning_rate": 4.452927720201112e-07,
+      "logits/chosen": -0.15876157581806183,
+      "logits/rejected": -0.15914849936962128,
+      "logps/chosen": -23.805156707763672,
+      "logps/rejected": -43.227264404296875,
+      "loss": 0.0702,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.14774608612060547,
+      "rewards/margins": 4.2368483543396,
+      "rewards/rejected": -4.089102268218994,
+      "step": 139
+    },
+    {
+      "epoch": 2.3728813559322033,
+      "grad_norm": 5.9070394129722565,
+      "learning_rate": 4.441309656795106e-07,
+      "logits/chosen": -0.1470584124326706,
+      "logits/rejected": -0.12824571132659912,
+      "logps/chosen": -24.07137107849121,
+      "logps/rejected": -51.49998474121094,
+      "loss": 0.0575,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.09202487766742706,
+      "rewards/margins": 4.7118940353393555,
+      "rewards/rejected": -4.619868755340576,
+      "step": 140
+    },
+    {
+      "epoch": 2.389830508474576,
+      "grad_norm": 6.6818032600348864,
+      "learning_rate": 4.429585017034766e-07,
+      "logits/chosen": -0.12072446942329407,
+      "logits/rejected": -0.1437748223543167,
+      "logps/chosen": -26.129920959472656,
+      "logps/rejected": -50.33393096923828,
+      "loss": 0.0723,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.024979308247566223,
+      "rewards/margins": 5.7934794425964355,
+      "rewards/rejected": -5.768500328063965,
+      "step": 141
+    },
+    {
+      "epoch": 2.406779661016949,
+      "grad_norm": 5.465459623937437,
+      "learning_rate": 4.417754444593478e-07,
+      "logits/chosen": -0.17397671937942505,
+      "logits/rejected": -0.18419091403484344,
+      "logps/chosen": -27.539466857910156,
+      "logps/rejected": -45.487571716308594,
+      "loss": 0.0487,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.023346930742263794,
+      "rewards/margins": 4.994349479675293,
+      "rewards/rejected": -4.97100305557251,
+      "step": 142
+    },
+    {
+      "epoch": 2.423728813559322,
+      "grad_norm": 10.390645074466443,
+      "learning_rate": 4.4058185889602497e-07,
+      "logits/chosen": -0.22157034277915955,
+      "logits/rejected": -0.22870029509067535,
+      "logps/chosen": -16.434494018554688,
+      "logps/rejected": -37.32805633544922,
+      "loss": 0.0972,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 0.3774448335170746,
+      "rewards/margins": 4.384706497192383,
+      "rewards/rejected": -4.007261276245117,
+      "step": 143
+    },
+    {
+      "epoch": 2.440677966101695,
+      "grad_norm": 9.44436087598635,
+      "learning_rate": 4.39377810540405e-07,
+      "logits/chosen": -0.21542900800704956,
+      "logits/rejected": -0.22131392359733582,
+      "logps/chosen": -36.0152702331543,
+      "logps/rejected": -38.466373443603516,
+      "loss": 0.1026,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.5316247344017029,
+      "rewards/margins": 2.671638250350952,
+      "rewards/rejected": -3.2032630443573,
+      "step": 144
+    },
+    {
+      "epoch": 2.457627118644068,
+      "grad_norm": 5.963157138060162,
+      "learning_rate": 4.38163365493784e-07,
+      "logits/chosen": -0.17747551202774048,
+      "logits/rejected": -0.1994229406118393,
+      "logps/chosen": -32.599082946777344,
+      "logps/rejected": -62.15748596191406,
+      "loss": 0.0596,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.2045070230960846,
+      "rewards/margins": 4.970805644989014,
+      "rewards/rejected": -4.766298770904541,
+      "step": 145
+    },
+    {
+      "epoch": 2.4745762711864407,
+      "grad_norm": 6.998829586239467,
+      "learning_rate": 4.3693859042822774e-07,
+      "logits/chosen": -0.06130817532539368,
+      "logits/rejected": -0.04164750128984451,
+      "logps/chosen": -28.672290802001953,
+      "logps/rejected": -44.092681884765625,
+      "loss": 0.064,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.5117320418357849,
+      "rewards/margins": 5.0716657638549805,
+      "rewards/rejected": -4.559933662414551,
+      "step": 146
+    },
+    {
+      "epoch": 2.4915254237288136,
+      "grad_norm": 7.186169716835621,
+      "learning_rate": 4.3570355258291223e-07,
+      "logits/chosen": -0.16528643667697906,
+      "logits/rejected": -0.14484813809394836,
+      "logps/chosen": -27.115493774414062,
+      "logps/rejected": -36.884578704833984,
+      "loss": 0.0723,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.5564872026443481,
+      "rewards/margins": 3.266021251678467,
+      "rewards/rejected": -2.709534168243408,
+      "step": 147
+    },
+    {
+      "epoch": 2.5084745762711864,
+      "grad_norm": 5.1159064429292735,
+      "learning_rate": 4.344583197604318e-07,
+      "logits/chosen": -0.20358271896839142,
+      "logits/rejected": -0.20041170716285706,
+      "logps/chosen": -23.109371185302734,
+      "logps/rejected": -51.53319549560547,
+      "loss": 0.0434,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.036565251648426056,
+      "rewards/margins": 5.316205024719238,
+      "rewards/rejected": -5.279640197753906,
+      "step": 148
+    },
+    {
+      "epoch": 2.5254237288135593,
+      "grad_norm": 8.402984257771724,
+      "learning_rate": 4.332029603230767e-07,
+      "logits/chosen": -0.08776924759149551,
+      "logits/rejected": -0.07819744944572449,
+      "logps/chosen": -36.21211624145508,
+      "logps/rejected": -42.74664306640625,
+      "loss": 0.0647,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.16677923500537872,
+      "rewards/margins": 4.416428089141846,
+      "rewards/rejected": -4.583207130432129,
+      "step": 149
+    },
+    {
+      "epoch": 2.542372881355932,
+      "grad_norm": 6.450537035637719,
+      "learning_rate": 4.319375431890806e-07,
+      "logits/chosen": -0.21261297166347504,
+      "logits/rejected": -0.15842606127262115,
+      "logps/chosen": -23.646146774291992,
+      "logps/rejected": -36.388458251953125,
+      "loss": 0.0696,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.24000459909439087,
+      "rewards/margins": 5.469123363494873,
+      "rewards/rejected": -5.229118824005127,
+      "step": 150
+    },
+    {
+      "epoch": 2.559322033898305,
+      "grad_norm": 6.100900257526249,
+      "learning_rate": 4.306621378288364e-07,
+      "logits/chosen": -0.12006445229053497,
+      "logits/rejected": -0.09317637979984283,
+      "logps/chosen": -25.193214416503906,
+      "logps/rejected": -50.55509948730469,
+      "loss": 0.0539,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.055319640785455704,
+      "rewards/margins": 4.907276153564453,
+      "rewards/rejected": -4.9625959396362305,
+      "step": 151
+    },
+    {
+      "epoch": 2.576271186440678,
+      "grad_norm": 5.335466869594214,
+      "learning_rate": 4.2937681426108275e-07,
+      "logits/chosen": -0.156333327293396,
+      "logits/rejected": -0.1703069657087326,
+      "logps/chosen": -25.732696533203125,
+      "logps/rejected": -37.75965118408203,
+      "loss": 0.0476,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.1128598153591156,
+      "rewards/margins": 3.560478448867798,
+      "rewards/rejected": -3.4476187229156494,
+      "step": 152
+    },
+    {
+      "epoch": 2.593220338983051,
+      "grad_norm": 6.414862486449905,
+      "learning_rate": 4.280816430490602e-07,
+      "logits/chosen": -0.14309167861938477,
+      "logits/rejected": -0.14619530737400055,
+      "logps/chosen": -23.593332290649414,
+      "logps/rejected": -41.5565071105957,
+      "loss": 0.0688,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 0.14477895200252533,
+      "rewards/margins": 4.543487071990967,
+      "rewards/rejected": -4.398708343505859,
+      "step": 153
+    },
+    {
+      "epoch": 2.610169491525424,
+      "grad_norm": 5.895188410626077,
+      "learning_rate": 4.2677669529663686e-07,
+      "logits/chosen": -0.1784745752811432,
+      "logits/rejected": -0.16759036481380463,
+      "logps/chosen": -22.0533390045166,
+      "logps/rejected": -35.54384231567383,
+      "loss": 0.0553,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.02956150844693184,
+      "rewards/margins": 4.328366756439209,
+      "rewards/rejected": -4.298805236816406,
+      "step": 154
+    },
+    {
+      "epoch": 2.6271186440677967,
+      "grad_norm": 5.912717779717486,
+      "learning_rate": 4.254620426444053e-07,
+      "logits/chosen": -0.15713754296302795,
+      "logits/rejected": -0.1796114146709442,
+      "logps/chosen": -25.46520233154297,
+      "logps/rejected": -48.37349319458008,
+      "loss": 0.0571,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.28247907757759094,
+      "rewards/margins": 5.51485013961792,
+      "rewards/rejected": -5.2323713302612305,
+      "step": 155
+    },
+    {
+      "epoch": 2.6440677966101696,
+      "grad_norm": 5.922436242193146,
+      "learning_rate": 4.2413775726574923e-07,
+      "logits/chosen": -0.11942790448665619,
+      "logits/rejected": -0.11864694207906723,
+      "logps/chosen": -24.162601470947266,
+      "logps/rejected": -47.01225280761719,
+      "loss": 0.0543,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.3353565037250519,
+      "rewards/margins": 4.963751316070557,
+      "rewards/rejected": -5.299108505249023,
+      "step": 156
+    },
+    {
+      "epoch": 2.6610169491525424,
+      "grad_norm": 6.106867092542455,
+      "learning_rate": 4.228039118628815e-07,
+      "logits/chosen": -0.12817731499671936,
+      "logits/rejected": -0.09794219583272934,
+      "logps/chosen": -23.699031829833984,
+      "logps/rejected": -43.58228302001953,
+      "loss": 0.0613,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.08896563202142715,
+      "rewards/margins": 4.032917499542236,
+      "rewards/rejected": -4.121883392333984,
+      "step": 157
+    },
+    {
+      "epoch": 2.6779661016949152,
+      "grad_norm": 5.803302086144925,
+      "learning_rate": 4.214605796628526e-07,
+      "logits/chosen": -0.2880489230155945,
+      "logits/rejected": -0.23902469873428345,
+      "logps/chosen": -23.32792091369629,
+      "logps/rejected": -45.10264587402344,
+      "loss": 0.0571,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.43519750237464905,
+      "rewards/margins": 4.654225826263428,
+      "rewards/rejected": -5.089423656463623,
+      "step": 158
+    },
+    {
+      "epoch": 2.694915254237288,
+      "grad_norm": 5.177802734038862,
+      "learning_rate": 4.201078344135306e-07,
+      "logits/chosen": -0.24913498759269714,
+      "logits/rejected": -0.2534574270248413,
+      "logps/chosen": -24.795732498168945,
+      "logps/rejected": -42.07280349731445,
+      "loss": 0.0545,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.02173246443271637,
+      "rewards/margins": 4.118818283081055,
+      "rewards/rejected": -4.14055061340332,
+      "step": 159
+    },
+    {
+      "epoch": 2.711864406779661,
+      "grad_norm": 9.038983465853134,
+      "learning_rate": 4.187457503795526e-07,
+      "logits/chosen": -0.18585993349552155,
+      "logits/rejected": -0.16700756549835205,
+      "logps/chosen": -27.172670364379883,
+      "logps/rejected": -34.79685592651367,
+      "loss": 0.0661,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.2640396058559418,
+      "rewards/margins": 4.567864894866943,
+      "rewards/rejected": -4.303825378417969,
+      "step": 160
+    },
+    {
+      "epoch": 2.7288135593220337,
+      "grad_norm": 5.702053280294616,
+      "learning_rate": 4.173744023382474e-07,
+      "logits/chosen": -0.2842308282852173,
+      "logits/rejected": -0.29381710290908813,
+      "logps/chosen": -21.896320343017578,
+      "logps/rejected": -41.444732666015625,
+      "loss": 0.0511,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.02725343219935894,
+      "rewards/margins": 4.254402160644531,
+      "rewards/rejected": -4.227148532867432,
+      "step": 161
+    },
+    {
+      "epoch": 2.7457627118644066,
+      "grad_norm": 6.4501142174750825,
+      "learning_rate": 4.159938655755306e-07,
+      "logits/chosen": -0.1036592572927475,
+      "logits/rejected": -0.052220165729522705,
+      "logps/chosen": -26.139209747314453,
+      "logps/rejected": -46.38983154296875,
+      "loss": 0.044,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.15247440338134766,
+      "rewards/margins": 5.240863800048828,
+      "rewards/rejected": -5.393338680267334,
+      "step": 162
+    },
+    {
+      "epoch": 2.7627118644067794,
+      "grad_norm": 5.150964666613272,
+      "learning_rate": 4.1460421588177094e-07,
+      "logits/chosen": -0.25343507528305054,
+      "logits/rejected": -0.24906288087368011,
+      "logps/chosen": -21.305830001831055,
+      "logps/rejected": -43.92711639404297,
+      "loss": 0.0444,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.2159092128276825,
+      "rewards/margins": 5.304495811462402,
+      "rewards/rejected": -5.520405292510986,
+      "step": 163
+    },
+    {
+      "epoch": 2.7796610169491527,
+      "grad_norm": 6.220860659821832,
+      "learning_rate": 4.1320552954763037e-07,
+      "logits/chosen": -0.06625357270240784,
+      "logits/rejected": -0.0591760016977787,
+      "logps/chosen": -32.38239288330078,
+      "logps/rejected": -39.54067611694336,
+      "loss": 0.05,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.11683804541826248,
+      "rewards/margins": 3.713731288909912,
+      "rewards/rejected": -3.83056902885437,
+      "step": 164
+    },
+    {
+      "epoch": 2.7966101694915255,
+      "grad_norm": 6.305844556479963,
+      "learning_rate": 4.117978833598747e-07,
+      "logits/chosen": -0.31626027822494507,
+      "logits/rejected": -0.28030937910079956,
+      "logps/chosen": -32.548240661621094,
+      "logps/rejected": -42.81690979003906,
+      "loss": 0.0607,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.21723094582557678,
+      "rewards/margins": 4.100663185119629,
+      "rewards/rejected": -3.883432388305664,
+      "step": 165
+    },
+    {
+      "epoch": 2.8135593220338984,
+      "grad_norm": 6.559589012838323,
+      "learning_rate": 4.1038135459715885e-07,
+      "logits/chosen": -0.2386135458946228,
+      "logits/rejected": -0.23032473027706146,
+      "logps/chosen": -15.93246078491211,
+      "logps/rejected": -36.63377380371094,
+      "loss": 0.0592,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.09315376728773117,
+      "rewards/margins": 5.372439861297607,
+      "rewards/rejected": -5.279285907745361,
+      "step": 166
+    },
+    {
+      "epoch": 2.830508474576271,
+      "grad_norm": 8.346466429496452,
+      "learning_rate": 4.0895602102578373e-07,
+      "logits/chosen": -0.19355379045009613,
+      "logits/rejected": -0.2431831657886505,
+      "logps/chosen": -29.353004455566406,
+      "logps/rejected": -47.65980911254883,
+      "loss": 0.0556,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.30096274614334106,
+      "rewards/margins": 4.469476699829102,
+      "rewards/rejected": -4.770439624786377,
+      "step": 167
+    },
+    {
+      "epoch": 2.847457627118644,
+      "grad_norm": 7.84040587215191,
+      "learning_rate": 4.075219608954278e-07,
+      "logits/chosen": -0.0895601287484169,
+      "logits/rejected": -0.06131096929311752,
+      "logps/chosen": -21.794588088989258,
+      "logps/rejected": -46.49802780151367,
+      "loss": 0.0639,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.053712397813797,
+      "rewards/margins": 5.101894855499268,
+      "rewards/rejected": -5.155607223510742,
+      "step": 168
+    },
+    {
+      "epoch": 2.864406779661017,
+      "grad_norm": 10.599854581213274,
+      "learning_rate": 4.0607925293484997e-07,
+      "logits/chosen": -0.26595553755760193,
+      "logits/rejected": -0.25741392374038696,
+      "logps/chosen": -26.43805503845215,
+      "logps/rejected": -34.98290252685547,
+      "loss": 0.1256,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.20261424779891968,
+      "rewards/margins": 3.2389473915100098,
+      "rewards/rejected": -3.441561222076416,
+      "step": 169
+    },
+    {
+      "epoch": 2.8813559322033897,
+      "grad_norm": 7.045992493613005,
+      "learning_rate": 4.046279763475687e-07,
+      "logits/chosen": -0.36673855781555176,
+      "logits/rejected": -0.37882646918296814,
+      "logps/chosen": -23.698484420776367,
+      "logps/rejected": -42.687042236328125,
+      "loss": 0.0617,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.29158052802085876,
+      "rewards/margins": 4.799960136413574,
+      "rewards/rejected": -5.091540336608887,
+      "step": 170
+    },
+    {
+      "epoch": 2.898305084745763,
+      "grad_norm": 5.4596269860548645,
+      "learning_rate": 4.031682108075128e-07,
+      "logits/chosen": -0.23533686995506287,
+      "logits/rejected": -0.2579227685928345,
+      "logps/chosen": -24.494571685791016,
+      "logps/rejected": -50.30744552612305,
+      "loss": 0.0554,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.4669819474220276,
+      "rewards/margins": 5.18317985534668,
+      "rewards/rejected": -5.6501617431640625,
+      "step": 171
+    },
+    {
+      "epoch": 2.915254237288136,
+      "grad_norm": 6.6964632868094,
+      "learning_rate": 4.0170003645464835e-07,
+      "logits/chosen": -0.28077659010887146,
+      "logits/rejected": -0.2605874836444855,
+      "logps/chosen": -30.141586303710938,
+      "logps/rejected": -43.39360046386719,
+      "loss": 0.0556,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.2600446939468384,
+      "rewards/margins": 4.748435020446777,
+      "rewards/rejected": -5.008480072021484,
+      "step": 172
+    },
+    {
+      "epoch": 2.9322033898305087,
+      "grad_norm": 6.25941157775491,
+      "learning_rate": 4.0022353389057793e-07,
+      "logits/chosen": -0.18370503187179565,
+      "logits/rejected": -0.15738657116889954,
+      "logps/chosen": -28.340681076049805,
+      "logps/rejected": -49.75542068481445,
+      "loss": 0.0621,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.15175539255142212,
+      "rewards/margins": 4.8475141525268555,
+      "rewards/rejected": -4.999269485473633,
+      "step": 173
+    },
+    {
+      "epoch": 2.9491525423728815,
+      "grad_norm": 5.2666179841342755,
+      "learning_rate": 3.9873878417411685e-07,
+      "logits/chosen": -0.25363242626190186,
+      "logits/rejected": -0.22387123107910156,
+      "logps/chosen": -30.49943733215332,
+      "logps/rejected": -51.61265563964844,
+      "loss": 0.0416,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.4314861297607422,
+      "rewards/margins": 5.466277122497559,
+      "rewards/rejected": -5.897763252258301,
+      "step": 174
+    },
+    {
+      "epoch": 2.9661016949152543,
+      "grad_norm": 6.6142603605122705,
+      "learning_rate": 3.97245868816842e-07,
+      "logits/chosen": -0.18011420965194702,
+      "logits/rejected": -0.14474789798259735,
+      "logps/chosen": -22.61705207824707,
+      "logps/rejected": -34.74039840698242,
+      "loss": 0.0656,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.35052689909935,
+      "rewards/margins": 4.783888816833496,
+      "rewards/rejected": -4.433361530303955,
+      "step": 175
+    },
+    {
+      "epoch": 2.983050847457627,
+      "grad_norm": 7.350936104887415,
+      "learning_rate": 3.95744869778618e-07,
+      "logits/chosen": -0.09902404993772507,
+      "logits/rejected": -0.08743295818567276,
+      "logps/chosen": -33.22180938720703,
+      "logps/rejected": -48.17066192626953,
+      "loss": 0.061,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.3400125801563263,
+      "rewards/margins": 4.35988712310791,
+      "rewards/rejected": -4.699898719787598,
+      "step": 176
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 6.41090986992918,
+      "learning_rate": 3.942358694630967e-07,
+      "logits/chosen": -0.3509863615036011,
+      "logits/rejected": -0.3755185306072235,
+      "logps/chosen": -24.426481246948242,
+      "logps/rejected": -49.73809051513672,
+      "loss": 0.0751,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.2657313942909241,
+      "rewards/margins": 4.6201324462890625,
+      "rewards/rejected": -4.885863780975342,
+      "step": 177
+    },
+    {
+      "epoch": 3.016949152542373,
+      "grad_norm": 3.543481556246516,
+      "learning_rate": 3.927189507131938e-07,
+      "logits/chosen": -0.2855956554412842,
+      "logits/rejected": -0.2373581826686859,
+      "logps/chosen": -25.790422439575195,
+      "logps/rejected": -42.86233139038086,
+      "loss": 0.0293,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.47834354639053345,
+      "rewards/margins": 4.5599493980407715,
+      "rewards/rejected": -5.03829288482666,
+      "step": 178
+    },
+    {
+      "epoch": 3.0338983050847457,
+      "grad_norm": 4.068888114820521,
+      "learning_rate": 3.9119419680654083e-07,
+      "logits/chosen": -0.2456224113702774,
+      "logits/rejected": -0.23849861323833466,
+      "logps/chosen": -26.366769790649414,
+      "logps/rejected": -45.77360153198242,
+      "loss": 0.0346,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.29546892642974854,
+      "rewards/margins": 5.436995029449463,
+      "rewards/rejected": -5.141526222229004,
+      "step": 179
+    },
+    {
+      "epoch": 3.0508474576271185,
+      "grad_norm": 3.4882014800516408,
+      "learning_rate": 3.896616914509131e-07,
+      "logits/chosen": -0.28572219610214233,
+      "logits/rejected": -0.24028098583221436,
+      "logps/chosen": -25.306299209594727,
+      "logps/rejected": -41.360389709472656,
+      "loss": 0.027,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.11109927296638489,
+      "rewards/margins": 5.036979675292969,
+      "rewards/rejected": -5.148078918457031,
+      "step": 180
+    },
+    {
+      "epoch": 3.0677966101694913,
+      "grad_norm": 4.061881260336592,
+      "learning_rate": 3.881215187796344e-07,
+      "logits/chosen": -0.17325271666049957,
+      "logits/rejected": -0.15583127737045288,
+      "logps/chosen": -22.642131805419922,
+      "logps/rejected": -49.67926025390625,
+      "loss": 0.0428,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.09581390023231506,
+      "rewards/margins": 5.447430610656738,
+      "rewards/rejected": -5.351616382598877,
+      "step": 181
+    },
+    {
+      "epoch": 3.084745762711864,
+      "grad_norm": 4.520714234908951,
+      "learning_rate": 3.865737633469579e-07,
+      "logits/chosen": -0.21125821769237518,
+      "logits/rejected": -0.16403470933437347,
+      "logps/chosen": -33.79856872558594,
+      "logps/rejected": -48.687171936035156,
+      "loss": 0.0492,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.7709572315216064,
+      "rewards/margins": 5.184902191162109,
+      "rewards/rejected": -5.955859661102295,
+      "step": 182
+    },
+    {
+      "epoch": 3.1016949152542375,
+      "grad_norm": 4.245352342549904,
+      "learning_rate": 3.8501851012342444e-07,
+      "logits/chosen": -0.28263112902641296,
+      "logits/rejected": -0.24399010837078094,
+      "logps/chosen": -29.092899322509766,
+      "logps/rejected": -49.18566131591797,
+      "loss": 0.0297,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.2785920202732086,
+      "rewards/margins": 5.724462032318115,
+      "rewards/rejected": -6.003054141998291,
+      "step": 183
+    },
+    {
+      "epoch": 3.1186440677966103,
+      "grad_norm": 4.31037076617115,
+      "learning_rate": 3.834558444911977e-07,
+      "logits/chosen": -0.22499172389507294,
+      "logits/rejected": -0.2413562387228012,
+      "logps/chosen": -28.549692153930664,
+      "logps/rejected": -54.757652282714844,
+      "loss": 0.044,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.07061734795570374,
+      "rewards/margins": 5.652264595031738,
+      "rewards/rejected": -5.722881317138672,
+      "step": 184
+    },
+    {
+      "epoch": 3.135593220338983,
+      "grad_norm": 4.866640213250526,
+      "learning_rate": 3.818858522393763e-07,
+      "logits/chosen": -0.14125032722949982,
+      "logits/rejected": -0.14179250597953796,
+      "logps/chosen": -22.976459503173828,
+      "logps/rejected": -49.11492156982422,
+      "loss": 0.0416,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.040695205330848694,
+      "rewards/margins": 5.625366687774658,
+      "rewards/rejected": -5.584671974182129,
+      "step": 185
+    },
+    {
+      "epoch": 3.152542372881356,
+      "grad_norm": 4.2109878427330685,
+      "learning_rate": 3.8030861955928496e-07,
+      "logits/chosen": -0.30937284231185913,
+      "logits/rejected": -0.31210747361183167,
+      "logps/chosen": -30.636043548583984,
+      "logps/rejected": -59.81259536743164,
+      "loss": 0.028,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.36846521496772766,
+      "rewards/margins": 5.769496917724609,
+      "rewards/rejected": -6.137962341308594,
+      "step": 186
+    },
+    {
+      "epoch": 3.169491525423729,
+      "grad_norm": 4.057066326184392,
+      "learning_rate": 3.787242330397418e-07,
+      "logits/chosen": -0.21361833810806274,
+      "logits/rejected": -0.18969151377677917,
+      "logps/chosen": -25.21249008178711,
+      "logps/rejected": -47.042659759521484,
+      "loss": 0.0351,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.09672415256500244,
+      "rewards/margins": 5.194358825683594,
+      "rewards/rejected": -5.291082859039307,
+      "step": 187
+    },
+    {
+      "epoch": 3.1864406779661016,
+      "grad_norm": 3.447901220325472,
+      "learning_rate": 3.7713277966230513e-07,
+      "logits/chosen": -0.2784624397754669,
+      "logits/rejected": -0.28683120012283325,
+      "logps/chosen": -36.1049690246582,
+      "logps/rejected": -57.15819549560547,
+      "loss": 0.0284,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.007891565561294556,
+      "rewards/margins": 5.449771881103516,
+      "rewards/rejected": -5.457663059234619,
+      "step": 188
+    },
+    {
+      "epoch": 3.2033898305084745,
+      "grad_norm": 4.442046435541958,
+      "learning_rate": 3.755343467964981e-07,
+      "logits/chosen": -0.31062349677085876,
+      "logits/rejected": -0.3004721999168396,
+      "logps/chosen": -28.58712387084961,
+      "logps/rejected": -64.2608413696289,
+      "loss": 0.0371,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.4109271168708801,
+      "rewards/margins": 7.114888668060303,
+      "rewards/rejected": -7.525815010070801,
+      "step": 189
+    },
+    {
+      "epoch": 3.2203389830508473,
+      "grad_norm": 3.0719724662002896,
+      "learning_rate": 3.739290221950123e-07,
+      "logits/chosen": -0.17614498734474182,
+      "logits/rejected": -0.1161608174443245,
+      "logps/chosen": -19.90385627746582,
+      "logps/rejected": -48.33121871948242,
+      "loss": 0.0288,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.1976543366909027,
+      "rewards/margins": 6.546693325042725,
+      "rewards/rejected": -6.349039077758789,
+      "step": 190
+    },
+    {
+      "epoch": 3.23728813559322,
+      "grad_norm": 3.947699710282849,
+      "learning_rate": 3.723168939888901e-07,
+      "logits/chosen": -0.2788640558719635,
+      "logits/rejected": -0.2216426283121109,
+      "logps/chosen": -31.930301666259766,
+      "logps/rejected": -48.188316345214844,
+      "loss": 0.035,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.2625292241573334,
+      "rewards/margins": 6.2579474449157715,
+      "rewards/rejected": -5.995418548583984,
+      "step": 191
+    },
+    {
+      "epoch": 3.2542372881355934,
+      "grad_norm": 3.948675289926565,
+      "learning_rate": 3.7069805068268624e-07,
+      "logits/chosen": -0.24821209907531738,
+      "logits/rejected": -0.2691497802734375,
+      "logps/chosen": -23.103912353515625,
+      "logps/rejected": -45.67485427856445,
+      "loss": 0.051,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.5271704792976379,
+      "rewards/margins": 5.4129743576049805,
+      "rewards/rejected": -5.9401445388793945,
+      "step": 192
+    },
+    {
+      "epoch": 3.2711864406779663,
+      "grad_norm": 3.204036420155872,
+      "learning_rate": 3.6907258114960915e-07,
+      "logits/chosen": -0.20090129971504211,
+      "logits/rejected": -0.1883653998374939,
+      "logps/chosen": -21.614791870117188,
+      "logps/rejected": -36.44792556762695,
+      "loss": 0.0304,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.26388826966285706,
+      "rewards/margins": 5.233245372772217,
+      "rewards/rejected": -5.497133255004883,
+      "step": 193
+    },
+    {
+      "epoch": 3.288135593220339,
+      "grad_norm": 4.608553625728515,
+      "learning_rate": 3.6744057462664194e-07,
+      "logits/chosen": -0.22761565446853638,
+      "logits/rejected": -0.18411225080490112,
+      "logps/chosen": -33.556297302246094,
+      "logps/rejected": -45.10346984863281,
+      "loss": 0.0426,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.32763671875,
+      "rewards/margins": 5.759217262268066,
+      "rewards/rejected": -6.086853504180908,
+      "step": 194
+    },
+    {
+      "epoch": 3.305084745762712,
+      "grad_norm": 3.3003212602613052,
+      "learning_rate": 3.658021207096432e-07,
+      "logits/chosen": -0.26821860671043396,
+      "logits/rejected": -0.23487797379493713,
+      "logps/chosen": -26.26876449584961,
+      "logps/rejected": -39.17176818847656,
+      "loss": 0.0273,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.06157127395272255,
+      "rewards/margins": 4.7874369621276855,
+      "rewards/rejected": -4.725865364074707,
+      "step": 195
+    },
+    {
+      "epoch": 3.3220338983050848,
+      "grad_norm": 4.8557388954783915,
+      "learning_rate": 3.6415730934842825e-07,
+      "logits/chosen": -0.2502498924732208,
+      "logits/rejected": -0.21418914198875427,
+      "logps/chosen": -24.12335205078125,
+      "logps/rejected": -39.51020431518555,
+      "loss": 0.047,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 0.3541201651096344,
+      "rewards/margins": 5.43333101272583,
+      "rewards/rejected": -5.07921028137207,
+      "step": 196
+    },
+    {
+      "epoch": 3.3389830508474576,
+      "grad_norm": 3.1710739557100025,
+      "learning_rate": 3.625062308418311e-07,
+      "logits/chosen": -0.19088196754455566,
+      "logits/rejected": -0.1449725329875946,
+      "logps/chosen": -41.92289733886719,
+      "logps/rejected": -52.62822341918945,
+      "loss": 0.031,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.7417705059051514,
+      "rewards/margins": 5.704789161682129,
+      "rewards/rejected": -6.446559906005859,
+      "step": 197
+    },
+    {
+      "epoch": 3.3559322033898304,
+      "grad_norm": 3.8833880103526273,
+      "learning_rate": 3.6084897583274715e-07,
+      "logits/chosen": -0.33713212609291077,
+      "logits/rejected": -0.32788529992103577,
+      "logps/chosen": -18.311298370361328,
+      "logps/rejected": -47.206260681152344,
+      "loss": 0.0276,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.28597769141197205,
+      "rewards/margins": 5.729028701782227,
+      "rewards/rejected": -6.015005588531494,
+      "step": 198
+    },
+    {
+      "epoch": 3.3728813559322033,
+      "grad_norm": 3.971746818851194,
+      "learning_rate": 3.591856353031566e-07,
+      "logits/chosen": -0.388487309217453,
+      "logits/rejected": -0.3937668800354004,
+      "logps/chosen": -20.602941513061523,
+      "logps/rejected": -46.418514251708984,
+      "loss": 0.0387,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.0760723352432251,
+      "rewards/margins": 6.133167266845703,
+      "rewards/rejected": -6.209239959716797,
+      "step": 199
+    },
+    {
+      "epoch": 3.389830508474576,
+      "grad_norm": 2.669544955188557,
+      "learning_rate": 3.5751630056913013e-07,
+      "logits/chosen": -0.28054508566856384,
+      "logits/rejected": -0.24293102324008942,
+      "logps/chosen": -24.345874786376953,
+      "logps/rejected": -43.055397033691406,
+      "loss": 0.023,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.006254836916923523,
+      "rewards/margins": 5.404486179351807,
+      "rewards/rejected": -5.410740375518799,
+      "step": 200
+    },
+    {
+      "epoch": 3.406779661016949,
+      "grad_norm": 3.472014476230378,
+      "learning_rate": 3.558410632758153e-07,
+      "logits/chosen": -0.3892117142677307,
+      "logits/rejected": -0.3841942548751831,
+      "logps/chosen": -22.507129669189453,
+      "logps/rejected": -45.49005126953125,
+      "loss": 0.0401,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.08385208249092102,
+      "rewards/margins": 4.855816841125488,
+      "rewards/rejected": -4.939668655395508,
+      "step": 201
+    },
+    {
+      "epoch": 3.423728813559322,
+      "grad_norm": 3.5814887606335124,
+      "learning_rate": 3.5416001539240574e-07,
+      "logits/chosen": -0.300984263420105,
+      "logits/rejected": -0.28749731183052063,
+      "logps/chosen": -22.618236541748047,
+      "logps/rejected": -54.328731536865234,
+      "loss": 0.0344,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.42270928621292114,
+      "rewards/margins": 6.060704708099365,
+      "rewards/rejected": -6.4834136962890625,
+      "step": 202
+    },
+    {
+      "epoch": 3.440677966101695,
+      "grad_norm": 3.9783986017754,
+      "learning_rate": 3.5247324920709147e-07,
+      "logits/chosen": -0.11381550878286362,
+      "logits/rejected": -0.10474348813295364,
+      "logps/chosen": -29.523387908935547,
+      "logps/rejected": -44.939971923828125,
+      "loss": 0.0279,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.5131514668464661,
+      "rewards/margins": 4.85312557220459,
+      "rewards/rejected": -5.36627721786499,
+      "step": 203
+    },
+    {
+      "epoch": 3.457627118644068,
+      "grad_norm": 2.90882629880929,
+      "learning_rate": 3.5078085732199307e-07,
+      "logits/chosen": -0.17035694420337677,
+      "logits/rejected": -0.14843972027301788,
+      "logps/chosen": -24.29421615600586,
+      "logps/rejected": -47.5906982421875,
+      "loss": 0.027,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.775327742099762,
+      "rewards/margins": 5.236928462982178,
+      "rewards/rejected": -6.012256145477295,
+      "step": 204
+    },
+    {
+      "epoch": 3.4745762711864407,
+      "grad_norm": 3.5359065761216906,
+      "learning_rate": 3.490829326480773e-07,
+      "logits/chosen": -0.2077549546957016,
+      "logits/rejected": -0.139791339635849,
+      "logps/chosen": -29.458728790283203,
+      "logps/rejected": -46.196311950683594,
+      "loss": 0.0261,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.43501347303390503,
+      "rewards/margins": 5.490588188171387,
+      "rewards/rejected": -5.925601005554199,
+      "step": 205
+    },
+    {
+      "epoch": 3.4915254237288136,
+      "grad_norm": 3.5732057063389924,
+      "learning_rate": 3.4737956840005684e-07,
+      "logits/chosen": -0.24159546196460724,
+      "logits/rejected": -0.21804997324943542,
+      "logps/chosen": -22.523195266723633,
+      "logps/rejected": -40.27927780151367,
+      "loss": 0.0383,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.2203037589788437,
+      "rewards/margins": 4.918404579162598,
+      "rewards/rejected": -5.138708114624023,
+      "step": 206
+    },
+    {
+      "epoch": 3.5084745762711864,
+      "grad_norm": 3.2368948031127402,
+      "learning_rate": 3.4567085809127245e-07,
+      "logits/chosen": -0.3044562339782715,
+      "logits/rejected": -0.28132855892181396,
+      "logps/chosen": -23.9556827545166,
+      "logps/rejected": -54.27796173095703,
+      "loss": 0.0267,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.4134722352027893,
+      "rewards/margins": 6.515480041503906,
+      "rewards/rejected": -6.928952217102051,
+      "step": 207
+    },
+    {
+      "epoch": 3.5254237288135593,
+      "grad_norm": 3.9848937033562515,
+      "learning_rate": 3.439568955285595e-07,
+      "logits/chosen": -0.3248399794101715,
+      "logits/rejected": -0.2991315722465515,
+      "logps/chosen": -19.110692977905273,
+      "logps/rejected": -47.77824401855469,
+      "loss": 0.0329,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.6731768846511841,
+      "rewards/margins": 6.201772689819336,
+      "rewards/rejected": -6.874949932098389,
+      "step": 208
+    },
+    {
+      "epoch": 3.542372881355932,
+      "grad_norm": 3.1498741156916186,
+      "learning_rate": 3.4223777480709804e-07,
+      "logits/chosen": -0.3734952211380005,
+      "logits/rejected": -0.32552629709243774,
+      "logps/chosen": -18.623991012573242,
+      "logps/rejected": -42.553443908691406,
+      "loss": 0.0267,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.30939486622810364,
+      "rewards/margins": 5.721473217010498,
+      "rewards/rejected": -6.030868053436279,
+      "step": 209
+    },
+    {
+      "epoch": 3.559322033898305,
+      "grad_norm": 4.040639255967625,
+      "learning_rate": 3.405135903052465e-07,
+      "logits/chosen": -0.4112386703491211,
+      "logits/rejected": -0.3649882376194,
+      "logps/chosen": -28.818723678588867,
+      "logps/rejected": -44.70659637451172,
+      "loss": 0.0329,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.48197856545448303,
+      "rewards/margins": 5.537832260131836,
+      "rewards/rejected": -6.019810676574707,
+      "step": 210
+    },
+    {
+      "epoch": 3.576271186440678,
+      "grad_norm": 3.3478217712753966,
+      "learning_rate": 3.3878443667936136e-07,
+      "logits/chosen": -0.16748064756393433,
+      "logits/rejected": -0.19592073559761047,
+      "logps/chosen": -37.14228439331055,
+      "logps/rejected": -62.434722900390625,
+      "loss": 0.0191,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.086951494216919,
+      "rewards/margins": 6.2296953201293945,
+      "rewards/rejected": -7.316647529602051,
+      "step": 211
+    },
+    {
+      "epoch": 3.593220338983051,
+      "grad_norm": 3.9463700359583074,
+      "learning_rate": 3.3705040885859967e-07,
+      "logits/chosen": -0.3255730867385864,
+      "logits/rejected": -0.27438968420028687,
+      "logps/chosen": -34.4691276550293,
+      "logps/rejected": -47.688350677490234,
+      "loss": 0.0187,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.7244514226913452,
+      "rewards/margins": 5.521853446960449,
+      "rewards/rejected": -6.246304988861084,
+      "step": 212
+    },
+    {
+      "epoch": 3.610169491525424,
+      "grad_norm": 3.6196960397708686,
+      "learning_rate": 3.3531160203970805e-07,
+      "logits/chosen": -0.3483354151248932,
+      "logits/rejected": -0.317913681268692,
+      "logps/chosen": -28.75990867614746,
+      "logps/rejected": -48.366981506347656,
+      "loss": 0.0315,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.642256498336792,
+      "rewards/margins": 5.73888635635376,
+      "rewards/rejected": -6.381142616271973,
+      "step": 213
+    },
+    {
+      "epoch": 3.6271186440677967,
+      "grad_norm": 4.95065620942278,
+      "learning_rate": 3.3356811168179627e-07,
+      "logits/chosen": -0.20646288990974426,
+      "logits/rejected": -0.18285736441612244,
+      "logps/chosen": -29.683345794677734,
+      "logps/rejected": -42.32093811035156,
+      "loss": 0.0397,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.3692317008972168,
+      "rewards/margins": 6.064602851867676,
+      "rewards/rejected": -6.433835029602051,
+      "step": 214
+    },
+    {
+      "epoch": 3.6440677966101696,
+      "grad_norm": 3.3699006260035813,
+      "learning_rate": 3.318200335010967e-07,
+      "logits/chosen": -0.42737993597984314,
+      "logits/rejected": -0.3845828175544739,
+      "logps/chosen": -25.335176467895508,
+      "logps/rejected": -42.636924743652344,
+      "loss": 0.0245,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.28532662987709045,
+      "rewards/margins": 6.151418685913086,
+      "rewards/rejected": -5.866091728210449,
+      "step": 215
+    },
+    {
+      "epoch": 3.6610169491525424,
+      "grad_norm": 3.8837939121598777,
+      "learning_rate": 3.3006746346570935e-07,
+      "logits/chosen": -0.40326201915740967,
+      "logits/rejected": -0.40920883417129517,
+      "logps/chosen": -22.64775848388672,
+      "logps/rejected": -39.44330596923828,
+      "loss": 0.0294,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.18482859432697296,
+      "rewards/margins": 5.748718738555908,
+      "rewards/rejected": -5.933547019958496,
+      "step": 216
+    },
+    {
+      "epoch": 3.6779661016949152,
+      "grad_norm": 4.333458578457773,
+      "learning_rate": 3.2831049779033395e-07,
+      "logits/chosen": -0.443619042634964,
+      "logits/rejected": -0.41168978810310364,
+      "logps/chosen": -37.534263610839844,
+      "logps/rejected": -64.37035369873047,
+      "loss": 0.0335,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.5087466835975647,
+      "rewards/margins": 7.267013072967529,
+      "rewards/rejected": -7.775759696960449,
+      "step": 217
+    },
+    {
+      "epoch": 3.694915254237288,
+      "grad_norm": 4.250140275463436,
+      "learning_rate": 3.2654923293098666e-07,
+      "logits/chosen": -0.2549651861190796,
+      "logits/rejected": -0.1890694946050644,
+      "logps/chosen": -26.34837532043457,
+      "logps/rejected": -43.935028076171875,
+      "loss": 0.035,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.7253862023353577,
+      "rewards/margins": 5.679473400115967,
+      "rewards/rejected": -6.40485954284668,
+      "step": 218
+    },
+    {
+      "epoch": 3.711864406779661,
+      "grad_norm": 3.310632766464627,
+      "learning_rate": 3.247837655797061e-07,
+      "logits/chosen": -0.25092679262161255,
+      "logits/rejected": -0.28778067231178284,
+      "logps/chosen": -24.404443740844727,
+      "logps/rejected": -47.01846694946289,
+      "loss": 0.0223,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.29181113839149475,
+      "rewards/margins": 6.665236473083496,
+      "rewards/rejected": -6.957046985626221,
+      "step": 219
+    },
+    {
+      "epoch": 3.7288135593220337,
+      "grad_norm": 3.1436162956199496,
+      "learning_rate": 3.2301419265924393e-07,
+      "logits/chosen": -0.4150010645389557,
+      "logits/rejected": -0.36361223459243774,
+      "logps/chosen": -24.460697174072266,
+      "logps/rejected": -44.857032775878906,
+      "loss": 0.0291,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.22335419058799744,
+      "rewards/margins": 6.003718852996826,
+      "rewards/rejected": -6.227072715759277,
+      "step": 220
+    },
+    {
+      "epoch": 3.7457627118644066,
+      "grad_norm": 3.729031618521559,
+      "learning_rate": 3.2124061131774443e-07,
+      "logits/chosen": -0.3509747385978699,
+      "logits/rejected": -0.358395516872406,
+      "logps/chosen": -24.089895248413086,
+      "logps/rejected": -52.84262466430664,
+      "loss": 0.0247,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.14366820454597473,
+      "rewards/margins": 5.806227207183838,
+      "rewards/rejected": -5.94989538192749,
+      "step": 221
+    },
+    {
+      "epoch": 3.7627118644067794,
+      "grad_norm": 3.3066593649570315,
+      "learning_rate": 3.194631189234109e-07,
+      "logits/chosen": -0.4065392017364502,
+      "logits/rejected": -0.37751972675323486,
+      "logps/chosen": -32.56217956542969,
+      "logps/rejected": -45.78569412231445,
+      "loss": 0.0189,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.3193157911300659,
+      "rewards/margins": 5.7366862297058105,
+      "rewards/rejected": -6.056003093719482,
+      "step": 222
+    },
+    {
+      "epoch": 3.7796610169491527,
+      "grad_norm": 2.793162644598459,
+      "learning_rate": 3.1768181305916063e-07,
+      "logits/chosen": -0.25837022066116333,
+      "logits/rejected": -0.22268140316009521,
+      "logps/chosen": -35.988895416259766,
+      "logps/rejected": -54.8642463684082,
+      "loss": 0.0157,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.6435793042182922,
+      "rewards/margins": 6.045925140380859,
+      "rewards/rejected": -6.689504623413086,
+      "step": 223
+    },
+    {
+      "epoch": 3.7966101694915255,
+      "grad_norm": 5.31296637675809,
+      "learning_rate": 3.158967915172669e-07,
+      "logits/chosen": -0.25623688101768494,
+      "logits/rejected": -0.2494334727525711,
+      "logps/chosen": -25.375301361083984,
+      "logps/rejected": -41.08918380737305,
+      "loss": 0.0465,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.390929639339447,
+      "rewards/margins": 5.473989009857178,
+      "rewards/rejected": -5.864918231964111,
+      "step": 224
+    },
+    {
+      "epoch": 3.8135593220338984,
+      "grad_norm": 3.9032619129323582,
+      "learning_rate": 3.141081522939911e-07,
+      "logits/chosen": -0.31211555004119873,
+      "logits/rejected": -0.23420506715774536,
+      "logps/chosen": -35.506065368652344,
+      "logps/rejected": -45.37016296386719,
+      "loss": 0.0274,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.28194302320480347,
+      "rewards/margins": 5.861372947692871,
+      "rewards/rejected": -6.14331579208374,
+      "step": 225
+    },
+    {
+      "epoch": 3.830508474576271,
+      "grad_norm": 3.3703773992777712,
+      "learning_rate": 3.1231599358420233e-07,
+      "logits/chosen": -0.2667548954486847,
+      "logits/rejected": -0.237786203622818,
+      "logps/chosen": -25.19987678527832,
+      "logps/rejected": -42.388084411621094,
+      "loss": 0.0212,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.0639249086380005,
+      "rewards/margins": 5.1388325691223145,
+      "rewards/rejected": -6.202757835388184,
+      "step": 226
+    },
+    {
+      "epoch": 3.847457627118644,
+      "grad_norm": 3.2509261883963583,
+      "learning_rate": 3.105204137759867e-07,
+      "logits/chosen": -0.35733070969581604,
+      "logits/rejected": -0.29906269907951355,
+      "logps/chosen": -31.326122283935547,
+      "logps/rejected": -54.50325012207031,
+      "loss": 0.0304,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.14473173022270203,
+      "rewards/margins": 6.546075820922852,
+      "rewards/rejected": -6.690806865692139,
+      "step": 227
+    },
+    {
+      "epoch": 3.864406779661017,
+      "grad_norm": 4.276773716118761,
+      "learning_rate": 3.0872151144524594e-07,
+      "logits/chosen": -0.40903520584106445,
+      "logits/rejected": -0.42379483580589294,
+      "logps/chosen": -25.51406478881836,
+      "logps/rejected": -56.04070281982422,
+      "loss": 0.0346,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.5232114791870117,
+      "rewards/margins": 7.154451370239258,
+      "rewards/rejected": -7.6776628494262695,
+      "step": 228
+    },
+    {
+      "epoch": 3.8813559322033897,
+      "grad_norm": 3.0586357868954885,
+      "learning_rate": 3.069193853502855e-07,
+      "logits/chosen": -0.35119858384132385,
+      "logits/rejected": -0.31669121980667114,
+      "logps/chosen": -26.634798049926758,
+      "logps/rejected": -43.51852798461914,
+      "loss": 0.0303,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.6264432668685913,
+      "rewards/margins": 5.7952752113342285,
+      "rewards/rejected": -6.421718597412109,
+      "step": 229
+    },
+    {
+      "epoch": 3.898305084745763,
+      "grad_norm": 3.809867857045704,
+      "learning_rate": 3.0511413442639297e-07,
+      "logits/chosen": -0.3418273329734802,
+      "logits/rejected": -0.3366440534591675,
+      "logps/chosen": -26.767898559570312,
+      "logps/rejected": -66.91107940673828,
+      "loss": 0.0254,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.3621063232421875,
+      "rewards/margins": 8.028979301452637,
+      "rewards/rejected": -9.391084671020508,
+      "step": 230
+    },
+    {
+      "epoch": 3.915254237288136,
+      "grad_norm": 1.7319311965224584,
+      "learning_rate": 3.0330585778040675e-07,
+      "logits/chosen": -0.22780543565750122,
+      "logits/rejected": -0.1367052048444748,
+      "logps/chosen": -19.499248504638672,
+      "logps/rejected": -37.6104736328125,
+      "loss": 0.0099,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.3209352195262909,
+      "rewards/margins": 6.441976070404053,
+      "rewards/rejected": -6.1210408210754395,
+      "step": 231
+    },
+    {
+      "epoch": 3.9322033898305087,
+      "grad_norm": 2.919480742746747,
+      "learning_rate": 3.0149465468527457e-07,
+      "logits/chosen": -0.3633422255516052,
+      "logits/rejected": -0.3510938286781311,
+      "logps/chosen": -24.75160026550293,
+      "logps/rejected": -43.96453094482422,
+      "loss": 0.0191,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.055519312620162964,
+      "rewards/margins": 6.384317874908447,
+      "rewards/rejected": -6.328798294067383,
+      "step": 232
+    },
+    {
+      "epoch": 3.9491525423728815,
+      "grad_norm": 2.6875831264015626,
+      "learning_rate": 2.9968062457460437e-07,
+      "logits/chosen": -0.30877232551574707,
+      "logits/rejected": -0.2673957049846649,
+      "logps/chosen": -22.01394271850586,
+      "logps/rejected": -46.45256042480469,
+      "loss": 0.0164,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.722076416015625,
+      "rewards/margins": 6.105856895446777,
+      "rewards/rejected": -6.827932834625244,
+      "step": 233
+    },
+    {
+      "epoch": 3.9661016949152543,
+      "grad_norm": 5.291054230890989,
+      "learning_rate": 2.978638670372047e-07,
+      "logits/chosen": -0.33912044763565063,
+      "logits/rejected": -0.2657839357852936,
+      "logps/chosen": -30.723812103271484,
+      "logps/rejected": -52.49626159667969,
+      "loss": 0.0396,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.223615050315857,
+      "rewards/margins": 6.520167350769043,
+      "rewards/rejected": -7.743781089782715,
+      "step": 234
+    },
+    {
+      "epoch": 3.983050847457627,
+      "grad_norm": 4.5082449746889495,
+      "learning_rate": 2.9604448181161755e-07,
+      "logits/chosen": -0.2287699282169342,
+      "logits/rejected": -0.278522789478302,
+      "logps/chosen": -21.338584899902344,
+      "logps/rejected": -43.86865234375,
+      "loss": 0.0315,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.26738277077674866,
+      "rewards/margins": 5.24444580078125,
+      "rewards/rejected": -5.511828422546387,
+      "step": 235
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 2.760408994676017,
+      "learning_rate": 2.9422256878064324e-07,
+      "logits/chosen": -0.25730714201927185,
+      "logits/rejected": -0.24561913311481476,
+      "logps/chosen": -39.164676666259766,
+      "logps/rejected": -58.313934326171875,
+      "loss": 0.0142,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -2.588261127471924,
+      "rewards/margins": 6.12579870223999,
+      "rewards/rejected": -8.71406078338623,
+      "step": 236
+    },
+    {
+      "epoch": 4.016949152542373,
+      "grad_norm": 2.2785410277469302,
+      "learning_rate": 2.923982279658564e-07,
+      "logits/chosen": -0.34395280480384827,
+      "logits/rejected": -0.23966065049171448,
+      "logps/chosen": -38.35492706298828,
+      "logps/rejected": -53.40243148803711,
+      "loss": 0.0185,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.2421057224273682,
+      "rewards/margins": 6.917564392089844,
+      "rewards/rejected": -8.159669876098633,
+      "step": 237
+    },
+    {
+      "epoch": 4.033898305084746,
+      "grad_norm": 3.2845417722614507,
+      "learning_rate": 2.90571559522115e-07,
+      "logits/chosen": -0.13574184477329254,
+      "logits/rejected": -0.11650273948907852,
+      "logps/chosen": -27.581148147583008,
+      "logps/rejected": -39.88399887084961,
+      "loss": 0.0304,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.3537464737892151,
+      "rewards/margins": 5.475383281707764,
+      "rewards/rejected": -5.829129695892334,
+      "step": 238
+    },
+    {
+      "epoch": 4.0508474576271185,
+      "grad_norm": 2.1631508501013315,
+      "learning_rate": 2.8874266373206215e-07,
+      "logits/chosen": -0.3121250867843628,
+      "logits/rejected": -0.24592992663383484,
+      "logps/chosen": -29.24790382385254,
+      "logps/rejected": -47.294334411621094,
+      "loss": 0.0174,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.47773995995521545,
+      "rewards/margins": 5.754822254180908,
+      "rewards/rejected": -6.2325615882873535,
+      "step": 239
+    },
+    {
+      "epoch": 4.067796610169491,
+      "grad_norm": 2.4004940122434544,
+      "learning_rate": 2.8691164100062034e-07,
+      "logits/chosen": -0.36053359508514404,
+      "logits/rejected": -0.34572604298591614,
+      "logps/chosen": -31.519865036010742,
+      "logps/rejected": -59.80055618286133,
+      "loss": 0.0199,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.718724250793457,
+      "rewards/margins": 7.598670959472656,
+      "rewards/rejected": -8.317395210266113,
+      "step": 240
+    },
+    {
+      "epoch": 4.084745762711864,
+      "grad_norm": 2.6119447962907367,
+      "learning_rate": 2.8507859184947953e-07,
+      "logits/chosen": -0.43051332235336304,
+      "logits/rejected": -0.4282737076282501,
+      "logps/chosen": -26.50347137451172,
+      "logps/rejected": -52.22574234008789,
+      "loss": 0.0277,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.289501428604126,
+      "rewards/margins": 6.555995941162109,
+      "rewards/rejected": -6.845498085021973,
+      "step": 241
+    },
+    {
+      "epoch": 4.101694915254237,
+      "grad_norm": 2.239976713467154,
+      "learning_rate": 2.8324361691157853e-07,
+      "logits/chosen": -0.24347716569900513,
+      "logits/rejected": -0.24979354441165924,
+      "logps/chosen": -30.006914138793945,
+      "logps/rejected": -59.73139190673828,
+      "loss": 0.0161,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.8718441128730774,
+      "rewards/margins": 6.680701732635498,
+      "rewards/rejected": -7.55254602432251,
+      "step": 242
+    },
+    {
+      "epoch": 4.11864406779661,
+      "grad_norm": 2.6364819568694497,
+      "learning_rate": 2.8140681692558034e-07,
+      "logits/chosen": -0.25327029824256897,
+      "logits/rejected": -0.21109545230865479,
+      "logps/chosen": -29.609922409057617,
+      "logps/rejected": -46.73149490356445,
+      "loss": 0.0288,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.5046648979187012,
+      "rewards/margins": 6.538877487182617,
+      "rewards/rejected": -7.043542385101318,
+      "step": 243
+    },
+    {
+      "epoch": 4.135593220338983,
+      "grad_norm": 2.1372418800599786,
+      "learning_rate": 2.7956829273034146e-07,
+      "logits/chosen": -0.13386383652687073,
+      "logits/rejected": -0.1250249445438385,
+      "logps/chosen": -26.58926773071289,
+      "logps/rejected": -51.22819900512695,
+      "loss": 0.0232,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.8299556970596313,
+      "rewards/margins": 6.830400466918945,
+      "rewards/rejected": -7.660356521606445,
+      "step": 244
+    },
+    {
+      "epoch": 4.1525423728813555,
+      "grad_norm": 2.9141398948843804,
+      "learning_rate": 2.7772814525937634e-07,
+      "logits/chosen": -0.32944080233573914,
+      "logits/rejected": -0.27718019485473633,
+      "logps/chosen": -28.87648582458496,
+      "logps/rejected": -48.459808349609375,
+      "loss": 0.0152,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.7797695994377136,
+      "rewards/margins": 6.1633992195129395,
+      "rewards/rejected": -6.943169116973877,
+      "step": 245
+    },
+    {
+      "epoch": 4.169491525423728,
+      "grad_norm": 2.497866238527004,
+      "learning_rate": 2.7588647553531576e-07,
+      "logits/chosen": -0.25429630279541016,
+      "logits/rejected": -0.23005954921245575,
+      "logps/chosen": -25.186725616455078,
+      "logps/rejected": -55.01511001586914,
+      "loss": 0.0223,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.38165754079818726,
+      "rewards/margins": 7.027002334594727,
+      "rewards/rejected": -7.408658981323242,
+      "step": 246
+    },
+    {
+      "epoch": 4.186440677966102,
+      "grad_norm": 1.7406944144206382,
+      "learning_rate": 2.7404338466436116e-07,
+      "logits/chosen": -0.2958889901638031,
+      "logits/rejected": -0.26341933012008667,
+      "logps/chosen": -28.1710205078125,
+      "logps/rejected": -50.88844299316406,
+      "loss": 0.0114,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.06356866657733917,
+      "rewards/margins": 7.469226360321045,
+      "rewards/rejected": -7.532794952392578,
+      "step": 247
+    },
+    {
+      "epoch": 4.203389830508475,
+      "grad_norm": 2.330847556376873,
+      "learning_rate": 2.721989738307337e-07,
+      "logits/chosen": -0.3691413104534149,
+      "logits/rejected": -0.35948917269706726,
+      "logps/chosen": -29.122577667236328,
+      "logps/rejected": -46.696510314941406,
+      "loss": 0.0191,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.09089075028896332,
+      "rewards/margins": 4.961187839508057,
+      "rewards/rejected": -5.052079200744629,
+      "step": 248
+    },
+    {
+      "epoch": 4.220338983050848,
+      "grad_norm": 2.5507390864394046,
+      "learning_rate": 2.7035334429111955e-07,
+      "logits/chosen": -0.22923773527145386,
+      "logits/rejected": -0.1796061396598816,
+      "logps/chosen": -37.402748107910156,
+      "logps/rejected": -61.04646682739258,
+      "loss": 0.0203,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.6148930191993713,
+      "rewards/margins": 6.983782768249512,
+      "rewards/rejected": -7.598675727844238,
+      "step": 249
+    },
+    {
+      "epoch": 4.237288135593221,
+      "grad_norm": 1.95547934634835,
+      "learning_rate": 2.685065973691107e-07,
+      "logits/chosen": -0.20895695686340332,
+      "logits/rejected": -0.2264058142900467,
+      "logps/chosen": -31.016735076904297,
+      "logps/rejected": -56.749725341796875,
+      "loss": 0.0125,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.8533796072006226,
+      "rewards/margins": 6.410269737243652,
+      "rewards/rejected": -7.2636494636535645,
+      "step": 250
+    },
+    {
+      "epoch": 4.254237288135593,
+      "grad_norm": 2.1411469355757973,
+      "learning_rate": 2.6665883444964277e-07,
+      "logits/chosen": -0.16789795458316803,
+      "logits/rejected": -0.14672429859638214,
+      "logps/chosen": -23.094444274902344,
+      "logps/rejected": -55.99787139892578,
+      "loss": 0.0152,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.8806984424591064,
+      "rewards/margins": 8.1028470993042,
+      "rewards/rejected": -8.983545303344727,
+      "step": 251
+    },
+    {
+      "epoch": 4.271186440677966,
+      "grad_norm": 2.372366174155855,
+      "learning_rate": 2.6481015697342856e-07,
+      "logits/chosen": -0.3404889404773712,
+      "logits/rejected": -0.32007667422294617,
+      "logps/chosen": -19.16732406616211,
+      "logps/rejected": -42.858253479003906,
+      "loss": 0.018,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.46728387475013733,
+      "rewards/margins": 5.529178619384766,
+      "rewards/rejected": -5.996462345123291,
+      "step": 252
+    },
+    {
+      "epoch": 4.288135593220339,
+      "grad_norm": 1.958723562417606,
+      "learning_rate": 2.629606664313896e-07,
+      "logits/chosen": -0.35188454389572144,
+      "logits/rejected": -0.3609326481819153,
+      "logps/chosen": -25.61526107788086,
+      "logps/rejected": -50.27090072631836,
+      "loss": 0.0131,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.02239191532135,
+      "rewards/margins": 6.072734832763672,
+      "rewards/rejected": -7.095126628875732,
+      "step": 253
+    },
+    {
+      "epoch": 4.305084745762712,
+      "grad_norm": 2.0112122888894115,
+      "learning_rate": 2.611104643590838e-07,
+      "logits/chosen": -0.29033514857292175,
+      "logits/rejected": -0.26703035831451416,
+      "logps/chosen": -21.255908966064453,
+      "logps/rejected": -53.08380126953125,
+      "loss": 0.0213,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.24649456143379211,
+      "rewards/margins": 7.01984977722168,
+      "rewards/rejected": -7.26634407043457,
+      "step": 254
+    },
+    {
+      "epoch": 4.322033898305085,
+      "grad_norm": 2.053603221627952,
+      "learning_rate": 2.592596523311317e-07,
+      "logits/chosen": -0.30223536491394043,
+      "logits/rejected": -0.2536553740501404,
+      "logps/chosen": -32.25640106201172,
+      "logps/rejected": -43.348167419433594,
+      "loss": 0.0131,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.06762519478797913,
+      "rewards/margins": 6.735665321350098,
+      "rewards/rejected": -6.803289890289307,
+      "step": 255
+    },
+    {
+      "epoch": 4.338983050847458,
+      "grad_norm": 2.8451217392600707,
+      "learning_rate": 2.5740833195563994e-07,
+      "logits/chosen": -0.3592408299446106,
+      "logits/rejected": -0.32396936416625977,
+      "logps/chosen": -29.65281867980957,
+      "logps/rejected": -46.565242767333984,
+      "loss": 0.0257,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.1844983100891113,
+      "rewards/margins": 5.651597499847412,
+      "rewards/rejected": -6.836095809936523,
+      "step": 256
+    },
+    {
+      "epoch": 4.3559322033898304,
+      "grad_norm": 2.4064312299996398,
+      "learning_rate": 2.5555660486862293e-07,
+      "logits/chosen": -0.3634299039840698,
+      "logits/rejected": -0.3088497817516327,
+      "logps/chosen": -28.253725051879883,
+      "logps/rejected": -48.81061553955078,
+      "loss": 0.021,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.4266662895679474,
+      "rewards/margins": 6.367308616638184,
+      "rewards/rejected": -6.793975353240967,
+      "step": 257
+    },
+    {
+      "epoch": 4.372881355932203,
+      "grad_norm": 2.146631041454485,
+      "learning_rate": 2.5370457272842315e-07,
+      "logits/chosen": -0.24686959385871887,
+      "logits/rejected": -0.18535006046295166,
+      "logps/chosen": -33.190582275390625,
+      "logps/rejected": -48.917503356933594,
+      "loss": 0.0182,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.8520054817199707,
+      "rewards/margins": 5.909256935119629,
+      "rewards/rejected": -6.761262893676758,
+      "step": 258
+    },
+    {
+      "epoch": 4.389830508474576,
+      "grad_norm": 2.0738992157558642,
+      "learning_rate": 2.5185233721013053e-07,
+      "logits/chosen": -0.359385222196579,
+      "logits/rejected": -0.357438325881958,
+      "logps/chosen": -24.519697189331055,
+      "logps/rejected": -44.44859313964844,
+      "loss": 0.0134,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.16271838545799255,
+      "rewards/margins": 6.145666122436523,
+      "rewards/rejected": -6.308384418487549,
+      "step": 259
+    },
+    {
+      "epoch": 4.406779661016949,
+      "grad_norm": 3.2910145632235572,
+      "learning_rate": 2.5e-07,
+      "logits/chosen": -0.11309901624917984,
+      "logits/rejected": -0.11735934764146805,
+      "logps/chosen": -24.769031524658203,
+      "logps/rejected": -52.153263092041016,
+      "loss": 0.0257,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.5375908017158508,
+      "rewards/margins": 6.348197937011719,
+      "rewards/rejected": -6.885788917541504,
+      "step": 260
+    },
+    {
+      "epoch": 4.423728813559322,
+      "grad_norm": 1.9904353477375836,
+      "learning_rate": 2.4814766278986944e-07,
+      "logits/chosen": -0.3224155604839325,
+      "logits/rejected": -0.2858419716358185,
+      "logps/chosen": -29.066646575927734,
+      "logps/rejected": -63.335533142089844,
+      "loss": 0.0133,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.6143862009048462,
+      "rewards/margins": 7.916276931762695,
+      "rewards/rejected": -8.530662536621094,
+      "step": 261
+    },
+    {
+      "epoch": 4.440677966101695,
+      "grad_norm": 2.8941606742565,
+      "learning_rate": 2.462954272715768e-07,
+      "logits/chosen": -0.450508177280426,
+      "logits/rejected": -0.4239945411682129,
+      "logps/chosen": -35.900840759277344,
+      "logps/rejected": -45.3778190612793,
+      "loss": 0.0161,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.7406729459762573,
+      "rewards/margins": 4.7124552726745605,
+      "rewards/rejected": -6.453128337860107,
+      "step": 262
+    },
+    {
+      "epoch": 4.4576271186440675,
+      "grad_norm": 2.38515146244392,
+      "learning_rate": 2.4444339513137716e-07,
+      "logits/chosen": -0.38119906187057495,
+      "logits/rejected": -0.36609771847724915,
+      "logps/chosen": -30.711692810058594,
+      "logps/rejected": -60.621646881103516,
+      "loss": 0.0232,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.59708571434021,
+      "rewards/margins": 8.203582763671875,
+      "rewards/rejected": -8.800668716430664,
+      "step": 263
+    },
+    {
+      "epoch": 4.47457627118644,
+      "grad_norm": 1.9234760349513347,
+      "learning_rate": 2.4259166804436003e-07,
+      "logits/chosen": -0.3686653971672058,
+      "logits/rejected": -0.31526994705200195,
+      "logps/chosen": -32.2381706237793,
+      "logps/rejected": -53.97626876831055,
+      "loss": 0.0127,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.1651465892791748,
+      "rewards/margins": 6.137485027313232,
+      "rewards/rejected": -7.302631855010986,
+      "step": 264
+    },
+    {
+      "epoch": 4.491525423728813,
+      "grad_norm": 2.611964451389311,
+      "learning_rate": 2.4074034766886826e-07,
+      "logits/chosen": -0.3324103355407715,
+      "logits/rejected": -0.26400357484817505,
+      "logps/chosen": -23.483598709106445,
+      "logps/rejected": -49.0655632019043,
+      "loss": 0.0188,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.20981693267822266,
+      "rewards/margins": 7.410755157470703,
+      "rewards/rejected": -7.620572090148926,
+      "step": 265
+    },
+    {
+      "epoch": 4.508474576271187,
+      "grad_norm": 2.9683559733463056,
+      "learning_rate": 2.3888953564091616e-07,
+      "logits/chosen": -0.39179760217666626,
+      "logits/rejected": -0.38096728920936584,
+      "logps/chosen": -31.189739227294922,
+      "logps/rejected": -53.24143600463867,
+      "loss": 0.0197,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.5632021427154541,
+      "rewards/margins": 6.741451263427734,
+      "rewards/rejected": -7.304653167724609,
+      "step": 266
+    },
+    {
+      "epoch": 4.52542372881356,
+      "grad_norm": 2.385454067550593,
+      "learning_rate": 2.3703933356861044e-07,
+      "logits/chosen": -0.41365846991539,
+      "logits/rejected": -0.41495996713638306,
+      "logps/chosen": -29.90151596069336,
+      "logps/rejected": -53.238502502441406,
+      "loss": 0.0179,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.4617680311203003,
+      "rewards/margins": 7.544755458831787,
+      "rewards/rejected": -9.006523132324219,
+      "step": 267
+    },
+    {
+      "epoch": 4.5423728813559325,
+      "grad_norm": 2.2006915125969946,
+      "learning_rate": 2.3518984302657144e-07,
+      "logits/chosen": -0.27264100313186646,
+      "logits/rejected": -0.29000911116600037,
+      "logps/chosen": -22.446334838867188,
+      "logps/rejected": -57.679481506347656,
+      "loss": 0.0158,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.5886446833610535,
+      "rewards/margins": 7.639779090881348,
+      "rewards/rejected": -8.228424072265625,
+      "step": 268
+    },
+    {
+      "epoch": 4.559322033898305,
+      "grad_norm": 2.150067392598777,
+      "learning_rate": 2.333411655503572e-07,
+      "logits/chosen": -0.2162581980228424,
+      "logits/rejected": -0.16464056074619293,
+      "logps/chosen": -29.03925323486328,
+      "logps/rejected": -61.93821716308594,
+      "loss": 0.0128,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.7494891881942749,
+      "rewards/margins": 8.04469108581543,
+      "rewards/rejected": -8.794179916381836,
+      "step": 269
+    },
+    {
+      "epoch": 4.576271186440678,
+      "grad_norm": 3.2103132884907355,
+      "learning_rate": 2.3149340263088927e-07,
+      "logits/chosen": -0.4069588780403137,
+      "logits/rejected": -0.39735129475593567,
+      "logps/chosen": -25.142169952392578,
+      "logps/rejected": -54.4061279296875,
+      "loss": 0.0193,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.7782204747200012,
+      "rewards/margins": 7.401907920837402,
+      "rewards/rejected": -8.18012809753418,
+      "step": 270
+    },
+    {
+      "epoch": 4.593220338983051,
+      "grad_norm": 3.4106686634255814,
+      "learning_rate": 2.296466557088805e-07,
+      "logits/chosen": -0.4093379080295563,
+      "logits/rejected": -0.3818233013153076,
+      "logps/chosen": -24.618453979492188,
+      "logps/rejected": -53.87172317504883,
+      "loss": 0.0181,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.7368046045303345,
+      "rewards/margins": 8.036300659179688,
+      "rewards/rejected": -8.773106575012207,
+      "step": 271
+    },
+    {
+      "epoch": 4.610169491525424,
+      "grad_norm": 2.227751631839648,
+      "learning_rate": 2.278010261692663e-07,
+      "logits/chosen": -0.3430100679397583,
+      "logits/rejected": -0.32270756363868713,
+      "logps/chosen": -27.739946365356445,
+      "logps/rejected": -50.70249938964844,
+      "loss": 0.0095,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.3157005310058594,
+      "rewards/margins": 6.844423294067383,
+      "rewards/rejected": -8.160122871398926,
+      "step": 272
+    },
+    {
+      "epoch": 4.627118644067797,
+      "grad_norm": 2.718467637449855,
+      "learning_rate": 2.2595661533563887e-07,
+      "logits/chosen": -0.39202579855918884,
+      "logits/rejected": -0.37344199419021606,
+      "logps/chosen": -28.954833984375,
+      "logps/rejected": -52.06825256347656,
+      "loss": 0.0199,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.1071019172668457,
+      "rewards/margins": 5.494106769561768,
+      "rewards/rejected": -6.6012091636657715,
+      "step": 273
+    },
+    {
+      "epoch": 4.6440677966101696,
+      "grad_norm": 1.8979857813927623,
+      "learning_rate": 2.2411352446468424e-07,
+      "logits/chosen": -0.2902525067329407,
+      "logits/rejected": -0.2769823372364044,
+      "logps/chosen": -21.65315055847168,
+      "logps/rejected": -53.80813980102539,
+      "loss": 0.0096,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.367279589176178,
+      "rewards/margins": 7.097145080566406,
+      "rewards/rejected": -7.464425086975098,
+      "step": 274
+    },
+    {
+      "epoch": 4.661016949152542,
+      "grad_norm": 1.9652537606332783,
+      "learning_rate": 2.2227185474062374e-07,
+      "logits/chosen": -0.3663102984428406,
+      "logits/rejected": -0.3732694983482361,
+      "logps/chosen": -25.794607162475586,
+      "logps/rejected": -52.91725540161133,
+      "loss": 0.0166,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.9790402054786682,
+      "rewards/margins": 6.477062702178955,
+      "rewards/rejected": -7.4561028480529785,
+      "step": 275
+    },
+    {
+      "epoch": 4.677966101694915,
+      "grad_norm": 2.3633232838068854,
+      "learning_rate": 2.2043170726965857e-07,
+      "logits/chosen": -0.3861359655857086,
+      "logits/rejected": -0.33153507113456726,
+      "logps/chosen": -26.395111083984375,
+      "logps/rejected": -46.5584716796875,
+      "loss": 0.0195,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.21754157543182373,
+      "rewards/margins": 6.467673301696777,
+      "rewards/rejected": -6.685215473175049,
+      "step": 276
+    },
+    {
+      "epoch": 4.694915254237288,
+      "grad_norm": 2.1756252476018925,
+      "learning_rate": 2.1859318307441966e-07,
+      "logits/chosen": -0.3655955493450165,
+      "logits/rejected": -0.2858305871486664,
+      "logps/chosen": -31.3674373626709,
+      "logps/rejected": -55.38779067993164,
+      "loss": 0.015,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.8195254802703857,
+      "rewards/margins": 7.775407314300537,
+      "rewards/rejected": -8.594932556152344,
+      "step": 277
+    },
+    {
+      "epoch": 4.711864406779661,
+      "grad_norm": 2.241164329559457,
+      "learning_rate": 2.1675638308842142e-07,
+      "logits/chosen": -0.32866764068603516,
+      "logits/rejected": -0.3286994397640228,
+      "logps/chosen": -23.2701358795166,
+      "logps/rejected": -50.79416275024414,
+      "loss": 0.0173,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.15657079219818115,
+      "rewards/margins": 7.880356788635254,
+      "rewards/rejected": -7.723785877227783,
+      "step": 278
+    },
+    {
+      "epoch": 4.728813559322034,
+      "grad_norm": 2.2629759157234983,
+      "learning_rate": 2.149214081505205e-07,
+      "logits/chosen": -0.36036401987075806,
+      "logits/rejected": -0.29053574800491333,
+      "logps/chosen": -28.8673095703125,
+      "logps/rejected": -45.81161880493164,
+      "loss": 0.0095,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.12538844347000122,
+      "rewards/margins": 7.48973274230957,
+      "rewards/rejected": -7.615121841430664,
+      "step": 279
+    },
+    {
+      "epoch": 4.745762711864407,
+      "grad_norm": 2.9812316443120133,
+      "learning_rate": 2.1308835899937972e-07,
+      "logits/chosen": -0.4776584506034851,
+      "logits/rejected": -0.4330436587333679,
+      "logps/chosen": -26.34911346435547,
+      "logps/rejected": -46.94022750854492,
+      "loss": 0.0167,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.6425644159317017,
+      "rewards/margins": 6.7085676193237305,
+      "rewards/rejected": -7.351131916046143,
+      "step": 280
+    },
+    {
+      "epoch": 4.762711864406779,
+      "grad_norm": 3.0770144105013757,
+      "learning_rate": 2.112573362679379e-07,
+      "logits/chosen": -0.3524860143661499,
+      "logits/rejected": -0.35296574234962463,
+      "logps/chosen": -36.912437438964844,
+      "logps/rejected": -64.40142059326172,
+      "loss": 0.0278,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.4731464087963104,
+      "rewards/margins": 7.376462936401367,
+      "rewards/rejected": -7.849608421325684,
+      "step": 281
+    },
+    {
+      "epoch": 4.779661016949152,
+      "grad_norm": 3.0797571681448845,
+      "learning_rate": 2.09428440477885e-07,
+      "logits/chosen": -0.5038030743598938,
+      "logits/rejected": -0.3990883231163025,
+      "logps/chosen": -24.284114837646484,
+      "logps/rejected": -54.10459518432617,
+      "loss": 0.0198,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.30106982588768005,
+      "rewards/margins": 9.012360572814941,
+      "rewards/rejected": -9.313429832458496,
+      "step": 282
+    },
+    {
+      "epoch": 4.796610169491525,
+      "grad_norm": 1.96025124354275,
+      "learning_rate": 2.0760177203414366e-07,
+      "logits/chosen": -0.46829330921173096,
+      "logits/rejected": -0.42585426568984985,
+      "logps/chosen": -30.78460693359375,
+      "logps/rejected": -44.711978912353516,
+      "loss": 0.0105,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.8381346464157104,
+      "rewards/margins": 7.145539283752441,
+      "rewards/rejected": -7.983673572540283,
+      "step": 283
+    },
+    {
+      "epoch": 4.813559322033898,
+      "grad_norm": 2.5513885163665013,
+      "learning_rate": 2.0577743121935682e-07,
+      "logits/chosen": -0.30383074283599854,
+      "logits/rejected": -0.2893516719341278,
+      "logps/chosen": -24.012680053710938,
+      "logps/rejected": -55.98198318481445,
+      "loss": 0.0228,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.7660890221595764,
+      "rewards/margins": 6.679078578948975,
+      "rewards/rejected": -7.445167064666748,
+      "step": 284
+    },
+    {
+      "epoch": 4.830508474576272,
+      "grad_norm": 2.2427849156465443,
+      "learning_rate": 2.0395551818838243e-07,
+      "logits/chosen": -0.3513972759246826,
+      "logits/rejected": -0.36794793605804443,
+      "logps/chosen": -35.454872131347656,
+      "logps/rejected": -58.40122985839844,
+      "loss": 0.0223,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.9875959753990173,
+      "rewards/margins": 7.528386116027832,
+      "rewards/rejected": -8.515982627868652,
+      "step": 285
+    },
+    {
+      "epoch": 4.847457627118644,
+      "grad_norm": 2.178682023578529,
+      "learning_rate": 2.021361329627953e-07,
+      "logits/chosen": -0.348906934261322,
+      "logits/rejected": -0.2906019985675812,
+      "logps/chosen": -21.8374080657959,
+      "logps/rejected": -54.439029693603516,
+      "loss": 0.0132,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.657446026802063,
+      "rewards/margins": 7.482587814331055,
+      "rewards/rejected": -8.140033721923828,
+      "step": 286
+    },
+    {
+      "epoch": 4.864406779661017,
+      "grad_norm": 2.548002935250282,
+      "learning_rate": 2.003193754253957e-07,
+      "logits/chosen": -0.3012135624885559,
+      "logits/rejected": -0.2940428555011749,
+      "logps/chosen": -28.2236385345459,
+      "logps/rejected": -47.59425354003906,
+      "loss": 0.02,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.8078848123550415,
+      "rewards/margins": 6.637413024902344,
+      "rewards/rejected": -7.445297718048096,
+      "step": 287
+    },
+    {
+      "epoch": 4.88135593220339,
+      "grad_norm": 2.659959937090622,
+      "learning_rate": 1.9850534531472544e-07,
+      "logits/chosen": -0.3548402488231659,
+      "logits/rejected": -0.3299209475517273,
+      "logps/chosen": -26.74940299987793,
+      "logps/rejected": -50.08027648925781,
+      "loss": 0.0191,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.9076037406921387,
+      "rewards/margins": 6.909872531890869,
+      "rewards/rejected": -7.817476272583008,
+      "step": 288
+    },
+    {
+      "epoch": 4.898305084745763,
+      "grad_norm": 2.1597951514795297,
+      "learning_rate": 1.966941422195933e-07,
+      "logits/chosen": -0.3348950147628784,
+      "logits/rejected": -0.3803963363170624,
+      "logps/chosen": -27.04452133178711,
+      "logps/rejected": -57.45584487915039,
+      "loss": 0.0178,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.858380913734436,
+      "rewards/margins": 7.073944091796875,
+      "rewards/rejected": -7.9323248863220215,
+      "step": 289
+    },
+    {
+      "epoch": 4.915254237288136,
+      "grad_norm": 2.8616875849096095,
+      "learning_rate": 1.94885865573607e-07,
+      "logits/chosen": -0.42029163241386414,
+      "logits/rejected": -0.40385907888412476,
+      "logps/chosen": -21.713485717773438,
+      "logps/rejected": -51.253334045410156,
+      "loss": 0.039,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.67279452085495,
+      "rewards/margins": 7.22087287902832,
+      "rewards/rejected": -7.893667221069336,
+      "step": 290
+    },
+    {
+      "epoch": 4.932203389830509,
+      "grad_norm": 2.4652867757867347,
+      "learning_rate": 1.930806146497146e-07,
+      "logits/chosen": -0.3921091556549072,
+      "logits/rejected": -0.37878188490867615,
+      "logps/chosen": -24.921491622924805,
+      "logps/rejected": -50.15573501586914,
+      "loss": 0.0189,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.5007016658782959,
+      "rewards/margins": 6.720961093902588,
+      "rewards/rejected": -7.221663475036621,
+      "step": 291
+    },
+    {
+      "epoch": 4.9491525423728815,
+      "grad_norm": 2.8758915083893832,
+      "learning_rate": 1.912784885547541e-07,
+      "logits/chosen": -0.257066547870636,
+      "logits/rejected": -0.24492767453193665,
+      "logps/chosen": -28.24458885192871,
+      "logps/rejected": -53.056297302246094,
+      "loss": 0.0208,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.5785134434700012,
+      "rewards/margins": 5.2356109619140625,
+      "rewards/rejected": -5.814124584197998,
+      "step": 292
+    },
+    {
+      "epoch": 4.966101694915254,
+      "grad_norm": 2.5031202245992956,
+      "learning_rate": 1.8947958622401328e-07,
+      "logits/chosen": -0.3068751394748688,
+      "logits/rejected": -0.321804940700531,
+      "logps/chosen": -25.078857421875,
+      "logps/rejected": -51.03053283691406,
+      "loss": 0.0165,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.7383342385292053,
+      "rewards/margins": 6.418414115905762,
+      "rewards/rejected": -7.156747817993164,
+      "step": 293
+    },
+    {
+      "epoch": 4.983050847457627,
+      "grad_norm": 2.270555425985558,
+      "learning_rate": 1.876840064157976e-07,
+      "logits/chosen": -0.3506714403629303,
+      "logits/rejected": -0.35707730054855347,
+      "logps/chosen": -26.248760223388672,
+      "logps/rejected": -51.72494888305664,
+      "loss": 0.0189,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.8412652611732483,
+      "rewards/margins": 6.9783101081848145,
+      "rewards/rejected": -7.819576263427734,
+      "step": 294
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 2.0981316143274804,
+      "learning_rate": 1.858918477060089e-07,
+      "logits/chosen": -0.3620571792125702,
+      "logits/rejected": -0.31848618388175964,
+      "logps/chosen": -24.052921295166016,
+      "logps/rejected": -48.84006881713867,
+      "loss": 0.0169,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.8626826405525208,
+      "rewards/margins": 6.730321407318115,
+      "rewards/rejected": -7.5930047035217285,
+      "step": 295
+    },
+    {
+      "epoch": 5.016949152542373,
+      "grad_norm": 1.7908906466642667,
+      "learning_rate": 1.8410320848273313e-07,
+      "logits/chosen": -0.40287381410598755,
+      "logits/rejected": -0.383707195520401,
+      "logps/chosen": -21.60245704650879,
+      "logps/rejected": -49.50798797607422,
+      "loss": 0.011,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.0992738008499146,
+      "rewards/margins": 6.644189834594727,
+      "rewards/rejected": -7.743463516235352,
+      "step": 296
+    },
+    {
+      "epoch": 5.033898305084746,
+      "grad_norm": 1.8189459242932866,
+      "learning_rate": 1.8231818694083938e-07,
+      "logits/chosen": -0.2570793330669403,
+      "logits/rejected": -0.19739127159118652,
+      "logps/chosen": -38.83268356323242,
+      "logps/rejected": -66.01898956298828,
+      "loss": 0.011,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.5877269506454468,
+      "rewards/margins": 8.778990745544434,
+      "rewards/rejected": -10.366718292236328,
+      "step": 297
+    },
+    {
+      "epoch": 5.0508474576271185,
+      "grad_norm": 2.1580633851808253,
+      "learning_rate": 1.8053688107658905e-07,
+      "logits/chosen": -0.40840768814086914,
+      "logits/rejected": -0.375863254070282,
+      "logps/chosen": -23.65566062927246,
+      "logps/rejected": -42.537147521972656,
+      "loss": 0.0172,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.23549441993236542,
+      "rewards/margins": 6.186650276184082,
+      "rewards/rejected": -6.422145366668701,
+      "step": 298
+    },
+    {
+      "epoch": 5.067796610169491,
+      "grad_norm": 2.1748249256852206,
+      "learning_rate": 1.787593886822556e-07,
+      "logits/chosen": -0.23409932851791382,
+      "logits/rejected": -0.25459229946136475,
+      "logps/chosen": -24.52175521850586,
+      "logps/rejected": -57.98483657836914,
+      "loss": 0.0102,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.7716866135597229,
+      "rewards/margins": 7.725409030914307,
+      "rewards/rejected": -8.497096061706543,
+      "step": 299
+    },
+    {
+      "epoch": 5.084745762711864,
+      "grad_norm": 1.8537224482358896,
+      "learning_rate": 1.7698580734075607e-07,
+      "logits/chosen": -0.2868376672267914,
+      "logits/rejected": -0.22661691904067993,
+      "logps/chosen": -28.01044273376465,
+      "logps/rejected": -51.4971923828125,
+      "loss": 0.0119,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.0641169548034668,
+      "rewards/margins": 6.613253593444824,
+      "rewards/rejected": -7.677370071411133,
+      "step": 300
+    },
+    {
+      "epoch": 5.101694915254237,
+      "grad_norm": 1.2874213290715422,
+      "learning_rate": 1.7521623442029388e-07,
+      "logits/chosen": -0.24358531832695007,
+      "logits/rejected": -0.23622053861618042,
+      "logps/chosen": -23.474660873413086,
+      "logps/rejected": -57.48131561279297,
+      "loss": 0.007,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.7229022979736328,
+      "rewards/margins": 7.076157569885254,
+      "rewards/rejected": -7.799059867858887,
+      "step": 301
+    },
+    {
+      "epoch": 5.11864406779661,
+      "grad_norm": 2.1339366626101572,
+      "learning_rate": 1.7345076706901326e-07,
+      "logits/chosen": -0.3415279984474182,
+      "logits/rejected": -0.3399394154548645,
+      "logps/chosen": -32.244102478027344,
+      "logps/rejected": -61.445579528808594,
+      "loss": 0.0144,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.47477126121521,
+      "rewards/margins": 7.632542133331299,
+      "rewards/rejected": -9.10731315612793,
+      "step": 302
+    },
+    {
+      "epoch": 5.135593220338983,
+      "grad_norm": 1.9591512485372344,
+      "learning_rate": 1.7168950220966614e-07,
+      "logits/chosen": -0.2298712432384491,
+      "logits/rejected": -0.22750090062618256,
+      "logps/chosen": -29.4824161529541,
+      "logps/rejected": -53.65066146850586,
+      "loss": 0.0235,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -1.0305908918380737,
+      "rewards/margins": 6.653254985809326,
+      "rewards/rejected": -7.683846473693848,
+      "step": 303
+    },
+    {
+      "epoch": 5.1525423728813555,
+      "grad_norm": 2.5880324875437477,
+      "learning_rate": 1.6993253653429062e-07,
+      "logits/chosen": -0.3975529372692108,
+      "logits/rejected": -0.3743340075016022,
+      "logps/chosen": -34.480491638183594,
+      "logps/rejected": -58.636436462402344,
+      "loss": 0.0218,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.9836530685424805,
+      "rewards/margins": 6.951813697814941,
+      "rewards/rejected": -8.935466766357422,
+      "step": 304
+    },
+    {
+      "epoch": 5.169491525423728,
+      "grad_norm": 2.067798884368433,
+      "learning_rate": 1.681799664989033e-07,
+      "logits/chosen": -0.2536097764968872,
+      "logits/rejected": -0.23771128058433533,
+      "logps/chosen": -23.92715072631836,
+      "logps/rejected": -39.59846878051758,
+      "loss": 0.0132,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.060520462691783905,
+      "rewards/margins": 5.955630302429199,
+      "rewards/rejected": -5.8951096534729,
+      "step": 305
+    },
+    {
+      "epoch": 5.186440677966102,
+      "grad_norm": 1.848984932148484,
+      "learning_rate": 1.6643188831820374e-07,
+      "logits/chosen": -0.31347960233688354,
+      "logits/rejected": -0.33331871032714844,
+      "logps/chosen": -27.515384674072266,
+      "logps/rejected": -56.68106460571289,
+      "loss": 0.0186,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.7880456447601318,
+      "rewards/margins": 8.233735084533691,
+      "rewards/rejected": -10.021780967712402,
+      "step": 306
+    },
+    {
+      "epoch": 5.203389830508475,
+      "grad_norm": 1.73302837343722,
+      "learning_rate": 1.6468839796029198e-07,
+      "logits/chosen": -0.4207502603530884,
+      "logits/rejected": -0.44503217935562134,
+      "logps/chosen": -32.272743225097656,
+      "logps/rejected": -66.51268005371094,
+      "loss": 0.0087,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.1082534790039062,
+      "rewards/margins": 7.719623565673828,
+      "rewards/rejected": -8.827877044677734,
+      "step": 307
+    },
+    {
+      "epoch": 5.220338983050848,
+      "grad_norm": 1.8347981610660942,
+      "learning_rate": 1.6294959114140033e-07,
+      "logits/chosen": -0.48544037342071533,
+      "logits/rejected": -0.4978610873222351,
+      "logps/chosen": -29.223657608032227,
+      "logps/rejected": -50.626705169677734,
+      "loss": 0.0129,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.6578260660171509,
+      "rewards/margins": 6.7553253173828125,
+      "rewards/rejected": -7.413151264190674,
+      "step": 308
+    },
+    {
+      "epoch": 5.237288135593221,
+      "grad_norm": 1.7157007652326588,
+      "learning_rate": 1.6121556332063861e-07,
+      "logits/chosen": -0.3168514370918274,
+      "logits/rejected": -0.2793565094470978,
+      "logps/chosen": -35.01051712036133,
+      "logps/rejected": -47.876895904541016,
+      "loss": 0.0133,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.6407256722450256,
+      "rewards/margins": 6.404169082641602,
+      "rewards/rejected": -7.044894218444824,
+      "step": 309
+    },
+    {
+      "epoch": 5.254237288135593,
+      "grad_norm": 2.1874539268273816,
+      "learning_rate": 1.5948640969475345e-07,
+      "logits/chosen": -0.3500838875770569,
+      "logits/rejected": -0.3151024580001831,
+      "logps/chosen": -22.813232421875,
+      "logps/rejected": -44.60185241699219,
+      "loss": 0.0179,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.16966784000396729,
+      "rewards/margins": 7.1504058837890625,
+      "rewards/rejected": -7.32007360458374,
+      "step": 310
+    },
+    {
+      "epoch": 5.271186440677966,
+      "grad_norm": 1.5893639618489923,
+      "learning_rate": 1.5776222519290204e-07,
+      "logits/chosen": -0.5237964987754822,
+      "logits/rejected": -0.5302670001983643,
+      "logps/chosen": -25.384904861450195,
+      "logps/rejected": -52.52655792236328,
+      "loss": 0.0087,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.9161776304244995,
+      "rewards/margins": 7.243150234222412,
+      "rewards/rejected": -8.15932846069336,
+      "step": 311
+    },
+    {
+      "epoch": 5.288135593220339,
+      "grad_norm": 1.507891171137426,
+      "learning_rate": 1.560431044714405e-07,
+      "logits/chosen": -0.388788104057312,
+      "logits/rejected": -0.3403037488460541,
+      "logps/chosen": -34.243717193603516,
+      "logps/rejected": -60.99458312988281,
+      "loss": 0.0106,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.348089575767517,
+      "rewards/margins": 7.640527248382568,
+      "rewards/rejected": -8.988616943359375,
+      "step": 312
+    },
+    {
+      "epoch": 5.305084745762712,
+      "grad_norm": 2.10463616748223,
+      "learning_rate": 1.5432914190872756e-07,
+      "logits/chosen": -0.3692334294319153,
+      "logits/rejected": -0.349362313747406,
+      "logps/chosen": -26.829898834228516,
+      "logps/rejected": -47.90415954589844,
+      "loss": 0.0118,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.8458276987075806,
+      "rewards/margins": 6.770244121551514,
+      "rewards/rejected": -7.6160712242126465,
+      "step": 313
+    },
+    {
+      "epoch": 5.322033898305085,
+      "grad_norm": 1.926573035403958,
+      "learning_rate": 1.5262043159994314e-07,
+      "logits/chosen": -0.44576406478881836,
+      "logits/rejected": -0.39015570282936096,
+      "logps/chosen": -24.399137496948242,
+      "logps/rejected": -62.678646087646484,
+      "loss": 0.0128,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.23113268613815308,
+      "rewards/margins": 9.731943130493164,
+      "rewards/rejected": -9.963075637817383,
+      "step": 314
+    },
+    {
+      "epoch": 5.338983050847458,
+      "grad_norm": 1.7795060387621737,
+      "learning_rate": 1.5091706735192266e-07,
+      "logits/chosen": -0.3505421280860901,
+      "logits/rejected": -0.3113071322441101,
+      "logps/chosen": -22.754703521728516,
+      "logps/rejected": -58.468963623046875,
+      "loss": 0.0221,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.9263325929641724,
+      "rewards/margins": 7.451290130615234,
+      "rewards/rejected": -8.377622604370117,
+      "step": 315
+    },
+    {
+      "epoch": 5.3559322033898304,
+      "grad_norm": 2.145087625077026,
+      "learning_rate": 1.4921914267800699e-07,
+      "logits/chosen": -0.3622016906738281,
+      "logits/rejected": -0.3543117642402649,
+      "logps/chosen": -20.036022186279297,
+      "logps/rejected": -38.42483901977539,
+      "loss": 0.017,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.31162628531455994,
+      "rewards/margins": 5.150010108947754,
+      "rewards/rejected": -5.461635589599609,
+      "step": 316
+    },
+    {
+      "epoch": 5.372881355932203,
+      "grad_norm": 1.7053004335113204,
+      "learning_rate": 1.4752675079290848e-07,
+      "logits/chosen": -0.31497931480407715,
+      "logits/rejected": -0.2895013391971588,
+      "logps/chosen": -28.917264938354492,
+      "logps/rejected": -43.556121826171875,
+      "loss": 0.01,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.9403586983680725,
+      "rewards/margins": 5.686085224151611,
+      "rewards/rejected": -6.626444339752197,
+      "step": 317
+    },
+    {
+      "epoch": 5.389830508474576,
+      "grad_norm": 1.6608947087640378,
+      "learning_rate": 1.458399846075942e-07,
+      "logits/chosen": -0.5058786273002625,
+      "logits/rejected": -0.47814008593559265,
+      "logps/chosen": -31.875675201416016,
+      "logps/rejected": -60.682525634765625,
+      "loss": 0.0113,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.1719341278076172,
+      "rewards/margins": 7.2327094078063965,
+      "rewards/rejected": -8.404644012451172,
+      "step": 318
+    },
+    {
+      "epoch": 5.406779661016949,
+      "grad_norm": 2.159091958032586,
+      "learning_rate": 1.441589367241846e-07,
+      "logits/chosen": -0.3478569984436035,
+      "logits/rejected": -0.3360307216644287,
+      "logps/chosen": -25.11379051208496,
+      "logps/rejected": -47.88860321044922,
+      "loss": 0.0143,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.6650610566139221,
+      "rewards/margins": 6.3550872802734375,
+      "rewards/rejected": -7.020147323608398,
+      "step": 319
+    },
+    {
+      "epoch": 5.423728813559322,
+      "grad_norm": 2.576395194299276,
+      "learning_rate": 1.4248369943086995e-07,
+      "logits/chosen": -0.41911399364471436,
+      "logits/rejected": -0.3637450933456421,
+      "logps/chosen": -29.785608291625977,
+      "logps/rejected": -50.008182525634766,
+      "loss": 0.0209,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.31600964069366455,
+      "rewards/margins": 7.043180465698242,
+      "rewards/rejected": -7.359189510345459,
+      "step": 320
+    },
+    {
+      "epoch": 5.440677966101695,
+      "grad_norm": 2.1653315983567416,
+      "learning_rate": 1.4081436469684337e-07,
+      "logits/chosen": -0.32830509543418884,
+      "logits/rejected": -0.317745566368103,
+      "logps/chosen": -25.206449508666992,
+      "logps/rejected": -49.792205810546875,
+      "loss": 0.0112,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.6629531383514404,
+      "rewards/margins": 7.332546234130859,
+      "rewards/rejected": -7.995500087738037,
+      "step": 321
+    },
+    {
+      "epoch": 5.4576271186440675,
+      "grad_norm": 1.619909996410463,
+      "learning_rate": 1.3915102416725286e-07,
+      "logits/chosen": -0.43633776903152466,
+      "logits/rejected": -0.4285232424736023,
+      "logps/chosen": -21.11972427368164,
+      "logps/rejected": -50.980804443359375,
+      "loss": 0.0137,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.572965145111084,
+      "rewards/margins": 6.161455154418945,
+      "rewards/rejected": -6.734420299530029,
+      "step": 322
+    },
+    {
+      "epoch": 5.47457627118644,
+      "grad_norm": 2.1885009314879538,
+      "learning_rate": 1.3749376915816885e-07,
+      "logits/chosen": -0.21762433648109436,
+      "logits/rejected": -0.196787029504776,
+      "logps/chosen": -35.26130676269531,
+      "logps/rejected": -56.66743087768555,
+      "loss": 0.0151,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.8203563690185547,
+      "rewards/margins": 7.474347114562988,
+      "rewards/rejected": -9.294703483581543,
+      "step": 323
+    },
+    {
+      "epoch": 5.491525423728813,
+      "grad_norm": 1.9365005337913619,
+      "learning_rate": 1.3584269065157172e-07,
+      "logits/chosen": -0.27862459421157837,
+      "logits/rejected": -0.2110404521226883,
+      "logps/chosen": -35.968971252441406,
+      "logps/rejected": -56.928218841552734,
+      "loss": 0.0117,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.3680837154388428,
+      "rewards/margins": 6.986885070800781,
+      "rewards/rejected": -8.354969024658203,
+      "step": 324
+    },
+    {
+      "epoch": 5.508474576271187,
+      "grad_norm": 1.3422635792385325,
+      "learning_rate": 1.341978792903568e-07,
+      "logits/chosen": -0.30388015508651733,
+      "logits/rejected": -0.2732846736907959,
+      "logps/chosen": -23.869976043701172,
+      "logps/rejected": -52.69965362548828,
+      "loss": 0.0066,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.31776559352874756,
+      "rewards/margins": 8.570083618164062,
+      "rewards/rejected": -8.887847900390625,
+      "step": 325
+    },
+    {
+      "epoch": 5.52542372881356,
+      "grad_norm": 2.3813246068255487,
+      "learning_rate": 1.3255942537335804e-07,
+      "logits/chosen": -0.33688196539878845,
+      "logits/rejected": -0.35382434725761414,
+      "logps/chosen": -28.49911117553711,
+      "logps/rejected": -51.572757720947266,
+      "loss": 0.0228,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.8108580112457275,
+      "rewards/margins": 6.868773937225342,
+      "rewards/rejected": -7.67963171005249,
+      "step": 326
+    },
+    {
+      "epoch": 5.5423728813559325,
+      "grad_norm": 1.4536548361254025,
+      "learning_rate": 1.3092741885039085e-07,
+      "logits/chosen": -0.2705250084400177,
+      "logits/rejected": -0.2894834876060486,
+      "logps/chosen": -27.802425384521484,
+      "logps/rejected": -66.8345718383789,
+      "loss": 0.0252,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.008652925491333,
+      "rewards/margins": 8.34438419342041,
+      "rewards/rejected": -9.35303783416748,
+      "step": 327
+    },
+    {
+      "epoch": 5.559322033898305,
+      "grad_norm": 2.049468728531298,
+      "learning_rate": 1.2930194931731382e-07,
+      "logits/chosen": -0.36835363507270813,
+      "logits/rejected": -0.3584752380847931,
+      "logps/chosen": -20.919490814208984,
+      "logps/rejected": -39.850074768066406,
+      "loss": 0.0163,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.48556971549987793,
+      "rewards/margins": 6.541074752807617,
+      "rewards/rejected": -7.026644229888916,
+      "step": 328
+    },
+    {
+      "epoch": 5.576271186440678,
+      "grad_norm": 1.5752341980459406,
+      "learning_rate": 1.2768310601110993e-07,
+      "logits/chosen": -0.4180675148963928,
+      "logits/rejected": -0.4410182535648346,
+      "logps/chosen": -25.881986618041992,
+      "logps/rejected": -69.80418395996094,
+      "loss": 0.0086,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.903774082660675,
+      "rewards/margins": 9.744110107421875,
+      "rewards/rejected": -10.647883415222168,
+      "step": 329
+    },
+    {
+      "epoch": 5.593220338983051,
+      "grad_norm": 1.7653806800087801,
+      "learning_rate": 1.260709778049877e-07,
+      "logits/chosen": -0.29894641041755676,
+      "logits/rejected": -0.300833523273468,
+      "logps/chosen": -26.03153419494629,
+      "logps/rejected": -47.6400260925293,
+      "loss": 0.008,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.7818778157234192,
+      "rewards/margins": 6.886005878448486,
+      "rewards/rejected": -7.667883396148682,
+      "step": 330
+    },
+    {
+      "epoch": 5.610169491525424,
+      "grad_norm": 1.4297534909157374,
+      "learning_rate": 1.2446565320350182e-07,
+      "logits/chosen": -0.3907126188278198,
+      "logits/rejected": -0.37021511793136597,
+      "logps/chosen": -21.903635025024414,
+      "logps/rejected": -48.463523864746094,
+      "loss": 0.0182,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.698778510093689,
+      "rewards/margins": 6.993403434753418,
+      "rewards/rejected": -7.692181587219238,
+      "step": 331
+    },
+    {
+      "epoch": 5.627118644067797,
+      "grad_norm": 1.9822675391192361,
+      "learning_rate": 1.2286722033769492e-07,
+      "logits/chosen": -0.4067448675632477,
+      "logits/rejected": -0.3597560524940491,
+      "logps/chosen": -27.199350357055664,
+      "logps/rejected": -53.19655227661133,
+      "loss": 0.0114,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.44194698333740234,
+      "rewards/margins": 7.5092453956604,
+      "rewards/rejected": -7.9511919021606445,
+      "step": 332
+    },
+    {
+      "epoch": 5.6440677966101696,
+      "grad_norm": 1.6861714590542527,
+      "learning_rate": 1.2127576696025826e-07,
+      "logits/chosen": -0.38976797461509705,
+      "logits/rejected": -0.3696633577346802,
+      "logps/chosen": -30.58667755126953,
+      "logps/rejected": -71.94692993164062,
+      "loss": 0.0149,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.8064645528793335,
+      "rewards/margins": 10.191534042358398,
+      "rewards/rejected": -10.99799919128418,
+      "step": 333
+    },
+    {
+      "epoch": 5.661016949152542,
+      "grad_norm": 2.050031332323167,
+      "learning_rate": 1.19691380440715e-07,
+      "logits/chosen": -0.3898102045059204,
+      "logits/rejected": -0.37484288215637207,
+      "logps/chosen": -28.617263793945312,
+      "logps/rejected": -48.9388427734375,
+      "loss": 0.0184,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -1.1024081707000732,
+      "rewards/margins": 5.788519382476807,
+      "rewards/rejected": -6.890927314758301,
+      "step": 334
+    },
+    {
+      "epoch": 5.677966101694915,
+      "grad_norm": 1.4885965824230383,
+      "learning_rate": 1.1811414776062365e-07,
+      "logits/chosen": -0.21893128752708435,
+      "logits/rejected": -0.17550604045391083,
+      "logps/chosen": -31.78797149658203,
+      "logps/rejected": -53.7734260559082,
+      "loss": 0.0076,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.8101913928985596,
+      "rewards/margins": 7.902094841003418,
+      "rewards/rejected": -8.712285995483398,
+      "step": 335
+    },
+    {
+      "epoch": 5.694915254237288,
+      "grad_norm": 1.8676903528380577,
+      "learning_rate": 1.1654415550880242e-07,
+      "logits/chosen": -0.4299631118774414,
+      "logits/rejected": -0.4651949405670166,
+      "logps/chosen": -24.422216415405273,
+      "logps/rejected": -49.618309020996094,
+      "loss": 0.0111,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.24530749022960663,
+      "rewards/margins": 8.013923645019531,
+      "rewards/rejected": -8.259231567382812,
+      "step": 336
+    },
+    {
+      "epoch": 5.711864406779661,
+      "grad_norm": 2.0067876768226243,
+      "learning_rate": 1.1498148987657549e-07,
+      "logits/chosen": -0.290162056684494,
+      "logits/rejected": -0.2921581566333771,
+      "logps/chosen": -29.040874481201172,
+      "logps/rejected": -60.61643981933594,
+      "loss": 0.0144,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.3281574249267578,
+      "rewards/margins": 8.345926284790039,
+      "rewards/rejected": -9.674084663391113,
+      "step": 337
+    },
+    {
+      "epoch": 5.728813559322034,
+      "grad_norm": 1.6926593631605538,
+      "learning_rate": 1.1342623665304207e-07,
+      "logits/chosen": -0.39946579933166504,
+      "logits/rejected": -0.3756706416606903,
+      "logps/chosen": -26.8501033782959,
+      "logps/rejected": -57.20337677001953,
+      "loss": 0.0156,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.4086235761642456,
+      "rewards/margins": 7.640737056732178,
+      "rewards/rejected": -9.049360275268555,
+      "step": 338
+    },
+    {
+      "epoch": 5.745762711864407,
+      "grad_norm": 1.933017411699114,
+      "learning_rate": 1.1187848122036562e-07,
+      "logits/chosen": -0.38379529118537903,
+      "logits/rejected": -0.35069793462753296,
+      "logps/chosen": -27.219024658203125,
+      "logps/rejected": -45.80855941772461,
+      "loss": 0.0133,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.0740251541137695,
+      "rewards/margins": 6.810902118682861,
+      "rewards/rejected": -7.884926795959473,
+      "step": 339
+    },
+    {
+      "epoch": 5.762711864406779,
+      "grad_norm": 2.68284847566437,
+      "learning_rate": 1.1033830854908691e-07,
+      "logits/chosen": -0.463611364364624,
+      "logits/rejected": -0.46968621015548706,
+      "logps/chosen": -23.01727294921875,
+      "logps/rejected": -51.12052917480469,
+      "loss": 0.0209,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.40349888801574707,
+      "rewards/margins": 7.609687328338623,
+      "rewards/rejected": -8.013185501098633,
+      "step": 340
+    },
+    {
+      "epoch": 5.779661016949152,
+      "grad_norm": 1.830575531381985,
+      "learning_rate": 1.0880580319345919e-07,
+      "logits/chosen": -0.4400818645954132,
+      "logits/rejected": -0.36093467473983765,
+      "logps/chosen": -29.340173721313477,
+      "logps/rejected": -51.93349075317383,
+      "loss": 0.0098,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.12024500221014023,
+      "rewards/margins": 8.31672191619873,
+      "rewards/rejected": -8.436967849731445,
+      "step": 341
+    },
+    {
+      "epoch": 5.796610169491525,
+      "grad_norm": 2.1072568448760323,
+      "learning_rate": 1.0728104928680623e-07,
+      "logits/chosen": -0.4102250039577484,
+      "logits/rejected": -0.40293923020362854,
+      "logps/chosen": -24.35076904296875,
+      "logps/rejected": -49.26411437988281,
+      "loss": 0.018,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.5383625030517578,
+      "rewards/margins": 6.970728874206543,
+      "rewards/rejected": -8.5090913772583,
+      "step": 342
+    },
+    {
+      "epoch": 5.813559322033898,
+      "grad_norm": 1.5832557378178098,
+      "learning_rate": 1.0576413053690326e-07,
+      "logits/chosen": -0.3550926446914673,
+      "logits/rejected": -0.33369180560112,
+      "logps/chosen": -23.023447036743164,
+      "logps/rejected": -51.34148406982422,
+      "loss": 0.0132,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.41946250200271606,
+      "rewards/margins": 8.600196838378906,
+      "rewards/rejected": -9.019659042358398,
+      "step": 343
+    },
+    {
+      "epoch": 5.830508474576272,
+      "grad_norm": 1.2740745062843633,
+      "learning_rate": 1.0425513022138202e-07,
+      "logits/chosen": -0.44471290707588196,
+      "logits/rejected": -0.45575839281082153,
+      "logps/chosen": -30.049896240234375,
+      "logps/rejected": -62.054786682128906,
+      "loss": 0.0079,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.082101583480835,
+      "rewards/margins": 8.661722183227539,
+      "rewards/rejected": -9.743824005126953,
+      "step": 344
+    },
+    {
+      "epoch": 5.847457627118644,
+      "grad_norm": 1.8801561548243628,
+      "learning_rate": 1.0275413118315798e-07,
+      "logits/chosen": -0.4198082387447357,
+      "logits/rejected": -0.4343384802341461,
+      "logps/chosen": -26.124162673950195,
+      "logps/rejected": -49.45093536376953,
+      "loss": 0.0147,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.23411789536476135,
+      "rewards/margins": 7.040526390075684,
+      "rewards/rejected": -7.27464485168457,
+      "step": 345
+    },
+    {
+      "epoch": 5.864406779661017,
+      "grad_norm": 2.125582956895436,
+      "learning_rate": 1.0126121582588315e-07,
+      "logits/chosen": -0.42699775099754333,
+      "logits/rejected": -0.332169771194458,
+      "logps/chosen": -42.01930618286133,
+      "logps/rejected": -51.770362854003906,
+      "loss": 0.0174,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.4565836191177368,
+      "rewards/margins": 6.331849098205566,
+      "rewards/rejected": -7.788432598114014,
+      "step": 346
+    },
+    {
+      "epoch": 5.88135593220339,
+      "grad_norm": 1.7338911737005034,
+      "learning_rate": 9.977646610942201e-08,
+      "logits/chosen": -0.46750593185424805,
+      "logits/rejected": -0.4310920536518097,
+      "logps/chosen": -34.33905792236328,
+      "logps/rejected": -55.792449951171875,
+      "loss": 0.0096,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.1425302028656006,
+      "rewards/margins": 6.989797592163086,
+      "rewards/rejected": -8.13232707977295,
+      "step": 347
+    },
+    {
+      "epoch": 5.898305084745763,
+      "grad_norm": 2.124936709443199,
+      "learning_rate": 9.829996354535172e-08,
+      "logits/chosen": -0.19952382147312164,
+      "logits/rejected": -0.21836933493614197,
+      "logps/chosen": -19.52752685546875,
+      "logps/rejected": -51.54100799560547,
+      "loss": 0.0177,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.42098936438560486,
+      "rewards/margins": 7.090313911437988,
+      "rewards/rejected": -7.511303424835205,
+      "step": 348
+    },
+    {
+      "epoch": 5.915254237288136,
+      "grad_norm": 1.936391711504055,
+      "learning_rate": 9.68317891924871e-08,
+      "logits/chosen": -0.37741342186927795,
+      "logits/rejected": -0.3150150179862976,
+      "logps/chosen": -33.96430587768555,
+      "logps/rejected": -58.169151306152344,
+      "loss": 0.0126,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.8618389368057251,
+      "rewards/margins": 7.058804988861084,
+      "rewards/rejected": -7.9206438064575195,
+      "step": 349
+    },
+    {
+      "epoch": 5.932203389830509,
+      "grad_norm": 1.8102577538281432,
+      "learning_rate": 9.53720236524313e-08,
+      "logits/chosen": -0.3949698805809021,
+      "logits/rejected": -0.29366767406463623,
+      "logps/chosen": -37.89696502685547,
+      "logps/rejected": -47.563255310058594,
+      "loss": 0.0105,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.420377641916275,
+      "rewards/margins": 6.494236946105957,
+      "rewards/rejected": -6.914615631103516,
+      "step": 350
+    },
+    {
+      "epoch": 5.9491525423728815,
+      "grad_norm": 1.5979190927318805,
+      "learning_rate": 9.392074706515002e-08,
+      "logits/chosen": -0.2729552388191223,
+      "logits/rejected": -0.28463542461395264,
+      "logps/chosen": -28.566404342651367,
+      "logps/rejected": -56.13119125366211,
+      "loss": 0.0119,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.8524938821792603,
+      "rewards/margins": 7.293689727783203,
+      "rewards/rejected": -8.146183967590332,
+      "step": 351
+    },
+    {
+      "epoch": 5.966101694915254,
+      "grad_norm": 2.3839776379838384,
+      "learning_rate": 9.247803910457225e-08,
+      "logits/chosen": -0.3895640969276428,
+      "logits/rejected": -0.3975210189819336,
+      "logps/chosen": -26.325103759765625,
+      "logps/rejected": -53.08610534667969,
+      "loss": 0.0202,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.3783128261566162,
+      "rewards/margins": 7.456340789794922,
+      "rewards/rejected": -8.834653854370117,
+      "step": 352
+    },
+    {
+      "epoch": 5.983050847457627,
+      "grad_norm": 1.2920698746602828,
+      "learning_rate": 9.104397897421623e-08,
+      "logits/chosen": -0.32404041290283203,
+      "logits/rejected": -0.27217093110084534,
+      "logps/chosen": -25.754863739013672,
+      "logps/rejected": -63.25767135620117,
+      "loss": 0.0068,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.3308719396591187,
+      "rewards/margins": 8.711791038513184,
+      "rewards/rejected": -10.04266357421875,
+      "step": 353
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 1.282532794116693,
+      "learning_rate": 8.961864540284119e-08,
+      "logits/chosen": -0.49952465295791626,
+      "logits/rejected": -0.5269231796264648,
+      "logps/chosen": -22.62492561340332,
+      "logps/rejected": -51.047019958496094,
+      "loss": 0.0076,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.5334063172340393,
+      "rewards/margins": 8.3474702835083,
+      "rewards/rejected": -8.880876541137695,
+      "step": 354
+    },
+    {
+      "epoch": 6.016949152542373,
+      "grad_norm": 1.7112403823625462,
+      "learning_rate": 8.82021166401253e-08,
+      "logits/chosen": -0.3233092129230499,
+      "logits/rejected": -0.2621540427207947,
+      "logps/chosen": -44.06984329223633,
+      "logps/rejected": -58.04002380371094,
+      "loss": 0.0125,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -2.143134355545044,
+      "rewards/margins": 6.095809459686279,
+      "rewards/rejected": -8.238943099975586,
+      "step": 355
+    },
+    {
+      "epoch": 6.033898305084746,
+      "grad_norm": 2.3344092696583947,
+      "learning_rate": 8.679447045236962e-08,
+      "logits/chosen": -0.3654767572879791,
+      "logits/rejected": -0.3644530773162842,
+      "logps/chosen": -20.51791763305664,
+      "logps/rejected": -45.79965591430664,
+      "loss": 0.017,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.5996273756027222,
+      "rewards/margins": 7.613353729248047,
+      "rewards/rejected": -8.212981224060059,
+      "step": 356
+    },
+    {
+      "epoch": 6.0508474576271185,
+      "grad_norm": 2.317485347300773,
+      "learning_rate": 8.539578411822901e-08,
+      "logits/chosen": -0.3773816227912903,
+      "logits/rejected": -0.3972689211368561,
+      "logps/chosen": -30.56630516052246,
+      "logps/rejected": -50.376220703125,
+      "loss": 0.0171,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.9383816719055176,
+      "rewards/margins": 6.174047946929932,
+      "rewards/rejected": -7.112429618835449,
+      "step": 357
+    },
+    {
+      "epoch": 6.067796610169491,
+      "grad_norm": 1.4474880701357473,
+      "learning_rate": 8.400613442446947e-08,
+      "logits/chosen": -0.5112478733062744,
+      "logits/rejected": -0.4722178876399994,
+      "logps/chosen": -27.13446807861328,
+      "logps/rejected": -52.48398208618164,
+      "loss": 0.0099,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.3206241130828857,
+      "rewards/margins": 7.3138251304626465,
+      "rewards/rejected": -8.63444995880127,
+      "step": 358
+    },
+    {
+      "epoch": 6.084745762711864,
+      "grad_norm": 1.2482543871299383,
+      "learning_rate": 8.262559766175253e-08,
+      "logits/chosen": -0.37037163972854614,
+      "logits/rejected": -0.40053224563598633,
+      "logps/chosen": -26.4130802154541,
+      "logps/rejected": -58.55597686767578,
+      "loss": 0.0066,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.92750483751297,
+      "rewards/margins": 8.936185836791992,
+      "rewards/rejected": -9.863691329956055,
+      "step": 359
+    },
+    {
+      "epoch": 6.101694915254237,
+      "grad_norm": 1.3326694254649336,
+      "learning_rate": 8.125424962044741e-08,
+      "logits/chosen": -0.4082280993461609,
+      "logits/rejected": -0.3952917158603668,
+      "logps/chosen": -31.45101547241211,
+      "logps/rejected": -57.48428726196289,
+      "loss": 0.0076,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.774019479751587,
+      "rewards/margins": 7.355801105499268,
+      "rewards/rejected": -9.129819869995117,
+      "step": 360
+    },
+    {
+      "epoch": 6.11864406779661,
+      "grad_norm": 1.7964966769625663,
+      "learning_rate": 7.989216558646941e-08,
+      "logits/chosen": -0.37784266471862793,
+      "logits/rejected": -0.3356171250343323,
+      "logps/chosen": -33.39372634887695,
+      "logps/rejected": -53.96965789794922,
+      "loss": 0.0149,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.1166173219680786,
+      "rewards/margins": 7.514166831970215,
+      "rewards/rejected": -8.630784034729004,
+      "step": 361
+    },
+    {
+      "epoch": 6.135593220338983,
+      "grad_norm": 1.4381980147201805,
+      "learning_rate": 7.853942033714736e-08,
+      "logits/chosen": -0.33557164669036865,
+      "logits/rejected": -0.3193064332008362,
+      "logps/chosen": -37.53783416748047,
+      "logps/rejected": -60.92087173461914,
+      "loss": 0.0083,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.018031120300293,
+      "rewards/margins": 7.809800148010254,
+      "rewards/rejected": -8.827831268310547,
+      "step": 362
+    },
+    {
+      "epoch": 6.1525423728813555,
+      "grad_norm": 1.7983591719289653,
+      "learning_rate": 7.719608813711847e-08,
+      "logits/chosen": -0.39093196392059326,
+      "logits/rejected": -0.37135645747184753,
+      "logps/chosen": -25.3659725189209,
+      "logps/rejected": -43.70526123046875,
+      "loss": 0.0088,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.914777398109436,
+      "rewards/margins": 6.569075584411621,
+      "rewards/rejected": -7.483852863311768,
+      "step": 363
+    },
+    {
+      "epoch": 6.169491525423728,
+      "grad_norm": 2.0553124333196475,
+      "learning_rate": 7.586224273425081e-08,
+      "logits/chosen": -0.43935853242874146,
+      "logits/rejected": -0.39239639043807983,
+      "logps/chosen": -31.48431396484375,
+      "logps/rejected": -54.33441162109375,
+      "loss": 0.0125,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.8172799944877625,
+      "rewards/margins": 7.351185321807861,
+      "rewards/rejected": -8.168466567993164,
+      "step": 364
+    },
+    {
+      "epoch": 6.186440677966102,
+      "grad_norm": 1.5277879793345497,
+      "learning_rate": 7.45379573555947e-08,
+      "logits/chosen": -0.35419967770576477,
+      "logits/rejected": -0.29741495847702026,
+      "logps/chosen": -32.288909912109375,
+      "logps/rejected": -48.68520736694336,
+      "loss": 0.009,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.7244929671287537,
+      "rewards/margins": 6.385775089263916,
+      "rewards/rejected": -7.110268592834473,
+      "step": 365
+    },
+    {
+      "epoch": 6.203389830508475,
+      "grad_norm": 1.2587042351574373,
+      "learning_rate": 7.322330470336313e-08,
+      "logits/chosen": -0.3986334502696991,
+      "logits/rejected": -0.41473451256752014,
+      "logps/chosen": -28.10173225402832,
+      "logps/rejected": -60.30015182495117,
+      "loss": 0.0119,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.9395461082458496,
+      "rewards/margins": 8.40530014038086,
+      "rewards/rejected": -9.34484577178955,
+      "step": 366
+    },
+    {
+      "epoch": 6.220338983050848,
+      "grad_norm": 1.9104878326976753,
+      "learning_rate": 7.19183569509398e-08,
+      "logits/chosen": -0.42515650391578674,
+      "logits/rejected": -0.4083452820777893,
+      "logps/chosen": -25.77292251586914,
+      "logps/rejected": -43.442447662353516,
+      "loss": 0.0134,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.8836389183998108,
+      "rewards/margins": 6.8581342697143555,
+      "rewards/rejected": -7.74177360534668,
+      "step": 367
+    },
+    {
+      "epoch": 6.237288135593221,
+      "grad_norm": 1.6423168042541676,
+      "learning_rate": 7.062318573891715e-08,
+      "logits/chosen": -0.27111876010894775,
+      "logits/rejected": -0.22774375975131989,
+      "logps/chosen": -25.00893783569336,
+      "logps/rejected": -51.19509506225586,
+      "loss": 0.0165,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.6221886873245239,
+      "rewards/margins": 7.797216892242432,
+      "rewards/rejected": -8.419405937194824,
+      "step": 368
+    },
+    {
+      "epoch": 6.254237288135593,
+      "grad_norm": 1.9302693331546565,
+      "learning_rate": 6.933786217116364e-08,
+      "logits/chosen": -0.3160867691040039,
+      "logits/rejected": -0.2463129460811615,
+      "logps/chosen": -24.83222198486328,
+      "logps/rejected": -45.60934066772461,
+      "loss": 0.0164,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.16461661458015442,
+      "rewards/margins": 6.204172134399414,
+      "rewards/rejected": -6.368788242340088,
+      "step": 369
+    },
+    {
+      "epoch": 6.271186440677966,
+      "grad_norm": 1.5842681388350077,
+      "learning_rate": 6.806245681091944e-08,
+      "logits/chosen": -0.3545396029949188,
+      "logits/rejected": -0.25907883048057556,
+      "logps/chosen": -28.055213928222656,
+      "logps/rejected": -56.62708282470703,
+      "loss": 0.0102,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.246912956237793,
+      "rewards/margins": 8.316703796386719,
+      "rewards/rejected": -9.563617706298828,
+      "step": 370
+    },
+    {
+      "epoch": 6.288135593220339,
+      "grad_norm": 1.8111378961230746,
+      "learning_rate": 6.679703967692321e-08,
+      "logits/chosen": -0.21147161722183228,
+      "logits/rejected": -0.20179268717765808,
+      "logps/chosen": -23.622386932373047,
+      "logps/rejected": -56.40178680419922,
+      "loss": 0.0113,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.9630917310714722,
+      "rewards/margins": 7.12011194229126,
+      "rewards/rejected": -8.08320426940918,
+      "step": 371
+    },
+    {
+      "epoch": 6.305084745762712,
+      "grad_norm": 1.1986230098938282,
+      "learning_rate": 6.554168023956816e-08,
+      "logits/chosen": -0.2591314911842346,
+      "logits/rejected": -0.27817869186401367,
+      "logps/chosen": -27.67983627319336,
+      "logps/rejected": -50.832889556884766,
+      "loss": 0.0114,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.1853872537612915,
+      "rewards/margins": 6.63606071472168,
+      "rewards/rejected": -7.82144832611084,
+      "step": 372
+    },
+    {
+      "epoch": 6.322033898305085,
+      "grad_norm": 1.7049379706268657,
+      "learning_rate": 6.429644741708779e-08,
+      "logits/chosen": -0.4500387907028198,
+      "logits/rejected": -0.36974358558654785,
+      "logps/chosen": -23.562002182006836,
+      "logps/rejected": -42.636146545410156,
+      "loss": 0.0115,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.6414427757263184,
+      "rewards/margins": 6.672116756439209,
+      "rewards/rejected": -7.313559532165527,
+      "step": 373
+    },
+    {
+      "epoch": 6.338983050847458,
+      "grad_norm": 1.359337092287595,
+      "learning_rate": 6.306140957177225e-08,
+      "logits/chosen": -0.3460231125354767,
+      "logits/rejected": -0.3752771317958832,
+      "logps/chosen": -25.647207260131836,
+      "logps/rejected": -51.0827522277832,
+      "loss": 0.0073,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.7650890350341797,
+      "rewards/margins": 6.918083667755127,
+      "rewards/rejected": -7.683172702789307,
+      "step": 374
+    },
+    {
+      "epoch": 6.3559322033898304,
+      "grad_norm": 1.534380633126308,
+      "learning_rate": 6.183663450621607e-08,
+      "logits/chosen": -0.34895992279052734,
+      "logits/rejected": -0.3292369842529297,
+      "logps/chosen": -34.13381576538086,
+      "logps/rejected": -55.714393615722656,
+      "loss": 0.0115,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.8866183757781982,
+      "rewards/margins": 7.842109203338623,
+      "rewards/rejected": -8.728727340698242,
+      "step": 375
+    },
+    {
+      "epoch": 6.372881355932203,
+      "grad_norm": 1.5779257981471628,
+      "learning_rate": 6.062218945959496e-08,
+      "logits/chosen": -0.4587939977645874,
+      "logits/rejected": -0.4462360143661499,
+      "logps/chosen": -33.18772888183594,
+      "logps/rejected": -50.75407028198242,
+      "loss": 0.0095,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.7835342288017273,
+      "rewards/margins": 7.535502910614014,
+      "rewards/rejected": -8.319037437438965,
+      "step": 376
+    },
+    {
+      "epoch": 6.389830508474576,
+      "grad_norm": 1.4524083267309678,
+      "learning_rate": 5.9418141103975026e-08,
+      "logits/chosen": -0.3016980290412903,
+      "logits/rejected": -0.3382137417793274,
+      "logps/chosen": -28.424884796142578,
+      "logps/rejected": -67.0705337524414,
+      "loss": 0.0078,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.947837233543396,
+      "rewards/margins": 10.247238159179688,
+      "rewards/rejected": -11.195074081420898,
+      "step": 377
+    },
+    {
+      "epoch": 6.406779661016949,
+      "grad_norm": 1.5502969744773236,
+      "learning_rate": 5.822455554065217e-08,
+      "logits/chosen": -0.22019946575164795,
+      "logits/rejected": -0.18748457729816437,
+      "logps/chosen": -21.47047996520996,
+      "logps/rejected": -43.39370346069336,
+      "loss": 0.0102,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.4421558678150177,
+      "rewards/margins": 6.153988361358643,
+      "rewards/rejected": -6.59614372253418,
+      "step": 378
+    },
+    {
+      "epoch": 6.423728813559322,
+      "grad_norm": 1.4169584989322257,
+      "learning_rate": 5.704149829652341e-08,
+      "logits/chosen": -0.45599544048309326,
+      "logits/rejected": -0.38583889603614807,
+      "logps/chosen": -30.23516082763672,
+      "logps/rejected": -60.14368438720703,
+      "loss": 0.0078,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.9913487434387207,
+      "rewards/margins": 8.080925941467285,
+      "rewards/rejected": -9.072275161743164,
+      "step": 379
+    },
+    {
+      "epoch": 6.440677966101695,
+      "grad_norm": 1.9051661634723038,
+      "learning_rate": 5.586903432048942e-08,
+      "logits/chosen": -0.49622446298599243,
+      "logits/rejected": -0.4194895625114441,
+      "logps/chosen": -29.30303192138672,
+      "logps/rejected": -59.797874450683594,
+      "loss": 0.0103,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.547768473625183,
+      "rewards/margins": 8.939881324768066,
+      "rewards/rejected": -10.487649917602539,
+      "step": 380
+    },
+    {
+      "epoch": 6.4576271186440675,
+      "grad_norm": 1.6431936228958974,
+      "learning_rate": 5.470722797988883e-08,
+      "logits/chosen": -0.2737140953540802,
+      "logits/rejected": -0.27121812105178833,
+      "logps/chosen": -25.59175682067871,
+      "logps/rejected": -46.32392120361328,
+      "loss": 0.0119,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.4059231281280518,
+      "rewards/margins": 6.439781188964844,
+      "rewards/rejected": -7.845704078674316,
+      "step": 381
+    },
+    {
+      "epoch": 6.47457627118644,
+      "grad_norm": 1.3079903093761553,
+      "learning_rate": 5.355614305696468e-08,
+      "logits/chosen": -0.3695864677429199,
+      "logits/rejected": -0.30790218710899353,
+      "logps/chosen": -27.365276336669922,
+      "logps/rejected": -51.38225555419922,
+      "loss": 0.0087,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.4411066770553589,
+      "rewards/margins": 7.909936904907227,
+      "rewards/rejected": -8.351043701171875,
+      "step": 382
+    },
+    {
+      "epoch": 6.491525423728813,
+      "grad_norm": 1.5133700851337937,
+      "learning_rate": 5.241584274536259e-08,
+      "logits/chosen": -0.298088937997818,
+      "logits/rejected": -0.267940878868103,
+      "logps/chosen": -28.913124084472656,
+      "logps/rejected": -59.5203971862793,
+      "loss": 0.0094,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.8007093667984009,
+      "rewards/margins": 8.938852310180664,
+      "rewards/rejected": -9.739561080932617,
+      "step": 383
+    },
+    {
+      "epoch": 6.508474576271187,
+      "grad_norm": 1.405914234766755,
+      "learning_rate": 5.1286389646661654e-08,
+      "logits/chosen": -0.2601643204689026,
+      "logits/rejected": -0.2083461433649063,
+      "logps/chosen": -28.819889068603516,
+      "logps/rejected": -52.013458251953125,
+      "loss": 0.0081,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.2809916734695435,
+      "rewards/margins": 7.361697196960449,
+      "rewards/rejected": -8.642688751220703,
+      "step": 384
+    },
+    {
+      "epoch": 6.52542372881356,
+      "grad_norm": 1.4580353927814265,
+      "learning_rate": 5.0167845766937806e-08,
+      "logits/chosen": -0.4725567400455475,
+      "logits/rejected": -0.4601272642612457,
+      "logps/chosen": -29.988752365112305,
+      "logps/rejected": -49.545658111572266,
+      "loss": 0.0148,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.3534915447235107,
+      "rewards/margins": 6.975593090057373,
+      "rewards/rejected": -8.329084396362305,
+      "step": 385
+    },
+    {
+      "epoch": 6.5423728813559325,
+      "grad_norm": 1.6115119401528328,
+      "learning_rate": 4.906027251335917e-08,
+      "logits/chosen": -0.3040216565132141,
+      "logits/rejected": -0.2666282653808594,
+      "logps/chosen": -23.24091148376465,
+      "logps/rejected": -58.34555435180664,
+      "loss": 0.0121,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.226002812385559,
+      "rewards/margins": 8.7108154296875,
+      "rewards/rejected": -9.936819076538086,
+      "step": 386
+    },
+    {
+      "epoch": 6.559322033898305,
+      "grad_norm": 1.9607341782533316,
+      "learning_rate": 4.7963730690815467e-08,
+      "logits/chosen": -0.3676231801509857,
+      "logits/rejected": -0.3557916581630707,
+      "logps/chosen": -15.970260620117188,
+      "logps/rejected": -43.20943069458008,
+      "loss": 0.0133,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.12866909801959991,
+      "rewards/margins": 7.353845119476318,
+      "rewards/rejected": -7.2251763343811035,
+      "step": 387
+    },
+    {
+      "epoch": 6.576271186440678,
+      "grad_norm": 2.247467950803516,
+      "learning_rate": 4.687828049857967e-08,
+      "logits/chosen": -0.40337732434272766,
+      "logits/rejected": -0.3796375095844269,
+      "logps/chosen": -29.360713958740234,
+      "logps/rejected": -45.309486389160156,
+      "loss": 0.0243,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.8816546201705933,
+      "rewards/margins": 6.715970516204834,
+      "rewards/rejected": -7.597624778747559,
+      "step": 388
+    },
+    {
+      "epoch": 6.593220338983051,
+      "grad_norm": 1.5736622891761218,
+      "learning_rate": 4.580398152700304e-08,
+      "logits/chosen": -0.41009533405303955,
+      "logits/rejected": -0.445589154958725,
+      "logps/chosen": -24.89777374267578,
+      "logps/rejected": -54.37321853637695,
+      "loss": 0.012,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.717568576335907,
+      "rewards/margins": 8.025527000427246,
+      "rewards/rejected": -8.743096351623535,
+      "step": 389
+    },
+    {
+      "epoch": 6.610169491525424,
+      "grad_norm": 1.8210132983277654,
+      "learning_rate": 4.47408927542435e-08,
+      "logits/chosen": -0.23610210418701172,
+      "logits/rejected": -0.2229936569929123,
+      "logps/chosen": -23.190319061279297,
+      "logps/rejected": -47.796974182128906,
+      "loss": 0.0123,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.9015488028526306,
+      "rewards/margins": 6.892556667327881,
+      "rewards/rejected": -7.794105052947998,
+      "step": 390
+    },
+    {
+      "epoch": 6.627118644067797,
+      "grad_norm": 1.8113881906369103,
+      "learning_rate": 4.368907254302837e-08,
+      "logits/chosen": -0.4094342589378357,
+      "logits/rejected": -0.4127545654773712,
+      "logps/chosen": -18.310993194580078,
+      "logps/rejected": -50.38030242919922,
+      "loss": 0.0125,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.3419753909111023,
+      "rewards/margins": 8.148374557495117,
+      "rewards/rejected": -8.490348815917969,
+      "step": 391
+    },
+    {
+      "epoch": 6.6440677966101696,
+      "grad_norm": 1.2223010613658718,
+      "learning_rate": 4.264857863744956e-08,
+      "logits/chosen": -0.3197595477104187,
+      "logits/rejected": -0.2664377689361572,
+      "logps/chosen": -22.68889617919922,
+      "logps/rejected": -50.56337356567383,
+      "loss": 0.0075,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.839199960231781,
+      "rewards/margins": 8.539407730102539,
+      "rewards/rejected": -9.378606796264648,
+      "step": 392
+    },
+    {
+      "epoch": 6.661016949152542,
+      "grad_norm": 1.712303748336679,
+      "learning_rate": 4.161946815979403e-08,
+      "logits/chosen": -0.34751880168914795,
+      "logits/rejected": -0.32943466305732727,
+      "logps/chosen": -31.06998062133789,
+      "logps/rejected": -54.03396987915039,
+      "loss": 0.0127,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.07644249498844147,
+      "rewards/margins": 7.472164154052734,
+      "rewards/rejected": -7.5486063957214355,
+      "step": 393
+    },
+    {
+      "epoch": 6.677966101694915,
+      "grad_norm": 1.5445735625557495,
+      "learning_rate": 4.0601797607407505e-08,
+      "logits/chosen": -0.43604975938796997,
+      "logits/rejected": -0.44707322120666504,
+      "logps/chosen": -24.34992218017578,
+      "logps/rejected": -48.38789749145508,
+      "loss": 0.0126,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.0394837856292725,
+      "rewards/margins": 6.550841331481934,
+      "rewards/rejected": -7.590324878692627,
+      "step": 394
+    },
+    {
+      "epoch": 6.694915254237288,
+      "grad_norm": 1.3515811447555408,
+      "learning_rate": 3.9595622849593e-08,
+      "logits/chosen": -0.48450133204460144,
+      "logits/rejected": -0.425273060798645,
+      "logps/chosen": -24.3756046295166,
+      "logps/rejected": -54.65086364746094,
+      "loss": 0.0136,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.8011985421180725,
+      "rewards/margins": 8.252460479736328,
+      "rewards/rejected": -9.053659439086914,
+      "step": 395
+    },
+    {
+      "epoch": 6.711864406779661,
+      "grad_norm": 1.82157364531828,
+      "learning_rate": 3.8600999124543455e-08,
+      "logits/chosen": -0.43978190422058105,
+      "logits/rejected": -0.3958742618560791,
+      "logps/chosen": -23.50148582458496,
+      "logps/rejected": -49.621158599853516,
+      "loss": 0.0102,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.3347681760787964,
+      "rewards/margins": 7.130214214324951,
+      "rewards/rejected": -7.464982032775879,
+      "step": 396
+    },
+    {
+      "epoch": 6.728813559322034,
+      "grad_norm": 1.376347630528171,
+      "learning_rate": 3.7617981036309533e-08,
+      "logits/chosen": -0.44994401931762695,
+      "logits/rejected": -0.4660834074020386,
+      "logps/chosen": -22.31543731689453,
+      "logps/rejected": -48.74754333496094,
+      "loss": 0.0135,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.6207740306854248,
+      "rewards/margins": 7.773540019989014,
+      "rewards/rejected": -8.39431381225586,
+      "step": 397
+    },
+    {
+      "epoch": 6.745762711864407,
+      "grad_norm": 1.6630761397695306,
+      "learning_rate": 3.664662255180134e-08,
+      "logits/chosen": -0.2478867769241333,
+      "logits/rejected": -0.2218003273010254,
+      "logps/chosen": -27.264450073242188,
+      "logps/rejected": -48.04404830932617,
+      "loss": 0.0177,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.0151184797286987,
+      "rewards/margins": 5.991296768188477,
+      "rewards/rejected": -7.006415367126465,
+      "step": 398
+    },
+    {
+      "epoch": 6.762711864406779,
+      "grad_norm": 1.7823746972379073,
+      "learning_rate": 3.5686976997826245e-08,
+      "logits/chosen": -0.4420131742954254,
+      "logits/rejected": -0.4338444769382477,
+      "logps/chosen": -37.46350860595703,
+      "logps/rejected": -59.96247100830078,
+      "loss": 0.0096,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.341228723526001,
+      "rewards/margins": 7.825350761413574,
+      "rewards/rejected": -9.166579246520996,
+      "step": 399
+    },
+    {
+      "epoch": 6.779661016949152,
+      "grad_norm": 1.8399624391407163,
+      "learning_rate": 3.473909705816111e-08,
+      "logits/chosen": -0.31618526577949524,
+      "logits/rejected": -0.2617036700248718,
+      "logps/chosen": -35.39426803588867,
+      "logps/rejected": -58.3309326171875,
+      "loss": 0.0118,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.725992202758789,
+      "rewards/margins": 8.16711711883545,
+      "rewards/rejected": -9.893108367919922,
+      "step": 400
+    },
+    {
+      "epoch": 6.796610169491525,
+      "grad_norm": 1.3821869838967202,
+      "learning_rate": 3.3803034770659824e-08,
+      "logits/chosen": -0.43311774730682373,
+      "logits/rejected": -0.400162935256958,
+      "logps/chosen": -36.61433029174805,
+      "logps/rejected": -77.34138488769531,
+      "loss": 0.0096,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.166048526763916,
+      "rewards/margins": 9.511601448059082,
+      "rewards/rejected": -10.677648544311523,
+      "step": 401
+    },
+    {
+      "epoch": 6.813559322033898,
+      "grad_norm": 1.5978002425036417,
+      "learning_rate": 3.287884152439646e-08,
+      "logits/chosen": -0.2973329722881317,
+      "logits/rejected": -0.27377772331237793,
+      "logps/chosen": -30.09129524230957,
+      "logps/rejected": -53.16349792480469,
+      "loss": 0.0142,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.7582967281341553,
+      "rewards/margins": 7.514451503753662,
+      "rewards/rejected": -8.272747993469238,
+      "step": 402
+    },
+    {
+      "epoch": 6.830508474576272,
+      "grad_norm": 1.8281621888445494,
+      "learning_rate": 3.19665680568445e-08,
+      "logits/chosen": -0.4268870949745178,
+      "logits/rejected": -0.37249866127967834,
+      "logps/chosen": -32.59174346923828,
+      "logps/rejected": -46.462005615234375,
+      "loss": 0.0123,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.4710607528686523,
+      "rewards/margins": 5.770994186401367,
+      "rewards/rejected": -7.242054462432861,
+      "step": 403
+    },
+    {
+      "epoch": 6.847457627118644,
+      "grad_norm": 0.9001061616975613,
+      "learning_rate": 3.106626445109081e-08,
+      "logits/chosen": -0.37813207507133484,
+      "logits/rejected": -0.3872162401676178,
+      "logps/chosen": -30.775136947631836,
+      "logps/rejected": -61.652565002441406,
+      "loss": 0.0096,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.1428020000457764,
+      "rewards/margins": 7.899393081665039,
+      "rewards/rejected": -9.042195320129395,
+      "step": 404
+    },
+    {
+      "epoch": 6.864406779661017,
+      "grad_norm": 1.597346490336906,
+      "learning_rate": 3.017798013308645e-08,
+      "logits/chosen": -0.3538016080856323,
+      "logits/rejected": -0.341571182012558,
+      "logps/chosen": -31.822330474853516,
+      "logps/rejected": -50.422752380371094,
+      "loss": 0.012,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.8719119429588318,
+      "rewards/margins": 7.065603256225586,
+      "rewards/rejected": -7.937515735626221,
+      "step": 405
+    },
+    {
+      "epoch": 6.88135593220339,
+      "grad_norm": 1.810856752512637,
+      "learning_rate": 2.9301763868933153e-08,
+      "logits/chosen": -0.4209059178829193,
+      "logits/rejected": -0.373024046421051,
+      "logps/chosen": -22.65794563293457,
+      "logps/rejected": -46.467655181884766,
+      "loss": 0.0186,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.554482102394104,
+      "rewards/margins": 7.356679439544678,
+      "rewards/rejected": -7.911161422729492,
+      "step": 406
+    },
+    {
+      "epoch": 6.898305084745763,
+      "grad_norm": 1.573195940423645,
+      "learning_rate": 2.843766376220616e-08,
+      "logits/chosen": -0.48762577772140503,
+      "logits/rejected": -0.5053017735481262,
+      "logps/chosen": -26.841205596923828,
+      "logps/rejected": -52.88998794555664,
+      "loss": 0.0087,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.3870327472686768,
+      "rewards/margins": 7.6463212966918945,
+      "rewards/rejected": -9.033354759216309,
+      "step": 407
+    },
+    {
+      "epoch": 6.915254237288136,
+      "grad_norm": 2.0992362165416494,
+      "learning_rate": 2.7585727251313195e-08,
+      "logits/chosen": -0.39123690128326416,
+      "logits/rejected": -0.33466434478759766,
+      "logps/chosen": -41.52196502685547,
+      "logps/rejected": -67.35308837890625,
+      "loss": 0.0222,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -3.1684083938598633,
+      "rewards/margins": 7.4681878089904785,
+      "rewards/rejected": -10.636595726013184,
+      "step": 408
+    },
+    {
+      "epoch": 6.932203389830509,
+      "grad_norm": 1.4571552338914753,
+      "learning_rate": 2.6746001106890377e-08,
+      "logits/chosen": -0.4723522663116455,
+      "logits/rejected": -0.4505174458026886,
+      "logps/chosen": -29.244626998901367,
+      "logps/rejected": -52.072750091552734,
+      "loss": 0.0083,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.2372843027114868,
+      "rewards/margins": 6.951776027679443,
+      "rewards/rejected": -8.18906021118164,
+      "step": 409
+    },
+    {
+      "epoch": 6.9491525423728815,
+      "grad_norm": 1.4632431809951456,
+      "learning_rate": 2.5918531429234364e-08,
+      "logits/chosen": -0.34531697630882263,
+      "logits/rejected": -0.2954227924346924,
+      "logps/chosen": -26.551538467407227,
+      "logps/rejected": -64.3398666381836,
+      "loss": 0.0084,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.1470048427581787,
+      "rewards/margins": 9.478975296020508,
+      "rewards/rejected": -10.62597942352295,
+      "step": 410
+    },
+    {
+      "epoch": 6.966101694915254,
+      "grad_norm": 1.4110992084448712,
+      "learning_rate": 2.5103363645771536e-08,
+      "logits/chosen": -0.5194912552833557,
+      "logits/rejected": -0.48006966710090637,
+      "logps/chosen": -37.35237121582031,
+      "logps/rejected": -52.63975524902344,
+      "loss": 0.0147,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.2981250286102295,
+      "rewards/margins": 6.82828950881958,
+      "rewards/rejected": -8.126415252685547,
+      "step": 411
+    },
+    {
+      "epoch": 6.983050847457627,
+      "grad_norm": 1.4538836011603475,
+      "learning_rate": 2.4300542508564114e-08,
+      "logits/chosen": -0.3935295641422272,
+      "logits/rejected": -0.336182177066803,
+      "logps/chosen": -25.596094131469727,
+      "logps/rejected": -51.74674987792969,
+      "loss": 0.0145,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.5983898639678955,
+      "rewards/margins": 7.388174057006836,
+      "rewards/rejected": -7.986563682556152,
+      "step": 412
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 1.5706199385371322,
+      "learning_rate": 2.3510112091853357e-08,
+      "logits/chosen": -0.2152971625328064,
+      "logits/rejected": -0.1929609775543213,
+      "logps/chosen": -20.163312911987305,
+      "logps/rejected": -52.776371002197266,
+      "loss": 0.0091,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.37090063095092773,
+      "rewards/margins": 7.480232238769531,
+      "rewards/rejected": -7.851133346557617,
+      "step": 413
+    },
+    {
+      "epoch": 7.016949152542373,
+      "grad_norm": 1.7457089160064294,
+      "learning_rate": 2.27321157896396e-08,
+      "logits/chosen": -0.305334210395813,
+      "logits/rejected": -0.29125475883483887,
+      "logps/chosen": -27.516210556030273,
+      "logps/rejected": -57.63336944580078,
+      "loss": 0.0141,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.9373904466629028,
+      "rewards/margins": 8.481929779052734,
+      "rewards/rejected": -9.419321060180664,
+      "step": 414
+    },
+    {
+      "epoch": 7.033898305084746,
+      "grad_norm": 1.5469113812840338,
+      "learning_rate": 2.1966596313300362e-08,
+      "logits/chosen": -0.5671955943107605,
+      "logits/rejected": -0.5605946779251099,
+      "logps/chosen": -27.200397491455078,
+      "logps/rejected": -47.673065185546875,
+      "loss": 0.0158,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.48190128803253174,
+      "rewards/margins": 6.851955413818359,
+      "rewards/rejected": -7.33385705947876,
+      "step": 415
+    },
+    {
+      "epoch": 7.0508474576271185,
+      "grad_norm": 1.2508305219444056,
+      "learning_rate": 2.1213595689245384e-08,
+      "logits/chosen": -0.3499354422092438,
+      "logits/rejected": -0.3194410800933838,
+      "logps/chosen": -24.055994033813477,
+      "logps/rejected": -44.12571716308594,
+      "loss": 0.0084,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.39127033948898315,
+      "rewards/margins": 6.136053085327148,
+      "rewards/rejected": -6.527322769165039,
+      "step": 416
+    },
+    {
+      "epoch": 7.067796610169491,
+      "grad_norm": 1.6178572230856318,
+      "learning_rate": 2.0473155256609363e-08,
+      "logits/chosen": -0.4242691993713379,
+      "logits/rejected": -0.4158502221107483,
+      "logps/chosen": -27.026355743408203,
+      "logps/rejected": -50.12807083129883,
+      "loss": 0.02,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.9110782146453857,
+      "rewards/margins": 6.59192419052124,
+      "rewards/rejected": -7.503002643585205,
+      "step": 417
+    },
+    {
+      "epoch": 7.084745762711864,
+      "grad_norm": 1.4383810028427624,
+      "learning_rate": 1.9745315664982277e-08,
+      "logits/chosen": -0.452391117811203,
+      "logits/rejected": -0.42704349756240845,
+      "logps/chosen": -21.179094314575195,
+      "logps/rejected": -45.48261260986328,
+      "loss": 0.0111,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.6325095891952515,
+      "rewards/margins": 7.283842086791992,
+      "rewards/rejected": -7.916351318359375,
+      "step": 418
+    },
+    {
+      "epoch": 7.101694915254237,
+      "grad_norm": 1.4230254989220643,
+      "learning_rate": 1.9030116872178314e-08,
+      "logits/chosen": -0.4608815014362335,
+      "logits/rejected": -0.4329046905040741,
+      "logps/chosen": -25.20135498046875,
+      "logps/rejected": -48.06166458129883,
+      "loss": 0.009,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.5603317022323608,
+      "rewards/margins": 6.86769962310791,
+      "rewards/rejected": -7.428031921386719,
+      "step": 419
+    },
+    {
+      "epoch": 7.11864406779661,
+      "grad_norm": 1.7148759769374629,
+      "learning_rate": 1.8327598142041656e-08,
+      "logits/chosen": -0.06360499560832977,
+      "logits/rejected": -0.02670701965689659,
+      "logps/chosen": -38.62311935424805,
+      "logps/rejected": -69.75874328613281,
+      "loss": 0.0138,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.8160368800163269,
+      "rewards/margins": 8.83346176147461,
+      "rewards/rejected": -9.649497032165527,
+      "step": 420
+    },
+    {
+      "epoch": 7.135593220338983,
+      "grad_norm": 1.6040424998385574,
+      "learning_rate": 1.7637798042291125e-08,
+      "logits/chosen": -0.40952420234680176,
+      "logits/rejected": -0.4033817648887634,
+      "logps/chosen": -31.083284378051758,
+      "logps/rejected": -49.10109329223633,
+      "loss": 0.0081,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.0806251764297485,
+      "rewards/margins": 6.7387261390686035,
+      "rewards/rejected": -7.819350719451904,
+      "step": 421
+    },
+    {
+      "epoch": 7.1525423728813555,
+      "grad_norm": 1.7913863319457528,
+      "learning_rate": 1.696075444240305e-08,
+      "logits/chosen": -0.3758937120437622,
+      "logits/rejected": -0.33229541778564453,
+      "logps/chosen": -22.26805877685547,
+      "logps/rejected": -49.145355224609375,
+      "loss": 0.0102,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.9506510496139526,
+      "rewards/margins": 6.685871601104736,
+      "rewards/rejected": -7.636523246765137,
+      "step": 422
+    },
+    {
+      "epoch": 7.169491525423728,
+      "grad_norm": 1.8102037954527834,
+      "learning_rate": 1.6296504511531834e-08,
+      "logits/chosen": -0.43989044427871704,
+      "logits/rejected": -0.44529837369918823,
+      "logps/chosen": -27.95105743408203,
+      "logps/rejected": -56.04852294921875,
+      "loss": 0.0115,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.9269706010818481,
+      "rewards/margins": 7.820449352264404,
+      "rewards/rejected": -8.747420310974121,
+      "step": 423
+    },
+    {
+      "epoch": 7.186440677966102,
+      "grad_norm": 1.5701815802054835,
+      "learning_rate": 1.5645084716469776e-08,
+      "logits/chosen": -0.4497320353984833,
+      "logits/rejected": -0.41386500000953674,
+      "logps/chosen": -33.39286804199219,
+      "logps/rejected": -56.49354934692383,
+      "loss": 0.0113,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.3042948246002197,
+      "rewards/margins": 8.047407150268555,
+      "rewards/rejected": -9.351702690124512,
+      "step": 424
+    },
+    {
+      "epoch": 7.203389830508475,
+      "grad_norm": 1.3727625339462444,
+      "learning_rate": 1.5006530819644923e-08,
+      "logits/chosen": -0.2934183180332184,
+      "logits/rejected": -0.3134685158729553,
+      "logps/chosen": -31.583393096923828,
+      "logps/rejected": -53.04698944091797,
+      "loss": 0.0081,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.4079774618148804,
+      "rewards/margins": 7.08270263671875,
+      "rewards/rejected": -8.490680694580078,
+      "step": 425
+    },
+    {
+      "epoch": 7.220338983050848,
+      "grad_norm": 1.2271197429060396,
+      "learning_rate": 1.4380877877157832e-08,
+      "logits/chosen": -0.3554607629776001,
+      "logits/rejected": -0.365239679813385,
+      "logps/chosen": -28.676355361938477,
+      "logps/rejected": -57.925479888916016,
+      "loss": 0.0066,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.0384249687194824,
+      "rewards/margins": 7.682095527648926,
+      "rewards/rejected": -8.720520973205566,
+      "step": 426
+    },
+    {
+      "epoch": 7.237288135593221,
+      "grad_norm": 0.9777815105599793,
+      "learning_rate": 1.3768160236856674e-08,
+      "logits/chosen": -0.3703988194465637,
+      "logits/rejected": -0.3820286691188812,
+      "logps/chosen": -29.876129150390625,
+      "logps/rejected": -59.59389114379883,
+      "loss": 0.0048,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.152010202407837,
+      "rewards/margins": 7.627685070037842,
+      "rewards/rejected": -8.779695510864258,
+      "step": 427
+    },
+    {
+      "epoch": 7.254237288135593,
+      "grad_norm": 1.626489536598415,
+      "learning_rate": 1.316841153645215e-08,
+      "logits/chosen": -0.4109363853931427,
+      "logits/rejected": -0.34275108575820923,
+      "logps/chosen": -29.276466369628906,
+      "logps/rejected": -53.1593132019043,
+      "loss": 0.0081,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.102203369140625,
+      "rewards/margins": 7.080381870269775,
+      "rewards/rejected": -8.182584762573242,
+      "step": 428
+    },
+    {
+      "epoch": 7.271186440677966,
+      "grad_norm": 1.6657284917403243,
+      "learning_rate": 1.2581664701670296e-08,
+      "logits/chosen": -0.44309279322624207,
+      "logits/rejected": -0.3362104892730713,
+      "logps/chosen": -29.43478012084961,
+      "logps/rejected": -52.261634826660156,
+      "loss": 0.0172,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.8790161609649658,
+      "rewards/margins": 7.74953031539917,
+      "rewards/rejected": -9.628546714782715,
+      "step": 429
+    },
+    {
+      "epoch": 7.288135593220339,
+      "grad_norm": 1.5026292891085353,
+      "learning_rate": 1.2007951944445121e-08,
+      "logits/chosen": -0.3713536262512207,
+      "logits/rejected": -0.3408533036708832,
+      "logps/chosen": -21.457298278808594,
+      "logps/rejected": -46.37548065185547,
+      "loss": 0.008,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.2886759042739868,
+      "rewards/margins": 6.526200771331787,
+      "rewards/rejected": -6.814876556396484,
+      "step": 430
+    },
+    {
+      "epoch": 7.305084745762712,
+      "grad_norm": 1.639671277812395,
+      "learning_rate": 1.144730476115019e-08,
+      "logits/chosen": -0.4143469035625458,
+      "logits/rejected": -0.4372211694717407,
+      "logps/chosen": -27.68434715270996,
+      "logps/rejected": -61.32562255859375,
+      "loss": 0.0149,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.6124215126037598,
+      "rewards/margins": 7.509528636932373,
+      "rewards/rejected": -9.121950149536133,
+      "step": 431
+    },
+    {
+      "epoch": 7.322033898305085,
+      "grad_norm": 1.3049845757020513,
+      "learning_rate": 1.0899753930869394e-08,
+      "logits/chosen": -0.4528166949748993,
+      "logits/rejected": -0.4254574775695801,
+      "logps/chosen": -26.2335147857666,
+      "logps/rejected": -55.94972229003906,
+      "loss": 0.0079,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.2019011974334717,
+      "rewards/margins": 8.213329315185547,
+      "rewards/rejected": -9.415230751037598,
+      "step": 432
+    },
+    {
+      "epoch": 7.338983050847458,
+      "grad_norm": 1.6327474891460472,
+      "learning_rate": 1.036532951370736e-08,
+      "logits/chosen": -0.41717565059661865,
+      "logits/rejected": -0.3538900911808014,
+      "logps/chosen": -28.74737548828125,
+      "logps/rejected": -59.961647033691406,
+      "loss": 0.0159,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.015626758337020874,
+      "rewards/margins": 8.777100563049316,
+      "rewards/rejected": -8.792726516723633,
+      "step": 433
+    },
+    {
+      "epoch": 7.3559322033898304,
+      "grad_norm": 1.5187852224535574,
+      "learning_rate": 9.844060849138997e-09,
+      "logits/chosen": -0.4029984474182129,
+      "logits/rejected": -0.38465699553489685,
+      "logps/chosen": -21.391469955444336,
+      "logps/rejected": -47.680503845214844,
+      "loss": 0.0153,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.46827206015586853,
+      "rewards/margins": 7.35407829284668,
+      "rewards/rejected": -7.822350025177002,
+      "step": 434
+    },
+    {
+      "epoch": 7.372881355932203,
+      "grad_norm": 1.3171463040757392,
+      "learning_rate": 9.335976554398912e-09,
+      "logits/chosen": -0.5152924060821533,
+      "logits/rejected": -0.43552643060684204,
+      "logps/chosen": -28.43988800048828,
+      "logps/rejected": -45.27113342285156,
+      "loss": 0.0071,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.8594914674758911,
+      "rewards/margins": 6.36436128616333,
+      "rewards/rejected": -7.223852157592773,
+      "step": 435
+    },
+    {
+      "epoch": 7.389830508474576,
+      "grad_norm": 1.352843609066883,
+      "learning_rate": 8.841104522910342e-09,
+      "logits/chosen": -0.3669931888580322,
+      "logits/rejected": -0.34047171473503113,
+      "logps/chosen": -35.265140533447266,
+      "logps/rejected": -61.45825958251953,
+      "loss": 0.0074,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.776789665222168,
+      "rewards/margins": 8.250631332397461,
+      "rewards/rejected": -10.027421951293945,
+      "step": 436
+    },
+    {
+      "epoch": 7.406779661016949,
+      "grad_norm": 1.8098418726298369,
+      "learning_rate": 8.359471922753714e-09,
+      "logits/chosen": -0.355437695980072,
+      "logits/rejected": -0.3270444869995117,
+      "logps/chosen": -29.349018096923828,
+      "logps/rejected": -60.3387336730957,
+      "loss": 0.0136,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.6025338768959045,
+      "rewards/margins": 8.68097972869873,
+      "rewards/rejected": -9.283513069152832,
+      "step": 437
+    },
+    {
+      "epoch": 7.423728813559322,
+      "grad_norm": 1.8786140797643052,
+      "learning_rate": 7.891105195175356e-09,
+      "logits/chosen": -0.41774412989616394,
+      "logits/rejected": -0.379474401473999,
+      "logps/chosen": -31.24578094482422,
+      "logps/rejected": -48.23630905151367,
+      "loss": 0.0109,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.4310747385025024,
+      "rewards/margins": 6.719178676605225,
+      "rewards/rejected": -8.150252342224121,
+      "step": 438
+    },
+    {
+      "epoch": 7.440677966101695,
+      "grad_norm": 1.607505847132714,
+      "learning_rate": 7.4360300531355894e-09,
+      "logits/chosen": -0.2568835914134979,
+      "logits/rejected": -0.22977690398693085,
+      "logps/chosen": -32.3515625,
+      "logps/rejected": -66.43345642089844,
+      "loss": 0.0093,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.2904284000396729,
+      "rewards/margins": 8.297982215881348,
+      "rewards/rejected": -9.588411331176758,
+      "step": 439
+    },
+    {
+      "epoch": 7.4576271186440675,
+      "grad_norm": 1.3035469316341721,
+      "learning_rate": 6.994271479897313e-09,
+      "logits/chosen": -0.43775883316993713,
+      "logits/rejected": -0.4212513267993927,
+      "logps/chosen": -22.23575210571289,
+      "logps/rejected": -42.02503967285156,
+      "loss": 0.0075,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.44508761167526245,
+      "rewards/margins": 6.237364768981934,
+      "rewards/rejected": -6.68245267868042,
+      "step": 440
+    },
+    {
+      "epoch": 7.47457627118644,
+      "grad_norm": 1.366151434834416,
+      "learning_rate": 6.565853727654502e-09,
+      "logits/chosen": -0.5031697154045105,
+      "logits/rejected": -0.5177669525146484,
+      "logps/chosen": -31.38254737854004,
+      "logps/rejected": -55.45163345336914,
+      "loss": 0.0111,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.3961818218231201,
+      "rewards/margins": 7.067687034606934,
+      "rewards/rejected": -8.463868141174316,
+      "step": 441
+    },
+    {
+      "epoch": 7.491525423728813,
+      "grad_norm": 1.4529924037385114,
+      "learning_rate": 6.150800316200605e-09,
+      "logits/chosen": -0.44623109698295593,
+      "logits/rejected": -0.42772334814071655,
+      "logps/chosen": -26.20204734802246,
+      "logps/rejected": -44.2577018737793,
+      "loss": 0.0091,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.4152941405773163,
+      "rewards/margins": 7.550034046173096,
+      "rewards/rejected": -7.965329170227051,
+      "step": 442
+    },
+    {
+      "epoch": 7.508474576271187,
+      "grad_norm": 1.7067297640882242,
+      "learning_rate": 5.7491340316373485e-09,
+      "logits/chosen": -0.291814386844635,
+      "logits/rejected": -0.2504284083843231,
+      "logps/chosen": -27.000459671020508,
+      "logps/rejected": -54.978851318359375,
+      "loss": 0.0109,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.1894947290420532,
+      "rewards/margins": 7.88712739944458,
+      "rewards/rejected": -9.076622009277344,
+      "step": 443
+    },
+    {
+      "epoch": 7.52542372881356,
+      "grad_norm": 1.8852004572462866,
+      "learning_rate": 5.360876925123992e-09,
+      "logits/chosen": -0.4699954390525818,
+      "logits/rejected": -0.4355739653110504,
+      "logps/chosen": -34.63423156738281,
+      "logps/rejected": -65.0200424194336,
+      "loss": 0.0093,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.3088154792785645,
+      "rewards/margins": 8.483866691589355,
+      "rewards/rejected": -9.792682647705078,
+      "step": 444
+    },
+    {
+      "epoch": 7.5423728813559325,
+      "grad_norm": 1.9525606885122415,
+      "learning_rate": 4.9860503116665176e-09,
+      "logits/chosen": -0.580295205116272,
+      "logits/rejected": -0.5321290493011475,
+      "logps/chosen": -26.729717254638672,
+      "logps/rejected": -52.8782958984375,
+      "loss": 0.0159,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.3733120858669281,
+      "rewards/margins": 6.56894588470459,
+      "rewards/rejected": -6.942258358001709,
+      "step": 445
+    },
+    {
+      "epoch": 7.559322033898305,
+      "grad_norm": 1.9545216316177383,
+      "learning_rate": 4.624674768947484e-09,
+      "logits/chosen": -0.47320348024368286,
+      "logits/rejected": -0.42538437247276306,
+      "logps/chosen": -27.289257049560547,
+      "logps/rejected": -52.25529479980469,
+      "loss": 0.0169,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.5522884130477905,
+      "rewards/margins": 6.996241092681885,
+      "rewards/rejected": -7.548530578613281,
+      "step": 446
+    },
+    {
+      "epoch": 7.576271186440678,
+      "grad_norm": 1.884083633370762,
+      "learning_rate": 4.2767701361964835e-09,
+      "logits/chosen": -0.31534552574157715,
+      "logits/rejected": -0.2909752428531647,
+      "logps/chosen": -37.41596221923828,
+      "logps/rejected": -55.43064880371094,
+      "loss": 0.0142,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -2.208031415939331,
+      "rewards/margins": 6.201999664306641,
+      "rewards/rejected": -8.41003131866455,
+      "step": 447
+    },
+    {
+      "epoch": 7.593220338983051,
+      "grad_norm": 1.6257233201960972,
+      "learning_rate": 3.942355513100792e-09,
+      "logits/chosen": -0.40161648392677307,
+      "logits/rejected": -0.4106261134147644,
+      "logps/chosen": -26.018543243408203,
+      "logps/rejected": -62.679073333740234,
+      "loss": 0.0092,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.1849199533462524,
+      "rewards/margins": 8.389888763427734,
+      "rewards/rejected": -9.574809074401855,
+      "step": 448
+    },
+    {
+      "epoch": 7.610169491525424,
+      "grad_norm": 1.7831606635295467,
+      "learning_rate": 3.6214492587569313e-09,
+      "logits/chosen": -0.3574334383010864,
+      "logits/rejected": -0.350351482629776,
+      "logps/chosen": -33.58333206176758,
+      "logps/rejected": -48.65354537963867,
+      "loss": 0.0124,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.2194223403930664,
+      "rewards/margins": 7.209741592407227,
+      "rewards/rejected": -8.429162979125977,
+      "step": 449
+    },
+    {
+      "epoch": 7.627118644067797,
+      "grad_norm": 1.9827926138744145,
+      "learning_rate": 3.314068990662805e-09,
+      "logits/chosen": -0.5334146022796631,
+      "logits/rejected": -0.4546634256839752,
+      "logps/chosen": -25.30044174194336,
+      "logps/rejected": -49.781150817871094,
+      "loss": 0.016,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.5673917531967163,
+      "rewards/margins": 7.860011577606201,
+      "rewards/rejected": -8.427403450012207,
+      "step": 450
+    },
+    {
+      "epoch": 7.6440677966101696,
+      "grad_norm": 1.5345319966235849,
+      "learning_rate": 3.0202315837502545e-09,
+      "logits/chosen": -0.41027843952178955,
+      "logits/rejected": -0.36624419689178467,
+      "logps/chosen": -29.778715133666992,
+      "logps/rejected": -46.88585662841797,
+      "loss": 0.0096,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.713862657546997,
+      "rewards/margins": 5.918593406677246,
+      "rewards/rejected": -7.632455825805664,
+      "step": 451
+    },
+    {
+      "epoch": 7.661016949152542,
+      "grad_norm": 1.45498172133433,
+      "learning_rate": 2.7399531694589917e-09,
+      "logits/chosen": -0.49980151653289795,
+      "logits/rejected": -0.5059882998466492,
+      "logps/chosen": -27.507404327392578,
+      "logps/rejected": -53.86846923828125,
+      "loss": 0.0079,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.6134958267211914,
+      "rewards/margins": 7.079102039337158,
+      "rewards/rejected": -8.692597389221191,
+      "step": 452
+    },
+    {
+      "epoch": 7.677966101694915,
+      "grad_norm": 1.3296441933194811,
+      "learning_rate": 2.473249134850808e-09,
+      "logits/chosen": -0.3527723550796509,
+      "logits/rejected": -0.31979426741600037,
+      "logps/chosen": -22.46451187133789,
+      "logps/rejected": -50.37282180786133,
+      "loss": 0.0083,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.8375161290168762,
+      "rewards/margins": 7.392008304595947,
+      "rewards/rejected": -8.229524612426758,
+      "step": 453
+    },
+    {
+      "epoch": 7.694915254237288,
+      "grad_norm": 1.9704674503284925,
+      "learning_rate": 2.220134121764833e-09,
+      "logits/chosen": -0.43200796842575073,
+      "logits/rejected": -0.4080568850040436,
+      "logps/chosen": -15.70004940032959,
+      "logps/rejected": -44.24908447265625,
+      "loss": 0.0192,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.03188416361808777,
+      "rewards/margins": 7.455360412597656,
+      "rewards/rejected": -7.423476219177246,
+      "step": 454
+    },
+    {
+      "epoch": 7.711864406779661,
+      "grad_norm": 1.58493742628634,
+      "learning_rate": 1.9806220260137065e-09,
+      "logits/chosen": -0.4422493577003479,
+      "logits/rejected": -0.37290158867836,
+      "logps/chosen": -30.651966094970703,
+      "logps/rejected": -55.6935920715332,
+      "loss": 0.0246,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.4701915681362152,
+      "rewards/margins": 8.02414321899414,
+      "rewards/rejected": -8.494333267211914,
+      "step": 455
+    },
+    {
+      "epoch": 7.728813559322034,
+      "grad_norm": 1.309516904226872,
+      "learning_rate": 1.7547259966207705e-09,
+      "logits/chosen": -0.5261704325675964,
+      "logits/rejected": -0.49233362078666687,
+      "logps/chosen": -27.28386116027832,
+      "logps/rejected": -53.776641845703125,
+      "loss": 0.0072,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.0615800619125366,
+      "rewards/margins": 8.335307121276855,
+      "rewards/rejected": -9.396886825561523,
+      "step": 456
+    },
+    {
+      "epoch": 7.745762711864407,
+      "grad_norm": 1.7021291625550554,
+      "learning_rate": 1.5424584350981485e-09,
+      "logits/chosen": -0.3087800443172455,
+      "logits/rejected": -0.3105306923389435,
+      "logps/chosen": -24.47256851196289,
+      "logps/rejected": -50.43601989746094,
+      "loss": 0.0103,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.5138031244277954,
+      "rewards/margins": 7.677865505218506,
+      "rewards/rejected": -8.191668510437012,
+      "step": 457
+    },
+    {
+      "epoch": 7.762711864406779,
+      "grad_norm": 1.476829222148452,
+      "learning_rate": 1.343830994765982e-09,
+      "logits/chosen": -0.44474345445632935,
+      "logits/rejected": -0.42049241065979004,
+      "logps/chosen": -23.719074249267578,
+      "logps/rejected": -62.17032241821289,
+      "loss": 0.0196,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.6281836032867432,
+      "rewards/margins": 9.182320594787598,
+      "rewards/rejected": -9.810504913330078,
+      "step": 458
+    },
+    {
+      "epoch": 7.779661016949152,
+      "grad_norm": 1.350716594904905,
+      "learning_rate": 1.1588545801125837e-09,
+      "logits/chosen": -0.5191625356674194,
+      "logits/rejected": -0.4718668460845947,
+      "logps/chosen": -35.341068267822266,
+      "logps/rejected": -59.45354461669922,
+      "loss": 0.0123,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.2722684144973755,
+      "rewards/margins": 7.540390968322754,
+      "rewards/rejected": -8.81265926361084,
+      "step": 459
+    },
+    {
+      "epoch": 7.796610169491525,
+      "grad_norm": 1.4635314314598586,
+      "learning_rate": 9.87539346195776e-10,
+      "logits/chosen": -0.3168594241142273,
+      "logits/rejected": -0.2879508435726166,
+      "logps/chosen": -28.040536880493164,
+      "logps/rejected": -43.86100387573242,
+      "loss": 0.0096,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.7127920389175415,
+      "rewards/margins": 6.108259201049805,
+      "rewards/rejected": -6.821051120758057,
+      "step": 460
+    },
+    {
+      "epoch": 7.813559322033898,
+      "grad_norm": 1.5494249427881754,
+      "learning_rate": 8.298946980855315e-10,
+      "logits/chosen": -0.4457828998565674,
+      "logits/rejected": -0.3980650007724762,
+      "logps/chosen": -25.963443756103516,
+      "logps/rejected": -45.423763275146484,
+      "loss": 0.0087,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.5499848127365112,
+      "rewards/margins": 6.5887556076049805,
+      "rewards/rejected": -7.138739585876465,
+      "step": 461
+    },
+    {
+      "epoch": 7.830508474576272,
+      "grad_norm": 1.4534702698382904,
+      "learning_rate": 6.8592929034747e-10,
+      "logits/chosen": -0.35777002573013306,
+      "logits/rejected": -0.3949616849422455,
+      "logps/chosen": -28.67134666442871,
+      "logps/rejected": -57.564937591552734,
+      "loss": 0.0087,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.1654642820358276,
+      "rewards/margins": 6.651158332824707,
+      "rewards/rejected": -7.816622257232666,
+      "step": 462
+    },
+    {
+      "epoch": 7.847457627118644,
+      "grad_norm": 1.032270598397053,
+      "learning_rate": 5.556510265678771e-10,
+      "logits/chosen": -0.4886370003223419,
+      "logits/rejected": -0.5037115216255188,
+      "logps/chosen": -20.78964614868164,
+      "logps/rejected": -48.41303253173828,
+      "loss": 0.0107,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.6196805834770203,
+      "rewards/margins": 7.310200214385986,
+      "rewards/rejected": -7.9298810958862305,
+      "step": 463
+    },
+    {
+      "epoch": 7.864406779661017,
+      "grad_norm": 1.2578929925717066,
+      "learning_rate": 4.390670589196621e-10,
+      "logits/chosen": -0.2916780114173889,
+      "logits/rejected": -0.2758171856403351,
+      "logps/chosen": -25.246580123901367,
+      "logps/rejected": -56.34712219238281,
+      "loss": 0.0083,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.3181313276290894,
+      "rewards/margins": 8.5591402053833,
+      "rewards/rejected": -9.877272605895996,
+      "step": 464
+    },
+    {
+      "epoch": 7.88135593220339,
+      "grad_norm": 1.718937820229263,
+      "learning_rate": 3.3618378776981147e-10,
+      "logits/chosen": -0.2728620767593384,
+      "logits/rejected": -0.25526100397109985,
+      "logps/chosen": -27.420053482055664,
+      "logps/rejected": -48.728145599365234,
+      "loss": 0.0099,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.45923471450805664,
+      "rewards/margins": 6.748472213745117,
+      "rewards/rejected": -7.207706928253174,
+      "step": 465
+    },
+    {
+      "epoch": 7.898305084745763,
+      "grad_norm": 1.3557652621850438,
+      "learning_rate": 2.4700686132803075e-10,
+      "logits/chosen": -0.3592544496059418,
+      "logits/rejected": -0.37164703011512756,
+      "logps/chosen": -28.122146606445312,
+      "logps/rejected": -53.134910583496094,
+      "loss": 0.0139,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.5242568254470825,
+      "rewards/margins": 7.785172939300537,
+      "rewards/rejected": -8.309430122375488,
+      "step": 466
+    },
+    {
+      "epoch": 7.915254237288136,
+      "grad_norm": 1.2354179862035723,
+      "learning_rate": 1.715411753365481e-10,
+      "logits/chosen": -0.5242431163787842,
+      "logits/rejected": -0.4909352958202362,
+      "logps/chosen": -26.54534912109375,
+      "logps/rejected": -55.37403106689453,
+      "loss": 0.0128,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.6659201383590698,
+      "rewards/margins": 7.7830328941345215,
+      "rewards/rejected": -9.448952674865723,
+      "step": 467
+    },
+    {
+      "epoch": 7.932203389830509,
+      "grad_norm": 1.6240885957181501,
+      "learning_rate": 1.0979087280141297e-10,
+      "logits/chosen": -0.32274141907691956,
+      "logits/rejected": -0.32932335138320923,
+      "logps/chosen": -20.59052085876465,
+      "logps/rejected": -46.62628173828125,
+      "loss": 0.0089,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.706177294254303,
+      "rewards/margins": 7.163034439086914,
+      "rewards/rejected": -7.8692121505737305,
+      "step": 468
+    },
+    {
+      "epoch": 7.9491525423728815,
+      "grad_norm": 1.495293278605491,
+      "learning_rate": 6.175934376509429e-11,
+      "logits/chosen": -0.272166907787323,
+      "logits/rejected": -0.29551127552986145,
+      "logps/chosen": -27.317262649536133,
+      "logps/rejected": -73.80632781982422,
+      "loss": 0.0084,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.1428358554840088,
+      "rewards/margins": 10.341331481933594,
+      "rewards/rejected": -11.484167098999023,
+      "step": 469
+    },
+    {
+      "epoch": 7.966101694915254,
+      "grad_norm": 1.4312305917111094,
+      "learning_rate": 2.7449225120268482e-11,
+      "logits/chosen": -0.2674176096916199,
+      "logits/rejected": -0.25498396158218384,
+      "logps/chosen": -26.586524963378906,
+      "logps/rejected": -52.65561294555664,
+      "loss": 0.0109,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.174375295639038,
+      "rewards/margins": 6.976294040679932,
+      "rewards/rejected": -8.150670051574707,
+      "step": 470
+    },
+    {
+      "epoch": 7.983050847457627,
+      "grad_norm": 1.5506645838575677,
+      "learning_rate": 6.862400465157403e-12,
+      "logits/chosen": -0.22756405174732208,
+      "logits/rejected": -0.21930274367332458,
+      "logps/chosen": -35.59461212158203,
+      "logps/rejected": -42.98273849487305,
+      "loss": 0.0099,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.217814564704895,
+      "rewards/margins": 5.8322625160217285,
+      "rewards/rejected": -7.050076484680176,
+      "step": 471
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 1.608716199113347,
+      "learning_rate": 0.0,
+      "logits/chosen": -0.49069491028785706,
+      "logits/rejected": -0.4363957941532135,
+      "logps/chosen": -31.856151580810547,
+      "logps/rejected": -46.5308837890625,
+      "loss": 0.0096,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.7556713223457336,
+      "rewards/margins": 6.963629245758057,
+      "rewards/rejected": -7.719299793243408,
+      "step": 472
+    },
+    {
+      "epoch": 8.0,
+      "step": 472,
+      "total_flos": 0.0,
+      "train_loss": 0.11897581996064696,
+      "train_runtime": 99870.155,
+      "train_samples_per_second": 0.605,
+      "train_steps_per_second": 0.005
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 472,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 8,
+  "save_steps": 400,
+  "total_flos": 0.0,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}