NicholasCorrado
/

zephyr-7b-dpo-full

@@ -3,33 +3,31 @@ library_name: transformers
 license: apache-2.0
 base_model: alignment-handbook/zephyr-7b-sft-full
 tags:
-- alignment-handbook
 - trl
 - dpo
 - generated_from_trainer
-datasets:
-- HuggingFaceH4/ultrafeedback_binarized
 model-index:
-- name: mixed_zephyr-7b-dpo-full
   results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
-# mixed_zephyr-7b-dpo-full
-This model is a fine-tuned version of [alignment-handbook/zephyr-7b-sft-full](https://huggingface.co/alignment-handbook/zephyr-7b-sft-full) on the HuggingFaceH4/ultrafeedback_binarized dataset.
 It achieves the following results on the evaluation set:
-- Logits/chosen: -0.3096
-- Logits/rejected: 0.6049
-- Logps/chosen: -755.9323
-- Logps/rejected: -1192.5621
-- Loss: 0.3152
-- Rewards/accuracies: 0.8184
-- Rewards/chosen: -4.6496
-- Rewards/margins: 4.3751
-- Rewards/rejected: -9.0247
 ## Model description
@@ -64,16 +62,16 @@ The following hyperparameters were used during training:
 ### Training results
-| Training Loss | Epoch  | Step | Logits/chosen | Logits/rejected | Logps/chosen | Logps/rejected | Validation Loss | Rewards/accuracies | Rewards/chosen | Rewards/margins | Rewards/rejected |
-|:-------------:|:------:|:----:|:-------------:|:---------------:|:------------:|:--------------:|:---------------:|:------------------:|:--------------:|:---------------:|:----------------:|
-| 0.5385        | 0.1152 | 100  | -2.9012       | -2.8749         | -433.4271    | -527.4997      | 0.4593          | 0.7539             | -1.4246        | 0.9495          | -2.3741          |
-| 0.4369        | 0.2303 | 200  | -1.5078       | -1.1798         | -594.2914    | -823.1062      | 0.3590          | 0.7915             | -3.0332        | 2.2969          | -5.3301          |
-| 0.4119        | 0.3455 | 300  | -0.6166       | -0.1140         | -677.2002    | -996.9340      | 0.3369          | 0.8156             | -3.8623        | 3.2061          | -7.0684          |
-| 0.3964        | 0.4607 | 400  | -0.6209       | 0.2313          | -753.4187    | -1128.0946     | 0.3311          | 0.8178             | -4.6245        | 3.7555          | -8.3800          |
-| 0.3858        | 0.5759 | 500  | -0.7776       | 0.1893          | -694.4181    | -1049.8429     | 0.3247          | 0.8167             | -4.0345        | 3.5630          | -7.5975          |
-| 0.4031        | 0.6910 | 600  | -0.2605       | 0.6163          | -748.3096    | -1143.1573     | 0.3191          | 0.8201             | -4.5734        | 3.9572          | -8.5306          |
-| 0.4007        | 0.8062 | 700  | -0.4982       | 0.4411          | -753.0112    | -1189.4250     | 0.3171          | 0.8178             | -4.6204        | 4.3729          | -8.9933          |
-| 0.3644        | 0.9214 | 800  | -0.3096       | 0.6049          | -755.9323    | -1192.5621     | 0.3152          | 0.8184             | -4.6496        | 4.3751          | -9.0247          |
 ### Framework versions

 license: apache-2.0
 base_model: alignment-handbook/zephyr-7b-sft-full
 tags:
 - trl
 - dpo
+- alignment-handbook
 - generated_from_trainer
 model-index:
+- name: zephyr-7b-dpo-full
   results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
+# zephyr-7b-dpo-full
+This model is a fine-tuned version of [alignment-handbook/zephyr-7b-sft-full](https://huggingface.co/alignment-handbook/zephyr-7b-sft-full) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.3161
+- Rewards/chosen: -4.1174
+- Rewards/rejected: -8.3387
+- Rewards/accuracies: 0.8212
+- Rewards/margins: 4.2213
+- Logps/rejected: -1123.9625
+- Logps/chosen: -702.7068
+- Logits/rejected: 0.5558
+- Logits/chosen: -0.4246
 ## Model description
 ### Training results
+| Training Loss | Epoch  | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
+|:-------------:|:------:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.5381        | 0.1152 | 100  | 0.4758          | -1.9882        | -2.9171          | 0.7270             | 0.9288          | -581.7981      | -489.7893    | -2.8822         | -2.9045       |
+| 0.4268        | 0.2303 | 200  | 0.3577          | -3.9068        | -6.8487          | 0.7976             | 2.9419          | -974.9606      | -681.6494    | -0.6781         | -0.9791       |
+| 0.4067        | 0.3455 | 300  | 0.3411          | -3.9757        | -7.6481          | 0.8094             | 3.6724          | -1054.9027     | -688.5351    | -0.6642         | -1.2474       |
+| 0.4011        | 0.4607 | 400  | 0.3295          | -4.4449        | -8.4011          | 0.8156             | 3.9562          | -1130.1991     | -735.4550    | 0.1183          | -0.7429       |
+| 0.3727        | 0.5759 | 500  | 0.3260          | -3.7203        | -7.6540          | 0.8161             | 3.9337          | -1055.4913     | -662.9987    | -0.4066         | -1.3009       |
+| 0.3933        | 0.6910 | 600  | 0.3190          | -3.7331        | -7.5182          | 0.8257             | 3.7851          | -1041.9088     | -664.2776    | 0.3247          | -0.5819       |
+| 0.3858        | 0.8062 | 700  | 0.3166          | -3.9569        | -8.0356          | 0.8246             | 4.0787          | -1093.6547     | -686.6614    | 0.3586          | -0.6058       |
+| 0.3785        | 0.9214 | 800  | 0.3161          | -4.1174        | -8.3387          | 0.8212             | 4.2213          | -1123.9625     | -702.7068    | 0.5558          | -0.4246       |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -14,9 +14,9 @@
     "eval_samples_per_second": 11.048,
     "eval_steps_per_second": 0.346,
     "total_flos": 0.0,
-    "train_loss": 0.0,
-    "train_runtime": 0.0211,
     "train_samples": 111134,
-    "train_samples_per_second": 5273498.215,
-    "train_steps_per_second": 41188.083
 }

     "eval_samples_per_second": 11.048,
     "eval_steps_per_second": 0.346,
     "total_flos": 0.0,
+    "train_loss": 0.42924998652550483,
+    "train_runtime": 32201.1967,
     "train_samples": 111134,
+    "train_samples_per_second": 3.451,
+    "train_steps_per_second": 0.027
 }

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 0.9997120644975526,
     "total_flos": 0.0,
-    "train_loss": 0.0,
-    "train_runtime": 0.0211,
     "train_samples": 111134,
-    "train_samples_per_second": 5273498.215,
-    "train_steps_per_second": 41188.083
 }

 {
     "epoch": 0.9997120644975526,
     "total_flos": 0.0,
+    "train_loss": 0.42924998652550483,
+    "train_runtime": 32201.1967,
     "train_samples": 111134,
+    "train_samples_per_second": 3.451,
+    "train_steps_per_second": 0.027
 }

trainer_state.json CHANGED Viewed

@@ -9,13 +9,13 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 1.0,
-      "grad_norm": 13.015832712288159,
-      "learning_rate": 5e-07,
-      "logits/chosen": -2.605381965637207,
-      "logits/rejected": -2.5362534523010254,
-      "logps/chosen": -197.4033660888672,
-      "logps/rejected": -176.15130615234375,
       "loss": 0.6931,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
@@ -25,1430 +25,1430 @@
     },
     {
       "epoch": 0.01151742009789807,
-      "grad_norm": 8.230031374538095,
       "learning_rate": 5.747126436781609e-08,
-      "logits/chosen": -2.797184705734253,
-      "logits/rejected": -2.768812417984009,
-      "logps/chosen": -266.24053955078125,
-      "logps/rejected": -265.971923828125,
-      "loss": 0.6928,
-      "rewards/accuracies": 0.4305555522441864,
-      "rewards/chosen": -0.00021778659720439464,
-      "rewards/margins": -0.00010571091843303293,
-      "rewards/rejected": -0.00011207569332327694,
       "step": 10
     },
     {
       "epoch": 0.02303484019579614,
-      "grad_norm": 8.31009452460146,
       "learning_rate": 1.1494252873563217e-07,
-      "logits/chosen": -2.802431583404541,
-      "logits/rejected": -2.773219347000122,
-      "logps/chosen": -287.32781982421875,
-      "logps/rejected": -273.28900146484375,
-      "loss": 0.6923,
       "rewards/accuracies": 0.5406249761581421,
-      "rewards/chosen": 0.0006046505295671523,
-      "rewards/margins": 0.0014849099097773433,
-      "rewards/rejected": -0.0008802594384178519,
       "step": 20
     },
     {
       "epoch": 0.03455226029369421,
-      "grad_norm": 8.066889291282722,
       "learning_rate": 1.7241379310344828e-07,
-      "logits/chosen": -2.804356098175049,
-      "logits/rejected": -2.7821590900421143,
-      "logps/chosen": -278.156494140625,
-      "logps/rejected": -270.8301086425781,
-      "loss": 0.6905,
-      "rewards/accuracies": 0.684374988079071,
-      "rewards/chosen": 0.0025812473613768816,
-      "rewards/margins": 0.005251543130725622,
-      "rewards/rejected": -0.0026702960021793842,
       "step": 30
     },
     {
       "epoch": 0.04606968039159228,
-      "grad_norm": 8.939044393747595,
       "learning_rate": 2.2988505747126435e-07,
-      "logits/chosen": -2.8080034255981445,
-      "logits/rejected": -2.7811412811279297,
-      "logps/chosen": -272.1091003417969,
-      "logps/rejected": -268.6837158203125,
-      "loss": 0.6858,
-      "rewards/accuracies": 0.703125,
-      "rewards/chosen": 0.007119017653167248,
-      "rewards/margins": 0.016155635938048363,
-      "rewards/rejected": -0.009036618284881115,
       "step": 40
     },
     {
       "epoch": 0.05758710048949035,
-      "grad_norm": 9.805284456793881,
       "learning_rate": 2.873563218390804e-07,
-      "logits/chosen": -2.834063768386841,
-      "logits/rejected": -2.7892394065856934,
-      "logps/chosen": -284.08453369140625,
-      "logps/rejected": -282.91802978515625,
-      "loss": 0.6762,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": 0.014029329642653465,
-      "rewards/margins": 0.03542623296380043,
-      "rewards/rejected": -0.021396907046437263,
       "step": 50
     },
     {
       "epoch": 0.06910452058738842,
-      "grad_norm": 8.352607046334498,
       "learning_rate": 3.4482758620689656e-07,
-      "logits/chosen": -2.805022716522217,
-      "logits/rejected": -2.796321392059326,
-      "logps/chosen": -292.1920166015625,
-      "logps/rejected": -302.4415588378906,
-      "loss": 0.6624,
-      "rewards/accuracies": 0.71875,
-      "rewards/chosen": 0.006681998260319233,
-      "rewards/margins": 0.06977846473455429,
-      "rewards/rejected": -0.06309647113084793,
       "step": 60
     },
     {
       "epoch": 0.0806219406852865,
-      "grad_norm": 9.823702522936284,
       "learning_rate": 4.0229885057471266e-07,
-      "logits/chosen": -2.75339674949646,
-      "logits/rejected": -2.751986026763916,
-      "logps/chosen": -281.77618408203125,
-      "logps/rejected": -300.4095153808594,
-      "loss": 0.6322,
-      "rewards/accuracies": 0.734375,
-      "rewards/chosen": -0.07559685409069061,
-      "rewards/margins": 0.150864839553833,
-      "rewards/rejected": -0.22646169364452362,
       "step": 70
     },
     {
       "epoch": 0.09213936078318456,
-      "grad_norm": 11.550756640744595,
       "learning_rate": 4.597701149425287e-07,
-      "logits/chosen": -2.8751022815704346,
-      "logits/rejected": -2.8525900840759277,
-      "logps/chosen": -316.79888916015625,
-      "logps/rejected": -340.1561584472656,
-      "loss": 0.5913,
-      "rewards/accuracies": 0.765625,
-      "rewards/chosen": -0.24550755321979523,
-      "rewards/margins": 0.29761967062950134,
-      "rewards/rejected": -0.5431272387504578,
       "step": 80
     },
     {
       "epoch": 0.10365678088108264,
-      "grad_norm": 18.102002209139584,
       "learning_rate": 4.999817969178237e-07,
-      "logits/chosen": -2.8152594566345215,
-      "logits/rejected": -2.7724924087524414,
-      "logps/chosen": -363.1444396972656,
-      "logps/rejected": -401.7603759765625,
-      "loss": 0.5547,
-      "rewards/accuracies": 0.746874988079071,
-      "rewards/chosen": -0.6734243631362915,
-      "rewards/margins": 0.5091755986213684,
-      "rewards/rejected": -1.1825997829437256,
       "step": 90
     },
     {
       "epoch": 0.1151742009789807,
-      "grad_norm": 15.592173368744417,
       "learning_rate": 4.996582603056428e-07,
-      "logits/chosen": -2.7807068824768066,
-      "logits/rejected": -2.75152325630188,
-      "logps/chosen": -403.1298828125,
-      "logps/rejected": -451.24072265625,
-      "loss": 0.5385,
-      "rewards/accuracies": 0.7093750238418579,
-      "rewards/chosen": -1.0208370685577393,
-      "rewards/margins": 0.6278557181358337,
-      "rewards/rejected": -1.6486928462982178,
       "step": 100
     },
     {
       "epoch": 0.1151742009789807,
-      "eval_logits/chosen": -2.9011571407318115,
-      "eval_logits/rejected": -2.874889373779297,
-      "eval_logps/chosen": -433.42706298828125,
-      "eval_logps/rejected": -527.4996948242188,
-      "eval_loss": 0.45933064818382263,
-      "eval_rewards/accuracies": 0.753923773765564,
-      "eval_rewards/chosen": -1.424589991569519,
-      "eval_rewards/margins": 0.9494837522506714,
-      "eval_rewards/rejected": -2.3740737438201904,
-      "eval_runtime": 651.6627,
-      "eval_samples_per_second": 10.935,
-      "eval_steps_per_second": 0.342,
       "step": 100
     },
     {
       "epoch": 0.12669162107687879,
-      "grad_norm": 17.802035855151065,
       "learning_rate": 4.989308132738126e-07,
-      "logits/chosen": -2.731767416000366,
-      "logits/rejected": -2.702854633331299,
-      "logps/chosen": -390.03009033203125,
-      "logps/rejected": -461.499755859375,
-      "loss": 0.4959,
-      "rewards/accuracies": 0.6812499761581421,
-      "rewards/chosen": -1.160954236984253,
-      "rewards/margins": 0.7525253295898438,
-      "rewards/rejected": -1.9134795665740967,
       "step": 110
     },
     {
       "epoch": 0.13820904117477684,
-      "grad_norm": 26.847609346017396,
       "learning_rate": 4.978006327248536e-07,
-      "logits/chosen": -2.6494832038879395,
-      "logits/rejected": -2.6402511596679688,
-      "logps/chosen": -438.6656799316406,
-      "logps/rejected": -550.1033325195312,
-      "loss": 0.475,
-      "rewards/accuracies": 0.7437499761581421,
-      "rewards/chosen": -1.6023308038711548,
-      "rewards/margins": 1.078300952911377,
-      "rewards/rejected": -2.680631637573242,
       "step": 120
     },
     {
       "epoch": 0.14972646127267492,
-      "grad_norm": 25.087856993190254,
       "learning_rate": 4.962695471250032e-07,
-      "logits/chosen": -2.4692533016204834,
-      "logits/rejected": -2.435044050216675,
-      "logps/chosen": -499.8922424316406,
-      "logps/rejected": -645.5679931640625,
-      "loss": 0.468,
-      "rewards/accuracies": 0.746874988079071,
-      "rewards/chosen": -2.0733580589294434,
-      "rewards/margins": 1.5583977699279785,
-      "rewards/rejected": -3.631755828857422,
       "step": 130
     },
     {
       "epoch": 0.161243881370573,
-      "grad_norm": 26.974432330966298,
       "learning_rate": 4.94340033546025e-07,
-      "logits/chosen": -1.697016716003418,
-      "logits/rejected": -1.593400239944458,
-      "logps/chosen": -511.65814208984375,
-      "logps/rejected": -659.9658813476562,
-      "loss": 0.4654,
-      "rewards/accuracies": 0.746874988079071,
-      "rewards/chosen": -2.305452823638916,
-      "rewards/margins": 1.5949369668960571,
-      "rewards/rejected": -3.9003894329071045,
       "step": 140
     },
     {
       "epoch": 0.17276130146847107,
-      "grad_norm": 21.115401587052915,
       "learning_rate": 4.920152136576705e-07,
-      "logits/chosen": -1.4327126741409302,
-      "logits/rejected": -1.2659103870391846,
-      "logps/chosen": -538.796630859375,
-      "logps/rejected": -664.4251098632812,
-      "loss": 0.4789,
-      "rewards/accuracies": 0.753125011920929,
-      "rewards/chosen": -2.33674955368042,
-      "rewards/margins": 1.4603914022445679,
-      "rewards/rejected": -3.7971413135528564,
       "step": 150
     },
     {
       "epoch": 0.18427872156636912,
-      "grad_norm": 24.637364700318916,
       "learning_rate": 4.892988486772756e-07,
-      "logits/chosen": -1.4591898918151855,
-      "logits/rejected": -1.3274848461151123,
-      "logps/chosen": -468.7333068847656,
-      "logps/rejected": -612.8162841796875,
-      "loss": 0.4462,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -1.950823187828064,
-      "rewards/margins": 1.431302785873413,
-      "rewards/rejected": -3.3821263313293457,
       "step": 160
     },
     {
       "epoch": 0.1957961416642672,
-      "grad_norm": 27.13923752480491,
       "learning_rate": 4.861953332846629e-07,
-      "logits/chosen": -1.2759544849395752,
-      "logits/rejected": -1.0808634757995605,
-      "logps/chosen": -469.6282653808594,
-      "logps/rejected": -628.2378540039062,
-      "loss": 0.444,
-      "rewards/accuracies": 0.7593749761581421,
-      "rewards/chosen": -2.0090174674987793,
-      "rewards/margins": 1.5872033834457397,
-      "rewards/rejected": -3.5962207317352295,
       "step": 170
     },
     {
       "epoch": 0.20731356176216528,
-      "grad_norm": 22.29941288426432,
       "learning_rate": 4.827096885121953e-07,
-      "logits/chosen": -0.8839688301086426,
-      "logits/rejected": -0.664128839969635,
-      "logps/chosen": -591.6177978515625,
-      "logps/rejected": -778.9203491210938,
-      "loss": 0.4486,
-      "rewards/accuracies": 0.7406250238418579,
-      "rewards/chosen": -3.2479281425476074,
-      "rewards/margins": 1.83078134059906,
-      "rewards/rejected": -5.078709125518799,
       "step": 180
     },
     {
       "epoch": 0.21883098186006333,
-      "grad_norm": 20.150152801800882,
       "learning_rate": 4.788475536214821e-07,
-      "logits/chosen": -1.1295298337936401,
-      "logits/rejected": -0.8731690645217896,
-      "logps/chosen": -518.4920654296875,
-      "logps/rejected": -677.3343505859375,
-      "loss": 0.4248,
-      "rewards/accuracies": 0.778124988079071,
-      "rewards/chosen": -2.0726380348205566,
-      "rewards/margins": 1.7125848531723022,
-      "rewards/rejected": -3.7852234840393066,
       "step": 190
     },
     {
       "epoch": 0.2303484019579614,
-      "grad_norm": 24.4341951464939,
       "learning_rate": 4.746151769798818e-07,
-      "logits/chosen": -0.9307588338851929,
-      "logits/rejected": -0.6262258291244507,
-      "logps/chosen": -524.0397338867188,
-      "logps/rejected": -701.8967895507812,
-      "loss": 0.4369,
-      "rewards/accuracies": 0.7437499761581421,
-      "rewards/chosen": -2.360715389251709,
-      "rewards/margins": 1.8277909755706787,
-      "rewards/rejected": -4.188506603240967,
       "step": 200
     },
     {
       "epoch": 0.2303484019579614,
-      "eval_logits/chosen": -1.5077687501907349,
-      "eval_logits/rejected": -1.1797598600387573,
-      "eval_logps/chosen": -594.2913818359375,
-      "eval_logps/rejected": -823.106201171875,
-      "eval_loss": 0.3589639961719513,
-      "eval_rewards/accuracies": 0.7914798259735107,
-      "eval_rewards/chosen": -3.033234119415283,
-      "eval_rewards/margins": 2.2969048023223877,
-      "eval_rewards/rejected": -5.330138683319092,
-      "eval_runtime": 650.6064,
-      "eval_samples_per_second": 10.953,
-      "eval_steps_per_second": 0.343,
       "step": 200
     },
     {
       "epoch": 0.2418658220558595,
-      "grad_norm": 27.352856519591263,
       "learning_rate": 4.7001940595156055e-07,
-      "logits/chosen": -0.7815187573432922,
-      "logits/rejected": -0.46700936555862427,
-      "logps/chosen": -518.8436279296875,
-      "logps/rejected": -683.1966552734375,
-      "loss": 0.4274,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -2.385855197906494,
-      "rewards/margins": 1.621694564819336,
-      "rewards/rejected": -4.00754976272583,
       "step": 210
     },
     {
       "epoch": 0.25338324215375757,
-      "grad_norm": 29.897947419384028,
       "learning_rate": 4.650676758194623e-07,
-      "logits/chosen": -0.5421683192253113,
-      "logits/rejected": -0.02623056247830391,
-      "logps/chosen": -606.1685791015625,
-      "logps/rejected": -831.0916137695312,
-      "loss": 0.4012,
-      "rewards/accuracies": 0.765625,
-      "rewards/chosen": -3.0587515830993652,
-      "rewards/margins": 2.499514102935791,
-      "rewards/rejected": -5.558266639709473,
       "step": 220
     },
     {
       "epoch": 0.26490066225165565,
-      "grad_norm": 28.31850344555953,
       "learning_rate": 4.5976799775611215e-07,
-      "logits/chosen": -0.28304657340049744,
-      "logits/rejected": 0.2166980504989624,
-      "logps/chosen": -565.9539794921875,
-      "logps/rejected": -766.6756591796875,
-      "loss": 0.4392,
-      "rewards/accuracies": 0.796875,
-      "rewards/chosen": -2.7024905681610107,
-      "rewards/margins": 2.067142963409424,
-      "rewards/rejected": -4.7696332931518555,
       "step": 230
     },
     {
       "epoch": 0.2764180823495537,
-      "grad_norm": 25.790552553148434,
       "learning_rate": 4.5412894586271543e-07,
-      "logits/chosen": -0.3281463384628296,
-      "logits/rejected": 0.12199939787387848,
-      "logps/chosen": -534.4832763671875,
-      "logps/rejected": -700.3882446289062,
-      "loss": 0.4403,
-      "rewards/accuracies": 0.793749988079071,
-      "rewards/chosen": -2.3464341163635254,
-      "rewards/margins": 1.9047329425811768,
-      "rewards/rejected": -4.251167297363281,
       "step": 240
     },
     {
       "epoch": 0.28793550244745175,
-      "grad_norm": 29.425669097369397,
       "learning_rate": 4.481596432975201e-07,
-      "logits/chosen": -0.6021678447723389,
-      "logits/rejected": -0.20536144077777863,
-      "logps/chosen": -615.7349853515625,
-      "logps/rejected": -839.0997924804688,
-      "loss": 0.4298,
-      "rewards/accuracies": 0.7593749761581421,
-      "rewards/chosen": -3.1481640338897705,
-      "rewards/margins": 2.2502574920654297,
-      "rewards/rejected": -5.398421764373779,
       "step": 250
     },
     {
       "epoch": 0.29945292254534983,
-      "grad_norm": 23.62933629230091,
       "learning_rate": 4.41869747515886e-07,
-      "logits/chosen": -0.2845512330532074,
-      "logits/rejected": 0.14756298065185547,
-      "logps/chosen": -572.5442504882812,
-      "logps/rejected": -812.703125,
-      "loss": 0.3968,
-      "rewards/accuracies": 0.768750011920929,
-      "rewards/chosen": -2.856945514678955,
-      "rewards/margins": 2.3578898906707764,
-      "rewards/rejected": -5.214835166931152,
       "step": 260
     },
     {
       "epoch": 0.3109703426432479,
-      "grad_norm": 36.01630964835951,
       "learning_rate": 4.352694346459396e-07,
-      "logits/chosen": -0.057602040469646454,
-      "logits/rejected": 0.40555334091186523,
-      "logps/chosen": -587.2971801757812,
-      "logps/rejected": -866.1613159179688,
-      "loss": 0.4006,
       "rewards/accuracies": 0.784375011920929,
-      "rewards/chosen": -3.123883008956909,
-      "rewards/margins": 2.7192797660827637,
-      "rewards/rejected": -5.84316349029541,
       "step": 270
     },
     {
       "epoch": 0.322487762741146,
-      "grad_norm": 26.73415377993604,
       "learning_rate": 4.2836938302509256e-07,
-      "logits/chosen": -0.25706934928894043,
-      "logits/rejected": 0.16837282478809357,
-      "logps/chosen": -575.8345947265625,
-      "logps/rejected": -808.24267578125,
-      "loss": 0.4075,
-      "rewards/accuracies": 0.778124988079071,
-      "rewards/chosen": -2.9973578453063965,
-      "rewards/margins": 2.355498790740967,
-      "rewards/rejected": -5.352856636047363,
       "step": 280
     },
     {
       "epoch": 0.33400518283904407,
-      "grad_norm": 29.332592595497015,
       "learning_rate": 4.2118075592405874e-07,
-      "logits/chosen": -0.3039420247077942,
-      "logits/rejected": 0.07993211597204208,
-      "logps/chosen": -582.0941162109375,
-      "logps/rejected": -830.5714111328125,
-      "loss": 0.3976,
-      "rewards/accuracies": 0.793749988079071,
-      "rewards/chosen": -2.9472875595092773,
-      "rewards/margins": 2.5015506744384766,
-      "rewards/rejected": -5.448838233947754,
       "step": 290
     },
     {
       "epoch": 0.34552260293694215,
-      "grad_norm": 30.91612291215343,
       "learning_rate": 4.137151834863213e-07,
-      "logits/chosen": -0.10641048848628998,
-      "logits/rejected": 0.6166712641716003,
-      "logps/chosen": -632.7642822265625,
-      "logps/rejected": -849.4898681640625,
-      "loss": 0.4119,
-      "rewards/accuracies": 0.778124988079071,
-      "rewards/chosen": -3.399906873703003,
-      "rewards/margins": 2.507375478744507,
-      "rewards/rejected": -5.90728235244751,
       "step": 300
     },
     {
       "epoch": 0.34552260293694215,
-      "eval_logits/chosen": -0.6165890693664551,
-      "eval_logits/rejected": -0.11399216204881668,
-      "eval_logps/chosen": -677.2001953125,
-      "eval_logps/rejected": -996.9340209960938,
-      "eval_loss": 0.336904913187027,
-      "eval_rewards/accuracies": 0.8155829310417175,
-      "eval_rewards/chosen": -3.862321615219116,
-      "eval_rewards/margins": 3.206094741821289,
-      "eval_rewards/rejected": -7.068417072296143,
-      "eval_runtime": 656.6921,
-      "eval_samples_per_second": 10.851,
-      "eval_steps_per_second": 0.34,
       "step": 300
     },
     {
       "epoch": 0.35704002303484017,
-      "grad_norm": 22.38837991601497,
       "learning_rate": 4.059847439122671e-07,
-      "logits/chosen": -0.46659454703330994,
-      "logits/rejected": 0.0826030969619751,
-      "logps/chosen": -515.8815307617188,
-      "logps/rejected": -717.310302734375,
-      "loss": 0.4112,
-      "rewards/accuracies": 0.765625,
-      "rewards/chosen": -2.256371021270752,
-      "rewards/margins": 2.008225679397583,
-      "rewards/rejected": -4.264596462249756,
       "step": 310
     },
     {
       "epoch": 0.36855744313273825,
-      "grad_norm": 21.515754430109986,
       "learning_rate": 3.98001943918432e-07,
-      "logits/chosen": -0.8846302032470703,
-      "logits/rejected": -0.03813103586435318,
-      "logps/chosen": -544.3895263671875,
-      "logps/rejected": -746.3841552734375,
-      "loss": 0.3939,
-      "rewards/accuracies": 0.809374988079071,
-      "rewards/chosen": -2.379772663116455,
-      "rewards/margins": 2.3421151638031006,
-      "rewards/rejected": -4.721888542175293,
       "step": 320
     },
     {
       "epoch": 0.38007486323063633,
-      "grad_norm": 33.71230207361674,
       "learning_rate": 3.8977969850346866e-07,
-      "logits/chosen": 0.13661722838878632,
-      "logits/rejected": 0.7041386365890503,
-      "logps/chosen": -666.94482421875,
-      "logps/rejected": -926.0341796875,
-      "loss": 0.3873,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": -3.78490948677063,
-      "rewards/margins": 2.646435022354126,
-      "rewards/rejected": -6.431344509124756,
       "step": 330
     },
     {
       "epoch": 0.3915922833285344,
-      "grad_norm": 28.524858622055092,
       "learning_rate": 3.8133131005357465e-07,
-      "logits/chosen": -0.015070567838847637,
-      "logits/rejected": 0.6914359927177429,
-      "logps/chosen": -646.4139404296875,
-      "logps/rejected": -965.0103759765625,
-      "loss": 0.3971,
-      "rewards/accuracies": 0.78125,
-      "rewards/chosen": -3.5984835624694824,
-      "rewards/margins": 3.210897922515869,
-      "rewards/rejected": -6.809381008148193,
       "step": 340
     },
     {
       "epoch": 0.4031097034264325,
-      "grad_norm": 32.078697347416266,
       "learning_rate": 3.7267044682118435e-07,
-      "logits/chosen": -0.002132108900696039,
-      "logits/rejected": 0.7953078150749207,
-      "logps/chosen": -604.9791259765625,
-      "logps/rejected": -838.1949462890625,
-      "loss": 0.4191,
-      "rewards/accuracies": 0.768750011920929,
-      "rewards/chosen": -3.1062846183776855,
-      "rewards/margins": 2.339332342147827,
-      "rewards/rejected": -5.445616722106934,
       "step": 350
     },
     {
       "epoch": 0.41462712352433057,
-      "grad_norm": 28.020517011807925,
       "learning_rate": 3.638111208117425e-07,
-      "logits/chosen": -0.1473531574010849,
-      "logits/rejected": 0.490295946598053,
-      "logps/chosen": -583.7153930664062,
-      "logps/rejected": -761.9363403320312,
-      "loss": 0.4035,
-      "rewards/accuracies": 0.765625,
-      "rewards/chosen": -3.0424270629882812,
-      "rewards/margins": 1.7358585596084595,
-      "rewards/rejected": -4.778285026550293,
       "step": 360
     },
     {
       "epoch": 0.42614454362222864,
-      "grad_norm": 25.853288738352997,
       "learning_rate": 3.5476766511433605e-07,
-      "logits/chosen": -0.25570568442344666,
-      "logits/rejected": 0.6842668652534485,
-      "logps/chosen": -590.0350341796875,
-      "logps/rejected": -811.4537353515625,
-      "loss": 0.3968,
-      "rewards/accuracies": 0.793749988079071,
-      "rewards/chosen": -3.002671480178833,
-      "rewards/margins": 2.369654655456543,
-      "rewards/rejected": -5.372325897216797,
       "step": 370
     },
     {
       "epoch": 0.43766196372012667,
-      "grad_norm": 21.591809702398923,
       "learning_rate": 3.455547107128602e-07,
-      "logits/chosen": -0.12841393053531647,
-      "logits/rejected": 0.6481091380119324,
-      "logps/chosen": -580.2199096679688,
-      "logps/rejected": -826.1383666992188,
-      "loss": 0.3958,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -3.195159435272217,
-      "rewards/margins": 2.441926956176758,
-      "rewards/rejected": -5.637085914611816,
       "step": 380
     },
     {
       "epoch": 0.44917938381802475,
-      "grad_norm": 39.83795352564531,
       "learning_rate": 3.361871628152338e-07,
-      "logits/chosen": -0.23047828674316406,
-      "logits/rejected": 0.7577739953994751,
-      "logps/chosen": -605.4849853515625,
-      "logps/rejected": -883.64501953125,
-      "loss": 0.4085,
-      "rewards/accuracies": 0.809374988079071,
-      "rewards/chosen": -3.1104187965393066,
-      "rewards/margins": 3.0135536193847656,
-      "rewards/rejected": -6.123971939086914,
       "step": 390
     },
     {
       "epoch": 0.4606968039159228,
-      "grad_norm": 22.463302227367222,
       "learning_rate": 3.2668017673896077e-07,
-      "logits/chosen": -0.22118684649467468,
-      "logits/rejected": 0.6193957924842834,
-      "logps/chosen": -640.8189697265625,
-      "logps/rejected": -955.4924926757812,
-      "loss": 0.3964,
-      "rewards/accuracies": 0.809374988079071,
-      "rewards/chosen": -3.495349884033203,
-      "rewards/margins": 3.084470748901367,
-      "rewards/rejected": -6.579820156097412,
       "step": 400
     },
     {
       "epoch": 0.4606968039159228,
-      "eval_logits/chosen": -0.6209221482276917,
-      "eval_logits/rejected": 0.23131267726421356,
-      "eval_logps/chosen": -753.418701171875,
-      "eval_logps/rejected": -1128.0946044921875,
-      "eval_loss": 0.33106523752212524,
-      "eval_rewards/accuracies": 0.8178251385688782,
-      "eval_rewards/chosen": -4.624506950378418,
-      "eval_rewards/margins": 3.7555172443389893,
-      "eval_rewards/rejected": -8.380023956298828,
-      "eval_runtime": 655.865,
-      "eval_samples_per_second": 10.865,
-      "eval_steps_per_second": 0.34,
       "step": 400
     },
     {
       "epoch": 0.4722142240138209,
-      "grad_norm": 27.33004967085911,
       "learning_rate": 3.1704913339205103e-07,
-      "logits/chosen": 0.38320040702819824,
-      "logits/rejected": 1.2441421747207642,
-      "logps/chosen": -592.7208862304688,
-      "logps/rejected": -816.4508666992188,
-      "loss": 0.407,
-      "rewards/accuracies": 0.7875000238418579,
-      "rewards/chosen": -3.1608848571777344,
-      "rewards/margins": 2.369687080383301,
-      "rewards/rejected": -5.530571937561035,
       "step": 410
     },
     {
       "epoch": 0.483731644111719,
-      "grad_norm": 29.22769569320565,
       "learning_rate": 3.0730961438896885e-07,
-      "logits/chosen": -0.32711368799209595,
-      "logits/rejected": 0.6167188882827759,
-      "logps/chosen": -647.5065307617188,
-      "logps/rejected": -920.5850830078125,
-      "loss": 0.3864,
-      "rewards/accuracies": 0.815625011920929,
-      "rewards/chosen": -3.577653408050537,
-      "rewards/margins": 2.697723865509033,
-      "rewards/rejected": -6.27537727355957,
       "step": 420
     },
     {
       "epoch": 0.49524906420961706,
-      "grad_norm": 29.1628367265211,
       "learning_rate": 2.9747737684186795e-07,
-      "logits/chosen": -0.8004047274589539,
-      "logits/rejected": 0.0654061958193779,
-      "logps/chosen": -586.2633056640625,
-      "logps/rejected": -828.8479614257812,
-      "loss": 0.4008,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -3.018512487411499,
-      "rewards/margins": 2.515615701675415,
-      "rewards/rejected": -5.534128189086914,
       "step": 430
     },
     {
       "epoch": 0.5067664843075151,
-      "grad_norm": 43.05788588925481,
       "learning_rate": 2.8756832786789663e-07,
-      "logits/chosen": -0.7165388464927673,
-      "logits/rejected": 0.3907933533191681,
-      "logps/chosen": -558.6912231445312,
-      "logps/rejected": -839.3739013671875,
-      "loss": 0.3988,
-      "rewards/accuracies": 0.831250011920929,
-      "rewards/chosen": -2.8957457542419434,
-      "rewards/margins": 2.8470349311828613,
-      "rewards/rejected": -5.742780685424805,
       "step": 440
     },
     {
       "epoch": 0.5182839044054132,
-      "grad_norm": 26.95003512302597,
       "learning_rate": 2.7759849885381747e-07,
-      "logits/chosen": -0.43579286336898804,
-      "logits/rejected": 0.7088162302970886,
-      "logps/chosen": -564.5299072265625,
-      "logps/rejected": -807.0545043945312,
-      "loss": 0.3965,
-      "rewards/accuracies": 0.778124988079071,
-      "rewards/chosen": -2.7139556407928467,
-      "rewards/margins": 2.583310127258301,
-      "rewards/rejected": -5.297266483306885,
       "step": 450
     },
     {
       "epoch": 0.5298013245033113,
-      "grad_norm": 37.40829093424466,
       "learning_rate": 2.675840195195762e-07,
-      "logits/chosen": -0.4753951132297516,
-      "logits/rejected": 0.5207837224006653,
-      "logps/chosen": -559.075927734375,
-      "logps/rejected": -858.9351806640625,
-      "loss": 0.3858,
-      "rewards/accuracies": 0.809374988079071,
-      "rewards/chosen": -2.8625900745391846,
-      "rewards/margins": 2.9560627937316895,
-      "rewards/rejected": -5.818652153015137,
       "step": 460
     },
     {
       "epoch": 0.5413187446012093,
-      "grad_norm": 28.860389068235733,
       "learning_rate": 2.575410918227829e-07,
-      "logits/chosen": -0.4289991855621338,
-      "logits/rejected": 0.41408976912498474,
-      "logps/chosen": -583.07763671875,
-      "logps/rejected": -848.7003784179688,
-      "loss": 0.3851,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": -2.932926654815674,
-      "rewards/margins": 2.7647881507873535,
-      "rewards/rejected": -5.697714805603027,
       "step": 470
     },
     {
       "epoch": 0.5528361646991073,
-      "grad_norm": 25.478968182398468,
       "learning_rate": 2.474859637463226e-07,
-      "logits/chosen": 0.019112158566713333,
-      "logits/rejected": 0.9573495984077454,
-      "logps/chosen": -578.31005859375,
-      "logps/rejected": -817.9622192382812,
-      "loss": 0.4001,
-      "rewards/accuracies": 0.753125011920929,
-      "rewards/chosen": -3.071147918701172,
-      "rewards/margins": 2.528298854827881,
-      "rewards/rejected": -5.599446773529053,
       "step": 480
     },
     {
       "epoch": 0.5643535847970055,
-      "grad_norm": 22.69267875960799,
       "learning_rate": 2.3743490301150355e-07,
-      "logits/chosen": 0.03456907719373703,
-      "logits/rejected": 0.9821624755859375,
-      "logps/chosen": -616.0007934570312,
-      "logps/rejected": -855.6959228515625,
-      "loss": 0.395,
-      "rewards/accuracies": 0.78125,
-      "rewards/chosen": -3.1994495391845703,
-      "rewards/margins": 2.4747273921966553,
-      "rewards/rejected": -5.6741766929626465,
       "step": 490
     },
     {
       "epoch": 0.5758710048949035,
-      "grad_norm": 26.70832967985792,
       "learning_rate": 2.274041707592724e-07,
-      "logits/chosen": -0.4122609496116638,
-      "logits/rejected": 0.6060948371887207,
-      "logps/chosen": -594.303466796875,
-      "logps/rejected": -892.1234130859375,
-      "loss": 0.3858,
-      "rewards/accuracies": 0.8125,
-      "rewards/chosen": -3.213183879852295,
-      "rewards/margins": 2.860560894012451,
-      "rewards/rejected": -6.0737457275390625,
       "step": 500
     },
     {
       "epoch": 0.5758710048949035,
-      "eval_logits/chosen": -0.7776147127151489,
-      "eval_logits/rejected": 0.18928049504756927,
-      "eval_logps/chosen": -694.4180908203125,
-      "eval_logps/rejected": -1049.8428955078125,
-      "eval_loss": 0.3246955871582031,
-      "eval_rewards/accuracies": 0.8167040348052979,
-      "eval_rewards/chosen": -4.034500598907471,
-      "eval_rewards/margins": 3.563004732131958,
-      "eval_rewards/rejected": -7.59750509262085,
-      "eval_runtime": 874.6942,
-      "eval_samples_per_second": 8.147,
-      "eval_steps_per_second": 0.255,
       "step": 500
     },
     {
       "epoch": 0.5873884249928016,
-      "grad_norm": 21.857166040982808,
       "learning_rate": 2.17409995242075e-07,
-      "logits/chosen": -0.3013337552547455,
-      "logits/rejected": 0.687148928642273,
-      "logps/chosen": -590.9053955078125,
-      "logps/rejected": -848.279296875,
-      "loss": 0.3623,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -3.1760306358337402,
-      "rewards/margins": 2.6910133361816406,
-      "rewards/rejected": -5.867043972015381,
       "step": 510
     },
     {
       "epoch": 0.5989058450906997,
-      "grad_norm": 32.93018464240502,
       "learning_rate": 2.0746854556892544e-07,
-      "logits/chosen": -0.28416475653648376,
-      "logits/rejected": 0.760982871055603,
-      "logps/chosen": -584.7510986328125,
-      "logps/rejected": -825.0016479492188,
-      "loss": 0.3654,
       "rewards/accuracies": 0.8187500238418579,
-      "rewards/chosen": -3.0093677043914795,
-      "rewards/margins": 2.5775859355926514,
-      "rewards/rejected": -5.586953639984131,
       "step": 520
     },
     {
       "epoch": 0.6104232651885978,
-      "grad_norm": 31.84439684571111,
       "learning_rate": 1.9759590554616173e-07,
-      "logits/chosen": -0.21416716277599335,
-      "logits/rejected": 0.8462156057357788,
-      "logps/chosen": -591.3154296875,
-      "logps/rejected": -826.24853515625,
-      "loss": 0.39,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -3.1136324405670166,
-      "rewards/margins": 2.453207015991211,
-      "rewards/rejected": -5.56683874130249,
       "step": 530
     },
     {
       "epoch": 0.6219406852864958,
-      "grad_norm": 28.506645648712848,
       "learning_rate": 1.8780804765620746e-07,
-      "logits/chosen": -0.06838655471801758,
-      "logits/rejected": 1.0294172763824463,
-      "logps/chosen": -577.9981689453125,
-      "logps/rejected": -835.3642578125,
-      "loss": 0.3793,
-      "rewards/accuracies": 0.8062499761581421,
-      "rewards/chosen": -2.834435224533081,
-      "rewards/margins": 2.704789876937866,
-      "rewards/rejected": -5.539225101470947,
       "step": 540
     },
     {
       "epoch": 0.6334581053843938,
-      "grad_norm": 30.179970032375,
       "learning_rate": 1.7812080721643973e-07,
-      "logits/chosen": -0.30736392736434937,
-      "logits/rejected": 0.8852709531784058,
-      "logps/chosen": -576.0755615234375,
-      "logps/rejected": -836.8414306640625,
-      "loss": 0.381,
-      "rewards/accuracies": 0.8125,
-      "rewards/chosen": -2.8606371879577637,
-      "rewards/margins": 2.6888041496276855,
-      "rewards/rejected": -5.549441337585449,
       "step": 550
     },
     {
       "epoch": 0.644975525482292,
-      "grad_norm": 26.709457513505647,
       "learning_rate": 1.6854985675997063e-07,
-      "logits/chosen": -0.26044386625289917,
-      "logits/rejected": 0.7742006778717041,
-      "logps/chosen": -582.1048583984375,
-      "logps/rejected": -819.34033203125,
-      "loss": 0.4007,
-      "rewards/accuracies": 0.7875000238418579,
-      "rewards/chosen": -2.9853100776672363,
-      "rewards/margins": 2.4650139808654785,
-      "rewards/rejected": -5.450324058532715,
       "step": 560
     },
     {
       "epoch": 0.65649294558019,
-      "grad_norm": 27.543745008054035,
       "learning_rate": 1.5911068067978818e-07,
-      "logits/chosen": -0.05375183746218681,
-      "logits/rejected": 1.1043269634246826,
-      "logps/chosen": -581.2166748046875,
-      "logps/rejected": -818.9441528320312,
-      "loss": 0.3971,
-      "rewards/accuracies": 0.8187500238418579,
-      "rewards/chosen": -2.8354713916778564,
-      "rewards/margins": 2.655651330947876,
-      "rewards/rejected": -5.491122245788574,
       "step": 570
     },
     {
       "epoch": 0.6680103656780881,
-      "grad_norm": 22.093767953647365,
       "learning_rate": 1.4981855017728197e-07,
-      "logits/chosen": 0.0580272376537323,
-      "logits/rejected": 0.7513723373413086,
-      "logps/chosen": -571.5791625976562,
-      "logps/rejected": -858.3342895507812,
-      "loss": 0.3701,
-      "rewards/accuracies": 0.784375011920929,
-      "rewards/chosen": -3.0100650787353516,
-      "rewards/margins": 2.6902260780334473,
-      "rewards/rejected": -5.700291633605957,
       "step": 580
     },
     {
       "epoch": 0.6795277857759862,
-      "grad_norm": 36.73163562183304,
       "learning_rate": 1.406884985556804e-07,
-      "logits/chosen": -0.005457936320453882,
-      "logits/rejected": 1.047271490097046,
-      "logps/chosen": -635.6920166015625,
-      "logps/rejected": -881.1370849609375,
-      "loss": 0.3825,
-      "rewards/accuracies": 0.7437499761581421,
-      "rewards/chosen": -3.439662456512451,
-      "rewards/margins": 2.575695037841797,
-      "rewards/rejected": -6.01535701751709,
       "step": 590
     },
     {
       "epoch": 0.6910452058738843,
-      "grad_norm": 30.080057939243627,
       "learning_rate": 1.3173529689837354e-07,
-      "logits/chosen": -0.23538751900196075,
-      "logits/rejected": 0.9952915906906128,
-      "logps/chosen": -625.2637939453125,
-      "logps/rejected": -905.7393798828125,
-      "loss": 0.4031,
-      "rewards/accuracies": 0.765625,
-      "rewards/chosen": -3.336890459060669,
-      "rewards/margins": 3.089966058731079,
-      "rewards/rejected": -6.42685604095459,
       "step": 600
     },
     {
       "epoch": 0.6910452058738843,
-      "eval_logits/chosen": -0.26048585772514343,
-      "eval_logits/rejected": 0.6162645220756531,
-      "eval_logps/chosen": -748.3095703125,
-      "eval_logps/rejected": -1143.1573486328125,
-      "eval_loss": 0.3190823495388031,
-      "eval_rewards/accuracies": 0.820067286491394,
-      "eval_rewards/chosen": -4.573415279388428,
-      "eval_rewards/margins": 3.9572343826293945,
-      "eval_rewards/rejected": -8.530649185180664,
-      "eval_runtime": 651.1572,
-      "eval_samples_per_second": 10.944,
-      "eval_steps_per_second": 0.342,
       "step": 600
     },
     {
       "epoch": 0.7025626259717823,
-      "grad_norm": 28.901245277836818,
       "learning_rate": 1.2297343017146726e-07,
-      "logits/chosen": 0.07719476521015167,
-      "logits/rejected": 1.148842453956604,
-      "logps/chosen": -615.670166015625,
-      "logps/rejected": -902.8016357421875,
-      "loss": 0.385,
-      "rewards/accuracies": 0.78125,
-      "rewards/chosen": -3.2692692279815674,
-      "rewards/margins": 2.9544837474823,
-      "rewards/rejected": -6.223752975463867,
       "step": 610
     },
     {
       "epoch": 0.7140800460696803,
-      "grad_norm": 26.881220630663055,
       "learning_rate": 1.1441707378923474e-07,
-      "logits/chosen": 0.3414779305458069,
-      "logits/rejected": 1.1920559406280518,
-      "logps/chosen": -611.7634887695312,
-      "logps/rejected": -883.4708862304688,
-      "loss": 0.4032,
-      "rewards/accuracies": 0.7593749761581421,
-      "rewards/chosen": -3.267723798751831,
-      "rewards/margins": 2.798133373260498,
-      "rewards/rejected": -6.065857410430908,
       "step": 620
     },
     {
       "epoch": 0.7255974661675785,
-      "grad_norm": 22.92522846442678,
       "learning_rate": 1.06080070680377e-07,
-      "logits/chosen": 0.059290122240781784,
-      "logits/rejected": 1.0623096227645874,
-      "logps/chosen": -614.2824096679688,
-      "logps/rejected": -868.0498046875,
-      "loss": 0.372,
-      "rewards/accuracies": 0.7718750238418579,
-      "rewards/chosen": -3.2304539680480957,
-      "rewards/margins": 2.7317616939544678,
-      "rewards/rejected": -5.962214946746826,
       "step": 630
     },
     {
       "epoch": 0.7371148862654765,
-      "grad_norm": 18.474464704704374,
       "learning_rate": 9.797590889219587e-08,
-      "logits/chosen": -0.07347230613231659,
-      "logits/rejected": 0.7878081798553467,
-      "logps/chosen": -598.407958984375,
-      "logps/rejected": -922.5660400390625,
-      "loss": 0.3733,
-      "rewards/accuracies": 0.796875,
-      "rewards/chosen": -3.226865768432617,
-      "rewards/margins": 3.285538911819458,
-      "rewards/rejected": -6.5124053955078125,
       "step": 640
     },
     {
       "epoch": 0.7486323063633746,
-      "grad_norm": 25.105406106031534,
       "learning_rate": 9.011769976891367e-08,
-      "logits/chosen": 0.06855427473783493,
-      "logits/rejected": 1.2701406478881836,
-      "logps/chosen": -594.861083984375,
-      "logps/rejected": -820.2781372070312,
-      "loss": 0.3929,
-      "rewards/accuracies": 0.828125,
-      "rewards/chosen": -2.9540488719940186,
-      "rewards/margins": 2.544384241104126,
-      "rewards/rejected": -5.4984331130981445,
       "step": 650
     },
     {
       "epoch": 0.7601497264612727,
-      "grad_norm": 25.930812393377074,
       "learning_rate": 8.251815673944218e-08,
-      "logits/chosen": -0.13862136006355286,
-      "logits/rejected": 0.950897216796875,
-      "logps/chosen": -660.083740234375,
-      "logps/rejected": -984.3076171875,
-      "loss": 0.3798,
-      "rewards/accuracies": 0.815625011920929,
-      "rewards/chosen": -3.4895882606506348,
-      "rewards/margins": 3.4641425609588623,
-      "rewards/rejected": -6.953730583190918,
       "step": 660
     },
     {
       "epoch": 0.7716671465591708,
-      "grad_norm": 22.848572550568402,
       "learning_rate": 7.518957474892148e-08,
-      "logits/chosen": 0.03879556804895401,
-      "logits/rejected": 0.8222616314888,
-      "logps/chosen": -593.1844482421875,
-      "logps/rejected": -868.5235595703125,
-      "loss": 0.3716,
-      "rewards/accuracies": 0.809374988079071,
-      "rewards/chosen": -3.1576333045959473,
-      "rewards/margins": 2.791321277618408,
-      "rewards/rejected": -5.9489545822143555,
       "step": 670
     },
     {
       "epoch": 0.7831845666570688,
-      "grad_norm": 37.77871708341422,
       "learning_rate": 6.814381036730274e-08,
-      "logits/chosen": -0.06809209287166595,
-      "logits/rejected": 0.9388583898544312,
-      "logps/chosen": -602.1769409179688,
-      "logps/rejected": -918.8854370117188,
-      "loss": 0.4027,
-      "rewards/accuracies": 0.768750011920929,
-      "rewards/chosen": -3.232111692428589,
-      "rewards/margins": 3.247992753982544,
-      "rewards/rejected": -6.480103969573975,
       "step": 680
     },
     {
       "epoch": 0.7947019867549668,
-      "grad_norm": 25.302552395916596,
       "learning_rate": 6.139226260715872e-08,
-      "logits/chosen": -0.06320186704397202,
-      "logits/rejected": 0.8823334574699402,
-      "logps/chosen": -625.1529541015625,
-      "logps/rejected": -898.3558349609375,
-      "loss": 0.3655,
-      "rewards/accuracies": 0.778124988079071,
-      "rewards/chosen": -3.5077052116394043,
-      "rewards/margins": 2.779940366744995,
-      "rewards/rejected": -6.2876458168029785,
       "step": 690
     },
     {
       "epoch": 0.806219406852865,
-      "grad_norm": 41.487105287447704,
       "learning_rate": 5.4945854481754734e-08,
-      "logits/chosen": 0.07060976326465607,
-      "logits/rejected": 0.9207429885864258,
-      "logps/chosen": -644.9542236328125,
-      "logps/rejected": -981.1370849609375,
-      "loss": 0.4007,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -3.7041306495666504,
-      "rewards/margins": 3.448993682861328,
-      "rewards/rejected": -7.1531243324279785,
       "step": 700
     },
     {
       "epoch": 0.806219406852865,
-      "eval_logits/chosen": -0.4981551170349121,
-      "eval_logits/rejected": 0.44106799364089966,
-      "eval_logps/chosen": -753.01123046875,
-      "eval_logps/rejected": -1189.425048828125,
-      "eval_loss": 0.31710898876190186,
-      "eval_rewards/accuracies": 0.8178251385688782,
-      "eval_rewards/chosen": -4.620431900024414,
-      "eval_rewards/margins": 4.372895240783691,
-      "eval_rewards/rejected": -8.993328094482422,
-      "eval_runtime": 653.0396,
-      "eval_samples_per_second": 10.912,
-      "eval_steps_per_second": 0.341,
       "step": 700
     },
     {
       "epoch": 0.817736826950763,
-      "grad_norm": 26.15798738128027,
       "learning_rate": 4.881501533321605e-08,
-      "logits/chosen": -0.3350176513195038,
-      "logits/rejected": 0.5944274663925171,
-      "logps/chosen": -611.4078369140625,
-      "logps/rejected": -894.845703125,
-      "loss": 0.3819,
-      "rewards/accuracies": 0.796875,
-      "rewards/chosen": -3.2478299140930176,
-      "rewards/margins": 2.9104466438293457,
-      "rewards/rejected": -6.158276557922363,
       "step": 710
     },
     {
       "epoch": 0.8292542470486611,
-      "grad_norm": 28.210401445519196,
       "learning_rate": 4.300966395938377e-08,
-      "logits/chosen": -0.47553783655166626,
-      "logits/rejected": 0.6052624583244324,
-      "logps/chosen": -642.4817504882812,
-      "logps/rejected": -950.6018676757812,
-      "loss": 0.3724,
-      "rewards/accuracies": 0.8062499761581421,
-      "rewards/chosen": -3.420116901397705,
-      "rewards/margins": 3.2143654823303223,
-      "rewards/rejected": -6.634482383728027,
       "step": 720
     },
     {
       "epoch": 0.8407716671465592,
-      "grad_norm": 27.28999144486062,
       "learning_rate": 3.7539192566655246e-08,
-      "logits/chosen": -0.0816282406449318,
-      "logits/rejected": 0.8518702387809753,
-      "logps/chosen": -626.6390991210938,
-      "logps/rejected": -941.8958129882812,
-      "loss": 0.3713,
-      "rewards/accuracies": 0.8343750238418579,
-      "rewards/chosen": -3.378054141998291,
-      "rewards/margins": 3.2282519340515137,
-      "rewards/rejected": -6.606306552886963,
       "step": 730
     },
     {
       "epoch": 0.8522890872444573,
-      "grad_norm": 27.71621255798267,
       "learning_rate": 3.24124515747731e-08,
-      "logits/chosen": -0.0028346062172204256,
-      "logits/rejected": 1.1290369033813477,
-      "logps/chosen": -672.173828125,
-      "logps/rejected": -975.3580322265625,
-      "loss": 0.374,
-      "rewards/accuracies": 0.796875,
-      "rewards/chosen": -3.6781773567199707,
-      "rewards/margins": 3.3185067176818848,
-      "rewards/rejected": -6.996683597564697,
       "step": 740
     },
     {
       "epoch": 0.8638065073423553,
-      "grad_norm": 35.482960030400996,
       "learning_rate": 2.763773529814506e-08,
-      "logits/chosen": 0.17448297142982483,
-      "logits/rejected": 0.9923737645149231,
-      "logps/chosen": -603.94970703125,
-      "logps/rejected": -925.9880981445312,
-      "loss": 0.3918,
-      "rewards/accuracies": 0.78125,
-      "rewards/chosen": -3.315547466278076,
-      "rewards/margins": 3.1224138736724854,
-      "rewards/rejected": -6.437961578369141,
       "step": 750
     },
     {
       "epoch": 0.8753239274402533,
-      "grad_norm": 28.184713620117034,
       "learning_rate": 2.3222768526860698e-08,
-      "logits/chosen": 0.0647897943854332,
-      "logits/rejected": 0.9855157136917114,
-      "logps/chosen": -613.9244995117188,
-      "logps/rejected": -901.00927734375,
-      "loss": 0.3741,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -3.254974365234375,
-      "rewards/margins": 2.7708938121795654,
-      "rewards/rejected": -6.0258684158325195,
       "step": 760
     },
     {
       "epoch": 0.8868413475381515,
-      "grad_norm": 35.13633269103924,
       "learning_rate": 1.9174694029115146e-08,
-      "logits/chosen": 0.19886977970600128,
-      "logits/rejected": 1.013934850692749,
-      "logps/chosen": -620.3436279296875,
-      "logps/rejected": -958.3701171875,
-      "loss": 0.3682,
-      "rewards/accuracies": 0.8218749761581421,
-      "rewards/chosen": -3.4876530170440674,
-      "rewards/margins": 3.2890784740448,
-      "rewards/rejected": -6.776731967926025,
       "step": 770
     },
     {
       "epoch": 0.8983587676360495,
-      "grad_norm": 29.350577487943855,
       "learning_rate": 1.5500060995258134e-08,
-      "logits/chosen": 0.12428224086761475,
-      "logits/rejected": 1.2418944835662842,
-      "logps/chosen": -604.94873046875,
-      "logps/rejected": -891.98828125,
-      "loss": 0.37,
-      "rewards/accuracies": 0.778124988079071,
-      "rewards/chosen": -3.2872474193573,
-      "rewards/margins": 2.9589405059814453,
-      "rewards/rejected": -6.24618673324585,
       "step": 780
     },
     {
       "epoch": 0.9098761877339476,
-      "grad_norm": 31.77954056090223,
       "learning_rate": 1.2204814442165812e-08,
-      "logits/chosen": 0.1471497118473053,
-      "logits/rejected": 1.0471051931381226,
-      "logps/chosen": -657.8414306640625,
-      "logps/rejected": -977.1556396484375,
-      "loss": 0.3992,
-      "rewards/accuracies": 0.784375011920929,
-      "rewards/chosen": -3.6439871788024902,
-      "rewards/margins": 3.291074752807617,
-      "rewards/rejected": -6.935061454772949,
       "step": 790
     },
     {
       "epoch": 0.9213936078318457,
-      "grad_norm": 35.231363022526715,
       "learning_rate": 9.294285595075669e-09,
-      "logits/chosen": 0.23517772555351257,
-      "logits/rejected": 1.1635137796401978,
-      "logps/chosen": -621.228515625,
-      "logps/rejected": -941.3455200195312,
-      "loss": 0.3644,
-      "rewards/accuracies": 0.7906249761581421,
-      "rewards/chosen": -3.437223434448242,
-      "rewards/margins": 3.3359901905059814,
-      "rewards/rejected": -6.7732133865356445,
       "step": 800
     },
     {
       "epoch": 0.9213936078318457,
-      "eval_logits/chosen": -0.3096068501472473,
-      "eval_logits/rejected": 0.6049354672431946,
-      "eval_logps/chosen": -755.9322509765625,
-      "eval_logps/rejected": -1192.5621337890625,
-      "eval_loss": 0.31517288088798523,
-      "eval_rewards/accuracies": 0.818385660648346,
-      "eval_rewards/chosen": -4.649641990661621,
-      "eval_rewards/margins": 4.37505578994751,
-      "eval_rewards/rejected": -9.024698257446289,
-      "eval_runtime": 652.0187,
-      "eval_samples_per_second": 10.929,
-      "eval_steps_per_second": 0.342,
       "step": 800
     },
     {
       "epoch": 0.9329110279297438,
-      "grad_norm": 35.70619984366826,
       "learning_rate": 6.773183262446914e-09,
-      "logits/chosen": 0.08351641893386841,
-      "logits/rejected": 1.0455710887908936,
-      "logps/chosen": -619.4977416992188,
-      "logps/rejected": -918.3001098632812,
-      "loss": 0.4056,
-      "rewards/accuracies": 0.78125,
-      "rewards/chosen": -3.3363006114959717,
-      "rewards/margins": 3.10974383354187,
-      "rewards/rejected": -6.446043968200684,
       "step": 810
     },
     {
       "epoch": 0.9444284480276418,
-      "grad_norm": 32.90474966984876,
       "learning_rate": 4.645586217799452e-09,
-      "logits/chosen": -0.05233382433652878,
-      "logits/rejected": 0.976836085319519,
-      "logps/chosen": -630.252685546875,
-      "logps/rejected": -968.9739379882812,
-      "loss": 0.3685,
-      "rewards/accuracies": 0.824999988079071,
-      "rewards/chosen": -3.2664294242858887,
-      "rewards/margins": 3.563570022583008,
-      "rewards/rejected": -6.8299994468688965,
       "step": 820
     },
     {
       "epoch": 0.9559458681255398,
-      "grad_norm": 36.38359169566316,
       "learning_rate": 2.9149366008568987e-09,
-      "logits/chosen": 0.14797405898571014,
-      "logits/rejected": 0.9976932406425476,
-      "logps/chosen": -601.341552734375,
-      "logps/rejected": -791.478271484375,
-      "loss": 0.4137,
       "rewards/accuracies": 0.778124988079071,
-      "rewards/chosen": -3.2392711639404297,
-      "rewards/margins": 2.041738986968994,
-      "rewards/rejected": -5.281010150909424,
       "step": 830
     },
     {
       "epoch": 0.967463288223438,
-      "grad_norm": 36.38873535658025,
       "learning_rate": 1.5840343486700215e-09,
-      "logits/chosen": 0.11059533059597015,
-      "logits/rejected": 1.2648974657058716,
-      "logps/chosen": -640.0452880859375,
-      "logps/rejected": -975.3658447265625,
-      "loss": 0.394,
-      "rewards/accuracies": 0.8125,
-      "rewards/chosen": -3.4839179515838623,
-      "rewards/margins": 3.5232937335968018,
-      "rewards/rejected": -7.007212162017822,
       "step": 840
     },
     {
       "epoch": 0.978980708321336,
-      "grad_norm": 40.1741036497201,
       "learning_rate": 6.550326657293881e-10,
-      "logits/chosen": 0.27081722021102905,
-      "logits/rejected": 1.2972664833068848,
-      "logps/chosen": -605.1519775390625,
-      "logps/rejected": -885.68896484375,
-      "loss": 0.4039,
-      "rewards/accuracies": 0.7906249761581421,
-      "rewards/chosen": -3.3234386444091797,
-      "rewards/margins": 2.970566511154175,
-      "rewards/rejected": -6.294005870819092,
       "step": 850
     },
     {
       "epoch": 0.9904981284192341,
-      "grad_norm": 31.693047329975887,
       "learning_rate": 1.2943454039654467e-10,
-      "logits/chosen": 0.14183056354522705,
-      "logits/rejected": 1.1139782667160034,
-      "logps/chosen": -605.5335693359375,
-      "logps/rejected": -855.60595703125,
-      "loss": 0.3858,
-      "rewards/accuracies": 0.753125011920929,
-      "rewards/chosen": -3.16903018951416,
-      "rewards/margins": 2.619706869125366,
-      "rewards/rejected": -5.7887372970581055,
       "step": 860
     },
     {
       "epoch": 0.9997120644975526,
       "step": 868,
       "total_flos": 0.0,
-      "train_loss": 0.0,
-      "train_runtime": 0.0211,
-      "train_samples_per_second": 5273498.215,
-      "train_steps_per_second": 41188.083
     }
   ],
   "logging_steps": 10,

   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.001151742009789807,
+      "grad_norm": 8.954344956678737,
+      "learning_rate": 5.747126436781609e-09,
+      "logits/chosen": -2.759351968765259,
+      "logits/rejected": -2.762708902359009,
+      "logps/chosen": -256.92901611328125,
+      "logps/rejected": -268.4883728027344,
       "loss": 0.6931,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
     },
     {
       "epoch": 0.01151742009789807,
+      "grad_norm": 8.455865944439507,
       "learning_rate": 5.747126436781609e-08,
+      "logits/chosen": -2.8186073303222656,
+      "logits/rejected": -2.7818901538848877,
+      "logps/chosen": -280.477783203125,
+      "logps/rejected": -273.6023864746094,
+      "loss": 0.6932,
+      "rewards/accuracies": 0.3854166567325592,
+      "rewards/chosen": 0.0001983554830076173,
+      "rewards/margins": -0.00018551234097685665,
+      "rewards/rejected": 0.0003838678530883044,
       "step": 10
     },
     {
       "epoch": 0.02303484019579614,
+      "grad_norm": 8.281991111156,
       "learning_rate": 1.1494252873563217e-07,
+      "logits/chosen": -2.780491828918457,
+      "logits/rejected": -2.7574048042297363,
+      "logps/chosen": -288.68408203125,
+      "logps/rejected": -274.33233642578125,
+      "loss": 0.6929,
       "rewards/accuracies": 0.5406249761581421,
+      "rewards/chosen": 0.000404498161515221,
+      "rewards/margins": 0.0008455432835035026,
+      "rewards/rejected": -0.00044104509288445115,
       "step": 20
     },
     {
       "epoch": 0.03455226029369421,
+      "grad_norm": 8.294840577575956,
       "learning_rate": 1.7241379310344828e-07,
+      "logits/chosen": -2.7976105213165283,
+      "logits/rejected": -2.771127462387085,
+      "logps/chosen": -282.4824523925781,
+      "logps/rejected": -267.7333984375,
+      "loss": 0.6915,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": 0.002527938922867179,
+      "rewards/margins": 0.0036745104007422924,
+      "rewards/rejected": -0.0011465717107057571,
       "step": 30
     },
     {
       "epoch": 0.04606968039159228,
+      "grad_norm": 8.712130617823888,
       "learning_rate": 2.2988505747126435e-07,
+      "logits/chosen": -2.7874083518981934,
+      "logits/rejected": -2.7691152095794678,
+      "logps/chosen": -276.18780517578125,
+      "logps/rejected": -266.81781005859375,
+      "loss": 0.6874,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": 0.0077004628255963326,
+      "rewards/margins": 0.010546171106398106,
+      "rewards/rejected": -0.0028457094449549913,
       "step": 40
     },
     {
       "epoch": 0.05758710048949035,
+      "grad_norm": 10.31218146006529,
       "learning_rate": 2.873563218390804e-07,
+      "logits/chosen": -2.8169891834259033,
+      "logits/rejected": -2.780351161956787,
+      "logps/chosen": -288.07293701171875,
+      "logps/rejected": -277.56207275390625,
+      "loss": 0.6779,
+      "rewards/accuracies": 0.746874988079071,
+      "rewards/chosen": 0.016184702515602112,
+      "rewards/margins": 0.033592261373996735,
+      "rewards/rejected": -0.01740756258368492,
       "step": 50
     },
     {
       "epoch": 0.06910452058738842,
+      "grad_norm": 8.630622631020962,
       "learning_rate": 3.4482758620689656e-07,
+      "logits/chosen": -2.8177428245544434,
+      "logits/rejected": -2.7997875213623047,
+      "logps/chosen": -284.9295959472656,
+      "logps/rejected": -300.76239013671875,
+      "loss": 0.6642,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": 0.014625328592956066,
+      "rewards/margins": 0.06306789815425873,
+      "rewards/rejected": -0.04844257980585098,
       "step": 60
     },
     {
       "epoch": 0.0806219406852865,
+      "grad_norm": 10.734027101004664,
       "learning_rate": 4.0229885057471266e-07,
+      "logits/chosen": -2.7529358863830566,
+      "logits/rejected": -2.7322020530700684,
+      "logps/chosen": -290.8133850097656,
+      "logps/rejected": -287.9371643066406,
+      "loss": 0.6367,
+      "rewards/accuracies": 0.715624988079071,
+      "rewards/chosen": -0.06497061997652054,
+      "rewards/margins": 0.13046525418758392,
+      "rewards/rejected": -0.19543585181236267,
       "step": 70
     },
     {
       "epoch": 0.09213936078318456,
+      "grad_norm": 11.33124626301948,
       "learning_rate": 4.597701149425287e-07,
+      "logits/chosen": -2.861381769180298,
+      "logits/rejected": -2.830373525619507,
+      "logps/chosen": -326.0346374511719,
+      "logps/rejected": -342.4071960449219,
+      "loss": 0.5943,
+      "rewards/accuracies": 0.7718750238418579,
+      "rewards/chosen": -0.21955294907093048,
+      "rewards/margins": 0.28150954842567444,
+      "rewards/rejected": -0.5010625123977661,
       "step": 80
     },
     {
       "epoch": 0.10365678088108264,
+      "grad_norm": 20.262969117511794,
       "learning_rate": 4.999817969178237e-07,
+      "logits/chosen": -2.802300214767456,
+      "logits/rejected": -2.766491174697876,
+      "logps/chosen": -352.80755615234375,
+      "logps/rejected": -383.49725341796875,
+      "loss": 0.5561,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -0.6216552257537842,
+      "rewards/margins": 0.41057389974594116,
+      "rewards/rejected": -1.0322291851043701,
       "step": 90
     },
     {
       "epoch": 0.1151742009789807,
+      "grad_norm": 21.31118240013579,
       "learning_rate": 4.996582603056428e-07,
+      "logits/chosen": -2.789545774459839,
+      "logits/rejected": -2.761136293411255,
+      "logps/chosen": -439.2823791503906,
+      "logps/rejected": -501.868408203125,
+      "loss": 0.5381,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -1.3656787872314453,
+      "rewards/margins": 0.7182655334472656,
+      "rewards/rejected": -2.08394455909729,
       "step": 100
     },
     {
       "epoch": 0.1151742009789807,
+      "eval_logits/chosen": -2.9044759273529053,
+      "eval_logits/rejected": -2.882232189178467,
+      "eval_logps/chosen": -489.789306640625,
+      "eval_logps/rejected": -581.798095703125,
+      "eval_loss": 0.4757886528968811,
+      "eval_rewards/accuracies": 0.7270179390907288,
+      "eval_rewards/chosen": -1.9882127046585083,
+      "eval_rewards/margins": 0.9288455843925476,
+      "eval_rewards/rejected": -2.9170584678649902,
+      "eval_runtime": 641.6076,
+      "eval_samples_per_second": 11.106,
+      "eval_steps_per_second": 0.348,
       "step": 100
     },
     {
       "epoch": 0.12669162107687879,
+      "grad_norm": 19.990999467237586,
       "learning_rate": 4.989308132738126e-07,
+      "logits/chosen": -2.7357916831970215,
+      "logits/rejected": -2.711280345916748,
+      "logps/chosen": -394.81048583984375,
+      "logps/rejected": -465.7745056152344,
+      "loss": 0.5215,
+      "rewards/accuracies": 0.690625011920929,
+      "rewards/chosen": -1.2416951656341553,
+      "rewards/margins": 0.7623735666275024,
+      "rewards/rejected": -2.0040688514709473,
       "step": 110
     },
     {
       "epoch": 0.13820904117477684,
+      "grad_norm": 22.41253635277838,
       "learning_rate": 4.978006327248536e-07,
+      "logits/chosen": -2.7071425914764404,
+      "logits/rejected": -2.6982598304748535,
+      "logps/chosen": -415.25634765625,
+      "logps/rejected": -507.17376708984375,
+      "loss": 0.4829,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -1.099837303161621,
+      "rewards/margins": 0.9606343507766724,
+      "rewards/rejected": -2.060471773147583,
       "step": 120
     },
     {
       "epoch": 0.14972646127267492,
+      "grad_norm": 28.3351388035627,
       "learning_rate": 4.962695471250032e-07,
+      "logits/chosen": -2.509568929672241,
+      "logits/rejected": -2.4706530570983887,
+      "logps/chosen": -475.9378356933594,
+      "logps/rejected": -565.5125732421875,
+      "loss": 0.4913,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -1.896477460861206,
+      "rewards/margins": 1.053924798965454,
+      "rewards/rejected": -2.950402021408081,
       "step": 130
     },
     {
       "epoch": 0.161243881370573,
+      "grad_norm": 28.57986478281954,
       "learning_rate": 4.94340033546025e-07,
+      "logits/chosen": -1.8837181329727173,
+      "logits/rejected": -1.7757914066314697,
+      "logps/chosen": -481.201416015625,
+      "logps/rejected": -605.1053466796875,
+      "loss": 0.4783,
+      "rewards/accuracies": 0.753125011920929,
+      "rewards/chosen": -2.0652859210968018,
+      "rewards/margins": 1.3595540523529053,
+      "rewards/rejected": -3.424839735031128,
       "step": 140
     },
     {
       "epoch": 0.17276130146847107,
+      "grad_norm": 19.68624301597443,
       "learning_rate": 4.920152136576705e-07,
+      "logits/chosen": -1.7746684551239014,
+      "logits/rejected": -1.6012051105499268,
+      "logps/chosen": -478.12646484375,
+      "logps/rejected": -569.0491333007812,
+      "loss": 0.456,
+      "rewards/accuracies": 0.721875011920929,
+      "rewards/chosen": -1.7061989307403564,
+      "rewards/margins": 1.1741154193878174,
+      "rewards/rejected": -2.880314350128174,
       "step": 150
     },
     {
       "epoch": 0.18427872156636912,
+      "grad_norm": 22.179872671918822,
       "learning_rate": 4.892988486772756e-07,
+      "logits/chosen": -1.5278130769729614,
+      "logits/rejected": -1.3506165742874146,
+      "logps/chosen": -477.80853271484375,
+      "logps/rejected": -651.3321533203125,
+      "loss": 0.4295,
+      "rewards/accuracies": 0.778124988079071,
+      "rewards/chosen": -2.0188517570495605,
+      "rewards/margins": 1.7111384868621826,
+      "rewards/rejected": -3.7299904823303223,
       "step": 160
     },
     {
       "epoch": 0.1957961416642672,
+      "grad_norm": 22.622363623676517,
       "learning_rate": 4.861953332846629e-07,
+      "logits/chosen": -1.2652065753936768,
+      "logits/rejected": -1.1065785884857178,
+      "logps/chosen": -485.0794372558594,
+      "logps/rejected": -644.7564697265625,
+      "loss": 0.4356,
+      "rewards/accuracies": 0.7406250238418579,
+      "rewards/chosen": -2.1487345695495605,
+      "rewards/margins": 1.5242230892181396,
+      "rewards/rejected": -3.6729576587677,
       "step": 170
     },
     {
       "epoch": 0.20731356176216528,
+      "grad_norm": 26.087556223120203,
       "learning_rate": 4.827096885121953e-07,
+      "logits/chosen": -1.0748474597930908,
+      "logits/rejected": -0.7963994145393372,
+      "logps/chosen": -554.6792602539062,
+      "logps/rejected": -734.0240478515625,
+      "loss": 0.4457,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -2.8119685649871826,
+      "rewards/margins": 1.7995468378067017,
+      "rewards/rejected": -4.611515045166016,
       "step": 180
     },
     {
       "epoch": 0.21883098186006333,
+      "grad_norm": 23.82706622737464,
       "learning_rate": 4.788475536214821e-07,
+      "logits/chosen": -0.7968783974647522,
+      "logits/rejected": -0.5444242358207703,
+      "logps/chosen": -570.3772583007812,
+      "logps/rejected": -743.9293212890625,
+      "loss": 0.404,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -2.7484724521636963,
+      "rewards/margins": 1.847896933555603,
+      "rewards/rejected": -4.59636926651001,
       "step": 190
     },
     {
       "epoch": 0.2303484019579614,
+      "grad_norm": 22.12633066649394,
       "learning_rate": 4.746151769798818e-07,
+      "logits/chosen": -0.33320680260658264,
+      "logits/rejected": 0.0012704581022262573,
+      "logps/chosen": -587.2708740234375,
+      "logps/rejected": -802.9293212890625,
+      "loss": 0.4268,
+      "rewards/accuracies": 0.7593749761581421,
+      "rewards/chosen": -3.0321972370147705,
+      "rewards/margins": 2.202017068862915,
+      "rewards/rejected": -5.2342143058776855,
       "step": 200
     },
     {
       "epoch": 0.2303484019579614,
+      "eval_logits/chosen": -0.9790740013122559,
+      "eval_logits/rejected": -0.6780607104301453,
+      "eval_logps/chosen": -681.6493530273438,
+      "eval_logps/rejected": -974.9606323242188,
+      "eval_loss": 0.3576536774635315,
+      "eval_rewards/accuracies": 0.7976457476615906,
+      "eval_rewards/chosen": -3.906813621520996,
+      "eval_rewards/margins": 2.9418699741363525,
+      "eval_rewards/rejected": -6.848682403564453,
+      "eval_runtime": 642.8141,
+      "eval_samples_per_second": 11.086,
+      "eval_steps_per_second": 0.347,
       "step": 200
     },
     {
       "epoch": 0.2418658220558595,
+      "grad_norm": 28.55770787025379,
       "learning_rate": 4.7001940595156055e-07,
+      "logits/chosen": -0.15793052315711975,
+      "logits/rejected": 0.05452694371342659,
+      "logps/chosen": -531.8611450195312,
+      "logps/rejected": -715.461181640625,
+      "loss": 0.4386,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -2.547398328781128,
+      "rewards/margins": 1.7863715887069702,
+      "rewards/rejected": -4.333769798278809,
       "step": 210
     },
     {
       "epoch": 0.25338324215375757,
+      "grad_norm": 34.18952768278615,
       "learning_rate": 4.650676758194623e-07,
+      "logits/chosen": -0.5843445062637329,
+      "logits/rejected": -0.08485187590122223,
+      "logps/chosen": -509.3975524902344,
+      "logps/rejected": -702.2587280273438,
+      "loss": 0.4169,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -2.2745628356933594,
+      "rewards/margins": 2.145096778869629,
+      "rewards/rejected": -4.419659614562988,
       "step": 220
     },
     {
       "epoch": 0.26490066225165565,
+      "grad_norm": 33.36988457876833,
       "learning_rate": 4.5976799775611215e-07,
+      "logits/chosen": -0.3160017728805542,
+      "logits/rejected": 0.20093998312950134,
+      "logps/chosen": -516.4368896484375,
+      "logps/rejected": -678.5955200195312,
+      "loss": 0.4413,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -2.2482521533966064,
+      "rewards/margins": 1.7269527912139893,
+      "rewards/rejected": -3.9752049446105957,
       "step": 230
     },
     {
       "epoch": 0.2764180823495537,
+      "grad_norm": 25.800936315454518,
       "learning_rate": 4.5412894586271543e-07,
+      "logits/chosen": -0.25688791275024414,
+      "logits/rejected": 0.23107607662677765,
+      "logps/chosen": -507.2642517089844,
+      "logps/rejected": -678.391357421875,
+      "loss": 0.42,
+      "rewards/accuracies": 0.765625,
+      "rewards/chosen": -2.0940096378326416,
+      "rewards/margins": 1.9648818969726562,
+      "rewards/rejected": -4.058891773223877,
       "step": 240
     },
     {
       "epoch": 0.28793550244745175,
+      "grad_norm": 25.786461976756396,
       "learning_rate": 4.481596432975201e-07,
+      "logits/chosen": -1.0171256065368652,
+      "logits/rejected": -0.5706368684768677,
+      "logps/chosen": -517.12451171875,
+      "logps/rejected": -737.7791137695312,
+      "loss": 0.4331,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -2.2817940711975098,
+      "rewards/margins": 2.181729793548584,
+      "rewards/rejected": -4.463524341583252,
       "step": 250
     },
     {
       "epoch": 0.29945292254534983,
+      "grad_norm": 47.2235188357849,
       "learning_rate": 4.41869747515886e-07,
+      "logits/chosen": -1.1118611097335815,
+      "logits/rejected": -0.6688307523727417,
+      "logps/chosen": -620.9531860351562,
+      "logps/rejected": -872.623046875,
+      "loss": 0.4144,
+      "rewards/accuracies": 0.753125011920929,
+      "rewards/chosen": -3.3720595836639404,
+      "rewards/margins": 2.488572359085083,
+      "rewards/rejected": -5.860631465911865,
       "step": 260
     },
     {
       "epoch": 0.3109703426432479,
+      "grad_norm": 26.838626915471743,
       "learning_rate": 4.352694346459396e-07,
+      "logits/chosen": -1.2210652828216553,
+      "logits/rejected": -0.7195647358894348,
+      "logps/chosen": -534.5902099609375,
+      "logps/rejected": -761.0294189453125,
+      "loss": 0.4083,
       "rewards/accuracies": 0.784375011920929,
+      "rewards/chosen": -2.6057441234588623,
+      "rewards/margins": 2.184957504272461,
+      "rewards/rejected": -4.790701866149902,
       "step": 270
     },
     {
       "epoch": 0.322487762741146,
+      "grad_norm": 26.363036179443302,
       "learning_rate": 4.2836938302509256e-07,
+      "logits/chosen": -1.2423580884933472,
+      "logits/rejected": -0.7629604935646057,
+      "logps/chosen": -559.0585327148438,
+      "logps/rejected": -827.2657470703125,
+      "loss": 0.3904,
+      "rewards/accuracies": 0.7718750238418579,
+      "rewards/chosen": -2.7791800498962402,
+      "rewards/margins": 2.684356689453125,
+      "rewards/rejected": -5.463536739349365,
       "step": 280
     },
     {
       "epoch": 0.33400518283904407,
+      "grad_norm": 25.387456130173874,
       "learning_rate": 4.2118075592405874e-07,
+      "logits/chosen": -0.6111725568771362,
+      "logits/rejected": -0.15174560248851776,
+      "logps/chosen": -587.7760009765625,
+      "logps/rejected": -839.3088989257812,
+      "loss": 0.4086,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -2.9200491905212402,
+      "rewards/margins": 2.618988037109375,
+      "rewards/rejected": -5.539036750793457,
       "step": 290
     },
     {
       "epoch": 0.34552260293694215,
+      "grad_norm": 24.386747936025703,
       "learning_rate": 4.137151834863213e-07,
+      "logits/chosen": -0.8588908910751343,
+      "logits/rejected": -0.17885461449623108,
+      "logps/chosen": -585.371337890625,
+      "logps/rejected": -798.4925537109375,
+      "loss": 0.4067,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -3.0237374305725098,
+      "rewards/margins": 2.431835651397705,
+      "rewards/rejected": -5.455573558807373,
       "step": 300
     },
     {
       "epoch": 0.34552260293694215,
+      "eval_logits/chosen": -1.2473794221878052,
+      "eval_logits/rejected": -0.6641976833343506,
+      "eval_logps/chosen": -688.5350952148438,
+      "eval_logps/rejected": -1054.9027099609375,
+      "eval_loss": 0.34113186597824097,
+      "eval_rewards/accuracies": 0.8094170689582825,
+      "eval_rewards/chosen": -3.9756710529327393,
+      "eval_rewards/margins": 3.6724324226379395,
+      "eval_rewards/rejected": -7.648103713989258,
+      "eval_runtime": 641.4555,
+      "eval_samples_per_second": 11.109,
+      "eval_steps_per_second": 0.348,
       "step": 300
     },
     {
       "epoch": 0.35704002303484017,
+      "grad_norm": 31.743815715159577,
       "learning_rate": 4.059847439122671e-07,
+      "logits/chosen": -0.9840304255485535,
+      "logits/rejected": -0.4123767018318176,
+      "logps/chosen": -538.8982543945312,
+      "logps/rejected": -785.3285522460938,
+      "loss": 0.4144,
+      "rewards/accuracies": 0.7718750238418579,
+      "rewards/chosen": -2.550431489944458,
+      "rewards/margins": 2.4609429836273193,
+      "rewards/rejected": -5.011374473571777,
       "step": 310
     },
     {
       "epoch": 0.36855744313273825,
+      "grad_norm": 24.806762291664178,
       "learning_rate": 3.98001943918432e-07,
+      "logits/chosen": -1.2074978351593018,
+      "logits/rejected": -0.2775883674621582,
+      "logps/chosen": -509.53887939453125,
+      "logps/rejected": -702.5384521484375,
+      "loss": 0.4077,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -2.1766436100006104,
+      "rewards/margins": 2.217984914779663,
+      "rewards/rejected": -4.394628524780273,
       "step": 320
     },
     {
       "epoch": 0.38007486323063633,
+      "grad_norm": 31.303160160987616,
       "learning_rate": 3.8977969850346866e-07,
+      "logits/chosen": -0.7918741106987,
+      "logits/rejected": 0.004956415388733149,
+      "logps/chosen": -578.205078125,
+      "logps/rejected": -870.2096557617188,
+      "loss": 0.3752,
+      "rewards/accuracies": 0.765625,
+      "rewards/chosen": -2.821563720703125,
+      "rewards/margins": 3.012451648712158,
+      "rewards/rejected": -5.834015369415283,
       "step": 330
     },
     {
       "epoch": 0.3915922833285344,
+      "grad_norm": 27.692313832407383,
       "learning_rate": 3.8133131005357465e-07,
+      "logits/chosen": -0.9087894558906555,
+      "logits/rejected": -0.1920526772737503,
+      "logps/chosen": -602.9824829101562,
+      "logps/rejected": -872.3701171875,
+      "loss": 0.4233,
+      "rewards/accuracies": 0.7906249761581421,
+      "rewards/chosen": -3.1107020378112793,
+      "rewards/margins": 2.777942180633545,
+      "rewards/rejected": -5.888644218444824,
       "step": 340
     },
     {
       "epoch": 0.4031097034264325,
+      "grad_norm": 22.459786517410773,
       "learning_rate": 3.7267044682118435e-07,
+      "logits/chosen": -0.6368467211723328,
+      "logits/rejected": 0.05047903582453728,
+      "logps/chosen": -546.3031616210938,
+      "logps/rejected": -768.5010986328125,
+      "loss": 0.4038,
+      "rewards/accuracies": 0.753125011920929,
+      "rewards/chosen": -2.607321262359619,
+      "rewards/margins": 2.1534266471862793,
+      "rewards/rejected": -4.76074743270874,
       "step": 350
     },
     {
       "epoch": 0.41462712352433057,
+      "grad_norm": 54.30836966222414,
       "learning_rate": 3.638111208117425e-07,
+      "logits/chosen": -0.4448986053466797,
+      "logits/rejected": 0.26401039958000183,
+      "logps/chosen": -660.1737060546875,
+      "logps/rejected": -936.7528076171875,
+      "loss": 0.3945,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -3.779724597930908,
+      "rewards/margins": 2.7942070960998535,
+      "rewards/rejected": -6.573931694030762,
       "step": 360
     },
     {
       "epoch": 0.42614454362222864,
+      "grad_norm": 30.943136192122527,
       "learning_rate": 3.5476766511433605e-07,
+      "logits/chosen": -0.6570574641227722,
+      "logits/rejected": 0.12815245985984802,
+      "logps/chosen": -589.9466552734375,
+      "logps/rejected": -808.5029296875,
+      "loss": 0.4008,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -3.0944387912750244,
+      "rewards/margins": 2.3009159564971924,
+      "rewards/rejected": -5.395354270935059,
       "step": 370
     },
     {
       "epoch": 0.43766196372012667,
+      "grad_norm": 19.09835141181145,
       "learning_rate": 3.455547107128602e-07,
+      "logits/chosen": -0.45787113904953003,
+      "logits/rejected": 0.38415655493736267,
+      "logps/chosen": -527.8428955078125,
+      "logps/rejected": -821.2969970703125,
+      "loss": 0.3953,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -2.6933910846710205,
+      "rewards/margins": 2.8653125762939453,
+      "rewards/rejected": -5.558703422546387,
       "step": 380
     },
     {
       "epoch": 0.44917938381802475,
+      "grad_norm": 25.986133062638014,
       "learning_rate": 3.361871628152338e-07,
+      "logits/chosen": 0.1055336743593216,
+      "logits/rejected": 0.8421304821968079,
+      "logps/chosen": -574.3500366210938,
+      "logps/rejected": -818.9120483398438,
+      "loss": 0.4116,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -2.960313558578491,
+      "rewards/margins": 2.6313090324401855,
+      "rewards/rejected": -5.591622829437256,
       "step": 390
     },
     {
       "epoch": 0.4606968039159228,
+      "grad_norm": 33.121972667621534,
       "learning_rate": 3.2668017673896077e-07,
+      "logits/chosen": -0.19368359446525574,
+      "logits/rejected": 0.5146237015724182,
+      "logps/chosen": -617.7755737304688,
+      "logps/rejected": -860.82861328125,
+      "loss": 0.4011,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -3.3203601837158203,
+      "rewards/margins": 2.387831211090088,
+      "rewards/rejected": -5.708191871643066,
       "step": 400
     },
     {
       "epoch": 0.4606968039159228,
+      "eval_logits/chosen": -0.7429019808769226,
+      "eval_logits/rejected": 0.1183277890086174,
+      "eval_logps/chosen": -735.4549560546875,
+      "eval_logps/rejected": -1130.1990966796875,
+      "eval_loss": 0.32945430278778076,
+      "eval_rewards/accuracies": 0.8155829310417175,
+      "eval_rewards/chosen": -4.444869518280029,
+      "eval_rewards/margins": 3.9561986923217773,
+      "eval_rewards/rejected": -8.401067733764648,
+      "eval_runtime": 645.3491,
+      "eval_samples_per_second": 11.042,
+      "eval_steps_per_second": 0.346,
       "step": 400
     },
     {
       "epoch": 0.4722142240138209,
+      "grad_norm": 28.677116827222893,
       "learning_rate": 3.1704913339205103e-07,
+      "logits/chosen": -0.49749231338500977,
+      "logits/rejected": 0.5208367109298706,
+      "logps/chosen": -578.421875,
+      "logps/rejected": -866.33544921875,
+      "loss": 0.4082,
+      "rewards/accuracies": 0.8031250238418579,
+      "rewards/chosen": -2.9447290897369385,
+      "rewards/margins": 3.001622438430786,
+      "rewards/rejected": -5.946351528167725,
       "step": 410
     },
     {
       "epoch": 0.483731644111719,
+      "grad_norm": 25.93977899429838,
       "learning_rate": 3.0730961438896885e-07,
+      "logits/chosen": -1.0381872653961182,
+      "logits/rejected": -0.06657940149307251,
+      "logps/chosen": -550.3687744140625,
+      "logps/rejected": -820.9139404296875,
+      "loss": 0.4,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -2.6255903244018555,
+      "rewards/margins": 2.71159029006958,
+      "rewards/rejected": -5.3371806144714355,
       "step": 420
     },
     {
       "epoch": 0.49524906420961706,
+      "grad_norm": 24.865636277888157,
       "learning_rate": 2.9747737684186795e-07,
+      "logits/chosen": -1.131136417388916,
+      "logits/rejected": -0.22055275738239288,
+      "logps/chosen": -534.1951293945312,
+      "logps/rejected": -773.7057495117188,
+      "loss": 0.3973,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -2.4572598934173584,
+      "rewards/margins": 2.522524356842041,
+      "rewards/rejected": -4.9797844886779785,
       "step": 430
     },
     {
       "epoch": 0.5067664843075151,
+      "grad_norm": 36.423518981463275,
       "learning_rate": 2.8756832786789663e-07,
+      "logits/chosen": -1.2586928606033325,
+      "logits/rejected": -0.14189645648002625,
+      "logps/chosen": -513.0911254882812,
+      "logps/rejected": -821.0222778320312,
+      "loss": 0.4053,
+      "rewards/accuracies": 0.815625011920929,
+      "rewards/chosen": -2.5397918224334717,
+      "rewards/margins": 3.0112507343292236,
+      "rewards/rejected": -5.551042556762695,
       "step": 440
     },
     {
       "epoch": 0.5182839044054132,
+      "grad_norm": 27.76293529869272,
       "learning_rate": 2.7759849885381747e-07,
+      "logits/chosen": -1.2538650035858154,
+      "logits/rejected": -0.25470593571662903,
+      "logps/chosen": -517.45751953125,
+      "logps/rejected": -752.2701416015625,
+      "loss": 0.3845,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -2.279754877090454,
+      "rewards/margins": 2.4887535572052,
+      "rewards/rejected": -4.768507957458496,
       "step": 450
     },
     {
       "epoch": 0.5298013245033113,
+      "grad_norm": 24.085341189256496,
       "learning_rate": 2.675840195195762e-07,
+      "logits/chosen": -1.382927417755127,
+      "logits/rejected": -0.48569250106811523,
+      "logps/chosen": -513.8163452148438,
+      "logps/rejected": -766.2885131835938,
+      "loss": 0.3799,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -2.302953004837036,
+      "rewards/margins": 2.5440595149993896,
+      "rewards/rejected": -4.847012519836426,
       "step": 460
     },
     {
       "epoch": 0.5413187446012093,
+      "grad_norm": 29.101645338578166,
       "learning_rate": 2.575410918227829e-07,
+      "logits/chosen": -0.9476648569107056,
+      "logits/rejected": -0.29435592889785767,
+      "logps/chosen": -573.229736328125,
+      "logps/rejected": -794.494140625,
+      "loss": 0.3896,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -2.8009214401245117,
+      "rewards/margins": 2.2908072471618652,
+      "rewards/rejected": -5.091729164123535,
       "step": 470
     },
     {
       "epoch": 0.5528361646991073,
+      "grad_norm": 30.198868045523568,
       "learning_rate": 2.474859637463226e-07,
+      "logits/chosen": -0.4918448328971863,
+      "logits/rejected": 0.3972582221031189,
+      "logps/chosen": -556.0670776367188,
+      "logps/rejected": -804.6024169921875,
+      "loss": 0.3886,
+      "rewards/accuracies": 0.8218749761581421,
+      "rewards/chosen": -2.8543224334716797,
+      "rewards/margins": 2.5813965797424316,
+      "rewards/rejected": -5.435718536376953,
       "step": 480
     },
     {
       "epoch": 0.5643535847970055,
+      "grad_norm": 28.52494731969291,
       "learning_rate": 2.3743490301150355e-07,
+      "logits/chosen": -0.5242654085159302,
+      "logits/rejected": 0.405693382024765,
+      "logps/chosen": -570.1974487304688,
+      "logps/rejected": -811.2410278320312,
+      "loss": 0.3959,
+      "rewards/accuracies": 0.778124988079071,
+      "rewards/chosen": -2.862198829650879,
+      "rewards/margins": 2.4608964920043945,
+      "rewards/rejected": -5.323095321655273,
       "step": 490
     },
     {
       "epoch": 0.5758710048949035,
+      "grad_norm": 27.925871853424944,
       "learning_rate": 2.274041707592724e-07,
+      "logits/chosen": -1.0720345973968506,
+      "logits/rejected": -0.10801704227924347,
+      "logps/chosen": -542.1129150390625,
+      "logps/rejected": -843.2058715820312,
+      "loss": 0.3727,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -2.6700572967529297,
+      "rewards/margins": 2.9847068786621094,
+      "rewards/rejected": -5.654764175415039,
       "step": 500
     },
     {
       "epoch": 0.5758710048949035,
+      "eval_logits/chosen": -1.3008555173873901,
+      "eval_logits/rejected": -0.40656155347824097,
+      "eval_logps/chosen": -662.9987182617188,
+      "eval_logps/rejected": -1055.4913330078125,
+      "eval_loss": 0.3260224759578705,
+      "eval_rewards/accuracies": 0.8161435127258301,
+      "eval_rewards/chosen": -3.720306634902954,
+      "eval_rewards/margins": 3.9336841106414795,
+      "eval_rewards/rejected": -7.653989791870117,
+      "eval_runtime": 644.1686,
+      "eval_samples_per_second": 11.062,
+      "eval_steps_per_second": 0.346,
       "step": 500
     },
     {
       "epoch": 0.5873884249928016,
+      "grad_norm": 23.857944610065903,
       "learning_rate": 2.17409995242075e-07,
+      "logits/chosen": -0.8062444925308228,
+      "logits/rejected": 0.046298883855342865,
+      "logps/chosen": -568.9137573242188,
+      "logps/rejected": -859.3053588867188,
+      "loss": 0.3716,
+      "rewards/accuracies": 0.7906249761581421,
+      "rewards/chosen": -2.9011380672454834,
+      "rewards/margins": 3.026390552520752,
+      "rewards/rejected": -5.927529335021973,
       "step": 510
     },
     {
       "epoch": 0.5989058450906997,
+      "grad_norm": 34.73513393097343,
       "learning_rate": 2.0746854556892544e-07,
+      "logits/chosen": -0.23699383437633514,
+      "logits/rejected": 0.7075563073158264,
+      "logps/chosen": -630.9346313476562,
+      "logps/rejected": -914.3643798828125,
+      "loss": 0.3669,
       "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -3.393051862716675,
+      "rewards/margins": 2.9863784313201904,
+      "rewards/rejected": -6.379430294036865,
       "step": 520
     },
     {
       "epoch": 0.6104232651885978,
+      "grad_norm": 31.950736125786133,
       "learning_rate": 1.9759590554616173e-07,
+      "logits/chosen": -0.5588125586509705,
+      "logits/rejected": 0.502726674079895,
+      "logps/chosen": -579.3170776367188,
+      "logps/rejected": -851.6565551757812,
+      "loss": 0.3844,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -3.0607731342315674,
+      "rewards/margins": 2.8013463020324707,
+      "rewards/rejected": -5.862119674682617,
       "step": 530
     },
     {
       "epoch": 0.6219406852864958,
+      "grad_norm": 31.535492973313232,
       "learning_rate": 1.8780804765620746e-07,
+      "logits/chosen": -0.7882386445999146,
+      "logits/rejected": 0.33689114451408386,
+      "logps/chosen": -505.6971740722656,
+      "logps/rejected": -770.9715576171875,
+      "loss": 0.3714,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -2.2458343505859375,
+      "rewards/margins": 2.7756423950195312,
+      "rewards/rejected": -5.021476745605469,
       "step": 540
     },
     {
       "epoch": 0.6334581053843938,
+      "grad_norm": 24.518899300596807,
       "learning_rate": 1.7812080721643973e-07,
+      "logits/chosen": -0.6544414758682251,
+      "logits/rejected": 0.6189062595367432,
+      "logps/chosen": -587.9449462890625,
+      "logps/rejected": -899.134765625,
+      "loss": 0.367,
+      "rewards/accuracies": 0.828125,
+      "rewards/chosen": -2.8350448608398438,
+      "rewards/margins": 3.2712531089782715,
+      "rewards/rejected": -6.106298446655273,
       "step": 550
     },
     {
       "epoch": 0.644975525482292,
+      "grad_norm": 30.6763264648463,
       "learning_rate": 1.6854985675997063e-07,
+      "logits/chosen": -0.7213582396507263,
+      "logits/rejected": 0.4497779905796051,
+      "logps/chosen": -577.9434814453125,
+      "logps/rejected": -847.3308715820312,
+      "loss": 0.3895,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -2.8931756019592285,
+      "rewards/margins": 2.903951644897461,
+      "rewards/rejected": -5.797126293182373,
       "step": 560
     },
     {
       "epoch": 0.65649294558019,
+      "grad_norm": 25.945256821159443,
       "learning_rate": 1.5911068067978818e-07,
+      "logits/chosen": -0.48560142517089844,
+      "logits/rejected": 0.6249833106994629,
+      "logps/chosen": -559.338623046875,
+      "logps/rejected": -765.5469970703125,
+      "loss": 0.4061,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -2.6765408515930176,
+      "rewards/margins": 2.3505935668945312,
+      "rewards/rejected": -5.027134895324707,
       "step": 570
     },
     {
       "epoch": 0.6680103656780881,
+      "grad_norm": 27.330253535761116,
       "learning_rate": 1.4981855017728197e-07,
+      "logits/chosen": -0.3748374879360199,
+      "logits/rejected": 0.31157660484313965,
+      "logps/chosen": -530.5482177734375,
+      "logps/rejected": -811.3858032226562,
+      "loss": 0.3952,
+      "rewards/accuracies": 0.778124988079071,
+      "rewards/chosen": -2.6320903301239014,
+      "rewards/margins": 2.578404188156128,
+      "rewards/rejected": -5.2104949951171875,
       "step": 580
     },
     {
       "epoch": 0.6795277857759862,
+      "grad_norm": 31.016503489930162,
       "learning_rate": 1.406884985556804e-07,
+      "logits/chosen": -0.366117388010025,
+      "logits/rejected": 0.6988335251808167,
+      "logps/chosen": -560.417236328125,
+      "logps/rejected": -811.5693359375,
+      "loss": 0.3842,
+      "rewards/accuracies": 0.7593749761581421,
+      "rewards/chosen": -2.7148842811584473,
+      "rewards/margins": 2.6223959922790527,
+      "rewards/rejected": -5.337280750274658,
       "step": 590
     },
     {
       "epoch": 0.6910452058738843,
+      "grad_norm": 33.49108857296992,
       "learning_rate": 1.3173529689837354e-07,
+      "logits/chosen": -0.42413753271102905,
+      "logits/rejected": 0.8382568359375,
+      "logps/chosen": -592.3516845703125,
+      "logps/rejected": -904.6168212890625,
+      "loss": 0.3933,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -2.979618549346924,
+      "rewards/margins": 3.4002768993377686,
+      "rewards/rejected": -6.3798956871032715,
       "step": 600
     },
     {
       "epoch": 0.6910452058738843,
+      "eval_logits/chosen": -0.5819162130355835,
+      "eval_logits/rejected": 0.32466375827789307,
+      "eval_logps/chosen": -664.277587890625,
+      "eval_logps/rejected": -1041.9088134765625,
+      "eval_loss": 0.3190486431121826,
+      "eval_rewards/accuracies": 0.8256726264953613,
+      "eval_rewards/chosen": -3.733095169067383,
+      "eval_rewards/margins": 3.7850706577301025,
+      "eval_rewards/rejected": -7.5181660652160645,
+      "eval_runtime": 642.0739,
+      "eval_samples_per_second": 11.098,
+      "eval_steps_per_second": 0.347,
       "step": 600
     },
     {
       "epoch": 0.7025626259717823,
+      "grad_norm": 33.29931962582806,
       "learning_rate": 1.2297343017146726e-07,
+      "logits/chosen": -0.12166979163885117,
+      "logits/rejected": 0.9423264265060425,
+      "logps/chosen": -573.4078979492188,
+      "logps/rejected": -842.9945068359375,
+      "loss": 0.38,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -2.8864645957946777,
+      "rewards/margins": 2.795393705368042,
+      "rewards/rejected": -5.681858539581299,
       "step": 610
     },
     {
       "epoch": 0.7140800460696803,
+      "grad_norm": 27.906297465558936,
       "learning_rate": 1.1441707378923474e-07,
+      "logits/chosen": 0.07007602602243423,
+      "logits/rejected": 0.9558390378952026,
+      "logps/chosen": -573.7945556640625,
+      "logps/rejected": -877.9972534179688,
+      "loss": 0.4068,
+      "rewards/accuracies": 0.8031250238418579,
+      "rewards/chosen": -2.903010368347168,
+      "rewards/margins": 3.0875983238220215,
+      "rewards/rejected": -5.990609169006348,
       "step": 620
     },
     {
       "epoch": 0.7255974661675785,
+      "grad_norm": 22.67579385883027,
       "learning_rate": 1.06080070680377e-07,
+      "logits/chosen": 0.022813748568296432,
+      "logits/rejected": 0.8800600171089172,
+      "logps/chosen": -573.94482421875,
+      "logps/rejected": -831.4425048828125,
+      "loss": 0.3693,
+      "rewards/accuracies": 0.765625,
+      "rewards/chosen": -2.894199848175049,
+      "rewards/margins": 2.732788324356079,
+      "rewards/rejected": -5.626988410949707,
       "step": 630
     },
     {
       "epoch": 0.7371148862654765,
+      "grad_norm": 24.736748332046908,
       "learning_rate": 9.797590889219587e-08,
+      "logits/chosen": 0.08141092956066132,
+      "logits/rejected": 0.9846137166023254,
+      "logps/chosen": -573.6690673828125,
+      "logps/rejected": -854.0896606445312,
+      "loss": 0.3694,
+      "rewards/accuracies": 0.7718750238418579,
+      "rewards/chosen": -3.009357213973999,
+      "rewards/margins": 2.850132465362549,
+      "rewards/rejected": -5.859489440917969,
       "step": 640
     },
     {
       "epoch": 0.7486323063633746,
+      "grad_norm": 19.955009545836916,
       "learning_rate": 9.011769976891367e-08,
+      "logits/chosen": 0.18348722159862518,
+      "logits/rejected": 1.4492700099945068,
+      "logps/chosen": -584.7655029296875,
+      "logps/rejected": -836.3447265625,
+      "loss": 0.3854,
+      "rewards/accuracies": 0.809374988079071,
+      "rewards/chosen": -2.9547104835510254,
+      "rewards/margins": 2.7604758739471436,
+      "rewards/rejected": -5.71518611907959,
       "step": 650
     },
     {
       "epoch": 0.7601497264612727,
+      "grad_norm": 30.274437174678905,
       "learning_rate": 8.251815673944218e-08,
+      "logits/chosen": -0.350322425365448,
+      "logits/rejected": 0.7839977741241455,
+      "logps/chosen": -641.0626220703125,
+      "logps/rejected": -957.6082763671875,
+      "loss": 0.3594,
+      "rewards/accuracies": 0.8218749761581421,
+      "rewards/chosen": -3.33996844291687,
+      "rewards/margins": 3.434263229370117,
+      "rewards/rejected": -6.774231910705566,
       "step": 660
     },
     {
       "epoch": 0.7716671465591708,
+      "grad_norm": 27.553152868967715,
       "learning_rate": 7.518957474892148e-08,
+      "logits/chosen": -0.08678195625543594,
+      "logits/rejected": 0.7337055206298828,
+      "logps/chosen": -591.7120971679688,
+      "logps/rejected": -890.9392700195312,
+      "loss": 0.3827,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -2.974543333053589,
+      "rewards/margins": 3.0520572662353516,
+      "rewards/rejected": -6.0266008377075195,
       "step": 670
     },
     {
       "epoch": 0.7831845666570688,
+      "grad_norm": 30.232454471420272,
       "learning_rate": 6.814381036730274e-08,
+      "logits/chosen": -0.2323370724916458,
+      "logits/rejected": 0.9590624570846558,
+      "logps/chosen": -585.7045288085938,
+      "logps/rejected": -862.7799072265625,
+      "loss": 0.4032,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -3.0005805492401123,
+      "rewards/margins": 2.9160284996032715,
+      "rewards/rejected": -5.916609287261963,
       "step": 680
     },
     {
       "epoch": 0.7947019867549668,
+      "grad_norm": 28.297784072359498,
       "learning_rate": 6.139226260715872e-08,
+      "logits/chosen": -0.23143115639686584,
+      "logits/rejected": 0.6265262365341187,
+      "logps/chosen": -598.2958374023438,
+      "logps/rejected": -911.5656127929688,
+      "loss": 0.3747,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -3.1650335788726807,
+      "rewards/margins": 3.1202616691589355,
+      "rewards/rejected": -6.285294532775879,
       "step": 690
     },
     {
       "epoch": 0.806219406852865,
+      "grad_norm": 27.17313115678408,
       "learning_rate": 5.4945854481754734e-08,
+      "logits/chosen": -0.07786539942026138,
+      "logits/rejected": 0.7690663933753967,
+      "logps/chosen": -588.6981201171875,
+      "logps/rejected": -892.0836181640625,
+      "loss": 0.3858,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -3.089141845703125,
+      "rewards/margins": 3.093146800994873,
+      "rewards/rejected": -6.182288646697998,
       "step": 700
     },
     {
       "epoch": 0.806219406852865,
+      "eval_logits/chosen": -0.6058293581008911,
+      "eval_logits/rejected": 0.35863998532295227,
+      "eval_logps/chosen": -686.6614379882812,
+      "eval_logps/rejected": -1093.6546630859375,
+      "eval_loss": 0.31664812564849854,
+      "eval_rewards/accuracies": 0.8245515823364258,
+      "eval_rewards/chosen": -3.9569337368011475,
+      "eval_rewards/margins": 4.078691005706787,
+      "eval_rewards/rejected": -8.035624504089355,
+      "eval_runtime": 644.0322,
+      "eval_samples_per_second": 11.065,
+      "eval_steps_per_second": 0.346,
       "step": 700
     },
     {
       "epoch": 0.817736826950763,
+      "grad_norm": 26.61646646409602,
       "learning_rate": 4.881501533321605e-08,
+      "logits/chosen": -0.4410906732082367,
+      "logits/rejected": 0.5729657411575317,
+      "logps/chosen": -575.347900390625,
+      "logps/rejected": -934.3646240234375,
+      "loss": 0.3728,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -2.907287359237671,
+      "rewards/margins": 3.6123032569885254,
+      "rewards/rejected": -6.519589900970459,
       "step": 710
     },
     {
       "epoch": 0.8292542470486611,
+      "grad_norm": 29.443243927116985,
       "learning_rate": 4.300966395938377e-08,
+      "logits/chosen": -0.38687664270401,
+      "logits/rejected": 0.5803302526473999,
+      "logps/chosen": -589.1840209960938,
+      "logps/rejected": -924.7605590820312,
+      "loss": 0.3718,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -3.089477062225342,
+      "rewards/margins": 3.404120683670044,
+      "rewards/rejected": -6.493597507476807,
       "step": 720
     },
     {
       "epoch": 0.8407716671465592,
+      "grad_norm": 27.075379532779515,
       "learning_rate": 3.7539192566655246e-08,
+      "logits/chosen": -0.2331455647945404,
+      "logits/rejected": 0.7184351086616516,
+      "logps/chosen": -597.6744384765625,
+      "logps/rejected": -883.7164916992188,
+      "loss": 0.3743,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -3.0997419357299805,
+      "rewards/margins": 2.9383721351623535,
+      "rewards/rejected": -6.038114547729492,
       "step": 730
     },
     {
       "epoch": 0.8522890872444573,
+      "grad_norm": 34.009147703744425,
       "learning_rate": 3.24124515747731e-08,
+      "logits/chosen": 0.15024222433567047,
+      "logits/rejected": 1.2283384799957275,
+      "logps/chosen": -628.3982543945312,
+      "logps/rejected": -985.0546875,
+      "loss": 0.3708,
+      "rewards/accuracies": 0.7906249761581421,
+      "rewards/chosen": -3.4668242931365967,
+      "rewards/margins": 3.758965253829956,
+      "rewards/rejected": -7.2257890701293945,
       "step": 740
     },
     {
       "epoch": 0.8638065073423553,
+      "grad_norm": 32.52714315668832,
       "learning_rate": 2.763773529814506e-08,
+      "logits/chosen": 0.2603093981742859,
+      "logits/rejected": 1.1775026321411133,
+      "logps/chosen": -583.00439453125,
+      "logps/rejected": -904.5720825195312,
+      "loss": 0.3746,
+      "rewards/accuracies": 0.778124988079071,
+      "rewards/chosen": -3.006887912750244,
+      "rewards/margins": 3.236215114593506,
+      "rewards/rejected": -6.24310302734375,
       "step": 750
     },
     {
       "epoch": 0.8753239274402533,
+      "grad_norm": 27.98558075342816,
       "learning_rate": 2.3222768526860698e-08,
+      "logits/chosen": 0.1701681762933731,
+      "logits/rejected": 1.1987775564193726,
+      "logps/chosen": -613.1824951171875,
+      "logps/rejected": -900.89111328125,
+      "loss": 0.3922,
+      "rewards/accuracies": 0.753125011920929,
+      "rewards/chosen": -3.226149320602417,
+      "rewards/margins": 2.7997944355010986,
+      "rewards/rejected": -6.025943756103516,
       "step": 760
     },
     {
       "epoch": 0.8868413475381515,
+      "grad_norm": 29.982562987973527,
       "learning_rate": 1.9174694029115146e-08,
+      "logits/chosen": 0.12872493267059326,
+      "logits/rejected": 1.1761186122894287,
+      "logps/chosen": -600.1962890625,
+      "logps/rejected": -947.6414794921875,
+      "loss": 0.3739,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -3.291241407394409,
+      "rewards/margins": 3.434460401535034,
+      "rewards/rejected": -6.725701808929443,
       "step": 770
     },
     {
       "epoch": 0.8983587676360495,
+      "grad_norm": 29.902322430965125,
       "learning_rate": 1.5500060995258134e-08,
+      "logits/chosen": 0.07875040918588638,
+      "logits/rejected": 1.1803662776947021,
+      "logps/chosen": -587.24951171875,
+      "logps/rejected": -848.0086059570312,
+      "loss": 0.3833,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -3.145979642868042,
+      "rewards/margins": 2.7399418354034424,
+      "rewards/rejected": -5.885921955108643,
       "step": 780
     },
     {
       "epoch": 0.9098761877339476,
+      "grad_norm": 31.87265554134813,
       "learning_rate": 1.2204814442165812e-08,
+      "logits/chosen": 0.0372554175555706,
+      "logits/rejected": 0.9403896331787109,
+      "logps/chosen": -605.0985107421875,
+      "logps/rejected": -893.2574462890625,
+      "loss": 0.3836,
+      "rewards/accuracies": 0.8031250238418579,
+      "rewards/chosen": -3.219792127609253,
+      "rewards/margins": 2.947915554046631,
+      "rewards/rejected": -6.1677069664001465,
       "step": 790
     },
     {
       "epoch": 0.9213936078318457,
+      "grad_norm": 28.29913492171739,
       "learning_rate": 9.294285595075669e-09,
+      "logits/chosen": 0.1543000489473343,
+      "logits/rejected": 1.00014328956604,
+      "logps/chosen": -594.6954956054688,
+      "logps/rejected": -909.7340087890625,
+      "loss": 0.3785,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -3.133711338043213,
+      "rewards/margins": 3.2508773803710938,
+      "rewards/rejected": -6.384588241577148,
       "step": 800
     },
     {
       "epoch": 0.9213936078318457,
+      "eval_logits/chosen": -0.424582302570343,
+      "eval_logits/rejected": 0.5558030605316162,
+      "eval_logps/chosen": -702.706787109375,
+      "eval_logps/rejected": -1123.9625244140625,
+      "eval_loss": 0.31607937812805176,
+      "eval_rewards/accuracies": 0.8211883306503296,
+      "eval_rewards/chosen": -4.117387771606445,
+      "eval_rewards/margins": 4.221314430236816,
+      "eval_rewards/rejected": -8.338702201843262,
+      "eval_runtime": 644.1715,
+      "eval_samples_per_second": 11.062,
+      "eval_steps_per_second": 0.346,
       "step": 800
     },
     {
       "epoch": 0.9329110279297438,
+      "grad_norm": 28.271393767746897,
       "learning_rate": 6.773183262446914e-09,
+      "logits/chosen": 0.015259919688105583,
+      "logits/rejected": 1.0111353397369385,
+      "logps/chosen": -610.5919189453125,
+      "logps/rejected": -938.6796875,
+      "loss": 0.3958,
+      "rewards/accuracies": 0.778124988079071,
+      "rewards/chosen": -3.225220203399658,
+      "rewards/margins": 3.3511810302734375,
+      "rewards/rejected": -6.5764007568359375,
       "step": 810
     },
     {
       "epoch": 0.9444284480276418,
+      "grad_norm": 36.747504831392355,
       "learning_rate": 4.645586217799452e-09,
+      "logits/chosen": -0.05728811025619507,
+      "logits/rejected": 1.0568214654922485,
+      "logps/chosen": -602.8958129882812,
+      "logps/rejected": -914.1162109375,
+      "loss": 0.392,
+      "rewards/accuracies": 0.784375011920929,
+      "rewards/chosen": -2.9873690605163574,
+      "rewards/margins": 3.2894864082336426,
+      "rewards/rejected": -6.27685546875,
       "step": 820
     },
     {
       "epoch": 0.9559458681255398,
+      "grad_norm": 30.708105872731245,
       "learning_rate": 2.9149366008568987e-09,
+      "logits/chosen": 0.1167169064283371,
+      "logits/rejected": 1.0058209896087646,
+      "logps/chosen": -580.9910278320312,
+      "logps/rejected": -903.1005859375,
+      "loss": 0.405,
       "rewards/accuracies": 0.778124988079071,
+      "rewards/chosen": -2.9704513549804688,
+      "rewards/margins": 3.3174147605895996,
+      "rewards/rejected": -6.287866115570068,
       "step": 830
     },
     {
       "epoch": 0.967463288223438,
+      "grad_norm": 26.852523446236688,
       "learning_rate": 1.5840343486700215e-09,
+      "logits/chosen": 0.10119374096393585,
+      "logits/rejected": 1.3030340671539307,
+      "logps/chosen": -624.4727783203125,
+      "logps/rejected": -907.2607421875,
+      "loss": 0.4136,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -3.329115629196167,
+      "rewards/margins": 3.0215249061584473,
+      "rewards/rejected": -6.350640296936035,
       "step": 840
     },
     {
       "epoch": 0.978980708321336,
+      "grad_norm": 29.02811217591628,
       "learning_rate": 6.550326657293881e-10,
+      "logits/chosen": 0.16462787985801697,
+      "logits/rejected": 1.183337926864624,
+      "logps/chosen": -576.1724853515625,
+      "logps/rejected": -849.2581176757812,
+      "loss": 0.4037,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -3.109165668487549,
+      "rewards/margins": 2.8826241493225098,
+      "rewards/rejected": -5.991789817810059,
       "step": 850
     },
     {
       "epoch": 0.9904981284192341,
+      "grad_norm": 38.83754661046954,
       "learning_rate": 1.2943454039654467e-10,
+      "logits/chosen": 0.04645358771085739,
+      "logits/rejected": 1.1813570261001587,
+      "logps/chosen": -563.9542236328125,
+      "logps/rejected": -806.0048828125,
+      "loss": 0.385,
+      "rewards/accuracies": 0.784375011920929,
+      "rewards/chosen": -2.8706278800964355,
+      "rewards/margins": 2.5064380168914795,
+      "rewards/rejected": -5.377066135406494,
       "step": 860
     },
     {
       "epoch": 0.9997120644975526,
       "step": 868,
       "total_flos": 0.0,
+      "train_loss": 0.42924998652550483,
+      "train_runtime": 32201.1967,
+      "train_samples_per_second": 3.451,
+      "train_steps_per_second": 0.027
     }
   ],
   "logging_steps": 10,