Model save

Browse files

Files changed (5) hide show

README.md +83 -0
adapter_model.safetensors +1 -1
all_results.json +9 -0
train_results.json +9 -0
trainer_state.json +1626 -0

README.md ADDED Viewed

	@@ -0,0 +1,83 @@

+---
+library_name: peft
+tags:
+- trl
+- dpo
+- generated_from_trainer
+base_model: data/zephyr-7b-sft-qlora-merged
+model-index:
+- name: zephyr-7b-dpo-qlora
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="200" height="32"/>](https://wandb.ai/statking/huggingface/runs/qxp2vmm7)
+# zephyr-7b-dpo-qlora
+This model was trained from scratch on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.4933
+- Rewards/chosen: -2.1713
+- Rewards/rejected: -3.1801
+- Rewards/accuracies: 0.7738
+- Rewards/margins: 1.0088
+- Logps/rejected: -564.8470
+- Logps/chosen: -483.4024
+- Logits/rejected: -1.4105
+- Logits/chosen: -1.4778
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-06
+- train_batch_size: 4
+- eval_batch_size: 8
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 4
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 64
+- total_eval_batch_size: 32
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 1
+### Training results
+| Training Loss | Epoch  | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
+|:-------------:|:------:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.6185        | 0.1047 | 100  | 0.6240          | -0.3010        | -0.5396          | 0.6964             | 0.2387          | -300.7997      | -296.3736    | -2.2954         | -2.3537       |
+| 0.5724        | 0.2094 | 200  | 0.5692          | -0.8434        | -1.3284          | 0.7302             | 0.4850          | -379.6750      | -350.6113    | -2.2448         | -2.2930       |
+| 0.5366        | 0.3141 | 300  | 0.5249          | -1.6887        | -2.4863          | 0.7639             | 0.7976          | -495.4648      | -435.1429    | -1.6220         | -1.6850       |
+| 0.5397        | 0.4187 | 400  | 0.5253          | -1.2998        | -1.9923          | 0.7698             | 0.6925          | -446.0619      | -396.2537    | -1.7586         | -1.8144       |
+| 0.5003        | 0.5234 | 500  | 0.5013          | -1.9982        | -2.9207          | 0.7659             | 0.9226          | -538.9065      | -466.0909    | -1.6049         | -1.6682       |
+| 0.4835        | 0.6281 | 600  | 0.5027          | -2.5699        | -3.5168          | 0.7560             | 0.9470          | -598.5182      | -523.2593    | -1.3417         | -1.4125       |
+| 0.4715        | 0.7328 | 700  | 0.4956          | -2.1902        | -3.1936          | 0.7679             | 1.0035          | -566.1955      | -485.2894    | -1.3782         | -1.4480       |
+| 0.4898        | 0.8375 | 800  | 0.4948          | -2.0401        | -3.0116          | 0.7698             | 0.9715          | -547.9974      | -470.2821    | -1.4275         | -1.4946       |
+| 0.4785        | 0.9422 | 900  | 0.4933          | -2.1713        | -3.1801          | 0.7738             | 1.0088          | -564.8470      | -483.4024    | -1.4105         | -1.4778       |
+### Framework versions
+- PEFT 0.10.0
+- Transformers 4.41.0.dev0
+- Pytorch 2.3.0+cu121
+- Datasets 2.19.1
+- Tokenizers 0.19.1

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:57347a3a18d8c084e1990f0336fbd2239c42dd81fe7ea30d2a22d5cf10cba66f
 size 671150064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0959395381e8b38e8e47659e117c11d160900e65148219841bc9a27c24ed8c6a
 size 671150064

all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 0.9997382884061764,
+    "total_flos": 0.0,
+    "train_loss": 0.5333428270529702,
+    "train_runtime": 30179.1373,
+    "train_samples": 61134,
+    "train_samples_per_second": 2.026,
+    "train_steps_per_second": 0.032
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 0.9997382884061764,
+    "total_flos": 0.0,
+    "train_loss": 0.5333428270529702,
+    "train_runtime": 30179.1373,
+    "train_samples": 61134,
+    "train_samples_per_second": 2.026,
+    "train_steps_per_second": 0.032
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1626 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.9997382884061764,
+  "eval_steps": 100,
+  "global_step": 955,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0010468463752944255,
+      "grad_norm": 1.1290596695646078,
+      "learning_rate": 5.208333333333333e-08,
+      "logits/chosen": -2.659804344177246,
+      "logits/rejected": -2.5501840114593506,
+      "logps/chosen": -300.040771484375,
+      "logps/rejected": -255.0087127685547,
+      "loss": 0.6931,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": 0.0,
+      "rewards/margins": 0.0,
+      "rewards/rejected": 0.0,
+      "step": 1
+    },
+    {
+      "epoch": 0.010468463752944255,
+      "grad_norm": 1.014414920556849,
+      "learning_rate": 5.208333333333334e-07,
+      "logits/chosen": -2.438154935836792,
+      "logits/rejected": -2.421139717102051,
+      "logps/chosen": -277.2698669433594,
+      "logps/rejected": -256.98931884765625,
+      "loss": 0.6932,
+      "rewards/accuracies": 0.4930555522441864,
+      "rewards/chosen": 8.686767250765115e-05,
+      "rewards/margins": 0.0004906932590529323,
+      "rewards/rejected": -0.0004038256302010268,
+      "step": 10
+    },
+    {
+      "epoch": 0.02093692750588851,
+      "grad_norm": 1.1593543431279631,
+      "learning_rate": 1.0416666666666667e-06,
+      "logits/chosen": -2.4331612586975098,
+      "logits/rejected": -2.344513177871704,
+      "logps/chosen": -281.2090759277344,
+      "logps/rejected": -260.51007080078125,
+      "loss": 0.6926,
+      "rewards/accuracies": 0.5562499761581421,
+      "rewards/chosen": 0.0008262035553343594,
+      "rewards/margins": 0.0013498691841959953,
+      "rewards/rejected": -0.0005236656288616359,
+      "step": 20
+    },
+    {
+      "epoch": 0.031405391258832765,
+      "grad_norm": 1.1658712617217375,
+      "learning_rate": 1.5625e-06,
+      "logits/chosen": -2.492827892303467,
+      "logits/rejected": -2.421010971069336,
+      "logps/chosen": -286.5789489746094,
+      "logps/rejected": -267.0865783691406,
+      "loss": 0.6909,
+      "rewards/accuracies": 0.6187499761581421,
+      "rewards/chosen": 0.0038475811015814543,
+      "rewards/margins": 0.004234342835843563,
+      "rewards/rejected": -0.0003867618797812611,
+      "step": 30
+    },
+    {
+      "epoch": 0.04187385501177702,
+      "grad_norm": 1.1449870340989134,
+      "learning_rate": 2.0833333333333334e-06,
+      "logits/chosen": -2.486035108566284,
+      "logits/rejected": -2.4186811447143555,
+      "logps/chosen": -274.2925720214844,
+      "logps/rejected": -260.7481384277344,
+      "loss": 0.688,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": 0.011111991479992867,
+      "rewards/margins": 0.01205919124186039,
+      "rewards/rejected": -0.0009472008096054196,
+      "step": 40
+    },
+    {
+      "epoch": 0.05234231876472128,
+      "grad_norm": 1.1126402014071601,
+      "learning_rate": 2.604166666666667e-06,
+      "logits/chosen": -2.4758384227752686,
+      "logits/rejected": -2.404066562652588,
+      "logps/chosen": -233.27294921875,
+      "logps/rejected": -210.6988525390625,
+      "loss": 0.6835,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": 0.023658782243728638,
+      "rewards/margins": 0.025034388527274132,
+      "rewards/rejected": -0.0013756046537309885,
+      "step": 50
+    },
+    {
+      "epoch": 0.06281078251766553,
+      "grad_norm": 1.2225282330679852,
+      "learning_rate": 3.125e-06,
+      "logits/chosen": -2.4660396575927734,
+      "logits/rejected": -2.3986904621124268,
+      "logps/chosen": -268.0579528808594,
+      "logps/rejected": -230.85205078125,
+      "loss": 0.6753,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": 0.029377218335866928,
+      "rewards/margins": 0.03872579708695412,
+      "rewards/rejected": -0.009348581545054913,
+      "step": 60
+    },
+    {
+      "epoch": 0.07327924627060979,
+      "grad_norm": 1.3167193147118952,
+      "learning_rate": 3.6458333333333333e-06,
+      "logits/chosen": -2.3562026023864746,
+      "logits/rejected": -2.327336072921753,
+      "logps/chosen": -256.792724609375,
+      "logps/rejected": -262.48309326171875,
+      "loss": 0.6596,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": 0.008793818764388561,
+      "rewards/margins": 0.08649717271327972,
+      "rewards/rejected": -0.07770337164402008,
+      "step": 70
+    },
+    {
+      "epoch": 0.08374771002355404,
+      "grad_norm": 1.8338431766961225,
+      "learning_rate": 4.166666666666667e-06,
+      "logits/chosen": -2.4636688232421875,
+      "logits/rejected": -2.3472182750701904,
+      "logps/chosen": -264.05975341796875,
+      "logps/rejected": -255.5188446044922,
+      "loss": 0.6425,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.10224815458059311,
+      "rewards/margins": 0.11396624147891998,
+      "rewards/rejected": -0.2162143886089325,
+      "step": 80
+    },
+    {
+      "epoch": 0.0942161737764983,
+      "grad_norm": 1.8214883674875806,
+      "learning_rate": 4.6875000000000004e-06,
+      "logits/chosen": -2.3876922130584717,
+      "logits/rejected": -2.3397979736328125,
+      "logps/chosen": -267.89422607421875,
+      "logps/rejected": -286.52838134765625,
+      "loss": 0.6327,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.1534612625837326,
+      "rewards/margins": 0.16493618488311768,
+      "rewards/rejected": -0.3183974325656891,
+      "step": 90
+    },
+    {
+      "epoch": 0.10468463752944256,
+      "grad_norm": 2.20348278766923,
+      "learning_rate": 4.9997324926814375e-06,
+      "logits/chosen": -2.408754587173462,
+      "logits/rejected": -2.332271099090576,
+      "logps/chosen": -306.8832702636719,
+      "logps/rejected": -322.60369873046875,
+      "loss": 0.6185,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -0.3260679841041565,
+      "rewards/margins": 0.21181587874889374,
+      "rewards/rejected": -0.5378838777542114,
+      "step": 100
+    },
+    {
+      "epoch": 0.10468463752944256,
+      "eval_logits/chosen": -2.3536956310272217,
+      "eval_logits/rejected": -2.295363426208496,
+      "eval_logps/chosen": -296.3735656738281,
+      "eval_logps/rejected": -300.7996826171875,
+      "eval_loss": 0.6239820718765259,
+      "eval_rewards/accuracies": 0.6964285969734192,
+      "eval_rewards/chosen": -0.30099427700042725,
+      "eval_rewards/margins": 0.23865534365177155,
+      "eval_rewards/rejected": -0.5396496653556824,
+      "eval_runtime": 276.8422,
+      "eval_samples_per_second": 7.224,
+      "eval_steps_per_second": 0.228,
+      "step": 100
+    },
+    {
+      "epoch": 0.11515310128238682,
+      "grad_norm": 2.4992668200294634,
+      "learning_rate": 4.996723692767927e-06,
+      "logits/chosen": -2.4233577251434326,
+      "logits/rejected": -2.3276515007019043,
+      "logps/chosen": -282.03070068359375,
+      "logps/rejected": -270.5752258300781,
+      "loss": 0.6214,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -0.32758888602256775,
+      "rewards/margins": 0.2726225256919861,
+      "rewards/rejected": -0.6002114415168762,
+      "step": 110
+    },
+    {
+      "epoch": 0.12562156503533106,
+      "grad_norm": 2.277765435939027,
+      "learning_rate": 4.9903757462135984e-06,
+      "logits/chosen": -2.402243137359619,
+      "logits/rejected": -2.3531296253204346,
+      "logps/chosen": -279.3037414550781,
+      "logps/rejected": -320.41241455078125,
+      "loss": 0.5899,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -0.3164636492729187,
+      "rewards/margins": 0.3019184470176697,
+      "rewards/rejected": -0.6183820962905884,
+      "step": 120
+    },
+    {
+      "epoch": 0.1360900287882753,
+      "grad_norm": 3.5836859325532537,
+      "learning_rate": 4.980697142834315e-06,
+      "logits/chosen": -2.4281363487243652,
+      "logits/rejected": -2.3622257709503174,
+      "logps/chosen": -365.813232421875,
+      "logps/rejected": -333.8047790527344,
+      "loss": 0.5984,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.6453860402107239,
+      "rewards/margins": 0.291470468044281,
+      "rewards/rejected": -0.9368564486503601,
+      "step": 130
+    },
+    {
+      "epoch": 0.14655849254121958,
+      "grad_norm": 4.177122005020008,
+      "learning_rate": 4.967700826904229e-06,
+      "logits/chosen": -2.3888461589813232,
+      "logits/rejected": -2.3509252071380615,
+      "logps/chosen": -329.9725341796875,
+      "logps/rejected": -369.2422790527344,
+      "loss": 0.5786,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -0.5841600298881531,
+      "rewards/margins": 0.4313054084777832,
+      "rewards/rejected": -1.015465497970581,
+      "step": 140
+    },
+    {
+      "epoch": 0.15702695629416383,
+      "grad_norm": 3.8223984872865686,
+      "learning_rate": 4.951404179843963e-06,
+      "logits/chosen": -2.4817895889282227,
+      "logits/rejected": -2.4037411212921143,
+      "logps/chosen": -363.9546203613281,
+      "logps/rejected": -355.483154296875,
+      "loss": 0.5982,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.738756000995636,
+      "rewards/margins": 0.38375917077064514,
+      "rewards/rejected": -1.122515320777893,
+      "step": 150
+    },
+    {
+      "epoch": 0.16749542004710807,
+      "grad_norm": 3.3391629933554023,
+      "learning_rate": 4.931828996974498e-06,
+      "logits/chosen": -2.4580092430114746,
+      "logits/rejected": -2.364123821258545,
+      "logps/chosen": -374.60455322265625,
+      "logps/rejected": -352.8321533203125,
+      "loss": 0.5851,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -0.8589010238647461,
+      "rewards/margins": 0.3599582612514496,
+      "rewards/rejected": -1.2188594341278076,
+      "step": 160
+    },
+    {
+      "epoch": 0.17796388380005235,
+      "grad_norm": 2.5964425242978337,
+      "learning_rate": 4.909001458367867e-06,
+      "logits/chosen": -2.4445998668670654,
+      "logits/rejected": -2.355095148086548,
+      "logps/chosen": -318.6025085449219,
+      "logps/rejected": -344.8854675292969,
+      "loss": 0.575,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.580207347869873,
+      "rewards/margins": 0.40731239318847656,
+      "rewards/rejected": -0.9875197410583496,
+      "step": 170
+    },
+    {
+      "epoch": 0.1884323475529966,
+      "grad_norm": 3.6928906953423732,
+      "learning_rate": 4.882952093833628e-06,
+      "logits/chosen": -2.388700008392334,
+      "logits/rejected": -2.3635334968566895,
+      "logps/chosen": -325.55902099609375,
+      "logps/rejected": -366.1028747558594,
+      "loss": 0.55,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.6206040382385254,
+      "rewards/margins": 0.4654437005519867,
+      "rewards/rejected": -1.086047649383545,
+      "step": 180
+    },
+    {
+      "epoch": 0.19890081130594087,
+      "grad_norm": 3.022202327145697,
+      "learning_rate": 4.853715742087947e-06,
+      "logits/chosen": -2.243128776550293,
+      "logits/rejected": -2.2242884635925293,
+      "logps/chosen": -345.83331298828125,
+      "logps/rejected": -424.47003173828125,
+      "loss": 0.564,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -0.9772090911865234,
+      "rewards/margins": 0.5893430113792419,
+      "rewards/rejected": -1.5665521621704102,
+      "step": 190
+    },
+    {
+      "epoch": 0.2093692750588851,
+      "grad_norm": 4.352581590749502,
+      "learning_rate": 4.821331504159906e-06,
+      "logits/chosen": -2.3912417888641357,
+      "logits/rejected": -2.310708999633789,
+      "logps/chosen": -394.71142578125,
+      "logps/rejected": -382.6004943847656,
+      "loss": 0.5724,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -0.8045751452445984,
+      "rewards/margins": 0.4971863627433777,
+      "rewards/rejected": -1.3017616271972656,
+      "step": 200
+    },
+    {
+      "epoch": 0.2093692750588851,
+      "eval_logits/chosen": -2.2930498123168945,
+      "eval_logits/rejected": -2.2448384761810303,
+      "eval_logps/chosen": -350.611328125,
+      "eval_logps/rejected": -379.675048828125,
+      "eval_loss": 0.5691524744033813,
+      "eval_rewards/accuracies": 0.7301587462425232,
+      "eval_rewards/chosen": -0.8433722257614136,
+      "eval_rewards/margins": 0.48503097891807556,
+      "eval_rewards/rejected": -1.3284029960632324,
+      "eval_runtime": 277.4907,
+      "eval_samples_per_second": 7.207,
+      "eval_steps_per_second": 0.227,
+      "step": 200
+    },
+    {
+      "epoch": 0.21983773881182936,
+      "grad_norm": 4.349505936455232,
+      "learning_rate": 4.7858426910973435e-06,
+      "logits/chosen": -2.3390839099884033,
+      "logits/rejected": -2.296893835067749,
+      "logps/chosen": -365.0033264160156,
+      "logps/rejected": -390.9748229980469,
+      "loss": 0.5875,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -0.8617814779281616,
+      "rewards/margins": 0.34669047594070435,
+      "rewards/rejected": -1.2084718942642212,
+      "step": 210
+    },
+    {
+      "epoch": 0.23030620256477363,
+      "grad_norm": 3.456252004286951,
+      "learning_rate": 4.747296766042161e-06,
+      "logits/chosen": -2.345686435699463,
+      "logits/rejected": -2.2922120094299316,
+      "logps/chosen": -383.15887451171875,
+      "logps/rejected": -390.80059814453125,
+      "loss": 0.5635,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.8896678686141968,
+      "rewards/margins": 0.5066917538642883,
+      "rewards/rejected": -1.3963596820831299,
+      "step": 220
+    },
+    {
+      "epoch": 0.24077466631771788,
+      "grad_norm": 4.05851608400099,
+      "learning_rate": 4.705745280752586e-06,
+      "logits/chosen": -2.1309893131256104,
+      "logits/rejected": -2.105212450027466,
+      "logps/chosen": -367.39385986328125,
+      "logps/rejected": -395.93389892578125,
+      "loss": 0.5581,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -1.184787631034851,
+      "rewards/margins": 0.43892526626586914,
+      "rewards/rejected": -1.6237128973007202,
+      "step": 230
+    },
+    {
+      "epoch": 0.2512431300706621,
+      "grad_norm": 3.8267051093451507,
+      "learning_rate": 4.661243806657256e-06,
+      "logits/chosen": -2.1996395587921143,
+      "logits/rejected": -2.182788133621216,
+      "logps/chosen": -372.97308349609375,
+      "logps/rejected": -395.46978759765625,
+      "loss": 0.5428,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -1.135464072227478,
+      "rewards/margins": 0.5388585925102234,
+      "rewards/rejected": -1.6743228435516357,
+      "step": 240
+    },
+    {
+      "epoch": 0.26171159382360637,
+      "grad_norm": 4.611796368437759,
+      "learning_rate": 4.613851860533367e-06,
+      "logits/chosen": -2.163637399673462,
+      "logits/rejected": -2.143691062927246,
+      "logps/chosen": -375.72900390625,
+      "logps/rejected": -394.5628967285156,
+      "loss": 0.5294,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -1.087786316871643,
+      "rewards/margins": 0.5885697603225708,
+      "rewards/rejected": -1.6763559579849243,
+      "step": 250
+    },
+    {
+      "epoch": 0.2721800575765506,
+      "grad_norm": 4.723757696740007,
+      "learning_rate": 4.563632824908252e-06,
+      "logits/chosen": -2.07501482963562,
+      "logits/rejected": -2.003157138824463,
+      "logps/chosen": -431.285888671875,
+      "logps/rejected": -481.96435546875,
+      "loss": 0.536,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -1.5983136892318726,
+      "rewards/margins": 0.6496692299842834,
+      "rewards/rejected": -2.247982978820801,
+      "step": 260
+    },
+    {
+      "epoch": 0.2826485213294949,
+      "grad_norm": 6.406650480112877,
+      "learning_rate": 4.510653863290871e-06,
+      "logits/chosen": -1.9036792516708374,
+      "logits/rejected": -1.8629169464111328,
+      "logps/chosen": -441.50677490234375,
+      "logps/rejected": -505.6388244628906,
+      "loss": 0.5138,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -1.6636412143707275,
+      "rewards/margins": 0.8482675552368164,
+      "rewards/rejected": -2.511908769607544,
+      "step": 270
+    },
+    {
+      "epoch": 0.29311698508243916,
+      "grad_norm": 3.669198365138619,
+      "learning_rate": 4.454985830346574e-06,
+      "logits/chosen": -1.8643271923065186,
+      "logits/rejected": -1.7986135482788086,
+      "logps/chosen": -439.7417907714844,
+      "logps/rejected": -483.3232421875,
+      "loss": 0.5515,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -1.501157522201538,
+      "rewards/margins": 0.768980085849762,
+      "rewards/rejected": -2.270137310028076,
+      "step": 280
+    },
+    {
+      "epoch": 0.3035854488353834,
+      "grad_norm": 4.724976933585983,
+      "learning_rate": 4.396703177135262e-06,
+      "logits/chosen": -1.8855762481689453,
+      "logits/rejected": -1.7720863819122314,
+      "logps/chosen": -438.58154296875,
+      "logps/rejected": -466.4124450683594,
+      "loss": 0.5336,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -1.535830020904541,
+      "rewards/margins": 0.6200370788574219,
+      "rewards/rejected": -2.155867099761963,
+      "step": 290
+    },
+    {
+      "epoch": 0.31405391258832765,
+      "grad_norm": 4.575595350067731,
+      "learning_rate": 4.335883851539693e-06,
+      "logits/chosen": -1.7169132232666016,
+      "logits/rejected": -1.7286903858184814,
+      "logps/chosen": -402.37982177734375,
+      "logps/rejected": -462.84478759765625,
+      "loss": 0.5366,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -1.5827662944793701,
+      "rewards/margins": 0.6053536534309387,
+      "rewards/rejected": -2.188120126724243,
+      "step": 300
+    },
+    {
+      "epoch": 0.31405391258832765,
+      "eval_logits/chosen": -1.6850438117980957,
+      "eval_logits/rejected": -1.6220176219940186,
+      "eval_logps/chosen": -435.1428527832031,
+      "eval_logps/rejected": -495.46484375,
+      "eval_loss": 0.524876594543457,
+      "eval_rewards/accuracies": 0.7638888955116272,
+      "eval_rewards/chosen": -1.6886873245239258,
+      "eval_rewards/margins": 0.7976137399673462,
+      "eval_rewards/rejected": -2.4863009452819824,
+      "eval_runtime": 278.1285,
+      "eval_samples_per_second": 7.191,
+      "eval_steps_per_second": 0.227,
+      "step": 300
+    },
+    {
+      "epoch": 0.3245223763412719,
+      "grad_norm": 4.624400922286726,
+      "learning_rate": 4.2726091940171055e-06,
+      "logits/chosen": -1.75604248046875,
+      "logits/rejected": -1.6548255681991577,
+      "logps/chosen": -441.04571533203125,
+      "logps/rejected": -495.0343322753906,
+      "loss": 0.5239,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -1.6734451055526733,
+      "rewards/margins": 0.911232590675354,
+      "rewards/rejected": -2.5846774578094482,
+      "step": 310
+    },
+    {
+      "epoch": 0.33499084009421615,
+      "grad_norm": 5.321599244496586,
+      "learning_rate": 4.206963828813555e-06,
+      "logits/chosen": -1.7151927947998047,
+      "logits/rejected": -1.659000039100647,
+      "logps/chosen": -407.6772766113281,
+      "logps/rejected": -487.42816162109375,
+      "loss": 0.5533,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -1.6879345178604126,
+      "rewards/margins": 0.7429603338241577,
+      "rewards/rejected": -2.4308950901031494,
+      "step": 320
+    },
+    {
+      "epoch": 0.34545930384716045,
+      "grad_norm": 4.6340466714580755,
+      "learning_rate": 4.139035550786495e-06,
+      "logits/chosen": -1.693902611732483,
+      "logits/rejected": -1.6580374240875244,
+      "logps/chosen": -437.0306091308594,
+      "logps/rejected": -501.24298095703125,
+      "loss": 0.5172,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -1.860239028930664,
+      "rewards/margins": 0.6861482858657837,
+      "rewards/rejected": -2.5463874340057373,
+      "step": 330
+    },
+    {
+      "epoch": 0.3559277676001047,
+      "grad_norm": 4.529361319396784,
+      "learning_rate": 4.068915207986931e-06,
+      "logits/chosen": -1.5517462491989136,
+      "logits/rejected": -1.497995376586914,
+      "logps/chosen": -427.9058532714844,
+      "logps/rejected": -476.1865234375,
+      "loss": 0.5503,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -1.7529428005218506,
+      "rewards/margins": 0.7496469020843506,
+      "rewards/rejected": -2.502589702606201,
+      "step": 340
+    },
+    {
+      "epoch": 0.36639623135304894,
+      "grad_norm": 5.461159855322785,
+      "learning_rate": 3.996696580158211e-06,
+      "logits/chosen": -1.7160961627960205,
+      "logits/rejected": -1.64591383934021,
+      "logps/chosen": -440.3072204589844,
+      "logps/rejected": -496.3219299316406,
+      "loss": 0.5145,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": -1.8336540460586548,
+      "rewards/margins": 0.7150315046310425,
+      "rewards/rejected": -2.5486855506896973,
+      "step": 350
+    },
+    {
+      "epoch": 0.3768646951059932,
+      "grad_norm": 5.022405804138076,
+      "learning_rate": 3.922476253313921e-06,
+      "logits/chosen": -1.6719996929168701,
+      "logits/rejected": -1.6425079107284546,
+      "logps/chosen": -405.40142822265625,
+      "logps/rejected": -469.779052734375,
+      "loss": 0.4736,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -1.4964035749435425,
+      "rewards/margins": 0.8178457021713257,
+      "rewards/rejected": -2.314249277114868,
+      "step": 360
+    },
+    {
+      "epoch": 0.38733315885893743,
+      "grad_norm": 4.765071999966862,
+      "learning_rate": 3.846353490562664e-06,
+      "logits/chosen": -1.754809021949768,
+      "logits/rejected": -1.7150640487670898,
+      "logps/chosen": -381.4289855957031,
+      "logps/rejected": -456.10675048828125,
+      "loss": 0.5203,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -1.3520570993423462,
+      "rewards/margins": 0.8618815541267395,
+      "rewards/rejected": -2.2139384746551514,
+      "step": 370
+    },
+    {
+      "epoch": 0.39780162261188173,
+      "grad_norm": 5.077040951702186,
+      "learning_rate": 3.768430099352445e-06,
+      "logits/chosen": -1.7217756509780884,
+      "logits/rejected": -1.67500901222229,
+      "logps/chosen": -441.7967834472656,
+      "logps/rejected": -520.3387451171875,
+      "loss": 0.5364,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -1.86903977394104,
+      "rewards/margins": 0.7624320983886719,
+      "rewards/rejected": -2.631471872329712,
+      "step": 380
+    },
+    {
+      "epoch": 0.408270086364826,
+      "grad_norm": 3.6370311779518514,
+      "learning_rate": 3.6888102953122307e-06,
+      "logits/chosen": -1.7671334743499756,
+      "logits/rejected": -1.7222200632095337,
+      "logps/chosen": -417.48699951171875,
+      "logps/rejected": -465.5294494628906,
+      "loss": 0.5336,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -1.583051323890686,
+      "rewards/margins": 0.6584590673446655,
+      "rewards/rejected": -2.2415101528167725,
+      "step": 390
+    },
+    {
+      "epoch": 0.4187385501177702,
+      "grad_norm": 3.8429456015253396,
+      "learning_rate": 3.607600562872785e-06,
+      "logits/chosen": -1.843812346458435,
+      "logits/rejected": -1.8115432262420654,
+      "logps/chosen": -375.5889587402344,
+      "logps/rejected": -427.83990478515625,
+      "loss": 0.5397,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -1.298298954963684,
+      "rewards/margins": 0.5158218145370483,
+      "rewards/rejected": -1.8141206502914429,
+      "step": 400
+    },
+    {
+      "epoch": 0.4187385501177702,
+      "eval_logits/chosen": -1.8144292831420898,
+      "eval_logits/rejected": -1.7585728168487549,
+      "eval_logps/chosen": -396.2536926269531,
+      "eval_logps/rejected": -446.0619201660156,
+      "eval_loss": 0.5252955555915833,
+      "eval_rewards/accuracies": 0.7698412537574768,
+      "eval_rewards/chosen": -1.2997959852218628,
+      "eval_rewards/margins": 0.6924758553504944,
+      "eval_rewards/rejected": -1.9922715425491333,
+      "eval_runtime": 277.0739,
+      "eval_samples_per_second": 7.218,
+      "eval_steps_per_second": 0.227,
+      "step": 400
+    },
+    {
+      "epoch": 0.42920701387071447,
+      "grad_norm": 4.321854918430961,
+      "learning_rate": 3.5249095128531863e-06,
+      "logits/chosen": -1.708707571029663,
+      "logits/rejected": -1.6425899267196655,
+      "logps/chosen": -434.7601623535156,
+      "logps/rejected": -490.0912170410156,
+      "loss": 0.5406,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -1.66852605342865,
+      "rewards/margins": 0.8226760625839233,
+      "rewards/rejected": -2.4912023544311523,
+      "step": 410
+    },
+    {
+      "epoch": 0.4396754776236587,
+      "grad_norm": 4.6429659320397185,
+      "learning_rate": 3.4408477372034743e-06,
+      "logits/chosen": -1.7646077871322632,
+      "logits/rejected": -1.6311779022216797,
+      "logps/chosen": -465.91851806640625,
+      "logps/rejected": -482.90313720703125,
+      "loss": 0.5232,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -1.8112109899520874,
+      "rewards/margins": 0.7522093653678894,
+      "rewards/rejected": -2.5634207725524902,
+      "step": 420
+    },
+    {
+      "epoch": 0.45014394137660296,
+      "grad_norm": 4.073383292817544,
+      "learning_rate": 3.355527661097728e-06,
+      "logits/chosen": -1.7000205516815186,
+      "logits/rejected": -1.6602411270141602,
+      "logps/chosen": -406.20111083984375,
+      "logps/rejected": -491.0992126464844,
+      "loss": 0.5113,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -1.771209478378296,
+      "rewards/margins": 0.8097410202026367,
+      "rewards/rejected": -2.5809504985809326,
+      "step": 430
+    },
+    {
+      "epoch": 0.46061240512954726,
+      "grad_norm": 6.363547319828774,
+      "learning_rate": 3.269063392575352e-06,
+      "logits/chosen": -1.6135189533233643,
+      "logits/rejected": -1.6108068227767944,
+      "logps/chosen": -434.0970764160156,
+      "logps/rejected": -488.9344787597656,
+      "loss": 0.5193,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -1.8390247821807861,
+      "rewards/margins": 0.7370558977127075,
+      "rewards/rejected": -2.576080799102783,
+      "step": 440
+    },
+    {
+      "epoch": 0.4710808688824915,
+      "grad_norm": 5.120415362893221,
+      "learning_rate": 3.181570569931697e-06,
+      "logits/chosen": -1.699637770652771,
+      "logits/rejected": -1.6541831493377686,
+      "logps/chosen": -434.42010498046875,
+      "logps/rejected": -562.7218017578125,
+      "loss": 0.508,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -1.8876171112060547,
+      "rewards/margins": 1.1184637546539307,
+      "rewards/rejected": -3.0060808658599854,
+      "step": 450
+    },
+    {
+      "epoch": 0.48154933263543576,
+      "grad_norm": 4.704501376897649,
+      "learning_rate": 3.09316620706208e-06,
+      "logits/chosen": -1.7134917974472046,
+      "logits/rejected": -1.6925232410430908,
+      "logps/chosen": -452.0691833496094,
+      "logps/rejected": -523.4850463867188,
+      "loss": 0.5335,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -1.904476523399353,
+      "rewards/margins": 0.8279927372932434,
+      "rewards/rejected": -2.732469320297241,
+      "step": 460
+    },
+    {
+      "epoch": 0.49201779638838,
+      "grad_norm": 4.879700738283134,
+      "learning_rate": 3.0039685369660785e-06,
+      "logits/chosen": -1.7574955224990845,
+      "logits/rejected": -1.666815161705017,
+      "logps/chosen": -433.5028381347656,
+      "logps/rejected": -469.12158203125,
+      "loss": 0.4923,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -1.7322635650634766,
+      "rewards/margins": 0.6690031290054321,
+      "rewards/rejected": -2.401266574859619,
+      "step": 470
+    },
+    {
+      "epoch": 0.5024862601413242,
+      "grad_norm": 5.236704166005388,
+      "learning_rate": 2.91409685362137e-06,
+      "logits/chosen": -1.6420507431030273,
+      "logits/rejected": -1.551762342453003,
+      "logps/chosen": -483.396240234375,
+      "logps/rejected": -551.7774658203125,
+      "loss": 0.5032,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -2.1131300926208496,
+      "rewards/margins": 0.9647353887557983,
+      "rewards/rejected": -3.0778656005859375,
+      "step": 480
+    },
+    {
+      "epoch": 0.5129547238942685,
+      "grad_norm": 4.9932627461086625,
+      "learning_rate": 2.8236713524386085e-06,
+      "logits/chosen": -1.7080411911010742,
+      "logits/rejected": -1.606384515762329,
+      "logps/chosen": -494.674560546875,
+      "logps/rejected": -555.2131958007812,
+      "loss": 0.497,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -2.097015619277954,
+      "rewards/margins": 0.9440878629684448,
+      "rewards/rejected": -3.0411033630371094,
+      "step": 490
+    },
+    {
+      "epoch": 0.5234231876472127,
+      "grad_norm": 4.897787536727827,
+      "learning_rate": 2.7328129695107205e-06,
+      "logits/chosen": -1.6698167324066162,
+      "logits/rejected": -1.6173324584960938,
+      "logps/chosen": -458.3126525878906,
+      "logps/rejected": -532.6166381835938,
+      "loss": 0.5003,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -1.9204323291778564,
+      "rewards/margins": 0.9951194524765015,
+      "rewards/rejected": -2.9155516624450684,
+      "step": 500
+    },
+    {
+      "epoch": 0.5234231876472127,
+      "eval_logits/chosen": -1.6681629419326782,
+      "eval_logits/rejected": -1.6049078702926636,
+      "eval_logps/chosen": -466.0908508300781,
+      "eval_logps/rejected": -538.906494140625,
+      "eval_loss": 0.5013344287872314,
+      "eval_rewards/accuracies": 0.7658730149269104,
+      "eval_rewards/chosen": -1.9981670379638672,
+      "eval_rewards/margins": 0.922550618648529,
+      "eval_rewards/rejected": -2.92071795463562,
+      "eval_runtime": 276.7176,
+      "eval_samples_per_second": 7.228,
+      "eval_steps_per_second": 0.228,
+      "step": 500
+    },
+    {
+      "epoch": 0.533891651400157,
+      "grad_norm": 4.97316270122908,
+      "learning_rate": 2.641643219871597e-06,
+      "logits/chosen": -1.7244354486465454,
+      "logits/rejected": -1.6957614421844482,
+      "logps/chosen": -451.49981689453125,
+      "logps/rejected": -516.1077270507812,
+      "loss": 0.4933,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -1.911877989768982,
+      "rewards/margins": 0.8705556988716125,
+      "rewards/rejected": -2.7824337482452393,
+      "step": 510
+    },
+    {
+      "epoch": 0.5443601151531012,
+      "grad_norm": 5.8930442835078685,
+      "learning_rate": 2.5502840349805074e-06,
+      "logits/chosen": -1.6949068307876587,
+      "logits/rejected": -1.6189374923706055,
+      "logps/chosen": -499.230224609375,
+      "logps/rejected": -536.48583984375,
+      "loss": 0.5261,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -2.2237086296081543,
+      "rewards/margins": 0.827392578125,
+      "rewards/rejected": -3.0511016845703125,
+      "step": 520
+    },
+    {
+      "epoch": 0.5548285789060455,
+      "grad_norm": 5.076166821402116,
+      "learning_rate": 2.4588575996495797e-06,
+      "logits/chosen": -1.6722028255462646,
+      "logits/rejected": -1.606205940246582,
+      "logps/chosen": -441.3253479003906,
+      "logps/rejected": -515.5338134765625,
+      "loss": 0.4997,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -1.6732591390609741,
+      "rewards/margins": 0.9954363703727722,
+      "rewards/rejected": -2.6686952114105225,
+      "step": 530
+    },
+    {
+      "epoch": 0.5652970426589898,
+      "grad_norm": 5.298568838364531,
+      "learning_rate": 2.367486188632446e-06,
+      "logits/chosen": -1.6246812343597412,
+      "logits/rejected": -1.564178705215454,
+      "logps/chosen": -443.343017578125,
+      "logps/rejected": -481.7394104003906,
+      "loss": 0.5271,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -1.873234510421753,
+      "rewards/margins": 0.8055590391159058,
+      "rewards/rejected": -2.6787936687469482,
+      "step": 540
+    },
+    {
+      "epoch": 0.575765506411934,
+      "grad_norm": 4.903563195070263,
+      "learning_rate": 2.276292003092593e-06,
+      "logits/chosen": -1.591386079788208,
+      "logits/rejected": -1.5199774503707886,
+      "logps/chosen": -461.0108337402344,
+      "logps/rejected": -490.60498046875,
+      "loss": 0.517,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -1.9846340417861938,
+      "rewards/margins": 0.6464044451713562,
+      "rewards/rejected": -2.6310389041900635,
+      "step": 550
+    },
+    {
+      "epoch": 0.5862339701648783,
+      "grad_norm": 6.151878065059773,
+      "learning_rate": 2.1853970071701415e-06,
+      "logits/chosen": -1.524752140045166,
+      "logits/rejected": -1.4780924320220947,
+      "logps/chosen": -458.1922912597656,
+      "logps/rejected": -509.72918701171875,
+      "loss": 0.5217,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -1.9151818752288818,
+      "rewards/margins": 0.8629971742630005,
+      "rewards/rejected": -2.7781789302825928,
+      "step": 560
+    },
+    {
+      "epoch": 0.5967024339178225,
+      "grad_norm": 5.220341094167877,
+      "learning_rate": 2.0949227648656194e-06,
+      "logits/chosen": -1.5827438831329346,
+      "logits/rejected": -1.5035909414291382,
+      "logps/chosen": -455.52197265625,
+      "logps/rejected": -528.5602416992188,
+      "loss": 0.5069,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -1.9370582103729248,
+      "rewards/margins": 0.8514412641525269,
+      "rewards/rejected": -2.788499355316162,
+      "step": 570
+    },
+    {
+      "epoch": 0.6071708976707668,
+      "grad_norm": 5.5150025763626145,
+      "learning_rate": 2.00499027745888e-06,
+      "logits/chosen": -1.5897815227508545,
+      "logits/rejected": -1.5100150108337402,
+      "logps/chosen": -404.41741943359375,
+      "logps/rejected": -460.427001953125,
+      "loss": 0.5166,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -1.6832536458969116,
+      "rewards/margins": 0.7988817095756531,
+      "rewards/rejected": -2.48213529586792,
+      "step": 580
+    },
+    {
+      "epoch": 0.6176393614237111,
+      "grad_norm": 4.9008082837332765,
+      "learning_rate": 1.915719821680624e-06,
+      "logits/chosen": -1.6151273250579834,
+      "logits/rejected": -1.5963796377182007,
+      "logps/chosen": -419.74725341796875,
+      "logps/rejected": -513.4180908203125,
+      "loss": 0.494,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -1.7207034826278687,
+      "rewards/margins": 0.8950328826904297,
+      "rewards/rejected": -2.615736246109009,
+      "step": 590
+    },
+    {
+      "epoch": 0.6281078251766553,
+      "grad_norm": 6.4962338338594385,
+      "learning_rate": 1.8272307888529276e-06,
+      "logits/chosen": -1.4385050535202026,
+      "logits/rejected": -1.3539499044418335,
+      "logps/chosen": -534.6634521484375,
+      "logps/rejected": -584.0506591796875,
+      "loss": 0.4835,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -2.359952449798584,
+      "rewards/margins": 0.8336412310600281,
+      "rewards/rejected": -3.193593740463257,
+      "step": 600
+    },
+    {
+      "epoch": 0.6281078251766553,
+      "eval_logits/chosen": -1.4124971628189087,
+      "eval_logits/rejected": -1.3416856527328491,
+      "eval_logps/chosen": -523.2593383789062,
+      "eval_logps/rejected": -598.5182495117188,
+      "eval_loss": 0.5026703476905823,
+      "eval_rewards/accuracies": 0.7559523582458496,
+      "eval_rewards/chosen": -2.569852352142334,
+      "eval_rewards/margins": 0.9469824433326721,
+      "eval_rewards/rejected": -3.516834259033203,
+      "eval_runtime": 276.7094,
+      "eval_samples_per_second": 7.228,
+      "eval_steps_per_second": 0.228,
+      "step": 600
+    },
+    {
+      "epoch": 0.6385762889295996,
+      "grad_norm": 5.595781300544392,
+      "learning_rate": 1.739641525213929e-06,
+      "logits/chosen": -1.5086050033569336,
+      "logits/rejected": -1.478257179260254,
+      "logps/chosen": -520.480712890625,
+      "logps/rejected": -586.702880859375,
+      "loss": 0.5161,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -2.468291997909546,
+      "rewards/margins": 1.007550835609436,
+      "rewards/rejected": -3.4758429527282715,
+      "step": 610
+    },
+    {
+      "epoch": 0.6490447526825438,
+      "grad_norm": 6.142511293341612,
+      "learning_rate": 1.6530691736402317e-06,
+      "logits/chosen": -1.6536248922348022,
+      "logits/rejected": -1.5585447549819946,
+      "logps/chosen": -506.4708557128906,
+      "logps/rejected": -550.4331665039062,
+      "loss": 0.4796,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -2.0505268573760986,
+      "rewards/margins": 0.9777840375900269,
+      "rewards/rejected": -3.028310775756836,
+      "step": 620
+    },
+    {
+      "epoch": 0.6595132164354881,
+      "grad_norm": 7.522645087833883,
+      "learning_rate": 1.5676295169786864e-06,
+      "logits/chosen": -1.6819908618927002,
+      "logits/rejected": -1.6001083850860596,
+      "logps/chosen": -470.88494873046875,
+      "logps/rejected": -511.28680419921875,
+      "loss": 0.4863,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -1.9194360971450806,
+      "rewards/margins": 0.8219398260116577,
+      "rewards/rejected": -2.741375684738159,
+      "step": 630
+    },
+    {
+      "epoch": 0.6699816801884323,
+      "grad_norm": 7.853260652377011,
+      "learning_rate": 1.4834368231970922e-06,
+      "logits/chosen": -1.564366340637207,
+      "logits/rejected": -1.494086742401123,
+      "logps/chosen": -437.3993225097656,
+      "logps/rejected": -517.3038330078125,
+      "loss": 0.4786,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -1.9992519617080688,
+      "rewards/margins": 0.9533640742301941,
+      "rewards/rejected": -2.952615976333618,
+      "step": 640
+    },
+    {
+      "epoch": 0.6804501439413766,
+      "grad_norm": 5.803651393914848,
+      "learning_rate": 1.4006036925609245e-06,
+      "logits/chosen": -1.6179273128509521,
+      "logits/rejected": -1.5984830856323242,
+      "logps/chosen": -457.8565979003906,
+      "logps/rejected": -540.9107666015625,
+      "loss": 0.5039,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -1.9681861400604248,
+      "rewards/margins": 0.8296257257461548,
+      "rewards/rejected": -2.79781174659729,
+      "step": 650
+    },
+    {
+      "epoch": 0.6909186076943209,
+      "grad_norm": 5.141240530191721,
+      "learning_rate": 1.3192409070404582e-06,
+      "logits/chosen": -1.680153489112854,
+      "logits/rejected": -1.6061805486679077,
+      "logps/chosen": -439.73272705078125,
+      "logps/rejected": -508.1709899902344,
+      "loss": 0.4981,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -1.8612697124481201,
+      "rewards/margins": 0.8554447889328003,
+      "rewards/rejected": -2.716714382171631,
+      "step": 660
+    },
+    {
+      "epoch": 0.7013870714472651,
+      "grad_norm": 6.25377182984675,
+      "learning_rate": 1.2394572821496953e-06,
+      "logits/chosen": -1.5166045427322388,
+      "logits/rejected": -1.4167017936706543,
+      "logps/chosen": -456.9510192871094,
+      "logps/rejected": -535.3768310546875,
+      "loss": 0.4811,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -2.0087170600891113,
+      "rewards/margins": 1.0361051559448242,
+      "rewards/rejected": -3.0448222160339355,
+      "step": 670
+    },
+    {
+      "epoch": 0.7118555352002094,
+      "grad_norm": 7.572206476060471,
+      "learning_rate": 1.1613595214152713e-06,
+      "logits/chosen": -1.5004642009735107,
+      "logits/rejected": -1.4637364149093628,
+      "logps/chosen": -480.53875732421875,
+      "logps/rejected": -548.7276611328125,
+      "loss": 0.5205,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -2.131697416305542,
+      "rewards/margins": 0.8276796340942383,
+      "rewards/rejected": -2.9593770503997803,
+      "step": 680
+    },
+    {
+      "epoch": 0.7223239989531536,
+      "grad_norm": 4.010350785789718,
+      "learning_rate": 1.0850520736699362e-06,
+      "logits/chosen": -1.588531255722046,
+      "logits/rejected": -1.503158688545227,
+      "logps/chosen": -480.64715576171875,
+      "logps/rejected": -513.88232421875,
+      "loss": 0.4544,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -2.0653069019317627,
+      "rewards/margins": 0.8280428647994995,
+      "rewards/rejected": -2.8933494091033936,
+      "step": 690
+    },
+    {
+      "epoch": 0.7327924627060979,
+      "grad_norm": 5.214297382993777,
+      "learning_rate": 1.0106369933615043e-06,
+      "logits/chosen": -1.4556739330291748,
+      "logits/rejected": -1.4368045330047607,
+      "logps/chosen": -476.2962951660156,
+      "logps/rejected": -560.508056640625,
+      "loss": 0.4715,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -2.2485156059265137,
+      "rewards/margins": 0.9335169792175293,
+      "rewards/rejected": -3.182032585144043,
+      "step": 700
+    },
+    {
+      "epoch": 0.7327924627060979,
+      "eval_logits/chosen": -1.4479634761810303,
+      "eval_logits/rejected": -1.378204107284546,
+      "eval_logps/chosen": -485.28936767578125,
+      "eval_logps/rejected": -566.1954956054688,
+      "eval_loss": 0.4955996572971344,
+      "eval_rewards/accuracies": 0.7678571343421936,
+      "eval_rewards/chosen": -2.190152883529663,
+      "eval_rewards/margins": 1.0034549236297607,
+      "eval_rewards/rejected": -3.193607807159424,
+      "eval_runtime": 277.1042,
+      "eval_samples_per_second": 7.218,
+      "eval_steps_per_second": 0.227,
+      "step": 700
+    },
+    {
+      "epoch": 0.7432609264590422,
+      "grad_norm": 5.527625380225802,
+      "learning_rate": 9.382138040640714e-07,
+      "logits/chosen": -1.4906096458435059,
+      "logits/rejected": -1.3870160579681396,
+      "logps/chosen": -493.5198669433594,
+      "logps/rejected": -554.8124389648438,
+      "loss": 0.5528,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -2.260972499847412,
+      "rewards/margins": 0.9154504537582397,
+      "rewards/rejected": -3.176422595977783,
+      "step": 710
+    },
+    {
+      "epoch": 0.7537293902119864,
+      "grad_norm": 4.7649826972694145,
+      "learning_rate": 8.678793653740633e-07,
+      "logits/chosen": -1.6233956813812256,
+      "logits/rejected": -1.5308845043182373,
+      "logps/chosen": -514.6124267578125,
+      "logps/rejected": -569.4010620117188,
+      "loss": 0.4833,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -1.9400179386138916,
+      "rewards/margins": 1.038830280303955,
+      "rewards/rejected": -2.9788479804992676,
+      "step": 720
+    },
+    {
+      "epoch": 0.7641978539649307,
+      "grad_norm": 5.43475547987397,
+      "learning_rate": 7.997277433690984e-07,
+      "logits/chosen": -1.5152695178985596,
+      "logits/rejected": -1.423516869544983,
+      "logps/chosen": -439.678955078125,
+      "logps/rejected": -520.2861938476562,
+      "loss": 0.5025,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -2.0016751289367676,
+      "rewards/margins": 0.9704031944274902,
+      "rewards/rejected": -2.972078561782837,
+      "step": 730
+    },
+    {
+      "epoch": 0.7746663177178749,
+      "grad_norm": 6.294313395553081,
+      "learning_rate": 7.338500848029603e-07,
+      "logits/chosen": -1.503118872642517,
+      "logits/rejected": -1.4224625825881958,
+      "logps/chosen": -494.43505859375,
+      "logps/rejected": -529.97607421875,
+      "loss": 0.5112,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -2.1212410926818848,
+      "rewards/margins": 0.9084514379501343,
+      "rewards/rejected": -3.0296926498413086,
+      "step": 740
+    },
+    {
+      "epoch": 0.7851347814708192,
+      "grad_norm": 4.456878260756767,
+      "learning_rate": 6.70334495204884e-07,
+      "logits/chosen": -1.3774914741516113,
+      "logits/rejected": -1.3466551303863525,
+      "logps/chosen": -453.56060791015625,
+      "logps/rejected": -562.9486083984375,
+      "loss": 0.4843,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -2.2453207969665527,
+      "rewards/margins": 1.0070064067840576,
+      "rewards/rejected": -3.2523269653320312,
+      "step": 750
+    },
+    {
+      "epoch": 0.7956032452237635,
+      "grad_norm": 4.6479649573926425,
+      "learning_rate": 6.092659210462232e-07,
+      "logits/chosen": -1.4880906343460083,
+      "logits/rejected": -1.3924858570098877,
+      "logps/chosen": -477.60284423828125,
+      "logps/rejected": -531.3121337890625,
+      "loss": 0.508,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -2.1819820404052734,
+      "rewards/margins": 0.885240912437439,
+      "rewards/rejected": -3.067223072052002,
+      "step": 760
+    },
+    {
+      "epoch": 0.8060717089767077,
+      "grad_norm": 3.847763381152239,
+      "learning_rate": 5.507260361320738e-07,
+      "logits/chosen": -1.5711116790771484,
+      "logits/rejected": -1.5567753314971924,
+      "logps/chosen": -490.78106689453125,
+      "logps/rejected": -591.5490112304688,
+      "loss": 0.4728,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -2.039038896560669,
+      "rewards/margins": 0.9788064956665039,
+      "rewards/rejected": -3.017845630645752,
+      "step": 770
+    },
+    {
+      "epoch": 0.816540172729652,
+      "grad_norm": 6.007803688457658,
+      "learning_rate": 4.947931323697983e-07,
+      "logits/chosen": -1.5654757022857666,
+      "logits/rejected": -1.4224697351455688,
+      "logps/chosen": -507.5931091308594,
+      "logps/rejected": -524.8499145507812,
+      "loss": 0.4961,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -1.997415542602539,
+      "rewards/margins": 0.7785658240318298,
+      "rewards/rejected": -2.7759814262390137,
+      "step": 780
+    },
+    {
+      "epoch": 0.8270086364825961,
+      "grad_norm": 5.439843899605622,
+      "learning_rate": 4.4154201506053985e-07,
+      "logits/chosen": -1.4940153360366821,
+      "logits/rejected": -1.4301998615264893,
+      "logps/chosen": -463.53424072265625,
+      "logps/rejected": -545.1070556640625,
+      "loss": 0.5221,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -2.205313205718994,
+      "rewards/margins": 0.8524004817008972,
+      "rewards/rejected": -3.057713747024536,
+      "step": 790
+    },
+    {
+      "epoch": 0.8374771002355405,
+      "grad_norm": 6.835477486779152,
+      "learning_rate": 3.910439028537638e-07,
+      "logits/chosen": -1.4495314359664917,
+      "logits/rejected": -1.433584451675415,
+      "logps/chosen": -439.5552673339844,
+      "logps/rejected": -554.7761840820312,
+      "loss": 0.4898,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -2.071547031402588,
+      "rewards/margins": 1.1167417764663696,
+      "rewards/rejected": -3.188288927078247,
+      "step": 800
+    },
+    {
+      "epoch": 0.8374771002355405,
+      "eval_logits/chosen": -1.4946216344833374,
+      "eval_logits/rejected": -1.427457332611084,
+      "eval_logps/chosen": -470.2820739746094,
+      "eval_logps/rejected": -547.9973754882812,
+      "eval_loss": 0.4948446750640869,
+      "eval_rewards/accuracies": 0.7698412537574768,
+      "eval_rewards/chosen": -2.0400798320770264,
+      "eval_rewards/margins": 0.9715465903282166,
+      "eval_rewards/rejected": -3.0116262435913086,
+      "eval_runtime": 277.1008,
+      "eval_samples_per_second": 7.218,
+      "eval_steps_per_second": 0.227,
+      "step": 800
+    },
+    {
+      "epoch": 0.8479455639884846,
+      "grad_norm": 4.180571004247573,
+      "learning_rate": 3.4336633249862084e-07,
+      "logits/chosen": -1.5085508823394775,
+      "logits/rejected": -1.4109275341033936,
+      "logps/chosen": -499.6455993652344,
+      "logps/rejected": -552.9725341796875,
+      "loss": 0.5021,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -2.0836286544799805,
+      "rewards/margins": 0.9168750643730164,
+      "rewards/rejected": -3.0005037784576416,
+      "step": 810
+    },
+    {
+      "epoch": 0.8584140277414289,
+      "grad_norm": 5.175742678334051,
+      "learning_rate": 2.98573068519539e-07,
+      "logits/chosen": -1.548295021057129,
+      "logits/rejected": -1.5127002000808716,
+      "logps/chosen": -480.94427490234375,
+      "logps/rejected": -558.2870483398438,
+      "loss": 0.5078,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -2.1707310676574707,
+      "rewards/margins": 0.8862228393554688,
+      "rewards/rejected": -3.0569539070129395,
+      "step": 820
+    },
+    {
+      "epoch": 0.8688824914943732,
+      "grad_norm": 5.516648759407251,
+      "learning_rate": 2.5672401793681854e-07,
+      "logits/chosen": -1.4796596765518188,
+      "logits/rejected": -1.461284875869751,
+      "logps/chosen": -461.5376892089844,
+      "logps/rejected": -552.8976440429688,
+      "loss": 0.5097,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -2.1345925331115723,
+      "rewards/margins": 0.9002341032028198,
+      "rewards/rejected": -3.0348267555236816,
+      "step": 830
+    },
+    {
+      "epoch": 0.8793509552473174,
+      "grad_norm": 4.741723004470474,
+      "learning_rate": 2.178751501463036e-07,
+      "logits/chosen": -1.502801537513733,
+      "logits/rejected": -1.4475767612457275,
+      "logps/chosen": -501.8017578125,
+      "logps/rejected": -600.8604125976562,
+      "loss": 0.4766,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -2.2499661445617676,
+      "rewards/margins": 1.028209924697876,
+      "rewards/rejected": -3.2781760692596436,
+      "step": 840
+    },
+    {
+      "epoch": 0.8898194190002617,
+      "grad_norm": 5.522067224662803,
+      "learning_rate": 1.820784220652766e-07,
+      "logits/chosen": -1.454413652420044,
+      "logits/rejected": -1.3597214221954346,
+      "logps/chosen": -481.33905029296875,
+      "logps/rejected": -549.5355224609375,
+      "loss": 0.4602,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -2.1423401832580566,
+      "rewards/margins": 0.996941864490509,
+      "rewards/rejected": -3.139281988143921,
+      "step": 850
+    },
+    {
+      "epoch": 0.9002878827532059,
+      "grad_norm": 5.0423547871768575,
+      "learning_rate": 1.4938170864468636e-07,
+      "logits/chosen": -1.5176475048065186,
+      "logits/rejected": -1.414750337600708,
+      "logps/chosen": -488.75177001953125,
+      "logps/rejected": -550.3502197265625,
+      "loss": 0.4715,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -2.1736044883728027,
+      "rewards/margins": 0.8499178886413574,
+      "rewards/rejected": -3.0235226154327393,
+      "step": 860
+    },
+    {
+      "epoch": 0.9107563465061502,
+      "grad_norm": 4.698698474333166,
+      "learning_rate": 1.1982873884064466e-07,
+      "logits/chosen": -1.5513103008270264,
+      "logits/rejected": -1.4094650745391846,
+      "logps/chosen": -506.3067321777344,
+      "logps/rejected": -559.7911376953125,
+      "loss": 0.4896,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -2.2394676208496094,
+      "rewards/margins": 1.060282588005066,
+      "rewards/rejected": -3.2997500896453857,
+      "step": 870
+    },
+    {
+      "epoch": 0.9212248102590945,
+      "grad_norm": 4.851477312614225,
+      "learning_rate": 9.345903713082305e-08,
+      "logits/chosen": -1.5655453205108643,
+      "logits/rejected": -1.4765007495880127,
+      "logps/chosen": -480.64605712890625,
+      "logps/rejected": -537.4286499023438,
+      "loss": 0.4762,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -2.0842466354370117,
+      "rewards/margins": 0.9646340608596802,
+      "rewards/rejected": -3.0488810539245605,
+      "step": 880
+    },
+    {
+      "epoch": 0.9316932740120387,
+      "grad_norm": 5.226575451994075,
+      "learning_rate": 7.030787065396866e-08,
+      "logits/chosen": -1.4315617084503174,
+      "logits/rejected": -1.373170256614685,
+      "logps/chosen": -466.0337829589844,
+      "logps/rejected": -583.4358520507812,
+      "loss": 0.4857,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -2.1631832122802734,
+      "rewards/margins": 1.2467734813690186,
+      "rewards/rejected": -3.409956455230713,
+      "step": 890
+    },
+    {
+      "epoch": 0.942161737764983,
+      "grad_norm": 5.514107153250047,
+      "learning_rate": 5.0406202043228604e-08,
+      "logits/chosen": -1.3586971759796143,
+      "logits/rejected": -1.3444792032241821,
+      "logps/chosen": -478.5252380371094,
+      "logps/rejected": -628.2623291015625,
+      "loss": 0.4785,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -2.112252712249756,
+      "rewards/margins": 1.2148876190185547,
+      "rewards/rejected": -3.3271403312683105,
+      "step": 900
+    },
+    {
+      "epoch": 0.942161737764983,
+      "eval_logits/chosen": -1.4777917861938477,
+      "eval_logits/rejected": -1.4105483293533325,
+      "eval_logps/chosen": -483.4023742675781,
+      "eval_logps/rejected": -564.8470458984375,
+      "eval_loss": 0.493284672498703,
+      "eval_rewards/accuracies": 0.773809552192688,
+      "eval_rewards/chosen": -2.1712825298309326,
+      "eval_rewards/margins": 1.0088402032852173,
+      "eval_rewards/rejected": -3.1801228523254395,
+      "eval_runtime": 276.8996,
+      "eval_samples_per_second": 7.223,
+      "eval_steps_per_second": 0.228,
+      "step": 900
+    },
+    {
+      "epoch": 0.9526302015179272,
+      "grad_norm": 7.959876344290962,
+      "learning_rate": 3.378064801637687e-08,
+      "logits/chosen": -1.476231336593628,
+      "logits/rejected": -1.382854700088501,
+      "logps/chosen": -463.75653076171875,
+      "logps/rejected": -513.1383666992188,
+      "loss": 0.5014,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -2.1452784538269043,
+      "rewards/margins": 0.9462319612503052,
+      "rewards/rejected": -3.09151029586792,
+      "step": 910
+    },
+    {
+      "epoch": 0.9630986652708715,
+      "grad_norm": 10.786910308077847,
+      "learning_rate": 2.0453443778310766e-08,
+      "logits/chosen": -1.4654277563095093,
+      "logits/rejected": -1.371619462966919,
+      "logps/chosen": -502.68450927734375,
+      "logps/rejected": -547.508544921875,
+      "loss": 0.5041,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -2.2171082496643066,
+      "rewards/margins": 0.9030927419662476,
+      "rewards/rejected": -3.1202011108398438,
+      "step": 920
+    },
+    {
+      "epoch": 0.9735671290238157,
+      "grad_norm": 5.431830769761952,
+      "learning_rate": 1.0442413283435759e-08,
+      "logits/chosen": -1.4298330545425415,
+      "logits/rejected": -1.3073384761810303,
+      "logps/chosen": -518.3793334960938,
+      "logps/rejected": -556.9884033203125,
+      "loss": 0.4886,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -2.1807284355163574,
+      "rewards/margins": 0.9955088496208191,
+      "rewards/rejected": -3.176237106323242,
+      "step": 930
+    },
+    {
+      "epoch": 0.98403559277676,
+      "grad_norm": 5.391800635976396,
+      "learning_rate": 3.760945397705828e-09,
+      "logits/chosen": -1.457722544670105,
+      "logits/rejected": -1.4312618970870972,
+      "logps/chosen": -479.5771484375,
+      "logps/rejected": -562.9434814453125,
+      "loss": 0.4851,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -2.1574504375457764,
+      "rewards/margins": 0.8255201578140259,
+      "rewards/rejected": -2.982970714569092,
+      "step": 940
+    },
+    {
+      "epoch": 0.9945040565297043,
+      "grad_norm": 5.016778527628419,
+      "learning_rate": 4.1797599220405605e-10,
+      "logits/chosen": -1.4823999404907227,
+      "logits/rejected": -1.3737461566925049,
+      "logps/chosen": -480.68951416015625,
+      "logps/rejected": -539.4514770507812,
+      "loss": 0.4874,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -2.134705066680908,
+      "rewards/margins": 0.8970800638198853,
+      "rewards/rejected": -3.031785249710083,
+      "step": 950
+    },
+    {
+      "epoch": 0.9997382884061764,
+      "step": 955,
+      "total_flos": 0.0,
+      "train_loss": 0.5333428270529702,
+      "train_runtime": 30179.1373,
+      "train_samples_per_second": 2.026,
+      "train_steps_per_second": 0.032
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 955,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}