Model save

Browse files

Files changed (5) hide show

README.md +80 -0
all_results.json +9 -0
generation_config.json +6 -0
train_results.json +9 -0
trainer_state.json +800 -0

README.md ADDED Viewed

	@@ -0,0 +1,80 @@

+---
+license: apache-2.0
+base_model: alignment-handbook/zephyr-7b-sft-full
+tags:
+- trl
+- dpo
+- generated_from_trainer
+model-index:
+- name: zephyr-7b-dpo-full-ultrabin-low-margin-3-epochs
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# zephyr-7b-dpo-full-ultrabin-low-margin-3-epochs
+This model is a fine-tuned version of [alignment-handbook/zephyr-7b-sft-full](https://huggingface.co/alignment-handbook/zephyr-7b-sft-full) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.6813
+- Rewards/chosen: -1.9317
+- Rewards/rejected: -2.2848
+- Rewards/accuracies: 0.6797
+- Rewards/margins: 0.3531
+- Logps/rejected: -491.1398
+- Logps/chosen: -455.8003
+- Logits/rejected: -0.1808
+- Logits/chosen: -0.3104
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-07
+- train_batch_size: 8
+- eval_batch_size: 8
+- seed: 55
+- distributed_type: multi-GPU
+- num_devices: 8
+- gradient_accumulation_steps: 2
+- total_train_batch_size: 128
+- total_eval_batch_size: 64
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 3
+### Training results
+| Training Loss | Epoch  | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
+|:-------------:|:------:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.6871        | 0.3484 | 50   | 0.6798          | -0.0015        | -0.0300          | 0.5977             | 0.0285          | -265.6574      | -262.7750    | -2.5993         | -2.6328       |
+| 0.6724        | 0.6969 | 100  | 0.6721          | -0.0365        | -0.0949          | 0.5938             | 0.0584          | -272.1548      | -266.2806    | -2.4994         | -2.5340       |
+| 0.6047        | 1.0453 | 150  | 0.6797          | -0.1660        | -0.2332          | 0.5898             | 0.0673          | -285.9855      | -279.2270    | -2.5025         | -2.5443       |
+| 0.5265        | 1.3937 | 200  | 0.6762          | -0.5743        | -0.7331          | 0.6719             | 0.1588          | -335.9708      | -320.0576    | -2.2718         | -2.3328       |
+| 0.4984        | 1.7422 | 250  | 0.6732          | -1.2121        | -1.4445          | 0.6562             | 0.2325          | -407.1154      | -383.8381    | -1.4451         | -1.5433       |
+| 0.3569        | 2.0906 | 300  | 0.6527          | -1.3455        | -1.6681          | 0.6758             | 0.3226          | -429.4680      | -397.1805    | -0.8708         | -0.9999       |
+| 0.3329        | 2.4390 | 350  | 0.6840          | -1.9045        | -2.2570          | 0.6602             | 0.3525          | -488.3670      | -453.0816    | -0.1084         | -0.2447       |
+| 0.3368        | 2.7875 | 400  | 0.6813          | -1.9317        | -2.2848          | 0.6797             | 0.3531          | -491.1398      | -455.8003    | -0.1808         | -0.3104       |
+### Framework versions
+- Transformers 4.44.0.dev0
+- Pytorch 2.1.2
+- Datasets 2.20.0
+- Tokenizers 0.19.1

all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 2.989547038327526,
+    "total_flos": 0.0,
+    "train_loss": 0.5141507484418251,
+    "train_runtime": 11380.2127,
+    "train_samples": 18340,
+    "train_samples_per_second": 4.835,
+    "train_steps_per_second": 0.038
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "transformers_version": "4.44.0.dev0"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 2.989547038327526,
+    "total_flos": 0.0,
+    "train_loss": 0.5141507484418251,
+    "train_runtime": 11380.2127,
+    "train_samples": 18340,
+    "train_samples_per_second": 4.835,
+    "train_steps_per_second": 0.038
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,800 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.989547038327526,
+  "eval_steps": 50,
+  "global_step": 429,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.06968641114982578,
+      "grad_norm": 8.229574175695925,
+      "learning_rate": 1.1627906976744186e-07,
+      "logits/chosen": -2.7034733295440674,
+      "logits/rejected": -2.7302405834198,
+      "logps/chosen": -301.81427001953125,
+      "logps/rejected": -331.369140625,
+      "loss": 0.6932,
+      "rewards/accuracies": 0.4375,
+      "rewards/chosen": 0.0005243912455625832,
+      "rewards/margins": 0.0006931144162081182,
+      "rewards/rejected": -0.00016872311243787408,
+      "step": 10
+    },
+    {
+      "epoch": 0.13937282229965156,
+      "grad_norm": 7.845336267328567,
+      "learning_rate": 2.3255813953488372e-07,
+      "logits/chosen": -2.762924909591675,
+      "logits/rejected": -2.7517170906066895,
+      "logps/chosen": -320.4908752441406,
+      "logps/rejected": -314.0067138671875,
+      "loss": 0.6931,
+      "rewards/accuracies": 0.4625000059604645,
+      "rewards/chosen": 0.00030491696088574827,
+      "rewards/margins": -0.00010313927487004548,
+      "rewards/rejected": 0.00040805633761920035,
+      "step": 20
+    },
+    {
+      "epoch": 0.20905923344947736,
+      "grad_norm": 9.709940066560216,
+      "learning_rate": 3.4883720930232557e-07,
+      "logits/chosen": -2.702960252761841,
+      "logits/rejected": -2.6881918907165527,
+      "logps/chosen": -295.65521240234375,
+      "logps/rejected": -309.1160888671875,
+      "loss": 0.6926,
+      "rewards/accuracies": 0.5562499761581421,
+      "rewards/chosen": 0.005805189721286297,
+      "rewards/margins": -1.923509444168303e-05,
+      "rewards/rejected": 0.005824424792081118,
+      "step": 30
+    },
+    {
+      "epoch": 0.2787456445993031,
+      "grad_norm": 7.6570471523786505,
+      "learning_rate": 4.6511627906976743e-07,
+      "logits/chosen": -2.6843132972717285,
+      "logits/rejected": -2.6987385749816895,
+      "logps/chosen": -289.13720703125,
+      "logps/rejected": -296.2955322265625,
+      "loss": 0.6902,
+      "rewards/accuracies": 0.5562499761581421,
+      "rewards/chosen": 0.010863080620765686,
+      "rewards/margins": 0.004013759084045887,
+      "rewards/rejected": 0.006849322468042374,
+      "step": 40
+    },
+    {
+      "epoch": 0.34843205574912894,
+      "grad_norm": 7.937140028593177,
+      "learning_rate": 4.995943852340362e-07,
+      "logits/chosen": -2.6573901176452637,
+      "logits/rejected": -2.66682767868042,
+      "logps/chosen": -327.9737854003906,
+      "logps/rejected": -309.1617431640625,
+      "loss": 0.6871,
+      "rewards/accuracies": 0.5874999761581421,
+      "rewards/chosen": 0.006907278206199408,
+      "rewards/margins": 0.010998749174177647,
+      "rewards/rejected": -0.004091470967978239,
+      "step": 50
+    },
+    {
+      "epoch": 0.34843205574912894,
+      "eval_logits/chosen": -2.632770538330078,
+      "eval_logits/rejected": -2.5992560386657715,
+      "eval_logps/chosen": -262.7750244140625,
+      "eval_logps/rejected": -265.65740966796875,
+      "eval_loss": 0.6798189878463745,
+      "eval_rewards/accuracies": 0.59765625,
+      "eval_rewards/chosen": -0.001450682058930397,
+      "eval_rewards/margins": 0.02850232645869255,
+      "eval_rewards/rejected": -0.02995300479233265,
+      "eval_runtime": 103.8301,
+      "eval_samples_per_second": 19.262,
+      "eval_steps_per_second": 0.308,
+      "step": 50
+    },
+    {
+      "epoch": 0.4181184668989547,
+      "grad_norm": 9.169375441320238,
+      "learning_rate": 4.976108685115826e-07,
+      "logits/chosen": -2.6978957653045654,
+      "logits/rejected": -2.672510862350464,
+      "logps/chosen": -300.9576110839844,
+      "logps/rejected": -301.5975341796875,
+      "loss": 0.6817,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -0.012056882493197918,
+      "rewards/margins": 0.029647041112184525,
+      "rewards/rejected": -0.04170392453670502,
+      "step": 60
+    },
+    {
+      "epoch": 0.4878048780487805,
+      "grad_norm": 9.090563868123345,
+      "learning_rate": 4.939880644182383e-07,
+      "logits/chosen": -2.6447739601135254,
+      "logits/rejected": -2.6350605487823486,
+      "logps/chosen": -327.4669494628906,
+      "logps/rejected": -307.3121643066406,
+      "loss": 0.6832,
+      "rewards/accuracies": 0.6187499761581421,
+      "rewards/chosen": -0.017700044438242912,
+      "rewards/margins": 0.042197179049253464,
+      "rewards/rejected": -0.05989723280072212,
+      "step": 70
+    },
+    {
+      "epoch": 0.5574912891986062,
+      "grad_norm": 10.380422622809006,
+      "learning_rate": 4.887499574302625e-07,
+      "logits/chosen": -2.6520066261291504,
+      "logits/rejected": -2.61989164352417,
+      "logps/chosen": -279.8045349121094,
+      "logps/rejected": -279.3233337402344,
+      "loss": 0.6793,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": 0.08412985503673553,
+      "rewards/margins": 0.039986394345760345,
+      "rewards/rejected": 0.044143468141555786,
+      "step": 80
+    },
+    {
+      "epoch": 0.627177700348432,
+      "grad_norm": 13.408348648381818,
+      "learning_rate": 4.819312260037522e-07,
+      "logits/chosen": -2.5424866676330566,
+      "logits/rejected": -2.5196774005889893,
+      "logps/chosen": -313.853515625,
+      "logps/rejected": -311.6841125488281,
+      "loss": 0.6786,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": -0.08200756460428238,
+      "rewards/margins": 0.05388826131820679,
+      "rewards/rejected": -0.13589580357074738,
+      "step": 90
+    },
+    {
+      "epoch": 0.6968641114982579,
+      "grad_norm": 10.057954318267676,
+      "learning_rate": 4.7357701298877766e-07,
+      "logits/chosen": -2.5143790245056152,
+      "logits/rejected": -2.5063555240631104,
+      "logps/chosen": -316.9302978515625,
+      "logps/rejected": -336.63006591796875,
+      "loss": 0.6724,
+      "rewards/accuracies": 0.5062500238418579,
+      "rewards/chosen": -0.2273595631122589,
+      "rewards/margins": 0.014442856423556805,
+      "rewards/rejected": -0.2418024092912674,
+      "step": 100
+    },
+    {
+      "epoch": 0.6968641114982579,
+      "eval_logits/chosen": -2.5339930057525635,
+      "eval_logits/rejected": -2.4994165897369385,
+      "eval_logps/chosen": -266.2806091308594,
+      "eval_logps/rejected": -272.15484619140625,
+      "eval_loss": 0.6720507144927979,
+      "eval_rewards/accuracies": 0.59375,
+      "eval_rewards/chosen": -0.03650704026222229,
+      "eval_rewards/margins": 0.05842053145170212,
+      "eval_rewards/rejected": -0.094927579164505,
+      "eval_runtime": 104.7452,
+      "eval_samples_per_second": 19.094,
+      "eval_steps_per_second": 0.306,
+      "step": 100
+    },
+    {
+      "epoch": 0.7665505226480837,
+      "grad_norm": 9.469148029484852,
+      "learning_rate": 4.637426267648599e-07,
+      "logits/chosen": -2.615734338760376,
+      "logits/rejected": -2.6145644187927246,
+      "logps/chosen": -302.81866455078125,
+      "logps/rejected": -306.31378173828125,
+      "loss": 0.6774,
+      "rewards/accuracies": 0.5375000238418579,
+      "rewards/chosen": 0.011746838688850403,
+      "rewards/margins": 0.01884249597787857,
+      "rewards/rejected": -0.007095657289028168,
+      "step": 110
+    },
+    {
+      "epoch": 0.8362369337979094,
+      "grad_norm": 8.913491607759642,
+      "learning_rate": 4.5249317507639726e-07,
+      "logits/chosen": -2.541506290435791,
+      "logits/rejected": -2.5293049812316895,
+      "logps/chosen": -251.04202270507812,
+      "logps/rejected": -270.9402770996094,
+      "loss": 0.6769,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": -0.024001404643058777,
+      "rewards/margins": 0.0283985435962677,
+      "rewards/rejected": -0.052399951964616776,
+      "step": 120
+    },
+    {
+      "epoch": 0.9059233449477352,
+      "grad_norm": 10.141409304343389,
+      "learning_rate": 4.399031339922038e-07,
+      "logits/chosen": -2.622816801071167,
+      "logits/rejected": -2.620767116546631,
+      "logps/chosen": -305.6891174316406,
+      "logps/rejected": -307.5406188964844,
+      "loss": 0.673,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": -0.04585634917020798,
+      "rewards/margins": 0.06582097709178925,
+      "rewards/rejected": -0.11167732626199722,
+      "step": 130
+    },
+    {
+      "epoch": 0.975609756097561,
+      "grad_norm": 8.960281893519205,
+      "learning_rate": 4.2605585484282636e-07,
+      "logits/chosen": -2.6274361610412598,
+      "logits/rejected": -2.6125521659851074,
+      "logps/chosen": -332.13348388671875,
+      "logps/rejected": -312.84503173828125,
+      "loss": 0.6721,
+      "rewards/accuracies": 0.6187499761581421,
+      "rewards/chosen": -0.06096304580569267,
+      "rewards/margins": 0.05341456085443497,
+      "rewards/rejected": -0.11437759548425674,
+      "step": 140
+    },
+    {
+      "epoch": 1.0452961672473868,
+      "grad_norm": 9.355042641000702,
+      "learning_rate": 4.110430123999227e-07,
+      "logits/chosen": -2.6396541595458984,
+      "logits/rejected": -2.5929980278015137,
+      "logps/chosen": -314.0408630371094,
+      "logps/rejected": -329.1007080078125,
+      "loss": 0.6047,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -0.0018128050724044442,
+      "rewards/margins": 0.18482232093811035,
+      "rewards/rejected": -0.18663513660430908,
+      "step": 150
+    },
+    {
+      "epoch": 1.0452961672473868,
+      "eval_logits/chosen": -2.5443286895751953,
+      "eval_logits/rejected": -2.5025253295898438,
+      "eval_logps/chosen": -279.22698974609375,
+      "eval_logps/rejected": -285.9855041503906,
+      "eval_loss": 0.6797215938568115,
+      "eval_rewards/accuracies": 0.58984375,
+      "eval_rewards/chosen": -0.16597062349319458,
+      "eval_rewards/margins": 0.06726360321044922,
+      "eval_rewards/rejected": -0.233234241604805,
+      "eval_runtime": 105.0322,
+      "eval_samples_per_second": 19.042,
+      "eval_steps_per_second": 0.305,
+      "step": 150
+    },
+    {
+      "epoch": 1.1149825783972125,
+      "grad_norm": 9.102186975626122,
+      "learning_rate": 3.9496399795098266e-07,
+      "logits/chosen": -2.611131191253662,
+      "logits/rejected": -2.577604293823242,
+      "logps/chosen": -355.5671081542969,
+      "logps/rejected": -354.0496520996094,
+      "loss": 0.5626,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -0.13642819225788116,
+      "rewards/margins": 0.3638991117477417,
+      "rewards/rejected": -0.5003272294998169,
+      "step": 160
+    },
+    {
+      "epoch": 1.1846689895470384,
+      "grad_norm": 10.030074101152461,
+      "learning_rate": 3.779252612874913e-07,
+      "logits/chosen": -2.52521014213562,
+      "logits/rejected": -2.461188793182373,
+      "logps/chosen": -291.77777099609375,
+      "logps/rejected": -298.83343505859375,
+      "loss": 0.5548,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -0.029370594769716263,
+      "rewards/margins": 0.332529217004776,
+      "rewards/rejected": -0.36189982295036316,
+      "step": 170
+    },
+    {
+      "epoch": 1.254355400696864,
+      "grad_norm": 10.899159922293036,
+      "learning_rate": 3.60039605962848e-07,
+      "logits/chosen": -2.48093843460083,
+      "logits/rejected": -2.453683376312256,
+      "logps/chosen": -336.80316162109375,
+      "logps/rejected": -371.10650634765625,
+      "loss": 0.5374,
+      "rewards/accuracies": 0.831250011920929,
+      "rewards/chosen": -0.12406754493713379,
+      "rewards/margins": 0.418355792760849,
+      "rewards/rejected": -0.5424233675003052,
+      "step": 180
+    },
+    {
+      "epoch": 1.32404181184669,
+      "grad_norm": 10.743619932904148,
+      "learning_rate": 3.414254424857272e-07,
+      "logits/chosen": -2.402945041656494,
+      "logits/rejected": -2.4313735961914062,
+      "logps/chosen": -327.4953308105469,
+      "logps/rejected": -387.18035888671875,
+      "loss": 0.5441,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.2883428931236267,
+      "rewards/margins": 0.4703540802001953,
+      "rewards/rejected": -0.758696973323822,
+      "step": 190
+    },
+    {
+      "epoch": 1.3937282229965158,
+      "grad_norm": 13.29972806953709,
+      "learning_rate": 3.2220600439305403e-07,
+      "logits/chosen": -2.356320858001709,
+      "logits/rejected": -2.3801255226135254,
+      "logps/chosen": -323.59130859375,
+      "logps/rejected": -368.29425048828125,
+      "loss": 0.5265,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -0.3764956295490265,
+      "rewards/margins": 0.45888185501098633,
+      "rewards/rejected": -0.8353773951530457,
+      "step": 200
+    },
+    {
+      "epoch": 1.3937282229965158,
+      "eval_logits/chosen": -2.332766532897949,
+      "eval_logits/rejected": -2.2717788219451904,
+      "eval_logps/chosen": -320.0576477050781,
+      "eval_logps/rejected": -335.9707946777344,
+      "eval_loss": 0.6762288808822632,
+      "eval_rewards/accuracies": 0.671875,
+      "eval_rewards/chosen": -0.5742772817611694,
+      "eval_rewards/margins": 0.15881015360355377,
+      "eval_rewards/rejected": -0.733087420463562,
+      "eval_runtime": 103.8887,
+      "eval_samples_per_second": 19.251,
+      "eval_steps_per_second": 0.308,
+      "step": 200
+    },
+    {
+      "epoch": 1.4634146341463414,
+      "grad_norm": 15.19540789655145,
+      "learning_rate": 3.025085323925175e-07,
+      "logits/chosen": -2.238861083984375,
+      "logits/rejected": -2.186549663543701,
+      "logps/chosen": -322.6126403808594,
+      "logps/rejected": -375.65850830078125,
+      "loss": 0.5251,
+      "rewards/accuracies": 0.831250011920929,
+      "rewards/chosen": -0.4552794396877289,
+      "rewards/margins": 0.5174066424369812,
+      "rewards/rejected": -0.9726861119270325,
+      "step": 210
+    },
+    {
+      "epoch": 1.533101045296167,
+      "grad_norm": 14.440109215320728,
+      "learning_rate": 2.8246343197594046e-07,
+      "logits/chosen": -2.1742804050445557,
+      "logits/rejected": -2.0851190090179443,
+      "logps/chosen": -388.40509033203125,
+      "logps/rejected": -404.67388916015625,
+      "loss": 0.5096,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.5906688570976257,
+      "rewards/margins": 0.48450303077697754,
+      "rewards/rejected": -1.075171947479248,
+      "step": 220
+    },
+    {
+      "epoch": 1.6027874564459932,
+      "grad_norm": 16.964461935174956,
+      "learning_rate": 2.622034100804566e-07,
+      "logits/chosen": -1.8995920419692993,
+      "logits/rejected": -2.022343397140503,
+      "logps/chosen": -324.2644958496094,
+      "logps/rejected": -404.7146911621094,
+      "loss": 0.5032,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -0.6232214570045471,
+      "rewards/margins": 0.5319386720657349,
+      "rewards/rejected": -1.1551600694656372,
+      "step": 230
+    },
+    {
+      "epoch": 1.6724738675958188,
+      "grad_norm": 27.37981327191052,
+      "learning_rate": 2.418625965131574e-07,
+      "logits/chosen": -1.7780876159667969,
+      "logits/rejected": -1.6987870931625366,
+      "logps/chosen": -376.9257507324219,
+      "logps/rejected": -409.15887451171875,
+      "loss": 0.5097,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -0.7337759137153625,
+      "rewards/margins": 0.56010901927948,
+      "rewards/rejected": -1.2938848733901978,
+      "step": 240
+    },
+    {
+      "epoch": 1.7421602787456445,
+      "grad_norm": 18.86770347379352,
+      "learning_rate": 2.2157565595574668e-07,
+      "logits/chosen": -1.6350816488265991,
+      "logits/rejected": -1.648374319076538,
+      "logps/chosen": -389.5054931640625,
+      "logps/rejected": -428.66802978515625,
+      "loss": 0.4984,
+      "rewards/accuracies": 0.831250011920929,
+      "rewards/chosen": -0.949749767780304,
+      "rewards/margins": 0.5309340953826904,
+      "rewards/rejected": -1.4806839227676392,
+      "step": 250
+    },
+    {
+      "epoch": 1.7421602787456445,
+      "eval_logits/chosen": -1.543340802192688,
+      "eval_logits/rejected": -1.445103645324707,
+      "eval_logps/chosen": -383.83807373046875,
+      "eval_logps/rejected": -407.1153869628906,
+      "eval_loss": 0.6731657981872559,
+      "eval_rewards/accuracies": 0.65625,
+      "eval_rewards/chosen": -1.2120810747146606,
+      "eval_rewards/margins": 0.23245161771774292,
+      "eval_rewards/rejected": -1.4445327520370483,
+      "eval_runtime": 104.3313,
+      "eval_samples_per_second": 19.17,
+      "eval_steps_per_second": 0.307,
+      "step": 250
+    },
+    {
+      "epoch": 1.8118466898954704,
+      "grad_norm": 17.331986790708136,
+      "learning_rate": 2.0147689642810138e-07,
+      "logits/chosen": -1.6317332983016968,
+      "logits/rejected": -1.572344183921814,
+      "logps/chosen": -410.221923828125,
+      "logps/rejected": -480.1829528808594,
+      "loss": 0.4902,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -1.0687463283538818,
+      "rewards/margins": 0.6032934188842773,
+      "rewards/rejected": -1.6720397472381592,
+      "step": 260
+    },
+    {
+      "epoch": 1.8815331010452963,
+      "grad_norm": 17.843882545206057,
+      "learning_rate": 1.8169938011308233e-07,
+      "logits/chosen": -1.4750444889068604,
+      "logits/rejected": -1.417011022567749,
+      "logps/chosen": -395.61480712890625,
+      "logps/rejected": -437.10577392578125,
+      "loss": 0.492,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.9328581094741821,
+      "rewards/margins": 0.6057752370834351,
+      "rewards/rejected": -1.538633108139038,
+      "step": 270
+    },
+    {
+      "epoch": 1.951219512195122,
+      "grad_norm": 19.896351603470077,
+      "learning_rate": 1.6237404242930697e-07,
+      "logits/chosen": -1.417770266532898,
+      "logits/rejected": -1.3385121822357178,
+      "logps/chosen": -375.705078125,
+      "logps/rejected": -404.3011169433594,
+      "loss": 0.4867,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -0.9175931215286255,
+      "rewards/margins": 0.4988563060760498,
+      "rewards/rejected": -1.4164493083953857,
+      "step": 280
+    },
+    {
+      "epoch": 2.0209059233449476,
+      "grad_norm": 16.576113766725356,
+      "learning_rate": 1.4362882518398945e-07,
+      "logits/chosen": -1.3333556652069092,
+      "logits/rejected": -1.3687762022018433,
+      "logps/chosen": -405.6753234863281,
+      "logps/rejected": -468.34490966796875,
+      "loss": 0.4573,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.9316972494125366,
+      "rewards/margins": 0.6436307430267334,
+      "rewards/rejected": -1.5753281116485596,
+      "step": 290
+    },
+    {
+      "epoch": 2.0905923344947737,
+      "grad_norm": 18.642417597691527,
+      "learning_rate": 1.2558782954473823e-07,
+      "logits/chosen": -1.1027063131332397,
+      "logits/rejected": -1.0710804462432861,
+      "logps/chosen": -400.2093505859375,
+      "logps/rejected": -480.50518798828125,
+      "loss": 0.3569,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -0.9277191162109375,
+      "rewards/margins": 1.0768729448318481,
+      "rewards/rejected": -2.004591941833496,
+      "step": 300
+    },
+    {
+      "epoch": 2.0905923344947737,
+      "eval_logits/chosen": -0.9999401569366455,
+      "eval_logits/rejected": -0.870820164680481,
+      "eval_logps/chosen": -397.18048095703125,
+      "eval_logps/rejected": -429.4680480957031,
+      "eval_loss": 0.6527448892593384,
+      "eval_rewards/accuracies": 0.67578125,
+      "eval_rewards/chosen": -1.3455055952072144,
+      "eval_rewards/margins": 0.32255375385284424,
+      "eval_rewards/rejected": -1.6680593490600586,
+      "eval_runtime": 102.8366,
+      "eval_samples_per_second": 19.448,
+      "eval_steps_per_second": 0.311,
+      "step": 300
+    },
+    {
+      "epoch": 2.1602787456445993,
+      "grad_norm": 19.642342649385267,
+      "learning_rate": 1.0837049443799279e-07,
+      "logits/chosen": -0.9505928158760071,
+      "logits/rejected": -0.9347362518310547,
+      "logps/chosen": -373.06011962890625,
+      "logps/rejected": -473.77880859375,
+      "loss": 0.3689,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.9760599136352539,
+      "rewards/margins": 1.0135242938995361,
+      "rewards/rejected": -1.98958420753479,
+      "step": 310
+    },
+    {
+      "epoch": 2.229965156794425,
+      "grad_norm": 20.908278202953714,
+      "learning_rate": 9.209080581344306e-08,
+      "logits/chosen": -0.6433783173561096,
+      "logits/rejected": -0.6169986128807068,
+      "logps/chosen": -395.59600830078125,
+      "logps/rejected": -535.1781005859375,
+      "loss": 0.3438,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -1.1918704509735107,
+      "rewards/margins": 1.1342499256134033,
+      "rewards/rejected": -2.326120615005493,
+      "step": 320
+    },
+    {
+      "epoch": 2.2996515679442506,
+      "grad_norm": 22.95505810018377,
+      "learning_rate": 7.685654200943378e-08,
+      "logits/chosen": -0.7587612867355347,
+      "logits/rejected": -0.6282288432121277,
+      "logps/chosen": -465.53985595703125,
+      "logps/rejected": -561.067626953125,
+      "loss": 0.3429,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -1.326777696609497,
+      "rewards/margins": 1.2314026355743408,
+      "rewards/rejected": -2.558180332183838,
+      "step": 330
+    },
+    {
+      "epoch": 2.3693379790940767,
+      "grad_norm": 23.693323873855398,
+      "learning_rate": 6.27685602153478e-08,
+      "logits/chosen": -0.5435560941696167,
+      "logits/rejected": -0.4107975959777832,
+      "logps/chosen": -466.288818359375,
+      "logps/rejected": -571.3019409179688,
+      "loss": 0.3396,
+      "rewards/accuracies": 0.8687499761581421,
+      "rewards/chosen": -1.5259153842926025,
+      "rewards/margins": 1.2022850513458252,
+      "rewards/rejected": -2.7282001972198486,
+      "step": 340
+    },
+    {
+      "epoch": 2.4390243902439024,
+      "grad_norm": 24.606275846522493,
+      "learning_rate": 4.992012875488669e-08,
+      "logits/chosen": -0.3131232261657715,
+      "logits/rejected": -0.2396572083234787,
+      "logps/chosen": -431.25140380859375,
+      "logps/rejected": -555.533203125,
+      "loss": 0.3329,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": -1.5053646564483643,
+      "rewards/margins": 1.0768215656280518,
+      "rewards/rejected": -2.582186222076416,
+      "step": 350
+    },
+    {
+      "epoch": 2.4390243902439024,
+      "eval_logits/chosen": -0.24473249912261963,
+      "eval_logits/rejected": -0.10840671509504318,
+      "eval_logps/chosen": -453.08160400390625,
+      "eval_logps/rejected": -488.3669738769531,
+      "eval_loss": 0.6840001940727234,
+      "eval_rewards/accuracies": 0.66015625,
+      "eval_rewards/chosen": -1.904516339302063,
+      "eval_rewards/margins": 0.35253193974494934,
+      "eval_rewards/rejected": -2.2570483684539795,
+      "eval_runtime": 106.925,
+      "eval_samples_per_second": 18.705,
+      "eval_steps_per_second": 0.299,
+      "step": 350
+    },
+    {
+      "epoch": 2.508710801393728,
+      "grad_norm": 27.353529501179093,
+      "learning_rate": 3.8396309610812086e-08,
+      "logits/chosen": -0.23779411613941193,
+      "logits/rejected": -0.15696097910404205,
+      "logps/chosen": -438.49298095703125,
+      "logps/rejected": -567.0818481445312,
+      "loss": 0.3351,
+      "rewards/accuracies": 0.918749988079071,
+      "rewards/chosen": -1.482677698135376,
+      "rewards/margins": 1.268634557723999,
+      "rewards/rejected": -2.751312255859375,
+      "step": 360
+    },
+    {
+      "epoch": 2.578397212543554,
+      "grad_norm": 26.645676298973676,
+      "learning_rate": 2.8273395279091005e-08,
+      "logits/chosen": -0.31052619218826294,
+      "logits/rejected": -0.2516113221645355,
+      "logps/chosen": -440.5013122558594,
+      "logps/rejected": -570.08056640625,
+      "loss": 0.3373,
+      "rewards/accuracies": 0.9312499761581421,
+      "rewards/chosen": -1.4818499088287354,
+      "rewards/margins": 1.3230129480361938,
+      "rewards/rejected": -2.8048629760742188,
+      "step": 370
+    },
+    {
+      "epoch": 2.64808362369338,
+      "grad_norm": 23.8312792481954,
+      "learning_rate": 1.9618403680707053e-08,
+      "logits/chosen": -0.3248611092567444,
+      "logits/rejected": -0.3839193284511566,
+      "logps/chosen": -462.94873046875,
+      "logps/rejected": -592.1238403320312,
+      "loss": 0.34,
+      "rewards/accuracies": 0.9312499761581421,
+      "rewards/chosen": -1.5153675079345703,
+      "rewards/margins": 1.3629937171936035,
+      "rewards/rejected": -2.878361225128174,
+      "step": 380
+    },
+    {
+      "epoch": 2.7177700348432055,
+      "grad_norm": 25.615650685832552,
+      "learning_rate": 1.2488634475031761e-08,
+      "logits/chosen": -0.10789848864078522,
+      "logits/rejected": -0.0006875753169879317,
+      "logps/chosen": -432.10968017578125,
+      "logps/rejected": -547.6038208007812,
+      "loss": 0.3334,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -1.524472951889038,
+      "rewards/margins": 1.2026252746582031,
+      "rewards/rejected": -2.727097988128662,
+      "step": 390
+    },
+    {
+      "epoch": 2.7874564459930316,
+      "grad_norm": 29.507902477027233,
+      "learning_rate": 6.9312897121466815e-09,
+      "logits/chosen": -0.16302387416362762,
+      "logits/rejected": -0.1776006668806076,
+      "logps/chosen": -456.0896911621094,
+      "logps/rejected": -589.2247924804688,
+      "loss": 0.3368,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -1.5656400918960571,
+      "rewards/margins": 1.24466872215271,
+      "rewards/rejected": -2.8103089332580566,
+      "step": 400
+    },
+    {
+      "epoch": 2.7874564459930316,
+      "eval_logits/chosen": -0.3103621006011963,
+      "eval_logits/rejected": -0.1808159053325653,
+      "eval_logps/chosen": -455.8002624511719,
+      "eval_logps/rejected": -491.1397705078125,
+      "eval_loss": 0.681273877620697,
+      "eval_rewards/accuracies": 0.6796875,
+      "eval_rewards/chosen": -1.9317032098770142,
+      "eval_rewards/margins": 0.35307374596595764,
+      "eval_rewards/rejected": -2.2847771644592285,
+      "eval_runtime": 103.4584,
+      "eval_samples_per_second": 19.331,
+      "eval_steps_per_second": 0.309,
+      "step": 400
+    },
+    {
+      "epoch": 2.857142857142857,
+      "grad_norm": 23.881676504304508,
+      "learning_rate": 2.983161335556761e-09,
+      "logits/chosen": -0.464876651763916,
+      "logits/rejected": -0.40461286902427673,
+      "logps/chosen": -434.8916015625,
+      "logps/rejected": -576.1773681640625,
+      "loss": 0.3237,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -1.5066254138946533,
+      "rewards/margins": 1.3078076839447021,
+      "rewards/rejected": -2.8144326210021973,
+      "step": 410
+    },
+    {
+      "epoch": 2.926829268292683,
+      "grad_norm": 24.99330232547937,
+      "learning_rate": 6.703876041571077e-10,
+      "logits/chosen": -0.48426467180252075,
+      "logits/rejected": -0.1355866938829422,
+      "logps/chosen": -447.3482971191406,
+      "logps/rejected": -561.0531005859375,
+      "loss": 0.3235,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -1.4588124752044678,
+      "rewards/margins": 1.2296662330627441,
+      "rewards/rejected": -2.688478946685791,
+      "step": 420
+    },
+    {
+      "epoch": 2.989547038327526,
+      "step": 429,
+      "total_flos": 0.0,
+      "train_loss": 0.5141507484418251,
+      "train_runtime": 11380.2127,
+      "train_samples_per_second": 4.835,
+      "train_steps_per_second": 0.038
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 429,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}