End of training

Browse files

Files changed (8) hide show

README.md +15 -2
all_results.json +17 -3
eval_results.json +17 -0
train_results.json +3 -3
trainer_state.json +191 -191
training_loss.png +0 -0
training_rewards_accuracies.png +0 -0
training_sft_loss.png +0 -0

README.md CHANGED Viewed

@@ -2,9 +2,10 @@
 license: gemma
 library_name: peft
 tags:
 - trl
 - dpo
-- llama-factory
 - generated_from_trainer
 base_model: google/gemma-7b-it
 model-index:
@@ -17,7 +18,19 @@ should probably proofread and complete it, then remove this comment. -->
 # Gemma-7B-It-ORPO
-This model is a fine-tuned version of [google/gemma-7b-it](https://huggingface.co/google/gemma-7b-it) on an unknown dataset.
 ## Model description

 license: gemma
 library_name: peft
 tags:
+- llama-factory
+- lora
 - trl
 - dpo
 - generated_from_trainer
 base_model: google/gemma-7b-it
 model-index:
 # Gemma-7B-It-ORPO
+This model is a fine-tuned version of [google/gemma-7b-it](https://huggingface.co/google/gemma-7b-it) on the dpo_mix_en dataset.
+It achieves the following results on the evaluation set:
+- Loss: 1.7794
+- Rewards/chosen: -0.1716
+- Rewards/rejected: -0.1920
+- Rewards/accuracies: 0.5600
+- Rewards/margins: 0.0204
+- Logps/rejected: -1.9200
+- Logps/chosen: -1.7164
+- Logits/rejected: 236.5044
+- Logits/chosen: 236.6770
+- Sft Loss: 1.7164
+- Odds Ratio Loss: 0.6304
 ## Model description

all_results.json CHANGED Viewed

@@ -1,8 +1,22 @@
 {
     "epoch": 2.986666666666667,
     "total_flos": 2.2023536924295168e+17,
-    "train_loss": 1.8065733909606934,
-    "train_runtime": 5653.336,
-    "train_samples_per_second": 0.478,
     "train_steps_per_second": 0.03
 }

 {
     "epoch": 2.986666666666667,
+    "eval_logits/chosen": 236.67703247070312,
+    "eval_logits/rejected": 236.50440979003906,
+    "eval_logps/chosen": -1.7163937091827393,
+    "eval_logps/rejected": -1.9199703931808472,
+    "eval_loss": 1.7794384956359863,
+    "eval_odds_ratio_loss": 0.6304484009742737,
+    "eval_rewards/accuracies": 0.5600000023841858,
+    "eval_rewards/chosen": -0.1716393679380417,
+    "eval_rewards/margins": 0.020357677713036537,
+    "eval_rewards/rejected": -0.19199703633785248,
+    "eval_runtime": 59.9808,
+    "eval_samples_per_second": 1.667,
+    "eval_sft_loss": 1.7163937091827393,
+    "eval_steps_per_second": 1.667,
     "total_flos": 2.2023536924295168e+17,
+    "train_loss": 1.8747729460398357,
+    "train_runtime": 5642.3245,
+    "train_samples_per_second": 0.479,
     "train_steps_per_second": 0.03
 }

eval_results.json ADDED Viewed

	@@ -0,0 +1,17 @@

+{
+    "epoch": 2.986666666666667,
+    "eval_logits/chosen": 236.67703247070312,
+    "eval_logits/rejected": 236.50440979003906,
+    "eval_logps/chosen": -1.7163937091827393,
+    "eval_logps/rejected": -1.9199703931808472,
+    "eval_loss": 1.7794384956359863,
+    "eval_odds_ratio_loss": 0.6304484009742737,
+    "eval_rewards/accuracies": 0.5600000023841858,
+    "eval_rewards/chosen": -0.1716393679380417,
+    "eval_rewards/margins": 0.020357677713036537,
+    "eval_rewards/rejected": -0.19199703633785248,
+    "eval_runtime": 59.9808,
+    "eval_samples_per_second": 1.667,
+    "eval_sft_loss": 1.7163937091827393,
+    "eval_steps_per_second": 1.667
+}

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 2.986666666666667,
     "total_flos": 2.2023536924295168e+17,
-    "train_loss": 1.8065733909606934,
-    "train_runtime": 5653.336,
-    "train_samples_per_second": 0.478,
     "train_steps_per_second": 0.03
 }

 {
     "epoch": 2.986666666666667,
     "total_flos": 2.2023536924295168e+17,
+    "train_loss": 1.8747729460398357,
+    "train_runtime": 5642.3245,
+    "train_samples_per_second": 0.479,
     "train_steps_per_second": 0.03
 }

trainer_state.json CHANGED Viewed

@@ -10,283 +10,283 @@
   "log_history": [
     {
       "epoch": 0.17777777777777778,
-      "grad_norm": 1.9894839525222778,
       "learning_rate": 4.957230266673969e-06,
-      "logits/chosen": 218.2901153564453,
-      "logits/rejected": 217.98861694335938,
-      "logps/chosen": -2.0115113258361816,
-      "logps/rejected": -2.2237343788146973,
-      "loss": 2.0742,
-      "odds_ratio_loss": 0.6265951991081238,
-      "rewards/accuracies": 0.53125,
-      "rewards/chosen": -0.20115113258361816,
-      "rewards/margins": 0.021222341805696487,
-      "rewards/rejected": -0.22237345576286316,
-      "sft_loss": 2.0115113258361816,
       "step": 10
     },
     {
       "epoch": 0.35555555555555557,
-      "grad_norm": 1.8634482622146606,
       "learning_rate": 4.828686741593921e-06,
-      "logits/chosen": 220.6365509033203,
-      "logits/rejected": 220.3389129638672,
-      "logps/chosen": -2.0625388622283936,
-      "logps/rejected": -2.3297858238220215,
-      "loss": 2.1265,
-      "odds_ratio_loss": 0.6394721865653992,
       "rewards/accuracies": 0.543749988079071,
-      "rewards/chosen": -0.20625391602516174,
-      "rewards/margins": 0.026724692434072495,
-      "rewards/rejected": -0.23297858238220215,
-      "sft_loss": 2.0625388622283936,
       "step": 20
     },
     {
       "epoch": 0.5333333333333333,
-      "grad_norm": 1.5888192653656006,
       "learning_rate": 4.618852307232078e-06,
-      "logits/chosen": 223.16909790039062,
-      "logits/rejected": 223.3883819580078,
-      "logps/chosen": -1.8862736225128174,
-      "logps/rejected": -2.1588046550750732,
-      "loss": 1.9475,
-      "odds_ratio_loss": 0.612014651298523,
-      "rewards/accuracies": 0.5375000238418579,
-      "rewards/chosen": -0.18862736225128174,
-      "rewards/margins": 0.027253109961748123,
-      "rewards/rejected": -0.21588046848773956,
-      "sft_loss": 1.8862736225128174,
       "step": 30
     },
     {
       "epoch": 0.7111111111111111,
-      "grad_norm": 2.911007881164551,
       "learning_rate": 4.335051964269395e-06,
-      "logits/chosen": 219.7681884765625,
-      "logits/rejected": 220.56063842773438,
-      "logps/chosen": -1.7726600170135498,
-      "logps/rejected": -2.0512185096740723,
-      "loss": 1.8335,
-      "odds_ratio_loss": 0.6088349223136902,
-      "rewards/accuracies": 0.550000011920929,
-      "rewards/chosen": -0.17726600170135498,
-      "rewards/margins": 0.02785584330558777,
-      "rewards/rejected": -0.20512184500694275,
-      "sft_loss": 1.7726600170135498,
       "step": 40
     },
     {
       "epoch": 0.8888888888888888,
-      "grad_norm": 3.1844053268432617,
       "learning_rate": 3.987192750660719e-06,
-      "logits/chosen": 227.5769500732422,
-      "logits/rejected": 227.42721557617188,
-      "logps/chosen": -1.982785940170288,
-      "logps/rejected": -2.3187923431396484,
-      "loss": 2.0471,
-      "odds_ratio_loss": 0.6428849697113037,
       "rewards/accuracies": 0.5375000238418579,
-      "rewards/chosen": -0.19827860593795776,
-      "rewards/margins": 0.033600639551877975,
-      "rewards/rejected": -0.23187923431396484,
-      "sft_loss": 1.982785940170288,
       "step": 50
     },
     {
       "epoch": 1.0666666666666667,
-      "grad_norm": 3.250999689102173,
       "learning_rate": 3.587417902020876e-06,
-      "logits/chosen": 229.1508331298828,
-      "logits/rejected": 230.65234375,
-      "logps/chosen": -1.8027265071868896,
-      "logps/rejected": -2.109091281890869,
-      "loss": 1.862,
-      "odds_ratio_loss": 0.5927264094352722,
-      "rewards/accuracies": 0.5562499761581421,
-      "rewards/chosen": -0.1802726536989212,
-      "rewards/margins": 0.030636483803391457,
-      "rewards/rejected": -0.2109091579914093,
-      "sft_loss": 1.8027265071868896,
       "step": 60
     },
     {
       "epoch": 1.2444444444444445,
-      "grad_norm": 2.524855375289917,
       "learning_rate": 3.1496829497545268e-06,
-      "logits/chosen": 229.8919219970703,
-      "logits/rejected": 229.6911163330078,
-      "logps/chosen": -1.722979187965393,
-      "logps/rejected": -1.955990195274353,
-      "loss": 1.7853,
-      "odds_ratio_loss": 0.6227248311042786,
-      "rewards/accuracies": 0.581250011920929,
-      "rewards/chosen": -0.17229792475700378,
-      "rewards/margins": 0.02330111339688301,
-      "rewards/rejected": -0.1955990493297577,
-      "sft_loss": 1.722979187965393,
       "step": 70
     },
     {
       "epoch": 1.4222222222222223,
-      "grad_norm": 1.4623929262161255,
       "learning_rate": 2.6892685546987724e-06,
-      "logits/chosen": 234.3847198486328,
-      "logits/rejected": 233.77871704101562,
-      "logps/chosen": -1.7393592596054077,
-      "logps/rejected": -1.9893379211425781,
-      "loss": 1.8004,
-      "odds_ratio_loss": 0.6108058094978333,
-      "rewards/accuracies": 0.581250011920929,
-      "rewards/chosen": -0.1739359200000763,
-      "rewards/margins": 0.02499789372086525,
-      "rewards/rejected": -0.19893380999565125,
-      "sft_loss": 1.7393592596054077,
       "step": 80
     },
     {
       "epoch": 1.6,
-      "grad_norm": 1.540860891342163,
       "learning_rate": 2.2222470825144806e-06,
-      "logits/chosen": 231.958251953125,
-      "logits/rejected": 232.3849334716797,
-      "logps/chosen": -1.5855820178985596,
-      "logps/rejected": -1.9024156332015991,
-      "loss": 1.647,
-      "odds_ratio_loss": 0.6140419244766235,
       "rewards/accuracies": 0.543749988079071,
-      "rewards/chosen": -0.158558189868927,
-      "rewards/margins": 0.03168336674571037,
-      "rewards/rejected": -0.19024157524108887,
-      "sft_loss": 1.5855820178985596,
       "step": 90
     },
     {
       "epoch": 1.7777777777777777,
-      "grad_norm": 1.0507925748825073,
       "learning_rate": 1.7649215418673847e-06,
-      "logits/chosen": 235.5908203125,
-      "logits/rejected": 235.9726104736328,
-      "logps/chosen": -1.67770254611969,
-      "logps/rejected": -1.9119056463241577,
-      "loss": 1.7403,
-      "odds_ratio_loss": 0.6257372498512268,
-      "rewards/accuracies": 0.59375,
-      "rewards/chosen": -0.16777023673057556,
-      "rewards/margins": 0.0234203077852726,
-      "rewards/rejected": -0.19119055569171906,
-      "sft_loss": 1.67770254611969,
       "step": 100
     },
     {
       "epoch": 1.9555555555555557,
-      "grad_norm": 1.1329325437545776,
       "learning_rate": 1.3332564712129845e-06,
-      "logits/chosen": 236.5535125732422,
-      "logits/rejected": 236.4635772705078,
-      "logps/chosen": -1.661228895187378,
-      "logps/rejected": -1.8796217441558838,
-      "loss": 1.7239,
-      "odds_ratio_loss": 0.6264489889144897,
-      "rewards/accuracies": 0.5062500238418579,
-      "rewards/chosen": -0.16612288355827332,
-      "rewards/margins": 0.021839287132024765,
-      "rewards/rejected": -0.18796217441558838,
-      "sft_loss": 1.661228895187378,
       "step": 110
     },
     {
       "epoch": 2.1333333333333333,
-      "grad_norm": 3.1466641426086426,
       "learning_rate": 9.423206410612498e-07,
-      "logits/chosen": 234.2484130859375,
-      "logits/rejected": 235.138427734375,
-      "logps/chosen": -1.6647857427597046,
-      "logps/rejected": -1.900854468345642,
-      "loss": 1.7291,
-      "odds_ratio_loss": 0.6434910893440247,
       "rewards/accuracies": 0.53125,
-      "rewards/chosen": -0.16647860407829285,
-      "rewards/margins": 0.02360684797167778,
-      "rewards/rejected": -0.19008544087409973,
-      "sft_loss": 1.6647857427597046,
       "step": 120
     },
     {
       "epoch": 2.311111111111111,
-      "grad_norm": 0.8913648128509521,
       "learning_rate": 6.057610261367044e-07,
-      "logits/chosen": 234.11795043945312,
-      "logits/rejected": 233.8062744140625,
-      "logps/chosen": -1.560727834701538,
-      "logps/rejected": -1.7592264413833618,
-      "loss": 1.6236,
-      "odds_ratio_loss": 0.6284235119819641,
-      "rewards/accuracies": 0.5687500238418579,
-      "rewards/chosen": -0.15607279539108276,
-      "rewards/margins": 0.019849851727485657,
-      "rewards/rejected": -0.17592264711856842,
-      "sft_loss": 1.560727834701538,
       "step": 130
     },
     {
       "epoch": 2.488888888888889,
-      "grad_norm": 1.3135228157043457,
       "learning_rate": 3.3532641026504415e-07,
-      "logits/chosen": 238.02099609375,
-      "logits/rejected": 237.72402954101562,
-      "logps/chosen": -1.5137670040130615,
-      "logps/rejected": -1.881291389465332,
-      "loss": 1.5735,
-      "odds_ratio_loss": 0.5971778035163879,
-      "rewards/accuracies": 0.5874999761581421,
-      "rewards/chosen": -0.15137669444084167,
-      "rewards/margins": 0.036752425134181976,
-      "rewards/rejected": -0.18812914192676544,
-      "sft_loss": 1.5137670040130615,
       "step": 140
     },
     {
       "epoch": 2.6666666666666665,
-      "grad_norm": 2.724855661392212,
       "learning_rate": 1.4045725421448332e-07,
-      "logits/chosen": 238.43264770507812,
-      "logits/rejected": 238.6967010498047,
-      "logps/chosen": -1.7582404613494873,
-      "logps/rejected": -2.0160341262817383,
-      "loss": 1.8172,
-      "odds_ratio_loss": 0.5895546674728394,
-      "rewards/accuracies": 0.5874999761581421,
-      "rewards/chosen": -0.17582406103610992,
-      "rewards/margins": 0.025779366493225098,
-      "rewards/rejected": -0.20160344243049622,
-      "sft_loss": 1.7582404613494873,
       "step": 150
     },
     {
       "epoch": 2.8444444444444446,
-      "grad_norm": 1.488288402557373,
       "learning_rate": 2.7956143581177874e-08,
-      "logits/chosen": 237.65185546875,
-      "logits/rejected": 237.43270874023438,
-      "logps/chosen": -1.4948513507843018,
-      "logps/rejected": -1.7622127532958984,
-      "loss": 1.5534,
-      "odds_ratio_loss": 0.5855392217636108,
-      "rewards/accuracies": 0.612500011920929,
-      "rewards/chosen": -0.14948514103889465,
-      "rewards/margins": 0.026736149564385414,
-      "rewards/rejected": -0.17622129619121552,
-      "sft_loss": 1.4948513507843018,
       "step": 160
     },
     {
       "epoch": 2.986666666666667,
       "step": 168,
       "total_flos": 2.2023536924295168e+17,
-      "train_loss": 1.8065733909606934,
-      "train_runtime": 5653.336,
-      "train_samples_per_second": 0.478,
       "train_steps_per_second": 0.03
     }
   ],

   "log_history": [
     {
       "epoch": 0.17777777777777778,
+      "grad_norm": 1.983818769454956,
       "learning_rate": 4.957230266673969e-06,
+      "logits/chosen": 217.77822875976562,
+      "logits/rejected": 217.4987335205078,
+      "logps/chosen": -2.053837299346924,
+      "logps/rejected": -2.262728691101074,
+      "loss": 2.1168,
+      "odds_ratio_loss": 0.6295818090438843,
+      "rewards/accuracies": 0.5249999761581421,
+      "rewards/chosen": -0.20538373291492462,
+      "rewards/margins": 0.020889144390821457,
+      "rewards/rejected": -0.22627286612987518,
+      "sft_loss": 2.053837299346924,
       "step": 10
     },
     {
       "epoch": 0.35555555555555557,
+      "grad_norm": 1.9484807252883911,
       "learning_rate": 4.828686741593921e-06,
+      "logits/chosen": 219.17361450195312,
+      "logits/rejected": 218.8988037109375,
+      "logps/chosen": -2.1305088996887207,
+      "logps/rejected": -2.402930736541748,
+      "loss": 2.1946,
+      "odds_ratio_loss": 0.6408200263977051,
       "rewards/accuracies": 0.543749988079071,
+      "rewards/chosen": -0.21305091679096222,
+      "rewards/margins": 0.027242189273238182,
+      "rewards/rejected": -0.24029311537742615,
+      "sft_loss": 2.1305088996887207,
       "step": 20
     },
     {
       "epoch": 0.5333333333333333,
+      "grad_norm": 1.7125110626220703,
       "learning_rate": 4.618852307232078e-06,
+      "logits/chosen": 221.2677459716797,
+      "logits/rejected": 221.5433807373047,
+      "logps/chosen": -1.9636151790618896,
+      "logps/rejected": -2.2476425170898438,
+      "loss": 2.0246,
+      "odds_ratio_loss": 0.6097511053085327,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": -0.19636152684688568,
+      "rewards/margins": 0.028402745723724365,
+      "rewards/rejected": -0.22476427257061005,
+      "sft_loss": 1.9636151790618896,
       "step": 30
     },
     {
       "epoch": 0.7111111111111111,
+      "grad_norm": 3.0041399002075195,
       "learning_rate": 4.335051964269395e-06,
+      "logits/chosen": 217.79830932617188,
+      "logits/rejected": 218.62911987304688,
+      "logps/chosen": -1.8520755767822266,
+      "logps/rejected": -2.1365625858306885,
+      "loss": 1.913,
+      "odds_ratio_loss": 0.6088087558746338,
+      "rewards/accuracies": 0.5874999761581421,
+      "rewards/chosen": -0.1852075308561325,
+      "rewards/margins": 0.028448715806007385,
+      "rewards/rejected": -0.2136562615633011,
+      "sft_loss": 1.8520755767822266,
       "step": 40
     },
     {
       "epoch": 0.8888888888888888,
+      "grad_norm": 3.342698335647583,
       "learning_rate": 3.987192750660719e-06,
+      "logits/chosen": 225.99374389648438,
+      "logits/rejected": 225.8725128173828,
+      "logps/chosen": -2.055860996246338,
+      "logps/rejected": -2.403578996658325,
+      "loss": 2.12,
+      "odds_ratio_loss": 0.6415398716926575,
       "rewards/accuracies": 0.5375000238418579,
+      "rewards/chosen": -0.20558610558509827,
+      "rewards/margins": 0.03477178141474724,
+      "rewards/rejected": -0.240357905626297,
+      "sft_loss": 2.055860996246338,
       "step": 50
     },
     {
       "epoch": 1.0666666666666667,
+      "grad_norm": 3.5346407890319824,
       "learning_rate": 3.587417902020876e-06,
+      "logits/chosen": 227.7618408203125,
+      "logits/rejected": 229.3314971923828,
+      "logps/chosen": -1.8825321197509766,
+      "logps/rejected": -2.1969597339630127,
+      "loss": 1.9418,
+      "odds_ratio_loss": 0.5927931070327759,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -0.1882532387971878,
+      "rewards/margins": 0.03144273906946182,
+      "rewards/rejected": -0.21969597041606903,
+      "sft_loss": 1.8825321197509766,
       "step": 60
     },
     {
       "epoch": 1.2444444444444445,
+      "grad_norm": 2.7227234840393066,
       "learning_rate": 3.1496829497545268e-06,
+      "logits/chosen": 228.9124298095703,
+      "logits/rejected": 228.7540740966797,
+      "logps/chosen": -1.7887885570526123,
+      "logps/rejected": -2.0250189304351807,
+      "loss": 1.8513,
+      "odds_ratio_loss": 0.6251059770584106,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -0.17887887358665466,
+      "rewards/margins": 0.023623019456863403,
+      "rewards/rejected": -0.20250189304351807,
+      "sft_loss": 1.7887885570526123,
       "step": 70
     },
     {
       "epoch": 1.4222222222222223,
+      "grad_norm": 1.4925893545150757,
       "learning_rate": 2.6892685546987724e-06,
+      "logits/chosen": 233.6576385498047,
+      "logits/rejected": 233.0616455078125,
+      "logps/chosen": -1.8144474029541016,
+      "logps/rejected": -2.061004638671875,
+      "loss": 1.8758,
+      "odds_ratio_loss": 0.6132601499557495,
+      "rewards/accuracies": 0.574999988079071,
+      "rewards/chosen": -0.18144474923610687,
+      "rewards/margins": 0.024655740708112717,
+      "rewards/rejected": -0.2061004638671875,
+      "sft_loss": 1.8144474029541016,
       "step": 80
     },
     {
       "epoch": 1.6,
+      "grad_norm": 1.5339916944503784,
       "learning_rate": 2.2222470825144806e-06,
+      "logits/chosen": 231.31655883789062,
+      "logits/rejected": 231.7608184814453,
+      "logps/chosen": -1.6470849514007568,
+      "logps/rejected": -1.9702856540679932,
+      "loss": 1.7086,
+      "odds_ratio_loss": 0.6146546602249146,
       "rewards/accuracies": 0.543749988079071,
+      "rewards/chosen": -0.16470849514007568,
+      "rewards/margins": 0.0323200486600399,
+      "rewards/rejected": -0.19702854752540588,
+      "sft_loss": 1.6470849514007568,
       "step": 90
     },
     {
       "epoch": 1.7777777777777777,
+      "grad_norm": 1.0663031339645386,
       "learning_rate": 1.7649215418673847e-06,
+      "logits/chosen": 235.10598754882812,
+      "logits/rejected": 235.50381469726562,
+      "logps/chosen": -1.750628113746643,
+      "logps/rejected": -1.9882148504257202,
+      "loss": 1.8133,
+      "odds_ratio_loss": 0.626555323600769,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -0.17506280541419983,
+      "rewards/margins": 0.023758674040436745,
+      "rewards/rejected": -0.19882148504257202,
+      "sft_loss": 1.750628113746643,
       "step": 100
     },
     {
       "epoch": 1.9555555555555557,
+      "grad_norm": 1.1423336267471313,
       "learning_rate": 1.3332564712129845e-06,
+      "logits/chosen": 236.2017059326172,
+      "logits/rejected": 236.12319946289062,
+      "logps/chosen": -1.7247778177261353,
+      "logps/rejected": -1.9412933588027954,
+      "loss": 1.7876,
+      "odds_ratio_loss": 0.6279042363166809,
+      "rewards/accuracies": 0.518750011920929,
+      "rewards/chosen": -0.17247776687145233,
+      "rewards/margins": 0.02165156602859497,
+      "rewards/rejected": -0.1941293478012085,
+      "sft_loss": 1.7247778177261353,
       "step": 110
     },
     {
       "epoch": 2.1333333333333333,
+      "grad_norm": 2.996070623397827,
       "learning_rate": 9.423206410612498e-07,
+      "logits/chosen": 233.90518188476562,
+      "logits/rejected": 234.82778930664062,
+      "logps/chosen": -1.7220882177352905,
+      "logps/rejected": -1.962699294090271,
+      "loss": 1.7863,
+      "odds_ratio_loss": 0.6424781084060669,
       "rewards/accuracies": 0.53125,
+      "rewards/chosen": -0.17220883071422577,
+      "rewards/margins": 0.024061108008027077,
+      "rewards/rejected": -0.1962699443101883,
+      "sft_loss": 1.7220882177352905,
       "step": 120
     },
     {
       "epoch": 2.311111111111111,
+      "grad_norm": 0.8977892994880676,
       "learning_rate": 6.057610261367044e-07,
+      "logits/chosen": 233.8168487548828,
+      "logits/rejected": 233.524658203125,
+      "logps/chosen": -1.6289135217666626,
+      "logps/rejected": -1.8276309967041016,
+      "loss": 1.692,
+      "odds_ratio_loss": 0.630408525466919,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -0.16289135813713074,
+      "rewards/margins": 0.019871745258569717,
+      "rewards/rejected": -0.18276306986808777,
+      "sft_loss": 1.6289135217666626,
       "step": 130
     },
     {
       "epoch": 2.488888888888889,
+      "grad_norm": 1.3126909732818604,
       "learning_rate": 3.3532641026504415e-07,
+      "logits/chosen": 237.79580688476562,
+      "logits/rejected": 237.5025634765625,
+      "logps/chosen": -1.577689528465271,
+      "logps/rejected": -1.9474560022354126,
+      "loss": 1.6376,
+      "odds_ratio_loss": 0.598879337310791,
+      "rewards/accuracies": 0.606249988079071,
+      "rewards/chosen": -0.15776896476745605,
+      "rewards/margins": 0.0369766540825367,
+      "rewards/rejected": -0.19474558532238007,
+      "sft_loss": 1.577689528465271,
       "step": 140
     },
     {
       "epoch": 2.6666666666666665,
+      "grad_norm": 2.6702768802642822,
       "learning_rate": 1.4045725421448332e-07,
+      "logits/chosen": 238.22622680664062,
+      "logits/rejected": 238.50765991210938,
+      "logps/chosen": -1.829874038696289,
+      "logps/rejected": -2.089751958847046,
+      "loss": 1.8891,
+      "odds_ratio_loss": 0.5918877720832825,
+      "rewards/accuracies": 0.574999988079071,
+      "rewards/chosen": -0.18298740684986115,
+      "rewards/margins": 0.02598779834806919,
+      "rewards/rejected": -0.2089751958847046,
+      "sft_loss": 1.829874038696289,
       "step": 150
     },
     {
       "epoch": 2.8444444444444446,
+      "grad_norm": 1.5213804244995117,
       "learning_rate": 2.7956143581177874e-08,
+      "logits/chosen": 237.4580078125,
+      "logits/rejected": 237.25192260742188,
+      "logps/chosen": -1.562623143196106,
+      "logps/rejected": -1.8317865133285522,
+      "loss": 1.6214,
+      "odds_ratio_loss": 0.587682843208313,
+      "rewards/accuracies": 0.6000000238418579,
+      "rewards/chosen": -0.15626230835914612,
+      "rewards/margins": 0.026916349306702614,
+      "rewards/rejected": -0.18317866325378418,
+      "sft_loss": 1.562623143196106,
       "step": 160
     },
     {
       "epoch": 2.986666666666667,
       "step": 168,
       "total_flos": 2.2023536924295168e+17,
+      "train_loss": 1.8747729460398357,
+      "train_runtime": 5642.3245,
+      "train_samples_per_second": 0.479,
       "train_steps_per_second": 0.03
     }
   ],

training_loss.png CHANGED Viewed

training_rewards_accuracies.png CHANGED Viewed

training_sft_loss.png CHANGED Viewed