End of training

Browse files

Files changed (4) hide show

adapter_model.safetensors +1 -1
all_results.json +4 -4
train_results.json +4 -4
trainer_state.json +108 -108

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b61d6952e01170769b84f2418be10a010972ae236df23403437095af927c83e8
 size 73911112

 version https://git-lfs.github.com/spec/v1
+oid sha256:39558073e19a8b98d668af0b870503603a69e9612d1d8ebc08c766beea938180
 size 73911112

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 5.2953390422771914e-06,
-    "train_runtime": 673.4708,
     "train_samples": 14,
-    "train_samples_per_second": 0.475,
-    "train_steps_per_second": 0.03
 }

 {
     "total_flos": 0.0,
+    "train_loss": 5.35928761564719e-06,
+    "train_runtime": 723.4383,
     "train_samples": 14,
+    "train_samples_per_second": 0.442,
+    "train_steps_per_second": 0.028
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 5.2953390422771914e-06,
-    "train_runtime": 673.4708,
     "train_samples": 14,
-    "train_samples_per_second": 0.475,
-    "train_steps_per_second": 0.03
 }

 {
     "total_flos": 0.0,
+    "train_loss": 5.35928761564719e-06,
+    "train_runtime": 723.4383,
     "train_samples": 14,
+    "train_samples_per_second": 0.442,
+    "train_steps_per_second": 0.028
 }

trainer_state.json CHANGED Viewed

@@ -10,203 +10,203 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "completion_length": 294.28125,
       "epoch": 0.5714285714285714,
-      "grad_norm": 0.6666663289070129,
-      "kl": 0.006061461288481951,
       "learning_rate": 5e-07,
       "loss": 0.0,
-      "reward": 4.57699628919363,
-      "reward_std": 4.920744594186544,
-      "rewards/concensus_correctness_reward_func": 2.7270624940283597,
-      "rewards/consensus_reward_func": 0.4375,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.375,
-      "rewards/question_recreation_reward_func": 0.4837152436375618,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.03125,
-      "rewards/xmlcount_reward_func": 0.5224687550216913,
       "step": 2
     },
     {
-      "completion_length": 246.20833333333334,
       "epoch": 1.0,
-      "grad_norm": 0.41225749254226685,
-      "kl": 0.0068671271825830145,
       "learning_rate": 4.864543104251586e-07,
       "loss": 0.0,
-      "reward": 6.70300296942393,
-      "reward_std": 7.4935616453488665,
-      "rewards/concensus_correctness_reward_func": 3.8938334261377654,
-      "rewards/consensus_reward_func": 0.4166666666666667,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 1.3333333333333333,
-      "rewards/question_recreation_reward_func": 0.533253143231074,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.020833333333333332,
-      "rewards/xmlcount_reward_func": 0.5050833274920782,
       "step": 4
     },
     {
-      "completion_length": 304.53125,
       "epoch": 1.5714285714285714,
-      "grad_norm": 0.6059955358505249,
-      "kl": 0.005437728686956689,
       "learning_rate": 4.472851273490984e-07,
       "loss": 0.0,
-      "reward": 3.243406891822815,
-      "reward_std": 4.4696567710489035,
-      "rewards/concensus_correctness_reward_func": 1.9631249904632568,
-      "rewards/consensus_reward_func": 0.0625,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.375,
-      "rewards/question_recreation_reward_func": 0.4339694660156965,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.03125,
-      "rewards/xmlcount_reward_func": 0.377562508918345,
       "step": 6
     },
     {
-      "completion_length": 274.0833333333333,
       "epoch": 2.0,
-      "grad_norm": 0.4576708972454071,
-      "kl": 0.0057672612213840084,
       "learning_rate": 3.867370395306068e-07,
       "loss": 0.0,
-      "reward": 4.086558640003204,
-      "reward_std": 3.289734363555908,
-      "rewards/concensus_correctness_reward_func": 1.4564166565736134,
-      "rewards/consensus_reward_func": 0.5,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 1.0833333333333333,
-      "rewards/question_recreation_reward_func": 0.5741003900766373,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.020833333333333332,
-      "rewards/xmlcount_reward_func": 0.4518750148514907,
       "step": 8
     },
     {
-      "completion_length": 292.09375,
       "epoch": 2.571428571428571,
-      "grad_norm": 0.6673523187637329,
-      "kl": 0.0056922537623904645,
       "learning_rate": 3.1137137178519977e-07,
       "loss": 0.0,
-      "reward": 3.7143587470054626,
-      "reward_std": 3.7679010778665543,
-      "rewards/concensus_correctness_reward_func": 1.4603125052526593,
       "rewards/consensus_reward_func": 0.4375,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.9375,
-      "rewards/question_recreation_reward_func": 0.5805774349719286,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.2984687518328428,
       "step": 10
     },
     {
-      "completion_length": 281.9583333333333,
       "epoch": 3.0,
-      "grad_norm": 0.46358442306518555,
-      "kl": 0.006155533134005964,
       "learning_rate": 2.2935516363191693e-07,
       "loss": 0.0,
-      "reward": 4.251242736975352,
-      "reward_std": 4.250624974568685,
-      "rewards/concensus_correctness_reward_func": 2.0455000400543213,
-      "rewards/consensus_reward_func": 0.5833333333333334,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.5,
-      "rewards/question_recreation_reward_func": 0.6577427486578623,
-      "rewards/soft_format_reward_func": 0.020833333333333332,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.4438333412011464,
       "step": 12
     },
     {
-      "completion_length": 288.5625,
       "epoch": 3.571428571428571,
-      "grad_norm": 0.7319718599319458,
-      "kl": 0.005814293632283807,
       "learning_rate": 1.4957614383675767e-07,
       "loss": 0.0,
-      "reward": 4.888812154531479,
-      "reward_std": 5.051133323460817,
-      "rewards/concensus_correctness_reward_func": 2.21512502618134,
-      "rewards/consensus_reward_func": 0.6875,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 1.0,
-      "rewards/question_recreation_reward_func": 0.6428122408688068,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.015625,
-      "rewards/xmlcount_reward_func": 0.3277500020340085,
       "step": 14
     },
     {
-      "completion_length": 271.25,
       "epoch": 4.0,
-      "grad_norm": 0.7334598898887634,
-      "kl": 0.00676184535647432,
       "learning_rate": 8.067960709356478e-08,
       "loss": 0.0,
-      "reward": 3.6698740224043527,
-      "reward_std": 4.021521915992101,
-      "rewards/concensus_correctness_reward_func": 1.9184999565283458,
-      "rewards/consensus_reward_func": 0.16666666666666666,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.6666666666666666,
-      "rewards/question_recreation_reward_func": 0.4548323526978493,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.4632083425919215,
       "step": 16
     },
     {
-      "completion_length": 310.1875,
       "epoch": 4.571428571428571,
-      "grad_norm": 0.4731029272079468,
-      "kl": 0.0056025700469035655,
       "learning_rate": 3.013156219837776e-08,
       "loss": 0.0,
-      "reward": 4.3001285046339035,
-      "reward_std": 5.20382185280323,
-      "rewards/concensus_correctness_reward_func": 2.2980000004172325,
-      "rewards/consensus_reward_func": 0.5,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.6875,
-      "rewards/question_recreation_reward_func": 0.5515347719192505,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.26309375558048487,
       "step": 18
     },
     {
-      "completion_length": 252.625,
       "epoch": 5.0,
-      "grad_norm": 0.553222119808197,
-      "kl": 0.007119440784056981,
       "learning_rate": 3.4096741493194193e-09,
       "loss": 0.0,
-      "reward": 3.2457385261853537,
-      "reward_std": 2.903239627679189,
-      "rewards/concensus_correctness_reward_func": 1.0270833329608042,
-      "rewards/consensus_reward_func": 0.3333333333333333,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.8333333333333334,
-      "rewards/question_recreation_reward_func": 0.356321865071853,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.020833333333333332,
-      "rewards/xmlcount_reward_func": 0.6748333324988683,
       "step": 20
     },
     {
       "epoch": 5.0,
       "step": 20,
       "total_flos": 0.0,
-      "train_loss": 5.2953390422771914e-06,
-      "train_runtime": 673.4708,
-      "train_samples_per_second": 0.475,
-      "train_steps_per_second": 0.03
     }
   ],
   "logging_steps": 2,

   "is_world_process_zero": true,
   "log_history": [
     {
+      "completion_length": 260.40625,
       "epoch": 0.5714285714285714,
+      "grad_norm": 0.6670395135879517,
+      "kl": 0.006215412460733205,
       "learning_rate": 5e-07,
       "loss": 0.0,
+      "reward": 5.615957908332348,
+      "reward_std": 4.528182417154312,
+      "rewards/concensus_correctness_reward_func": 3.9942499957978725,
+      "rewards/consensus_reward_func": 0.5625,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.3125,
+      "rewards/question_recreation_reward_func": 0.34042677748948336,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.4062812449410558,
       "step": 2
     },
     {
+      "completion_length": 268.7083333333333,
       "epoch": 1.0,
+      "grad_norm": 0.5447719097137451,
+      "kl": 0.006267421257992585,
       "learning_rate": 4.864543104251586e-07,
       "loss": 0.0,
+      "reward": 8.132216930389404,
+      "reward_std": 6.641883755723636,
+      "rewards/concensus_correctness_reward_func": 5.108833332856496,
+      "rewards/consensus_reward_func": 0.5833333333333334,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 1.3333333333333333,
+      "rewards/question_recreation_reward_func": 0.5828004206220309,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.52391666918993,
       "step": 4
     },
     {
+      "completion_length": 326.75,
       "epoch": 1.5714285714285714,
+      "grad_norm": 0.5755599141120911,
+      "kl": 0.005123975599417463,
       "learning_rate": 4.472851273490984e-07,
       "loss": 0.0,
+      "reward": 2.9333589002490044,
+      "reward_std": 2.504448179155588,
+      "rewards/concensus_correctness_reward_func": 1.0009999768808484,
+      "rewards/consensus_reward_func": 0.5625,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.8125,
+      "rewards/question_recreation_reward_func": 0.5053900964558125,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.05196874192915857,
       "step": 6
     },
     {
+      "completion_length": 287.7916666666667,
       "epoch": 2.0,
+      "grad_norm": 0.3925863802433014,
+      "kl": 0.006030784221366048,
       "learning_rate": 3.867370395306068e-07,
       "loss": 0.0,
+      "reward": 8.288540105024973,
+      "reward_std": 8.096939901510874,
+      "rewards/concensus_correctness_reward_func": 5.852249999841054,
+      "rewards/consensus_reward_func": 0.6666666666666666,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.75,
+      "rewards/question_recreation_reward_func": 0.6126652906338373,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.020833333333333332,
+      "rewards/xmlcount_reward_func": 0.3861250194410483,
       "step": 8
     },
     {
+      "completion_length": 318.375,
       "epoch": 2.571428571428571,
+      "grad_norm": 0.7920781373977661,
+      "kl": 0.005136754945851862,
       "learning_rate": 3.1137137178519977e-07,
       "loss": 0.0,
+      "reward": 5.652292657643557,
+      "reward_std": 5.981747016310692,
+      "rewards/concensus_correctness_reward_func": 3.501187462359667,
       "rewards/consensus_reward_func": 0.4375,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.9375,
+      "rewards/question_recreation_reward_func": 0.42894890531897545,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.3471562471240759,
       "step": 10
     },
     {
+      "completion_length": 286.625,
       "epoch": 3.0,
+      "grad_norm": 0.48668771982192993,
+      "kl": 0.006699714499215285,
       "learning_rate": 2.2935516363191693e-07,
       "loss": 0.0,
+      "reward": 4.818970079223315,
+      "reward_std": 4.4185210565725965,
+      "rewards/concensus_correctness_reward_func": 2.7801666259765625,
+      "rewards/consensus_reward_func": 0.5,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.5833333333333334,
+      "rewards/question_recreation_reward_func": 0.3619699875513713,
+      "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.020833333333333332,
+      "rewards/xmlcount_reward_func": 0.572666679819425,
       "step": 12
     },
     {
+      "completion_length": 249.28125,
       "epoch": 3.571428571428571,
+      "grad_norm": 1.6784305572509766,
+      "kl": 0.007717548171058297,
       "learning_rate": 1.4957614383675767e-07,
       "loss": 0.0,
+      "reward": 5.34987710416317,
+      "reward_std": 4.7560828775167465,
+      "rewards/concensus_correctness_reward_func": 3.125,
+      "rewards/consensus_reward_func": 0.3125,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.9375,
+      "rewards/question_recreation_reward_func": 0.392814664170146,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.03125,
+      "rewards/xmlcount_reward_func": 0.5508125070482492,
       "step": 14
     },
     {
+      "completion_length": 258.125,
       "epoch": 4.0,
+      "grad_norm": 1.096651315689087,
+      "kl": 0.006812071272482474,
       "learning_rate": 8.067960709356478e-08,
       "loss": 0.0,
+      "reward": 2.352488865454992,
+      "reward_std": 2.253074790040652,
+      "rewards/concensus_correctness_reward_func": 0.8958333333333334,
+      "rewards/consensus_reward_func": 0.08333333333333333,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.4166666666666667,
+      "rewards/question_recreation_reward_func": 0.4666971191763878,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.4899583272635937,
       "step": 16
     },
     {
+      "completion_length": 273.90625,
       "epoch": 4.571428571428571,
+      "grad_norm": 0.662649393081665,
+      "kl": 0.005746613198425621,
       "learning_rate": 3.013156219837776e-08,
       "loss": 0.0,
+      "reward": 4.594461806118488,
+      "reward_std": 3.6776246167719364,
+      "rewards/concensus_correctness_reward_func": 2.421437442302704,
+      "rewards/consensus_reward_func": 0.4375,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.8125,
+      "rewards/question_recreation_reward_func": 0.5578053258359432,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.3652187562547624,
       "step": 18
     },
     {
+      "completion_length": 272.8333333333333,
       "epoch": 5.0,
+      "grad_norm": 0.3722166121006012,
+      "kl": 0.005615944974124432,
       "learning_rate": 3.4096741493194193e-09,
       "loss": 0.0,
+      "reward": 8.428206106026968,
+      "reward_std": 4.201698551575343,
+      "rewards/concensus_correctness_reward_func": 6.062916656335195,
+      "rewards/consensus_reward_func": 0.75,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.75,
+      "rewards/question_recreation_reward_func": 0.3283310607075691,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.5369583399345478,
       "step": 20
     },
     {
       "epoch": 5.0,
       "step": 20,
       "total_flos": 0.0,
+      "train_loss": 5.35928761564719e-06,
+      "train_runtime": 723.4383,
+      "train_samples_per_second": 0.442,
+      "train_steps_per_second": 0.028
     }
   ],
   "logging_steps": 2,