End of training

Browse files

Files changed (4) hide show

adapter_model.safetensors +1 -1
all_results.json +4 -4
train_results.json +4 -4
trainer_state.json +112 -112

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:38251d9195fe713558f845fc7d6a1ab6c22bc832a528a7f12cb7fbccb9b951fa
 size 73911112

 version https://git-lfs.github.com/spec/v1
+oid sha256:7fe4ac3694787aa12d5b690cb0cdfdf21c507fbdeadf6088d0f90a36a99e9f1f
 size 73911112

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 8.162872461525694e-07,
-    "train_runtime": 1476.9589,
     "train_samples": 14,
-    "train_samples_per_second": 0.217,
-    "train_steps_per_second": 0.014
 }

 {
     "total_flos": 0.0,
+    "train_loss": 9.106541540404578e-07,
+    "train_runtime": 1166.3488,
     "train_samples": 14,
+    "train_samples_per_second": 0.274,
+    "train_steps_per_second": 0.017
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 8.162872461525694e-07,
-    "train_runtime": 1476.9589,
     "train_samples": 14,
-    "train_samples_per_second": 0.217,
-    "train_steps_per_second": 0.014
 }

 {
     "total_flos": 0.0,
+    "train_loss": 9.106541540404578e-07,
+    "train_runtime": 1166.3488,
     "train_samples": 14,
+    "train_samples_per_second": 0.274,
+    "train_steps_per_second": 0.017
 }

trainer_state.json CHANGED Viewed

@@ -10,203 +10,203 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "completion_length": 367.71875,
       "epoch": 0.5714285714285714,
-      "grad_norm": 0.5081499814987183,
-      "kl": 0.0009625694219721481,
       "learning_rate": 5e-07,
       "loss": 0.0,
-      "reward": 1.0510530984029174,
-      "reward_std": 1.0770057030022144,
-      "rewards/concensus_correctness_reward_func": 0.0,
-      "rewards/consensus_reward_func": 0.25,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.1875,
-      "rewards/question_recreation_reward_func": 0.41727185621857643,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.19628123939037323,
       "step": 2
     },
     {
-      "completion_length": 262.75,
       "epoch": 1.0,
-      "grad_norm": 0.40974363684654236,
-      "kl": 0.0009631995635572821,
       "learning_rate": 4.864543104251586e-07,
       "loss": 0.0,
-      "reward": 4.297864278157552,
-      "reward_std": 4.604200780391693,
-      "rewards/concensus_correctness_reward_func": 2.0401667008797326,
-      "rewards/consensus_reward_func": 0.5833333333333334,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.6666666666666666,
-      "rewards/question_recreation_reward_func": 0.5745727072159449,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.020833333333333332,
-      "rewards/xmlcount_reward_func": 0.41229165345430374,
       "step": 4
     },
     {
-      "completion_length": 327.84375,
       "epoch": 1.5714285714285714,
-      "grad_norm": 0.6296448111534119,
-      "kl": 0.0009126681252382696,
       "learning_rate": 4.472851273490984e-07,
       "loss": 0.0,
-      "reward": 2.093316923826933,
-      "reward_std": 1.8935020975768566,
-      "rewards/concensus_correctness_reward_func": 0.7111250162124634,
-      "rewards/consensus_reward_func": 0.25,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.1875,
-      "rewards/question_recreation_reward_func": 0.4902231749147177,
-      "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.4544687485322356,
       "step": 6
     },
     {
-      "completion_length": 266.4583333333333,
       "epoch": 2.0,
-      "grad_norm": 0.40329569578170776,
-      "kl": 0.0008988669433165342,
       "learning_rate": 3.867370395306068e-07,
       "loss": 0.0,
-      "reward": 4.933065419395764,
-      "reward_std": 2.7397762835025787,
-      "rewards/concensus_correctness_reward_func": 2.690333291888237,
-      "rewards/consensus_reward_func": 0.5833333333333334,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.6666666666666666,
-      "rewards/question_recreation_reward_func": 0.4644401967525482,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.041666666666666664,
-      "rewards/xmlcount_reward_func": 0.4866250157356262,
       "step": 8
     },
     {
-      "completion_length": 280.96875,
       "epoch": 2.571428571428571,
-      "grad_norm": 0.554629385471344,
-      "kl": 0.000941618753131479,
       "learning_rate": 3.1137137178519977e-07,
       "loss": 0.0,
-      "reward": 2.716585533693433,
-      "reward_std": 2.5547881722450256,
-      "rewards/concensus_correctness_reward_func": 0.9713750258088112,
-      "rewards/consensus_reward_func": 0.375,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.5,
-      "rewards/question_recreation_reward_func": 0.5117417424917221,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.03125,
-      "rewards/xmlcount_reward_func": 0.3272187579423189,
       "step": 10
     },
     {
-      "completion_length": 311.3333333333333,
       "epoch": 3.0,
-      "grad_norm": 0.3502715528011322,
-      "kl": 0.0008690265531186014,
       "learning_rate": 2.2935516363191693e-07,
       "loss": 0.0,
-      "reward": 2.1897893796364465,
-      "reward_std": 2.4590202371279397,
-      "rewards/concensus_correctness_reward_func": 0.875,
-      "rewards/consensus_reward_func": 0.25,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.25,
-      "rewards/question_recreation_reward_func": 0.41899773726860684,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.3957916783789794,
       "step": 12
     },
     {
-      "completion_length": 259.28125,
       "epoch": 3.571428571428571,
-      "grad_norm": 0.527627170085907,
-      "kl": 0.0009218856648658402,
       "learning_rate": 1.4957614383675767e-07,
       "loss": 0.0,
-      "reward": 4.208513021469116,
-      "reward_std": 4.8986491449177265,
-      "rewards/concensus_correctness_reward_func": 2.1417499855160713,
-      "rewards/consensus_reward_func": 0.375,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.6875,
-      "rewards/question_recreation_reward_func": 0.5358567591756582,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.015625,
-      "rewards/xmlcount_reward_func": 0.45278125628829,
       "step": 14
     },
     {
-      "completion_length": 337.9583333333333,
       "epoch": 4.0,
-      "grad_norm": 0.25543302297592163,
-      "kl": 0.0008131342571383963,
       "learning_rate": 8.067960709356478e-08,
       "loss": 0.0,
-      "reward": 1.427143931388855,
-      "reward_std": 1.10461130241553,
-      "rewards/concensus_correctness_reward_func": 0.020833333333333332,
-      "rewards/consensus_reward_func": 0.5,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.4763105611006419,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.020833333333333332,
-      "rewards/xmlcount_reward_func": 0.40916665146748227,
       "step": 16
     },
     {
-      "completion_length": 305.1875,
       "epoch": 4.571428571428571,
-      "grad_norm": 0.6006729602813721,
-      "kl": 0.0009300135789089836,
       "learning_rate": 3.013156219837776e-08,
       "loss": 0.0,
-      "reward": 4.6569545567035675,
-      "reward_std": 4.235770419239998,
-      "rewards/concensus_correctness_reward_func": 2.586125001311302,
-      "rewards/consensus_reward_func": 0.5,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.4375,
-      "rewards/question_recreation_reward_func": 0.4930796194821596,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.03125,
-      "rewards/xmlcount_reward_func": 0.6089999936521053,
       "step": 18
     },
     {
-      "completion_length": 272.0,
       "epoch": 5.0,
-      "grad_norm": 0.44974642992019653,
-      "kl": 0.0010306573725150276,
       "learning_rate": 3.4096741493194193e-09,
       "loss": 0.0,
-      "reward": 1.9236627320448558,
-      "reward_std": 1.567851260304451,
-      "rewards/concensus_correctness_reward_func": 0.16350000103314719,
-      "rewards/consensus_reward_func": 0.6666666666666666,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.3793710991740227,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.041666666666666664,
-      "rewards/xmlcount_reward_func": 0.6724583357572556,
       "step": 20
     },
     {
       "epoch": 5.0,
       "step": 20,
       "total_flos": 0.0,
-      "train_loss": 8.162872461525694e-07,
-      "train_runtime": 1476.9589,
-      "train_samples_per_second": 0.217,
-      "train_steps_per_second": 0.014
     }
   ],
   "logging_steps": 2,

   "is_world_process_zero": true,
   "log_history": [
     {
+      "completion_length": 294.9375,
       "epoch": 0.5714285714285714,
+      "grad_norm": 0.5306342244148254,
+      "kl": 0.00106452372710919,
       "learning_rate": 5e-07,
       "loss": 0.0,
+      "reward": 1.6411982998251915,
+      "reward_std": 1.0810485109686852,
+      "rewards/concensus_correctness_reward_func": 0.14918749779462814,
+      "rewards/consensus_reward_func": 0.3125,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.25,
+      "rewards/question_recreation_reward_func": 0.5444795377552509,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.38503125053830445,
       "step": 2
     },
     {
+      "completion_length": 250.16666666666666,
       "epoch": 1.0,
+      "grad_norm": 0.44458910822868347,
+      "kl": 0.000997814388635258,
       "learning_rate": 4.864543104251586e-07,
       "loss": 0.0,
+      "reward": 6.22556608915329,
+      "reward_std": 6.770551611979802,
+      "rewards/concensus_correctness_reward_func": 3.9175833264986673,
+      "rewards/consensus_reward_func": 0.3333333333333333,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 1.1666666666666667,
+      "rewards/question_recreation_reward_func": 0.47819118946790695,
+      "rewards/soft_format_reward_func": 0.020833333333333332,
+      "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.30895833671092987,
       "step": 4
     },
     {
+      "completion_length": 295.75,
       "epoch": 1.5714285714285714,
+      "grad_norm": 0.6731472015380859,
+      "kl": 0.0009016355543280952,
       "learning_rate": 4.472851273490984e-07,
       "loss": 0.0,
+      "reward": 4.5624018013477325,
+      "reward_std": 4.169055797159672,
+      "rewards/concensus_correctness_reward_func": 2.5999375507235527,
+      "rewards/consensus_reward_func": 0.8125,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.25,
+      "rewards/question_recreation_reward_func": 0.48346433229744434,
+      "rewards/soft_format_reward_func": 0.03125,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.3852499960921705,
       "step": 6
     },
     {
+      "completion_length": 258.4583333333333,
       "epoch": 2.0,
+      "grad_norm": 0.4999157786369324,
+      "kl": 0.0008858617414565136,
       "learning_rate": 3.867370395306068e-07,
       "loss": 0.0,
+      "reward": 4.261157751083374,
+      "reward_std": 3.133419861396154,
+      "rewards/concensus_correctness_reward_func": 2.036916653315226,
+      "rewards/consensus_reward_func": 0.25,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 1.0,
+      "rewards/question_recreation_reward_func": 0.5058660134673119,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.020833333333333332,
+      "rewards/xmlcount_reward_func": 0.44754166652758914,
       "step": 8
     },
     {
+      "completion_length": 315.6875,
       "epoch": 2.571428571428571,
+      "grad_norm": 0.4604630470275879,
+      "kl": 0.0011037837102776393,
       "learning_rate": 3.1137137178519977e-07,
       "loss": 0.0,
+      "reward": 3.187575899064541,
+      "reward_std": 2.6923636719584465,
+      "rewards/concensus_correctness_reward_func": 1.2379999980330467,
+      "rewards/consensus_reward_func": 0.4375,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.5,
+      "rewards/question_recreation_reward_func": 0.5534508600831032,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.4586250074207783,
       "step": 10
     },
     {
+      "completion_length": 314.2916666666667,
       "epoch": 3.0,
+      "grad_norm": 0.41088438034057617,
+      "kl": 0.0010708693395523976,
       "learning_rate": 2.2935516363191693e-07,
       "loss": 0.0,
+      "reward": 2.1479941656192145,
+      "reward_std": 1.182335580388705,
+      "rewards/concensus_correctness_reward_func": 0.3302500086526076,
+      "rewards/consensus_reward_func": 0.08333333333333333,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.75,
+      "rewards/question_recreation_reward_func": 0.46566081295410794,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.020833333333333332,
+      "rewards/xmlcount_reward_func": 0.4979166698952516,
       "step": 12
     },
     {
+      "completion_length": 270.09375,
       "epoch": 3.571428571428571,
+      "grad_norm": 0.6300942301750183,
+      "kl": 0.0011288217719993554,
       "learning_rate": 1.4957614383675767e-07,
       "loss": 0.0,
+      "reward": 2.820046603679657,
+      "reward_std": 2.335902664810419,
+      "rewards/concensus_correctness_reward_func": 0.7640624967752956,
+      "rewards/consensus_reward_func": 0.3125,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.625,
+      "rewards/question_recreation_reward_func": 0.667484138160944,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.015625,
+      "rewards/xmlcount_reward_func": 0.43537499383091927,
       "step": 14
     },
     {
+      "completion_length": 298.9583333333333,
       "epoch": 4.0,
+      "grad_norm": 0.3841368556022644,
+      "kl": 0.0008524531634369245,
       "learning_rate": 8.067960709356478e-08,
       "loss": 0.0,
+      "reward": 2.8269231766462326,
+      "reward_std": 2.499766950805982,
+      "rewards/concensus_correctness_reward_func": 1.2613333264986675,
+      "rewards/consensus_reward_func": 0.08333333333333333,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.8333333333333334,
+      "rewards/question_recreation_reward_func": 0.34571493913729984,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.30320833902806044,
       "step": 16
     },
     {
+      "completion_length": 266.46875,
       "epoch": 4.571428571428571,
+      "grad_norm": 0.5454278588294983,
+      "kl": 0.001461050138459541,
       "learning_rate": 3.013156219837776e-08,
       "loss": 0.0,
+      "reward": 2.5429747253656387,
+      "reward_std": 2.318133482709527,
+      "rewards/concensus_correctness_reward_func": 0.8364374935626984,
+      "rewards/consensus_reward_func": 0.1875,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.5,
+      "rewards/question_recreation_reward_func": 0.5435371957719326,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.47549999970942736,
       "step": 18
     },
     {
+      "completion_length": 305.0416666666667,
       "epoch": 5.0,
+      "grad_norm": 0.3526518642902374,
+      "kl": 0.0008988645665037135,
       "learning_rate": 3.4096741493194193e-09,
       "loss": 0.0,
+      "reward": 4.254936138788859,
+      "reward_std": 6.1117063363393145,
+      "rewards/concensus_correctness_reward_func": 2.5,
+      "rewards/consensus_reward_func": 0.4166666666666667,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.6666666666666666,
+      "rewards/question_recreation_reward_func": 0.4355611118177573,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.2360416774948438,
       "step": 20
     },
     {
       "epoch": 5.0,
       "step": 20,
       "total_flos": 0.0,
+      "train_loss": 9.106541540404578e-07,
+      "train_runtime": 1166.3488,
+      "train_samples_per_second": 0.274,
+      "train_steps_per_second": 0.017
     }
   ],
   "logging_steps": 2,