End of training

Browse files

Files changed (6) hide show

adapter_config.json +4 -4
adapter_model.safetensors +1 -1
all_results.json +5 -5
train_results.json +5 -5
trainer_state.json +128 -128
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -24,13 +24,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "gate_proj",
     "up_proj",
-    "o_proj",
     "k_proj",
-    "q_proj",
     "down_proj",
-    "v_proj"
   ],
   "task_type": "CAUSAL_LM",
   "trainable_token_indices": null,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "up_proj",
     "k_proj",
     "down_proj",
+    "v_proj",
+    "o_proj",
+    "q_proj",
+    "gate_proj"
   ],
   "task_type": "CAUSAL_LM",
   "trainable_token_indices": null,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c73cf49765fd3138999355598bf85f20a8a937900e0f7ff9d189cb9c883215e9
 size 73911112

 version https://git-lfs.github.com/spec/v1
+oid sha256:0163ff5ef767b744f0e2eab12dd83007c1441f9e01e6911356f4253a27ef6f26
 size 73911112

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 7.369539957835514e-07,
-    "train_runtime": 1589.5578,
-    "train_samples": 14,
-    "train_samples_per_second": 0.201,
-    "train_steps_per_second": 0.013
 }

 {
     "total_flos": 0.0,
+    "train_loss": 9.246089391012901e-07,
+    "train_runtime": 1602.5484,
+    "train_samples": 39,
+    "train_samples_per_second": 0.2,
+    "train_steps_per_second": 0.012
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 7.369539957835514e-07,
-    "train_runtime": 1589.5578,
-    "train_samples": 14,
-    "train_samples_per_second": 0.201,
-    "train_steps_per_second": 0.013
 }

 {
     "total_flos": 0.0,
+    "train_loss": 9.246089391012901e-07,
+    "train_runtime": 1602.5484,
+    "train_samples": 39,
+    "train_samples_per_second": 0.2,
+    "train_steps_per_second": 0.012
 }

trainer_state.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 5.0,
   "eval_steps": 500,
   "global_step": 20,
   "is_hyper_param_search": false,
@@ -10,209 +10,209 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "completion_length": 308.375,
-      "epoch": 0.5714285714285714,
-      "grad_norm": 0.4618178904056549,
-      "kl": 0.0008210769738070667,
       "learning_rate": 5e-07,
-      "loss": 0.0,
-      "reward": 3.7530966848134995,
-      "reward_std": 3.5663677155971527,
-      "rewards/concensus_correctness_reward_func": 1.902500000782311,
-      "rewards/consensus_reward_func": 0.5,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.375,
-      "rewards/question_recreation_reward_func": 0.42531548626720905,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.5502812545746565,
       "step": 2
     },
     {
-      "completion_length": 294.125,
-      "epoch": 1.0,
-      "grad_norm": 0.3711313009262085,
-      "kl": 0.0007352615842440476,
       "learning_rate": 4.864543104251586e-07,
       "loss": 0.0,
-      "reward": 2.8463947971661887,
-      "reward_std": 2.6672874043385186,
-      "rewards/concensus_correctness_reward_func": 0.8670000011722246,
-      "rewards/consensus_reward_func": 0.25,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.6666666666666666,
-      "rewards/question_recreation_reward_func": 0.571061501900355,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.49166666467984516,
       "step": 4
     },
     {
-      "completion_length": 331.03125,
-      "epoch": 1.5714285714285714,
-      "grad_norm": 0.5452682375907898,
-      "kl": 0.0008879703818820417,
       "learning_rate": 4.472851273490984e-07,
       "loss": 0.0,
-      "reward": 2.6651667281985283,
-      "reward_std": 2.2832678612321615,
-      "rewards/concensus_correctness_reward_func": 1.2805000003427267,
-      "rewards/consensus_reward_func": 0.25,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.4375,
-      "rewards/question_recreation_reward_func": 0.3908854443579912,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.30628125090152025,
       "step": 6
     },
     {
-      "completion_length": 315.4583333333333,
-      "epoch": 2.0,
-      "grad_norm": 0.3351956009864807,
-      "kl": 0.0007843189911606411,
       "learning_rate": 3.867370395306068e-07,
       "loss": 0.0,
-      "reward": 2.160457650820414,
-      "reward_std": 1.2612790241837502,
-      "rewards/concensus_correctness_reward_func": 0.03366666783889135,
-      "rewards/consensus_reward_func": 0.5833333333333334,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.5,
-      "rewards/question_recreation_reward_func": 0.583832656343778,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.020833333333333332,
-      "rewards/xmlcount_reward_func": 0.43879168232282,
       "step": 8
     },
     {
-      "completion_length": 297.53125,
-      "epoch": 2.571428571428571,
-      "grad_norm": 0.5597347617149353,
-      "kl": 0.000914437769097276,
       "learning_rate": 3.1137137178519977e-07,
       "loss": 0.0,
-      "reward": 3.6466805040836334,
-      "reward_std": 3.303773660212755,
-      "rewards/concensus_correctness_reward_func": 1.8898750003427267,
-      "rewards/consensus_reward_func": 0.375,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.5625,
-      "rewards/question_recreation_reward_func": 0.4443992068991065,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.3749062614515424,
       "step": 10
     },
     {
-      "completion_length": 345.0833333333333,
-      "epoch": 3.0,
-      "grad_norm": 0.2649274170398712,
-      "kl": 0.0008190043930274745,
       "learning_rate": 2.2935516363191693e-07,
       "loss": 0.0,
-      "reward": 1.2134440243244171,
-      "reward_std": 1.232163891196251,
-      "rewards/concensus_correctness_reward_func": 0.041666666666666664,
-      "rewards/consensus_reward_func": 0.3333333333333333,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.3333333333333333,
-      "rewards/question_recreation_reward_func": 0.36773564169804257,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.1373750095566114,
       "step": 12
     },
     {
-      "completion_length": 296.5,
-      "epoch": 3.571428571428571,
-      "grad_norm": 0.5115249752998352,
-      "kl": 0.0007272411894518882,
       "learning_rate": 1.4957614383675767e-07,
       "loss": 0.0,
-      "reward": 4.0324734300374985,
-      "reward_std": 4.162970960140228,
-      "rewards/concensus_correctness_reward_func": 1.9586250027641654,
-      "rewards/consensus_reward_func": 0.4375,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.5,
-      "rewards/question_recreation_reward_func": 0.6743796616792679,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.46196874510496855,
       "step": 14
     },
     {
-      "completion_length": 318.375,
-      "epoch": 4.0,
-      "grad_norm": 0.41379380226135254,
-      "kl": 0.0008508136185506979,
       "learning_rate": 8.067960709356478e-08,
       "loss": 0.0,
-      "reward": 2.4556567668914795,
-      "reward_std": 2.669686953226725,
-      "rewards/concensus_correctness_reward_func": 1.0971667543053627,
-      "rewards/consensus_reward_func": 0.3333333333333333,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.25,
-      "rewards/question_recreation_reward_func": 0.31807343785961467,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.45708333949248,
       "step": 16
     },
     {
-      "completion_length": 315.90625,
-      "epoch": 4.571428571428571,
-      "grad_norm": 0.497284859418869,
-      "kl": 0.0008221051321015693,
       "learning_rate": 3.013156219837776e-08,
       "loss": 0.0,
-      "reward": 3.725215867161751,
-      "reward_std": 3.5660266540944576,
-      "rewards/concensus_correctness_reward_func": 1.875,
-      "rewards/consensus_reward_func": 0.1875,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.5625,
-      "rewards/question_recreation_reward_func": 0.6019969191402197,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.49821875616908073,
       "step": 18
     },
     {
-      "completion_length": 254.33333333333334,
-      "epoch": 5.0,
-      "grad_norm": 0.3269297778606415,
-      "kl": 0.0010246408152549218,
       "learning_rate": 3.4096741493194193e-09,
       "loss": 0.0,
-      "reward": 2.541357174515724,
-      "reward_std": 2.4800077378749847,
-      "rewards/concensus_correctness_reward_func": 0.9776667108138403,
-      "rewards/consensus_reward_func": 0.3333333333333333,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.3333333333333333,
-      "rewards/question_recreation_reward_func": 0.4136489120622476,
-      "rewards/soft_format_reward_func": 0.020833333333333332,
-      "rewards/strict_format_reward_func": 0.020833333333333332,
-      "rewards/xmlcount_reward_func": 0.4417083350320657,
       "step": 20
     },
     {
-      "epoch": 5.0,
       "step": 20,
       "total_flos": 0.0,
-      "train_loss": 7.369539957835514e-07,
-      "train_runtime": 1589.5578,
-      "train_samples_per_second": 0.201,
-      "train_steps_per_second": 0.013
     }
   ],
   "logging_steps": 2,
   "max_steps": 20,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 7,
   "save_steps": 25,
   "stateful_callbacks": {
     "TrainerControl": {

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.0,
   "eval_steps": 500,
   "global_step": 20,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "completion_length": 285.40625,
+      "epoch": 0.20512820512820512,
+      "grad_norm": 0.5498890280723572,
+      "kl": 0.0,
       "learning_rate": 5e-07,
+      "loss": -0.0,
+      "reward": 1.2953027412295341,
+      "reward_std": 1.2016863971948624,
+      "rewards/concensus_correctness_reward_func": 0.0,
+      "rewards/consensus_reward_func": 0.0625,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.375,
+      "rewards/question_recreation_reward_func": 0.424521510489285,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.015625,
+      "rewards/xmlcount_reward_func": 0.41765623539686203,
       "step": 2
     },
     {
+      "completion_length": 332.71875,
+      "epoch": 0.41025641025641024,
+      "grad_norm": 0.6451846957206726,
+      "kl": 0.0009901017911033705,
       "learning_rate": 4.864543104251586e-07,
       "loss": 0.0,
+      "reward": 1.095869965851307,
+      "reward_std": 0.8837384283542633,
+      "rewards/concensus_correctness_reward_func": 0.05999999865889549,
+      "rewards/consensus_reward_func": 0.1875,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0625,
+      "rewards/question_recreation_reward_func": 0.6056824438273907,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.015625,
+      "rewards/xmlcount_reward_func": 0.16456249170005322,
       "step": 4
     },
     {
+      "completion_length": 305.78125,
+      "epoch": 0.6153846153846154,
+      "grad_norm": 0.6242564916610718,
+      "kl": 0.0010371932803536765,
       "learning_rate": 4.472851273490984e-07,
       "loss": 0.0,
+      "reward": 1.6818831153213978,
+      "reward_std": 1.1792906485497952,
+      "rewards/concensus_correctness_reward_func": 0.18818750232458115,
+      "rewards/consensus_reward_func": 0.1875,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.375,
+      "rewards/question_recreation_reward_func": 0.6482893712818623,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.015625,
+      "rewards/xmlcount_reward_func": 0.26728123845532537,
       "step": 6
     },
     {
+      "completion_length": 272.28125,
+      "epoch": 0.8205128205128205,
+      "grad_norm": 1.0570781230926514,
+      "kl": 0.0010937876504613087,
       "learning_rate": 3.867370395306068e-07,
       "loss": 0.0,
+      "reward": 1.474930763244629,
+      "reward_std": 1.6228845715522766,
+      "rewards/concensus_correctness_reward_func": 0.21981250122189522,
+      "rewards/consensus_reward_func": 0.1875,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.25,
+      "rewards/question_recreation_reward_func": 0.392680736258626,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.03125,
+      "rewards/xmlcount_reward_func": 0.39368750154972076,
       "step": 8
     },
     {
+      "completion_length": 308.85714285714283,
+      "epoch": 1.0,
+      "grad_norm": 0.8395159840583801,
+      "kl": 0.0010394884489609727,
       "learning_rate": 3.1137137178519977e-07,
       "loss": 0.0,
+      "reward": 1.5684541825737273,
+      "reward_std": 1.035864144563675,
+      "rewards/concensus_correctness_reward_func": 0.06871428659984044,
+      "rewards/consensus_reward_func": 0.07142857142857142,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.2857142857142857,
+      "rewards/question_recreation_reward_func": 0.5535256351743426,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.03571428571428571,
+      "rewards/xmlcount_reward_func": 0.553357156259673,
       "step": 10
     },
     {
+      "completion_length": 288.96875,
+      "epoch": 1.205128205128205,
+      "grad_norm": 0.7363212704658508,
+      "kl": 0.0010777587885968387,
       "learning_rate": 2.2935516363191693e-07,
       "loss": 0.0,
+      "reward": 1.245329074561596,
+      "reward_std": 1.1123233437538147,
+      "rewards/concensus_correctness_reward_func": 0.0,
+      "rewards/consensus_reward_func": 0.3125,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.25,
+      "rewards/question_recreation_reward_func": 0.38261033222079277,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.015625,
+      "rewards/xmlcount_reward_func": 0.28459377074614167,
       "step": 12
     },
     {
+      "completion_length": 347.34375,
+      "epoch": 1.4102564102564101,
+      "grad_norm": 0.7052019834518433,
+      "kl": 0.0010524256431381218,
       "learning_rate": 1.4957614383675767e-07,
       "loss": 0.0,
+      "reward": 1.2003353461623192,
+      "reward_std": 1.4865036271512508,
+      "rewards/concensus_correctness_reward_func": 0.24025000259280205,
+      "rewards/consensus_reward_func": 0.25,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.125,
+      "rewards/question_recreation_reward_func": 0.431210333481431,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.015625,
+      "rewards/xmlcount_reward_func": 0.13825000263750553,
       "step": 14
     },
     {
+      "completion_length": 280.65625,
+      "epoch": 1.6153846153846154,
+      "grad_norm": 0.5906476974487305,
+      "kl": 0.001059539194102399,
       "learning_rate": 8.067960709356478e-08,
       "loss": 0.0,
+      "reward": 1.1633149608969688,
+      "reward_std": 0.8385320976376534,
+      "rewards/concensus_correctness_reward_func": 0.015625,
+      "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.125,
+      "rewards/question_recreation_reward_func": 0.5233462303876877,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.046875,
+      "rewards/xmlcount_reward_func": 0.4524687472730875,
       "step": 16
     },
     {
+      "completion_length": 264.46875,
+      "epoch": 1.8205128205128205,
+      "grad_norm": 0.6119975447654724,
+      "kl": 0.0011653968540485948,
       "learning_rate": 3.013156219837776e-08,
       "loss": 0.0,
+      "reward": 1.4025923907756805,
+      "reward_std": 1.28750778734684,
+      "rewards/concensus_correctness_reward_func": 0.05999999865889549,
+      "rewards/consensus_reward_func": 0.0625,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.125,
+      "rewards/question_recreation_reward_func": 0.5302173933014274,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.09375,
+      "rewards/xmlcount_reward_func": 0.53112499602139,
       "step": 18
     },
     {
+      "completion_length": 401.39285714285717,
+      "epoch": 2.0,
+      "grad_norm": 0.7071681022644043,
+      "kl": 0.0010130427877551743,
       "learning_rate": 3.4096741493194193e-09,
       "loss": 0.0,
+      "reward": 1.219790335212435,
+      "reward_std": 1.6927061762128557,
+      "rewards/concensus_correctness_reward_func": 0.20557143007005965,
+      "rewards/consensus_reward_func": 0.21428571428571427,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.2857142857142857,
+      "rewards/question_recreation_reward_func": 0.49729034304618835,
+      "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.03571428571428571,
+      "rewards/xmlcount_reward_func": -0.01878571723188673,
       "step": 20
     },
     {
+      "epoch": 2.0,
       "step": 20,
       "total_flos": 0.0,
+      "train_loss": 9.246089391012901e-07,
+      "train_runtime": 1602.5484,
+      "train_samples_per_second": 0.2,
+      "train_steps_per_second": 0.012
     }
   ],
   "logging_steps": 2,
   "max_steps": 20,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
   "save_steps": 25,
   "stateful_callbacks": {
     "TrainerControl": {

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5e45beb858bd607fa926a7438146f171217c275ff96f4ebe315cdb58f54d1870
 size 6008

 version https://git-lfs.github.com/spec/v1
+oid sha256:b34e34fc4729c0f464403e0b249116d1ef7d0513e10dca8954169978494e2559
 size 6008