End of training

Browse files

Files changed (6) hide show

adapter_config.json +5 -5
adapter_model.safetensors +1 -1
all_results.json +5 -5
train_results.json +5 -5
trainer_state.json +126 -126
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -24,13 +24,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "down_proj",
-    "gate_proj",
     "up_proj",
     "o_proj",
-    "k_proj",
-    "v_proj",
-    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "trainable_token_indices": null,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "q_proj",
+    "v_proj",
+    "k_proj",
     "up_proj",
+    "down_proj",
     "o_proj",
+    "gate_proj"
   ],
   "task_type": "CAUSAL_LM",
   "trainable_token_indices": null,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:499ea114d7be510be755871347a202788712363b7e742c05ad76ede0f36669be
 size 73911112

 version https://git-lfs.github.com/spec/v1
+oid sha256:3d4880b2bb16160e7526a99f59efae49129515ca2e7c4bec08c49521a0188853
 size 73911112

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 9.056671217422263e-07,
-    "train_runtime": 209.3759,
-    "train_samples": 14,
-    "train_samples_per_second": 1.528,
-    "train_steps_per_second": 0.096
 }

 {
     "total_flos": 0.0,
+    "train_loss": 9.925538918764688e-07,
+    "train_runtime": 393.6647,
+    "train_samples": 68,
+    "train_samples_per_second": 0.813,
+    "train_steps_per_second": 0.051
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 9.056671217422263e-07,
-    "train_runtime": 209.3759,
-    "train_samples": 14,
-    "train_samples_per_second": 1.528,
-    "train_steps_per_second": 0.096
 }

 {
     "total_flos": 0.0,
+    "train_loss": 9.925538918764688e-07,
+    "train_runtime": 393.6647,
+    "train_samples": 68,
+    "train_samples_per_second": 0.813,
+    "train_steps_per_second": 0.051
 }

trainer_state.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 5.0,
   "eval_steps": 500,
   "global_step": 20,
   "is_hyper_param_search": false,
@@ -10,209 +10,209 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "completion_length": 322.0,
-      "epoch": 0.5714285714285714,
-      "grad_norm": 0.4577440321445465,
-      "kl": 0.0010211987391812727,
       "learning_rate": 5e-07,
-      "loss": 0.0,
-      "reward": 2.386866107583046,
-      "reward_std": 2.3319480642676353,
-      "rewards/concensus_correctness_reward_func": 0.79237499833107,
-      "rewards/consensus_reward_func": 0.375,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.1875,
-      "rewards/question_recreation_reward_func": 0.508584862574935,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.046875,
-      "rewards/xmlcount_reward_func": 0.4765312569215894,
       "step": 2
     },
     {
-      "completion_length": 248.20833333333334,
-      "epoch": 1.0,
-      "grad_norm": 0.3736923038959503,
-      "kl": 0.0010601104392359655,
       "learning_rate": 4.864543104251586e-07,
       "loss": 0.0,
-      "reward": 4.510168532530467,
-      "reward_std": 4.610009292761485,
-      "rewards/concensus_correctness_reward_func": 2.0937499925494194,
-      "rewards/consensus_reward_func": 0.25,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 1.1666666666666667,
-      "rewards/question_recreation_reward_func": 0.4869601825873057,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.020833333333333332,
-      "rewards/xmlcount_reward_func": 0.491958349943161,
       "step": 4
     },
     {
-      "completion_length": 315.5,
-      "epoch": 1.5714285714285714,
-      "grad_norm": 0.5331686735153198,
-      "kl": 0.0010710153947002254,
       "learning_rate": 4.472851273490984e-07,
       "loss": 0.0,
-      "reward": 1.7227240055799484,
-      "reward_std": 1.2993985414505005,
-      "rewards/concensus_correctness_reward_func": 0.22949999757111073,
-      "rewards/consensus_reward_func": 0.3125,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.3125,
-      "rewards/question_recreation_reward_func": 0.44056776352226734,
-      "rewards/soft_format_reward_func": 0.015625,
       "rewards/strict_format_reward_func": 0.015625,
-      "rewards/xmlcount_reward_func": 0.39640625193715096,
       "step": 6
     },
     {
-      "completion_length": 256.2083333333333,
-      "epoch": 2.0,
-      "grad_norm": 0.3773321509361267,
-      "kl": 0.0008640500988500813,
       "learning_rate": 3.867370395306068e-07,
       "loss": 0.0,
-      "reward": 3.8635623256365457,
-      "reward_std": 3.2336589892705283,
-      "rewards/concensus_correctness_reward_func": 1.8630000030001004,
-      "rewards/consensus_reward_func": 0.25,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.8333333333333334,
-      "rewards/question_recreation_reward_func": 0.48272895564635593,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.041666666666666664,
-      "rewards/xmlcount_reward_func": 0.3928333446383476,
       "step": 8
     },
     {
-      "completion_length": 281.40625,
-      "epoch": 2.571428571428571,
-      "grad_norm": 0.7011380195617676,
-      "kl": 0.0012408908660290763,
       "learning_rate": 3.1137137178519977e-07,
       "loss": 0.0,
-      "reward": 4.63061910867691,
-      "reward_std": 5.037493169307709,
-      "rewards/concensus_correctness_reward_func": 2.738250045105815,
-      "rewards/consensus_reward_func": 0.5,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.5625,
-      "rewards/question_recreation_reward_func": 0.48408803902566433,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.34578125225380063,
       "step": 10
     },
     {
-      "completion_length": 320.2916666666667,
-      "epoch": 3.0,
-      "grad_norm": 0.29586437344551086,
-      "kl": 0.0009626761893741786,
       "learning_rate": 2.2935516363191693e-07,
       "loss": 0.0,
-      "reward": 5.5291550407807035,
-      "reward_std": 5.077951163053513,
-      "rewards/concensus_correctness_reward_func": 3.405249997973442,
-      "rewards/consensus_reward_func": 0.5833333333333334,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.5833333333333334,
-      "rewards/question_recreation_reward_func": 0.48728005836407345,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.4699583500623703,
       "step": 12
     },
     {
-      "completion_length": 282.78125,
-      "epoch": 3.571428571428571,
-      "grad_norm": 0.476342111825943,
-      "kl": 0.0009787013914319687,
       "learning_rate": 1.4957614383675767e-07,
       "loss": 0.0,
-      "reward": 5.436998054385185,
-      "reward_std": 3.547930169850588,
-      "rewards/concensus_correctness_reward_func": 3.238500000908971,
-      "rewards/consensus_reward_func": 0.5625,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.625,
-      "rewards/question_recreation_reward_func": 0.49681039340794086,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.015625,
-      "rewards/xmlcount_reward_func": 0.49856249056756496,
       "step": 14
     },
     {
-      "completion_length": 273.2916666666667,
-      "epoch": 4.0,
-      "grad_norm": 0.5299754738807678,
-      "kl": 0.0012067582186621924,
       "learning_rate": 8.067960709356478e-08,
       "loss": 0.0,
-      "reward": 5.310664594173431,
-      "reward_std": 5.288058837254842,
-      "rewards/concensus_correctness_reward_func": 3.3996666645010314,
-      "rewards/consensus_reward_func": 0.5833333333333334,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.5,
-      "rewards/question_recreation_reward_func": 0.3817480653524399,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.020833333333333332,
-      "rewards/xmlcount_reward_func": 0.42508334045608837,
       "step": 16
     },
     {
-      "completion_length": 278.3125,
-      "epoch": 4.571428571428571,
-      "grad_norm": 0.4644748270511627,
-      "kl": 0.0009234223907697015,
       "learning_rate": 3.013156219837776e-08,
       "loss": 0.0,
-      "reward": 3.4962043166160583,
-      "reward_std": 2.315919443964958,
-      "rewards/concensus_correctness_reward_func": 1.5001874919980764,
-      "rewards/consensus_reward_func": 0.4375,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.375,
-      "rewards/question_recreation_reward_func": 0.5770168341696262,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.015625,
-      "rewards/xmlcount_reward_func": 0.5908749960362911,
       "step": 18
     },
     {
-      "completion_length": 284.6666666666667,
-      "epoch": 5.0,
-      "grad_norm": 0.4399585723876953,
-      "kl": 0.0009526854555588216,
       "learning_rate": 3.4096741493194193e-09,
       "loss": 0.0,
-      "reward": 2.662622700134913,
-      "reward_std": 2.799840639034907,
-      "rewards/concensus_correctness_reward_func": 1.0315833588441212,
-      "rewards/consensus_reward_func": 0.16666666666666666,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.75,
-      "rewards/question_recreation_reward_func": 0.3671644628047943,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.020833333333333332,
-      "rewards/xmlcount_reward_func": 0.32637500762939453,
       "step": 20
     },
     {
-      "epoch": 5.0,
       "step": 20,
       "total_flos": 0.0,
-      "train_loss": 9.056671217422263e-07,
-      "train_runtime": 209.3759,
-      "train_samples_per_second": 1.528,
-      "train_steps_per_second": 0.096
     }
   ],
   "logging_steps": 2,
   "max_steps": 20,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 7,
   "save_steps": 25,
   "stateful_callbacks": {
     "TrainerControl": {

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.1764705882352942,
   "eval_steps": 500,
   "global_step": 20,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "completion_length": 217.84375,
+      "epoch": 0.11764705882352941,
+      "grad_norm": 1.826682686805725,
+      "kl": 0.0,
       "learning_rate": 5e-07,
+      "loss": -0.0,
+      "reward": 3.2268087416887283,
+      "reward_std": 2.3322924226522446,
+      "rewards/concensus_correctness_reward_func": 0.976875014603138,
+      "rewards/consensus_reward_func": 0.1875,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.8125,
+      "rewards/question_recreation_reward_func": 0.6482774838805199,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.046875,
+      "rewards/xmlcount_reward_func": 0.5547812636941671,
       "step": 2
     },
     {
+      "completion_length": 233.84375,
+      "epoch": 0.23529411764705882,
+      "grad_norm": 1.0961490869522095,
+      "kl": 0.001200974962557666,
       "learning_rate": 4.864543104251586e-07,
       "loss": 0.0,
+      "reward": 3.108445718884468,
+      "reward_std": 2.2234563287347555,
+      "rewards/concensus_correctness_reward_func": 0.851437509059906,
+      "rewards/consensus_reward_func": 0.375,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.6875,
+      "rewards/question_recreation_reward_func": 0.6667895615100861,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.5277187433093786,
       "step": 4
     },
     {
+      "completion_length": 282.28125,
+      "epoch": 0.35294117647058826,
+      "grad_norm": 0.7075032591819763,
+      "kl": 0.0011133984444313683,
       "learning_rate": 4.472851273490984e-07,
       "loss": 0.0,
+      "reward": 1.074852928519249,
+      "reward_std": 1.2115663811564445,
+      "rewards/concensus_correctness_reward_func": 0.17937499657273293,
+      "rewards/consensus_reward_func": 0.25,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.5102279596030712,
+      "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.015625,
+      "rewards/xmlcount_reward_func": 0.11962499842047691,
       "step": 6
     },
     {
+      "completion_length": 293.25,
+      "epoch": 0.47058823529411764,
+      "grad_norm": 0.6495484709739685,
+      "kl": 0.0011605023755691946,
       "learning_rate": 3.867370395306068e-07,
       "loss": 0.0,
+      "reward": 1.67036472260952,
+      "reward_std": 0.9529639165848494,
+      "rewards/concensus_correctness_reward_func": 0.04062499850988388,
+      "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.6875,
+      "rewards/question_recreation_reward_func": 0.4820521925576031,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.03125,
+      "rewards/xmlcount_reward_func": 0.42893750220537186,
       "step": 8
     },
     {
+      "completion_length": 280.6875,
+      "epoch": 0.5882352941176471,
+      "grad_norm": 0.6442954540252686,
+      "kl": 0.0010992462121066637,
       "learning_rate": 3.1137137178519977e-07,
       "loss": 0.0,
+      "reward": 3.6208968311548233,
+      "reward_std": 3.2573143392801285,
+      "rewards/concensus_correctness_reward_func": 1.5223124995827675,
+      "rewards/consensus_reward_func": 0.4375,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.6875,
+      "rewards/question_recreation_reward_func": 0.5581468176096678,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.015625,
+      "rewards/xmlcount_reward_func": 0.3998124934732914,
       "step": 10
     },
     {
+      "completion_length": 296.96875,
+      "epoch": 0.7058823529411765,
+      "grad_norm": 0.5486622452735901,
+      "kl": 0.0010163466577068903,
       "learning_rate": 2.2935516363191693e-07,
       "loss": 0.0,
+      "reward": 1.7767521739006042,
+      "reward_std": 1.2512648664414883,
+      "rewards/concensus_correctness_reward_func": 0.13512499630451202,
+      "rewards/consensus_reward_func": 0.3125,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.25,
+      "rewards/question_recreation_reward_func": 0.507283391430974,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.03125,
+      "rewards/xmlcount_reward_func": 0.5405937554314733,
       "step": 12
     },
     {
+      "completion_length": 280.21875,
+      "epoch": 0.8235294117647058,
+      "grad_norm": 0.7003024220466614,
+      "kl": 0.0011500604450702667,
       "learning_rate": 1.4957614383675767e-07,
       "loss": 0.0,
+      "reward": 1.5286345034837723,
+      "reward_std": 1.1845416110008955,
+      "rewards/concensus_correctness_reward_func": 0.1198124997317791,
+      "rewards/consensus_reward_func": 0.125,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.25,
+      "rewards/question_recreation_reward_func": 0.6319469586014748,
+      "rewards/soft_format_reward_func": 0.015625,
+      "rewards/strict_format_reward_func": 0.03125,
+      "rewards/xmlcount_reward_func": 0.3549999911338091,
       "step": 14
     },
     {
+      "completion_length": 219.4375,
+      "epoch": 0.9411764705882353,
+      "grad_norm": 1.0842115879058838,
+      "kl": 0.0011189617580384947,
       "learning_rate": 8.067960709356478e-08,
       "loss": 0.0,
+      "reward": 1.7492230832576752,
+      "reward_std": 1.1665935087949038,
+      "rewards/concensus_correctness_reward_func": 0.36506249755620956,
+      "rewards/consensus_reward_func": 0.0625,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.375,
+      "rewards/question_recreation_reward_func": 0.5363793037831783,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.015625,
+      "rewards/xmlcount_reward_func": 0.39465625397861004,
       "step": 16
     },
     {
+      "completion_length": 284.03125,
+      "epoch": 1.0588235294117647,
+      "grad_norm": 2.4416403770446777,
+      "kl": 0.001158669030701276,
       "learning_rate": 3.013156219837776e-08,
       "loss": 0.0,
+      "reward": 1.9761909544467926,
+      "reward_std": 1.3291921019554138,
+      "rewards/concensus_correctness_reward_func": 0.35487500205636024,
+      "rewards/consensus_reward_func": 0.25,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.375,
+      "rewards/question_recreation_reward_func": 0.49334714747965336,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.015625,
+      "rewards/xmlcount_reward_func": 0.48734376206994057,
       "step": 18
     },
     {
+      "completion_length": 286.96875,
+      "epoch": 1.1764705882352942,
+      "grad_norm": 0.7073269486427307,
+      "kl": 0.0009604431324987672,
       "learning_rate": 3.4096741493194193e-09,
       "loss": 0.0,
+      "reward": 1.7645552232861519,
+      "reward_std": 1.1460672579705715,
+      "rewards/concensus_correctness_reward_func": 0.1198749989271164,
+      "rewards/consensus_reward_func": 0.1875,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.375,
+      "rewards/question_recreation_reward_func": 0.6194614376872778,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.015625,
+      "rewards/xmlcount_reward_func": 0.4470937494188547,
       "step": 20
     },
     {
+      "epoch": 1.1764705882352942,
       "step": 20,
       "total_flos": 0.0,
+      "train_loss": 9.925538918764688e-07,
+      "train_runtime": 393.6647,
+      "train_samples_per_second": 0.813,
+      "train_steps_per_second": 0.051
     }
   ],
   "logging_steps": 2,
   "max_steps": 20,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
   "save_steps": 25,
   "stateful_callbacks": {
     "TrainerControl": {

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c5cdb1534e52ca5314cd4343a6ef0690dbd1d0341d45a8e52005965eacb7a629
 size 6008

 version https://git-lfs.github.com/spec/v1
+oid sha256:381a5139053708a91a9cb3689473ddb4cf14aeeb922b1796c6a602ead11f1ebc
 size 6008