getdazo
/

gensyn-checkpoints-padded_skilled_beaver

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:18e0e99459f95fbc38121e2f30ae62d7bb7663c405e4b1e08d8b2070d948ff1a
 size 73911112

 version https://git-lfs.github.com/spec/v1
+oid sha256:df9910c2473475436096a57de2a1a34115fd2a0906a674045e6a6d6cfc1bd76e
 size 73911112

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 1.6906848486542002e-06,
-    "train_runtime": 601.1567,
     "train_samples": 11,
-    "train_samples_per_second": 0.532,
-    "train_steps_per_second": 0.033
 }

 {
     "total_flos": 0.0,
+    "train_loss": 2.076730527278414e-06,
+    "train_runtime": 524.372,
     "train_samples": 11,
+    "train_samples_per_second": 0.61,
+    "train_steps_per_second": 0.038
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 1.6906848486542002e-06,
-    "train_runtime": 601.1567,
     "train_samples": 11,
-    "train_samples_per_second": 0.532,
-    "train_steps_per_second": 0.033
 }

 {
     "total_flos": 0.0,
+    "train_loss": 2.076730527278414e-06,
+    "train_runtime": 524.372,
     "train_samples": 11,
+    "train_samples_per_second": 0.61,
+    "train_steps_per_second": 0.038
 }

trainer_state.json CHANGED Viewed

@@ -10,203 +10,203 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "completion_length": 388.84375,
       "epoch": 0.7272727272727273,
-      "grad_norm": 0.48552459478378296,
-      "kl": 0.0017748357058735564,
       "learning_rate": 5e-07,
       "loss": 0.0,
-      "reward": 1.0214593298733234,
-      "reward_std": 0.807832048740238,
-      "rewards/concensus_correctness_reward_func": 0.015062499791383743,
-      "rewards/consensus_reward_func": 0.1875,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.5004593338817358,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.015625,
-      "rewards/xmlcount_reward_func": 0.3028125078417361,
       "step": 2
     },
     {
-      "completion_length": 441.17857142857144,
       "epoch": 1.3636363636363638,
-      "grad_norm": 0.5096873044967651,
-      "kl": 0.0018205534766561218,
       "learning_rate": 4.864543104251586e-07,
       "loss": 0.0,
-      "reward": 0.617098694401128,
-      "reward_std": 1.1483001708984375,
-      "rewards/concensus_correctness_reward_func": 0.026142856904438565,
-      "rewards/consensus_reward_func": 0.35714285714285715,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.3088844099215099,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": -0.07507143169641495,
       "step": 4
     },
     {
-      "completion_length": 517.1428571428571,
       "epoch": 2.0,
-      "grad_norm": 0.35828766226768494,
-      "kl": 0.0017008750562256733,
       "learning_rate": 4.472851273490984e-07,
       "loss": 0.0,
-      "reward": 0.9963706178324563,
-      "reward_std": 0.9887118424688067,
-      "rewards/concensus_correctness_reward_func": 0.0,
-      "rewards/consensus_reward_func": 0.2857142857142857,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.4407991921263082,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.017857142857142856,
-      "rewards/xmlcount_reward_func": 0.2519999955381666,
       "step": 6
     },
     {
-      "completion_length": 453.0625,
       "epoch": 2.7272727272727275,
-      "grad_norm": 0.5460866093635559,
-      "kl": 0.0018429567135171965,
       "learning_rate": 3.867370395306068e-07,
       "loss": 0.0,
-      "reward": 1.186364758759737,
-      "reward_std": 1.1683831848204136,
-      "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.5,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.6323335003107786,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.015625,
-      "rewards/xmlcount_reward_func": 0.038406244944781065,
       "step": 8
     },
     {
-      "completion_length": 397.39285714285717,
       "epoch": 3.3636363636363638,
-      "grad_norm": 0.5277209281921387,
-      "kl": 0.002000868137526725,
       "learning_rate": 3.1137137178519977e-07,
       "loss": 0.0,
-      "reward": 0.4488908350467682,
-      "reward_std": 1.1080620735883713,
-      "rewards/concensus_correctness_reward_func": 0.0,
-      "rewards/consensus_reward_func": 0.2857142857142857,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.19853368774056435,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": -0.035357143197740824,
       "step": 10
     },
     {
-      "completion_length": 509.2142857142857,
       "epoch": 4.0,
-      "grad_norm": 0.30803337693214417,
-      "kl": 0.001374105893773958,
       "learning_rate": 2.2935516363191693e-07,
       "loss": 0.0,
-      "reward": 0.7413421443530491,
-      "reward_std": 0.7074461260012218,
-      "rewards/concensus_correctness_reward_func": 0.0,
-      "rewards/consensus_reward_func": 0.07142857142857142,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.48162783469472614,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.1882857233285904,
       "step": 12
     },
     {
-      "completion_length": 450.1875,
       "epoch": 4.7272727272727275,
-      "grad_norm": 0.40053004026412964,
-      "kl": 0.001938315741426777,
       "learning_rate": 1.4957614383675767e-07,
       "loss": 0.0,
-      "reward": 1.0490950047969818,
-      "reward_std": 0.9727607518434525,
-      "rewards/concensus_correctness_reward_func": 0.0,
-      "rewards/consensus_reward_func": 0.25,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.39528246596455574,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.015625,
-      "rewards/xmlcount_reward_func": 0.38818751042708755,
       "step": 14
     },
     {
-      "completion_length": 478.0357142857143,
       "epoch": 5.363636363636363,
-      "grad_norm": 0.291515976190567,
-      "kl": 0.0017910206973153567,
       "learning_rate": 8.067960709356478e-08,
       "loss": 0.0,
-      "reward": 0.9873885129179273,
-      "reward_std": 0.6423424354621342,
-      "rewards/concensus_correctness_reward_func": 0.017857142857142856,
-      "rewards/consensus_reward_func": 0.2857142857142857,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.5028885134628841,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.18092856236866542,
       "step": 16
     },
     {
-      "completion_length": 340.64285714285717,
       "epoch": 6.0,
-      "grad_norm": 0.45168033242225647,
-      "kl": 0.001993584363455219,
       "learning_rate": 3.013156219837776e-08,
       "loss": 0.0,
-      "reward": 0.9638688521725791,
-      "reward_std": 0.8434336355754307,
-      "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.21428571428571427,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.5359759884221214,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.21360714094979422,
       "step": 18
     },
     {
-      "completion_length": 404.375,
       "epoch": 6.7272727272727275,
-      "grad_norm": 0.39723899960517883,
-      "kl": 0.00198130750504788,
       "learning_rate": 3.4096741493194193e-09,
       "loss": 0.0,
-      "reward": 0.5232347808778286,
-      "reward_std": 1.0085711106657982,
-      "rewards/concensus_correctness_reward_func": 0.0,
-      "rewards/consensus_reward_func": 0.1875,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0625,
-      "rewards/question_recreation_reward_func": 0.4233285393565893,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": -0.1500937445089221,
       "step": 20
     },
     {
       "epoch": 6.7272727272727275,
       "step": 20,
       "total_flos": 0.0,
-      "train_loss": 1.6906848486542002e-06,
-      "train_runtime": 601.1567,
-      "train_samples_per_second": 0.532,
-      "train_steps_per_second": 0.033
     }
   ],
   "logging_steps": 2,

   "is_world_process_zero": true,
   "log_history": [
     {
+      "completion_length": 449.125,
       "epoch": 0.7272727272727273,
+      "grad_norm": 0.3807388246059418,
+      "kl": 0.0019903297506971285,
       "learning_rate": 5e-07,
       "loss": 0.0,
+      "reward": 1.406097762286663,
+      "reward_std": 1.113796167075634,
+      "rewards/concensus_correctness_reward_func": 0.010937499813735485,
+      "rewards/consensus_reward_func": 0.25,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.125,
+      "rewards/question_recreation_reward_func": 0.5855664983391762,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.015625,
+      "rewards/xmlcount_reward_func": 0.4189687464386225,
       "step": 2
     },
     {
+      "completion_length": 348.92857142857144,
       "epoch": 1.3636363636363638,
+      "grad_norm": 0.4595084488391876,
+      "kl": 0.0022191137042162673,
       "learning_rate": 4.864543104251586e-07,
       "loss": 0.0,
+      "reward": 0.8719160045896258,
+      "reward_std": 0.9333508142403194,
+      "rewards/concensus_correctness_reward_func": 0.08057142794132233,
+      "rewards/consensus_reward_func": 0.2857142857142857,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.3250231317111424,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.18060714538608277,
       "step": 4
     },
     {
+      "completion_length": 440.9642857142857,
       "epoch": 2.0,
+      "grad_norm": 0.3232056498527527,
+      "kl": 0.0021286898658477832,
       "learning_rate": 4.472851273490984e-07,
       "loss": 0.0,
+      "reward": 1.3861525399344308,
+      "reward_std": 0.7876244613102504,
+      "rewards/concensus_correctness_reward_func": 0.04835714080504009,
+      "rewards/consensus_reward_func": 0.07142857142857142,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.14285714285714285,
+      "rewards/question_recreation_reward_func": 0.6401168065411704,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.4833928660622665,
       "step": 6
     },
     {
+      "completion_length": 416.625,
       "epoch": 2.7272727272727275,
+      "grad_norm": 0.4202381670475006,
+      "kl": 0.002531672638724558,
       "learning_rate": 3.867370395306068e-07,
       "loss": 0.0,
+      "reward": 2.0824500545859337,
+      "reward_std": 2.86203820258379,
+      "rewards/concensus_correctness_reward_func": 0.73768749833107,
       "rewards/consensus_reward_func": 0.5,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.1875,
+      "rewards/question_recreation_reward_func": 0.5667937621474266,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.0904687475413084,
       "step": 8
     },
     {
+      "completion_length": 327.07142857142856,
       "epoch": 3.3636363636363638,
+      "grad_norm": 0.5058386921882629,
+      "kl": 0.0022590763068624903,
       "learning_rate": 3.1137137178519977e-07,
       "loss": 0.0,
+      "reward": 1.409968066428389,
+      "reward_std": 0.9637939759663173,
+      "rewards/concensus_correctness_reward_func": 0.02835714284862791,
+      "rewards/consensus_reward_func": 0.7142857142857143,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.3100038282573223,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.357321420950549,
       "step": 10
     },
     {
+      "completion_length": 517.1785714285714,
       "epoch": 4.0,
+      "grad_norm": 0.26234760880470276,
+      "kl": 0.001987605929441218,
       "learning_rate": 2.2935516363191693e-07,
       "loss": 0.0,
+      "reward": 1.0810784995555878,
+      "reward_std": 1.0942502628479684,
+      "rewards/concensus_correctness_reward_func": 0.012499999787126268,
+      "rewards/consensus_reward_func": 0.21428571428571427,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.14285714285714285,
+      "rewards/question_recreation_reward_func": 0.5876856212105069,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.12374999959553991,
       "step": 12
     },
     {
+      "completion_length": 328.6875,
       "epoch": 4.7272727272727275,
+      "grad_norm": 1.1323639154434204,
+      "kl": 0.00272054981905967,
       "learning_rate": 1.4957614383675767e-07,
       "loss": 0.0,
+      "reward": 1.329150915145874,
+      "reward_std": 1.0949683301150799,
+      "rewards/concensus_correctness_reward_func": 0.13099999725818634,
+      "rewards/consensus_reward_func": 0.3125,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0625,
+      "rewards/question_recreation_reward_func": 0.44783842097967863,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.03125,
+      "rewards/xmlcount_reward_func": 0.3440624922513962,
       "step": 14
     },
     {
+      "completion_length": 494.42857142857144,
       "epoch": 5.363636363636363,
+      "grad_norm": 0.4337659180164337,
+      "kl": 0.0017777302834604467,
       "learning_rate": 8.067960709356478e-08,
       "loss": 0.0,
+      "reward": 1.7448606065341405,
+      "reward_std": 2.1169755118233815,
+      "rewards/concensus_correctness_reward_func": 0.7222142858164651,
+      "rewards/consensus_reward_func": 0.14285714285714285,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.14285714285714285,
+      "rewards/question_recreation_reward_func": 0.616039117532117,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.12089284828730992,
       "step": 16
     },
     {
+      "completion_length": 431.5357142857143,
       "epoch": 6.0,
+      "grad_norm": 0.3222845494747162,
+      "kl": 0.0020111902350825922,
       "learning_rate": 3.013156219837776e-08,
       "loss": 0.0,
+      "reward": 0.7860727821077619,
+      "reward_std": 1.0520371198654175,
+      "rewards/concensus_correctness_reward_func": 0.09757142833301,
       "rewards/consensus_reward_func": 0.21428571428571427,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.4905013633625848,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.017857142857142856,
+      "rewards/xmlcount_reward_func": -0.03414285236171314,
       "step": 18
     },
     {
+      "completion_length": 361.5625,
       "epoch": 6.7272727272727275,
+      "grad_norm": 0.3931458592414856,
+      "kl": 0.0026511912437854335,
       "learning_rate": 3.4096741493194193e-09,
       "loss": 0.0,
+      "reward": 1.382125150412321,
+      "reward_std": 1.2021963521838188,
+      "rewards/concensus_correctness_reward_func": 0.02481249999254942,
+      "rewards/consensus_reward_func": 0.375,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.5481251338496804,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.03125,
+      "rewards/xmlcount_reward_func": 0.4029375044628978,
       "step": 20
     },
     {
       "epoch": 6.7272727272727275,
       "step": 20,
       "total_flos": 0.0,
+      "train_loss": 2.076730527278414e-06,
+      "train_runtime": 524.372,
+      "train_samples_per_second": 0.61,
+      "train_steps_per_second": 0.038
     }
   ],
   "logging_steps": 2,