daitote51
/

gensyn-checkpoints-mighty_striped_mosquito

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c070d51a9f67f6ea7338b68fd1257bfbf274af315792dc96c4cace93a668965b
 size 73911112

 version https://git-lfs.github.com/spec/v1
+oid sha256:dcee684657599e0415179ab3726d9ac27ee1927d8110384fecce84b1c8bccc6d
 size 73911112

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 6.391482713752339e-07,
-    "train_runtime": 1705.4507,
     "train_samples": 11,
-    "train_samples_per_second": 0.188,
     "train_steps_per_second": 0.012
 }

 {
     "total_flos": 0.0,
+    "train_loss": 6.14172711266292e-07,
+    "train_runtime": 1676.0262,
     "train_samples": 11,
+    "train_samples_per_second": 0.191,
     "train_steps_per_second": 0.012
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 6.391482713752339e-07,
-    "train_runtime": 1705.4507,
     "train_samples": 11,
-    "train_samples_per_second": 0.188,
     "train_steps_per_second": 0.012
 }

 {
     "total_flos": 0.0,
+    "train_loss": 6.14172711266292e-07,
+    "train_runtime": 1676.0262,
     "train_samples": 11,
+    "train_samples_per_second": 0.191,
     "train_steps_per_second": 0.012
 }

trainer_state.json CHANGED Viewed

@@ -10,202 +10,202 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "completion_length": 516.0,
       "epoch": 0.7272727272727273,
-      "grad_norm": 0.3357677161693573,
-      "kl": 0.0006729449414706323,
       "learning_rate": 5e-07,
       "loss": 0.0,
-      "reward": 3.125597920268774,
-      "reward_std": 2.2952173352241516,
-      "rewards/concensus_correctness_reward_func": 1.875,
-      "rewards/consensus_reward_func": 0.375,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.25,
-      "rewards/question_recreation_reward_func": 0.5120979361236095,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.015625,
-      "rewards/xmlcount_reward_func": 0.09787500463426113,
       "step": 2
     },
     {
-      "completion_length": 435.89285714285717,
       "epoch": 1.3636363636363638,
-      "grad_norm": 0.46449363231658936,
-      "kl": 0.0007510603214281478,
       "learning_rate": 4.864543104251586e-07,
       "loss": 0.0,
-      "reward": 1.2423666971070426,
-      "reward_std": 1.0784930757113866,
       "rewards/concensus_correctness_reward_func": 0.0,
-      "rewards/consensus_reward_func": 0.2857142857142857,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.21428571428571427,
-      "rewards/question_recreation_reward_func": 0.5815095284155437,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.16085714314665114,
       "step": 4
     },
     {
-      "completion_length": 542.7142857142857,
       "epoch": 2.0,
-      "grad_norm": 0.32413333654403687,
-      "kl": 0.0006362968457064458,
       "learning_rate": 4.472851273490984e-07,
       "loss": 0.0,
-      "reward": 2.1455562114715576,
-      "reward_std": 2.3981991580554416,
-      "rewards/concensus_correctness_reward_func": 0.7865714345659528,
-      "rewards/consensus_reward_func": 0.2857142857142857,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.35714285714285715,
-      "rewards/question_recreation_reward_func": 0.4690205305814743,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.017857142857142856,
-      "rewards/xmlcount_reward_func": 0.22924999679837907,
       "step": 6
     },
     {
-      "completion_length": 484.78125,
       "epoch": 2.7272727272727275,
-      "grad_norm": 0.3942921459674835,
-      "kl": 0.0006593098514713347,
       "learning_rate": 3.867370395306068e-07,
       "loss": 0.0,
-      "reward": 1.4299696236848831,
-      "reward_std": 2.1760378032922745,
-      "rewards/concensus_correctness_reward_func": 0.625,
-      "rewards/consensus_reward_func": 0.125,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.3125,
-      "rewards/question_recreation_reward_func": 0.4251883286051452,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.015625,
-      "rewards/xmlcount_reward_func": -0.07334375381469727,
       "step": 8
     },
     {
-      "completion_length": 448.5,
       "epoch": 3.3636363636363638,
-      "grad_norm": 0.5723656415939331,
-      "kl": 0.0007702849356324545,
       "learning_rate": 3.1137137178519977e-07,
       "loss": 0.0,
-      "reward": 1.3069453154291426,
-      "reward_std": 0.9472891177449908,
       "rewards/concensus_correctness_reward_func": 0.0,
-      "rewards/consensus_reward_func": 0.21428571428571427,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.21428571428571427,
-      "rewards/question_recreation_reward_func": 0.6674810222217015,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.017857142857142856,
-      "rewards/xmlcount_reward_func": 0.19303571858576365,
       "step": 10
     },
     {
-      "completion_length": 529.1785714285714,
       "epoch": 4.0,
-      "grad_norm": 0.2749210298061371,
-      "kl": 0.0005874066555406898,
       "learning_rate": 2.2935516363191693e-07,
       "loss": 0.0,
-      "reward": 1.774957035269056,
-      "reward_std": 2.033292297806059,
-      "rewards/concensus_correctness_reward_func": 0.7142857142857143,
-      "rewards/consensus_reward_func": 0.21428571428571427,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.14285714285714285,
-      "rewards/question_recreation_reward_func": 0.49377850549561636,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.017857142857142856,
-      "rewards/xmlcount_reward_func": 0.19189286977052689,
       "step": 12
     },
     {
-      "completion_length": 532.34375,
       "epoch": 4.7272727272727275,
-      "grad_norm": 1.3819353580474854,
-      "kl": 0.0006300608365563676,
       "learning_rate": 1.4957614383675767e-07,
       "loss": 0.0,
-      "reward": 1.9463505819439888,
-      "reward_std": 2.6404442563652992,
-      "rewards/concensus_correctness_reward_func": 0.671875,
-      "rewards/consensus_reward_func": 0.4375,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.125,
-      "rewards/question_recreation_reward_func": 0.5107255633920431,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.015625,
-      "rewards/xmlcount_reward_func": 0.18562499526888132,
       "step": 14
     },
     {
-      "completion_length": 431.42857142857144,
       "epoch": 5.363636363636363,
-      "grad_norm": 4.411003112792969,
-      "kl": 0.0008441319223493338,
       "learning_rate": 8.067960709356478e-08,
       "loss": 0.0,
-      "reward": 1.1094366950648171,
-      "reward_std": 1.0833323001861572,
-      "rewards/concensus_correctness_reward_func": 0.09014285462243217,
-      "rewards/consensus_reward_func": 0.07142857142857142,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.2857142857142857,
-      "rewards/question_recreation_reward_func": 0.533722426210131,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.12842857199055807,
       "step": 16
     },
     {
-      "completion_length": 525.3571428571429,
       "epoch": 6.0,
-      "grad_norm": 0.29626092314720154,
-      "kl": 0.0006442602773729179,
       "learning_rate": 3.013156219837776e-08,
       "loss": 0.0,
-      "reward": 1.26931916815894,
-      "reward_std": 1.0765699659075056,
       "rewards/concensus_correctness_reward_func": 0.0,
-      "rewards/consensus_reward_func": 0.21428571428571427,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.21428571428571427,
-      "rewards/question_recreation_reward_func": 0.4700334050825664,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.07142857142857142,
-      "rewards/xmlcount_reward_func": 0.2992857077292034,
       "step": 18
     },
     {
-      "completion_length": 510.71875,
       "epoch": 6.7272727272727275,
-      "grad_norm": 0.40656477212905884,
-      "kl": 0.0006695479096379131,
       "learning_rate": 3.4096741493194193e-09,
       "loss": 0.0,
-      "reward": 0.7778730411082506,
-      "reward_std": 0.9787198156118393,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.125,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.25,
-      "rewards/question_recreation_reward_func": 0.38215427100658417,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.015625,
-      "rewards/xmlcount_reward_func": 0.005093761719763279,
       "step": 20
     },
     {
       "epoch": 6.7272727272727275,
       "step": 20,
       "total_flos": 0.0,
-      "train_loss": 6.391482713752339e-07,
-      "train_runtime": 1705.4507,
-      "train_samples_per_second": 0.188,
       "train_steps_per_second": 0.012
     }
   ],

   "is_world_process_zero": true,
   "log_history": [
     {
+      "completion_length": 613.0,
       "epoch": 0.7272727272727273,
+      "grad_norm": 0.24522292613983154,
+      "kl": 0.0005619159528578166,
       "learning_rate": 5e-07,
       "loss": 0.0,
+      "reward": 0.6703863288275898,
+      "reward_std": 1.126855794340372,
+      "rewards/concensus_correctness_reward_func": 0.06362499902024865,
+      "rewards/consensus_reward_func": 0.25,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.44601133465766907,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": -0.08924999088048935,
       "step": 2
     },
     {
+      "completion_length": 589.4285714285714,
       "epoch": 1.3636363636363638,
+      "grad_norm": 0.27994006872177124,
+      "kl": 0.0006406649232043751,
       "learning_rate": 4.864543104251586e-07,
       "loss": 0.0,
+      "reward": 0.6909585297107697,
+      "reward_std": 1.2162732226508004,
       "rewards/concensus_correctness_reward_func": 0.0,
+      "rewards/consensus_reward_func": 0.21428571428571427,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.14285714285714285,
+      "rewards/question_recreation_reward_func": 0.5334942394069263,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": -0.19967857003211975,
       "step": 4
     },
     {
+      "completion_length": 429.35714285714283,
       "epoch": 2.0,
+      "grad_norm": 0.649292528629303,
+      "kl": 0.0007167610373081905,
       "learning_rate": 4.472851273490984e-07,
       "loss": 0.0,
+      "reward": 0.8096832718167987,
+      "reward_std": 1.2684654082570757,
+      "rewards/concensus_correctness_reward_func": 0.0061428573514734,
+      "rewards/consensus_reward_func": 0.14285714285714285,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.21428571428571427,
+      "rewards/question_recreation_reward_func": 0.3149689648832594,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.017857142857142856,
+      "rewards/xmlcount_reward_func": 0.11357141818319048,
       "step": 6
     },
     {
+      "completion_length": 528.28125,
       "epoch": 2.7272727272727275,
+      "grad_norm": 0.4247061312198639,
+      "kl": 0.0006532615007017739,
       "learning_rate": 3.867370395306068e-07,
       "loss": 0.0,
+      "reward": 0.608462642878294,
+      "reward_std": 0.904325507581234,
+      "rewards/concensus_correctness_reward_func": 0.0,
+      "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.1875,
+      "rewards/question_recreation_reward_func": 0.42793136183172464,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.015625,
+      "rewards/xmlcount_reward_func": -0.022593742236495018,
       "step": 8
     },
     {
+      "completion_length": 515.9642857142857,
       "epoch": 3.3636363636363638,
+      "grad_norm": 0.6112687587738037,
+      "kl": 0.0007279971780787621,
       "learning_rate": 3.1137137178519977e-07,
       "loss": 0.0,
+      "reward": 0.7809470061744962,
+      "reward_std": 1.25520954813276,
       "rewards/concensus_correctness_reward_func": 0.0,
+      "rewards/consensus_reward_func": 0.14285714285714285,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.2857142857142857,
+      "rewards/question_recreation_reward_func": 0.5194827147892543,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": -0.1671071414436613,
       "step": 10
     },
     {
+      "completion_length": 520.0357142857143,
       "epoch": 4.0,
+      "grad_norm": 0.29373371601104736,
+      "kl": 0.0006241699115240148,
       "learning_rate": 2.2935516363191693e-07,
       "loss": 0.0,
+      "reward": 0.7070630788803101,
+      "reward_std": 0.9244653582572937,
+      "rewards/concensus_correctness_reward_func": 0.0,
+      "rewards/consensus_reward_func": 0.14285714285714285,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.5393130736691611,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.024892862354006087,
       "step": 12
     },
     {
+      "completion_length": 595.1875,
       "epoch": 4.7272727272727275,
+      "grad_norm": 0.2765561640262604,
+      "kl": 0.0006751239561708644,
       "learning_rate": 1.4957614383675767e-07,
       "loss": 0.0,
+      "reward": 0.6923840567469597,
+      "reward_std": 0.9703349322080612,
+      "rewards/concensus_correctness_reward_func": 0.0,
+      "rewards/consensus_reward_func": 0.0625,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0625,
+      "rewards/question_recreation_reward_func": 0.5641340762376785,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.0032499851658940315,
       "step": 14
     },
     {
+      "completion_length": 496.7142857142857,
       "epoch": 5.363636363636363,
+      "grad_norm": 0.3044429421424866,
+      "kl": 0.0006677072919306479,
       "learning_rate": 8.067960709356478e-08,
       "loss": 0.0,
+      "reward": 1.6827466019562312,
+      "reward_std": 2.3171258632625853,
+      "rewards/concensus_correctness_reward_func": 0.7142857142857143,
+      "rewards/consensus_reward_func": 0.14285714285714285,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.14285714285714285,
+      "rewards/question_recreation_reward_func": 0.5389608804668699,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.14378570978130614,
       "step": 16
     },
     {
+      "completion_length": 486.39285714285717,
       "epoch": 6.0,
+      "grad_norm": 0.32584676146507263,
+      "kl": 0.0007059235857533557,
       "learning_rate": 3.013156219837776e-08,
       "loss": 0.0,
+      "reward": 0.6391109717743737,
+      "reward_std": 0.8559697781290326,
       "rewards/concensus_correctness_reward_func": 0.0,
+      "rewards/consensus_reward_func": 0.14285714285714285,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.39850386125700815,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.09774999746254512,
       "step": 18
     },
     {
+      "completion_length": 527.46875,
       "epoch": 6.7272727272727275,
+      "grad_norm": 0.3653308153152466,
+      "kl": 0.0006879912543809041,
       "learning_rate": 3.4096741493194193e-09,
       "loss": 0.0,
+      "reward": 0.6358731538057327,
+      "reward_std": 1.2101131454110146,
       "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.125,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.125,
+      "rewards/question_recreation_reward_func": 0.45649817399680614,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.015625,
+      "rewards/xmlcount_reward_func": -0.08625001832842827,
       "step": 20
     },
     {
       "epoch": 6.7272727272727275,
       "step": 20,
       "total_flos": 0.0,
+      "train_loss": 6.14172711266292e-07,
+      "train_runtime": 1676.0262,
+      "train_samples_per_second": 0.191,
       "train_steps_per_second": 0.012
     }
   ],