nanaseven
/

gensyn-checkpoints-alert_pawing_anaconda

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc776becc95fbe02a1ac859fb301b9fcf3a55e4ef16f16375b4744c187aaa374
 size 73911112

 version https://git-lfs.github.com/spec/v1
+oid sha256:b74030f10d3160228406930325d36a0e11f151dac91c69265fcd63bfbbcf435c
 size 73911112

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 7.863756707138236e-07,
-    "train_runtime": 640.1178,
     "train_samples": 11,
-    "train_samples_per_second": 0.5,
-    "train_steps_per_second": 0.031
 }

 {
     "total_flos": 0.0,
+    "train_loss": 9.496039126588584e-07,
+    "train_runtime": 595.9763,
     "train_samples": 11,
+    "train_samples_per_second": 0.537,
+    "train_steps_per_second": 0.034
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 7.863756707138236e-07,
-    "train_runtime": 640.1178,
     "train_samples": 11,
-    "train_samples_per_second": 0.5,
-    "train_steps_per_second": 0.031
 }

 {
     "total_flos": 0.0,
+    "train_loss": 9.496039126588584e-07,
+    "train_runtime": 595.9763,
     "train_samples": 11,
+    "train_samples_per_second": 0.537,
+    "train_steps_per_second": 0.034
 }

trainer_state.json CHANGED Viewed

@@ -10,203 +10,203 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "completion_length": 550.875,
       "epoch": 0.7272727272727273,
-      "grad_norm": 0.45777520537376404,
-      "kl": 0.0007654934597667307,
       "learning_rate": 5e-07,
       "loss": 0.0,
-      "reward": 1.2178861554712057,
-      "reward_std": 1.0315534826368093,
-      "rewards/concensus_correctness_reward_func": 0.05581250041723251,
-      "rewards/consensus_reward_func": 0.25,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.714073620736599,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.015625,
-      "rewards/xmlcount_reward_func": 0.18237499706447124,
       "step": 2
     },
     {
-      "completion_length": 451.39285714285717,
       "epoch": 1.3636363636363638,
-      "grad_norm": 0.4094102382659912,
-      "kl": 0.0008595467994122633,
       "learning_rate": 4.864543104251586e-07,
       "loss": 0.0,
-      "reward": 1.0366223113877433,
-      "reward_std": 0.9736974281924111,
-      "rewards/concensus_correctness_reward_func": 0.06671428680419922,
-      "rewards/consensus_reward_func": 0.14285714285714285,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.5734794097287315,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.03571428571428571,
-      "rewards/xmlcount_reward_func": 0.2178571500948497,
       "step": 4
     },
     {
-      "completion_length": 545.4285714285714,
       "epoch": 2.0,
-      "grad_norm": 1.1615965366363525,
-      "kl": 0.0010022287938876875,
       "learning_rate": 4.472851273490984e-07,
       "loss": 0.0,
-      "reward": 1.0996366611548833,
-      "reward_std": 0.7963697058813912,
-      "rewards/concensus_correctness_reward_func": 0.0,
-      "rewards/consensus_reward_func": 0.14285714285714285,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.6227080971002579,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.3340714360986437,
       "step": 6
     },
     {
-      "completion_length": 535.75,
       "epoch": 2.7272727272727275,
-      "grad_norm": 0.40220996737480164,
-      "kl": 0.0007548142966697924,
       "learning_rate": 3.867370395306068e-07,
       "loss": 0.0,
-      "reward": 1.3414652850478888,
-      "reward_std": 1.381436176598072,
-      "rewards/concensus_correctness_reward_func": 0.058375000953674316,
-      "rewards/consensus_reward_func": 0.5,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.7077465280890465,
-      "rewards/soft_format_reward_func": 0.015625,
-      "rewards/strict_format_reward_func": 0.046875,
-      "rewards/xmlcount_reward_func": 0.012843752279877663,
       "step": 8
     },
     {
-      "completion_length": 450.67857142857144,
       "epoch": 3.3636363636363638,
-      "grad_norm": 0.875983715057373,
-      "kl": 0.0010413301559830351,
       "learning_rate": 3.1137137178519977e-07,
       "loss": 0.0,
-      "reward": 1.285496541431972,
-      "reward_std": 1.038329235145024,
-      "rewards/concensus_correctness_reward_func": 0.010428571275302343,
-      "rewards/consensus_reward_func": 0.35714285714285715,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.5192823154585702,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.017857142857142856,
-      "rewards/xmlcount_reward_func": 0.3807857057877949,
       "step": 10
     },
     {
-      "completion_length": 485.17857142857144,
       "epoch": 4.0,
-      "grad_norm": 0.5769083499908447,
-      "kl": 0.0008560529095120728,
       "learning_rate": 2.2935516363191693e-07,
       "loss": 0.0,
-      "reward": 0.7217345535755157,
-      "reward_std": 0.75581536761352,
-      "rewards/concensus_correctness_reward_func": 0.0,
-      "rewards/consensus_reward_func": 0.35714285714285715,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.5164488255977631,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": -0.15185714406626566,
       "step": 12
     },
     {
-      "completion_length": 524.875,
       "epoch": 4.7272727272727275,
-      "grad_norm": 0.3572564423084259,
-      "kl": 0.0007773590841679834,
       "learning_rate": 1.4957614383675767e-07,
       "loss": 0.0,
-      "reward": 1.3852677717804909,
-      "reward_std": 1.1142950728535652,
-      "rewards/concensus_correctness_reward_func": 0.08756250143051147,
-      "rewards/consensus_reward_func": 0.3125,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.6303927805274725,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.015625,
-      "rewards/xmlcount_reward_func": 0.33918749913573265,
       "step": 14
     },
     {
-      "completion_length": 508.67857142857144,
       "epoch": 5.363636363636363,
-      "grad_norm": 0.31392043828964233,
-      "kl": 0.0007805101091175207,
       "learning_rate": 8.067960709356478e-08,
       "loss": 0.0,
-      "reward": 1.120732605457306,
-      "reward_std": 0.9239210401262555,
-      "rewards/concensus_correctness_reward_func": 0.0,
-      "rewards/consensus_reward_func": 0.42857142857142855,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.666446851832526,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.025714287800448283,
       "step": 16
     },
     {
-      "completion_length": 581.7142857142857,
       "epoch": 6.0,
-      "grad_norm": 0.2554997205734253,
-      "kl": 0.000863249006215483,
       "learning_rate": 3.013156219837776e-08,
       "loss": 0.0,
-      "reward": 1.277112262589591,
-      "reward_std": 1.3873674528939384,
-      "rewards/concensus_correctness_reward_func": 0.030428571360451833,
-      "rewards/consensus_reward_func": 0.5,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.48282654157706667,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.017857142857142856,
-      "rewards/xmlcount_reward_func": 0.2460000097219433,
       "step": 18
     },
     {
-      "completion_length": 605.0625,
       "epoch": 6.7272727272727275,
-      "grad_norm": 1.3187799453735352,
-      "kl": 0.0007768853720335755,
       "learning_rate": 3.4096741493194193e-09,
       "loss": 0.0,
-      "reward": 0.7323021180927753,
-      "reward_std": 0.8204854354262352,
-      "rewards/concensus_correctness_reward_func": 0.0,
-      "rewards/consensus_reward_func": 0.1875,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.5385520961135626,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.006250008940696716,
       "step": 20
     },
     {
       "epoch": 6.7272727272727275,
       "step": 20,
       "total_flos": 0.0,
-      "train_loss": 7.863756707138236e-07,
-      "train_runtime": 640.1178,
-      "train_samples_per_second": 0.5,
-      "train_steps_per_second": 0.031
     }
   ],
   "logging_steps": 2,

   "is_world_process_zero": true,
   "log_history": [
     {
+      "completion_length": 543.28125,
       "epoch": 0.7272727272727273,
+      "grad_norm": 0.3445189297199249,
+      "kl": 0.0008705514628672972,
       "learning_rate": 5e-07,
       "loss": 0.0,
+      "reward": 1.0100069791078568,
+      "reward_std": 0.9977763369679451,
+      "rewards/concensus_correctness_reward_func": 0.0,
+      "rewards/consensus_reward_func": 0.125,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0625,
+      "rewards/question_recreation_reward_func": 0.5821007248014212,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.015625,
+      "rewards/xmlcount_reward_func": 0.22478125989437103,
       "step": 2
     },
     {
+      "completion_length": 379.5,
       "epoch": 1.3636363636363638,
+      "grad_norm": 0.5188289880752563,
+      "kl": 0.0010326807137711772,
       "learning_rate": 4.864543104251586e-07,
       "loss": 0.0,
+      "reward": 1.1896600723266602,
+      "reward_std": 0.8104643906865802,
+      "rewards/concensus_correctness_reward_func": 0.023285714643342153,
+      "rewards/consensus_reward_func": 0.21428571428571427,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.5144457753215518,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.05357142857142857,
+      "rewards/xmlcount_reward_func": 0.38407141821725027,
       "step": 4
     },
     {
+      "completion_length": 466.2142857142857,
       "epoch": 2.0,
+      "grad_norm": 0.2965703308582306,
+      "kl": 0.0009665271749586932,
       "learning_rate": 4.472851273490984e-07,
       "loss": 0.0,
+      "reward": 1.751989918095725,
+      "reward_std": 1.3265379582132613,
+      "rewards/concensus_correctness_reward_func": 0.16178571539265768,
+      "rewards/consensus_reward_func": 0.5,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.6600256391933986,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.017857142857142856,
+      "rewards/xmlcount_reward_func": 0.41232143555368694,
       "step": 6
     },
     {
+      "completion_length": 521.375,
       "epoch": 2.7272727272727275,
+      "grad_norm": 0.350164532661438,
+      "kl": 0.0012332394981058314,
       "learning_rate": 3.867370395306068e-07,
       "loss": 0.0,
+      "reward": 1.0985927749425173,
+      "reward_std": 1.0894518420100212,
+      "rewards/concensus_correctness_reward_func": 0.05675000138580799,
+      "rewards/consensus_reward_func": 0.25,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0625,
+      "rewards/question_recreation_reward_func": 0.6290614940226078,
+      "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.1002812460064888,
       "step": 8
     },
     {
+      "completion_length": 411.7142857142857,
       "epoch": 3.3636363636363638,
+      "grad_norm": 8.138790130615234,
+      "kl": 0.0017238165518002851,
       "learning_rate": 3.1137137178519977e-07,
       "loss": 0.0,
+      "reward": 1.2295081338712148,
+      "reward_std": 0.9759725044880595,
+      "rewards/concensus_correctness_reward_func": 0.08214285756860461,
+      "rewards/consensus_reward_func": 0.14285714285714285,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.5410081552607673,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.4635000101157597,
       "step": 10
     },
     {
+      "completion_length": 528.1428571428571,
       "epoch": 4.0,
+      "grad_norm": 0.32505863904953003,
+      "kl": 0.0007284850206425679,
       "learning_rate": 2.2935516363191693e-07,
       "loss": 0.0,
+      "reward": 0.861050790974072,
+      "reward_std": 0.9203962875264031,
+      "rewards/concensus_correctness_reward_func": 0.020785714898790632,
+      "rewards/consensus_reward_func": 0.21428571428571427,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.4984793875898634,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.017857142857142856,
+      "rewards/xmlcount_reward_func": 0.10964285901614598,
       "step": 12
     },
     {
+      "completion_length": 511.1875,
       "epoch": 4.7272727272727275,
+      "grad_norm": 0.43204087018966675,
+      "kl": 0.0008530403756594751,
       "learning_rate": 1.4957614383675767e-07,
       "loss": 0.0,
+      "reward": 1.1172187887132168,
+      "reward_std": 1.0028733648359776,
+      "rewards/concensus_correctness_reward_func": 0.06968750059604645,
+      "rewards/consensus_reward_func": 0.25,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.6274687796831131,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.17006250098347664,
       "step": 14
     },
     {
+      "completion_length": 370.39285714285717,
       "epoch": 5.363636363636363,
+      "grad_norm": 0.5046386122703552,
+      "kl": 0.0009942995467489319,
       "learning_rate": 8.067960709356478e-08,
       "loss": 0.0,
+      "reward": 0.9930062549454826,
+      "reward_std": 0.738968448979514,
+      "rewards/concensus_correctness_reward_func": 0.046571429286684306,
+      "rewards/consensus_reward_func": 0.14285714285714285,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.49393484209265026,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.017857142857142856,
+      "rewards/xmlcount_reward_func": 0.29178571488176075,
       "step": 16
     },
     {
+      "completion_length": 486.0,
       "epoch": 6.0,
+      "grad_norm": 0.3805617392063141,
+      "kl": 0.0008963179175875016,
       "learning_rate": 3.013156219837776e-08,
       "loss": 0.0,
+      "reward": 1.1877263465097971,
+      "reward_std": 1.3109940929072244,
+      "rewards/concensus_correctness_reward_func": 0.05885714292526245,
+      "rewards/consensus_reward_func": 0.35714285714285715,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.5371549001761845,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.23457142923559463,
       "step": 18
     },
     {
+      "completion_length": 496.5625,
       "epoch": 6.7272727272727275,
+      "grad_norm": 0.41473859548568726,
+      "kl": 0.0008652826727484353,
       "learning_rate": 3.4096741493194193e-09,
       "loss": 0.0,
+      "reward": 0.988437857478857,
+      "reward_std": 0.948450181633234,
+      "rewards/concensus_correctness_reward_func": 0.07187500037252903,
+      "rewards/consensus_reward_func": 0.125,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.5851565636694431,
+      "rewards/soft_format_reward_func": 0.015625,
+      "rewards/strict_format_reward_func": 0.015625,
+      "rewards/xmlcount_reward_func": 0.17515624780207872,
       "step": 20
     },
     {
       "epoch": 6.7272727272727275,
       "step": 20,
       "total_flos": 0.0,
+      "train_loss": 9.496039126588584e-07,
+      "train_runtime": 595.9763,
+      "train_samples_per_second": 0.537,
+      "train_steps_per_second": 0.034
     }
   ],
   "logging_steps": 2,