nanaseven
/

gensyn-checkpoints-alert_pawing_anaconda

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0a93f405d7e66be9246ef079e52aad0aacdb9601992785ff3c5594dd0667fffe
 size 73911112

 version https://git-lfs.github.com/spec/v1
+oid sha256:1073d76a18d971079c06d227040aace0e4dfda72904e1c626faa46f5a1bab622
 size 73911112

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 2.0234582962075363e-06,
-    "train_runtime": 614.9137,
     "train_samples": 11,
-    "train_samples_per_second": 0.52,
-    "train_steps_per_second": 0.033
 }

 {
     "total_flos": 0.0,
+    "train_loss": 2.193293255459139e-06,
+    "train_runtime": 577.4662,
     "train_samples": 11,
+    "train_samples_per_second": 0.554,
+    "train_steps_per_second": 0.035
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 2.0234582962075363e-06,
-    "train_runtime": 614.9137,
     "train_samples": 11,
-    "train_samples_per_second": 0.52,
-    "train_steps_per_second": 0.033
 }

 {
     "total_flos": 0.0,
+    "train_loss": 2.193293255459139e-06,
+    "train_runtime": 577.4662,
     "train_samples": 11,
+    "train_samples_per_second": 0.554,
+    "train_steps_per_second": 0.035
 }

trainer_state.json CHANGED Viewed

@@ -10,203 +10,203 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "completion_length": 463.625,
       "epoch": 0.7272727272727273,
-      "grad_norm": 0.29467934370040894,
-      "kl": 0.0022194915072759613,
       "learning_rate": 5e-07,
       "loss": 0.0,
-      "reward": 1.206285946071148,
-      "reward_std": 1.053464598953724,
-      "rewards/concensus_correctness_reward_func": 0.029750000685453415,
-      "rewards/consensus_reward_func": 0.4375,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.5713484399020672,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.015625,
-      "rewards/xmlcount_reward_func": 0.15206249244511127,
       "step": 2
     },
     {
-      "completion_length": 477.17857142857144,
       "epoch": 1.3636363636363638,
-      "grad_norm": 0.417680561542511,
-      "kl": 0.0022302163831357446,
       "learning_rate": 4.864543104251586e-07,
       "loss": 0.0,
-      "reward": 0.780880977000509,
-      "reward_std": 1.0051798288311278,
-      "rewards/concensus_correctness_reward_func": 0.0,
-      "rewards/consensus_reward_func": 0.2857142857142857,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.5367024264165333,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": -0.041535715971674235,
       "step": 4
     },
     {
-      "completion_length": 457.39285714285717,
       "epoch": 2.0,
-      "grad_norm": 0.4828920066356659,
-      "kl": 0.0018148730908121382,
       "learning_rate": 4.472851273490984e-07,
       "loss": 0.0,
-      "reward": 1.3468727810042245,
-      "reward_std": 0.7900346496275493,
-      "rewards/concensus_correctness_reward_func": 0.0,
-      "rewards/consensus_reward_func": 0.42857142857142855,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.5968728108065469,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.017857142857142856,
-      "rewards/xmlcount_reward_func": 0.30357142218521665,
       "step": 6
     },
     {
-      "completion_length": 479.1875,
       "epoch": 2.7272727272727275,
-      "grad_norm": 0.43845751881599426,
-      "kl": 0.002059694947092794,
       "learning_rate": 3.867370395306068e-07,
       "loss": 0.0,
-      "reward": 1.4183402210474014,
-      "reward_std": 1.1124099008738995,
-      "rewards/concensus_correctness_reward_func": 0.0,
-      "rewards/consensus_reward_func": 0.375,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.5997464982792735,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.015625,
-      "rewards/xmlcount_reward_func": 0.42796875908970833,
       "step": 8
     },
     {
-      "completion_length": 489.60714285714283,
       "epoch": 3.3636363636363638,
-      "grad_norm": 0.5862427353858948,
-      "kl": 0.002920071527894054,
       "learning_rate": 3.1137137178519977e-07,
       "loss": 0.0,
-      "reward": 1.393317882503782,
-      "reward_std": 1.242428264447621,
-      "rewards/concensus_correctness_reward_func": 0.06800000156675066,
-      "rewards/consensus_reward_func": 0.5714285714285714,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.5312107673713139,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.017857142857142856,
-      "rewards/xmlcount_reward_func": 0.20482143121106283,
       "step": 10
     },
     {
-      "completion_length": 469.89285714285717,
       "epoch": 4.0,
-      "grad_norm": 0.3860418498516083,
-      "kl": 0.001968352173987244,
       "learning_rate": 2.2935516363191693e-07,
       "loss": 0.0,
-      "reward": 1.0808308209691728,
-      "reward_std": 1.1100423761776514,
-      "rewards/concensus_correctness_reward_func": 0.0,
-      "rewards/consensus_reward_func": 0.42857142857142855,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.6116165050438472,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.017857142857142856,
-      "rewards/xmlcount_reward_func": 0.022785712565694536,
       "step": 12
     },
     {
-      "completion_length": 555.9375,
       "epoch": 4.7272727272727275,
-      "grad_norm": 0.7307803630828857,
-      "kl": 0.002701500794501044,
       "learning_rate": 1.4957614383675767e-07,
       "loss": 0.0,
-      "reward": 1.2625747844576836,
-      "reward_std": 1.1131542176008224,
-      "rewards/concensus_correctness_reward_func": 0.0,
-      "rewards/consensus_reward_func": 0.5,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.6392622366547585,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.015625,
-      "rewards/xmlcount_reward_func": 0.10768749937415123,
       "step": 14
     },
     {
-      "completion_length": 422.89285714285717,
       "epoch": 5.363636363636363,
-      "grad_norm": 0.4950929880142212,
-      "kl": 0.0019604217460645096,
       "learning_rate": 8.067960709356478e-08,
       "loss": 0.0,
-      "reward": 1.4092573097773962,
-      "reward_std": 0.9447898311274392,
-      "rewards/concensus_correctness_reward_func": 0.0,
-      "rewards/consensus_reward_func": 0.5,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.6305072988782611,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.03571428571428571,
-      "rewards/xmlcount_reward_func": 0.2430357305066926,
       "step": 16
     },
     {
-      "completion_length": 454.17857142857144,
       "epoch": 6.0,
-      "grad_norm": 0.46274620294570923,
-      "kl": 0.0019606042187660933,
       "learning_rate": 3.013156219837776e-08,
       "loss": 0.0,
-      "reward": 1.3146212271281652,
-      "reward_std": 0.9416490878377642,
-      "rewards/concensus_correctness_reward_func": 0.0,
-      "rewards/consensus_reward_func": 0.5,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.5742640921047756,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.017857142857142856,
-      "rewards/xmlcount_reward_func": 0.22249997513634817,
       "step": 18
     },
     {
-      "completion_length": 442.0625,
       "epoch": 6.7272727272727275,
-      "grad_norm": 0.6554461717605591,
-      "kl": 0.002037042962911073,
       "learning_rate": 3.4096741493194193e-09,
       "loss": 0.0,
-      "reward": 1.0173256155103445,
-      "reward_std": 1.0410599112510681,
-      "rewards/concensus_correctness_reward_func": 0.0,
-      "rewards/consensus_reward_func": 0.375,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.4978256057947874,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.03125,
-      "rewards/xmlcount_reward_func": 0.11325000133365393,
       "step": 20
     },
     {
       "epoch": 6.7272727272727275,
       "step": 20,
       "total_flos": 0.0,
-      "train_loss": 2.0234582962075363e-06,
-      "train_runtime": 614.9137,
-      "train_samples_per_second": 0.52,
-      "train_steps_per_second": 0.033
     }
   ],
   "logging_steps": 2,

   "is_world_process_zero": true,
   "log_history": [
     {
+      "completion_length": 430.6875,
       "epoch": 0.7272727272727273,
+      "grad_norm": 9.133371353149414,
+      "kl": 0.0027560016023926437,
       "learning_rate": 5e-07,
       "loss": 0.0,
+      "reward": 0.9409511927515268,
+      "reward_std": 0.9327438697218895,
+      "rewards/concensus_correctness_reward_func": 0.0,
+      "rewards/consensus_reward_func": 0.3125,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.125,
+      "rewards/question_recreation_reward_func": 0.5155761726200581,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": -0.012124991044402122,
       "step": 2
     },
     {
+      "completion_length": 423.89285714285717,
       "epoch": 1.3636363636363638,
+      "grad_norm": 0.40043893456459045,
+      "kl": 0.0019687856048611657,
       "learning_rate": 4.864543104251586e-07,
       "loss": 0.0,
+      "reward": 2.2995907238551547,
+      "reward_std": 2.9735161747251238,
+      "rewards/concensus_correctness_reward_func": 0.8704999951379639,
+      "rewards/consensus_reward_func": 0.5714285714285714,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.614340718303408,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.24332144004958017,
       "step": 4
     },
     {
+      "completion_length": 372.7857142857143,
       "epoch": 2.0,
+      "grad_norm": 0.4292924404144287,
+      "kl": 0.002527345537341067,
       "learning_rate": 4.472851273490984e-07,
       "loss": 0.0,
+      "reward": 2.434863882405417,
+      "reward_std": 2.0036334012235915,
+      "rewards/concensus_correctness_reward_func": 1.0627143042428153,
+      "rewards/consensus_reward_func": 0.2857142857142857,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.14285714285714285,
+      "rewards/question_recreation_reward_func": 0.62836383496012,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.05357142857142857,
+      "rewards/xmlcount_reward_func": 0.26164285838603973,
       "step": 6
     },
     {
+      "completion_length": 492.6875,
       "epoch": 2.7272727272727275,
+      "grad_norm": 0.38836348056793213,
+      "kl": 0.002220321781351231,
       "learning_rate": 3.867370395306068e-07,
       "loss": 0.0,
+      "reward": 1.011883558705449,
+      "reward_std": 0.976864617317915,
+      "rewards/concensus_correctness_reward_func": 0.01575000025331974,
+      "rewards/consensus_reward_func": 0.5,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.5699460301548243,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": -0.0738124898634851,
       "step": 8
     },
     {
+      "completion_length": 389.39285714285717,
       "epoch": 3.3636363636363638,
+      "grad_norm": 0.610636293888092,
+      "kl": 0.002784155109631164,
       "learning_rate": 3.1137137178519977e-07,
       "loss": 0.0,
+      "reward": 2.689215055533818,
+      "reward_std": 2.76099171595914,
+      "rewards/concensus_correctness_reward_func": 1.1207857483199664,
+      "rewards/consensus_reward_func": 0.35714285714285715,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.21428571428571427,
+      "rewards/question_recreation_reward_func": 0.5914651155471802,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.05357142857142857,
+      "rewards/xmlcount_reward_func": 0.351964282138007,
       "step": 10
     },
     {
+      "completion_length": 556.7857142857143,
       "epoch": 4.0,
+      "grad_norm": 0.457033634185791,
+      "kl": 0.0024600966717116535,
       "learning_rate": 2.2935516363191693e-07,
       "loss": 0.0,
+      "reward": 2.6462377224649702,
+      "reward_std": 2.9253767217908586,
+      "rewards/concensus_correctness_reward_func": 1.4776428554739272,
+      "rewards/consensus_reward_func": 0.5714285714285714,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.14285714285714285,
+      "rewards/question_recreation_reward_func": 0.566273399761745,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": -0.11196428963116237,
       "step": 12
     },
     {
+      "completion_length": 425.65625,
       "epoch": 4.7272727272727275,
+      "grad_norm": 0.6648972630500793,
+      "kl": 0.0025974765594583005,
       "learning_rate": 1.4957614383675767e-07,
       "loss": 0.0,
+      "reward": 3.8004759550094604,
+      "reward_std": 3.797370210289955,
+      "rewards/concensus_correctness_reward_func": 1.8828750001266599,
+      "rewards/consensus_reward_func": 0.5625,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.25,
+      "rewards/question_recreation_reward_func": 0.6825697161257267,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.4225312490016222,
       "step": 14
     },
     {
+      "completion_length": 416.82142857142856,
       "epoch": 5.363636363636363,
+      "grad_norm": 0.4645010828971863,
+      "kl": 0.0028217563605202095,
       "learning_rate": 8.067960709356478e-08,
       "loss": 0.0,
+      "reward": 1.8712751705731665,
+      "reward_std": 2.635926459516798,
+      "rewards/concensus_correctness_reward_func": 0.7633571411882129,
+      "rewards/consensus_reward_func": 0.42857142857142855,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.5541323167937142,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.017857142857142856,
+      "rewards/xmlcount_reward_func": 0.1073571400982993,
       "step": 16
     },
     {
+      "completion_length": 451.7857142857143,
       "epoch": 6.0,
+      "grad_norm": 0.5214642286300659,
+      "kl": 0.0018680449408878172,
       "learning_rate": 3.013156219837776e-08,
       "loss": 0.0,
+      "reward": 2.39990365930966,
+      "reward_std": 2.4969028319631303,
+      "rewards/concensus_correctness_reward_func": 0.8394286004560334,
+      "rewards/consensus_reward_func": 0.35714285714285715,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.2857142857142857,
+      "rewards/question_recreation_reward_func": 0.5529751644602844,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.017857142857142856,
+      "rewards/xmlcount_reward_func": 0.3467857028756823,
       "step": 18
     },
     {
+      "completion_length": 535.65625,
       "epoch": 6.7272727272727275,
+      "grad_norm": 0.4509134292602539,
+      "kl": 0.0018071198574034497,
       "learning_rate": 3.4096741493194193e-09,
       "loss": 0.0,
+      "reward": 1.5683128461241722,
+      "reward_std": 1.0115205124020576,
+      "rewards/concensus_correctness_reward_func": 0.023625001311302185,
+      "rewards/consensus_reward_func": 0.4375,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.25,
+      "rewards/question_recreation_reward_func": 0.5450003277510405,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.31218750961124897,
       "step": 20
     },
     {
       "epoch": 6.7272727272727275,
       "step": 20,
       "total_flos": 0.0,
+      "train_loss": 2.193293255459139e-06,
+      "train_runtime": 577.4662,
+      "train_samples_per_second": 0.554,
+      "train_steps_per_second": 0.035
     }
   ],
   "logging_steps": 2,