haedahae
/

Qwen2.5-1.5B-Instruct-Gensyn-Swarm-beaked_stealthy_chimpanzee

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1b667712fa95afbffeffe72924a4239a081308815764a66b2c049a016667d806
 size 73911112

 version https://git-lfs.github.com/spec/v1
+oid sha256:ae1b66e7f7dbbf51da2aaf30c533937df45105662a9cb67102aec0816c53f307
 size 73911112

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 1.3057171145192115e-05,
-    "train_runtime": 448.8735,
     "train_samples": 14,
-    "train_samples_per_second": 0.713,
-    "train_steps_per_second": 0.045
 }

 {
     "total_flos": 0.0,
+    "train_loss": 1.1895783154614037e-05,
+    "train_runtime": 436.9213,
     "train_samples": 14,
+    "train_samples_per_second": 0.732,
+    "train_steps_per_second": 0.046
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 1.3057171145192115e-05,
-    "train_runtime": 448.8735,
     "train_samples": 14,
-    "train_samples_per_second": 0.713,
-    "train_steps_per_second": 0.045
 }

 {
     "total_flos": 0.0,
+    "train_loss": 1.1895783154614037e-05,
+    "train_runtime": 436.9213,
     "train_samples": 14,
+    "train_samples_per_second": 0.732,
+    "train_steps_per_second": 0.046
 }

trainer_state.json CHANGED Viewed

@@ -10,203 +10,203 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "completion_length": 271.34375,
       "epoch": 0.5714285714285714,
-      "grad_norm": 0.6743724942207336,
-      "kl": 0.013426611199975014,
       "learning_rate": 5e-07,
       "loss": 0.0,
-      "reward": 7.338795393705368,
-      "reward_std": 4.800461100414395,
-      "rewards/concensus_correctness_reward_func": 4.744624972343445,
-      "rewards/consensus_reward_func": 0.875,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.75,
-      "rewards/question_recreation_reward_func": 0.5168267153203487,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.015625,
-      "rewards/xmlcount_reward_func": 0.4367187600582838,
       "step": 2
     },
     {
-      "completion_length": 222.70833333333334,
       "epoch": 1.0,
-      "grad_norm": 1.3535985946655273,
-      "kl": 0.016458888072520494,
       "learning_rate": 4.864543104251586e-07,
       "loss": 0.0,
-      "reward": 12.763161023457846,
-      "reward_std": 8.712821116050085,
-      "rewards/concensus_correctness_reward_func": 9.652666628360748,
-      "rewards/consensus_reward_func": 0.9166666666666666,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 1.3333333333333333,
-      "rewards/question_recreation_reward_func": 0.5001193359494209,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.36037498712539673,
       "step": 4
     },
     {
-      "completion_length": 290.59375,
       "epoch": 1.5714285714285714,
-      "grad_norm": 0.7002659440040588,
-      "kl": 0.013302479172125459,
       "learning_rate": 4.472851273490984e-07,
       "loss": 0.0,
-      "reward": 5.315677672624588,
-      "reward_std": 6.510973311960697,
-      "rewards/concensus_correctness_reward_func": 3.3523749820888042,
       "rewards/consensus_reward_func": 0.375,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 1.0625,
-      "rewards/question_recreation_reward_func": 0.37202150747179985,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.15378125198185444,
       "step": 6
     },
     {
-      "completion_length": 232.5,
       "epoch": 2.0,
-      "grad_norm": 0.5509600639343262,
-      "kl": 0.01540948978314797,
       "learning_rate": 3.867370395306068e-07,
       "loss": 0.0,
-      "reward": 8.730541984240213,
-      "reward_std": 7.834320515394211,
-      "rewards/concensus_correctness_reward_func": 6.088666647672653,
-      "rewards/consensus_reward_func": 0.75,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.9166666666666666,
-      "rewards/question_recreation_reward_func": 0.590417372683684,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.3847916601225734,
       "step": 8
     },
     {
-      "completion_length": 261.75,
       "epoch": 2.571428571428571,
-      "grad_norm": 0.6516435146331787,
-      "kl": 0.013521771412342787,
       "learning_rate": 3.1137137178519977e-07,
       "loss": 0.0,
-      "reward": 6.921194389462471,
-      "reward_std": 6.019483722746372,
-      "rewards/concensus_correctness_reward_func": 4.411750040948391,
-      "rewards/consensus_reward_func": 0.375,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 1.25,
-      "rewards/question_recreation_reward_func": 0.4823194006457925,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.402124997228384,
       "step": 10
     },
     {
-      "completion_length": 209.45833333333334,
       "epoch": 3.0,
-      "grad_norm": 0.7035914659500122,
-      "kl": 0.01666534614438812,
       "learning_rate": 2.2935516363191693e-07,
       "loss": 0.0,
-      "reward": 8.279569268226624,
-      "reward_std": 5.972951183716456,
-      "rewards/concensus_correctness_reward_func": 5.237333297729492,
-      "rewards/consensus_reward_func": 0.8333333333333334,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 1.0,
-      "rewards/question_recreation_reward_func": 0.4089856867988904,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.020833333333333332,
-      "rewards/xmlcount_reward_func": 0.7790833413600922,
       "step": 12
     },
     {
-      "completion_length": 259.03125,
       "epoch": 3.571428571428571,
-      "grad_norm": 0.7375088334083557,
-      "kl": 0.014382072899024934,
       "learning_rate": 1.4957614383675767e-07,
       "loss": 0.0,
-      "reward": 5.5730214565992355,
-      "reward_std": 6.818105198442936,
-      "rewards/concensus_correctness_reward_func": 3.325000047683716,
-      "rewards/consensus_reward_func": 0.25,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 1.0625,
-      "rewards/question_recreation_reward_func": 0.6257089339196682,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.3098125057294965,
       "step": 14
     },
     {
-      "completion_length": 257.2916666666667,
       "epoch": 4.0,
-      "grad_norm": 0.4714896082878113,
-      "kl": 0.014538121642544866,
       "learning_rate": 8.067960709356478e-08,
       "loss": 0.0,
-      "reward": 6.09494678179423,
-      "reward_std": 7.825064837932587,
-      "rewards/concensus_correctness_reward_func": 3.5763332843780518,
-      "rewards/consensus_reward_func": 0.6666666666666666,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 1.0,
-      "rewards/question_recreation_reward_func": 0.3083217131594817,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.041666666666666664,
-      "rewards/xmlcount_reward_func": 0.5019583279887835,
       "step": 16
     },
     {
-      "completion_length": 236.34375,
       "epoch": 4.571428571428571,
-      "grad_norm": 1.0687012672424316,
-      "kl": 0.016684615809936076,
       "learning_rate": 3.013156219837776e-08,
       "loss": 0.0,
-      "reward": 8.024290978908539,
-      "reward_std": 8.521978050470352,
-      "rewards/concensus_correctness_reward_func": 5.326687514781952,
-      "rewards/consensus_reward_func": 0.6875,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.875,
-      "rewards/question_recreation_reward_func": 0.5247908569872379,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.6103124972432852,
       "step": 18
     },
     {
-      "completion_length": 252.875,
       "epoch": 5.0,
-      "grad_norm": 1.6809941530227661,
-      "kl": 0.01590358039053778,
       "learning_rate": 3.4096741493194193e-09,
       "loss": 0.0,
-      "reward": 7.469416320323944,
-      "reward_std": 4.266899486382802,
-      "rewards/concensus_correctness_reward_func": 5.1366666952768965,
-      "rewards/consensus_reward_func": 0.5,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 1.0833333333333333,
-      "rewards/question_recreation_reward_func": 0.4064994305372238,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.020833333333333332,
-      "rewards/xmlcount_reward_func": 0.3220833366115888,
       "step": 20
     },
     {
       "epoch": 5.0,
       "step": 20,
       "total_flos": 0.0,
-      "train_loss": 1.3057171145192115e-05,
-      "train_runtime": 448.8735,
-      "train_samples_per_second": 0.713,
-      "train_steps_per_second": 0.045
     }
   ],
   "logging_steps": 2,

   "is_world_process_zero": true,
   "log_history": [
     {
+      "completion_length": 250.25,
       "epoch": 0.5714285714285714,
+      "grad_norm": 1.2837601900100708,
+      "kl": 0.012850156519562006,
       "learning_rate": 5e-07,
       "loss": 0.0,
+      "reward": 6.77421835064888,
+      "reward_std": 8.612250968813896,
+      "rewards/concensus_correctness_reward_func": 4.25950001180172,
+      "rewards/consensus_reward_func": 0.375,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 1.25,
+      "rewards/question_recreation_reward_func": 0.43065583519637585,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.4590624952688813,
       "step": 2
     },
     {
+      "completion_length": 222.29166666666666,
       "epoch": 1.0,
+      "grad_norm": 0.6248174905776978,
+      "kl": 0.013460155421247086,
       "learning_rate": 4.864543104251586e-07,
       "loss": 0.0,
+      "reward": 9.162418603897095,
+      "reward_std": 8.077639992038408,
+      "rewards/concensus_correctness_reward_func": 5.69091667731603,
+      "rewards/consensus_reward_func": 0.75,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 1.4166666666666667,
+      "rewards/question_recreation_reward_func": 0.5355017731587092,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.020833333333333332,
+      "rewards/xmlcount_reward_func": 0.7485000193119049,
       "step": 4
     },
     {
+      "completion_length": 277.46875,
       "epoch": 1.5714285714285714,
+      "grad_norm": 0.7902827262878418,
+      "kl": 0.012329760298598558,
       "learning_rate": 4.472851273490984e-07,
       "loss": 0.0,
+      "reward": 6.865463137626648,
+      "reward_std": 6.320934921503067,
+      "rewards/concensus_correctness_reward_func": 4.186562471091747,
       "rewards/consensus_reward_func": 0.375,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 1.375,
+      "rewards/question_recreation_reward_func": 0.4482444394379854,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.48065625317394733,
       "step": 6
     },
     {
+      "completion_length": 226.625,
       "epoch": 2.0,
+      "grad_norm": 0.5743995308876038,
+      "kl": 0.017415982438251376,
       "learning_rate": 3.867370395306068e-07,
       "loss": 0.0,
+      "reward": 8.300778865814209,
+      "reward_std": 7.356443564097087,
+      "rewards/concensus_correctness_reward_func": 5.132833272218704,
+      "rewards/consensus_reward_func": 0.8333333333333334,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 1.3333333333333333,
+      "rewards/question_recreation_reward_func": 0.43248720094561577,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.5687916874885559,
       "step": 8
     },
     {
+      "completion_length": 233.84375,
       "epoch": 2.571428571428571,
+      "grad_norm": 0.710727870464325,
+      "kl": 0.011741695983801037,
       "learning_rate": 3.1137137178519977e-07,
       "loss": 0.0,
+      "reward": 6.58307883143425,
+      "reward_std": 6.25597608089447,
+      "rewards/concensus_correctness_reward_func": 3.962499998509884,
+      "rewards/consensus_reward_func": 0.5,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 1.0625,
+      "rewards/question_recreation_reward_func": 0.46920393593609333,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.5888750068843365,
       "step": 10
     },
     {
+      "completion_length": 253.29166666666666,
       "epoch": 3.0,
+      "grad_norm": 0.4581153690814972,
+      "kl": 0.014419077197089791,
       "learning_rate": 2.2935516363191693e-07,
       "loss": 0.0,
+      "reward": 8.34391681353251,
+      "reward_std": 5.618081798156102,
+      "rewards/concensus_correctness_reward_func": 5.305249979098638,
+      "rewards/consensus_reward_func": 0.5,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 1.5833333333333333,
+      "rewards/question_recreation_reward_func": 0.40370841696858406,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.020833333333333332,
+      "rewards/xmlcount_reward_func": 0.5307916762928168,
       "step": 12
     },
     {
+      "completion_length": 247.78125,
       "epoch": 3.571428571428571,
+      "grad_norm": 0.8578507304191589,
+      "kl": 0.013678431627340615,
       "learning_rate": 1.4957614383675767e-07,
       "loss": 0.0,
+      "reward": 6.2360208332538605,
+      "reward_std": 6.665688931941986,
+      "rewards/concensus_correctness_reward_func": 3.136249966919422,
+      "rewards/consensus_reward_func": 0.5625,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 1.3125,
+      "rewards/question_recreation_reward_func": 0.6277082115411758,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.5970625095069408,
       "step": 14
     },
     {
+      "completion_length": 293.2083333333333,
       "epoch": 4.0,
+      "grad_norm": 0.43180230259895325,
+      "kl": 0.012424148308734098,
       "learning_rate": 8.067960709356478e-08,
       "loss": 0.0,
+      "reward": 7.924095153808594,
+      "reward_std": 11.039137999216715,
+      "rewards/concensus_correctness_reward_func": 5.284583330154419,
+      "rewards/consensus_reward_func": 0.4166666666666667,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 1.5833333333333333,
+      "rewards/question_recreation_reward_func": 0.3320951734979947,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.3074166687826316,
       "step": 16
     },
     {
+      "completion_length": 244.5,
       "epoch": 4.571428571428571,
+      "grad_norm": 1.2633910179138184,
+      "kl": 0.014250321430154145,
       "learning_rate": 3.013156219837776e-08,
       "loss": 0.0,
+      "reward": 4.794973254203796,
+      "reward_std": 4.659415230154991,
+      "rewards/concensus_correctness_reward_func": 2.2643124759197235,
+      "rewards/consensus_reward_func": 0.1875,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 1.25,
+      "rewards/question_recreation_reward_func": 0.5774108543992043,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.015625,
+      "rewards/xmlcount_reward_func": 0.500124990940094,
       "step": 18
     },
     {
+      "completion_length": 235.125,
       "epoch": 5.0,
+      "grad_norm": 0.6901851296424866,
+      "kl": 0.01442628400400281,
       "learning_rate": 3.4096741493194193e-09,
       "loss": 0.0,
+      "reward": 5.657399932543437,
+      "reward_std": 3.9982150395711265,
+      "rewards/concensus_correctness_reward_func": 2.6396666218837104,
+      "rewards/consensus_reward_func": 0.8333333333333334,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 1.4166666666666667,
+      "rewards/question_recreation_reward_func": 0.29173319910963375,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.4760000060002009,
       "step": 20
     },
     {
       "epoch": 5.0,
       "step": 20,
       "total_flos": 0.0,
+      "train_loss": 1.1895783154614037e-05,
+      "train_runtime": 436.9213,
+      "train_samples_per_second": 0.732,
+      "train_steps_per_second": 0.046
     }
   ],
   "logging_steps": 2,