kumacrypt
/

gensyn-checkpoints-short_stinky_warthog

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6b68e3c11146b73c2a02540a1a2a8296bed8230052b18930acaa3642e34b2d59
 size 73911112

 version https://git-lfs.github.com/spec/v1
+oid sha256:25fb268b5fc6d47eb209e616cc742afadb53c85641bbaf6d15f1ab1d32c6fdd0
 size 73911112

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 7.89649311627727e-07,
-    "train_runtime": 2180.7547,
-    "train_samples": 16,
-    "train_samples_per_second": 0.147,
-    "train_steps_per_second": 0.009
 }

 {
     "total_flos": 0.0,
+    "train_loss": 6.859567520223209e-07,
+    "train_runtime": 1463.4851,
+    "train_samples": 11,
+    "train_samples_per_second": 0.219,
+    "train_steps_per_second": 0.014
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 7.89649311627727e-07,
-    "train_runtime": 2180.7547,
-    "train_samples": 16,
-    "train_samples_per_second": 0.147,
-    "train_steps_per_second": 0.009
 }

 {
     "total_flos": 0.0,
+    "train_loss": 6.859567520223209e-07,
+    "train_runtime": 1463.4851,
+    "train_samples": 11,
+    "train_samples_per_second": 0.219,
+    "train_steps_per_second": 0.014
 }

trainer_state.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 5.0,
   "eval_steps": 500,
   "global_step": 20,
   "is_hyper_param_search": false,
@@ -10,209 +10,209 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "completion_length": 475.8125,
-      "epoch": 0.5,
-      "grad_norm": 0.6234354972839355,
-      "kl": 0.0007574912669952027,
       "learning_rate": 5e-07,
       "loss": 0.0,
-      "reward": 1.4869744032621384,
-      "reward_std": 1.5361116155982018,
-      "rewards/concensus_correctness_reward_func": 0.12025000154972076,
-      "rewards/consensus_reward_func": 0.4375,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0625,
-      "rewards/question_recreation_reward_func": 0.43203687854111195,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.015625,
-      "rewards/xmlcount_reward_func": 0.4190625101327896,
       "step": 2
     },
     {
-      "completion_length": 510.15625,
-      "epoch": 1.0,
-      "grad_norm": 0.44729843735694885,
-      "kl": 0.0006360283878166229,
       "learning_rate": 4.864543104251586e-07,
       "loss": 0.0,
-      "reward": 1.4679135829210281,
-      "reward_std": 1.2847997844219208,
-      "rewards/concensus_correctness_reward_func": 0.20225000008940697,
-      "rewards/consensus_reward_func": 0.4375,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.125,
-      "rewards/question_recreation_reward_func": 0.4407573211938143,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.03125,
-      "rewards/xmlcount_reward_func": 0.2311562397517264,
       "step": 4
     },
     {
-      "completion_length": 411.34375,
-      "epoch": 1.5,
-      "grad_norm": 0.4988212585449219,
-      "kl": 0.0009481068773311563,
       "learning_rate": 4.472851273490984e-07,
       "loss": 0.0,
-      "reward": 1.8833685368299484,
-      "reward_std": 1.402820661664009,
-      "rewards/concensus_correctness_reward_func": 0.18037500232458115,
-      "rewards/consensus_reward_func": 0.625,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.25,
-      "rewards/question_recreation_reward_func": 0.3509622663259506,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0625,
-      "rewards/xmlcount_reward_func": 0.4145312551409006,
       "step": 6
     },
     {
-      "completion_length": 625.75,
-      "epoch": 2.0,
-      "grad_norm": 0.38189268112182617,
-      "kl": 0.0006296659048530273,
       "learning_rate": 3.867370395306068e-07,
       "loss": 0.0,
-      "reward": 1.0806024055927992,
-      "reward_std": 1.213670402765274,
-      "rewards/concensus_correctness_reward_func": 0.02225000038743019,
       "rewards/consensus_reward_func": 0.4375,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.5165398996323347,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.10431249253451824,
       "step": 8
     },
     {
-      "completion_length": 529.125,
-      "epoch": 2.5,
-      "grad_norm": 3.5026845932006836,
-      "kl": 0.000867429258505581,
       "learning_rate": 3.1137137178519977e-07,
       "loss": 0.0,
-      "reward": 0.9401823319494724,
-      "reward_std": 1.5325152203440666,
-      "rewards/concensus_correctness_reward_func": 0.18037500232458115,
-      "rewards/consensus_reward_func": 0.375,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.35027604922652245,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.015625,
-      "rewards/xmlcount_reward_func": 0.018906249664723873,
       "step": 10
     },
     {
-      "completion_length": 517.03125,
-      "epoch": 3.0,
-      "grad_norm": 0.9087491631507874,
-      "kl": 0.0007104923824954312,
       "learning_rate": 2.2935516363191693e-07,
       "loss": 0.0,
-      "reward": 1.3045671954751015,
-      "reward_std": 1.1655461937189102,
-      "rewards/concensus_correctness_reward_func": 0.06012500077486038,
-      "rewards/consensus_reward_func": 0.375,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.4412234406918287,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.4282187446951866,
       "step": 12
     },
     {
-      "completion_length": 478.71875,
-      "epoch": 3.5,
-      "grad_norm": 0.35120144486427307,
-      "kl": 0.0006824102856626268,
       "learning_rate": 1.4957614383675767e-07,
       "loss": 0.0,
-      "reward": 1.3104803264141083,
-      "reward_std": 1.110847918316722,
-      "rewards/concensus_correctness_reward_func": 0.08237500116229057,
       "rewards/consensus_reward_func": 0.5,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.3058240618556738,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.4222812531515956,
       "step": 14
     },
     {
-      "completion_length": 398.8125,
-      "epoch": 4.0,
-      "grad_norm": 1.9623780250549316,
-      "kl": 0.0008723980463400949,
       "learning_rate": 8.067960709356478e-08,
       "loss": 0.0,
-      "reward": 1.3404525220394135,
-      "reward_std": 1.0932465121150017,
-      "rewards/concensus_correctness_reward_func": 0.06012500077486038,
-      "rewards/consensus_reward_func": 0.25,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0625,
-      "rewards/question_recreation_reward_func": 0.5084525384008884,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.046875,
-      "rewards/xmlcount_reward_func": 0.4125000052154064,
       "step": 16
     },
     {
-      "completion_length": 364.90625,
-      "epoch": 4.5,
-      "grad_norm": 0.721828043460846,
-      "kl": 0.0009404287266079336,
       "learning_rate": 3.013156219837776e-08,
       "loss": 0.0,
-      "reward": 1.5359347686171532,
-      "reward_std": 1.4365486893802881,
-      "rewards/concensus_correctness_reward_func": 0.12025000154972076,
-      "rewards/consensus_reward_func": 0.4375,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.125,
-      "rewards/question_recreation_reward_func": 0.46580975875258446,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.38737499341368675,
       "step": 18
     },
     {
-      "completion_length": 519.09375,
-      "epoch": 5.0,
-      "grad_norm": 0.41126346588134766,
-      "kl": 0.0006839343695901334,
       "learning_rate": 3.4096741493194193e-09,
       "loss": 0.0,
-      "reward": 1.0222862511873245,
-      "reward_std": 0.8536571734584868,
       "rewards/concensus_correctness_reward_func": 0.0,
-      "rewards/consensus_reward_func": 0.1875,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.33834874955937266,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.015625,
-      "rewards/xmlcount_reward_func": 0.4808124890550971,
       "step": 20
     },
     {
-      "epoch": 5.0,
       "step": 20,
       "total_flos": 0.0,
-      "train_loss": 7.89649311627727e-07,
-      "train_runtime": 2180.7547,
-      "train_samples_per_second": 0.147,
-      "train_steps_per_second": 0.009
     }
   ],
   "logging_steps": 2,
   "max_steps": 20,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 5,
   "save_steps": 25,
   "stateful_callbacks": {
     "TrainerControl": {

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 6.7272727272727275,
   "eval_steps": 500,
   "global_step": 20,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "completion_length": 525.9375,
+      "epoch": 0.7272727272727273,
+      "grad_norm": 0.3292831778526306,
+      "kl": 0.0006793685715820175,
       "learning_rate": 5e-07,
       "loss": 0.0,
+      "reward": 1.060153216123581,
+      "reward_std": 1.2264727503061295,
+      "rewards/concensus_correctness_reward_func": 0.0,
+      "rewards/consensus_reward_func": 0.5,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.5318406959995627,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.02831248752772808,
       "step": 2
     },
     {
+      "completion_length": 390.75,
+      "epoch": 1.3636363636363638,
+      "grad_norm": 0.478071928024292,
+      "kl": 0.0007487039131644581,
       "learning_rate": 4.864543104251586e-07,
       "loss": 0.0,
+      "reward": 1.0257081133978707,
+      "reward_std": 0.9201071986130306,
+      "rewards/concensus_correctness_reward_func": 0.0,
+      "rewards/consensus_reward_func": 0.21428571428571427,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.5980652741023472,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.017857142857142856,
+      "rewards/xmlcount_reward_func": 0.1955000055687768,
       "step": 4
     },
     {
+      "completion_length": 443.35714285714283,
+      "epoch": 2.0,
+      "grad_norm": 0.5206024646759033,
+      "kl": 0.0008912757621146739,
       "learning_rate": 4.472851273490984e-07,
       "loss": 0.0,
+      "reward": 0.9275580112423215,
+      "reward_std": 0.9796316879136222,
+      "rewards/concensus_correctness_reward_func": 0.021071427634784153,
+      "rewards/consensus_reward_func": 0.21428571428571427,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.3609508792204516,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.33124999701976776,
       "step": 6
     },
     {
+      "completion_length": 475.9375,
+      "epoch": 2.7272727272727275,
+      "grad_norm": 0.392272025346756,
+      "kl": 0.0007351126805588137,
       "learning_rate": 3.867370395306068e-07,
       "loss": 0.0,
+      "reward": 1.1973703242838383,
+      "reward_std": 0.9816314913332462,
+      "rewards/concensus_correctness_reward_func": 0.018437499180436134,
       "rewards/consensus_reward_func": 0.4375,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.5250578508712351,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.015625,
+      "rewards/xmlcount_reward_func": 0.20075000077486038,
       "step": 8
     },
     {
+      "completion_length": 493.42857142857144,
+      "epoch": 3.3636363636363638,
+      "grad_norm": 0.7325606942176819,
+      "kl": 0.0008793158257114035,
       "learning_rate": 3.1137137178519977e-07,
       "loss": 0.0,
+      "reward": 0.9796039036342076,
+      "reward_std": 0.9591919226305825,
+      "rewards/concensus_correctness_reward_func": 0.0,
+      "rewards/consensus_reward_func": 0.07142857142857142,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.4792467589889254,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.03571428571428571,
+      "rewards/xmlcount_reward_func": 0.3932142811162131,
       "step": 10
     },
     {
+      "completion_length": 371.32142857142856,
+      "epoch": 4.0,
+      "grad_norm": 0.3639976978302002,
+      "kl": 0.000734008162648284,
       "learning_rate": 2.2935516363191693e-07,
       "loss": 0.0,
+      "reward": 1.317726927144187,
+      "reward_std": 0.6740910155432565,
+      "rewards/concensus_correctness_reward_func": 0.05128571391105652,
+      "rewards/consensus_reward_func": 0.2857142857142857,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.6248341213379588,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.017857142857142856,
+      "rewards/xmlcount_reward_func": 0.33803571122033255,
       "step": 12
     },
     {
+      "completion_length": 473.84375,
+      "epoch": 4.7272727272727275,
+      "grad_norm": 0.3491268754005432,
+      "kl": 0.0007054529487504624,
       "learning_rate": 1.4957614383675767e-07,
       "loss": 0.0,
+      "reward": 1.0129818953573704,
+      "reward_std": 1.0957035012543201,
+      "rewards/concensus_correctness_reward_func": 0.0,
       "rewards/consensus_reward_func": 0.5,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.5392943918704987,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.015625,
+      "rewards/xmlcount_reward_func": -0.041937499307096004,
       "step": 14
     },
     {
+      "completion_length": 456.0357142857143,
+      "epoch": 5.363636363636363,
+      "grad_norm": 0.5274750590324402,
+      "kl": 0.0006844666952799473,
       "learning_rate": 8.067960709356478e-08,
       "loss": 0.0,
+      "reward": 0.6985139335904803,
+      "reward_std": 1.1380144293819154,
+      "rewards/concensus_correctness_reward_func": 0.0,
+      "rewards/consensus_reward_func": 0.14285714285714285,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.5881567911377975,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.017857142857142856,
+      "rewards/xmlcount_reward_func": -0.05035717146737235,
       "step": 16
     },
     {
+      "completion_length": 471.7857142857143,
+      "epoch": 6.0,
+      "grad_norm": 0.25036928057670593,
+      "kl": 0.0007694394111500255,
       "learning_rate": 3.013156219837776e-08,
       "loss": 0.0,
+      "reward": 0.6820467284747532,
+      "reward_std": 0.7365474956376212,
+      "rewards/concensus_correctness_reward_func": 0.0,
+      "rewards/consensus_reward_func": 0.07142857142857142,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.3279753008059093,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.05357142857142857,
+      "rewards/xmlcount_reward_func": 0.22907143458724022,
       "step": 18
     },
     {
+      "completion_length": 484.0,
+      "epoch": 6.7272727272727275,
+      "grad_norm": 0.3675338327884674,
+      "kl": 0.0007185826980276033,
       "learning_rate": 3.4096741493194193e-09,
       "loss": 0.0,
+      "reward": 0.7713020956143737,
+      "reward_std": 0.8685156553983688,
       "rewards/concensus_correctness_reward_func": 0.0,
+      "rewards/consensus_reward_func": 0.125,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.5238333754241467,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.12246875837445259,
       "step": 20
     },
     {
+      "epoch": 6.7272727272727275,
       "step": 20,
       "total_flos": 0.0,
+      "train_loss": 6.859567520223209e-07,
+      "train_runtime": 1463.4851,
+      "train_samples_per_second": 0.219,
+      "train_steps_per_second": 0.014
     }
   ],
   "logging_steps": 2,
   "max_steps": 20,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
   "save_steps": 25,
   "stateful_callbacks": {
     "TrainerControl": {