End of training

Browse files

Files changed (7) hide show

README.md +5 -4
adapter_config.json +39 -0
adapter_model.safetensors +3 -0
all_results.json +5 -5
train_results.json +5 -5
trainer_state.json +129 -129
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -1,5 +1,5 @@
 ---
-base_model: Gensyn/Qwen2.5-0.5B-Instruct
 library_name: transformers
 model_name: gensyn-checkpoints-padded_skilled_beaver
 tags:
@@ -8,13 +8,14 @@ tags:
 - grpo
 - gensyn
 - I am padded skilled beaver
 - trl
 licence: license
 ---
 # Model Card for gensyn-checkpoints-padded_skilled_beaver
-This model is a fine-tuned version of [Gensyn/Qwen2.5-0.5B-Instruct](https://huggingface.co/Gensyn/Qwen2.5-0.5B-Instruct).
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
@@ -39,8 +40,8 @@ This model was trained with GRPO, a method introduced in [DeepSeekMath: Pushing
 - TRL: 0.15.2
 - Transformers: 4.51.3
-- Pytorch: 2.5.1
-- Datasets: 3.5.0
 - Tokenizers: 0.21.1
 ## Citations

 ---
+base_model: Gensyn/Qwen2.5-1.5B-Instruct
 library_name: transformers
 model_name: gensyn-checkpoints-padded_skilled_beaver
 tags:
 - grpo
 - gensyn
 - I am padded skilled beaver
+- unsloth
 - trl
 licence: license
 ---
 # Model Card for gensyn-checkpoints-padded_skilled_beaver
+This model is a fine-tuned version of [Gensyn/Qwen2.5-1.5B-Instruct](https://huggingface.co/Gensyn/Qwen2.5-1.5B-Instruct).
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
 - TRL: 0.15.2
 - Transformers: 4.51.3
+- Pytorch: 2.6.0
+- Datasets: 3.6.0
 - Tokenizers: 0.21.1
 ## Citations

adapter_config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "Gensyn/Qwen2.5-1.5B-Instruct",
+  "bias": "none",
+  "corda_config": null,
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_bias": false,
+  "lora_dropout": 0,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 16,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "k_proj",
+    "up_proj",
+    "gate_proj",
+    "q_proj",
+    "o_proj",
+    "down_proj",
+    "v_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "trainable_token_indices": null,
+  "use_dora": false,
+  "use_rslora": false
+}

adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:206f81e9e0406d2b7f81d5e64435a48becaa40a28daef6051120499a9db5dfdf
+size 73911112

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 3.5451927260510274e-06,
-    "train_runtime": 236.747,
-    "train_samples": 28,
-    "train_samples_per_second": 1.352,
-    "train_steps_per_second": 0.084
 }

 {
     "total_flos": 0.0,
+    "train_loss": 7.715472129632417e-07,
+    "train_runtime": 1659.4231,
+    "train_samples": 107,
+    "train_samples_per_second": 0.193,
+    "train_steps_per_second": 0.012
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 3.5451927260510274e-06,
-    "train_runtime": 236.747,
-    "train_samples": 28,
-    "train_samples_per_second": 1.352,
-    "train_steps_per_second": 0.084
 }

 {
     "total_flos": 0.0,
+    "train_loss": 7.715472129632417e-07,
+    "train_runtime": 1659.4231,
+    "train_samples": 107,
+    "train_samples_per_second": 0.193,
+    "train_steps_per_second": 0.012
 }

trainer_state.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 5.0,
   "eval_steps": 500,
   "global_step": 20,
   "is_hyper_param_search": false,
@@ -10,209 +10,209 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "completion_length": 305.0625,
-      "epoch": 0.5714285714285714,
-      "grad_norm": 5.660951614379883,
       "kl": 0.0,
       "learning_rate": 5e-07,
       "loss": -0.0,
-      "reward": 2.460386883933097,
-      "reward_std": 1.7337693277513608,
-      "rewards/concensus_correctness_reward_func": 0.8088750019669533,
-      "rewards/consensus_reward_func": 0.1875,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.125,
-      "rewards/question_recreation_reward_func": 0.6287306472659111,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.7102812547236681,
       "step": 2
     },
     {
-      "completion_length": 221.66666666666666,
-      "epoch": 1.0,
-      "grad_norm": 3.8874945640563965,
-      "kl": 0.001395704142244843,
       "learning_rate": 4.864543104251586e-07,
       "loss": 0.0,
-      "reward": 2.2181622932354608,
-      "reward_std": 1.2326010285566251,
-      "rewards/concensus_correctness_reward_func": 0.25625000645716983,
-      "rewards/consensus_reward_func": 0.25,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.25,
-      "rewards/question_recreation_reward_func": 0.5083289686590433,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.9535833448171616,
       "step": 4
     },
     {
-      "completion_length": 254.3125,
-      "epoch": 1.5714285714285714,
-      "grad_norm": 5.26646089553833,
-      "kl": 0.002352659485040931,
       "learning_rate": 4.472851273490984e-07,
       "loss": 0.0,
-      "reward": 1.6883456259965897,
-      "reward_std": 1.0170315988361835,
-      "rewards/concensus_correctness_reward_func": 0.20918750576674938,
-      "rewards/consensus_reward_func": 0.25,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.125,
-      "rewards/question_recreation_reward_func": 0.5529393274337053,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.5512187629938126,
       "step": 6
     },
     {
-      "completion_length": 347.5833333333333,
-      "epoch": 2.0,
-      "grad_norm": 3.270358085632324,
-      "kl": 0.004270745276395853,
       "learning_rate": 3.867370395306068e-07,
       "loss": 0.0,
-      "reward": 2.2331515848636627,
-      "reward_std": 0.9642113272566348,
-      "rewards/concensus_correctness_reward_func": 0.32608333230018616,
-      "rewards/consensus_reward_func": 0.3333333333333333,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.16666666666666666,
-      "rewards/question_recreation_reward_func": 0.6685264905293783,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.7385416726271311,
       "step": 8
     },
     {
-      "completion_length": 288.1875,
-      "epoch": 2.571428571428571,
-      "grad_norm": 5.7600579261779785,
-      "kl": 0.005326771060936153,
       "learning_rate": 3.1137137178519977e-07,
       "loss": 0.0,
-      "reward": 1.6227679140865803,
-      "reward_std": 0.7090006899961736,
-      "rewards/concensus_correctness_reward_func": 0.12793750315904617,
-      "rewards/consensus_reward_func": 0.1875,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.5139241893775761,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.793406255543232,
       "step": 10
     },
     {
-      "completion_length": 282.5,
-      "epoch": 3.0,
-      "grad_norm": 3.537179708480835,
-      "kl": 0.005162405354591708,
       "learning_rate": 2.2935516363191693e-07,
       "loss": 0.0,
-      "reward": 3.3730034033457437,
-      "reward_std": 1.6889308356524755,
-      "rewards/concensus_correctness_reward_func": 1.1676666637261708,
-      "rewards/consensus_reward_func": 0.3333333333333333,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.3333333333333333,
-      "rewards/question_recreation_reward_func": 0.7677534197767576,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.7709166618684927,
       "step": 12
     },
     {
-      "completion_length": 286.3125,
-      "epoch": 3.571428571428571,
-      "grad_norm": 5.225093364715576,
-      "kl": 0.004380538783152588,
       "learning_rate": 1.4957614383675767e-07,
       "loss": 0.0,
-      "reward": 2.611244770232588,
-      "reward_std": 1.1959627732721856,
-      "rewards/concensus_correctness_reward_func": 0.5465000029653311,
-      "rewards/consensus_reward_func": 0.4375,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.25,
-      "rewards/question_recreation_reward_func": 0.6421822616248392,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.7350625019753352,
       "step": 14
     },
     {
-      "completion_length": 263.7916666666667,
-      "epoch": 4.0,
-      "grad_norm": 3.689728260040283,
-      "kl": 0.005115592464183767,
       "learning_rate": 8.067960709356478e-08,
-      "loss": -0.0,
-      "reward": 1.660034865140915,
-      "reward_std": 0.5135989048867486,
-      "rewards/concensus_correctness_reward_func": 0.16166667143503824,
-      "rewards/consensus_reward_func": 0.16666666666666666,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.5029515164593855,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.8287500118215879,
       "step": 16
     },
     {
-      "completion_length": 287.0625,
-      "epoch": 4.571428571428571,
-      "grad_norm": 7.379291534423828,
-      "kl": 0.007929646439151838,
       "learning_rate": 3.013156219837776e-08,
       "loss": 0.0,
-      "reward": 2.4730680622160435,
-      "reward_std": 0.974102801643312,
-      "rewards/concensus_correctness_reward_func": 0.37162500619888306,
-      "rewards/consensus_reward_func": 0.4375,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.25,
-      "rewards/question_recreation_reward_func": 0.640130530227907,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.7738125212490559,
       "step": 18
     },
     {
-      "completion_length": 379.375,
-      "epoch": 5.0,
-      "grad_norm": 3.7960731983184814,
-      "kl": 0.004161193520606806,
       "learning_rate": 3.4096741493194193e-09,
       "loss": 0.0,
-      "reward": 1.4008877476056416,
-      "reward_std": 1.2709657562275727,
-      "rewards/concensus_correctness_reward_func": 0.09125000238418579,
-      "rewards/consensus_reward_func": 0.16666666666666666,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.49847108746568364,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.6445000022649765,
       "step": 20
     },
     {
-      "epoch": 5.0,
       "step": 20,
       "total_flos": 0.0,
-      "train_loss": 3.5451927260510274e-06,
-      "train_runtime": 236.747,
-      "train_samples_per_second": 1.352,
-      "train_steps_per_second": 0.084
     }
   ],
   "logging_steps": 2,
   "max_steps": 20,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 7,
   "save_steps": 25,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -227,7 +227,7 @@
     }
   },
   "total_flos": 0.0,
-  "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null
 }

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.7476635514018691,
   "eval_steps": 500,
   "global_step": 20,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "completion_length": 398.53125,
+      "epoch": 0.07476635514018691,
+      "grad_norm": 0.5870400667190552,
       "kl": 0.0,
       "learning_rate": 5e-07,
       "loss": -0.0,
+      "reward": 1.7870870754122734,
+      "reward_std": 1.2239162027835846,
+      "rewards/concensus_correctness_reward_func": 0.08793750032782555,
+      "rewards/consensus_reward_func": 0.4375,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.25,
+      "rewards/question_recreation_reward_func": 0.4573371224105358,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.015625,
+      "rewards/xmlcount_reward_func": 0.5386874787509441,
       "step": 2
     },
     {
+      "completion_length": 458.0625,
+      "epoch": 0.14953271028037382,
+      "grad_norm": 0.45330581068992615,
+      "kl": 0.0007386754514300264,
       "learning_rate": 4.864543104251586e-07,
       "loss": 0.0,
+      "reward": 0.7236416898667812,
+      "reward_std": 0.9036526195704937,
+      "rewards/concensus_correctness_reward_func": 0.0,
+      "rewards/consensus_reward_func": 0.0625,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.573547963052988,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.015625,
+      "rewards/xmlcount_reward_func": 0.07196875754743814,
       "step": 4
     },
     {
+      "completion_length": 349.5,
+      "epoch": 0.22429906542056074,
+      "grad_norm": 0.841397762298584,
+      "kl": 0.0010076876860694028,
       "learning_rate": 4.472851273490984e-07,
       "loss": 0.0,
+      "reward": 1.4170414675027132,
+      "reward_std": 2.262793157249689,
+      "rewards/concensus_correctness_reward_func": 0.625,
+      "rewards/consensus_reward_func": 0.125,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0625,
+      "rewards/question_recreation_reward_func": 0.3284477051347494,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.015625,
+      "rewards/xmlcount_reward_func": 0.2604687553830445,
       "step": 6
     },
     {
+      "completion_length": 366.59375,
+      "epoch": 0.29906542056074764,
+      "grad_norm": 0.3987882435321808,
+      "kl": 0.0007848632594686933,
       "learning_rate": 3.867370395306068e-07,
       "loss": 0.0,
+      "reward": 1.512530144304037,
+      "reward_std": 1.2141533344984055,
+      "rewards/concensus_correctness_reward_func": 0.06168750114738941,
+      "rewards/consensus_reward_func": 0.25,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.3125,
+      "rewards/question_recreation_reward_func": 0.5590927004814148,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.015625,
+      "rewards/xmlcount_reward_func": 0.31362499902024865,
       "step": 8
     },
     {
+      "completion_length": 445.9375,
+      "epoch": 0.37383177570093457,
+      "grad_norm": 0.42665067315101624,
+      "kl": 0.0007958464193507098,
       "learning_rate": 3.1137137178519977e-07,
       "loss": 0.0,
+      "reward": 1.0403643250465393,
+      "reward_std": 1.0423381999135017,
+      "rewards/concensus_correctness_reward_func": 0.015625,
+      "rewards/consensus_reward_func": 0.25,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.125,
+      "rewards/question_recreation_reward_func": 0.4931768064852804,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.15656251087784767,
       "step": 10
     },
     {
+      "completion_length": 429.71875,
+      "epoch": 0.4485981308411215,
+      "grad_norm": 0.5001417994499207,
+      "kl": 0.000795142630522605,
       "learning_rate": 2.2935516363191693e-07,
       "loss": 0.0,
+      "reward": 1.2119637057185173,
+      "reward_std": 1.4253307320177555,
+      "rewards/concensus_correctness_reward_func": 0.16562499664723873,
+      "rewards/consensus_reward_func": 0.3125,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.4547762144356966,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.03125,
+      "rewards/xmlcount_reward_func": 0.24781250581145287,
       "step": 12
     },
     {
+      "completion_length": 408.125,
+      "epoch": 0.5233644859813084,
+      "grad_norm": 0.6412670016288757,
+      "kl": 0.0009387934624101035,
       "learning_rate": 1.4957614383675767e-07,
       "loss": 0.0,
+      "reward": 0.8834221437573433,
+      "reward_std": 0.9835310578346252,
+      "rewards/concensus_correctness_reward_func": 0.0,
+      "rewards/consensus_reward_func": 0.1875,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0625,
+      "rewards/question_recreation_reward_func": 0.5241096634417772,
+      "rewards/soft_format_reward_func": 0.015625,
+      "rewards/strict_format_reward_func": 0.03125,
+      "rewards/xmlcount_reward_func": 0.06243748962879181,
       "step": 14
     },
     {
+      "completion_length": 403.875,
+      "epoch": 0.5981308411214953,
+      "grad_norm": 0.8429758548736572,
+      "kl": 0.0008895905775716528,
       "learning_rate": 8.067960709356478e-08,
+      "loss": 0.0,
+      "reward": 0.9598640138283372,
+      "reward_std": 0.954253607429564,
+      "rewards/concensus_correctness_reward_func": 0.0,
+      "rewards/consensus_reward_func": 0.125,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.125,
+      "rewards/question_recreation_reward_func": 0.41558276768773794,
+      "rewards/soft_format_reward_func": 0.015625,
+      "rewards/strict_format_reward_func": 0.03125,
+      "rewards/xmlcount_reward_func": 0.24740625405684114,
       "step": 16
     },
     {
+      "completion_length": 317.25,
+      "epoch": 0.6728971962616822,
+      "grad_norm": 0.5480102896690369,
+      "kl": 0.0009225552130374126,
       "learning_rate": 3.013156219837776e-08,
       "loss": 0.0,
+      "reward": 2.5932919457554817,
+      "reward_std": 2.906338579952717,
+      "rewards/concensus_correctness_reward_func": 0.807437501847744,
+      "rewards/consensus_reward_func": 0.3125,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.625,
+      "rewards/question_recreation_reward_func": 0.569573137909174,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.015625,
+      "rewards/xmlcount_reward_func": 0.2631562538444996,
       "step": 18
     },
     {
+      "completion_length": 399.15625,
+      "epoch": 0.7476635514018691,
+      "grad_norm": 0.435925155878067,
+      "kl": 0.0008780622520134784,
       "learning_rate": 3.4096741493194193e-09,
       "loss": 0.0,
+      "reward": 1.3660773411393166,
+      "reward_std": 1.1690530441701412,
+      "rewards/concensus_correctness_reward_func": 0.12087500095367432,
+      "rewards/consensus_reward_func": 0.4375,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.6591710969805717,
+      "rewards/soft_format_reward_func": 0.015625,
+      "rewards/strict_format_reward_func": 0.015625,
+      "rewards/xmlcount_reward_func": 0.1172812432050705,
       "step": 20
     },
     {
+      "epoch": 0.7476635514018691,
       "step": 20,
       "total_flos": 0.0,
+      "train_loss": 7.715472129632417e-07,
+      "train_runtime": 1659.4231,
+      "train_samples_per_second": 0.193,
+      "train_steps_per_second": 0.012
     }
   ],
   "logging_steps": 2,
   "max_steps": 20,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
   "save_steps": 25,
   "stateful_callbacks": {
     "TrainerControl": {
     }
   },
   "total_flos": 0.0,
+  "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:96406fe31a443039bae036b8bfbd9ee52d87822ce48b8dd7c7c3066a5231664e
-size 5880

 version https://git-lfs.github.com/spec/v1
+oid sha256:ade844378acd7e931966a992fed503e9f67002939e36208ec8fb089ff40eddc6
+size 5944