End of training

Browse files

Files changed (7) hide show

README.md +4 -3
adapter_config.json +39 -0
adapter_model.safetensors +3 -0
all_results.json +5 -5
train_results.json +5 -5
trainer_state.json +112 -112
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -1,5 +1,5 @@
 ---
-base_model: Gensyn/Qwen2.5-0.5B-Instruct
 library_name: transformers
 model_name: gensyn-checkpoints-galloping_wily_lynx
 tags:
@@ -8,13 +8,14 @@ tags:
 - grpo
 - gensyn
 - I am galloping wily lynx
 - trl
 licence: license
 ---
 # Model Card for gensyn-checkpoints-galloping_wily_lynx
-This model is a fine-tuned version of [Gensyn/Qwen2.5-0.5B-Instruct](https://huggingface.co/Gensyn/Qwen2.5-0.5B-Instruct).
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
@@ -39,7 +40,7 @@ This model was trained with GRPO, a method introduced in [DeepSeekMath: Pushing
 - TRL: 0.15.2
 - Transformers: 4.51.3
-- Pytorch: 2.5.1
 - Datasets: 3.5.0
 - Tokenizers: 0.21.1

 ---
+base_model: Gensyn/Qwen2.5-1.5B-Instruct
 library_name: transformers
 model_name: gensyn-checkpoints-galloping_wily_lynx
 tags:
 - grpo
 - gensyn
 - I am galloping wily lynx
+- unsloth
 - trl
 licence: license
 ---
 # Model Card for gensyn-checkpoints-galloping_wily_lynx
+This model is a fine-tuned version of [Gensyn/Qwen2.5-1.5B-Instruct](https://huggingface.co/Gensyn/Qwen2.5-1.5B-Instruct).
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
 - TRL: 0.15.2
 - Transformers: 4.51.3
+- Pytorch: 2.6.0
 - Datasets: 3.5.0
 - Tokenizers: 0.21.1

adapter_config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "Gensyn/Qwen2.5-1.5B-Instruct",
+  "bias": "none",
+  "corda_config": null,
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_bias": false,
+  "lora_dropout": 0,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 16,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "k_proj",
+    "down_proj",
+    "gate_proj",
+    "up_proj",
+    "o_proj",
+    "q_proj",
+    "v_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "trainable_token_indices": null,
+  "use_dora": false,
+  "use_rslora": false
+}

adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:139d232ecf4689e0a789d4ff8b494c62ccd2a524e1fb3302a9314fde0adef43e
+size 73911112

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 5.124726430949522e-06,
-    "train_runtime": 428.8304,
-    "train_samples": 28,
-    "train_samples_per_second": 0.746,
-    "train_steps_per_second": 0.047
 }

 {
     "total_flos": 0.0,
+    "train_loss": 6.544018134491125e-07,
+    "train_runtime": 576.0128,
+    "train_samples": 13,
+    "train_samples_per_second": 0.556,
+    "train_steps_per_second": 0.035
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 5.124726430949522e-06,
-    "train_runtime": 428.8304,
-    "train_samples": 28,
-    "train_samples_per_second": 0.746,
-    "train_steps_per_second": 0.047
 }

 {
     "total_flos": 0.0,
+    "train_loss": 6.544018134491125e-07,
+    "train_runtime": 576.0128,
+    "train_samples": 13,
+    "train_samples_per_second": 0.556,
+    "train_steps_per_second": 0.035
 }

trainer_state.json CHANGED Viewed

@@ -10,203 +10,203 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "completion_length": 338.8125,
-      "epoch": 0.5714285714285714,
-      "grad_norm": 7.610622406005859,
-      "kl": 0.0,
       "learning_rate": 5e-07,
       "loss": 0.0,
-      "reward": 2.0772273037582636,
-      "reward_std": 1.7783119999803603,
-      "rewards/concensus_correctness_reward_func": 0.6844999995082617,
-      "rewards/consensus_reward_func": 0.125,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.1875,
-      "rewards/question_recreation_reward_func": 0.5230397903360426,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.5571875041350722,
       "step": 2
     },
     {
-      "completion_length": 403.7083333333333,
       "epoch": 1.0,
-      "grad_norm": 3.5023651123046875,
-      "kl": 0.001023216910349826,
       "learning_rate": 4.864543104251586e-07,
       "loss": 0.0,
-      "reward": 2.543800041079521,
-      "reward_std": 2.0283220832546554,
-      "rewards/concensus_correctness_reward_func": 0.4775000015894572,
-      "rewards/consensus_reward_func": 0.5,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.25,
-      "rewards/question_recreation_reward_func": 0.5057166982442141,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.8105833331743876,
       "step": 4
     },
     {
-      "completion_length": 282.03125,
-      "epoch": 1.5714285714285714,
-      "grad_norm": 5.504275321960449,
-      "kl": 0.0024096881461446173,
       "learning_rate": 4.472851273490984e-07,
       "loss": 0.0,
-      "reward": 1.9399622827768326,
-      "reward_std": 0.6604393441230059,
-      "rewards/concensus_correctness_reward_func": 0.21887499652802944,
-      "rewards/consensus_reward_func": 0.25,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.125,
-      "rewards/question_recreation_reward_func": 0.5173372961580753,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.8287500105798244,
       "step": 6
     },
     {
-      "completion_length": 460.375,
       "epoch": 2.0,
-      "grad_norm": 2.9215378761291504,
-      "kl": 0.003255183192474457,
       "learning_rate": 3.867370395306068e-07,
       "loss": 0.0,
-      "reward": 1.3506993651390076,
-      "reward_std": 0.7891394552619507,
-      "rewards/concensus_correctness_reward_func": 0.04016666611035665,
-      "rewards/consensus_reward_func": 0.08333333333333333,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.16666666666666666,
-      "rewards/question_recreation_reward_func": 0.6137827013929685,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.4467500125368436,
       "step": 8
     },
     {
-      "completion_length": 367.4375,
-      "epoch": 2.571428571428571,
-      "grad_norm": 6.630983829498291,
-      "kl": 0.005001361758331768,
       "learning_rate": 3.1137137178519977e-07,
       "loss": 0.0,
-      "reward": 1.3413802981376648,
-      "reward_std": 0.7748544621281326,
-      "rewards/concensus_correctness_reward_func": 0.12468749843537807,
-      "rewards/consensus_reward_func": 0.25,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.4126302825752646,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.5540625182911754,
       "step": 10
     },
     {
-      "completion_length": 385.9166666666667,
       "epoch": 3.0,
-      "grad_norm": 3.233750343322754,
-      "kl": 0.006099622405599803,
       "learning_rate": 2.2935516363191693e-07,
       "loss": 0.0,
-      "reward": 2.1115041275819144,
-      "reward_std": 0.9823476512295505,
-      "rewards/concensus_correctness_reward_func": 0.21441666781902313,
-      "rewards/consensus_reward_func": 0.16666666666666666,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.25,
-      "rewards/question_recreation_reward_func": 0.7026707977056503,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.7777500053246816,
       "step": 12
     },
     {
-      "completion_length": 333.625,
-      "epoch": 3.571428571428571,
-      "grad_norm": 5.306018829345703,
-      "kl": 0.009294188101193868,
       "learning_rate": 1.4957614383675767e-07,
       "loss": 0.0,
-      "reward": 1.9881192445755005,
-      "reward_std": 1.0859800546750193,
-      "rewards/concensus_correctness_reward_func": 0.11093749850988388,
-      "rewards/consensus_reward_func": 0.25,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.3125,
-      "rewards/question_recreation_reward_func": 0.6461192187853158,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.6685625221580267,
       "step": 14
     },
     {
-      "completion_length": 210.79166666666666,
       "epoch": 4.0,
-      "grad_norm": 3.6111202239990234,
-      "kl": 0.007741578641192366,
       "learning_rate": 8.067960709356478e-08,
       "loss": 0.0,
-      "reward": 1.9988964547713597,
-      "reward_std": 1.131962598611911,
-      "rewards/concensus_correctness_reward_func": 0.3159999946753184,
-      "rewards/consensus_reward_func": 0.3333333333333333,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.08333333333333333,
-      "rewards/question_recreation_reward_func": 0.501063110306859,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.7651666676004728,
       "step": 16
     },
     {
-      "completion_length": 261.9375,
-      "epoch": 4.571428571428571,
-      "grad_norm": 5.440309524536133,
-      "kl": 0.008159111894201487,
       "learning_rate": 3.013156219837776e-08,
       "loss": 0.0,
-      "reward": 2.096368793398142,
-      "reward_std": 1.1738291073124856,
-      "rewards/concensus_correctness_reward_func": 0.2121250033378601,
-      "rewards/consensus_reward_func": 0.3125,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.1875,
-      "rewards/question_recreation_reward_func": 0.4892125455662608,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.8950312659144402,
       "step": 18
     },
     {
-      "completion_length": 228.66666666666666,
       "epoch": 5.0,
-      "grad_norm": 5.156766891479492,
-      "kl": 0.01782421338915204,
       "learning_rate": 3.4096741493194193e-09,
       "loss": 0.0,
-      "reward": 1.801884340743224,
-      "reward_std": 0.6975437933579087,
-      "rewards/concensus_correctness_reward_func": 0.14924999823172888,
-      "rewards/consensus_reward_func": 0.25,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.5388426647211114,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.8637916594743729,
       "step": 20
     },
     {
       "epoch": 5.0,
       "step": 20,
       "total_flos": 0.0,
-      "train_loss": 5.124726430949522e-06,
-      "train_runtime": 428.8304,
-      "train_samples_per_second": 0.746,
-      "train_steps_per_second": 0.047
     }
   ],
   "logging_steps": 2,
@@ -227,7 +227,7 @@
     }
   },
   "total_flos": 0.0,
-  "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null
 }

   "is_world_process_zero": true,
   "log_history": [
     {
+      "completion_length": 346.34375,
+      "epoch": 0.6153846153846154,
+      "grad_norm": 0.503024160861969,
+      "kl": 0.0007504378409066703,
       "learning_rate": 5e-07,
       "loss": 0.0,
+      "reward": 1.488547921180725,
+      "reward_std": 1.1895113959908485,
+      "rewards/concensus_correctness_reward_func": 0.044187499675899744,
+      "rewards/consensus_reward_func": 0.4375,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.1875,
+      "rewards/question_recreation_reward_func": 0.4999229125678539,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.31943749636411667,
       "step": 2
     },
     {
+      "completion_length": 412.5,
       "epoch": 1.0,
+      "grad_norm": 0.13823401927947998,
+      "kl": 0.0007238212157972157,
       "learning_rate": 4.864543104251586e-07,
       "loss": 0.0,
+      "reward": 1.6979855298995972,
+      "reward_std": 2.279015040397644,
+      "rewards/concensus_correctness_reward_func": 0.10280000269412995,
+      "rewards/consensus_reward_func": 0.8,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.2,
+      "rewards/question_recreation_reward_func": 0.6064854949712754,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": -0.011299997568130493,
       "step": 4
     },
     {
+      "completion_length": 364.03125,
+      "epoch": 1.6153846153846154,
+      "grad_norm": 0.5587221384048462,
+      "kl": 0.001112848891352769,
       "learning_rate": 4.472851273490984e-07,
       "loss": 0.0,
+      "reward": 1.991585448384285,
+      "reward_std": 1.5793295502662659,
+      "rewards/concensus_correctness_reward_func": 0.05293750111013651,
+      "rewards/consensus_reward_func": 0.8125,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.25,
+      "rewards/question_recreation_reward_func": 0.5256167463958263,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.35053125210106373,
       "step": 6
     },
     {
+      "completion_length": 363.1,
       "epoch": 2.0,
+      "grad_norm": 0.21596801280975342,
+      "kl": 0.0007857283460907638,
       "learning_rate": 3.867370395306068e-07,
       "loss": 0.0,
+      "reward": 1.5836174964904786,
+      "reward_std": 1.3672971725463867,
+      "rewards/concensus_correctness_reward_func": 0.01770000010728836,
+      "rewards/consensus_reward_func": 0.5,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.1,
+      "rewards/question_recreation_reward_func": 0.5246675223112106,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.4412499964237213,
       "step": 8
     },
     {
+      "completion_length": 372.5625,
+      "epoch": 2.6153846153846154,
+      "grad_norm": 0.5999366044998169,
+      "kl": 0.0008083480861387216,
       "learning_rate": 3.1137137178519977e-07,
       "loss": 0.0,
+      "reward": 1.6689973175525665,
+      "reward_std": 1.2444555386900902,
+      "rewards/concensus_correctness_reward_func": 0.04450000077486038,
+      "rewards/consensus_reward_func": 0.625,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.1875,
+      "rewards/question_recreation_reward_func": 0.488716047257185,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.03125,
+      "rewards/xmlcount_reward_func": 0.29203125089406967,
       "step": 10
     },
     {
+      "completion_length": 391.95,
       "epoch": 3.0,
+      "grad_norm": 0.29448872804641724,
+      "kl": 0.0007362419622950256,
       "learning_rate": 2.2935516363191693e-07,
       "loss": 0.0,
+      "reward": 1.552048921585083,
+      "reward_std": 1.4807761430740356,
+      "rewards/concensus_correctness_reward_func": 0.11649999618530274,
+      "rewards/consensus_reward_func": 0.2,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.3,
+      "rewards/question_recreation_reward_func": 0.5445988833904266,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.025,
+      "rewards/xmlcount_reward_func": 0.3659500226378441,
       "step": 12
     },
     {
+      "completion_length": 394.75,
+      "epoch": 3.6153846153846154,
+      "grad_norm": 0.40795379877090454,
+      "kl": 0.0007195913349278271,
       "learning_rate": 1.4957614383675767e-07,
       "loss": 0.0,
+      "reward": 1.6800823155790567,
+      "reward_std": 1.2839609049260616,
+      "rewards/concensus_correctness_reward_func": 0.07900000363588333,
+      "rewards/consensus_reward_func": 0.5625,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.1875,
+      "rewards/question_recreation_reward_func": 0.6074573080986738,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.24362499546259642,
       "step": 14
     },
     {
+      "completion_length": 448.4,
       "epoch": 4.0,
+      "grad_norm": 0.11178749054670334,
+      "kl": 0.0007567866239696741,
       "learning_rate": 8.067960709356478e-08,
       "loss": 0.0,
+      "reward": 1.7045778155326843,
+      "reward_std": 1.136337584257126,
+      "rewards/concensus_correctness_reward_func": 0.140500009059906,
+      "rewards/consensus_reward_func": 0.7,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.4280278027057648,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.025,
+      "rewards/xmlcount_reward_func": 0.41104999780654905,
       "step": 16
     },
     {
+      "completion_length": 447.4375,
+      "epoch": 4.615384615384615,
+      "grad_norm": 0.30254054069519043,
+      "kl": 0.0007833865129214246,
       "learning_rate": 3.013156219837776e-08,
       "loss": 0.0,
+      "reward": 1.2842271625995636,
+      "reward_std": 1.1678531877696514,
+      "rewards/concensus_correctness_reward_func": 0.03562500001862645,
+      "rewards/consensus_reward_func": 0.5625,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0625,
+      "rewards/question_recreation_reward_func": 0.5792584158480167,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.044343747198581696,
       "step": 18
     },
     {
+      "completion_length": 387.35,
       "epoch": 5.0,
+      "grad_norm": 0.38047465682029724,
+      "kl": 0.000696303800214082,
       "learning_rate": 3.4096741493194193e-09,
       "loss": 0.0,
+      "reward": 1.6467612504959106,
+      "reward_std": 0.8684803545475006,
+      "rewards/concensus_correctness_reward_func": 0.0,
+      "rewards/consensus_reward_func": 0.2,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.5,
+      "rewards/question_recreation_reward_func": 0.5355612635612488,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.4111999899148941,
       "step": 20
     },
     {
       "epoch": 5.0,
       "step": 20,
       "total_flos": 0.0,
+      "train_loss": 6.544018134491125e-07,
+      "train_runtime": 576.0128,
+      "train_samples_per_second": 0.556,
+      "train_steps_per_second": 0.035
     }
   ],
   "logging_steps": 2,
     }
   },
   "total_flos": 0.0,
+  "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e603e9d331e25b3b260d7c95a5b828ca58a67764ee53ce7b9ad314974bf85e19
-size 5880

 version https://git-lfs.github.com/spec/v1
+oid sha256:e9ba3f8f149aa4a554a22ddda00d63f58c886aaaf32fc6a29a7eb82852ed1139
+size 5944