End of training

Browse files

Files changed (7) hide show

README.md +4 -3
adapter_config.json +39 -0
adapter_model.safetensors +3 -0
all_results.json +5 -5
train_results.json +5 -5
trainer_state.json +134 -134
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -1,5 +1,5 @@
 ---
-base_model: Gensyn/Qwen2.5-0.5B-Instruct
 library_name: transformers
 model_name: gensyn-checkpoints-trotting_galloping_slug
 tags:
@@ -8,13 +8,14 @@ tags:
 - grpo
 - gensyn
 - I am trotting galloping slug
 - trl
 licence: license
 ---
 # Model Card for gensyn-checkpoints-trotting_galloping_slug
-This model is a fine-tuned version of [Gensyn/Qwen2.5-0.5B-Instruct](https://huggingface.co/Gensyn/Qwen2.5-0.5B-Instruct).
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
@@ -39,7 +40,7 @@ This model was trained with GRPO, a method introduced in [DeepSeekMath: Pushing
 - TRL: 0.15.2
 - Transformers: 4.51.3
-- Pytorch: 2.5.1
 - Datasets: 3.5.0
 - Tokenizers: 0.21.1

 ---
+base_model: Gensyn/Qwen2.5-1.5B-Instruct
 library_name: transformers
 model_name: gensyn-checkpoints-trotting_galloping_slug
 tags:
 - grpo
 - gensyn
 - I am trotting galloping slug
+- unsloth
 - trl
 licence: license
 ---
 # Model Card for gensyn-checkpoints-trotting_galloping_slug
+This model is a fine-tuned version of [Gensyn/Qwen2.5-1.5B-Instruct](https://huggingface.co/Gensyn/Qwen2.5-1.5B-Instruct).
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
 - TRL: 0.15.2
 - Transformers: 4.51.3
+- Pytorch: 2.6.0
 - Datasets: 3.5.0
 - Tokenizers: 0.21.1

adapter_config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "Gensyn/Qwen2.5-1.5B-Instruct",
+  "bias": "none",
+  "corda_config": null,
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_bias": false,
+  "lora_dropout": 0,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 16,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "down_proj",
+    "v_proj",
+    "k_proj",
+    "up_proj",
+    "gate_proj",
+    "o_proj",
+    "q_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "trainable_token_indices": null,
+  "use_dora": false,
+  "use_rslora": false
+}

adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:56fec745477154778659636e8889da86fb3ed70c0009f3bd02189baea1e817a6
+size 73911112

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 8.675511101926531,
-    "train_runtime": 192.5653,
-    "train_samples": 28,
-    "train_samples_per_second": 1.662,
-    "train_steps_per_second": 0.104
 }

 {
     "total_flos": 0.0,
+    "train_loss": 7.719278130480233e-07,
+    "train_runtime": 1561.0641,
+    "train_samples": 19,
+    "train_samples_per_second": 0.205,
+    "train_steps_per_second": 0.013
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 8.675511101926531,
-    "train_runtime": 192.5653,
-    "train_samples": 28,
-    "train_samples_per_second": 1.662,
-    "train_steps_per_second": 0.104
 }

 {
     "total_flos": 0.0,
+    "train_loss": 7.719278130480233e-07,
+    "train_runtime": 1561.0641,
+    "train_samples": 19,
+    "train_samples_per_second": 0.205,
+    "train_steps_per_second": 0.013
 }

trainer_state.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 5.0,
   "eval_steps": 500,
   "global_step": 20,
   "is_hyper_param_search": false,
@@ -10,209 +10,209 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "completion_length": 237.09375,
-      "epoch": 0.5714285714285714,
-      "grad_norm": 23.86282730102539,
-      "kl": 0.0,
       "learning_rate": 5e-07,
       "loss": 0.0,
-      "reward": 2.320491649210453,
-      "reward_std": 1.035187211818993,
-      "rewards/concensus_correctness_reward_func": 0.31562499701976776,
-      "rewards/consensus_reward_func": 0.4375,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.125,
-      "rewards/question_recreation_reward_func": 0.6428666170686483,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.7994999922811985,
       "step": 2
     },
     {
-      "completion_length": 202.75,
-      "epoch": 1.0,
-      "grad_norm": 20.716642379760742,
-      "kl": 0.3580615110695362,
       "learning_rate": 4.864543104251586e-07,
-      "loss": 0.0003,
-      "reward": 2.4445405304431915,
-      "reward_std": 0.7943247662236294,
-      "rewards/concensus_correctness_reward_func": 0.31799999872843426,
-      "rewards/consensus_reward_func": 0.25,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.08333333333333333,
-      "rewards/question_recreation_reward_func": 0.7158738623062769,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 1.0773333460092545,
       "step": 4
     },
     {
-      "completion_length": 236.0,
-      "epoch": 1.5714285714285714,
-      "grad_norm": 17.435176849365234,
-      "kl": 0.07964501332025975,
       "learning_rate": 4.472851273490984e-07,
-      "loss": 0.0001,
-      "reward": 3.0734478905797005,
-      "reward_std": 1.2019765962613747,
-      "rewards/concensus_correctness_reward_func": 0.818124994635582,
-      "rewards/consensus_reward_func": 0.625,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.6496978905051947,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.9806249961256981,
       "step": 6
     },
     {
-      "completion_length": 218.04166666666666,
-      "epoch": 2.0,
-      "grad_norm": 10.406091690063477,
-      "kl": 81480.78907666805,
       "learning_rate": 3.867370395306068e-07,
-      "loss": 61.1106,
-      "reward": 3.46412992477417,
-      "reward_std": 2.2507151973744235,
-      "rewards/concensus_correctness_reward_func": 1.1319166670242946,
-      "rewards/consensus_reward_func": 0.4166666666666667,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.08333333333333333,
-      "rewards/question_recreation_reward_func": 0.746754934390386,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.041666666666666664,
-      "rewards/xmlcount_reward_func": 1.0437916765610378,
       "step": 8
     },
     {
-      "completion_length": 222.4375,
-      "epoch": 2.571428571428571,
-      "grad_norm": 14.132076263427734,
-      "kl": 0.5107612958818208,
       "learning_rate": 3.1137137178519977e-07,
-      "loss": 0.0005,
-      "reward": 3.7268150821328163,
-      "reward_std": 1.5598002884944435,
-      "rewards/concensus_correctness_reward_func": 0.9949999861419201,
-      "rewards/consensus_reward_func": 0.8125,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.1875,
-      "rewards/question_recreation_reward_func": 0.6768150591524318,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.015625,
-      "rewards/xmlcount_reward_func": 1.0393749959766865,
       "step": 10
     },
     {
-      "completion_length": 205.75,
-      "epoch": 3.0,
-      "grad_norm": 8.287981033325195,
-      "kl": 0.11747636886623998,
       "learning_rate": 2.2935516363191693e-07,
-      "loss": 0.0001,
-      "reward": 4.006574511528015,
-      "reward_std": 1.4391742528726656,
-      "rewards/concensus_correctness_reward_func": 0.9271666631102562,
-      "rewards/consensus_reward_func": 1.0833333333333333,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.8568661361932755,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 1.1392083217700322,
       "step": 12
     },
     {
-      "completion_length": 273.4375,
-      "epoch": 3.571428571428571,
-      "grad_norm": 12.828157424926758,
-      "kl": 0.5077391383820213,
       "learning_rate": 1.4957614383675767e-07,
-      "loss": 0.0005,
-      "reward": 3.0370506569743156,
-      "reward_std": 1.9715431984513998,
-      "rewards/concensus_correctness_reward_func": 0.613062497228384,
-      "rewards/consensus_reward_func": 0.6875,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.1875,
-      "rewards/question_recreation_reward_func": 0.6411756332963705,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.9078125022351742,
       "step": 14
     },
     {
-      "completion_length": 249.08333333333334,
-      "epoch": 4.0,
-      "grad_norm": 12.552739143371582,
-      "kl": 34149.09689274756,
       "learning_rate": 8.067960709356478e-08,
-      "loss": 25.6118,
-      "reward": 3.7040178924798965,
-      "reward_std": 1.3390946853905916,
-      "rewards/concensus_correctness_reward_func": 0.9702499856551489,
-      "rewards/consensus_reward_func": 0.8333333333333334,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.25,
-      "rewards/question_recreation_reward_func": 0.6871429421007633,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.9632916674017906,
       "step": 16
     },
     {
-      "completion_length": 212.78125,
-      "epoch": 4.571428571428571,
-      "grad_norm": 16.37578773498535,
-      "kl": 19.238060696865432,
       "learning_rate": 3.013156219837776e-08,
-      "loss": 0.0192,
-      "reward": 3.540576569736004,
-      "reward_std": 1.7284664756152779,
-      "rewards/concensus_correctness_reward_func": 0.9062499925494194,
-      "rewards/consensus_reward_func": 0.8125,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.1875,
-      "rewards/question_recreation_reward_func": 0.6683264966122806,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.96599998511374,
       "step": 18
     },
     {
-      "completion_length": 242.83333333333334,
-      "epoch": 5.0,
-      "grad_norm": 244.17030334472656,
-      "kl": 15.989224990286553,
       "learning_rate": 3.4096741493194193e-09,
-      "loss": 0.012,
-      "reward": 3.2668827176094055,
-      "reward_std": 1.63679713383317,
-      "rewards/concensus_correctness_reward_func": 0.7084999978542328,
-      "rewards/consensus_reward_func": 0.4166666666666667,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.25,
-      "rewards/question_recreation_reward_func": 0.8270076736807823,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 1.0647083222866058,
       "step": 20
     },
     {
-      "epoch": 5.0,
       "step": 20,
       "total_flos": 0.0,
-      "train_loss": 8.675511101926531,
-      "train_runtime": 192.5653,
-      "train_samples_per_second": 1.662,
-      "train_steps_per_second": 0.104
     }
   ],
   "logging_steps": 2,
   "max_steps": 20,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 7,
   "save_steps": 25,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -227,7 +227,7 @@
     }
   },
   "total_flos": 0.0,
-  "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null
 }

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 4.0,
   "eval_steps": 500,
   "global_step": 20,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "completion_length": 420.71875,
+      "epoch": 0.42105263157894735,
+      "grad_norm": 0.6361321806907654,
+      "kl": 0.0008887802541721612,
       "learning_rate": 5e-07,
       "loss": 0.0,
+      "reward": 1.5201384201645851,
+      "reward_std": 1.2980310879647732,
+      "rewards/concensus_correctness_reward_func": 0.0599374994635582,
+      "rewards/consensus_reward_func": 0.5625,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.6542321071028709,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.03125,
+      "rewards/xmlcount_reward_func": 0.21221876703202724,
       "step": 2
     },
     {
+      "completion_length": 433.40625,
+      "epoch": 0.8421052631578947,
+      "grad_norm": 0.4523531198501587,
+      "kl": 0.000742843756597722,
       "learning_rate": 4.864543104251586e-07,
+      "loss": 0.0,
+      "reward": 1.1178575716912746,
+      "reward_std": 0.8726511485874653,
+      "rewards/concensus_correctness_reward_func": 0.0377499982714653,
+      "rewards/consensus_reward_func": 0.1875,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.6512638479471207,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.2413437543436885,
       "step": 4
     },
     {
+      "completion_length": 375.39285714285717,
+      "epoch": 1.2105263157894737,
+      "grad_norm": 0.7264524102210999,
+      "kl": 0.0008302565298176237,
       "learning_rate": 4.472851273490984e-07,
+      "loss": 0.0,
+      "reward": 1.2625711475099837,
+      "reward_std": 0.9623690843582153,
+      "rewards/concensus_correctness_reward_func": 0.009000000144754137,
+      "rewards/consensus_reward_func": 0.2857142857142857,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.5938568540981838,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.017857142857142856,
+      "rewards/xmlcount_reward_func": 0.3561428615025112,
       "step": 6
     },
     {
+      "completion_length": 472.625,
+      "epoch": 1.631578947368421,
+      "grad_norm": 0.25903260707855225,
+      "kl": 0.0007069103230605833,
       "learning_rate": 3.867370395306068e-07,
+      "loss": 0.0,
+      "reward": 0.8763494361191988,
+      "reward_std": 1.2068727761507034,
+      "rewards/concensus_correctness_reward_func": 0.00787500012665987,
+      "rewards/consensus_reward_func": 0.375,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.46919320430606604,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.024281248450279236,
       "step": 8
     },
     {
+      "completion_length": 305.0357142857143,
+      "epoch": 2.0,
+      "grad_norm": 0.5064064264297485,
+      "kl": 0.0008577754654522453,
       "learning_rate": 3.1137137178519977e-07,
+      "loss": 0.0,
+      "reward": 1.3919612275702613,
+      "reward_std": 1.1690896579197474,
+      "rewards/concensus_correctness_reward_func": 0.06849999938692365,
+      "rewards/consensus_reward_func": 0.42857142857142855,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.6631040743419102,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.23178572048033988,
       "step": 10
     },
     {
+      "completion_length": 347.75,
+      "epoch": 2.4210526315789473,
+      "grad_norm": 0.5330848097801208,
+      "kl": 0.000896375386219006,
       "learning_rate": 2.2935516363191693e-07,
+      "loss": 0.0,
+      "reward": 1.0852160099893808,
+      "reward_std": 1.0150077864527702,
+      "rewards/concensus_correctness_reward_func": 0.0,
+      "rewards/consensus_reward_func": 0.1875,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0625,
+      "rewards/question_recreation_reward_func": 0.5125597808510065,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.015625,
+      "rewards/xmlcount_reward_func": 0.3070312566123903,
       "step": 12
     },
     {
+      "completion_length": 443.625,
+      "epoch": 2.8421052631578947,
+      "grad_norm": 0.28129348158836365,
+      "kl": 0.0008225766432587989,
       "learning_rate": 1.4957614383675767e-07,
+      "loss": 0.0,
+      "reward": 1.1870016120374203,
+      "reward_std": 1.2073086723685265,
+      "rewards/concensus_correctness_reward_func": 0.0,
+      "rewards/consensus_reward_func": 0.5,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.5797516237944365,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.10725000966340303,
       "step": 14
     },
     {
+      "completion_length": 415.75,
+      "epoch": 3.2105263157894735,
+      "grad_norm": 6.146119594573975,
+      "kl": 0.0009467536167773817,
       "learning_rate": 8.067960709356478e-08,
+      "loss": 0.0,
+      "reward": 0.8282955501760755,
+      "reward_std": 1.009915136865207,
+      "rewards/concensus_correctness_reward_func": 0.043142855167388916,
+      "rewards/consensus_reward_func": 0.21428571428571427,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.43358126282691956,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.017857142857142856,
+      "rewards/xmlcount_reward_func": 0.1194285721118961,
       "step": 16
     },
     {
+      "completion_length": 391.75,
+      "epoch": 3.6315789473684212,
+      "grad_norm": 0.4896613359451294,
+      "kl": 0.0007857006203266792,
       "learning_rate": 3.013156219837776e-08,
+      "loss": 0.0,
+      "reward": 1.168848019093275,
+      "reward_std": 1.2433249726891518,
+      "rewards/concensus_correctness_reward_func": 0.0,
+      "rewards/consensus_reward_func": 0.375,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.5204730089753866,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.046875,
+      "rewards/xmlcount_reward_func": 0.22650000732392073,
       "step": 18
     },
     {
+      "completion_length": 341.25,
+      "epoch": 4.0,
+      "grad_norm": 1.5260387659072876,
+      "kl": 0.000702221952711365,
       "learning_rate": 3.4096741493194193e-09,
+      "loss": 0.0,
+      "reward": 1.339954333645957,
+      "reward_std": 1.0981043364320482,
+      "rewards/concensus_correctness_reward_func": 0.11164285455431257,
+      "rewards/consensus_reward_func": 0.2857142857142857,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.7423471893583026,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.017857142857142856,
+      "rewards/xmlcount_reward_func": 0.18239287180559977,
       "step": 20
     },
     {
+      "epoch": 4.0,
       "step": 20,
       "total_flos": 0.0,
+      "train_loss": 7.719278130480233e-07,
+      "train_runtime": 1561.0641,
+      "train_samples_per_second": 0.205,
+      "train_steps_per_second": 0.013
     }
   ],
   "logging_steps": 2,
   "max_steps": 20,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
   "save_steps": 25,
   "stateful_callbacks": {
     "TrainerControl": {
     }
   },
   "total_flos": 0.0,
+  "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ec342ffa67caa41e930bd76e4a3e5a3f859accb6c0821943a5619cb4aa32b03
-size 5880

 version https://git-lfs.github.com/spec/v1
+oid sha256:b65d2c4f1272cdb3e0f607129c8f837d96c722fb5f84631fd680c4bf1ccc857b
+size 5944