End of training

Browse files

Files changed (7) hide show

README.md +5 -4
adapter_config.json +39 -0
adapter_model.safetensors +3 -0
all_results.json +5 -5
train_results.json +5 -5
trainer_state.json +116 -116
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -1,5 +1,5 @@
 ---
-base_model: Gensyn/Qwen2.5-0.5B-Instruct
 library_name: transformers
 model_name: gensyn-checkpoints-alert_pawing_anaconda
 tags:
@@ -8,13 +8,14 @@ tags:
 - grpo
 - gensyn
 - I am alert pawing anaconda
 - trl
 licence: license
 ---
 # Model Card for gensyn-checkpoints-alert_pawing_anaconda
-This model is a fine-tuned version of [Gensyn/Qwen2.5-0.5B-Instruct](https://huggingface.co/Gensyn/Qwen2.5-0.5B-Instruct).
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
@@ -39,8 +40,8 @@ This model was trained with GRPO, a method introduced in [DeepSeekMath: Pushing
 - TRL: 0.15.2
 - Transformers: 4.51.3
-- Pytorch: 2.5.1
-- Datasets: 3.5.0
 - Tokenizers: 0.21.1
 ## Citations

 ---
+base_model: Gensyn/Qwen2.5-1.5B-Instruct
 library_name: transformers
 model_name: gensyn-checkpoints-alert_pawing_anaconda
 tags:
 - grpo
 - gensyn
 - I am alert pawing anaconda
+- unsloth
 - trl
 licence: license
 ---
 # Model Card for gensyn-checkpoints-alert_pawing_anaconda
+This model is a fine-tuned version of [Gensyn/Qwen2.5-1.5B-Instruct](https://huggingface.co/Gensyn/Qwen2.5-1.5B-Instruct).
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
 - TRL: 0.15.2
 - Transformers: 4.51.3
+- Pytorch: 2.6.0
+- Datasets: 3.6.0
 - Tokenizers: 0.21.1
 ## Citations

adapter_config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "Gensyn/Qwen2.5-1.5B-Instruct",
+  "bias": "none",
+  "corda_config": null,
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_bias": false,
+  "lora_dropout": 0,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 16,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "v_proj",
+    "k_proj",
+    "down_proj",
+    "gate_proj",
+    "q_proj",
+    "up_proj",
+    "o_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "trainable_token_indices": null,
+  "use_dora": false,
+  "use_rslora": false
+}

adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6a493fcd4f8490e6da17c81266ac2321fb8c0b900cea4e713346926af3f7089b
+size 73911112

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 2.26292759180069e-06,
-    "train_runtime": 300.3933,
-    "train_samples": 28,
-    "train_samples_per_second": 1.065,
-    "train_steps_per_second": 0.067
 }

 {
     "total_flos": 0.0,
+    "train_loss": 7.334376395995435e-07,
+    "train_runtime": 1213.9576,
+    "train_samples": 15,
+    "train_samples_per_second": 0.264,
+    "train_steps_per_second": 0.016
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 2.26292759180069e-06,
-    "train_runtime": 300.3933,
-    "train_samples": 28,
-    "train_samples_per_second": 1.065,
-    "train_steps_per_second": 0.067
 }

 {
     "total_flos": 0.0,
+    "train_loss": 7.334376395995435e-07,
+    "train_runtime": 1213.9576,
+    "train_samples": 15,
+    "train_samples_per_second": 0.264,
+    "train_steps_per_second": 0.016
 }

trainer_state.json CHANGED Viewed

@@ -10,203 +10,203 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "completion_length": 409.5625,
-      "epoch": 0.5714285714285714,
-      "grad_norm": 7.3488874435424805,
       "kl": 0.0,
       "learning_rate": 5e-07,
       "loss": -0.0,
-      "reward": 1.911701524630189,
-      "reward_std": 1.9608921660110354,
-      "rewards/concensus_correctness_reward_func": 0.6924999989569187,
-      "rewards/consensus_reward_func": 0.1875,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.125,
-      "rewards/question_recreation_reward_func": 0.502670262940228,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.40403125062584877,
       "step": 2
     },
     {
-      "completion_length": 328.0833333333333,
       "epoch": 1.0,
-      "grad_norm": 2.5143661499023438,
-      "kl": 0.000962535836151801,
       "learning_rate": 4.864543104251586e-07,
       "loss": 0.0,
-      "reward": 1.6085879653692245,
-      "reward_std": 0.4928823659817378,
-      "rewards/concensus_correctness_reward_func": 0.07999999821186066,
-      "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.16666666666666666,
-      "rewards/question_recreation_reward_func": 0.5609629477063814,
-      "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.8009583279490471,
       "step": 4
     },
     {
-      "completion_length": 399.75,
-      "epoch": 1.5714285714285714,
-      "grad_norm": 5.2374091148376465,
-      "kl": 0.0016545295457035536,
       "learning_rate": 4.472851273490984e-07,
       "loss": 0.0,
-      "reward": 1.8188971318304539,
-      "reward_std": 1.099338564556092,
-      "rewards/concensus_correctness_reward_func": 0.6851250007748604,
-      "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0625,
-      "rewards/question_recreation_reward_func": 0.5636470918543637,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.5076250061392784,
       "step": 6
     },
     {
-      "completion_length": 369.0833333333333,
       "epoch": 2.0,
-      "grad_norm": 2.376291275024414,
-      "kl": 0.0015570806475201,
       "learning_rate": 3.867370395306068e-07,
       "loss": 0.0,
-      "reward": 2.6855219999949136,
-      "reward_std": 2.0642324524621167,
-      "rewards/concensus_correctness_reward_func": 0.9224166671435038,
-      "rewards/consensus_reward_func": 0.25,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.25,
-      "rewards/question_recreation_reward_func": 0.6277303335567316,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.6353750017782053,
       "step": 8
     },
     {
-      "completion_length": 424.96875,
-      "epoch": 2.571428571428571,
-      "grad_norm": 3.9620633125305176,
-      "kl": 0.002315260087925708,
       "learning_rate": 3.1137137178519977e-07,
       "loss": 0.0,
-      "reward": 1.3290682332590222,
-      "reward_std": 0.747250135987997,
-      "rewards/concensus_correctness_reward_func": 0.07956250011920929,
-      "rewards/consensus_reward_func": 0.125,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.1875,
-      "rewards/question_recreation_reward_func": 0.41284948121756315,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.524156260304153,
       "step": 10
     },
     {
-      "completion_length": 423.0833333333333,
       "epoch": 3.0,
-      "grad_norm": 2.795499563217163,
-      "kl": 0.003039477189304307,
       "learning_rate": 2.2935516363191693e-07,
       "loss": 0.0,
-      "reward": 1.7231739660104115,
-      "reward_std": 1.0104351732879877,
-      "rewards/concensus_correctness_reward_func": 0.16308333228031793,
-      "rewards/consensus_reward_func": 0.4166666666666667,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.25,
-      "rewards/question_recreation_reward_func": 0.5202989131212234,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.37312500551342964,
       "step": 12
     },
     {
-      "completion_length": 377.09375,
-      "epoch": 3.571428571428571,
-      "grad_norm": 13.31064510345459,
-      "kl": 0.0036816853971686214,
       "learning_rate": 1.4957614383675767e-07,
       "loss": 0.0,
-      "reward": 1.623508368153125,
-      "reward_std": 0.8322483664378524,
-      "rewards/concensus_correctness_reward_func": 0.10193750099278986,
-      "rewards/consensus_reward_func": 0.125,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.1875,
-      "rewards/question_recreation_reward_func": 0.5396646414883435,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.669406246393919,
       "step": 14
     },
     {
-      "completion_length": 344.9583333333333,
       "epoch": 4.0,
-      "grad_norm": 4.11659574508667,
-      "kl": 0.005116298232072343,
       "learning_rate": 8.067960709356478e-08,
       "loss": 0.0,
-      "reward": 1.2915391772985458,
-      "reward_std": 0.7148025852317611,
-      "rewards/concensus_correctness_reward_func": 0.03758333375056585,
-      "rewards/consensus_reward_func": 0.08333333333333333,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.16666666666666666,
-      "rewards/question_recreation_reward_func": 0.4621641853203376,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.5417916551232338,
       "step": 16
     },
     {
-      "completion_length": 501.90625,
-      "epoch": 4.571428571428571,
-      "grad_norm": 4.820127487182617,
-      "kl": 0.0034084110739058815,
       "learning_rate": 3.013156219837776e-08,
       "loss": 0.0,
-      "reward": 1.9342150054872036,
-      "reward_std": 2.3277871979225893,
-      "rewards/concensus_correctness_reward_func": 0.6885625012218952,
-      "rewards/consensus_reward_func": 0.25,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.25,
-      "rewards/question_recreation_reward_func": 0.5643087650532834,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.18134376220405102,
       "step": 18
     },
     {
-      "completion_length": 415.9166666666667,
       "epoch": 5.0,
-      "grad_norm": 3.886725902557373,
-      "kl": 0.003820983639646632,
       "learning_rate": 3.4096741493194193e-09,
       "loss": 0.0,
-      "reward": 1.0419001132249832,
-      "reward_std": 0.8572910024474064,
-      "rewards/concensus_correctness_reward_func": 0.08016666769981384,
-      "rewards/consensus_reward_func": 0.0,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.16666666666666666,
-      "rewards/question_recreation_reward_func": 0.471900115100046,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.3231666736925642,
       "step": 20
     },
     {
       "epoch": 5.0,
       "step": 20,
       "total_flos": 0.0,
-      "train_loss": 2.26292759180069e-06,
-      "train_runtime": 300.3933,
-      "train_samples_per_second": 1.065,
-      "train_steps_per_second": 0.067
     }
   ],
   "logging_steps": 2,
@@ -227,7 +227,7 @@
     }
   },
   "total_flos": 0.0,
-  "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null
 }

   "is_world_process_zero": true,
   "log_history": [
     {
+      "completion_length": 370.5,
+      "epoch": 0.5333333333333333,
+      "grad_norm": 0.6320868134498596,
       "kl": 0.0,
       "learning_rate": 5e-07,
       "loss": -0.0,
+      "reward": 1.178517110645771,
+      "reward_std": 0.9825490638613701,
+      "rewards/concensus_correctness_reward_func": 0.04531250335276127,
+      "rewards/consensus_reward_func": 0.125,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.25,
+      "rewards/question_recreation_reward_func": 0.420610835775733,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.015625,
+      "rewards/xmlcount_reward_func": 0.3219687547534704,
       "step": 2
     },
     {
+      "completion_length": 328.92857142857144,
       "epoch": 1.0,
+      "grad_norm": 0.47581061720848083,
+      "kl": 0.0009534425917081535,
       "learning_rate": 4.864543104251586e-07,
       "loss": 0.0,
+      "reward": 1.2720517558710915,
+      "reward_std": 1.0473234908921378,
+      "rewards/concensus_correctness_reward_func": 0.0,
+      "rewards/consensus_reward_func": 0.14285714285714285,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.42857142857142855,
+      "rewards/question_recreation_reward_func": 0.4950517469218799,
+      "rewards/soft_format_reward_func": 0.017857142857142856,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.18771429998534067,
       "step": 4
     },
     {
+      "completion_length": 390.96875,
+      "epoch": 1.5333333333333332,
+      "grad_norm": 0.5493902564048767,
+      "kl": 0.0007869710389059037,
       "learning_rate": 4.472851273490984e-07,
       "loss": 0.0,
+      "reward": 1.5517104975879192,
+      "reward_std": 1.0216393284499645,
+      "rewards/concensus_correctness_reward_func": 0.06012500077486038,
+      "rewards/consensus_reward_func": 0.1875,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.375,
+      "rewards/question_recreation_reward_func": 0.4212729502469301,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.03125,
+      "rewards/xmlcount_reward_func": 0.4765625037252903,
       "step": 6
     },
     {
+      "completion_length": 387.5,
       "epoch": 2.0,
+      "grad_norm": 0.38475939631462097,
+      "kl": 0.0007659006265125104,
       "learning_rate": 3.867370395306068e-07,
       "loss": 0.0,
+      "reward": 0.7905604477439608,
+      "reward_std": 0.9036691273961749,
+      "rewards/concensus_correctness_reward_func": 0.0,
+      "rewards/consensus_reward_func": 0.07142857142857142,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.21428571428571427,
+      "rewards/question_recreation_reward_func": 0.4089176186493465,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.017857142857142856,
+      "rewards/xmlcount_reward_func": 0.0780714319220611,
       "step": 8
     },
     {
+      "completion_length": 298.375,
+      "epoch": 2.533333333333333,
+      "grad_norm": 4.775766372680664,
+      "kl": 0.0009655183021095581,
       "learning_rate": 3.1137137178519977e-07,
       "loss": 0.0,
+      "reward": 1.925378292798996,
+      "reward_std": 1.332388810813427,
+      "rewards/concensus_correctness_reward_func": 0.09481250308454037,
+      "rewards/consensus_reward_func": 0.3125,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.5625,
+      "rewards/question_recreation_reward_func": 0.524846994318068,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.015625,
+      "rewards/xmlcount_reward_func": 0.41509374789893627,
       "step": 10
     },
     {
+      "completion_length": 359.85714285714283,
       "epoch": 3.0,
+      "grad_norm": 0.6231438517570496,
+      "kl": 0.0008056558934705598,
       "learning_rate": 2.2935516363191693e-07,
       "loss": 0.0,
+      "reward": 1.1937377282551356,
+      "reward_std": 1.1367330593722207,
+      "rewards/concensus_correctness_reward_func": 0.0,
+      "rewards/consensus_reward_func": 0.2857142857142857,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.21428571428571427,
+      "rewards/question_recreation_reward_func": 0.4232020058802196,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.017857142857142856,
+      "rewards/xmlcount_reward_func": 0.25267857419592993,
       "step": 12
     },
     {
+      "completion_length": 391.75,
+      "epoch": 3.533333333333333,
+      "grad_norm": 0.671714723110199,
+      "kl": 0.0007653082866454497,
       "learning_rate": 1.4957614383675767e-07,
       "loss": 0.0,
+      "reward": 2.090083334594965,
+      "reward_std": 1.2006787694990635,
+      "rewards/concensus_correctness_reward_func": 0.427249975502491,
+      "rewards/consensus_reward_func": 0.375,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.4375,
+      "rewards/question_recreation_reward_func": 0.4738645385950804,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.0625,
+      "rewards/xmlcount_reward_func": 0.3139687478542328,
       "step": 14
     },
     {
+      "completion_length": 279.60714285714283,
       "epoch": 4.0,
+      "grad_norm": 0.6454631090164185,
+      "kl": 0.0009609005646780133,
       "learning_rate": 8.067960709356478e-08,
       "loss": 0.0,
+      "reward": 2.0080738365650177,
+      "reward_std": 1.9522871311221803,
+      "rewards/concensus_correctness_reward_func": 0.7142857142857143,
+      "rewards/consensus_reward_func": 0.07142857142857142,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.2857142857142857,
+      "rewards/question_recreation_reward_func": 0.5558595657348633,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.38078572281769346,
       "step": 16
     },
     {
+      "completion_length": 352.21875,
+      "epoch": 4.533333333333333,
+      "grad_norm": 0.7853459119796753,
+      "kl": 0.0008694051721249707,
       "learning_rate": 3.013156219837776e-08,
       "loss": 0.0,
+      "reward": 1.630488459020853,
+      "reward_std": 1.1447128355503082,
+      "rewards/concensus_correctness_reward_func": 0.07325000315904617,
+      "rewards/consensus_reward_func": 0.125,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.6875,
+      "rewards/question_recreation_reward_func": 0.4198634847998619,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.32487500412389636,
       "step": 18
     },
     {
+      "completion_length": 347.42857142857144,
       "epoch": 5.0,
+      "grad_norm": 0.8366572856903076,
+      "kl": 0.0008741397344108139,
       "learning_rate": 3.4096741493194193e-09,
       "loss": 0.0,
+      "reward": 1.2023059981209892,
+      "reward_std": 0.7625741745744433,
+      "rewards/concensus_correctness_reward_func": -0.018285714089870453,
+      "rewards/consensus_reward_func": 0.35714285714285715,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.4690203091927937,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.39442857993500574,
       "step": 20
     },
     {
       "epoch": 5.0,
       "step": 20,
       "total_flos": 0.0,
+      "train_loss": 7.334376395995435e-07,
+      "train_runtime": 1213.9576,
+      "train_samples_per_second": 0.264,
+      "train_steps_per_second": 0.016
     }
   ],
   "logging_steps": 2,
     }
   },
   "total_flos": 0.0,
+  "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1e43aa6fe32facf9e7aaa21f4a7707ea5472944f1653e3413312342178d2b2bd
-size 5880

 version https://git-lfs.github.com/spec/v1
+oid sha256:2a841150f51cc8ee1957f21d60dd58abd68d7d752067ab1912afcdf9f5c2cab1
+size 5944