End of training

Browse files

Files changed (7) hide show

README.md +4 -3
adapter_config.json +39 -0
adapter_model.safetensors +3 -0
all_results.json +5 -5
train_results.json +5 -5
trainer_state.json +133 -133
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -1,5 +1,5 @@
 ---
-base_model: Gensyn/Qwen2.5-0.5B-Instruct
 library_name: transformers
 model_name: gensyn-checkpoints-mighty_striped_mosquito
 tags:
@@ -8,13 +8,14 @@ tags:
 - grpo
 - gensyn
 - I am mighty striped mosquito
 - trl
 licence: license
 ---
 # Model Card for gensyn-checkpoints-mighty_striped_mosquito
-This model is a fine-tuned version of [Gensyn/Qwen2.5-0.5B-Instruct](https://huggingface.co/Gensyn/Qwen2.5-0.5B-Instruct).
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
@@ -39,7 +40,7 @@ This model was trained with GRPO, a method introduced in [DeepSeekMath: Pushing
 - TRL: 0.15.2
 - Transformers: 4.51.3
-- Pytorch: 2.5.1
 - Datasets: 3.5.0
 - Tokenizers: 0.21.1

 ---
+base_model: Gensyn/Qwen2.5-1.5B-Instruct
 library_name: transformers
 model_name: gensyn-checkpoints-mighty_striped_mosquito
 tags:
 - grpo
 - gensyn
 - I am mighty striped mosquito
+- unsloth
 - trl
 licence: license
 ---
 # Model Card for gensyn-checkpoints-mighty_striped_mosquito
+This model is a fine-tuned version of [Gensyn/Qwen2.5-1.5B-Instruct](https://huggingface.co/Gensyn/Qwen2.5-1.5B-Instruct).
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
 - TRL: 0.15.2
 - Transformers: 4.51.3
+- Pytorch: 2.6.0
 - Datasets: 3.5.0
 - Tokenizers: 0.21.1

adapter_config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "Gensyn/Qwen2.5-1.5B-Instruct",
+  "bias": "none",
+  "corda_config": null,
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_bias": false,
+  "lora_dropout": 0,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 16,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "up_proj",
+    "o_proj",
+    "gate_proj",
+    "v_proj",
+    "k_proj",
+    "q_proj",
+    "down_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "trainable_token_indices": null,
+  "use_dora": false,
+  "use_rslora": false
+}

adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:737de715e37f0ee0575e1058fd7c8c8b172fc432832a0b8b21df1ef4b977036d
+size 73911112

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 0.00411855943966657,
-    "train_runtime": 168.1118,
-    "train_samples": 28,
-    "train_samples_per_second": 1.903,
-    "train_steps_per_second": 0.119
 }

 {
     "total_flos": 0.0,
+    "train_loss": 7.933636616996864e-07,
+    "train_runtime": 1509.5259,
+    "train_samples": 32,
+    "train_samples_per_second": 0.212,
+    "train_steps_per_second": 0.013
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 0.00411855943966657,
-    "train_runtime": 168.1118,
-    "train_samples": 28,
-    "train_samples_per_second": 1.903,
-    "train_steps_per_second": 0.119
 }

 {
     "total_flos": 0.0,
+    "train_loss": 7.933636616996864e-07,
+    "train_runtime": 1509.5259,
+    "train_samples": 32,
+    "train_samples_per_second": 0.212,
+    "train_steps_per_second": 0.013
 }

trainer_state.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 5.0,
   "eval_steps": 500,
   "global_step": 20,
   "is_hyper_param_search": false,
@@ -10,209 +10,209 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "completion_length": 284.0625,
-      "epoch": 0.5714285714285714,
-      "grad_norm": 13.017946243286133,
       "kl": 0.0,
       "learning_rate": 5e-07,
       "loss": -0.0,
-      "reward": 2.50252827629447,
-      "reward_std": 1.3465997786261141,
-      "rewards/concensus_correctness_reward_func": 0.7065624929964542,
-      "rewards/consensus_reward_func": 0.8125,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.5547782958019525,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.4286874942481518,
       "step": 2
     },
     {
-      "completion_length": 237.33333333333334,
-      "epoch": 1.0,
-      "grad_norm": 11.726405143737793,
-      "kl": 0.17391472999588586,
       "learning_rate": 4.864543104251586e-07,
-      "loss": 0.0001,
-      "reward": 3.2650913894176483,
-      "reward_std": 1.5185739691369236,
-      "rewards/concensus_correctness_reward_func": 0.85125000278155,
-      "rewards/consensus_reward_func": 0.9166666666666666,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.6368413480619589,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.8603333284457525,
       "step": 4
     },
     {
-      "completion_length": 220.0625,
-      "epoch": 1.5714285714285714,
-      "grad_norm": 11.798323631286621,
-      "kl": 0.8199746691534529,
       "learning_rate": 4.472851273490984e-07,
-      "loss": 0.0008,
-      "reward": 3.940182790160179,
-      "reward_std": 1.5131501350551844,
-      "rewards/concensus_correctness_reward_func": 1.3488124888390303,
-      "rewards/consensus_reward_func": 1.1875,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.6812766063958406,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.7225937433540821,
       "step": 6
     },
     {
-      "completion_length": 232.66666666666666,
-      "epoch": 2.0,
-      "grad_norm": 7.973823547363281,
-      "kl": 0.1416951953821505,
       "learning_rate": 3.867370395306068e-07,
-      "loss": 0.0001,
-      "reward": 4.32094223300616,
-      "reward_std": 0.8963949421110252,
-      "rewards/concensus_correctness_reward_func": 1.1809999843438466,
-      "rewards/consensus_reward_func": 1.5,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.7927755365769068,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.8471666922171911,
       "step": 8
     },
     {
-      "completion_length": 182.34375,
-      "epoch": 2.571428571428571,
-      "grad_norm": 14.678662300109863,
-      "kl": 33.57919752027374,
       "learning_rate": 3.1137137178519977e-07,
-      "loss": 0.0336,
-      "reward": 3.846638932824135,
-      "reward_std": 1.0173490627203137,
-      "rewards/concensus_correctness_reward_func": 1.192499989643693,
-      "rewards/consensus_reward_func": 1.125,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.5789202903397381,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.9502187725156546,
       "step": 10
     },
     {
-      "completion_length": 167.41666666666666,
-      "epoch": 3.0,
-      "grad_norm": 12.084907531738281,
-      "kl": 0.47187765889490646,
       "learning_rate": 2.2935516363191693e-07,
-      "loss": 0.0004,
-      "reward": 4.601863443851471,
-      "reward_std": 0.6643593218759634,
-      "rewards/concensus_correctness_reward_func": 1.380166659752528,
-      "rewards/consensus_reward_func": 1.5,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.7364051192998886,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.9852916772166888,
       "step": 12
     },
     {
-      "completion_length": 219.90625,
-      "epoch": 3.571428571428571,
-      "grad_norm": 20.759944915771484,
-      "kl": 1.6594724934257101,
       "learning_rate": 1.4957614383675767e-07,
-      "loss": 0.0017,
-      "reward": 4.255878664553165,
-      "reward_std": 0.7436312579084188,
-      "rewards/concensus_correctness_reward_func": 1.3495000004768372,
-      "rewards/consensus_reward_func": 1.4375,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.6559725031256676,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.8129062578082085,
       "step": 14
     },
     {
-      "completion_length": 167.75,
-      "epoch": 4.0,
-      "grad_norm": 13.724530220031738,
-      "kl": 1.303979857203861,
       "learning_rate": 8.067960709356478e-08,
-      "loss": 0.001,
-      "reward": 4.827135781447093,
-      "reward_std": 0.6184192068564395,
-      "rewards/concensus_correctness_reward_func": 1.631666640440623,
-      "rewards/consensus_reward_func": 1.5,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.6333024455234408,
-      "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 1.0621666808923085,
       "step": 16
     },
     {
-      "completion_length": 162.9375,
-      "epoch": 4.571428571428571,
-      "grad_norm": 19.01066780090332,
-      "kl": 1.511619620374404,
       "learning_rate": 3.013156219837776e-08,
-      "loss": 0.0015,
-      "reward": 4.120429836213589,
-      "reward_std": 1.0264504913939163,
-      "rewards/concensus_correctness_reward_func": 1.1768749915063381,
-      "rewards/consensus_reward_func": 1.4375,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0625,
-      "rewards/question_recreation_reward_func": 0.5996173159219325,
-      "rewards/soft_format_reward_func": 0.015625,
       "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.8283125050365925,
       "step": 18
     },
     {
-      "completion_length": 170.04166666666666,
-      "epoch": 5.0,
-      "grad_norm": 20.060680389404297,
-      "kl": 2.730799451858426,
       "learning_rate": 3.4096741493194193e-09,
-      "loss": 0.002,
-      "reward": 4.442894717057546,
-      "reward_std": 0.8369220569050716,
-      "rewards/concensus_correctness_reward_func": 1.4301666567722957,
-      "rewards/consensus_reward_func": 1.3333333333333333,
       "rewards/cumulative_reward_2": 0.0,
-      "rewards/final_correctness_reward_func": 0.0,
-      "rewards/question_recreation_reward_func": 0.7097696848213673,
       "rewards/soft_format_reward_func": 0.0,
-      "rewards/strict_format_reward_func": 0.0,
-      "rewards/xmlcount_reward_func": 0.9696250160535177,
       "step": 20
     },
     {
-      "epoch": 5.0,
       "step": 20,
       "total_flos": 0.0,
-      "train_loss": 0.00411855943966657,
-      "train_runtime": 168.1118,
-      "train_samples_per_second": 1.903,
-      "train_steps_per_second": 0.119
     }
   ],
   "logging_steps": 2,
   "max_steps": 20,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 7,
   "save_steps": 25,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -227,7 +227,7 @@
     }
   },
   "total_flos": 0.0,
-  "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null
 }

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.5,
   "eval_steps": 500,
   "global_step": 20,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "completion_length": 413.75,
+      "epoch": 0.25,
+      "grad_norm": 0.46357375383377075,
       "kl": 0.0,
       "learning_rate": 5e-07,
       "loss": -0.0,
+      "reward": 1.2849541679024696,
+      "reward_std": 0.8547574430704117,
+      "rewards/concensus_correctness_reward_func": 0.0,
+      "rewards/consensus_reward_func": 0.1875,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0625,
+      "rewards/question_recreation_reward_func": 0.5533291734755039,
+      "rewards/soft_format_reward_func": 0.015625,
+      "rewards/strict_format_reward_func": 0.015625,
+      "rewards/xmlcount_reward_func": 0.4503749944269657,
       "step": 2
     },
     {
+      "completion_length": 432.5625,
+      "epoch": 0.5,
+      "grad_norm": 0.3482080101966858,
+      "kl": 0.0007897710383986123,
       "learning_rate": 4.864543104251586e-07,
+      "loss": 0.0,
+      "reward": 1.8649678751826286,
+      "reward_std": 1.3395485430955887,
+      "rewards/concensus_correctness_reward_func": 0.14462500717490911,
+      "rewards/consensus_reward_func": 0.5625,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.125,
+      "rewards/question_recreation_reward_func": 0.6095303371548653,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.015625,
+      "rewards/xmlcount_reward_func": 0.4076874926686287,
       "step": 4
     },
     {
+      "completion_length": 349.40625,
+      "epoch": 0.75,
+      "grad_norm": 0.6307326555252075,
+      "kl": 0.0009136497392319143,
       "learning_rate": 4.472851273490984e-07,
+      "loss": 0.0,
+      "reward": 1.3954805135726929,
+      "reward_std": 1.1356504745781422,
+      "rewards/concensus_correctness_reward_func": 0.04631250072270632,
+      "rewards/consensus_reward_func": 0.5,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.4110117405653,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.43815625086426735,
       "step": 6
     },
     {
+      "completion_length": 487.125,
+      "epoch": 1.0,
+      "grad_norm": 0.40111932158470154,
+      "kl": 0.0007306120023713447,
       "learning_rate": 3.867370395306068e-07,
+      "loss": 0.0,
+      "reward": 1.0593487620353699,
+      "reward_std": 1.2017905041575432,
+      "rewards/concensus_correctness_reward_func": 0.015812499448657036,
+      "rewards/consensus_reward_func": 0.25,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.125,
+      "rewards/question_recreation_reward_func": 0.6581299938261509,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.015625,
+      "rewards/xmlcount_reward_func": -0.005218749865889549,
       "step": 8
     },
     {
+      "completion_length": 423.1875,
+      "epoch": 1.25,
+      "grad_norm": 0.8196569681167603,
+      "kl": 0.0009462601228733547,
       "learning_rate": 3.1137137178519977e-07,
+      "loss": 0.0,
+      "reward": 1.2378643900156021,
+      "reward_std": 1.0382917914539576,
+      "rewards/concensus_correctness_reward_func": 0.009624999947845936,
+      "rewards/consensus_reward_func": 0.3125,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0625,
+      "rewards/question_recreation_reward_func": 0.5691456217318773,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.015625,
+      "rewards/xmlcount_reward_func": 0.26846875809133053,
       "step": 10
     },
     {
+      "completion_length": 481.3125,
+      "epoch": 1.5,
+      "grad_norm": 0.37485241889953613,
+      "kl": 0.0008153312155627646,
       "learning_rate": 2.2935516363191693e-07,
+      "loss": 0.0,
+      "reward": 1.1800873763859272,
+      "reward_std": 1.093521535396576,
+      "rewards/concensus_correctness_reward_func": 0.005125000141561031,
+      "rewards/consensus_reward_func": 0.3125,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.0625,
+      "rewards/question_recreation_reward_func": 0.5571811553090811,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.24278124421834946,
       "step": 12
     },
     {
+      "completion_length": 430.3125,
+      "epoch": 1.75,
+      "grad_norm": 0.3915340006351471,
+      "kl": 0.0008288904136861674,
       "learning_rate": 1.4957614383675767e-07,
+      "loss": 0.0,
+      "reward": 1.5560914799571037,
+      "reward_std": 1.0187466405332088,
+      "rewards/concensus_correctness_reward_func": 0.03162499889731407,
+      "rewards/consensus_reward_func": 0.8125,
       "rewards/cumulative_reward_2": 0.0,
       "rewards/final_correctness_reward_func": 0.0,
+      "rewards/question_recreation_reward_func": 0.5455601736903191,
       "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.16640624962747097,
       "step": 14
     },
     {
+      "completion_length": 373.875,
+      "epoch": 2.0,
+      "grad_norm": 0.4294878840446472,
+      "kl": 0.0007534844007750507,
       "learning_rate": 8.067960709356478e-08,
+      "loss": 0.0,
+      "reward": 1.7093382440507412,
+      "reward_std": 0.9592070961371064,
+      "rewards/concensus_correctness_reward_func": 0.13950000703334808,
+      "rewards/consensus_reward_func": 0.3125,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.1875,
+      "rewards/question_recreation_reward_func": 0.6293382253497839,
+      "rewards/soft_format_reward_func": 0.015625,
+      "rewards/strict_format_reward_func": 0.03125,
+      "rewards/xmlcount_reward_func": 0.393625003984198,
       "step": 16
     },
     {
+      "completion_length": 503.0,
+      "epoch": 2.25,
+      "grad_norm": 10.95219612121582,
+      "kl": 0.0014269842868088745,
       "learning_rate": 3.013156219837776e-08,
+      "loss": 0.0,
+      "reward": 1.2418956812471151,
+      "reward_std": 1.0568943098187447,
+      "rewards/concensus_correctness_reward_func": 0.04743749648332596,
+      "rewards/consensus_reward_func": 0.5,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.125,
+      "rewards/question_recreation_reward_func": 0.5506769213825464,
+      "rewards/soft_format_reward_func": 0.0,
       "rewards/strict_format_reward_func": 0.0,
+      "rewards/xmlcount_reward_func": 0.018781252205371857,
       "step": 18
     },
     {
+      "completion_length": 439.84375,
+      "epoch": 2.5,
+      "grad_norm": 0.4312780499458313,
+      "kl": 0.000696139697538456,
       "learning_rate": 3.4096741493194193e-09,
+      "loss": 0.0,
+      "reward": 1.389961812645197,
+      "reward_std": 0.7700658906251192,
+      "rewards/concensus_correctness_reward_func": 0.0,
+      "rewards/consensus_reward_func": 0.25,
       "rewards/cumulative_reward_2": 0.0,
+      "rewards/final_correctness_reward_func": 0.125,
+      "rewards/question_recreation_reward_func": 0.6488367915153503,
       "rewards/soft_format_reward_func": 0.0,
+      "rewards/strict_format_reward_func": 0.046875,
+      "rewards/xmlcount_reward_func": 0.3192499987781048,
       "step": 20
     },
     {
+      "epoch": 2.5,
       "step": 20,
       "total_flos": 0.0,
+      "train_loss": 7.933636616996864e-07,
+      "train_runtime": 1509.5259,
+      "train_samples_per_second": 0.212,
+      "train_steps_per_second": 0.013
     }
   ],
   "logging_steps": 2,
   "max_steps": 20,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
   "save_steps": 25,
   "stateful_callbacks": {
     "TrainerControl": {
     }
   },
   "total_flos": 0.0,
+  "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9b158f0bc38f3d12077e39cf02dbbdc609ead0fb1e24e2549249ed167b30d97e
-size 5880

 version https://git-lfs.github.com/spec/v1
+oid sha256:3434c1d28515481066b888484d628bc1ffa55a17494013d670f14e2c27418239
+size 5944