End of training

Browse files

Files changed (7) hide show

README.md +2 -2
all_results.json +10 -10
eval_results.json +5 -5
train_results.json +6 -6
trainer_state.json +320 -62
training_eval_loss.png +0 -0
training_loss.png +0 -0

README.md CHANGED Viewed

@@ -16,9 +16,9 @@ should probably proofread and complete it, then remove this comment. -->
 # mini_llama_crafting_sft_success_new_mem
-This model is a fine-tuned version of [meta-llama/Llama-3.2-1B](https://huggingface.co/meta-llama/Llama-3.2-1B) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.3996
 ## Model description

 # mini_llama_crafting_sft_success_new_mem
+This model is a fine-tuned version of [meta-llama/Llama-3.2-1B](https://huggingface.co/meta-llama/Llama-3.2-1B) on the identity and the crafting_sft_success_new_mem datasets.
 It achieves the following results on the evaluation set:
+- Loss: 0.4032
 ## Model description

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
-    "epoch": 0.9936628643852978,
-    "eval_loss": 0.5227802991867065,
-    "eval_runtime": 5.4479,
-    "eval_samples_per_second": 71.036,
-    "eval_steps_per_second": 8.994,
-    "total_flos": 25569125859328.0,
-    "train_loss": 0.7557474723478563,
-    "train_runtime": 931.1735,
-    "train_samples_per_second": 20.332,
-    "train_steps_per_second": 0.158
 }

 {
+    "epoch": 2.993662864385298,
+    "eval_loss": 0.40319472551345825,
+    "eval_runtime": 5.4129,
+    "eval_samples_per_second": 71.495,
+    "eval_steps_per_second": 9.052,
+    "total_flos": 76831349080064.0,
+    "train_loss": 0.4719235345957771,
+    "train_runtime": 2772.1546,
+    "train_samples_per_second": 20.489,
+    "train_steps_per_second": 0.159
 }

eval_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-    "epoch": 0.9936628643852978,
-    "eval_loss": 0.5227802991867065,
-    "eval_runtime": 5.4479,
-    "eval_samples_per_second": 71.036,
-    "eval_steps_per_second": 8.994
 }

 {
+    "epoch": 2.993662864385298,
+    "eval_loss": 0.40319472551345825,
+    "eval_runtime": 5.4129,
+    "eval_samples_per_second": 71.495,
+    "eval_steps_per_second": 9.052
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 0.9936628643852978,
-    "total_flos": 25569125859328.0,
-    "train_loss": 0.7557474723478563,
-    "train_runtime": 931.1735,
-    "train_samples_per_second": 20.332,
-    "train_steps_per_second": 0.158
 }

 {
+    "epoch": 2.993662864385298,
+    "total_flos": 76831349080064.0,
+    "train_loss": 0.4719235345957771,
+    "train_runtime": 2772.1546,
+    "train_samples_per_second": 20.489,
+    "train_steps_per_second": 0.159
 }

trainer_state.json CHANGED Viewed

@@ -1,141 +1,399 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9936628643852978,
   "eval_steps": 50,
-  "global_step": 147,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.06759611322348964,
-      "grad_norm": 9.364992512382564,
-      "learning_rate": 6.666666666666667e-06,
-      "loss": 1.9911,
       "step": 10
     },
     {
       "epoch": 0.13519222644697929,
-      "grad_norm": 7.589492984066354,
-      "learning_rate": 9.964639423366442e-06,
-      "loss": 1.1617,
       "step": 20
     },
     {
       "epoch": 0.20278833967046894,
-      "grad_norm": 6.5402820656356955,
-      "learning_rate": 9.68474862499881e-06,
-      "loss": 0.9107,
       "step": 30
     },
     {
       "epoch": 0.27038445289395857,
-      "grad_norm": 6.443666894826493,
-      "learning_rate": 9.140746393556853e-06,
-      "loss": 0.8133,
       "step": 40
     },
     {
       "epoch": 0.33798056611744826,
-      "grad_norm": 6.016099015033689,
-      "learning_rate": 8.363301868506264e-06,
-      "loss": 0.7648,
       "step": 50
     },
     {
       "epoch": 0.33798056611744826,
-      "eval_loss": 0.9943099617958069,
-      "eval_runtime": 5.4394,
-      "eval_samples_per_second": 71.148,
-      "eval_steps_per_second": 9.008,
       "step": 50
     },
     {
       "epoch": 0.4055766793409379,
-      "grad_norm": 6.095350826327525,
-      "learning_rate": 7.396244933600285e-06,
-      "loss": 0.7036,
       "step": 60
     },
     {
       "epoch": 0.47317279256442757,
-      "grad_norm": 5.681699042815434,
-      "learning_rate": 6.294095225512604e-06,
-      "loss": 0.6459,
       "step": 70
     },
     {
       "epoch": 0.5407689057879171,
-      "grad_norm": 5.68653337018274,
-      "learning_rate": 5.118988487730537e-06,
-      "loss": 0.5946,
       "step": 80
     },
     {
       "epoch": 0.6083650190114068,
-      "grad_norm": 4.9955937802663195,
-      "learning_rate": 3.937173552235117e-06,
-      "loss": 0.5662,
       "step": 90
     },
     {
       "epoch": 0.6759611322348965,
-      "grad_norm": 4.910148434330512,
-      "learning_rate": 2.8152774381532033e-06,
-      "loss": 0.5363,
       "step": 100
     },
     {
       "epoch": 0.6759611322348965,
-      "eval_loss": 0.5782801508903503,
-      "eval_runtime": 5.438,
-      "eval_samples_per_second": 71.166,
-      "eval_steps_per_second": 9.011,
       "step": 100
     },
     {
       "epoch": 0.7435572454583862,
-      "grad_norm": 3.898820614248006,
-      "learning_rate": 1.8165491294045596e-06,
-      "loss": 0.5298,
       "step": 110
     },
     {
       "epoch": 0.8111533586818758,
-      "grad_norm": 4.528465076758128,
-      "learning_rate": 9.972937953781985e-07,
-      "loss": 0.5037,
       "step": 120
     },
     {
       "epoch": 0.8787494719053655,
-      "grad_norm": 4.172829893763417,
-      "learning_rate": 4.036984820916723e-07,
-      "loss": 0.5008,
       "step": 130
     },
     {
       "epoch": 0.9463455851288551,
-      "grad_norm": 4.336484407737884,
-      "learning_rate": 6.922823140906754e-08,
-      "loss": 0.5104,
       "step": 140
     },
     {
-      "epoch": 0.9936628643852978,
-      "step": 147,
-      "total_flos": 25569125859328.0,
-      "train_loss": 0.7557474723478563,
-      "train_runtime": 931.1735,
-      "train_samples_per_second": 20.332,
-      "train_steps_per_second": 0.158
     }
   ],
   "logging_steps": 10,
-  "max_steps": 147,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 1,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -149,7 +407,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 25569125859328.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.993662864385298,
   "eval_steps": 50,
+  "global_step": 441,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.06759611322348964,
+      "grad_norm": 22.71570499945548,
+      "learning_rate": 2.222222222222222e-06,
+      "loss": 2.2601,
       "step": 10
     },
     {
       "epoch": 0.13519222644697929,
+      "grad_norm": 8.716791254344187,
+      "learning_rate": 4.444444444444444e-06,
+      "loss": 1.4215,
       "step": 20
     },
     {
       "epoch": 0.20278833967046894,
+      "grad_norm": 7.30915109619268,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 1.0486,
       "step": 30
     },
     {
       "epoch": 0.27038445289395857,
+      "grad_norm": 6.750139596918985,
+      "learning_rate": 8.888888888888888e-06,
+      "loss": 0.9049,
       "step": 40
     },
     {
       "epoch": 0.33798056611744826,
+      "grad_norm": 6.330145067445094,
+      "learning_rate": 9.996066923030484e-06,
+      "loss": 0.8427,
       "step": 50
     },
     {
       "epoch": 0.33798056611744826,
+      "eval_loss": 1.1574571132659912,
+      "eval_runtime": 5.4487,
+      "eval_samples_per_second": 71.026,
+      "eval_steps_per_second": 8.993,
       "step": 50
     },
     {
       "epoch": 0.4055766793409379,
+      "grad_norm": 6.39428702365803,
+      "learning_rate": 9.964639423366442e-06,
+      "loss": 0.7695,
       "step": 60
     },
     {
       "epoch": 0.47317279256442757,
+      "grad_norm": 5.959101785941899,
+      "learning_rate": 9.901982117093786e-06,
+      "loss": 0.6954,
       "step": 70
     },
     {
       "epoch": 0.5407689057879171,
+      "grad_norm": 5.715834321289958,
+      "learning_rate": 9.808489146745466e-06,
+      "loss": 0.625,
       "step": 80
     },
     {
       "epoch": 0.6083650190114068,
+      "grad_norm": 4.754035258710519,
+      "learning_rate": 9.68474862499881e-06,
+      "loss": 0.5822,
       "step": 90
     },
     {
       "epoch": 0.6759611322348965,
+      "grad_norm": 4.514181687896774,
+      "learning_rate": 9.531538935183252e-06,
+      "loss": 0.5411,
       "step": 100
     },
     {
       "epoch": 0.6759611322348965,
+      "eval_loss": 0.5064918994903564,
+      "eval_runtime": 5.4326,
+      "eval_samples_per_second": 71.236,
+      "eval_steps_per_second": 9.02,
       "step": 100
     },
     {
       "epoch": 0.7435572454583862,
+      "grad_norm": 3.4560082126871907,
+      "learning_rate": 9.349823834900396e-06,
+      "loss": 0.5411,
       "step": 110
     },
     {
       "epoch": 0.8111533586818758,
+      "grad_norm": 4.119312365171623,
+      "learning_rate": 9.140746393556853e-06,
+      "loss": 0.5097,
       "step": 120
     },
     {
       "epoch": 0.8787494719053655,
+      "grad_norm": 3.5814060437977377,
+      "learning_rate": 8.905621801945467e-06,
+      "loss": 0.508,
       "step": 130
     },
     {
       "epoch": 0.9463455851288551,
+      "grad_norm": 3.640509695845179,
+      "learning_rate": 8.645929099105886e-06,
+      "loss": 0.5154,
       "step": 140
     },
     {
+      "epoch": 1.020278833967047,
+      "grad_norm": 3.254561037865843,
+      "learning_rate": 8.363301868506264e-06,
+      "loss": 0.519,
+      "step": 150
+    },
+    {
+      "epoch": 1.020278833967047,
+      "eval_loss": 0.436057448387146,
+      "eval_runtime": 5.4096,
+      "eval_samples_per_second": 71.539,
+      "eval_steps_per_second": 9.058,
+      "step": 150
+    },
+    {
+      "epoch": 1.0878749471905365,
+      "grad_norm": 3.3979728579398176,
+      "learning_rate": 8.059517962071234e-06,
+      "loss": 0.3811,
+      "step": 160
+    },
+    {
+      "epoch": 1.1554710604140261,
+      "grad_norm": 3.5101569989469725,
+      "learning_rate": 7.736488316696663e-06,
+      "loss": 0.3806,
+      "step": 170
+    },
+    {
+      "epoch": 1.2230671736375158,
+      "grad_norm": 4.198624988505521,
+      "learning_rate": 7.396244933600285e-06,
+      "loss": 0.3917,
+      "step": 180
+    },
+    {
+      "epoch": 1.2906632868610055,
+      "grad_norm": 3.71817849809667,
+      "learning_rate": 7.040928096123516e-06,
+      "loss": 0.379,
+      "step": 190
+    },
+    {
+      "epoch": 1.3582594000844952,
+      "grad_norm": 3.770166574810929,
+      "learning_rate": 6.672772906390177e-06,
+      "loss": 0.3662,
+      "step": 200
+    },
+    {
+      "epoch": 1.3582594000844952,
+      "eval_loss": 0.40071234107017517,
+      "eval_runtime": 5.4129,
+      "eval_samples_per_second": 71.495,
+      "eval_steps_per_second": 9.052,
+      "step": 200
+    },
+    {
+      "epoch": 1.4258555133079849,
+      "grad_norm": 3.102586008371691,
+      "learning_rate": 6.294095225512604e-06,
+      "loss": 0.3906,
+      "step": 210
+    },
+    {
+      "epoch": 1.4934516265314746,
+      "grad_norm": 3.6078815896150265,
+      "learning_rate": 5.907277105787513e-06,
+      "loss": 0.37,
+      "step": 220
+    },
+    {
+      "epoch": 1.5610477397549642,
+      "grad_norm": 3.5433228920014237,
+      "learning_rate": 5.514751806519673e-06,
+      "loss": 0.3647,
+      "step": 230
+    },
+    {
+      "epoch": 1.6286438529784537,
+      "grad_norm": 3.607485131351974,
+      "learning_rate": 5.118988487730537e-06,
+      "loss": 0.3761,
+      "step": 240
+    },
+    {
+      "epoch": 1.6962399662019434,
+      "grad_norm": 3.187953581780823,
+      "learning_rate": 4.7224766780353005e-06,
+      "loss": 0.3679,
+      "step": 250
+    },
+    {
+      "epoch": 1.6962399662019434,
+      "eval_loss": 0.39477795362472534,
+      "eval_runtime": 5.4127,
+      "eval_samples_per_second": 71.499,
+      "eval_steps_per_second": 9.053,
+      "step": 250
+    },
+    {
+      "epoch": 1.763836079425433,
+      "grad_norm": 3.5445294506545135,
+      "learning_rate": 4.327710614392341e-06,
+      "loss": 0.3552,
+      "step": 260
+    },
+    {
+      "epoch": 1.8314321926489225,
+      "grad_norm": 3.743551074019313,
+      "learning_rate": 3.937173552235117e-06,
+      "loss": 0.3635,
+      "step": 270
+    },
+    {
+      "epoch": 1.8990283058724122,
+      "grad_norm": 3.542063112753628,
+      "learning_rate": 3.553322144682737e-06,
+      "loss": 0.3491,
+      "step": 280
+    },
+    {
+      "epoch": 1.966624419095902,
+      "grad_norm": 3.5873733457606956,
+      "learning_rate": 3.178570989091028e-06,
+      "loss": 0.3524,
+      "step": 290
+    },
+    {
+      "epoch": 2.040557667934094,
+      "grad_norm": 3.0378458947692257,
+      "learning_rate": 2.8152774381532033e-06,
+      "loss": 0.3176,
+      "step": 300
+    },
+    {
+      "epoch": 2.040557667934094,
+      "eval_loss": 0.3846343159675598,
+      "eval_runtime": 5.4138,
+      "eval_samples_per_second": 71.483,
+      "eval_steps_per_second": 9.051,
+      "step": 300
+    },
+    {
+      "epoch": 2.1081537811575832,
+      "grad_norm": 3.6969633690268178,
+      "learning_rate": 2.465726771095086e-06,
+      "loss": 0.2279,
+      "step": 310
+    },
+    {
+      "epoch": 2.175749894381073,
+      "grad_norm": 3.5512676423267386,
+      "learning_rate": 2.132117818244771e-06,
+      "loss": 0.219,
+      "step": 320
+    },
+    {
+      "epoch": 2.2433460076045626,
+      "grad_norm": 3.8134684201298845,
+      "learning_rate": 1.8165491294045596e-06,
+      "loss": 0.2136,
+      "step": 330
+    },
+    {
+      "epoch": 2.3109421208280523,
+      "grad_norm": 3.429664297466825,
+      "learning_rate": 1.521005773032362e-06,
+      "loss": 0.2164,
+      "step": 340
+    },
+    {
+      "epoch": 2.378538234051542,
+      "grad_norm": 3.874687323224451,
+      "learning_rate": 1.2473468492715896e-06,
+      "loss": 0.2141,
+      "step": 350
+    },
+    {
+      "epoch": 2.378538234051542,
+      "eval_loss": 0.4075692594051361,
+      "eval_runtime": 5.4106,
+      "eval_samples_per_second": 71.526,
+      "eval_steps_per_second": 9.056,
+      "step": 350
+    },
+    {
+      "epoch": 2.4461343472750317,
+      "grad_norm": 3.9002573113381875,
+      "learning_rate": 9.972937953781985e-07,
+      "loss": 0.2205,
+      "step": 360
+    },
+    {
+      "epoch": 2.5137304604985213,
+      "grad_norm": 3.6422878228347964,
+      "learning_rate": 7.724195571089787e-07,
+      "loss": 0.2171,
+      "step": 370
+    },
+    {
+      "epoch": 2.581326573722011,
+      "grad_norm": 3.290391228862638,
+      "learning_rate": 5.741386941879179e-07,
+      "loss": 0.206,
+      "step": 380
+    },
+    {
+      "epoch": 2.6489226869455007,
+      "grad_norm": 4.456138437370725,
+      "learning_rate": 4.036984820916723e-07,
+      "loss": 0.2126,
+      "step": 390
+    },
+    {
+      "epoch": 2.7165188001689904,
+      "grad_norm": 3.4818603403336232,
+      "learning_rate": 2.621710661279253e-07,
+      "loss": 0.2089,
+      "step": 400
+    },
+    {
+      "epoch": 2.7165188001689904,
+      "eval_loss": 0.3996022343635559,
+      "eval_runtime": 5.4212,
+      "eval_samples_per_second": 71.387,
+      "eval_steps_per_second": 9.039,
+      "step": 400
+    },
+    {
+      "epoch": 2.78411491339248,
+      "grad_norm": 4.331395175879503,
+      "learning_rate": 1.5044671716097414e-07,
+      "loss": 0.2188,
+      "step": 410
+    },
+    {
+      "epoch": 2.8517110266159698,
+      "grad_norm": 3.603270058835426,
+      "learning_rate": 6.922823140906754e-08,
+      "loss": 0.2107,
+      "step": 420
+    },
+    {
+      "epoch": 2.919307139839459,
+      "grad_norm": 3.627133298336489,
+      "learning_rate": 1.9026509541272276e-08,
+      "loss": 0.2084,
+      "step": 430
+    },
+    {
+      "epoch": 2.986903253062949,
+      "grad_norm": 3.7792062209865227,
+      "learning_rate": 1.5734288333457692e-10,
+      "loss": 0.203,
+      "step": 440
+    },
+    {
+      "epoch": 2.993662864385298,
+      "step": 441,
+      "total_flos": 76831349080064.0,
+      "train_loss": 0.4719235345957771,
+      "train_runtime": 2772.1546,
+      "train_samples_per_second": 20.489,
+      "train_steps_per_second": 0.159
     }
   ],
   "logging_steps": 10,
+  "max_steps": 441,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 76831349080064.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

training_eval_loss.png CHANGED Viewed

training_loss.png CHANGED Viewed