End of training

Files changed (5) hide show

README.md CHANGED Viewed

@@ -4,6 +4,7 @@ license: mit
 base_model: microsoft/phi-4
 tags:
 - llama-factory
 - lora
 - generated_from_trainer
 model-index:
@@ -16,7 +17,7 @@ should probably proofread and complete it, then remove this comment. -->
 # pretrain
-This model is a fine-tuned version of [microsoft/phi-4](https://huggingface.co/microsoft/phi-4) on an unknown dataset.
 ## Model description

 base_model: microsoft/phi-4
 tags:
 - llama-factory
+- full
 - lora
 - generated_from_trainer
 model-index:
 # pretrain
+This model is a fine-tuned version of [microsoft/phi-4](https://huggingface.co/microsoft/phi-4) on the openalex_small dataset.
 ## Model description

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 0.7272727272727273,
     "eval_loss": 1.4561185836791992,
     "eval_runtime": 2.8429,
     "eval_samples_per_second": 5.98,
     "eval_steps_per_second": 1.055,
     "perplexity": 4.289278700316188,
-    "total_flos": 4.734884475253555e+16,
-    "train_loss": 1.4859753847122192,
-    "train_runtime": 50.9454,
-    "train_samples_per_second": 3.18,
-    "train_steps_per_second": 0.02
 }

 {
+    "epoch": 0.7619047619047619,
     "eval_loss": 1.4561185836791992,
     "eval_runtime": 2.8429,
     "eval_samples_per_second": 5.98,
     "eval_steps_per_second": 1.055,
     "perplexity": 4.289278700316188,
+    "total_flos": 2446118092800.0,
+    "train_loss": 1.5153563022613525,
+    "train_runtime": 280.4756,
+    "train_samples_per_second": 0.578,
+    "train_steps_per_second": 0.007
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 0.7272727272727273,
-    "total_flos": 4.734884475253555e+16,
-    "train_loss": 1.4859753847122192,
-    "train_runtime": 50.9454,
-    "train_samples_per_second": 3.18,
-    "train_steps_per_second": 0.02
 }

 {
+    "epoch": 0.7619047619047619,
+    "total_flos": 2446118092800.0,
+    "train_loss": 1.5153563022613525,
+    "train_runtime": 280.4756,
+    "train_samples_per_second": 0.578,
+    "train_steps_per_second": 0.007
 }

trainer_state.json CHANGED Viewed

@@ -1,32 +1,39 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.7272727272727273,
   "eval_steps": 500,
-  "global_step": 1,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.7272727272727273,
-      "grad_norm": 0.3740828335285187,
       "learning_rate": 0.0001,
-      "loss": 1.486,
       "step": 1
     },
     {
-      "epoch": 0.7272727272727273,
-      "step": 1,
-      "total_flos": 4.734884475253555e+16,
-      "train_loss": 1.4859753847122192,
-      "train_runtime": 50.9454,
-      "train_samples_per_second": 3.18,
-      "train_steps_per_second": 0.02
     }
   ],
   "logging_steps": 1,
-  "max_steps": 1,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 5,
@@ -42,8 +49,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.734884475253555e+16,
-  "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.7619047619047619,
   "eval_steps": 500,
+  "global_step": 2,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.38095238095238093,
+      "grad_norm": 0.5249602161808266,
       "learning_rate": 0.0001,
+      "loss": 1.5248,
       "step": 1
     },
     {
+      "epoch": 0.7619047619047619,
+      "grad_norm": 0.5138827336171068,
+      "learning_rate": 0.0,
+      "loss": 1.506,
+      "step": 2
+    },
+    {
+      "epoch": 0.7619047619047619,
+      "step": 2,
+      "total_flos": 2446118092800.0,
+      "train_loss": 1.5153563022613525,
+      "train_runtime": 280.4756,
+      "train_samples_per_second": 0.578,
+      "train_steps_per_second": 0.007
     }
   ],
   "logging_steps": 1,
+  "max_steps": 2,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 2446118092800.0,
+  "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null
 }

training_loss.png CHANGED Viewed