End of training

Files changed (8) hide show

README.md CHANGED Viewed

@@ -16,7 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 # train_2025-04-09-14-52-53
-This model is a fine-tuned version of [google/gemma-3-1b-it](https://huggingface.co/google/gemma-3-1b-it) on an unknown dataset.
 ## Model description

 # train_2025-04-09-14-52-53
+This model is a fine-tuned version of [google/gemma-3-1b-it](https://huggingface.co/google/gemma-3-1b-it) on the glue_mnli_train dataset.
 ## Model description

all_results.json CHANGED Viewed

@@ -1,13 +1,27 @@
 {
     "epoch": 2.992,
     "eval_glue_mnli_eval_loss": 0.15313956141471863,
     "eval_glue_mnli_eval_runtime": 9.6591,
     "eval_glue_mnli_eval_samples_per_second": 103.529,
     "eval_glue_mnli_eval_steps_per_second": 12.941,
     "num_input_tokens_seen": 194480,
     "total_flos": 821972377374720.0,
-    "train_loss": 0.07222598022030245,
-    "train_runtime": 189.9362,
-    "train_samples_per_second": 15.795,
-    "train_steps_per_second": 0.979
 }

 {
     "epoch": 2.992,
+    "eval_bleu-4": 67.11986,
     "eval_glue_mnli_eval_loss": 0.15313956141471863,
     "eval_glue_mnli_eval_runtime": 9.6591,
     "eval_glue_mnli_eval_samples_per_second": 103.529,
     "eval_glue_mnli_eval_steps_per_second": 12.941,
+    "eval_rouge-1": 71.4,
+    "eval_rouge-2": 0.0,
+    "eval_rouge-l": 71.4,
+    "eval_runtime": 37.7648,
+    "eval_samples_per_second": 26.48,
+    "eval_steps_per_second": 3.31,
     "num_input_tokens_seen": 194480,
+    "predict_bleu-4": 67.8166649,
+    "predict_rouge-1": 72.3,
+    "predict_rouge-2": 0.0,
+    "predict_rouge-l": 72.3,
+    "predict_runtime": 36.8092,
+    "predict_samples_per_second": 27.167,
+    "predict_steps_per_second": 3.396,
     "total_flos": 821972377374720.0,
+    "train_loss": 0.0,
+    "train_runtime": 1.678,
+    "train_samples_per_second": 1787.823,
+    "train_steps_per_second": 110.845
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,11 @@
 {
     "epoch": 2.992,
-    "eval_glue_mnli_eval_loss": 0.15313956141471863,
-    "eval_glue_mnli_eval_runtime": 9.6591,
-    "eval_glue_mnli_eval_samples_per_second": 103.529,
-    "eval_glue_mnli_eval_steps_per_second": 12.941,
     "num_input_tokens_seen": 194480
 }

 {
     "epoch": 2.992,
+    "eval_bleu-4": 67.11986,
+    "eval_rouge-1": 71.4,
+    "eval_rouge-2": 0.0,
+    "eval_rouge-l": 71.4,
+    "eval_runtime": 37.7648,
+    "eval_samples_per_second": 26.48,
+    "eval_steps_per_second": 3.31,
     "num_input_tokens_seen": 194480
 }

generated_predictions.jsonl ADDED Viewed

The diff for this file is too large to render. See raw diff

predict_results.json ADDED Viewed

+{
+    "predict_bleu-4": 67.8166649,
+    "predict_rouge-1": 72.3,
+    "predict_rouge-2": 0.0,
+    "predict_rouge-l": 72.3,
+    "predict_runtime": 36.8092,
+    "predict_samples_per_second": 27.167,
+    "predict_steps_per_second": 3.396
+}

tokenizer_config.json CHANGED Viewed

@@ -51340,7 +51340,7 @@
   "image_token": "<image_soft_token>",
   "model_max_length": 1000000000000000019884624838656,
   "pad_token": "<pad>",
-  "padding_side": "right",
   "processor_class": "Gemma3Processor",
   "sp_model_kwargs": null,
   "spaces_between_special_tokens": false,

   "image_token": "<image_soft_token>",
   "model_max_length": 1000000000000000019884624838656,
   "pad_token": "<pad>",
+  "padding_side": "left",
   "processor_class": "Gemma3Processor",
   "sp_model_kwargs": null,
   "spaces_between_special_tokens": false,

train_results.json CHANGED Viewed

@@ -2,8 +2,8 @@
     "epoch": 2.992,
     "num_input_tokens_seen": 194480,
     "total_flos": 821972377374720.0,
-    "train_loss": 0.07222598022030245,
-    "train_runtime": 189.9362,
-    "train_samples_per_second": 15.795,
-    "train_steps_per_second": 0.979
 }

     "epoch": 2.992,
     "num_input_tokens_seen": 194480,
     "total_flos": 821972377374720.0,
+    "train_loss": 0.0,
+    "train_runtime": 1.678,
+    "train_samples_per_second": 1787.823,
+    "train_steps_per_second": 110.845
 }

trainer_state.json CHANGED Viewed

@@ -310,10 +310,10 @@
       "num_input_tokens_seen": 194480,
       "step": 186,
       "total_flos": 821972377374720.0,
-      "train_loss": 0.07222598022030245,
-      "train_runtime": 189.9362,
-      "train_samples_per_second": 15.795,
-      "train_steps_per_second": 0.979
     }
   ],
   "logging_steps": 5,

       "num_input_tokens_seen": 194480,
       "step": 186,
       "total_flos": 821972377374720.0,
+      "train_loss": 0.0,
+      "train_runtime": 1.678,
+      "train_samples_per_second": 1787.823,
+      "train_steps_per_second": 110.845
     }
   ],
   "logging_steps": 5,