Model save

Browse files

Files changed (16) hide show

.gitattributes +1 -0
README.md +58 -0
adapter_config.json +39 -0
adapter_model.safetensors +3 -0
added_tokens.json +3 -0
all_results.json +13 -0
eval_results.json +8 -0
special_tokens_map.json +42 -0
tokenizer.json +3 -0
tokenizer.model +3 -0
tokenizer_config.json +0 -0
train_results.json +9 -0
trainer_log.jsonl +56 -0
trainer_state.json +340 -0
training_args.bin +3 -0
training_loss.png +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,58 @@

+---
+library_name: peft
+license: gemma
+base_model: google/gemma-3-1b-it
+tags:
+- llama-factory
+- lora
+- generated_from_trainer
+model-index:
+- name: train_2025-04-09-14-52-53
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# train_2025-04-09-14-52-53
+This model is a fine-tuned version of [google/gemma-3-1b-it](https://huggingface.co/google/gemma-3-1b-it) on an unknown dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-05
+- train_batch_size: 32
+- eval_batch_size: 8
+- seed: 42
+- gradient_accumulation_steps: 8
+- total_train_batch_size: 256
+- optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: cosine
+- num_epochs: 3.0
+### Training results
+### Framework versions
+- PEFT 0.15.0
+- Transformers 4.50.0
+- Pytorch 2.6.0+cu124
+- Datasets 3.4.1
+- Tokenizers 0.21.0

adapter_config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "google/gemma-3-1b-it",
+  "bias": "none",
+  "corda_config": null,
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_bias": false,
+  "lora_dropout": 0.0,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "up_proj",
+    "o_proj",
+    "k_proj",
+    "down_proj",
+    "gate_proj",
+    "v_proj",
+    "q_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "trainable_token_indices": null,
+  "use_dora": false,
+  "use_rslora": false
+}

adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7ba242fb6fb06c848ee6a6a39d94cb3de39fe4b910af75f17648b9f4b923a30a
+size 26139264

added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "<image_soft_token>": 262144
+}

all_results.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "epoch": 2.992,
+    "eval_glue_mnli_eval_loss": 0.15313956141471863,
+    "eval_glue_mnli_eval_runtime": 9.6591,
+    "eval_glue_mnli_eval_samples_per_second": 103.529,
+    "eval_glue_mnli_eval_steps_per_second": 12.941,
+    "num_input_tokens_seen": 194480,
+    "total_flos": 821972377374720.0,
+    "train_loss": 0.07222598022030245,
+    "train_runtime": 189.9362,
+    "train_samples_per_second": 15.795,
+    "train_steps_per_second": 0.979
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 2.992,
+    "eval_glue_mnli_eval_loss": 0.15313956141471863,
+    "eval_glue_mnli_eval_runtime": 9.6591,
+    "eval_glue_mnli_eval_samples_per_second": 103.529,
+    "eval_glue_mnli_eval_steps_per_second": 12.941,
+    "num_input_tokens_seen": 194480
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "additional_special_tokens": [
+    {
+      "content": "<end_of_turn>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    }
+  ],
+  "boi_token": "<start_of_image>",
+  "bos_token": {
+    "content": "<bos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eoi_token": "<end_of_image>",
+  "eos_token": {
+    "content": "<eos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "image_token": "<image_soft_token>",
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4667f2089529e8e7657cfb6d1c19910ae71ff5f28aa7ab2ff2763330affad795
+size 33384568

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1299c11d7cf632ef3b4e11937501358ada021bbdf7c47638d13c0ee982f2e79c
+size 4689074

tokenizer_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 2.992,
+    "num_input_tokens_seen": 194480,
+    "total_flos": 821972377374720.0,
+    "train_loss": 0.07222598022030245,
+    "train_runtime": 189.9362,
+    "train_samples_per_second": 15.795,
+    "train_steps_per_second": 0.979
+}

trainer_log.jsonl ADDED Viewed

	@@ -0,0 +1,56 @@

+{"current_steps": 5, "total_steps": 18750, "loss": 15.5942, "lr": 4.999999122701883e-05, "epoch": 0.0008, "percentage": 0.03, "elapsed_time": "0:00:11", "remaining_time": "11:57:17", "throughput": 443.22, "total_tokens": 5088}
+{"current_steps": 10, "total_steps": 18750, "loss": 6.4983, "lr": 4.9999964908081455e-05, "epoch": 0.0016, "percentage": 0.05, "elapsed_time": "0:00:22", "remaining_time": "11:36:53", "throughput": 443.87, "total_tokens": 9904}
+{"current_steps": 15, "total_steps": 18750, "loss": 2.6258, "lr": 4.999992104320636e-05, "epoch": 0.0024, "percentage": 0.08, "elapsed_time": "0:00:32", "remaining_time": "11:26:34", "throughput": 456.98, "total_tokens": 15072}
+{"current_steps": 20, "total_steps": 18750, "loss": 0.8446, "lr": 4.999985963242432e-05, "epoch": 0.0032, "percentage": 0.11, "elapsed_time": "0:00:43", "remaining_time": "11:19:09", "throughput": 474.34, "total_tokens": 20640}
+{"current_steps": 25, "total_steps": 18750, "loss": 0.4124, "lr": 4.999978067577844e-05, "epoch": 0.004, "percentage": 0.13, "elapsed_time": "0:00:54", "remaining_time": "11:16:53", "throughput": 472.41, "total_tokens": 25616}
+{"current_steps": 30, "total_steps": 18750, "loss": 0.4033, "lr": 4.999968417332415e-05, "epoch": 0.0048, "percentage": 0.16, "elapsed_time": "0:01:04", "remaining_time": "11:12:39", "throughput": 474.71, "total_tokens": 30704}
+{"current_steps": 35, "total_steps": 18750, "loss": 0.3182, "lr": 4.999957012512916e-05, "epoch": 0.0056, "percentage": 0.19, "elapsed_time": "0:01:15", "remaining_time": "11:09:48", "throughput": 484.94, "total_tokens": 36448}
+{"current_steps": 40, "total_steps": 18750, "loss": 0.2778, "lr": 4.999943853127351e-05, "epoch": 0.0064, "percentage": 0.21, "elapsed_time": "0:01:25", "remaining_time": "11:06:30", "throughput": 488.26, "total_tokens": 41744}
+{"current_steps": 45, "total_steps": 18750, "loss": 0.2592, "lr": 4.999928939184958e-05, "epoch": 0.0072, "percentage": 0.24, "elapsed_time": "0:01:36", "remaining_time": "11:06:07", "throughput": 487.39, "total_tokens": 46864}
+{"current_steps": 50, "total_steps": 18750, "loss": 0.2738, "lr": 4.999912270696202e-05, "epoch": 0.008, "percentage": 0.27, "elapsed_time": "0:01:46", "remaining_time": "11:04:40", "throughput": 486.01, "total_tokens": 51824}
+{"current_steps": 55, "total_steps": 18750, "loss": 0.2352, "lr": 4.9998938476727826e-05, "epoch": 0.0088, "percentage": 0.29, "elapsed_time": "0:01:56", "remaining_time": "11:02:41", "throughput": 486.12, "total_tokens": 56864}
+{"current_steps": 60, "total_steps": 18750, "loss": 0.2474, "lr": 4.9998736701276295e-05, "epoch": 0.0096, "percentage": 0.32, "elapsed_time": "0:02:07", "remaining_time": "11:01:43", "throughput": 489.57, "total_tokens": 62400}
+{"current_steps": 65, "total_steps": 18750, "loss": 0.2061, "lr": 4.999851738074904e-05, "epoch": 0.0104, "percentage": 0.35, "elapsed_time": "0:02:18", "remaining_time": "11:01:24", "throughput": 489.44, "total_tokens": 67568}
+{"current_steps": 70, "total_steps": 18750, "loss": 0.1937, "lr": 4.99982805153e-05, "epoch": 0.0112, "percentage": 0.37, "elapsed_time": "0:02:28", "remaining_time": "11:01:35", "throughput": 488.33, "total_tokens": 72640}
+{"current_steps": 75, "total_steps": 18750, "loss": 0.2521, "lr": 4.9998026105095405e-05, "epoch": 0.012, "percentage": 0.4, "elapsed_time": "0:02:39", "remaining_time": "11:01:27", "throughput": 487.06, "total_tokens": 77632}
+{"current_steps": 80, "total_steps": 18750, "loss": 0.2537, "lr": 4.9997754150313815e-05, "epoch": 0.0128, "percentage": 0.43, "elapsed_time": "0:02:49", "remaining_time": "11:01:02", "throughput": 488.8, "total_tokens": 83072}
+{"current_steps": 85, "total_steps": 18750, "loss": 0.1923, "lr": 4.999746465114609e-05, "epoch": 0.0136, "percentage": 0.45, "elapsed_time": "0:03:00", "remaining_time": "11:00:32", "throughput": 488.55, "total_tokens": 88176}
+{"current_steps": 90, "total_steps": 18750, "loss": 0.2011, "lr": 4.999715760779541e-05, "epoch": 0.0144, "percentage": 0.48, "elapsed_time": "0:03:10", "remaining_time": "10:59:51", "throughput": 487.4, "total_tokens": 93072}
+{"current_steps": 95, "total_steps": 18750, "loss": 0.2032, "lr": 4.9996833020477285e-05, "epoch": 0.0152, "percentage": 0.51, "elapsed_time": "0:03:21", "remaining_time": "10:58:59", "throughput": 489.17, "total_tokens": 98496}
+{"current_steps": 100, "total_steps": 18750, "loss": 0.1789, "lr": 4.9996490889419514e-05, "epoch": 0.016, "percentage": 0.53, "elapsed_time": "0:03:31", "remaining_time": "10:58:09", "throughput": 489.58, "total_tokens": 103664}
+{"current_steps": 105, "total_steps": 18750, "loss": 0.1652, "lr": 4.999613121486222e-05, "epoch": 0.0168, "percentage": 0.56, "elapsed_time": "0:03:43", "remaining_time": "11:01:38", "throughput": 486.45, "total_tokens": 108752}
+{"current_steps": 110, "total_steps": 18750, "loss": 0.1764, "lr": 4.999575399705783e-05, "epoch": 0.0176, "percentage": 0.59, "elapsed_time": "0:03:54", "remaining_time": "11:01:05", "throughput": 487.84, "total_tokens": 114192}
+{"current_steps": 115, "total_steps": 18750, "loss": 0.2337, "lr": 4.999535923627109e-05, "epoch": 0.0184, "percentage": 0.61, "elapsed_time": "0:04:04", "remaining_time": "11:01:05", "throughput": 486.89, "total_tokens": 119184}
+{"current_steps": 120, "total_steps": 18750, "loss": 0.1412, "lr": 4.999494693277907e-05, "epoch": 0.0192, "percentage": 0.64, "elapsed_time": "0:04:15", "remaining_time": "11:00:54", "throughput": 485.65, "total_tokens": 124048}
+{"current_steps": 105, "total_steps": 73629, "loss": 0.138, "lr": 4.999974910625973e-05, "epoch": 0.0042780530784156945, "percentage": 0.14, "elapsed_time": "0:00:11", "remaining_time": "2:11:15", "throughput": 9729.49, "total_tokens": 109424}
+{"current_steps": 110, "total_steps": 73629, "loss": 0.1529, "lr": 4.999972464274266e-05, "epoch": 0.004481769891673585, "percentage": 0.15, "elapsed_time": "0:00:21", "remaining_time": "4:03:47", "throughput": 5230.71, "total_tokens": 114480}
+{"current_steps": 115, "total_steps": 73629, "loss": 0.1215, "lr": 4.999969904139614e-05, "epoch": 0.004685486704931475, "percentage": 0.16, "elapsed_time": "0:00:32", "remaining_time": "5:45:40", "throughput": 3673.93, "total_tokens": 119200}
+{"current_steps": 120, "total_steps": 73629, "loss": 0.1755, "lr": 4.999967230222132e-05, "epoch": 0.004889203518189365, "percentage": 0.16, "elapsed_time": "0:00:43", "remaining_time": "7:19:28", "throughput": 2892.56, "total_tokens": 124512}
+{"current_steps": 125, "total_steps": 73629, "loss": 0.2017, "lr": 4.9999644425219425e-05, "epoch": 0.005092920331447255, "percentage": 0.17, "elapsed_time": "0:00:53", "remaining_time": "8:45:44", "throughput": 2406.98, "total_tokens": 129120}
+{"current_steps": 130, "total_steps": 73629, "loss": 0.2325, "lr": 4.999961541039172e-05, "epoch": 0.005296637144705145, "percentage": 0.18, "elapsed_time": "0:01:04", "remaining_time": "10:06:30", "throughput": 2081.85, "total_tokens": 134000}
+{"current_steps": 135, "total_steps": 73629, "loss": 0.2013, "lr": 4.999958525773953e-05, "epoch": 0.005500353957963036, "percentage": 0.18, "elapsed_time": "0:01:14", "remaining_time": "11:19:27", "throughput": 1853.49, "total_tokens": 138800}
+{"current_steps": 140, "total_steps": 73629, "loss": 0.2315, "lr": 4.9999553967264225e-05, "epoch": 0.005704070771220926, "percentage": 0.19, "elapsed_time": "0:01:25", "remaining_time": "12:27:27", "throughput": 1681.73, "total_tokens": 143680}
+{"current_steps": 145, "total_steps": 73629, "loss": 0.2167, "lr": 4.999952153896723e-05, "epoch": 0.005907787584478816, "percentage": 0.2, "elapsed_time": "0:01:35", "remaining_time": "13:30:48", "throughput": 1548.75, "total_tokens": 148672}
+{"current_steps": 150, "total_steps": 73629, "loss": 0.1608, "lr": 4.999948797285002e-05, "epoch": 0.006111504397736706, "percentage": 0.2, "elapsed_time": "0:01:46", "remaining_time": "14:28:35", "throughput": 1447.54, "total_tokens": 154000}
+{"current_steps": 155, "total_steps": 73629, "loss": 0.2012, "lr": 4.999945326891413e-05, "epoch": 0.006315221210994596, "percentage": 0.21, "elapsed_time": "0:01:57", "remaining_time": "15:24:54", "throughput": 1356.45, "total_tokens": 158800}
+{"current_steps": 160, "total_steps": 73629, "loss": 0.1255, "lr": 4.999941742716113e-05, "epoch": 0.0065189380242524865, "percentage": 0.22, "elapsed_time": "0:02:07", "remaining_time": "16:14:22", "throughput": 1289.37, "total_tokens": 164160}
+{"current_steps": 165, "total_steps": 73629, "loss": 0.1888, "lr": 4.9999380447592646e-05, "epoch": 0.006722654837510377, "percentage": 0.22, "elapsed_time": "0:02:17", "remaining_time": "16:59:36", "throughput": 1231.88, "total_tokens": 169264}
+{"current_steps": 105, "total_steps": 186, "loss": 0.1236, "lr": 1.9967536997783494e-05, "epoch": 1.688, "percentage": 56.45, "elapsed_time": "0:00:11", "remaining_time": "0:00:08", "throughput": 9657.79, "total_tokens": 108992}
+{"current_steps": 110, "total_steps": 186, "loss": 0.2096, "lr": 1.79198623329424e-05, "epoch": 1.768, "percentage": 59.14, "elapsed_time": "0:00:22", "remaining_time": "0:00:15", "throughput": 5089.64, "total_tokens": 113888}
+{"current_steps": 115, "total_steps": 186, "loss": 0.1727, "lr": 1.5922653499838137e-05, "epoch": 1.8479999999999999, "percentage": 61.83, "elapsed_time": "0:00:33", "remaining_time": "0:00:20", "throughput": 3593.31, "total_tokens": 119520}
+{"current_steps": 120, "total_steps": 186, "loss": 0.1751, "lr": 1.399014621105914e-05, "epoch": 1.928, "percentage": 64.52, "elapsed_time": "0:00:44", "remaining_time": "0:00:24", "throughput": 2815.55, "total_tokens": 124624}
+{"current_steps": 125, "total_steps": 186, "loss": 0.1907, "lr": 1.2136114999284288e-05, "epoch": 2.016, "percentage": 67.2, "elapsed_time": "0:00:55", "remaining_time": "0:00:27", "throughput": 2324.66, "total_tokens": 130096}
+{"current_steps": 130, "total_steps": 186, "loss": 0.1838, "lr": 1.0373775035117305e-05, "epoch": 2.096, "percentage": 69.89, "elapsed_time": "0:01:06", "remaining_time": "0:00:28", "throughput": 2040.13, "total_tokens": 135040}
+{"current_steps": 135, "total_steps": 186, "loss": 0.1376, "lr": 8.715687931944449e-06, "epoch": 2.176, "percentage": 72.58, "elapsed_time": "0:01:16", "remaining_time": "0:00:28", "throughput": 1844.31, "total_tokens": 140480}
+{"current_steps": 140, "total_steps": 186, "loss": 0.139, "lr": 7.173672209219495e-06, "epoch": 2.2560000000000002, "percentage": 75.27, "elapsed_time": "0:01:26", "remaining_time": "0:00:28", "throughput": 1678.74, "total_tokens": 145744}
+{"current_steps": 145, "total_steps": 186, "loss": 0.1949, "lr": 5.758719052376693e-06, "epoch": 2.336, "percentage": 77.96, "elapsed_time": "0:01:38", "remaining_time": "0:00:27", "throughput": 1538.88, "total_tokens": 150864}
+{"current_steps": 150, "total_steps": 186, "loss": 0.1297, "lr": 4.480913969818098e-06, "epoch": 2.416, "percentage": 80.65, "elapsed_time": "0:01:48", "remaining_time": "0:00:26", "throughput": 1432.55, "total_tokens": 156064}
+{"current_steps": 155, "total_steps": 186, "loss": 0.1518, "lr": 3.3493649053890326e-06, "epoch": 2.496, "percentage": 83.33, "elapsed_time": "0:01:59", "remaining_time": "0:00:23", "throughput": 1347.92, "total_tokens": 161584}
+{"current_steps": 160, "total_steps": 186, "loss": 0.1426, "lr": 2.372137318741968e-06, "epoch": 2.576, "percentage": 86.02, "elapsed_time": "0:02:10", "remaining_time": "0:00:21", "throughput": 1273.36, "total_tokens": 166624}
+{"current_steps": 165, "total_steps": 186, "loss": 0.1039, "lr": 1.5561966963229924e-06, "epoch": 2.656, "percentage": 88.71, "elapsed_time": "0:02:21", "remaining_time": "0:00:18", "throughput": 1213.15, "total_tokens": 172144}
+{"current_steps": 170, "total_steps": 186, "loss": 0.1457, "lr": 9.073589027514789e-07, "epoch": 2.7359999999999998, "percentage": 91.4, "elapsed_time": "0:02:32", "remaining_time": "0:00:14", "throughput": 1162.41, "total_tokens": 177536}
+{"current_steps": 175, "total_steps": 186, "loss": 0.1217, "lr": 4.302487264785521e-07, "epoch": 2.816, "percentage": 94.09, "elapsed_time": "0:02:43", "remaining_time": "0:00:10", "throughput": 1112.2, "total_tokens": 182352}
+{"current_steps": 180, "total_steps": 186, "loss": 0.1646, "lr": 1.2826691520262114e-07, "epoch": 2.896, "percentage": 96.77, "elapsed_time": "0:02:54", "remaining_time": "0:00:05", "throughput": 1074.45, "total_tokens": 187520}
+{"current_steps": 185, "total_steps": 186, "loss": 0.1734, "lr": 3.565936007254855e-09, "epoch": 2.976, "percentage": 99.46, "elapsed_time": "0:03:05", "remaining_time": "0:00:01", "throughput": 1044.75, "total_tokens": 193280}
+{"current_steps": 186, "total_steps": 186, "epoch": 2.992, "percentage": 100.0, "elapsed_time": "0:03:08", "remaining_time": "0:00:00", "throughput": 1032.12, "total_tokens": 194480}
+{"current_steps": 186, "total_steps": 186, "epoch": 2.992, "percentage": 100.0, "elapsed_time": "0:00:00", "remaining_time": "0:00:00", "throughput": 37395509.19, "total_tokens": 194480}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,340 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.992,
+  "eval_steps": 500,
+  "global_step": 186,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0008,
+      "grad_norm": 56.061981201171875,
+      "learning_rate": 4.999999122701883e-05,
+      "loss": 15.5942,
+      "num_input_tokens_seen": 5088,
+      "step": 5
+    },
+    {
+      "epoch": 0.0016,
+      "grad_norm": 28.854398727416992,
+      "learning_rate": 4.9999964908081455e-05,
+      "loss": 6.4983,
+      "num_input_tokens_seen": 9904,
+      "step": 10
+    },
+    {
+      "epoch": 0.0024,
+      "grad_norm": 20.881488800048828,
+      "learning_rate": 4.999992104320636e-05,
+      "loss": 2.6258,
+      "num_input_tokens_seen": 15072,
+      "step": 15
+    },
+    {
+      "epoch": 0.0032,
+      "grad_norm": 16.009796142578125,
+      "learning_rate": 4.999985963242432e-05,
+      "loss": 0.8446,
+      "num_input_tokens_seen": 20640,
+      "step": 20
+    },
+    {
+      "epoch": 0.004,
+      "grad_norm": 12.420453071594238,
+      "learning_rate": 4.999978067577844e-05,
+      "loss": 0.4124,
+      "num_input_tokens_seen": 25616,
+      "step": 25
+    },
+    {
+      "epoch": 0.0048,
+      "grad_norm": 20.00946807861328,
+      "learning_rate": 4.999968417332415e-05,
+      "loss": 0.4033,
+      "num_input_tokens_seen": 30704,
+      "step": 30
+    },
+    {
+      "epoch": 0.0056,
+      "grad_norm": 6.828528881072998,
+      "learning_rate": 4.999957012512916e-05,
+      "loss": 0.3182,
+      "num_input_tokens_seen": 36448,
+      "step": 35
+    },
+    {
+      "epoch": 0.0064,
+      "grad_norm": 7.609297752380371,
+      "learning_rate": 4.999943853127351e-05,
+      "loss": 0.2778,
+      "num_input_tokens_seen": 41744,
+      "step": 40
+    },
+    {
+      "epoch": 0.0072,
+      "grad_norm": 10.703560829162598,
+      "learning_rate": 4.999928939184958e-05,
+      "loss": 0.2592,
+      "num_input_tokens_seen": 46864,
+      "step": 45
+    },
+    {
+      "epoch": 0.008,
+      "grad_norm": 9.821195602416992,
+      "learning_rate": 4.999912270696202e-05,
+      "loss": 0.2738,
+      "num_input_tokens_seen": 51824,
+      "step": 50
+    },
+    {
+      "epoch": 0.0088,
+      "grad_norm": 8.621257781982422,
+      "learning_rate": 4.9998938476727826e-05,
+      "loss": 0.2352,
+      "num_input_tokens_seen": 56864,
+      "step": 55
+    },
+    {
+      "epoch": 0.0096,
+      "grad_norm": 7.617590427398682,
+      "learning_rate": 4.9998736701276295e-05,
+      "loss": 0.2474,
+      "num_input_tokens_seen": 62400,
+      "step": 60
+    },
+    {
+      "epoch": 0.0104,
+      "grad_norm": 6.092931747436523,
+      "learning_rate": 4.999851738074904e-05,
+      "loss": 0.2061,
+      "num_input_tokens_seen": 67568,
+      "step": 65
+    },
+    {
+      "epoch": 0.0112,
+      "grad_norm": 7.17249059677124,
+      "learning_rate": 4.99982805153e-05,
+      "loss": 0.1937,
+      "num_input_tokens_seen": 72640,
+      "step": 70
+    },
+    {
+      "epoch": 0.012,
+      "grad_norm": 9.022090911865234,
+      "learning_rate": 4.9998026105095405e-05,
+      "loss": 0.2521,
+      "num_input_tokens_seen": 77632,
+      "step": 75
+    },
+    {
+      "epoch": 0.0128,
+      "grad_norm": 10.729183197021484,
+      "learning_rate": 4.9997754150313815e-05,
+      "loss": 0.2537,
+      "num_input_tokens_seen": 83072,
+      "step": 80
+    },
+    {
+      "epoch": 0.0136,
+      "grad_norm": 2.3064322471618652,
+      "learning_rate": 4.999746465114609e-05,
+      "loss": 0.1923,
+      "num_input_tokens_seen": 88176,
+      "step": 85
+    },
+    {
+      "epoch": 0.0144,
+      "grad_norm": 4.6601881980896,
+      "learning_rate": 4.999715760779541e-05,
+      "loss": 0.2011,
+      "num_input_tokens_seen": 93072,
+      "step": 90
+    },
+    {
+      "epoch": 0.0152,
+      "grad_norm": 3.4692001342773438,
+      "learning_rate": 4.9996833020477285e-05,
+      "loss": 0.2032,
+      "num_input_tokens_seen": 98496,
+      "step": 95
+    },
+    {
+      "epoch": 0.016,
+      "grad_norm": 3.452565908432007,
+      "learning_rate": 4.9996490889419514e-05,
+      "loss": 0.1789,
+      "num_input_tokens_seen": 103664,
+      "step": 100
+    },
+    {
+      "epoch": 1.688,
+      "grad_norm": 4.022520065307617,
+      "learning_rate": 1.9967536997783494e-05,
+      "loss": 0.1236,
+      "num_input_tokens_seen": 108992,
+      "step": 105
+    },
+    {
+      "epoch": 1.768,
+      "grad_norm": 8.722804069519043,
+      "learning_rate": 1.79198623329424e-05,
+      "loss": 0.2096,
+      "num_input_tokens_seen": 113888,
+      "step": 110
+    },
+    {
+      "epoch": 1.8479999999999999,
+      "grad_norm": 5.1005401611328125,
+      "learning_rate": 1.5922653499838137e-05,
+      "loss": 0.1727,
+      "num_input_tokens_seen": 119520,
+      "step": 115
+    },
+    {
+      "epoch": 1.928,
+      "grad_norm": 3.2674338817596436,
+      "learning_rate": 1.399014621105914e-05,
+      "loss": 0.1751,
+      "num_input_tokens_seen": 124624,
+      "step": 120
+    },
+    {
+      "epoch": 2.016,
+      "grad_norm": 5.578003406524658,
+      "learning_rate": 1.2136114999284288e-05,
+      "loss": 0.1907,
+      "num_input_tokens_seen": 130096,
+      "step": 125
+    },
+    {
+      "epoch": 2.096,
+      "grad_norm": 4.567383766174316,
+      "learning_rate": 1.0373775035117305e-05,
+      "loss": 0.1838,
+      "num_input_tokens_seen": 135040,
+      "step": 130
+    },
+    {
+      "epoch": 2.176,
+      "grad_norm": 4.175036907196045,
+      "learning_rate": 8.715687931944449e-06,
+      "loss": 0.1376,
+      "num_input_tokens_seen": 140480,
+      "step": 135
+    },
+    {
+      "epoch": 2.2560000000000002,
+      "grad_norm": 1.873349905014038,
+      "learning_rate": 7.173672209219495e-06,
+      "loss": 0.139,
+      "num_input_tokens_seen": 145744,
+      "step": 140
+    },
+    {
+      "epoch": 2.336,
+      "grad_norm": 5.774956226348877,
+      "learning_rate": 5.758719052376693e-06,
+      "loss": 0.1949,
+      "num_input_tokens_seen": 150864,
+      "step": 145
+    },
+    {
+      "epoch": 2.416,
+      "grad_norm": 3.4830589294433594,
+      "learning_rate": 4.480913969818098e-06,
+      "loss": 0.1297,
+      "num_input_tokens_seen": 156064,
+      "step": 150
+    },
+    {
+      "epoch": 2.496,
+      "grad_norm": 6.819346904754639,
+      "learning_rate": 3.3493649053890326e-06,
+      "loss": 0.1518,
+      "num_input_tokens_seen": 161584,
+      "step": 155
+    },
+    {
+      "epoch": 2.576,
+      "grad_norm": 3.335056781768799,
+      "learning_rate": 2.372137318741968e-06,
+      "loss": 0.1426,
+      "num_input_tokens_seen": 166624,
+      "step": 160
+    },
+    {
+      "epoch": 2.656,
+      "grad_norm": 4.781857490539551,
+      "learning_rate": 1.5561966963229924e-06,
+      "loss": 0.1039,
+      "num_input_tokens_seen": 172144,
+      "step": 165
+    },
+    {
+      "epoch": 2.7359999999999998,
+      "grad_norm": 4.5153985023498535,
+      "learning_rate": 9.073589027514789e-07,
+      "loss": 0.1457,
+      "num_input_tokens_seen": 177536,
+      "step": 170
+    },
+    {
+      "epoch": 2.816,
+      "grad_norm": 3.883399486541748,
+      "learning_rate": 4.302487264785521e-07,
+      "loss": 0.1217,
+      "num_input_tokens_seen": 182352,
+      "step": 175
+    },
+    {
+      "epoch": 2.896,
+      "grad_norm": 3.4770634174346924,
+      "learning_rate": 1.2826691520262114e-07,
+      "loss": 0.1646,
+      "num_input_tokens_seen": 187520,
+      "step": 180
+    },
+    {
+      "epoch": 2.976,
+      "grad_norm": 3.4242215156555176,
+      "learning_rate": 3.565936007254855e-09,
+      "loss": 0.1734,
+      "num_input_tokens_seen": 193280,
+      "step": 185
+    },
+    {
+      "epoch": 2.992,
+      "num_input_tokens_seen": 194480,
+      "step": 186,
+      "total_flos": 821972377374720.0,
+      "train_loss": 0.07222598022030245,
+      "train_runtime": 189.9362,
+      "train_samples_per_second": 15.795,
+      "train_steps_per_second": 0.979
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 186,
+  "num_input_tokens_seen": 194480,
+  "num_train_epochs": 3,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 821972377374720.0,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:47fbac85789d46f3ce18a8131c81a7b87491662951030d2a2747373639d0716d
+size 5880

training_loss.png ADDED Viewed