End of training

Browse files

Files changed (16) hide show

README.md +2 -2
epoch4/config.json +40 -0
epoch4/generation_config.json +6 -0
epoch4/merges.txt +0 -0
epoch4/model-00001-of-00002.safetensors +3 -0
epoch4/model-00002-of-00002.safetensors +3 -0
epoch4/model.safetensors.index.json +587 -0
epoch4/special_tokens_map.json +6 -0
epoch4/tokenizer.json +0 -0
epoch4/tokenizer_config.json +22 -0
epoch4/training_args.bin +3 -0
epoch4/vocab.json +0 -0
model-00001-of-00002.safetensors +1 -1
model-00002-of-00002.safetensors +1 -1
wandb/run-20250402_145246-e1n3xkh6/files/output.log +102 -1
wandb/run-20250402_145246-e1n3xkh6/run-e1n3xkh6.wandb +2 -2

README.md CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 base_model: openai-community/gpt2-xl
 library_name: transformers
-model_name: 'gpt2-xl-gsm8k-epoch3-acc0-1. Always '
 tags:
 - generated_from_trainer
 - trl
@@ -9,7 +9,7 @@ tags:
 licence: license
 ---
-# Model Card for gpt2-xl-gsm8k-epoch3-acc0-1. Always
 This model is a fine-tuned version of [openai-community/gpt2-xl](https://huggingface.co/openai-community/gpt2-xl).
 It has been trained using [TRL](https://github.com/huggingface/trl).

 ---
 base_model: openai-community/gpt2-xl
 library_name: transformers
+model_name: 'gpt2-xl-gsm8k-epoch4-acc0-1. Always '
 tags:
 - generated_from_trainer
 - trl
 licence: license
 ---
+# Model Card for gpt2-xl-gsm8k-epoch4-acc0-1. Always
 This model is a fine-tuned version of [openai-community/gpt2-xl](https://huggingface.co/openai-community/gpt2-xl).
 It has been trained using [TRL](https://github.com/huggingface/trl).

epoch4/config.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "_name_or_path": "openai-community/gpt2-xl",
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 1024,
+  "n_embd": 1600,
+  "n_head": 25,
+  "n_inner": null,
+  "n_layer": 48,
+  "n_positions": 1024,
+  "output_past": true,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 50
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.49.0",
+  "use_cache": true,
+  "vocab_size": 50257
+}

epoch4/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": 50256,
+  "transformers_version": "4.49.0"
+}

epoch4/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

epoch4/model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8eb2dee99b44656f783f5efbf4a3bbc9dcd0dab175ed7174537bf6f3ce5196f5
+size 4959881464

epoch4/model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cca01b2571e41c5fadb5e16768acf50f5ddde882e3a06a8b1e8c8dcea41040c6
+size 1270624096

epoch4/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,587 @@

+{
+  "metadata": {
+    "total_size": 6230444800
+  },
+  "weight_map": {
+    "transformer.h.0.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.0.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.0.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.0.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.0.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.0.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.0.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.1.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.1.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.1.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.1.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.1.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.1.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.10.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.10.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.10.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.10.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.10.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.10.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.11.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.11.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.11.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.11.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.11.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.11.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.12.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.12.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.12.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.12.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.12.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.12.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.13.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.13.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.13.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.13.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.13.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.13.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.14.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.14.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.14.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.14.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.14.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.14.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.15.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.15.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.15.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.15.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.15.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.15.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.16.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.16.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.16.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.16.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.16.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.16.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.17.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.17.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.17.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.17.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.17.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.17.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.18.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.18.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.18.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.18.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.18.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.18.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.19.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.19.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.19.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.19.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.19.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.19.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.2.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.2.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.2.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.2.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.2.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.2.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.20.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.20.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.20.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.20.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.20.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.20.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.21.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.21.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.21.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.21.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.21.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.21.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.22.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.22.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.22.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.22.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.22.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.22.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.23.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.23.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.23.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.23.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.23.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.23.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.23.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.23.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.23.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.23.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.23.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.23.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.24.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.24.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.24.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.24.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.24.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.24.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.24.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.24.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.24.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.24.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.24.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.24.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.25.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.25.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.25.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.25.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.25.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.25.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.25.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.25.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.25.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.25.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.25.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.25.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.26.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.26.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.26.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.26.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.26.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.26.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.26.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.26.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.26.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.26.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.26.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.26.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.27.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.27.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.27.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.27.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.27.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.27.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.27.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.27.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.27.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.27.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.27.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.27.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.28.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.28.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.28.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.28.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.28.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.28.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.28.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.28.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.28.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.28.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.28.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.28.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.29.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.29.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.29.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.29.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.29.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.29.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.29.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.29.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.29.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.29.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.29.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.29.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.3.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.3.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.3.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.3.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.3.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.3.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.30.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.30.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.30.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.30.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.30.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.30.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.30.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.30.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.30.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.30.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.30.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.30.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.31.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.31.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.31.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.31.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.31.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.31.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.31.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.31.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.31.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.31.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.31.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.31.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.32.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.32.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.32.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.32.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.32.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.32.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.32.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.32.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.32.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.32.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.32.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.32.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.33.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.33.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.33.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.33.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.33.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.33.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.33.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.33.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.33.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.33.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.33.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.33.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.34.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.34.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.34.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.34.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.34.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.34.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.34.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.34.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.34.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.34.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.34.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.34.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.35.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.35.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.35.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.35.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.35.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.35.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.35.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.35.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.35.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.35.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.35.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.35.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.36.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.36.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.36.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.36.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.36.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.36.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.36.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.36.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.36.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.36.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.36.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.36.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.37.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.37.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.37.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.37.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.37.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.37.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.37.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.37.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.37.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.37.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.37.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.37.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.38.attn.c_attn.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.38.attn.c_attn.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.38.attn.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.38.attn.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.38.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.38.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.38.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.38.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.38.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.38.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.38.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.38.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.39.attn.c_attn.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.39.attn.c_attn.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.39.attn.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.39.attn.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.39.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.39.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.39.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.39.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.39.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.39.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.39.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.39.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.4.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.4.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.4.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.4.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.4.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.4.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.4.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.40.attn.c_attn.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.40.attn.c_attn.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.40.attn.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.40.attn.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.40.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.40.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.40.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.40.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.40.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.40.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.40.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.40.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.41.attn.c_attn.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.41.attn.c_attn.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.41.attn.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.41.attn.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.41.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.41.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.41.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.41.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.41.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.41.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.41.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.41.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.42.attn.c_attn.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.42.attn.c_attn.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.42.attn.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.42.attn.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.42.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.42.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.42.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.42.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.42.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.42.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.42.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.42.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.43.attn.c_attn.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.43.attn.c_attn.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.43.attn.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.43.attn.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.43.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.43.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.43.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.43.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.43.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.43.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.43.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.43.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.44.attn.c_attn.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.44.attn.c_attn.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.44.attn.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.44.attn.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.44.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.44.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.44.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.44.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.44.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.44.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.44.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.44.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.45.attn.c_attn.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.45.attn.c_attn.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.45.attn.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.45.attn.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.45.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.45.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.45.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.45.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.45.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.45.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.45.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.45.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.46.attn.c_attn.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.46.attn.c_attn.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.46.attn.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.46.attn.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.46.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.46.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.46.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.46.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.46.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.46.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.46.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.46.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.47.attn.c_attn.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.47.attn.c_attn.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.47.attn.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.47.attn.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.47.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.47.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.47.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.47.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.47.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.47.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.47.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.47.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.5.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.5.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.5.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.5.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.5.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.5.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.5.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.6.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.6.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.6.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.6.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.6.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.6.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.7.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.7.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.7.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.7.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.7.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.7.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.8.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.8.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.8.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.8.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.8.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.8.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.9.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.9.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.9.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.9.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.9.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.9.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.ln_f.bias": "model-00002-of-00002.safetensors",
+    "transformer.ln_f.weight": "model-00002-of-00002.safetensors",
+    "transformer.wpe.weight": "model-00001-of-00002.safetensors",
+    "transformer.wte.weight": "model-00001-of-00002.safetensors"
+  }
+}

epoch4/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
+  "pad_token": "<|endoftext|>",
+  "unk_token": "<|endoftext|>"
+}

epoch4/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

epoch4/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "50256": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|endoftext|>",
+  "extra_special_tokens": {},
+  "model_max_length": 1024,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "left",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>"
+}

epoch4/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f14f3c6d299bfb369a2106aab54c59a032e03c366e1d1fecdcf02f954b66a25b
+size 5624

epoch4/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1f6a0e89b5e0b3834d9d069b1ea98bd9f22e6bedd23f60e40bd056e31090e1bc
 size 4959881464

 version https://git-lfs.github.com/spec/v1
+oid sha256:8eb2dee99b44656f783f5efbf4a3bbc9dcd0dab175ed7174537bf6f3ce5196f5
 size 4959881464

model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5a5408e345f4ada23fad6091c94b304cfe42945f457052c762de5c67ed986436
 size 1270624096

 version https://git-lfs.github.com/spec/v1
+oid sha256:cca01b2571e41c5fadb5e16768acf50f5ddde882e3a06a8b1e8c8dcea41040c6
 size 1270624096

wandb/run-20250402_145246-e1n3xkh6/files/output.log CHANGED Viewed

@@ -317,7 +317,108 @@ Upload 5 LFS files:  60%|██████    | 3/5 [02:27<01:18, 39.23s/it]
 {'loss': 0.4582, 'grad_norm': 1.7060505151748657, 'learning_rate': 1.4010695187165778e-05, 'mean_token_accuracy': 0.8675104975700378, 'epoch': 2.99}
 {'eval_loss': 0.7710378170013428, 'eval_runtime': 97.2916, 'eval_samples_per_second': 13.557, 'eval_steps_per_second': 0.853, 'eval_mean_token_accuracy': 0.809105979448015, 'epoch': 3.0}
 Upload 5 LFS files: 100%|██████████| 5/5 [02:20<00:00, 28.16s/it]0:35<00:00, 39.9MB/s]
-model-00001-of-00002.safetensors:  21%|██▏       | 1.06G/4.96G [00:35<01:16, 50.7MB/s]
 Upload 5 LFS files:  20%|██        | 1/5 [02:06<08:24, 126.02s/it]:40<01:29, 41.6MB/s]
 Upload 5 LFS files:  60%|██████    | 3/5 [02:20<01:16, 38.15s/it] :05<00:15, 40.5MB/s]
 model-00001-of-00002.safetensors: 100%|█████████▉| 4.95G/4.96G [02:20<00:00, 40.4MB/s]

 {'loss': 0.4582, 'grad_norm': 1.7060505151748657, 'learning_rate': 1.4010695187165778e-05, 'mean_token_accuracy': 0.8675104975700378, 'epoch': 2.99}
 {'eval_loss': 0.7710378170013428, 'eval_runtime': 97.2916, 'eval_samples_per_second': 13.557, 'eval_steps_per_second': 0.853, 'eval_mean_token_accuracy': 0.809105979448015, 'epoch': 3.0}
 Upload 5 LFS files: 100%|██████████| 5/5 [02:20<00:00, 28.16s/it]0:35<00:00, 39.9MB/s]
+                                                          .96G [00:35<01:16, 50.7MB/s]
 Upload 5 LFS files:  20%|██        | 1/5 [02:06<08:24, 126.02s/it]:40<01:29, 41.6MB/s]
 Upload 5 LFS files:  60%|██████    | 3/5 [02:20<01:16, 38.15s/it] :05<00:15, 40.5MB/s]
 model-00001-of-00002.safetensors: 100%|█████████▉| 4.95G/4.96G [02:20<00:00, 40.4MB/s]
+{'loss': 0.384, 'grad_norm': 1.6428806781768799, 'learning_rate': 1.3989304812834225e-05, 'mean_token_accuracy': 0.9255513072013855, 'epoch': 3.01}
+{'loss': 0.2747, 'grad_norm': 1.875557541847229, 'learning_rate': 1.3967914438502674e-05, 'mean_token_accuracy': 0.9143756449222564, 'epoch': 3.02}
+{'loss': 0.2773, 'grad_norm': 2.051598072052002, 'learning_rate': 1.3946524064171123e-05, 'mean_token_accuracy': 0.9193021714687347, 'epoch': 3.03}
+{'loss': 0.257, 'grad_norm': 1.9111937284469604, 'learning_rate': 1.3925133689839574e-05, 'mean_token_accuracy': 0.9284034371376038, 'epoch': 3.04}
+{'loss': 0.256, 'grad_norm': 1.5470730066299438, 'learning_rate': 1.3903743315508022e-05, 'mean_token_accuracy': 0.925469571352005, 'epoch': 3.05}
+{'loss': 0.274, 'grad_norm': 1.3441516160964966, 'learning_rate': 1.3882352941176471e-05, 'mean_token_accuracy': 0.9179913759231567, 'epoch': 3.06}
+{'loss': 0.2592, 'grad_norm': 2.162682056427002, 'learning_rate': 1.386096256684492e-05, 'mean_token_accuracy': 0.9217203795909882, 'epoch': 3.07}
+{'loss': 0.2633, 'grad_norm': 1.612654209136963, 'learning_rate': 1.3839572192513371e-05, 'mean_token_accuracy': 0.9204673826694488, 'epoch': 3.08}
+{'loss': 0.2541, 'grad_norm': 1.6440736055374146, 'learning_rate': 1.381818181818182e-05, 'mean_token_accuracy': 0.9252854764461518, 'epoch': 3.09}
+{'loss': 0.2462, 'grad_norm': 1.5580883026123047, 'learning_rate': 1.3796791443850269e-05, 'mean_token_accuracy': 0.924373471736908, 'epoch': 3.1}
+{'loss': 0.271, 'grad_norm': 1.7597570419311523, 'learning_rate': 1.3775401069518716e-05, 'mean_token_accuracy': 0.9210864722728729, 'epoch': 3.11}
+{'loss': 0.2677, 'grad_norm': 1.9011614322662354, 'learning_rate': 1.3754010695187168e-05, 'mean_token_accuracy': 0.9179596841335297, 'epoch': 3.12}
+{'loss': 0.2454, 'grad_norm': 2.1619911193847656, 'learning_rate': 1.3732620320855616e-05, 'mean_token_accuracy': 0.9276296496391296, 'epoch': 3.13}
+{'loss': 0.2473, 'grad_norm': 1.77644681930542, 'learning_rate': 1.3711229946524064e-05, 'mean_token_accuracy': 0.9252652764320374, 'epoch': 3.14}
+{'loss': 0.2697, 'grad_norm': 1.9691691398620605, 'learning_rate': 1.3689839572192513e-05, 'mean_token_accuracy': 0.9156644523143769, 'epoch': 3.16}
+{'loss': 0.2574, 'grad_norm': 1.5826107263565063, 'learning_rate': 1.3668449197860964e-05, 'mean_token_accuracy': 0.9230220556259155, 'epoch': 3.17}
+{'loss': 0.2871, 'grad_norm': 1.8387731313705444, 'learning_rate': 1.3647058823529413e-05, 'mean_token_accuracy': 0.9148025333881378, 'epoch': 3.18}
+{'loss': 0.2631, 'grad_norm': 1.5172021389007568, 'learning_rate': 1.3625668449197862e-05, 'mean_token_accuracy': 0.9183734059333801, 'epoch': 3.19}
+{'loss': 0.2684, 'grad_norm': 1.9055157899856567, 'learning_rate': 1.360427807486631e-05, 'mean_token_accuracy': 0.9199541211128235, 'epoch': 3.2}
+{'loss': 0.2641, 'grad_norm': 1.9403544664382935, 'learning_rate': 1.3582887700534761e-05, 'mean_token_accuracy': 0.919115173816681, 'epoch': 3.21}
+{'loss': 0.2595, 'grad_norm': 1.9522771835327148, 'learning_rate': 1.356149732620321e-05, 'mean_token_accuracy': 0.9213222146034241, 'epoch': 3.22}
+{'loss': 0.252, 'grad_norm': 1.4023128747940063, 'learning_rate': 1.354010695187166e-05, 'mean_token_accuracy': 0.9212885856628418, 'epoch': 3.23}
+{'loss': 0.2533, 'grad_norm': 2.0709495544433594, 'learning_rate': 1.3518716577540108e-05, 'mean_token_accuracy': 0.9226081728935241, 'epoch': 3.24}
+{'loss': 0.2828, 'grad_norm': 1.856225848197937, 'learning_rate': 1.3497326203208559e-05, 'mean_token_accuracy': 0.9166916728019714, 'epoch': 3.25}
+{'loss': 0.2628, 'grad_norm': 1.7132800817489624, 'learning_rate': 1.3475935828877008e-05, 'mean_token_accuracy': 0.9189740121364594, 'epoch': 3.26}
+{'loss': 0.275, 'grad_norm': 1.8086038827896118, 'learning_rate': 1.3454545454545455e-05, 'mean_token_accuracy': 0.9167956650257111, 'epoch': 3.27}
+{'loss': 0.2535, 'grad_norm': 1.822096824645996, 'learning_rate': 1.3433155080213904e-05, 'mean_token_accuracy': 0.9234410226345062, 'epoch': 3.28}
+{'loss': 0.2588, 'grad_norm': 1.4515167474746704, 'learning_rate': 1.3411764705882353e-05, 'mean_token_accuracy': 0.9225434601306916, 'epoch': 3.29}
+{'loss': 0.298, 'grad_norm': 1.9099342823028564, 'learning_rate': 1.3390374331550803e-05, 'mean_token_accuracy': 0.9110336542129517, 'epoch': 3.3}
+{'loss': 0.2658, 'grad_norm': 1.7346071004867554, 'learning_rate': 1.3368983957219252e-05, 'mean_token_accuracy': 0.9240563571453094, 'epoch': 3.32}
+{'loss': 0.2823, 'grad_norm': 2.168788194656372, 'learning_rate': 1.3347593582887701e-05, 'mean_token_accuracy': 0.9152759909629822, 'epoch': 3.33}
+{'loss': 0.2562, 'grad_norm': 1.9239122867584229, 'learning_rate': 1.332620320855615e-05, 'mean_token_accuracy': 0.9242384731769562, 'epoch': 3.34}
+{'loss': 0.3105, 'grad_norm': 1.9491091966629028, 'learning_rate': 1.33048128342246e-05, 'mean_token_accuracy': 0.9079915940761566, 'epoch': 3.35}
+{'loss': 0.2636, 'grad_norm': 2.0832831859588623, 'learning_rate': 1.328342245989305e-05, 'mean_token_accuracy': 0.9201010465621948, 'epoch': 3.36}
+{'loss': 0.27, 'grad_norm': 2.1569392681121826, 'learning_rate': 1.3262032085561499e-05, 'mean_token_accuracy': 0.9209985196590423, 'epoch': 3.37}
+{'loss': 0.2896, 'grad_norm': 2.313612222671509, 'learning_rate': 1.3240641711229948e-05, 'mean_token_accuracy': 0.9118351995944977, 'epoch': 3.38}
+{'loss': 0.2687, 'grad_norm': 2.1553444862365723, 'learning_rate': 1.3219251336898398e-05, 'mean_token_accuracy': 0.9188517212867737, 'epoch': 3.39}
+{'loss': 0.2682, 'grad_norm': 1.8239548206329346, 'learning_rate': 1.3197860962566847e-05, 'mean_token_accuracy': 0.9171984493732452, 'epoch': 3.4}
+{'loss': 0.3013, 'grad_norm': 1.9951655864715576, 'learning_rate': 1.3176470588235294e-05, 'mean_token_accuracy': 0.9089752614498139, 'epoch': 3.41}
+{'loss': 0.2528, 'grad_norm': 1.4433296918869019, 'learning_rate': 1.3155080213903743e-05, 'mean_token_accuracy': 0.922760683298111, 'epoch': 3.42}
+{'loss': 0.2716, 'grad_norm': 1.3463302850723267, 'learning_rate': 1.3133689839572194e-05, 'mean_token_accuracy': 0.9202334344387054, 'epoch': 3.43}
+{'loss': 0.2845, 'grad_norm': 1.412089228630066, 'learning_rate': 1.3112299465240643e-05, 'mean_token_accuracy': 0.9185073375701904, 'epoch': 3.44}
+{'loss': 0.2849, 'grad_norm': 2.1409788131713867, 'learning_rate': 1.3090909090909092e-05, 'mean_token_accuracy': 0.9143190085887909, 'epoch': 3.45}
+{'loss': 0.2948, 'grad_norm': 1.6857839822769165, 'learning_rate': 1.306951871657754e-05, 'mean_token_accuracy': 0.9157957315444947, 'epoch': 3.47}
+{'loss': 0.2802, 'grad_norm': 1.7737408876419067, 'learning_rate': 1.3048128342245991e-05, 'mean_token_accuracy': 0.9168872833251953, 'epoch': 3.48}
+{'loss': 0.2661, 'grad_norm': 1.6327646970748901, 'learning_rate': 1.302673796791444e-05, 'mean_token_accuracy': 0.9164197027683259, 'epoch': 3.49}
+{'loss': 0.2758, 'grad_norm': 2.14982008934021, 'learning_rate': 1.3005347593582889e-05, 'mean_token_accuracy': 0.9194492340087891, 'epoch': 3.5}
+{'loss': 0.264, 'grad_norm': 2.256784677505493, 'learning_rate': 1.2983957219251338e-05, 'mean_token_accuracy': 0.9199287235736847, 'epoch': 3.51}
+{'loss': 0.2904, 'grad_norm': 2.3508381843566895, 'learning_rate': 1.2962566844919787e-05, 'mean_token_accuracy': 0.9167836368083954, 'epoch': 3.52}
+{'loss': 0.2916, 'grad_norm': 2.4242937564849854, 'learning_rate': 1.2941176470588238e-05, 'mean_token_accuracy': 0.9135599970817566, 'epoch': 3.53}
+{'loss': 0.2886, 'grad_norm': 2.7281219959259033, 'learning_rate': 1.2919786096256686e-05, 'mean_token_accuracy': 0.91069775223732, 'epoch': 3.54}
+{'loss': 0.2709, 'grad_norm': 1.7603442668914795, 'learning_rate': 1.2898395721925134e-05, 'mean_token_accuracy': 0.9215422868728638, 'epoch': 3.55}
+{'loss': 0.312, 'grad_norm': 1.807504653930664, 'learning_rate': 1.2877005347593583e-05, 'mean_token_accuracy': 0.9099917054176331, 'epoch': 3.56}
+{'loss': 0.2759, 'grad_norm': 2.0159623622894287, 'learning_rate': 1.2855614973262033e-05, 'mean_token_accuracy': 0.9160224199295044, 'epoch': 3.57}
+{'loss': 0.2703, 'grad_norm': 2.1770315170288086, 'learning_rate': 1.2834224598930482e-05, 'mean_token_accuracy': 0.9179183363914489, 'epoch': 3.58}
+{'loss': 0.2696, 'grad_norm': 1.7855167388916016, 'learning_rate': 1.2812834224598931e-05, 'mean_token_accuracy': 0.9188096582889557, 'epoch': 3.59}
+{'loss': 0.2713, 'grad_norm': 2.3872690200805664, 'learning_rate': 1.279144385026738e-05, 'mean_token_accuracy': 0.9165969431400299, 'epoch': 3.6}
+{'loss': 0.2726, 'grad_norm': 1.9688642024993896, 'learning_rate': 1.277005347593583e-05, 'mean_token_accuracy': 0.9166318714618683, 'epoch': 3.61}
+{'loss': 0.2748, 'grad_norm': 1.93526291847229, 'learning_rate': 1.274866310160428e-05, 'mean_token_accuracy': 0.916031014919281, 'epoch': 3.63}
+{'loss': 0.2606, 'grad_norm': 1.8592499494552612, 'learning_rate': 1.2727272727272728e-05, 'mean_token_accuracy': 0.9223490655422211, 'epoch': 3.64}
+{'loss': 0.2607, 'grad_norm': 1.5188753604888916, 'learning_rate': 1.2705882352941177e-05, 'mean_token_accuracy': 0.9211462020874024, 'epoch': 3.65}
+{'loss': 0.3022, 'grad_norm': 2.0506064891815186, 'learning_rate': 1.2684491978609628e-05, 'mean_token_accuracy': 0.908718329668045, 'epoch': 3.66}
+{'loss': 0.2909, 'grad_norm': 1.692047119140625, 'learning_rate': 1.2663101604278077e-05, 'mean_token_accuracy': 0.9128739476203919, 'epoch': 3.67}
+{'loss': 0.2683, 'grad_norm': 2.1832120418548584, 'learning_rate': 1.2641711229946524e-05, 'mean_token_accuracy': 0.919335913658142, 'epoch': 3.68}
+{'loss': 0.2555, 'grad_norm': 1.7238794565200806, 'learning_rate': 1.2620320855614973e-05, 'mean_token_accuracy': 0.9222165822982789, 'epoch': 3.69}
+{'loss': 0.267, 'grad_norm': 1.7140406370162964, 'learning_rate': 1.2598930481283425e-05, 'mean_token_accuracy': 0.9170519828796386, 'epoch': 3.7}
+{'loss': 0.271, 'grad_norm': 2.0007855892181396, 'learning_rate': 1.2577540106951873e-05, 'mean_token_accuracy': 0.9159816682338715, 'epoch': 3.71}
+{'loss': 0.2622, 'grad_norm': 1.926443338394165, 'learning_rate': 1.2556149732620322e-05, 'mean_token_accuracy': 0.923752361536026, 'epoch': 3.72}
+{'loss': 0.2752, 'grad_norm': 1.7936837673187256, 'learning_rate': 1.253475935828877e-05, 'mean_token_accuracy': 0.9174086689949036, 'epoch': 3.73}
+{'loss': 0.2652, 'grad_norm': 1.7169134616851807, 'learning_rate': 1.251336898395722e-05, 'mean_token_accuracy': 0.9194107711315155, 'epoch': 3.74}
+{'loss': 0.2224, 'grad_norm': 2.023347854614258, 'learning_rate': 1.249197860962567e-05, 'mean_token_accuracy': 0.9343443632125854, 'epoch': 3.75}
+{'loss': 0.2996, 'grad_norm': 2.3433597087860107, 'learning_rate': 1.2470588235294119e-05, 'mean_token_accuracy': 0.9075973927974701, 'epoch': 3.76}
+{'loss': 0.2696, 'grad_norm': 2.1062073707580566, 'learning_rate': 1.2449197860962568e-05, 'mean_token_accuracy': 0.91584153175354, 'epoch': 3.78}
+{'loss': 0.2958, 'grad_norm': 2.1469759941101074, 'learning_rate': 1.2427807486631017e-05, 'mean_token_accuracy': 0.9117794215679169, 'epoch': 3.79}
+{'loss': 0.2659, 'grad_norm': 2.0393543243408203, 'learning_rate': 1.2406417112299467e-05, 'mean_token_accuracy': 0.9172713696956635, 'epoch': 3.8}
+{'loss': 0.2818, 'grad_norm': 1.7752169370651245, 'learning_rate': 1.2385026737967916e-05, 'mean_token_accuracy': 0.9140326499938964, 'epoch': 3.81}
+{'loss': 0.2764, 'grad_norm': 1.9854495525360107, 'learning_rate': 1.2363636363636364e-05, 'mean_token_accuracy': 0.9162292361259461, 'epoch': 3.82}
+{'loss': 0.3081, 'grad_norm': 1.7207064628601074, 'learning_rate': 1.2342245989304812e-05, 'mean_token_accuracy': 0.9102438688278198, 'epoch': 3.83}
+{'loss': 0.2524, 'grad_norm': 2.0375332832336426, 'learning_rate': 1.2320855614973263e-05, 'mean_token_accuracy': 0.9252016723155976, 'epoch': 3.84}
+{'loss': 0.2616, 'grad_norm': 1.9619570970535278, 'learning_rate': 1.2299465240641712e-05, 'mean_token_accuracy': 0.9214968502521514, 'epoch': 3.85}
+{'loss': 0.2636, 'grad_norm': 2.050471305847168, 'learning_rate': 1.2278074866310161e-05, 'mean_token_accuracy': 0.9177519261837006, 'epoch': 3.86}
+{'loss': 0.2773, 'grad_norm': 1.5941985845565796, 'learning_rate': 1.225668449197861e-05, 'mean_token_accuracy': 0.9155677914619446, 'epoch': 3.87}
+{'loss': 0.2771, 'grad_norm': 1.8416399955749512, 'learning_rate': 1.223529411764706e-05, 'mean_token_accuracy': 0.9191286385059356, 'epoch': 3.88}
+{'loss': 0.2876, 'grad_norm': 1.6023781299591064, 'learning_rate': 1.221390374331551e-05, 'mean_token_accuracy': 0.9119723737239838, 'epoch': 3.89}
+{'loss': 0.2654, 'grad_norm': 1.727329134941101, 'learning_rate': 1.2192513368983958e-05, 'mean_token_accuracy': 0.9227775156497955, 'epoch': 3.9}
+{'loss': 0.2738, 'grad_norm': 2.689347267150879, 'learning_rate': 1.2171122994652407e-05, 'mean_token_accuracy': 0.918567031621933, 'epoch': 3.91}
+{'loss': 0.2688, 'grad_norm': 1.6132326126098633, 'learning_rate': 1.2149732620320858e-05, 'mean_token_accuracy': 0.9179216027259827, 'epoch': 3.93}
+{'loss': 0.2765, 'grad_norm': 2.3561434745788574, 'learning_rate': 1.2128342245989307e-05, 'mean_token_accuracy': 0.9145013868808747, 'epoch': 3.94}
+{'loss': 0.2616, 'grad_norm': 1.4822638034820557, 'learning_rate': 1.2106951871657756e-05, 'mean_token_accuracy': 0.9216015875339508, 'epoch': 3.95}
+{'loss': 0.2687, 'grad_norm': 1.8870680332183838, 'learning_rate': 1.2085561497326203e-05, 'mean_token_accuracy': 0.9171273648738861, 'epoch': 3.96}
+{'loss': 0.2554, 'grad_norm': 1.6883933544158936, 'learning_rate': 1.2064171122994652e-05, 'mean_token_accuracy': 0.9207813501358032, 'epoch': 3.97}
+{'loss': 0.291, 'grad_norm': 1.7209986448287964, 'learning_rate': 1.2042780748663102e-05, 'mean_token_accuracy': 0.9121565401554108, 'epoch': 3.98}
+{'loss': 0.2856, 'grad_norm': 2.0672152042388916, 'learning_rate': 1.2021390374331551e-05, 'mean_token_accuracy': 0.9114426791667938, 'epoch': 3.99}
+{'loss': 0.2379, 'grad_norm': 3.539128541946411, 'learning_rate': 1.2e-05, 'mean_token_accuracy': 0.9298975050449372, 'epoch': 4.0}
+{'eval_loss': 0.8552775382995605, 'eval_runtime': 97.2843, 'eval_samples_per_second': 13.558, 'eval_steps_per_second': 0.853, 'eval_mean_token_accuracy': 0.8052615293537277, 'epoch': 4.0}
+model-00001-of-00002.safetensors: 100%|██████████| 4.96G/4.96G [03:02<00:00, 27.2MB/s]
+Upload 5 LFS files: 100%|██████████| 5/5 [03:02<00:00, 36.57s/it] :02<00:00, 37.4MB/s]
+model-00001-of-00002.safetensors: 100%|█████████▉| 4.94G/4.96G [02:08<00:00, 42.7MB/s]
+model-00002-of-00002.safetensors:  99%|█████████▉| 1.26G/1.27G [00:44<00:00, 34.1MB/s]
+Upload 5 LFS files:  20%|██        | 1/5 [03:02<12:11, 182.85s/it]

wandb/run-20250402_145246-e1n3xkh6/run-e1n3xkh6.wandb CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9511fbe10d66dd85e17a0a8bb234be3a9e2b28ca7a889f5b9c9af333e776fc3a
-size 1933312

 version https://git-lfs.github.com/spec/v1
+oid sha256:a083fa7c31ab607fb61a85d4739baad73234ed919cd42bec69f8e1bbd100a872
+size 2621440