Upload folder using huggingface_hub

Browse files

Files changed (16) hide show

.gitattributes +1 -0
added_tokens.json +28 -0
config.json +32 -0
generation_config.json +8 -0
merges.txt +0 -0
model.safetensors +3 -0
optimizer.pt +3 -0
rng_state.pth +3 -0
scaler.pt +3 -0
scheduler.pt +3 -0
special_tokens_map.json +31 -0
tokenizer.json +3 -0
tokenizer_config.json +240 -0
trainer_state.json +1154 -0
training_args.bin +3 -0
vocab.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

added_tokens.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "</think>": 151668,
+  "</tool_call>": 151658,
+  "</tool_response>": 151666,
+  "<think>": 151667,
+  "<tool_call>": 151657,
+  "<tool_response>": 151665,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "architectures": [
+    "Qwen3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "eos_token_id": 151643,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "max_position_embeddings": 32768,
+  "max_window_layers": 28,
+  "model_type": "qwen3",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 8,
+  "pad_token_id": 151654,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000,
+  "sliding_window": null,
+  "tie_word_embeddings": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.52.4",
+  "unsloth_fixed": true,
+  "unsloth_version": "2025.6.4",
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 151936
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "bos_token_id": 151643,
+  "eos_token_id": 151643,
+  "max_length": 32768,
+  "max_new_tokens": 2048,
+  "pad_token_id": 151654,
+  "transformers_version": "4.52.4"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cd091c135a6b13254575a6c3262bd64732084f2b6f336944b7ee1f21dabf6b84
+size 2384234968

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:521ed3f854964a46335a37e8a238841593fff3aa7c38f1e313efa0d7729b53d6
+size 2140048520

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7ba77c4358d5913436545fc6995706402cd54ccf015646708e622eca7f93ed87
+size 14244

scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ba07ae31ec5c29c68b2978c85c45cd4a550d5e8a440574a3d9d1a214f3baa591
+size 988

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:47409458100b5a48f3a1b8bf3cbcba48c4596625e1b289ffb5ad19fc7a770ca1
+size 1064

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|vision_pad|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aeb13307a71acd8fe81861d94ad54ab689df773318809eed3cbe794b4492dae4
+size 11422654

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,240 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151665": {
+      "content": "<tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151666": {
+      "content": "</tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151667": {
+      "content": "<think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151668": {
+      "content": "</think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|endoftext|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 32768,
+  "pad_token": "<|vision_pad|>",
+  "padding_side": "right",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1154 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 5.0,
+  "eval_steps": 500,
+  "global_step": 160,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.032,
+      "grad_norm": Infinity,
+      "learning_rate": 0.0,
+      "loss": 7.6104,
+      "step": 1
+    },
+    {
+      "epoch": 0.064,
+      "grad_norm": Infinity,
+      "learning_rate": 0.0,
+      "loss": 7.5656,
+      "step": 2
+    },
+    {
+      "epoch": 0.096,
+      "grad_norm": 157.2535400390625,
+      "learning_rate": 0.0,
+      "loss": 7.6971,
+      "step": 3
+    },
+    {
+      "epoch": 0.128,
+      "grad_norm": 154.54010009765625,
+      "learning_rate": 1.25e-06,
+      "loss": 7.6309,
+      "step": 4
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 152.9924774169922,
+      "learning_rate": 2.5e-06,
+      "loss": 7.3146,
+      "step": 5
+    },
+    {
+      "epoch": 0.192,
+      "grad_norm": 135.853271484375,
+      "learning_rate": 3.7500000000000005e-06,
+      "loss": 6.7531,
+      "step": 6
+    },
+    {
+      "epoch": 0.224,
+      "grad_norm": 98.87725830078125,
+      "learning_rate": 5e-06,
+      "loss": 5.3812,
+      "step": 7
+    },
+    {
+      "epoch": 0.256,
+      "grad_norm": 73.27239990234375,
+      "learning_rate": 6.25e-06,
+      "loss": 4.2198,
+      "step": 8
+    },
+    {
+      "epoch": 0.288,
+      "grad_norm": 49.881317138671875,
+      "learning_rate": 7.500000000000001e-06,
+      "loss": 3.3294,
+      "step": 9
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 40.76887130737305,
+      "learning_rate": 8.750000000000001e-06,
+      "loss": 2.6914,
+      "step": 10
+    },
+    {
+      "epoch": 0.352,
+      "grad_norm": 37.55649185180664,
+      "learning_rate": 1e-05,
+      "loss": 2.1702,
+      "step": 11
+    },
+    {
+      "epoch": 0.384,
+      "grad_norm": 56.88014221191406,
+      "learning_rate": 9.998932083939657e-06,
+      "loss": 1.8042,
+      "step": 12
+    },
+    {
+      "epoch": 0.416,
+      "grad_norm": 28.132137298583984,
+      "learning_rate": 9.995728791936505e-06,
+      "loss": 1.6454,
+      "step": 13
+    },
+    {
+      "epoch": 0.448,
+      "grad_norm": 34.27433395385742,
+      "learning_rate": 9.990391492329341e-06,
+      "loss": 1.6005,
+      "step": 14
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 56.15974807739258,
+      "learning_rate": 9.98292246503335e-06,
+      "loss": 1.6138,
+      "step": 15
+    },
+    {
+      "epoch": 0.512,
+      "grad_norm": 25.375675201416016,
+      "learning_rate": 9.973324900566214e-06,
+      "loss": 1.4571,
+      "step": 16
+    },
+    {
+      "epoch": 0.544,
+      "grad_norm": 26.252838134765625,
+      "learning_rate": 9.961602898685225e-06,
+      "loss": 1.4442,
+      "step": 17
+    },
+    {
+      "epoch": 0.576,
+      "grad_norm": 26.513261795043945,
+      "learning_rate": 9.947761466636014e-06,
+      "loss": 1.3839,
+      "step": 18
+    },
+    {
+      "epoch": 0.608,
+      "grad_norm": 26.487327575683594,
+      "learning_rate": 9.931806517013612e-06,
+      "loss": 1.3754,
+      "step": 19
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 31.622228622436523,
+      "learning_rate": 9.913744865236798e-06,
+      "loss": 1.3904,
+      "step": 20
+    },
+    {
+      "epoch": 0.672,
+      "grad_norm": 27.828765869140625,
+      "learning_rate": 9.893584226636773e-06,
+      "loss": 1.3485,
+      "step": 21
+    },
+    {
+      "epoch": 0.704,
+      "grad_norm": 35.08741760253906,
+      "learning_rate": 9.871333213161438e-06,
+      "loss": 1.3843,
+      "step": 22
+    },
+    {
+      "epoch": 0.736,
+      "grad_norm": 29.33647346496582,
+      "learning_rate": 9.847001329696653e-06,
+      "loss": 1.2955,
+      "step": 23
+    },
+    {
+      "epoch": 0.768,
+      "grad_norm": 29.842397689819336,
+      "learning_rate": 9.820598970006068e-06,
+      "loss": 1.2918,
+      "step": 24
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 31.41671371459961,
+      "learning_rate": 9.792137412291265e-06,
+      "loss": 1.2758,
+      "step": 25
+    },
+    {
+      "epoch": 0.832,
+      "grad_norm": 30.875192642211914,
+      "learning_rate": 9.761628814374074e-06,
+      "loss": 1.243,
+      "step": 26
+    },
+    {
+      "epoch": 0.864,
+      "grad_norm": 30.959537506103516,
+      "learning_rate": 9.729086208503174e-06,
+      "loss": 1.2242,
+      "step": 27
+    },
+    {
+      "epoch": 0.896,
+      "grad_norm": 31.773395538330078,
+      "learning_rate": 9.694523495787149e-06,
+      "loss": 1.2225,
+      "step": 28
+    },
+    {
+      "epoch": 0.928,
+      "grad_norm": 31.180255889892578,
+      "learning_rate": 9.657955440256396e-06,
+      "loss": 1.191,
+      "step": 29
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 31.378707885742188,
+      "learning_rate": 9.619397662556434e-06,
+      "loss": 1.1779,
+      "step": 30
+    },
+    {
+      "epoch": 0.992,
+      "grad_norm": 31.57331085205078,
+      "learning_rate": 9.578866633275289e-06,
+      "loss": 1.1629,
+      "step": 31
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": Infinity,
+      "learning_rate": 9.536379665907801e-06,
+      "loss": 1.1432,
+      "step": 32
+    },
+    {
+      "epoch": 1.032,
+      "grad_norm": 31.775487899780273,
+      "learning_rate": 9.536379665907801e-06,
+      "loss": 1.1484,
+      "step": 33
+    },
+    {
+      "epoch": 1.064,
+      "grad_norm": 32.05231475830078,
+      "learning_rate": 9.491954909459895e-06,
+      "loss": 1.1361,
+      "step": 34
+    },
+    {
+      "epoch": 1.096,
+      "grad_norm": 32.09402084350586,
+      "learning_rate": 9.445611340695926e-06,
+      "loss": 1.1245,
+      "step": 35
+    },
+    {
+      "epoch": 1.1280000000000001,
+      "grad_norm": 32.11634063720703,
+      "learning_rate": 9.397368756032445e-06,
+      "loss": 1.1088,
+      "step": 36
+    },
+    {
+      "epoch": 1.16,
+      "grad_norm": 32.145057678222656,
+      "learning_rate": 9.347247763081834e-06,
+      "loss": 1.0929,
+      "step": 37
+    },
+    {
+      "epoch": 1.192,
+      "grad_norm": 32.16166687011719,
+      "learning_rate": 9.295269771849426e-06,
+      "loss": 1.0782,
+      "step": 38
+    },
+    {
+      "epoch": 1.224,
+      "grad_norm": 32.21006393432617,
+      "learning_rate": 9.241456985587868e-06,
+      "loss": 1.0666,
+      "step": 39
+    },
+    {
+      "epoch": 1.256,
+      "grad_norm": 32.27949523925781,
+      "learning_rate": 9.185832391312644e-06,
+      "loss": 1.0545,
+      "step": 40
+    },
+    {
+      "epoch": 1.288,
+      "grad_norm": 32.40619659423828,
+      "learning_rate": 9.12841974998278e-06,
+      "loss": 1.0413,
+      "step": 41
+    },
+    {
+      "epoch": 1.32,
+      "grad_norm": 32.46085739135742,
+      "learning_rate": 9.069243586350976e-06,
+      "loss": 1.0285,
+      "step": 42
+    },
+    {
+      "epoch": 1.3519999999999999,
+      "grad_norm": 32.50187683105469,
+      "learning_rate": 9.008329178487442e-06,
+      "loss": 1.0146,
+      "step": 43
+    },
+    {
+      "epoch": 1.384,
+      "grad_norm": 32.46120071411133,
+      "learning_rate": 8.94570254698197e-06,
+      "loss": 1.0024,
+      "step": 44
+    },
+    {
+      "epoch": 1.416,
+      "grad_norm": 32.52665328979492,
+      "learning_rate": 8.881390443828788e-06,
+      "loss": 0.9896,
+      "step": 45
+    },
+    {
+      "epoch": 1.448,
+      "grad_norm": 32.65945053100586,
+      "learning_rate": 8.815420340999034e-06,
+      "loss": 0.9801,
+      "step": 46
+    },
+    {
+      "epoch": 1.48,
+      "grad_norm": 32.593017578125,
+      "learning_rate": 8.747820418705632e-06,
+      "loss": 0.9662,
+      "step": 47
+    },
+    {
+      "epoch": 1.512,
+      "grad_norm": 32.5623779296875,
+      "learning_rate": 8.67861955336566e-06,
+      "loss": 0.9522,
+      "step": 48
+    },
+    {
+      "epoch": 1.544,
+      "grad_norm": 32.60811233520508,
+      "learning_rate": 8.607847305265312e-06,
+      "loss": 0.9393,
+      "step": 49
+    },
+    {
+      "epoch": 1.576,
+      "grad_norm": 32.59648895263672,
+      "learning_rate": 8.535533905932739e-06,
+      "loss": 0.9273,
+      "step": 50
+    },
+    {
+      "epoch": 1.608,
+      "grad_norm": 32.59210205078125,
+      "learning_rate": 8.461710245224149e-06,
+      "loss": 0.9161,
+      "step": 51
+    },
+    {
+      "epoch": 1.6400000000000001,
+      "grad_norm": 32.620819091796875,
+      "learning_rate": 8.386407858128707e-06,
+      "loss": 0.904,
+      "step": 52
+    },
+    {
+      "epoch": 1.6720000000000002,
+      "grad_norm": 32.551029205322266,
+      "learning_rate": 8.309658911297833e-06,
+      "loss": 0.8927,
+      "step": 53
+    },
+    {
+      "epoch": 1.704,
+      "grad_norm": 32.4809455871582,
+      "learning_rate": 8.231496189304704e-06,
+      "loss": 0.8783,
+      "step": 54
+    },
+    {
+      "epoch": 1.736,
+      "grad_norm": 32.426021575927734,
+      "learning_rate": 8.151953080639777e-06,
+      "loss": 0.8668,
+      "step": 55
+    },
+    {
+      "epoch": 1.768,
+      "grad_norm": 32.363037109375,
+      "learning_rate": 8.071063563448341e-06,
+      "loss": 0.8558,
+      "step": 56
+    },
+    {
+      "epoch": 1.8,
+      "grad_norm": 32.30210494995117,
+      "learning_rate": 7.988862191016204e-06,
+      "loss": 0.8434,
+      "step": 57
+    },
+    {
+      "epoch": 1.8319999999999999,
+      "grad_norm": 32.332271575927734,
+      "learning_rate": 7.905384077009693e-06,
+      "loss": 0.833,
+      "step": 58
+    },
+    {
+      "epoch": 1.8639999999999999,
+      "grad_norm": 32.23858642578125,
+      "learning_rate": 7.820664880476257e-06,
+      "loss": 0.8199,
+      "step": 59
+    },
+    {
+      "epoch": 1.896,
+      "grad_norm": 32.191062927246094,
+      "learning_rate": 7.734740790612137e-06,
+      "loss": 0.8077,
+      "step": 60
+    },
+    {
+      "epoch": 1.928,
+      "grad_norm": 32.13237762451172,
+      "learning_rate": 7.647648511303545e-06,
+      "loss": 0.797,
+      "step": 61
+    },
+    {
+      "epoch": 1.96,
+      "grad_norm": 32.073238372802734,
+      "learning_rate": 7.559425245448006e-06,
+      "loss": 0.7867,
+      "step": 62
+    },
+    {
+      "epoch": 1.992,
+      "grad_norm": 32.048255920410156,
+      "learning_rate": 7.470108679062521e-06,
+      "loss": 0.776,
+      "step": 63
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": Infinity,
+      "learning_rate": 7.379736965185369e-06,
+      "loss": 0.7636,
+      "step": 64
+    },
+    {
+      "epoch": 2.032,
+      "grad_norm": 32.028160095214844,
+      "learning_rate": 7.379736965185369e-06,
+      "loss": 0.7638,
+      "step": 65
+    },
+    {
+      "epoch": 2.064,
+      "grad_norm": 32.00226593017578,
+      "learning_rate": 7.288348707578409e-06,
+      "loss": 0.7528,
+      "step": 66
+    },
+    {
+      "epoch": 2.096,
+      "grad_norm": 31.98818016052246,
+      "learning_rate": 7.195982944236853e-06,
+      "loss": 0.7421,
+      "step": 67
+    },
+    {
+      "epoch": 2.128,
+      "grad_norm": 31.994173049926758,
+      "learning_rate": 7.102679130713538e-06,
+      "loss": 0.7303,
+      "step": 68
+    },
+    {
+      "epoch": 2.16,
+      "grad_norm": 31.960779190063477,
+      "learning_rate": 7.008477123264849e-06,
+      "loss": 0.7203,
+      "step": 69
+    },
+    {
+      "epoch": 2.192,
+      "grad_norm": 31.953826904296875,
+      "learning_rate": 6.913417161825449e-06,
+      "loss": 0.7105,
+      "step": 70
+    },
+    {
+      "epoch": 2.224,
+      "grad_norm": 31.943458557128906,
+      "learning_rate": 6.817539852819149e-06,
+      "loss": 0.7003,
+      "step": 71
+    },
+    {
+      "epoch": 2.2560000000000002,
+      "grad_norm": 31.915714263916016,
+      "learning_rate": 6.720886151813194e-06,
+      "loss": 0.6899,
+      "step": 72
+    },
+    {
+      "epoch": 2.288,
+      "grad_norm": 31.909622192382812,
+      "learning_rate": 6.6234973460234184e-06,
+      "loss": 0.6782,
+      "step": 73
+    },
+    {
+      "epoch": 2.32,
+      "grad_norm": 31.903554916381836,
+      "learning_rate": 6.525415036677745e-06,
+      "loss": 0.6689,
+      "step": 74
+    },
+    {
+      "epoch": 2.352,
+      "grad_norm": 31.868751525878906,
+      "learning_rate": 6.426681121245527e-06,
+      "loss": 0.6582,
+      "step": 75
+    },
+    {
+      "epoch": 2.384,
+      "grad_norm": 31.84931182861328,
+      "learning_rate": 6.327337775540362e-06,
+      "loss": 0.649,
+      "step": 76
+    },
+    {
+      "epoch": 2.416,
+      "grad_norm": 31.811887741088867,
+      "learning_rate": 6.227427435703997e-06,
+      "loss": 0.6405,
+      "step": 77
+    },
+    {
+      "epoch": 2.448,
+      "grad_norm": 31.750198364257812,
+      "learning_rate": 6.126992780079032e-06,
+      "loss": 0.6309,
+      "step": 78
+    },
+    {
+      "epoch": 2.48,
+      "grad_norm": 31.75521469116211,
+      "learning_rate": 6.026076710978172e-06,
+      "loss": 0.6222,
+      "step": 79
+    },
+    {
+      "epoch": 2.512,
+      "grad_norm": 31.68766212463379,
+      "learning_rate": 5.924722336357793e-06,
+      "loss": 0.6127,
+      "step": 80
+    },
+    {
+      "epoch": 2.544,
+      "grad_norm": 31.62371063232422,
+      "learning_rate": 5.82297295140367e-06,
+      "loss": 0.605,
+      "step": 81
+    },
+    {
+      "epoch": 2.576,
+      "grad_norm": 31.596736907958984,
+      "learning_rate": 5.720872020036734e-06,
+      "loss": 0.595,
+      "step": 82
+    },
+    {
+      "epoch": 2.608,
+      "grad_norm": 31.496021270751953,
+      "learning_rate": 5.61846315634674e-06,
+      "loss": 0.5872,
+      "step": 83
+    },
+    {
+      "epoch": 2.64,
+      "grad_norm": 31.44156265258789,
+      "learning_rate": 5.515790105961785e-06,
+      "loss": 0.5771,
+      "step": 84
+    },
+    {
+      "epoch": 2.672,
+      "grad_norm": 31.424474716186523,
+      "learning_rate": 5.412896727361663e-06,
+      "loss": 0.5686,
+      "step": 85
+    },
+    {
+      "epoch": 2.7039999999999997,
+      "grad_norm": 31.398405075073242,
+      "learning_rate": 5.309826973142974e-06,
+      "loss": 0.5615,
+      "step": 86
+    },
+    {
+      "epoch": 2.7359999999999998,
+      "grad_norm": 31.405683517456055,
+      "learning_rate": 5.206624871244066e-06,
+      "loss": 0.5545,
+      "step": 87
+    },
+    {
+      "epoch": 2.768,
+      "grad_norm": 31.285781860351562,
+      "learning_rate": 5.103334506137773e-06,
+      "loss": 0.5469,
+      "step": 88
+    },
+    {
+      "epoch": 2.8,
+      "grad_norm": 31.2457332611084,
+      "learning_rate": 5e-06,
+      "loss": 0.5411,
+      "step": 89
+    },
+    {
+      "epoch": 2.832,
+      "grad_norm": 31.182796478271484,
+      "learning_rate": 4.89666549386223e-06,
+      "loss": 0.5322,
+      "step": 90
+    },
+    {
+      "epoch": 2.864,
+      "grad_norm": 31.120420455932617,
+      "learning_rate": 4.793375128755934e-06,
+      "loss": 0.5264,
+      "step": 91
+    },
+    {
+      "epoch": 2.896,
+      "grad_norm": 31.106569290161133,
+      "learning_rate": 4.690173026857028e-06,
+      "loss": 0.5179,
+      "step": 92
+    },
+    {
+      "epoch": 2.928,
+      "grad_norm": 31.05204963684082,
+      "learning_rate": 4.587103272638339e-06,
+      "loss": 0.512,
+      "step": 93
+    },
+    {
+      "epoch": 2.96,
+      "grad_norm": 30.98640251159668,
+      "learning_rate": 4.4842098940382155e-06,
+      "loss": 0.5042,
+      "step": 94
+    },
+    {
+      "epoch": 2.992,
+      "grad_norm": 30.895837783813477,
+      "learning_rate": 4.381536843653262e-06,
+      "loss": 0.4975,
+      "step": 95
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": Infinity,
+      "learning_rate": 4.279127979963266e-06,
+      "loss": 0.4904,
+      "step": 96
+    },
+    {
+      "epoch": 3.032,
+      "grad_norm": 30.81951332092285,
+      "learning_rate": 4.279127979963266e-06,
+      "loss": 0.4912,
+      "step": 97
+    },
+    {
+      "epoch": 3.064,
+      "grad_norm": 30.759660720825195,
+      "learning_rate": 4.17702704859633e-06,
+      "loss": 0.4854,
+      "step": 98
+    },
+    {
+      "epoch": 3.096,
+      "grad_norm": 30.72711181640625,
+      "learning_rate": 4.075277663642208e-06,
+      "loss": 0.4799,
+      "step": 99
+    },
+    {
+      "epoch": 3.128,
+      "grad_norm": 30.67826271057129,
+      "learning_rate": 3.973923289021829e-06,
+      "loss": 0.4754,
+      "step": 100
+    },
+    {
+      "epoch": 3.16,
+      "grad_norm": 30.5875186920166,
+      "learning_rate": 3.8730072199209705e-06,
+      "loss": 0.4676,
+      "step": 101
+    },
+    {
+      "epoch": 3.192,
+      "grad_norm": 30.565122604370117,
+      "learning_rate": 3.7725725642960047e-06,
+      "loss": 0.4627,
+      "step": 102
+    },
+    {
+      "epoch": 3.224,
+      "grad_norm": 30.46950340270996,
+      "learning_rate": 3.67266222445964e-06,
+      "loss": 0.4574,
+      "step": 103
+    },
+    {
+      "epoch": 3.2560000000000002,
+      "grad_norm": 30.430648803710938,
+      "learning_rate": 3.573318878754475e-06,
+      "loss": 0.4524,
+      "step": 104
+    },
+    {
+      "epoch": 3.288,
+      "grad_norm": 30.337705612182617,
+      "learning_rate": 3.4745849633222566e-06,
+      "loss": 0.4476,
+      "step": 105
+    },
+    {
+      "epoch": 3.32,
+      "grad_norm": 30.253421783447266,
+      "learning_rate": 3.3765026539765832e-06,
+      "loss": 0.4434,
+      "step": 106
+    },
+    {
+      "epoch": 3.352,
+      "grad_norm": 30.180065155029297,
+      "learning_rate": 3.2791138481868084e-06,
+      "loss": 0.4389,
+      "step": 107
+    },
+    {
+      "epoch": 3.384,
+      "grad_norm": 30.156455993652344,
+      "learning_rate": 3.1824601471808504e-06,
+      "loss": 0.4327,
+      "step": 108
+    },
+    {
+      "epoch": 3.416,
+      "grad_norm": 30.073293685913086,
+      "learning_rate": 3.0865828381745515e-06,
+      "loss": 0.4282,
+      "step": 109
+    },
+    {
+      "epoch": 3.448,
+      "grad_norm": 30.003313064575195,
+      "learning_rate": 2.991522876735154e-06,
+      "loss": 0.4247,
+      "step": 110
+    },
+    {
+      "epoch": 3.48,
+      "grad_norm": 29.922578811645508,
+      "learning_rate": 2.8973208692864623e-06,
+      "loss": 0.4198,
+      "step": 111
+    },
+    {
+      "epoch": 3.512,
+      "grad_norm": 29.898513793945312,
+      "learning_rate": 2.804017055763149e-06,
+      "loss": 0.4165,
+      "step": 112
+    },
+    {
+      "epoch": 3.544,
+      "grad_norm": 29.841838836669922,
+      "learning_rate": 2.711651292421593e-06,
+      "loss": 0.4126,
+      "step": 113
+    },
+    {
+      "epoch": 3.576,
+      "grad_norm": 29.773988723754883,
+      "learning_rate": 2.6202630348146323e-06,
+      "loss": 0.409,
+      "step": 114
+    },
+    {
+      "epoch": 3.608,
+      "grad_norm": 29.704248428344727,
+      "learning_rate": 2.529891320937481e-06,
+      "loss": 0.4057,
+      "step": 115
+    },
+    {
+      "epoch": 3.64,
+      "grad_norm": 29.72831916809082,
+      "learning_rate": 2.4405747545519966e-06,
+      "loss": 0.4028,
+      "step": 116
+    },
+    {
+      "epoch": 3.672,
+      "grad_norm": 29.609638214111328,
+      "learning_rate": 2.352351488696457e-06,
+      "loss": 0.399,
+      "step": 117
+    },
+    {
+      "epoch": 3.7039999999999997,
+      "grad_norm": 29.58837127685547,
+      "learning_rate": 2.265259209387867e-06,
+      "loss": 0.3956,
+      "step": 118
+    },
+    {
+      "epoch": 3.7359999999999998,
+      "grad_norm": 29.477474212646484,
+      "learning_rate": 2.179335119523745e-06,
+      "loss": 0.3927,
+      "step": 119
+    },
+    {
+      "epoch": 3.768,
+      "grad_norm": 29.41726303100586,
+      "learning_rate": 2.094615922990309e-06,
+      "loss": 0.3897,
+      "step": 120
+    },
+    {
+      "epoch": 3.8,
+      "grad_norm": 29.370594024658203,
+      "learning_rate": 2.0111378089837958e-06,
+      "loss": 0.3866,
+      "step": 121
+    },
+    {
+      "epoch": 3.832,
+      "grad_norm": 29.35842514038086,
+      "learning_rate": 1.928936436551661e-06,
+      "loss": 0.3847,
+      "step": 122
+    },
+    {
+      "epoch": 3.864,
+      "grad_norm": 29.299884796142578,
+      "learning_rate": 1.848046919360225e-06,
+      "loss": 0.3821,
+      "step": 123
+    },
+    {
+      "epoch": 3.896,
+      "grad_norm": 29.2962703704834,
+      "learning_rate": 1.7685038106952952e-06,
+      "loss": 0.3799,
+      "step": 124
+    },
+    {
+      "epoch": 3.928,
+      "grad_norm": 29.24640464782715,
+      "learning_rate": 1.6903410887021676e-06,
+      "loss": 0.3777,
+      "step": 125
+    },
+    {
+      "epoch": 3.96,
+      "grad_norm": 29.137550354003906,
+      "learning_rate": 1.6135921418712959e-06,
+      "loss": 0.3749,
+      "step": 126
+    },
+    {
+      "epoch": 3.992,
+      "grad_norm": 29.106548309326172,
+      "learning_rate": 1.5382897547758513e-06,
+      "loss": 0.3734,
+      "step": 127
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 29.02272605895996,
+      "learning_rate": 1.4644660940672628e-06,
+      "loss": 0.3718,
+      "step": 128
+    },
+    {
+      "epoch": 4.032,
+      "grad_norm": 29.036943435668945,
+      "learning_rate": 1.3921526947346902e-06,
+      "loss": 0.3698,
+      "step": 129
+    },
+    {
+      "epoch": 4.064,
+      "grad_norm": 29.032577514648438,
+      "learning_rate": 1.321380446634342e-06,
+      "loss": 0.368,
+      "step": 130
+    },
+    {
+      "epoch": 4.096,
+      "grad_norm": 29.02582359313965,
+      "learning_rate": 1.2521795812943704e-06,
+      "loss": 0.3667,
+      "step": 131
+    },
+    {
+      "epoch": 4.128,
+      "grad_norm": 28.966033935546875,
+      "learning_rate": 1.1845796590009684e-06,
+      "loss": 0.3646,
+      "step": 132
+    },
+    {
+      "epoch": 4.16,
+      "grad_norm": 28.905071258544922,
+      "learning_rate": 1.118609556171213e-06,
+      "loss": 0.3623,
+      "step": 133
+    },
+    {
+      "epoch": 4.192,
+      "grad_norm": 28.8817081451416,
+      "learning_rate": 1.0542974530180327e-06,
+      "loss": 0.3609,
+      "step": 134
+    },
+    {
+      "epoch": 4.224,
+      "grad_norm": 28.79871940612793,
+      "learning_rate": 9.916708215125586e-07,
+      "loss": 0.3588,
+      "step": 135
+    },
+    {
+      "epoch": 4.256,
+      "grad_norm": 28.76542091369629,
+      "learning_rate": 9.307564136490255e-07,
+      "loss": 0.3577,
+      "step": 136
+    },
+    {
+      "epoch": 4.288,
+      "grad_norm": 28.721641540527344,
+      "learning_rate": 8.715802500172215e-07,
+      "loss": 0.3562,
+      "step": 137
+    },
+    {
+      "epoch": 4.32,
+      "grad_norm": 28.721982955932617,
+      "learning_rate": 8.141676086873574e-07,
+      "loss": 0.3558,
+      "step": 138
+    },
+    {
+      "epoch": 4.352,
+      "grad_norm": 28.66592788696289,
+      "learning_rate": 7.585430144121319e-07,
+      "loss": 0.3545,
+      "step": 139
+    },
+    {
+      "epoch": 4.384,
+      "grad_norm": 28.666488647460938,
+      "learning_rate": 7.047302281505735e-07,
+      "loss": 0.3539,
+      "step": 140
+    },
+    {
+      "epoch": 4.416,
+      "grad_norm": 28.634742736816406,
+      "learning_rate": 6.527522369181655e-07,
+      "loss": 0.3527,
+      "step": 141
+    },
+    {
+      "epoch": 4.448,
+      "grad_norm": 28.640512466430664,
+      "learning_rate": 6.026312439675553e-07,
+      "loss": 0.3526,
+      "step": 142
+    },
+    {
+      "epoch": 4.48,
+      "grad_norm": 28.617761611938477,
+      "learning_rate": 5.543886593040737e-07,
+      "loss": 0.3512,
+      "step": 143
+    },
+    {
+      "epoch": 4.5120000000000005,
+      "grad_norm": 28.58139419555664,
+      "learning_rate": 5.080450905401057e-07,
+      "loss": 0.3504,
+      "step": 144
+    },
+    {
+      "epoch": 4.5440000000000005,
+      "grad_norm": 28.599130630493164,
+      "learning_rate": 4.6362033409220077e-07,
+      "loss": 0.3507,
+      "step": 145
+    },
+    {
+      "epoch": 4.576,
+      "grad_norm": 28.576433181762695,
+      "learning_rate": 4.211333667247125e-07,
+      "loss": 0.3496,
+      "step": 146
+    },
+    {
+      "epoch": 4.608,
+      "grad_norm": 28.552490234375,
+      "learning_rate": 3.8060233744356634e-07,
+      "loss": 0.3478,
+      "step": 147
+    },
+    {
+      "epoch": 4.64,
+      "grad_norm": 28.539840698242188,
+      "learning_rate": 3.420445597436056e-07,
+      "loss": 0.348,
+      "step": 148
+    },
+    {
+      "epoch": 4.672,
+      "grad_norm": 28.509275436401367,
+      "learning_rate": 3.0547650421285216e-07,
+      "loss": 0.3466,
+      "step": 149
+    },
+    {
+      "epoch": 4.704,
+      "grad_norm": 28.528343200683594,
+      "learning_rate": 2.7091379149682683e-07,
+      "loss": 0.3469,
+      "step": 150
+    },
+    {
+      "epoch": 4.736,
+      "grad_norm": 28.52490234375,
+      "learning_rate": 2.3837118562592799e-07,
+      "loss": 0.347,
+      "step": 151
+    },
+    {
+      "epoch": 4.768,
+      "grad_norm": 28.492401123046875,
+      "learning_rate": 2.0786258770873647e-07,
+      "loss": 0.3464,
+      "step": 152
+    },
+    {
+      "epoch": 4.8,
+      "grad_norm": 28.494077682495117,
+      "learning_rate": 1.7940102999393194e-07,
+      "loss": 0.346,
+      "step": 153
+    },
+    {
+      "epoch": 4.832,
+      "grad_norm": 28.514745712280273,
+      "learning_rate": 1.5299867030334815e-07,
+      "loss": 0.3465,
+      "step": 154
+    },
+    {
+      "epoch": 4.864,
+      "grad_norm": 28.534265518188477,
+      "learning_rate": 1.286667868385627e-07,
+      "loss": 0.3461,
+      "step": 155
+    },
+    {
+      "epoch": 4.896,
+      "grad_norm": 28.496475219726562,
+      "learning_rate": 1.0641577336322761e-07,
+      "loss": 0.3459,
+      "step": 156
+    },
+    {
+      "epoch": 4.928,
+      "grad_norm": 28.47964859008789,
+      "learning_rate": 8.625513476320291e-08,
+      "loss": 0.346,
+      "step": 157
+    },
+    {
+      "epoch": 4.96,
+      "grad_norm": 28.495473861694336,
+      "learning_rate": 6.819348298638839e-08,
+      "loss": 0.346,
+      "step": 158
+    },
+    {
+      "epoch": 4.992,
+      "grad_norm": 28.4780330657959,
+      "learning_rate": 5.223853336398632e-08,
+      "loss": 0.3459,
+      "step": 159
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 28.506147384643555,
+      "learning_rate": 3.839710131477492e-08,
+      "loss": 0.3455,
+      "step": 160
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 160,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 5383533315883008.0,
+  "train_batch_size": 6,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:179870a0a59e477942539f2619fe597d755c774d04f76f8f7ab68ec8463a07ba
+size 5496

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff