lucadang commited on 7 days ago

Commit

0cbe390

verified ·

1 Parent(s): 3cece86

Upload folder using huggingface_hub

Browse files

Files changed (17) hide show

.gitattributes +1 -0
added_tokens.json +24 -0
chat_template.jinja +54 -0
config.json +58 -0
generation_config.json +14 -0
merges.txt +0 -0
model-00001-of-00004.safetensors +3 -0
model-00002-of-00004.safetensors +3 -0
model-00003-of-00004.safetensors +3 -0
model-00004-of-00004.safetensors +3 -0
model.safetensors.index.json +347 -0
special_tokens_map.json +31 -0
tokenizer.json +3 -0
tokenizer_config.json +207 -0
trainer_state.json +1654 -0
training_args.bin +3 -0
vocab.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

added_tokens.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "</tool_call>": 151658,
+  "<tool_call>": 151657,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

chat_template.jinja ADDED Viewed

	@@ -0,0 +1,54 @@

+{%- if tools %}
+    {{- '<|im_start|>system\n' }}
+    {%- if messages[0]['role'] == 'system' %}
+        {{- messages[0]['content'] }}
+    {%- else %}
+        {{- 'You are Qwen, created by Alibaba Cloud. You are a helpful assistant.' }}
+    {%- endif %}
+    {{- "\n\n# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
+{%- else %}
+    {%- if messages[0]['role'] == 'system' %}
+        {{- '<|im_start|>system\n' + messages[0]['content'] + '<|im_end|>\n' }}
+    {%- else %}
+        {{- '<|im_start|>system\nYou are Qwen, created by Alibaba Cloud. You are a helpful assistant.<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+{%- for message in messages %}
+    {%- if (message.role == "user") or (message.role == "system" and not loop.first) or (message.role == "assistant" and not message.tool_calls) %}
+        {{- '<|im_start|>' + message.role + '\n' + message.content + '<|im_end|>' + '\n' }}
+    {%- elif message.role == "assistant" %}
+        {{- '<|im_start|>' + message.role }}
+        {%- if message.content %}
+            {{- '\n' + message.content }}
+        {%- endif %}
+        {%- for tool_call in message.tool_calls %}
+            {%- if tool_call.function is defined %}
+                {%- set tool_call = tool_call.function %}
+            {%- endif %}
+            {{- '\n<tool_call>\n{"name": "' }}
+            {{- tool_call.name }}
+            {{- '", "arguments": ' }}
+            {{- tool_call.arguments | tojson }}
+            {{- '}\n</tool_call>' }}
+        {%- endfor %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "tool" %}
+        {%- if (loop.index0 == 0) or (messages[loop.index0 - 1].role != "tool") %}
+            {{- '<|im_start|>user' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {{- message.content }}
+        {{- '\n</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant\n' }}
+{%- endif %}

config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "architectures": [
+    "Qwen2ForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "hidden_act": "silu",
+  "hidden_size": 3584,
+  "initializer_range": 0.02,
+  "intermediate_size": 18944,
+  "layer_types": [
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 32768,
+  "max_window_layers": 28,
+  "model_type": "qwen2",
+  "num_attention_heads": 28,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 4,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.53.1",
+  "use_cache": false,
+  "use_sliding_window": false,
+  "vocab_size": 152064
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "bos_token_id": 151643,
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "repetition_penalty": 1.05,
+  "temperature": 0.7,
+  "top_k": 20,
+  "top_p": 0.8,
+  "transformers_version": "4.53.1"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model-00001-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0666227de48831c3ef925ace4a287f6078944d319523555e6db8513a86298e75
+size 4877660776

model-00002-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2cc9b76d4aa974cfd8c20c1be5111a164299d93246b00ca6f0885be8f85c0296
+size 4932751008

model-00003-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2ee032124f263d373c65b3d8e6f05fb03cc59aa02b54f44989f912750b6426d0
+size 4330865200

model-00004-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e09bccfa9a85756b9279c91c785b72904f52bdbc56e7d1d8796eda43d31b16a3
+size 1089994880

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,347 @@

+{
+  "metadata": {
+    "total_parameters": 333312,
+    "total_size": 15231233024
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00004-of-00004.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.norm.weight": "model-00003-of-00004.safetensors"
+  }
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9c5ae00e602b8860cbd784ba82a8aa14e8feecec692e7076590d014d7b7fdafa
+size 11421896

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,207 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1654 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 180,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.016666666666666666,
+      "grad_norm": 10.415586015798965,
+      "learning_rate": 2e-05,
+      "loss": 0.3928,
+      "mean_token_accuracy": 0.8857417702674866,
+      "num_tokens": 20323.0,
+      "step": 1
+    },
+    {
+      "epoch": 0.03333333333333333,
+      "grad_norm": 10.271130520144448,
+      "learning_rate": 1.988888888888889e-05,
+      "loss": 0.4512,
+      "mean_token_accuracy": 0.8707664608955383,
+      "num_tokens": 38981.0,
+      "step": 2
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 8.880344134520183,
+      "learning_rate": 1.977777777777778e-05,
+      "loss": 0.4737,
+      "mean_token_accuracy": 0.8786681890487671,
+      "num_tokens": 57347.0,
+      "step": 3
+    },
+    {
+      "epoch": 0.06666666666666667,
+      "grad_norm": 10.667150634660754,
+      "learning_rate": 1.9666666666666666e-05,
+      "loss": 0.3142,
+      "mean_token_accuracy": 0.9128794074058533,
+      "num_tokens": 76506.0,
+      "step": 4
+    },
+    {
+      "epoch": 0.08333333333333333,
+      "grad_norm": 8.532819211594981,
+      "learning_rate": 1.9555555555555557e-05,
+      "loss": 0.4014,
+      "mean_token_accuracy": 0.8839911222457886,
+      "num_tokens": 94986.0,
+      "step": 5
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 8.472325495649157,
+      "learning_rate": 1.9444444444444445e-05,
+      "loss": 0.2534,
+      "mean_token_accuracy": 0.9193734526634216,
+      "num_tokens": 115823.0,
+      "step": 6
+    },
+    {
+      "epoch": 0.11666666666666667,
+      "grad_norm": 2.303889693461022,
+      "learning_rate": 1.9333333333333333e-05,
+      "loss": 0.2326,
+      "mean_token_accuracy": 0.9243853688240051,
+      "num_tokens": 135340.0,
+      "step": 7
+    },
+    {
+      "epoch": 0.13333333333333333,
+      "grad_norm": 1.9328717095833254,
+      "learning_rate": 1.9222222222222225e-05,
+      "loss": 0.2245,
+      "mean_token_accuracy": 0.9283159375190735,
+      "num_tokens": 155370.0,
+      "step": 8
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 2.822202555840132,
+      "learning_rate": 1.9111111111111113e-05,
+      "loss": 0.2806,
+      "mean_token_accuracy": 0.9093520045280457,
+      "num_tokens": 174000.0,
+      "step": 9
+    },
+    {
+      "epoch": 0.16666666666666666,
+      "grad_norm": 1.5523434880416322,
+      "learning_rate": 1.9e-05,
+      "loss": 0.1998,
+      "mean_token_accuracy": 0.935231626033783,
+      "num_tokens": 195628.0,
+      "step": 10
+    },
+    {
+      "epoch": 0.18333333333333332,
+      "grad_norm": 2.4495550719902126,
+      "learning_rate": 1.888888888888889e-05,
+      "loss": 0.2645,
+      "mean_token_accuracy": 0.9143708944320679,
+      "num_tokens": 215718.0,
+      "step": 11
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 2.271447813557674,
+      "learning_rate": 1.877777777777778e-05,
+      "loss": 0.2667,
+      "mean_token_accuracy": 0.912392795085907,
+      "num_tokens": 234724.0,
+      "step": 12
+    },
+    {
+      "epoch": 0.21666666666666667,
+      "grad_norm": 2.646542053112607,
+      "learning_rate": 1.866666666666667e-05,
+      "loss": 0.287,
+      "mean_token_accuracy": 0.9045044779777527,
+      "num_tokens": 253330.0,
+      "step": 13
+    },
+    {
+      "epoch": 0.23333333333333334,
+      "grad_norm": 2.170153048479742,
+      "learning_rate": 1.8555555555555557e-05,
+      "loss": 0.2268,
+      "mean_token_accuracy": 0.9230367541313171,
+      "num_tokens": 272130.0,
+      "step": 14
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 1.8508062583233198,
+      "learning_rate": 1.8444444444444448e-05,
+      "loss": 0.2228,
+      "mean_token_accuracy": 0.9244704246520996,
+      "num_tokens": 292020.0,
+      "step": 15
+    },
+    {
+      "epoch": 0.26666666666666666,
+      "grad_norm": 1.8770429443477359,
+      "learning_rate": 1.8333333333333333e-05,
+      "loss": 0.236,
+      "mean_token_accuracy": 0.9211986660957336,
+      "num_tokens": 311379.0,
+      "step": 16
+    },
+    {
+      "epoch": 0.2833333333333333,
+      "grad_norm": 1.9148567988930494,
+      "learning_rate": 1.8222222222222224e-05,
+      "loss": 0.2231,
+      "mean_token_accuracy": 0.9292123913764954,
+      "num_tokens": 330451.0,
+      "step": 17
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 1.612193810374408,
+      "learning_rate": 1.8111111111111112e-05,
+      "loss": 0.2204,
+      "mean_token_accuracy": 0.9254255294799805,
+      "num_tokens": 349197.0,
+      "step": 18
+    },
+    {
+      "epoch": 0.31666666666666665,
+      "grad_norm": 1.833360520767258,
+      "learning_rate": 1.8e-05,
+      "loss": 0.255,
+      "mean_token_accuracy": 0.9199110269546509,
+      "num_tokens": 369434.0,
+      "step": 19
+    },
+    {
+      "epoch": 0.3333333333333333,
+      "grad_norm": 1.89838266117527,
+      "learning_rate": 1.7888888888888892e-05,
+      "loss": 0.2617,
+      "mean_token_accuracy": 0.9107837080955505,
+      "num_tokens": 387390.0,
+      "step": 20
+    },
+    {
+      "epoch": 0.35,
+      "grad_norm": 1.689532449309742,
+      "learning_rate": 1.7777777777777777e-05,
+      "loss": 0.2406,
+      "mean_token_accuracy": 0.9206206202507019,
+      "num_tokens": 405986.0,
+      "step": 21
+    },
+    {
+      "epoch": 0.36666666666666664,
+      "grad_norm": 1.6883639816680873,
+      "learning_rate": 1.7666666666666668e-05,
+      "loss": 0.2468,
+      "mean_token_accuracy": 0.9216131567955017,
+      "num_tokens": 424773.0,
+      "step": 22
+    },
+    {
+      "epoch": 0.38333333333333336,
+      "grad_norm": 1.4657652178099831,
+      "learning_rate": 1.7555555555555556e-05,
+      "loss": 0.211,
+      "mean_token_accuracy": 0.9315024018287659,
+      "num_tokens": 444011.0,
+      "step": 23
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 1.2496844817803525,
+      "learning_rate": 1.7444444444444448e-05,
+      "loss": 0.1853,
+      "mean_token_accuracy": 0.9384945631027222,
+      "num_tokens": 464975.0,
+      "step": 24
+    },
+    {
+      "epoch": 0.4166666666666667,
+      "grad_norm": 1.358446086201356,
+      "learning_rate": 1.7333333333333336e-05,
+      "loss": 0.198,
+      "mean_token_accuracy": 0.9333889484405518,
+      "num_tokens": 486425.0,
+      "step": 25
+    },
+    {
+      "epoch": 0.43333333333333335,
+      "grad_norm": 0.9431555050834606,
+      "learning_rate": 1.7222222222222224e-05,
+      "loss": 0.1392,
+      "mean_token_accuracy": 0.9550256729125977,
+      "num_tokens": 509794.0,
+      "step": 26
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 1.9793286155892176,
+      "learning_rate": 1.7111111111111112e-05,
+      "loss": 0.2719,
+      "mean_token_accuracy": 0.9111931324005127,
+      "num_tokens": 527991.0,
+      "step": 27
+    },
+    {
+      "epoch": 0.4666666666666667,
+      "grad_norm": 1.5957545211368038,
+      "learning_rate": 1.7e-05,
+      "loss": 0.1977,
+      "mean_token_accuracy": 0.9349620342254639,
+      "num_tokens": 547103.0,
+      "step": 28
+    },
+    {
+      "epoch": 0.48333333333333334,
+      "grad_norm": 3.1522248529429553,
+      "learning_rate": 1.688888888888889e-05,
+      "loss": 0.1857,
+      "mean_token_accuracy": 0.9351325631141663,
+      "num_tokens": 566491.0,
+      "step": 29
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 1.5505396336667892,
+      "learning_rate": 1.677777777777778e-05,
+      "loss": 0.2239,
+      "mean_token_accuracy": 0.924814760684967,
+      "num_tokens": 585075.0,
+      "step": 30
+    },
+    {
+      "epoch": 0.5166666666666667,
+      "grad_norm": 1.4311688305606354,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 0.2077,
+      "mean_token_accuracy": 0.9314337968826294,
+      "num_tokens": 605808.0,
+      "step": 31
+    },
+    {
+      "epoch": 0.5333333333333333,
+      "grad_norm": 1.2265884485285432,
+      "learning_rate": 1.6555555555555556e-05,
+      "loss": 0.1881,
+      "mean_token_accuracy": 0.9358243942260742,
+      "num_tokens": 626059.0,
+      "step": 32
+    },
+    {
+      "epoch": 0.55,
+      "grad_norm": 0.8079478385329993,
+      "learning_rate": 1.6444444444444444e-05,
+      "loss": 0.1233,
+      "mean_token_accuracy": 0.9597011208534241,
+      "num_tokens": 650342.0,
+      "step": 33
+    },
+    {
+      "epoch": 0.5666666666666667,
+      "grad_norm": 1.2783396203778647,
+      "learning_rate": 1.6333333333333335e-05,
+      "loss": 0.2127,
+      "mean_token_accuracy": 0.9305210709571838,
+      "num_tokens": 670263.0,
+      "step": 34
+    },
+    {
+      "epoch": 0.5833333333333334,
+      "grad_norm": 0.9877687041686216,
+      "learning_rate": 1.6222222222222223e-05,
+      "loss": 0.1746,
+      "mean_token_accuracy": 0.9428037405014038,
+      "num_tokens": 691344.0,
+      "step": 35
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 1.5309480298196683,
+      "learning_rate": 1.6111111111111115e-05,
+      "loss": 0.2611,
+      "mean_token_accuracy": 0.9084930419921875,
+      "num_tokens": 709722.0,
+      "step": 36
+    },
+    {
+      "epoch": 0.6166666666666667,
+      "grad_norm": 1.3958581151438867,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 0.252,
+      "mean_token_accuracy": 0.9160849452018738,
+      "num_tokens": 729659.0,
+      "step": 37
+    },
+    {
+      "epoch": 0.6333333333333333,
+      "grad_norm": 1.4234777494453432,
+      "learning_rate": 1.588888888888889e-05,
+      "loss": 0.1948,
+      "mean_token_accuracy": 0.9306625723838806,
+      "num_tokens": 747899.0,
+      "step": 38
+    },
+    {
+      "epoch": 0.65,
+      "grad_norm": 1.1918567687934656,
+      "learning_rate": 1.577777777777778e-05,
+      "loss": 0.1923,
+      "mean_token_accuracy": 0.9355297088623047,
+      "num_tokens": 767996.0,
+      "step": 39
+    },
+    {
+      "epoch": 0.6666666666666666,
+      "grad_norm": 1.4254154834768535,
+      "learning_rate": 1.5666666666666667e-05,
+      "loss": 0.2187,
+      "mean_token_accuracy": 0.9221748113632202,
+      "num_tokens": 786672.0,
+      "step": 40
+    },
+    {
+      "epoch": 0.6833333333333333,
+      "grad_norm": 1.2363741195385614,
+      "learning_rate": 1.555555555555556e-05,
+      "loss": 0.1894,
+      "mean_token_accuracy": 0.933707058429718,
+      "num_tokens": 806857.0,
+      "step": 41
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 1.6616933320839042,
+      "learning_rate": 1.5444444444444446e-05,
+      "loss": 0.2601,
+      "mean_token_accuracy": 0.912670910358429,
+      "num_tokens": 825411.0,
+      "step": 42
+    },
+    {
+      "epoch": 0.7166666666666667,
+      "grad_norm": 1.1594596021236696,
+      "learning_rate": 1.5333333333333334e-05,
+      "loss": 0.197,
+      "mean_token_accuracy": 0.9320076107978821,
+      "num_tokens": 845293.0,
+      "step": 43
+    },
+    {
+      "epoch": 0.7333333333333333,
+      "grad_norm": 1.255447405006153,
+      "learning_rate": 1.5222222222222223e-05,
+      "loss": 0.2177,
+      "mean_token_accuracy": 0.9241234660148621,
+      "num_tokens": 864080.0,
+      "step": 44
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 1.3555481042529305,
+      "learning_rate": 1.5111111111111112e-05,
+      "loss": 0.2464,
+      "mean_token_accuracy": 0.9197713136672974,
+      "num_tokens": 882551.0,
+      "step": 45
+    },
+    {
+      "epoch": 0.7666666666666667,
+      "grad_norm": 1.5287024940858407,
+      "learning_rate": 1.5000000000000002e-05,
+      "loss": 0.2669,
+      "mean_token_accuracy": 0.9085003733634949,
+      "num_tokens": 901006.0,
+      "step": 46
+    },
+    {
+      "epoch": 0.7833333333333333,
+      "grad_norm": 1.0365262523875451,
+      "learning_rate": 1.488888888888889e-05,
+      "loss": 0.1867,
+      "mean_token_accuracy": 0.9368327260017395,
+      "num_tokens": 920813.0,
+      "step": 47
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 1.1161600400033647,
+      "learning_rate": 1.477777777777778e-05,
+      "loss": 0.2144,
+      "mean_token_accuracy": 0.9287330508232117,
+      "num_tokens": 940941.0,
+      "step": 48
+    },
+    {
+      "epoch": 0.8166666666666667,
+      "grad_norm": 1.2654313555050083,
+      "learning_rate": 1.4666666666666666e-05,
+      "loss": 0.181,
+      "mean_token_accuracy": 0.9393802881240845,
+      "num_tokens": 960656.0,
+      "step": 49
+    },
+    {
+      "epoch": 0.8333333333333334,
+      "grad_norm": 1.1999839375524808,
+      "learning_rate": 1.4555555555555556e-05,
+      "loss": 0.2165,
+      "mean_token_accuracy": 0.924753725528717,
+      "num_tokens": 979901.0,
+      "step": 50
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 1.4358719832483007,
+      "learning_rate": 1.4444444444444446e-05,
+      "loss": 0.2568,
+      "mean_token_accuracy": 0.9150856137275696,
+      "num_tokens": 997293.0,
+      "step": 51
+    },
+    {
+      "epoch": 0.8666666666666667,
+      "grad_norm": 0.907854371432327,
+      "learning_rate": 1.4333333333333334e-05,
+      "loss": 0.1773,
+      "mean_token_accuracy": 0.9409731030464172,
+      "num_tokens": 1018152.0,
+      "step": 52
+    },
+    {
+      "epoch": 0.8833333333333333,
+      "grad_norm": 1.3658237813204563,
+      "learning_rate": 1.4222222222222224e-05,
+      "loss": 0.2182,
+      "mean_token_accuracy": 0.9189878702163696,
+      "num_tokens": 1035916.0,
+      "step": 53
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 1.0227797653853614,
+      "learning_rate": 1.4111111111111113e-05,
+      "loss": 0.1937,
+      "mean_token_accuracy": 0.9301167130470276,
+      "num_tokens": 1055995.0,
+      "step": 54
+    },
+    {
+      "epoch": 0.9166666666666666,
+      "grad_norm": 1.002167288276357,
+      "learning_rate": 1.4e-05,
+      "loss": 0.1628,
+      "mean_token_accuracy": 0.9427170753479004,
+      "num_tokens": 1076188.0,
+      "step": 55
+    },
+    {
+      "epoch": 0.9333333333333333,
+      "grad_norm": 1.1799372070517915,
+      "learning_rate": 1.388888888888889e-05,
+      "loss": 0.2145,
+      "mean_token_accuracy": 0.925633430480957,
+      "num_tokens": 1095323.0,
+      "step": 56
+    },
+    {
+      "epoch": 0.95,
+      "grad_norm": 1.9565071620010974,
+      "learning_rate": 1.377777777777778e-05,
+      "loss": 0.2276,
+      "mean_token_accuracy": 0.923713207244873,
+      "num_tokens": 1113823.0,
+      "step": 57
+    },
+    {
+      "epoch": 0.9666666666666667,
+      "grad_norm": 1.3720630422421265,
+      "learning_rate": 1.3666666666666667e-05,
+      "loss": 0.2254,
+      "mean_token_accuracy": 0.9204455018043518,
+      "num_tokens": 1131913.0,
+      "step": 58
+    },
+    {
+      "epoch": 0.9833333333333333,
+      "grad_norm": 1.2312026050291756,
+      "learning_rate": 1.3555555555555557e-05,
+      "loss": 0.2288,
+      "mean_token_accuracy": 0.9231975078582764,
+      "num_tokens": 1150068.0,
+      "step": 59
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 1.0535788172725804,
+      "learning_rate": 1.3444444444444447e-05,
+      "loss": 0.1853,
+      "mean_token_accuracy": 0.9440000057220459,
+      "num_tokens": 1165110.0,
+      "step": 60
+    },
+    {
+      "epoch": 1.0166666666666666,
+      "grad_norm": 1.1158002070455915,
+      "learning_rate": 1.3333333333333333e-05,
+      "loss": 0.1817,
+      "mean_token_accuracy": 0.937036395072937,
+      "num_tokens": 1183696.0,
+      "step": 61
+    },
+    {
+      "epoch": 1.0333333333333334,
+      "grad_norm": 1.0736249727571867,
+      "learning_rate": 1.3222222222222223e-05,
+      "loss": 0.1726,
+      "mean_token_accuracy": 0.936906635761261,
+      "num_tokens": 1201818.0,
+      "step": 62
+    },
+    {
+      "epoch": 1.05,
+      "grad_norm": 0.9326362452347312,
+      "learning_rate": 1.3111111111111113e-05,
+      "loss": 0.1497,
+      "mean_token_accuracy": 0.9461251497268677,
+      "num_tokens": 1222105.0,
+      "step": 63
+    },
+    {
+      "epoch": 1.0666666666666667,
+      "grad_norm": 1.0392083191471302,
+      "learning_rate": 1.3000000000000001e-05,
+      "loss": 0.1642,
+      "mean_token_accuracy": 0.9368287920951843,
+      "num_tokens": 1241483.0,
+      "step": 64
+    },
+    {
+      "epoch": 1.0833333333333333,
+      "grad_norm": 1.147040989505759,
+      "learning_rate": 1.288888888888889e-05,
+      "loss": 0.1752,
+      "mean_token_accuracy": 0.9369705319404602,
+      "num_tokens": 1260457.0,
+      "step": 65
+    },
+    {
+      "epoch": 1.1,
+      "grad_norm": 0.9805982619164562,
+      "learning_rate": 1.2777777777777777e-05,
+      "loss": 0.1541,
+      "mean_token_accuracy": 0.9449800252914429,
+      "num_tokens": 1279517.0,
+      "step": 66
+    },
+    {
+      "epoch": 1.1166666666666667,
+      "grad_norm": 0.9058555751871202,
+      "learning_rate": 1.2666666666666667e-05,
+      "loss": 0.136,
+      "mean_token_accuracy": 0.9510924816131592,
+      "num_tokens": 1299484.0,
+      "step": 67
+    },
+    {
+      "epoch": 1.1333333333333333,
+      "grad_norm": 0.8685189058450895,
+      "learning_rate": 1.2555555555555557e-05,
+      "loss": 0.125,
+      "mean_token_accuracy": 0.9575818777084351,
+      "num_tokens": 1319473.0,
+      "step": 68
+    },
+    {
+      "epoch": 1.15,
+      "grad_norm": 0.7442438614909151,
+      "learning_rate": 1.2444444444444446e-05,
+      "loss": 0.1179,
+      "mean_token_accuracy": 0.957948625087738,
+      "num_tokens": 1341520.0,
+      "step": 69
+    },
+    {
+      "epoch": 1.1666666666666667,
+      "grad_norm": 1.2278003815150234,
+      "learning_rate": 1.2333333333333334e-05,
+      "loss": 0.186,
+      "mean_token_accuracy": 0.9343335628509521,
+      "num_tokens": 1359186.0,
+      "step": 70
+    },
+    {
+      "epoch": 1.1833333333333333,
+      "grad_norm": 1.0420462136657762,
+      "learning_rate": 1.2222222222222224e-05,
+      "loss": 0.153,
+      "mean_token_accuracy": 0.9469709396362305,
+      "num_tokens": 1378315.0,
+      "step": 71
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 1.0380048193076985,
+      "learning_rate": 1.211111111111111e-05,
+      "loss": 0.1436,
+      "mean_token_accuracy": 0.9483470916748047,
+      "num_tokens": 1398153.0,
+      "step": 72
+    },
+    {
+      "epoch": 1.2166666666666668,
+      "grad_norm": 1.0084621189290743,
+      "learning_rate": 1.2e-05,
+      "loss": 0.1615,
+      "mean_token_accuracy": 0.9417263865470886,
+      "num_tokens": 1417629.0,
+      "step": 73
+    },
+    {
+      "epoch": 1.2333333333333334,
+      "grad_norm": 0.9505316501027468,
+      "learning_rate": 1.188888888888889e-05,
+      "loss": 0.1445,
+      "mean_token_accuracy": 0.9472274780273438,
+      "num_tokens": 1437025.0,
+      "step": 74
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 1.1884286204876424,
+      "learning_rate": 1.177777777777778e-05,
+      "loss": 0.1698,
+      "mean_token_accuracy": 0.9374273419380188,
+      "num_tokens": 1455251.0,
+      "step": 75
+    },
+    {
+      "epoch": 1.2666666666666666,
+      "grad_norm": 1.2379531503777974,
+      "learning_rate": 1.1666666666666668e-05,
+      "loss": 0.1899,
+      "mean_token_accuracy": 0.9276366233825684,
+      "num_tokens": 1473505.0,
+      "step": 76
+    },
+    {
+      "epoch": 1.2833333333333332,
+      "grad_norm": 0.9831497253026844,
+      "learning_rate": 1.1555555555555556e-05,
+      "loss": 0.159,
+      "mean_token_accuracy": 0.9436038732528687,
+      "num_tokens": 1493095.0,
+      "step": 77
+    },
+    {
+      "epoch": 1.3,
+      "grad_norm": 0.9439881364034777,
+      "learning_rate": 1.1444444444444444e-05,
+      "loss": 0.1398,
+      "mean_token_accuracy": 0.951481282711029,
+      "num_tokens": 1512761.0,
+      "step": 78
+    },
+    {
+      "epoch": 1.3166666666666667,
+      "grad_norm": 1.1347468457271879,
+      "learning_rate": 1.1333333333333334e-05,
+      "loss": 0.1735,
+      "mean_token_accuracy": 0.9395575523376465,
+      "num_tokens": 1531560.0,
+      "step": 79
+    },
+    {
+      "epoch": 1.3333333333333333,
+      "grad_norm": 1.3653117110046264,
+      "learning_rate": 1.1222222222222224e-05,
+      "loss": 0.2011,
+      "mean_token_accuracy": 0.9258978962898254,
+      "num_tokens": 1549916.0,
+      "step": 80
+    },
+    {
+      "epoch": 1.35,
+      "grad_norm": 0.9813633271839456,
+      "learning_rate": 1.1111111111111113e-05,
+      "loss": 0.1372,
+      "mean_token_accuracy": 0.9503588676452637,
+      "num_tokens": 1571334.0,
+      "step": 81
+    },
+    {
+      "epoch": 1.3666666666666667,
+      "grad_norm": 0.7962753001770728,
+      "learning_rate": 1.1000000000000001e-05,
+      "loss": 0.1172,
+      "mean_token_accuracy": 0.9567482471466064,
+      "num_tokens": 1592652.0,
+      "step": 82
+    },
+    {
+      "epoch": 1.3833333333333333,
+      "grad_norm": 0.913780453529574,
+      "learning_rate": 1.088888888888889e-05,
+      "loss": 0.1236,
+      "mean_token_accuracy": 0.9562375545501709,
+      "num_tokens": 1612736.0,
+      "step": 83
+    },
+    {
+      "epoch": 1.4,
+      "grad_norm": 1.0378983131114818,
+      "learning_rate": 1.0777777777777778e-05,
+      "loss": 0.1517,
+      "mean_token_accuracy": 0.9468337297439575,
+      "num_tokens": 1631698.0,
+      "step": 84
+    },
+    {
+      "epoch": 1.4166666666666667,
+      "grad_norm": 0.8763910012325973,
+      "learning_rate": 1.0666666666666667e-05,
+      "loss": 0.1366,
+      "mean_token_accuracy": 0.9536712169647217,
+      "num_tokens": 1651859.0,
+      "step": 85
+    },
+    {
+      "epoch": 1.4333333333333333,
+      "grad_norm": 0.7078652833933885,
+      "learning_rate": 1.0555555555555557e-05,
+      "loss": 0.1024,
+      "mean_token_accuracy": 0.9619000554084778,
+      "num_tokens": 1673006.0,
+      "step": 86
+    },
+    {
+      "epoch": 1.45,
+      "grad_norm": 0.8659401761097084,
+      "learning_rate": 1.0444444444444445e-05,
+      "loss": 0.1254,
+      "mean_token_accuracy": 0.9535650014877319,
+      "num_tokens": 1692728.0,
+      "step": 87
+    },
+    {
+      "epoch": 1.4666666666666668,
+      "grad_norm": 0.8708809194871703,
+      "learning_rate": 1.0333333333333335e-05,
+      "loss": 0.1439,
+      "mean_token_accuracy": 0.9477262496948242,
+      "num_tokens": 1712396.0,
+      "step": 88
+    },
+    {
+      "epoch": 1.4833333333333334,
+      "grad_norm": 1.012787064893325,
+      "learning_rate": 1.0222222222222223e-05,
+      "loss": 0.1418,
+      "mean_token_accuracy": 0.9502722024917603,
+      "num_tokens": 1732251.0,
+      "step": 89
+    },
+    {
+      "epoch": 1.5,
+      "grad_norm": 1.20605467124662,
+      "learning_rate": 1.0111111111111111e-05,
+      "loss": 0.1648,
+      "mean_token_accuracy": 0.9385513067245483,
+      "num_tokens": 1751139.0,
+      "step": 90
+    },
+    {
+      "epoch": 1.5166666666666666,
+      "grad_norm": 0.7709893587047212,
+      "learning_rate": 1e-05,
+      "loss": 0.1143,
+      "mean_token_accuracy": 0.9584763050079346,
+      "num_tokens": 1772929.0,
+      "step": 91
+    },
+    {
+      "epoch": 1.5333333333333332,
+      "grad_norm": 0.9143355507406298,
+      "learning_rate": 9.88888888888889e-06,
+      "loss": 0.1332,
+      "mean_token_accuracy": 0.9550284743309021,
+      "num_tokens": 1792455.0,
+      "step": 92
+    },
+    {
+      "epoch": 1.55,
+      "grad_norm": 1.156665256897338,
+      "learning_rate": 9.777777777777779e-06,
+      "loss": 0.1452,
+      "mean_token_accuracy": 0.9457477927207947,
+      "num_tokens": 1810962.0,
+      "step": 93
+    },
+    {
+      "epoch": 1.5666666666666667,
+      "grad_norm": 1.0204063013809,
+      "learning_rate": 9.666666666666667e-06,
+      "loss": 0.1504,
+      "mean_token_accuracy": 0.944669783115387,
+      "num_tokens": 1830171.0,
+      "step": 94
+    },
+    {
+      "epoch": 1.5833333333333335,
+      "grad_norm": 1.13940818302726,
+      "learning_rate": 9.555555555555556e-06,
+      "loss": 0.1624,
+      "mean_token_accuracy": 0.9425520896911621,
+      "num_tokens": 1849120.0,
+      "step": 95
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 1.1239662031696884,
+      "learning_rate": 9.444444444444445e-06,
+      "loss": 0.169,
+      "mean_token_accuracy": 0.941411018371582,
+      "num_tokens": 1868698.0,
+      "step": 96
+    },
+    {
+      "epoch": 1.6166666666666667,
+      "grad_norm": 0.9337438130011902,
+      "learning_rate": 9.333333333333334e-06,
+      "loss": 0.1127,
+      "mean_token_accuracy": 0.9583436846733093,
+      "num_tokens": 1889793.0,
+      "step": 97
+    },
+    {
+      "epoch": 1.6333333333333333,
+      "grad_norm": 1.2548785873636994,
+      "learning_rate": 9.222222222222224e-06,
+      "loss": 0.1874,
+      "mean_token_accuracy": 0.9316017031669617,
+      "num_tokens": 1907473.0,
+      "step": 98
+    },
+    {
+      "epoch": 1.65,
+      "grad_norm": 1.1746557760923275,
+      "learning_rate": 9.111111111111112e-06,
+      "loss": 0.1915,
+      "mean_token_accuracy": 0.9325609803199768,
+      "num_tokens": 1926318.0,
+      "step": 99
+    },
+    {
+      "epoch": 1.6666666666666665,
+      "grad_norm": 0.9306519879019831,
+      "learning_rate": 9e-06,
+      "loss": 0.1331,
+      "mean_token_accuracy": 0.9495912790298462,
+      "num_tokens": 1946708.0,
+      "step": 100
+    },
+    {
+      "epoch": 1.6833333333333333,
+      "grad_norm": 0.9446275954390885,
+      "learning_rate": 8.888888888888888e-06,
+      "loss": 0.1434,
+      "mean_token_accuracy": 0.9497577548027039,
+      "num_tokens": 1965342.0,
+      "step": 101
+    },
+    {
+      "epoch": 1.7,
+      "grad_norm": 0.9234966150999687,
+      "learning_rate": 8.777777777777778e-06,
+      "loss": 0.1376,
+      "mean_token_accuracy": 0.9505731463432312,
+      "num_tokens": 1985111.0,
+      "step": 102
+    },
+    {
+      "epoch": 1.7166666666666668,
+      "grad_norm": 0.9537386059477831,
+      "learning_rate": 8.666666666666668e-06,
+      "loss": 0.1376,
+      "mean_token_accuracy": 0.9508804678916931,
+      "num_tokens": 2004615.0,
+      "step": 103
+    },
+    {
+      "epoch": 1.7333333333333334,
+      "grad_norm": 0.9913708002681217,
+      "learning_rate": 8.555555555555556e-06,
+      "loss": 0.1628,
+      "mean_token_accuracy": 0.9396049380302429,
+      "num_tokens": 2023853.0,
+      "step": 104
+    },
+    {
+      "epoch": 1.75,
+      "grad_norm": 1.1848216877825122,
+      "learning_rate": 8.444444444444446e-06,
+      "loss": 0.1723,
+      "mean_token_accuracy": 0.9336273670196533,
+      "num_tokens": 2041684.0,
+      "step": 105
+    },
+    {
+      "epoch": 1.7666666666666666,
+      "grad_norm": 0.9897585477322013,
+      "learning_rate": 8.333333333333334e-06,
+      "loss": 0.14,
+      "mean_token_accuracy": 0.9489489197731018,
+      "num_tokens": 2060735.0,
+      "step": 106
+    },
+    {
+      "epoch": 1.7833333333333332,
+      "grad_norm": 0.6769645173431437,
+      "learning_rate": 8.222222222222222e-06,
+      "loss": 0.1125,
+      "mean_token_accuracy": 0.9590517282485962,
+      "num_tokens": 2081676.0,
+      "step": 107
+    },
+    {
+      "epoch": 1.8,
+      "grad_norm": 0.9941938323842807,
+      "learning_rate": 8.111111111111112e-06,
+      "loss": 0.1558,
+      "mean_token_accuracy": 0.9427565932273865,
+      "num_tokens": 2100126.0,
+      "step": 108
+    },
+    {
+      "epoch": 1.8166666666666667,
+      "grad_norm": 1.023487530043029,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.1498,
+      "mean_token_accuracy": 0.9459511041641235,
+      "num_tokens": 2118412.0,
+      "step": 109
+    },
+    {
+      "epoch": 1.8333333333333335,
+      "grad_norm": 1.0442509083619982,
+      "learning_rate": 7.88888888888889e-06,
+      "loss": 0.1528,
+      "mean_token_accuracy": 0.9426274299621582,
+      "num_tokens": 2136945.0,
+      "step": 110
+    },
+    {
+      "epoch": 1.85,
+      "grad_norm": 0.7382938848577654,
+      "learning_rate": 7.77777777777778e-06,
+      "loss": 0.1069,
+      "mean_token_accuracy": 0.9606086611747742,
+      "num_tokens": 2158142.0,
+      "step": 111
+    },
+    {
+      "epoch": 1.8666666666666667,
+      "grad_norm": 1.013004919544077,
+      "learning_rate": 7.666666666666667e-06,
+      "loss": 0.1301,
+      "mean_token_accuracy": 0.9497557282447815,
+      "num_tokens": 2176933.0,
+      "step": 112
+    },
+    {
+      "epoch": 1.8833333333333333,
+      "grad_norm": 1.0119787562037492,
+      "learning_rate": 7.555555555555556e-06,
+      "loss": 0.1566,
+      "mean_token_accuracy": 0.9420549869537354,
+      "num_tokens": 2196697.0,
+      "step": 113
+    },
+    {
+      "epoch": 1.9,
+      "grad_norm": 0.9854931097065066,
+      "learning_rate": 7.444444444444445e-06,
+      "loss": 0.1534,
+      "mean_token_accuracy": 0.9418057799339294,
+      "num_tokens": 2215923.0,
+      "step": 114
+    },
+    {
+      "epoch": 1.9166666666666665,
+      "grad_norm": 0.7144804965252481,
+      "learning_rate": 7.333333333333333e-06,
+      "loss": 0.1037,
+      "mean_token_accuracy": 0.9651133418083191,
+      "num_tokens": 2236922.0,
+      "step": 115
+    },
+    {
+      "epoch": 1.9333333333333333,
+      "grad_norm": 0.7694761724271274,
+      "learning_rate": 7.222222222222223e-06,
+      "loss": 0.1138,
+      "mean_token_accuracy": 0.9599701762199402,
+      "num_tokens": 2258029.0,
+      "step": 116
+    },
+    {
+      "epoch": 1.95,
+      "grad_norm": 0.9606224762156166,
+      "learning_rate": 7.111111111111112e-06,
+      "loss": 0.1588,
+      "mean_token_accuracy": 0.9443244338035583,
+      "num_tokens": 2277091.0,
+      "step": 117
+    },
+    {
+      "epoch": 1.9666666666666668,
+      "grad_norm": 1.0937626624760368,
+      "learning_rate": 7e-06,
+      "loss": 0.1532,
+      "mean_token_accuracy": 0.9443029761314392,
+      "num_tokens": 2296417.0,
+      "step": 118
+    },
+    {
+      "epoch": 1.9833333333333334,
+      "grad_norm": 1.0711892173260553,
+      "learning_rate": 6.88888888888889e-06,
+      "loss": 0.1595,
+      "mean_token_accuracy": 0.9443521499633789,
+      "num_tokens": 2315489.0,
+      "step": 119
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.8768653402030852,
+      "learning_rate": 6.777777777777779e-06,
+      "loss": 0.1165,
+      "mean_token_accuracy": 0.9577861428260803,
+      "num_tokens": 2329544.0,
+      "step": 120
+    },
+    {
+      "epoch": 2.0166666666666666,
+      "grad_norm": 0.6251281839168465,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 0.0771,
+      "mean_token_accuracy": 0.9738717079162598,
+      "num_tokens": 2351006.0,
+      "step": 121
+    },
+    {
+      "epoch": 2.033333333333333,
+      "grad_norm": 0.6284390720490242,
+      "learning_rate": 6.555555555555556e-06,
+      "loss": 0.0833,
+      "mean_token_accuracy": 0.9683251976966858,
+      "num_tokens": 2371636.0,
+      "step": 122
+    },
+    {
+      "epoch": 2.05,
+      "grad_norm": 0.6826995248721669,
+      "learning_rate": 6.444444444444445e-06,
+      "loss": 0.093,
+      "mean_token_accuracy": 0.9684882760047913,
+      "num_tokens": 2391742.0,
+      "step": 123
+    },
+    {
+      "epoch": 2.066666666666667,
+      "grad_norm": 0.6985483544899995,
+      "learning_rate": 6.333333333333333e-06,
+      "loss": 0.0874,
+      "mean_token_accuracy": 0.9688146710395813,
+      "num_tokens": 2411562.0,
+      "step": 124
+    },
+    {
+      "epoch": 2.0833333333333335,
+      "grad_norm": 0.7179963812086702,
+      "learning_rate": 6.222222222222223e-06,
+      "loss": 0.0947,
+      "mean_token_accuracy": 0.9637842774391174,
+      "num_tokens": 2430887.0,
+      "step": 125
+    },
+    {
+      "epoch": 2.1,
+      "grad_norm": 0.7340775462108364,
+      "learning_rate": 6.111111111111112e-06,
+      "loss": 0.0882,
+      "mean_token_accuracy": 0.968779444694519,
+      "num_tokens": 2450324.0,
+      "step": 126
+    },
+    {
+      "epoch": 2.1166666666666667,
+      "grad_norm": 0.6971941014215697,
+      "learning_rate": 6e-06,
+      "loss": 0.0865,
+      "mean_token_accuracy": 0.966270387172699,
+      "num_tokens": 2470605.0,
+      "step": 127
+    },
+    {
+      "epoch": 2.1333333333333333,
+      "grad_norm": 0.7708208981885679,
+      "learning_rate": 5.88888888888889e-06,
+      "loss": 0.0936,
+      "mean_token_accuracy": 0.9645907282829285,
+      "num_tokens": 2489281.0,
+      "step": 128
+    },
+    {
+      "epoch": 2.15,
+      "grad_norm": 1.063746925464334,
+      "learning_rate": 5.777777777777778e-06,
+      "loss": 0.1047,
+      "mean_token_accuracy": 0.9620683789253235,
+      "num_tokens": 2508213.0,
+      "step": 129
+    },
+    {
+      "epoch": 2.1666666666666665,
+      "grad_norm": 0.85374641121885,
+      "learning_rate": 5.666666666666667e-06,
+      "loss": 0.0934,
+      "mean_token_accuracy": 0.9634836316108704,
+      "num_tokens": 2526747.0,
+      "step": 130
+    },
+    {
+      "epoch": 2.183333333333333,
+      "grad_norm": 0.8620800950130304,
+      "learning_rate": 5.555555555555557e-06,
+      "loss": 0.1008,
+      "mean_token_accuracy": 0.9645389914512634,
+      "num_tokens": 2545705.0,
+      "step": 131
+    },
+    {
+      "epoch": 2.2,
+      "grad_norm": 0.7793400238647186,
+      "learning_rate": 5.444444444444445e-06,
+      "loss": 0.0896,
+      "mean_token_accuracy": 0.966309130191803,
+      "num_tokens": 2566036.0,
+      "step": 132
+    },
+    {
+      "epoch": 2.216666666666667,
+      "grad_norm": 0.8854628019833792,
+      "learning_rate": 5.333333333333334e-06,
+      "loss": 0.0883,
+      "mean_token_accuracy": 0.9674826264381409,
+      "num_tokens": 2584575.0,
+      "step": 133
+    },
+    {
+      "epoch": 2.2333333333333334,
+      "grad_norm": 0.9099694952637853,
+      "learning_rate": 5.2222222222222226e-06,
+      "loss": 0.1028,
+      "mean_token_accuracy": 0.9623646140098572,
+      "num_tokens": 2603271.0,
+      "step": 134
+    },
+    {
+      "epoch": 2.25,
+      "grad_norm": 1.2415591598728333,
+      "learning_rate": 5.1111111111111115e-06,
+      "loss": 0.13,
+      "mean_token_accuracy": 0.951812744140625,
+      "num_tokens": 2620691.0,
+      "step": 135
+    },
+    {
+      "epoch": 2.2666666666666666,
+      "grad_norm": 0.8805897450359303,
+      "learning_rate": 5e-06,
+      "loss": 0.0901,
+      "mean_token_accuracy": 0.9666962623596191,
+      "num_tokens": 2640489.0,
+      "step": 136
+    },
+    {
+      "epoch": 2.283333333333333,
+      "grad_norm": 0.6831112090735907,
+      "learning_rate": 4.888888888888889e-06,
+      "loss": 0.0719,
+      "mean_token_accuracy": 0.9733719825744629,
+      "num_tokens": 2661139.0,
+      "step": 137
+    },
+    {
+      "epoch": 2.3,
+      "grad_norm": 0.9359785185685812,
+      "learning_rate": 4.777777777777778e-06,
+      "loss": 0.0979,
+      "mean_token_accuracy": 0.9644399881362915,
+      "num_tokens": 2681134.0,
+      "step": 138
+    },
+    {
+      "epoch": 2.3166666666666664,
+      "grad_norm": 0.6982783617868149,
+      "learning_rate": 4.666666666666667e-06,
+      "loss": 0.0802,
+      "mean_token_accuracy": 0.9708402156829834,
+      "num_tokens": 2701418.0,
+      "step": 139
+    },
+    {
+      "epoch": 2.3333333333333335,
+      "grad_norm": 0.8356985024729287,
+      "learning_rate": 4.555555555555556e-06,
+      "loss": 0.1037,
+      "mean_token_accuracy": 0.9611542820930481,
+      "num_tokens": 2720773.0,
+      "step": 140
+    },
+    {
+      "epoch": 2.35,
+      "grad_norm": 0.9862372490871846,
+      "learning_rate": 4.444444444444444e-06,
+      "loss": 0.1067,
+      "mean_token_accuracy": 0.9594425559043884,
+      "num_tokens": 2739428.0,
+      "step": 141
+    },
+    {
+      "epoch": 2.3666666666666667,
+      "grad_norm": 0.623294732436491,
+      "learning_rate": 4.333333333333334e-06,
+      "loss": 0.0695,
+      "mean_token_accuracy": 0.9733567833900452,
+      "num_tokens": 2760440.0,
+      "step": 142
+    },
+    {
+      "epoch": 2.3833333333333333,
+      "grad_norm": 0.7322830332993291,
+      "learning_rate": 4.222222222222223e-06,
+      "loss": 0.0889,
+      "mean_token_accuracy": 0.9665079116821289,
+      "num_tokens": 2780009.0,
+      "step": 143
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 0.8143415765985169,
+      "learning_rate": 4.111111111111111e-06,
+      "loss": 0.0951,
+      "mean_token_accuracy": 0.9636101126670837,
+      "num_tokens": 2799989.0,
+      "step": 144
+    },
+    {
+      "epoch": 2.4166666666666665,
+      "grad_norm": 0.546869291947266,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.0651,
+      "mean_token_accuracy": 0.9757785201072693,
+      "num_tokens": 2821423.0,
+      "step": 145
+    },
+    {
+      "epoch": 2.4333333333333336,
+      "grad_norm": 0.8270848313125879,
+      "learning_rate": 3.88888888888889e-06,
+      "loss": 0.0915,
+      "mean_token_accuracy": 0.9669610857963562,
+      "num_tokens": 2840604.0,
+      "step": 146
+    },
+    {
+      "epoch": 2.45,
+      "grad_norm": 0.8517198133246286,
+      "learning_rate": 3.777777777777778e-06,
+      "loss": 0.0932,
+      "mean_token_accuracy": 0.964799702167511,
+      "num_tokens": 2859437.0,
+      "step": 147
+    },
+    {
+      "epoch": 2.466666666666667,
+      "grad_norm": 0.9674954444130963,
+      "learning_rate": 3.6666666666666666e-06,
+      "loss": 0.0995,
+      "mean_token_accuracy": 0.9642043709754944,
+      "num_tokens": 2878635.0,
+      "step": 148
+    },
+    {
+      "epoch": 2.4833333333333334,
+      "grad_norm": 0.8923432338281196,
+      "learning_rate": 3.555555555555556e-06,
+      "loss": 0.107,
+      "mean_token_accuracy": 0.9613018035888672,
+      "num_tokens": 2897866.0,
+      "step": 149
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 0.5948440836171763,
+      "learning_rate": 3.444444444444445e-06,
+      "loss": 0.0722,
+      "mean_token_accuracy": 0.9716657996177673,
+      "num_tokens": 2920541.0,
+      "step": 150
+    },
+    {
+      "epoch": 2.5166666666666666,
+      "grad_norm": 0.6997082703093433,
+      "learning_rate": 3.3333333333333333e-06,
+      "loss": 0.0818,
+      "mean_token_accuracy": 0.9700831770896912,
+      "num_tokens": 2941043.0,
+      "step": 151
+    },
+    {
+      "epoch": 2.533333333333333,
+      "grad_norm": 0.6853424324861723,
+      "learning_rate": 3.2222222222222227e-06,
+      "loss": 0.0699,
+      "mean_token_accuracy": 0.9737975597381592,
+      "num_tokens": 2962451.0,
+      "step": 152
+    },
+    {
+      "epoch": 2.55,
+      "grad_norm": 0.788856800633058,
+      "learning_rate": 3.1111111111111116e-06,
+      "loss": 0.0951,
+      "mean_token_accuracy": 0.9657984972000122,
+      "num_tokens": 2983102.0,
+      "step": 153
+    },
+    {
+      "epoch": 2.5666666666666664,
+      "grad_norm": 0.8049580781436556,
+      "learning_rate": 3e-06,
+      "loss": 0.0874,
+      "mean_token_accuracy": 0.9658728837966919,
+      "num_tokens": 3002754.0,
+      "step": 154
+    },
+    {
+      "epoch": 2.5833333333333335,
+      "grad_norm": 0.6468847476444607,
+      "learning_rate": 2.888888888888889e-06,
+      "loss": 0.0718,
+      "mean_token_accuracy": 0.9740763902664185,
+      "num_tokens": 3023792.0,
+      "step": 155
+    },
+    {
+      "epoch": 2.6,
+      "grad_norm": 0.7790527794056367,
+      "learning_rate": 2.7777777777777783e-06,
+      "loss": 0.0907,
+      "mean_token_accuracy": 0.9634305834770203,
+      "num_tokens": 3043717.0,
+      "step": 156
+    },
+    {
+      "epoch": 2.6166666666666667,
+      "grad_norm": 0.7784804869782793,
+      "learning_rate": 2.666666666666667e-06,
+      "loss": 0.0813,
+      "mean_token_accuracy": 0.9687763452529907,
+      "num_tokens": 3062697.0,
+      "step": 157
+    },
+    {
+      "epoch": 2.6333333333333333,
+      "grad_norm": 0.8695866199163134,
+      "learning_rate": 2.5555555555555557e-06,
+      "loss": 0.1028,
+      "mean_token_accuracy": 0.9597998857498169,
+      "num_tokens": 3081540.0,
+      "step": 158
+    },
+    {
+      "epoch": 2.65,
+      "grad_norm": 0.8264331195451216,
+      "learning_rate": 2.4444444444444447e-06,
+      "loss": 0.0884,
+      "mean_token_accuracy": 0.965327262878418,
+      "num_tokens": 3100748.0,
+      "step": 159
+    },
+    {
+      "epoch": 2.6666666666666665,
+      "grad_norm": 0.8336042061118125,
+      "learning_rate": 2.3333333333333336e-06,
+      "loss": 0.0938,
+      "mean_token_accuracy": 0.9615654349327087,
+      "num_tokens": 3119513.0,
+      "step": 160
+    },
+    {
+      "epoch": 2.6833333333333336,
+      "grad_norm": 0.774435592352755,
+      "learning_rate": 2.222222222222222e-06,
+      "loss": 0.0861,
+      "mean_token_accuracy": 0.965322732925415,
+      "num_tokens": 3138593.0,
+      "step": 161
+    },
+    {
+      "epoch": 2.7,
+      "grad_norm": 0.8708493282032755,
+      "learning_rate": 2.1111111111111114e-06,
+      "loss": 0.0984,
+      "mean_token_accuracy": 0.963320791721344,
+      "num_tokens": 3157750.0,
+      "step": 162
+    },
+    {
+      "epoch": 2.716666666666667,
+      "grad_norm": 0.6844114412472727,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 0.0774,
+      "mean_token_accuracy": 0.9710574746131897,
+      "num_tokens": 3177887.0,
+      "step": 163
+    },
+    {
+      "epoch": 2.7333333333333334,
+      "grad_norm": 0.8269947045633131,
+      "learning_rate": 1.888888888888889e-06,
+      "loss": 0.0966,
+      "mean_token_accuracy": 0.9629047513008118,
+      "num_tokens": 3197305.0,
+      "step": 164
+    },
+    {
+      "epoch": 2.75,
+      "grad_norm": 0.9352308958030469,
+      "learning_rate": 1.777777777777778e-06,
+      "loss": 0.097,
+      "mean_token_accuracy": 0.9620761871337891,
+      "num_tokens": 3216586.0,
+      "step": 165
+    },
+    {
+      "epoch": 2.7666666666666666,
+      "grad_norm": 0.7621362303112271,
+      "learning_rate": 1.6666666666666667e-06,
+      "loss": 0.0907,
+      "mean_token_accuracy": 0.9662196636199951,
+      "num_tokens": 3235533.0,
+      "step": 166
+    },
+    {
+      "epoch": 2.783333333333333,
+      "grad_norm": 0.960964098507404,
+      "learning_rate": 1.5555555555555558e-06,
+      "loss": 0.1011,
+      "mean_token_accuracy": 0.9637789130210876,
+      "num_tokens": 3253955.0,
+      "step": 167
+    },
+    {
+      "epoch": 2.8,
+      "grad_norm": 0.834114847730771,
+      "learning_rate": 1.4444444444444445e-06,
+      "loss": 0.0945,
+      "mean_token_accuracy": 0.9648138880729675,
+      "num_tokens": 3272890.0,
+      "step": 168
+    },
+    {
+      "epoch": 2.8166666666666664,
+      "grad_norm": 0.7527900787887315,
+      "learning_rate": 1.3333333333333334e-06,
+      "loss": 0.0856,
+      "mean_token_accuracy": 0.9682297110557556,
+      "num_tokens": 3291832.0,
+      "step": 169
+    },
+    {
+      "epoch": 2.8333333333333335,
+      "grad_norm": 0.962657962120987,
+      "learning_rate": 1.2222222222222223e-06,
+      "loss": 0.1053,
+      "mean_token_accuracy": 0.9603788256645203,
+      "num_tokens": 3310072.0,
+      "step": 170
+    },
+    {
+      "epoch": 2.85,
+      "grad_norm": 0.6521937551649634,
+      "learning_rate": 1.111111111111111e-06,
+      "loss": 0.0754,
+      "mean_token_accuracy": 0.9735506772994995,
+      "num_tokens": 3329622.0,
+      "step": 171
+    },
+    {
+      "epoch": 2.8666666666666667,
+      "grad_norm": 0.8085295318281304,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.0851,
+      "mean_token_accuracy": 0.96629399061203,
+      "num_tokens": 3348763.0,
+      "step": 172
+    },
+    {
+      "epoch": 2.8833333333333333,
+      "grad_norm": 0.8908320452034533,
+      "learning_rate": 8.88888888888889e-07,
+      "loss": 0.0935,
+      "mean_token_accuracy": 0.9675348401069641,
+      "num_tokens": 3367256.0,
+      "step": 173
+    },
+    {
+      "epoch": 2.9,
+      "grad_norm": 0.7445211886068831,
+      "learning_rate": 7.777777777777779e-07,
+      "loss": 0.0855,
+      "mean_token_accuracy": 0.968561053276062,
+      "num_tokens": 3386924.0,
+      "step": 174
+    },
+    {
+      "epoch": 2.9166666666666665,
+      "grad_norm": 0.8905272321287844,
+      "learning_rate": 6.666666666666667e-07,
+      "loss": 0.0945,
+      "mean_token_accuracy": 0.9635922312736511,
+      "num_tokens": 3405338.0,
+      "step": 175
+    },
+    {
+      "epoch": 2.9333333333333336,
+      "grad_norm": 0.884095334873471,
+      "learning_rate": 5.555555555555555e-07,
+      "loss": 0.1016,
+      "mean_token_accuracy": 0.9620562791824341,
+      "num_tokens": 3424120.0,
+      "step": 176
+    },
+    {
+      "epoch": 2.95,
+      "grad_norm": 0.9696647110949745,
+      "learning_rate": 4.444444444444445e-07,
+      "loss": 0.1085,
+      "mean_token_accuracy": 0.9581360220909119,
+      "num_tokens": 3442456.0,
+      "step": 177
+    },
+    {
+      "epoch": 2.966666666666667,
+      "grad_norm": 0.8575382869374056,
+      "learning_rate": 3.3333333333333335e-07,
+      "loss": 0.0944,
+      "mean_token_accuracy": 0.9630635380744934,
+      "num_tokens": 3461044.0,
+      "step": 178
+    },
+    {
+      "epoch": 2.9833333333333334,
+      "grad_norm": 0.8796554050600224,
+      "learning_rate": 2.2222222222222224e-07,
+      "loss": 0.0965,
+      "mean_token_accuracy": 0.9649972319602966,
+      "num_tokens": 3479478.0,
+      "step": 179
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 0.47092378589770406,
+      "learning_rate": 1.1111111111111112e-07,
+      "loss": 0.0489,
+      "mean_token_accuracy": 0.9833430051803589,
+      "num_tokens": 3496156.0,
+      "step": 180
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 180,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 8670117072896.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1f141e72181af549d69af4737ab5e7b06a325933960170588b4ab03a57f1cc75
+size 7032

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff