Add fine-tuned model

Files changed (10) hide show

README.md +7 -0
adapter_config.json +39 -0
adapter_model.safetensors +3 -0
added_tokens.json +28 -0
merges.txt +0 -0
special_tokens_map.json +31 -0
tokenizer.json +3 -0
tokenizer_config.json +241 -0
trainer_state.json +1232 -0
vocab.json +0 -0

README.md ADDED Viewed

	@@ -0,0 +1,7 @@

+---
+base_model: Qwen/Qwen3-32B
+library_name: peft
+---
+### Framework versions
+- PEFT 0.15.1

adapter_config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "Qwen/Qwen3-32B",
+  "bias": "none",
+  "corda_config": null,
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 128,
+  "lora_bias": false,
+  "lora_dropout": 0.0,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 64,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "k_proj",
+    "o_proj",
+    "up_proj",
+    "v_proj",
+    "gate_proj",
+    "down_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "trainable_token_indices": null,
+  "use_dora": false,
+  "use_rslora": false
+}

adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7567fc25a4bf0fb9a10fb760bc5767aa7580b559db1886bc4fa21a033f189b56
+size 2147605960

added_tokens.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "</think>": 151668,
+  "</tool_call>": 151658,
+  "</tool_response>": 151666,
+  "<think>": 151667,
+  "<tool_call>": 151657,
+  "<tool_response>": 151665,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:baf4233a05cc80d36da049c8c40877aa3b37dab8c9bc156c928f7b2ef5575305
+size 7032431

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,241 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151665": {
+      "content": "<tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151666": {
+      "content": "</tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151667": {
+      "content": "<think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151668": {
+      "content": "</think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "chat_template": "{%- if tools %}\n    {{- '<|im_start|>system\\n' }}\n    {%- if messages[0].role == 'system' %}\n        {{- messages[0].content + '\\n\\n' }}\n    {%- endif %}\n    {{- \"# Tools\\n\\nYou may call one or more functions to assist with the user query.\\n\\nYou are provided with function signatures within <tools></tools> XML tags:\\n<tools>\" }}\n    {%- for tool in tools %}\n        {{- \"\\n\" }}\n        {{- tool | tojson }}\n    {%- endfor %}\n    {{- \"\\n</tools>\\n\\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\\n<tool_call>\\n{\\\"name\\\": <function-name>, \\\"arguments\\\": <args-json-object>}\\n</tool_call><|im_end|>\\n\" }}\n{%- else %}\n    {%- if messages[0].role == 'system' %}\n        {{- '<|im_start|>system\\n' + messages[0].content + '<|im_end|>\\n' }}\n    {%- endif %}\n{%- endif %}\n{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}\n{%- for message in messages[::-1] %}\n    {%- set index = (messages|length - 1) - loop.index0 %}\n    {%- if ns.multi_step_tool and message.role == \"user\" and message.content is string and not(message.content.startswith('<tool_response>') and message.content.endswith('</tool_response>')) %}\n        {%- set ns.multi_step_tool = false %}\n        {%- set ns.last_query_index = index %}\n    {%- endif %}\n{%- endfor %}\n{%- for message in messages %}\n    {%- if message.content is string %}\n        {%- set content = message.content %}\n    {%- else %}\n        {%- set content = '' %}\n    {%- endif %}\n    {%- if (message.role == \"user\") or (message.role == \"system\" and not loop.first) %}\n        {{- '<|im_start|>' + message.role + '\\n' + content + '<|im_end|>' + '\\n' }}\n    {%- elif message.role == \"assistant\" %}\n        {%- set reasoning_content = '' %}\n        {%- if message.reasoning_content is string %}\n            {%- set reasoning_content = message.reasoning_content %}\n        {%- else %}\n            {%- if '</think>' in content %}\n                {%- set reasoning_content = content.split('</think>')[0].rstrip('\\n').split('<think>')[-1].lstrip('\\n') %}\n                {%- set content = content.split('</think>')[-1].lstrip('\\n') %}\n            {%- endif %}\n        {%- endif %}\n        {%- if loop.index0 > ns.last_query_index %}\n            {%- if loop.last or (not loop.last and reasoning_content) %}\n                {{- '<|im_start|>' + message.role + '\\n<think>\\n' + reasoning_content.strip('\\n') + '\\n</think>\\n\\n' + content.lstrip('\\n') }}\n            {%- else %}\n                {{- '<|im_start|>' + message.role + '\\n' + content }}\n            {%- endif %}\n        {%- else %}\n            {{- '<|im_start|>' + message.role + '\\n' + content }}\n        {%- endif %}\n        {%- if message.tool_calls %}\n            {%- for tool_call in message.tool_calls %}\n                {%- if (loop.first and content) or (not loop.first) %}\n                    {{- '\\n' }}\n                {%- endif %}\n                {%- if tool_call.function %}\n                    {%- set tool_call = tool_call.function %}\n                {%- endif %}\n                {{- '<tool_call>\\n{\"name\": \"' }}\n                {{- tool_call.name }}\n                {{- '\", \"arguments\": ' }}\n                {%- if tool_call.arguments is string %}\n                    {{- tool_call.arguments }}\n                {%- else %}\n                    {{- tool_call.arguments | tojson }}\n                {%- endif %}\n                {{- '}\\n</tool_call>' }}\n            {%- endfor %}\n        {%- endif %}\n        {{- '<|im_end|>\\n' }}\n    {%- elif message.role == \"tool\" %}\n        {%- if loop.first or (messages[loop.index0 - 1].role != \"tool\") %}\n            {{- '<|im_start|>user' }}\n        {%- endif %}\n        {{- '\\n<tool_response>\\n' }}\n        {{- content }}\n        {{- '\\n</tool_response>' }}\n        {%- if loop.last or (messages[loop.index0 + 1].role != \"tool\") %}\n            {{- '<|im_end|>\\n' }}\n        {%- endif %}\n    {%- endif %}\n{%- endfor %}\n{%- if add_generation_prompt %}\n    {{- '<|im_start|>assistant\\n' }}\n    {%- if enable_thinking is defined and enable_thinking is false %}\n        {{- '<think>\\n\\n</think>\\n\\n' }}\n    {%- endif %}\n{%- endif %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "right",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1232 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 170,
+  "global_step": 170,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0058823529411764705,
+      "grad_norm": 0.740064799785614,
+      "learning_rate": 1e-05,
+      "loss": 2.4395,
+      "step": 1
+    },
+    {
+      "epoch": 0.011764705882352941,
+      "grad_norm": 0.7219232320785522,
+      "learning_rate": 9.941176470588236e-06,
+      "loss": 2.3902,
+      "step": 2
+    },
+    {
+      "epoch": 0.01764705882352941,
+      "grad_norm": 0.77315753698349,
+      "learning_rate": 9.882352941176472e-06,
+      "loss": 2.4516,
+      "step": 3
+    },
+    {
+      "epoch": 0.023529411764705882,
+      "grad_norm": 0.7578166127204895,
+      "learning_rate": 9.823529411764706e-06,
+      "loss": 2.4148,
+      "step": 4
+    },
+    {
+      "epoch": 0.029411764705882353,
+      "grad_norm": 0.7205833196640015,
+      "learning_rate": 9.764705882352942e-06,
+      "loss": 2.3372,
+      "step": 5
+    },
+    {
+      "epoch": 0.03529411764705882,
+      "grad_norm": 0.7160035967826843,
+      "learning_rate": 9.705882352941177e-06,
+      "loss": 2.2849,
+      "step": 6
+    },
+    {
+      "epoch": 0.041176470588235294,
+      "grad_norm": 0.8269237875938416,
+      "learning_rate": 9.647058823529412e-06,
+      "loss": 2.3719,
+      "step": 7
+    },
+    {
+      "epoch": 0.047058823529411764,
+      "grad_norm": 0.7316713333129883,
+      "learning_rate": 9.588235294117649e-06,
+      "loss": 2.2175,
+      "step": 8
+    },
+    {
+      "epoch": 0.052941176470588235,
+      "grad_norm": 0.7852907776832581,
+      "learning_rate": 9.529411764705882e-06,
+      "loss": 2.2489,
+      "step": 9
+    },
+    {
+      "epoch": 0.058823529411764705,
+      "grad_norm": 0.7100040316581726,
+      "learning_rate": 9.470588235294119e-06,
+      "loss": 2.1828,
+      "step": 10
+    },
+    {
+      "epoch": 0.06470588235294118,
+      "grad_norm": 0.6905198693275452,
+      "learning_rate": 9.411764705882354e-06,
+      "loss": 2.1709,
+      "step": 11
+    },
+    {
+      "epoch": 0.07058823529411765,
+      "grad_norm": 0.6189457774162292,
+      "learning_rate": 9.352941176470589e-06,
+      "loss": 2.1152,
+      "step": 12
+    },
+    {
+      "epoch": 0.07647058823529412,
+      "grad_norm": 0.5859349370002747,
+      "learning_rate": 9.294117647058824e-06,
+      "loss": 2.0362,
+      "step": 13
+    },
+    {
+      "epoch": 0.08235294117647059,
+      "grad_norm": 0.6242568492889404,
+      "learning_rate": 9.23529411764706e-06,
+      "loss": 2.0808,
+      "step": 14
+    },
+    {
+      "epoch": 0.08823529411764706,
+      "grad_norm": 0.6139904856681824,
+      "learning_rate": 9.176470588235294e-06,
+      "loss": 2.017,
+      "step": 15
+    },
+    {
+      "epoch": 0.09411764705882353,
+      "grad_norm": 0.6155012249946594,
+      "learning_rate": 9.11764705882353e-06,
+      "loss": 2.0315,
+      "step": 16
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 0.6213613152503967,
+      "learning_rate": 9.058823529411765e-06,
+      "loss": 1.9902,
+      "step": 17
+    },
+    {
+      "epoch": 0.10588235294117647,
+      "grad_norm": 0.584740936756134,
+      "learning_rate": 9e-06,
+      "loss": 1.9679,
+      "step": 18
+    },
+    {
+      "epoch": 0.11176470588235295,
+      "grad_norm": 0.5694301128387451,
+      "learning_rate": 8.941176470588237e-06,
+      "loss": 1.9416,
+      "step": 19
+    },
+    {
+      "epoch": 0.11764705882352941,
+      "grad_norm": 0.5494748950004578,
+      "learning_rate": 8.88235294117647e-06,
+      "loss": 1.9129,
+      "step": 20
+    },
+    {
+      "epoch": 0.12352941176470589,
+      "grad_norm": 0.5430072546005249,
+      "learning_rate": 8.823529411764707e-06,
+      "loss": 1.89,
+      "step": 21
+    },
+    {
+      "epoch": 0.12941176470588237,
+      "grad_norm": 0.5303496718406677,
+      "learning_rate": 8.764705882352942e-06,
+      "loss": 1.8751,
+      "step": 22
+    },
+    {
+      "epoch": 0.13529411764705881,
+      "grad_norm": 0.5339208841323853,
+      "learning_rate": 8.705882352941177e-06,
+      "loss": 1.8598,
+      "step": 23
+    },
+    {
+      "epoch": 0.1411764705882353,
+      "grad_norm": 0.5348221659660339,
+      "learning_rate": 8.647058823529413e-06,
+      "loss": 1.8426,
+      "step": 24
+    },
+    {
+      "epoch": 0.14705882352941177,
+      "grad_norm": 0.4850575923919678,
+      "learning_rate": 8.588235294117647e-06,
+      "loss": 1.8126,
+      "step": 25
+    },
+    {
+      "epoch": 0.15294117647058825,
+      "grad_norm": 0.5005661845207214,
+      "learning_rate": 8.529411764705883e-06,
+      "loss": 1.8054,
+      "step": 26
+    },
+    {
+      "epoch": 0.1588235294117647,
+      "grad_norm": 0.47416189312934875,
+      "learning_rate": 8.470588235294118e-06,
+      "loss": 1.7775,
+      "step": 27
+    },
+    {
+      "epoch": 0.16470588235294117,
+      "grad_norm": 0.49917134642601013,
+      "learning_rate": 8.411764705882353e-06,
+      "loss": 1.7834,
+      "step": 28
+    },
+    {
+      "epoch": 0.17058823529411765,
+      "grad_norm": 0.4690726101398468,
+      "learning_rate": 8.35294117647059e-06,
+      "loss": 1.769,
+      "step": 29
+    },
+    {
+      "epoch": 0.17647058823529413,
+      "grad_norm": 0.4899074137210846,
+      "learning_rate": 8.294117647058825e-06,
+      "loss": 1.7534,
+      "step": 30
+    },
+    {
+      "epoch": 0.18235294117647058,
+      "grad_norm": 0.4322926104068756,
+      "learning_rate": 8.23529411764706e-06,
+      "loss": 1.7127,
+      "step": 31
+    },
+    {
+      "epoch": 0.18823529411764706,
+      "grad_norm": 0.4963333010673523,
+      "learning_rate": 8.176470588235295e-06,
+      "loss": 1.7316,
+      "step": 32
+    },
+    {
+      "epoch": 0.19411764705882353,
+      "grad_norm": 0.4416678547859192,
+      "learning_rate": 8.11764705882353e-06,
+      "loss": 1.6911,
+      "step": 33
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 0.44732019305229187,
+      "learning_rate": 8.058823529411766e-06,
+      "loss": 1.6832,
+      "step": 34
+    },
+    {
+      "epoch": 0.20588235294117646,
+      "grad_norm": 0.4325319528579712,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 1.6849,
+      "step": 35
+    },
+    {
+      "epoch": 0.21176470588235294,
+      "grad_norm": 0.4243956506252289,
+      "learning_rate": 7.941176470588236e-06,
+      "loss": 1.6471,
+      "step": 36
+    },
+    {
+      "epoch": 0.21764705882352942,
+      "grad_norm": 0.41187071800231934,
+      "learning_rate": 7.882352941176471e-06,
+      "loss": 1.654,
+      "step": 37
+    },
+    {
+      "epoch": 0.2235294117647059,
+      "grad_norm": 0.40401241183280945,
+      "learning_rate": 7.823529411764706e-06,
+      "loss": 1.644,
+      "step": 38
+    },
+    {
+      "epoch": 0.22941176470588234,
+      "grad_norm": 0.4079605042934418,
+      "learning_rate": 7.764705882352941e-06,
+      "loss": 1.6209,
+      "step": 39
+    },
+    {
+      "epoch": 0.23529411764705882,
+      "grad_norm": 0.37295785546302795,
+      "learning_rate": 7.705882352941178e-06,
+      "loss": 1.6111,
+      "step": 40
+    },
+    {
+      "epoch": 0.2411764705882353,
+      "grad_norm": 0.37890729308128357,
+      "learning_rate": 7.647058823529411e-06,
+      "loss": 1.6122,
+      "step": 41
+    },
+    {
+      "epoch": 0.24705882352941178,
+      "grad_norm": 0.3897000849246979,
+      "learning_rate": 7.588235294117648e-06,
+      "loss": 1.594,
+      "step": 42
+    },
+    {
+      "epoch": 0.2529411764705882,
+      "grad_norm": 0.37150734663009644,
+      "learning_rate": 7.529411764705883e-06,
+      "loss": 1.5683,
+      "step": 43
+    },
+    {
+      "epoch": 0.25882352941176473,
+      "grad_norm": 0.3686462342739105,
+      "learning_rate": 7.4705882352941185e-06,
+      "loss": 1.5578,
+      "step": 44
+    },
+    {
+      "epoch": 0.2647058823529412,
+      "grad_norm": 0.3615223467350006,
+      "learning_rate": 7.4117647058823535e-06,
+      "loss": 1.5553,
+      "step": 45
+    },
+    {
+      "epoch": 0.27058823529411763,
+      "grad_norm": 0.341239333152771,
+      "learning_rate": 7.352941176470589e-06,
+      "loss": 1.5504,
+      "step": 46
+    },
+    {
+      "epoch": 0.27647058823529413,
+      "grad_norm": 0.32972443103790283,
+      "learning_rate": 7.294117647058823e-06,
+      "loss": 1.5523,
+      "step": 47
+    },
+    {
+      "epoch": 0.2823529411764706,
+      "grad_norm": 0.3313795328140259,
+      "learning_rate": 7.235294117647059e-06,
+      "loss": 1.5367,
+      "step": 48
+    },
+    {
+      "epoch": 0.28823529411764703,
+      "grad_norm": 0.3319094479084015,
+      "learning_rate": 7.176470588235295e-06,
+      "loss": 1.5233,
+      "step": 49
+    },
+    {
+      "epoch": 0.29411764705882354,
+      "grad_norm": 0.3231871426105499,
+      "learning_rate": 7.11764705882353e-06,
+      "loss": 1.5064,
+      "step": 50
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 0.3074081838130951,
+      "learning_rate": 7.058823529411766e-06,
+      "loss": 1.4804,
+      "step": 51
+    },
+    {
+      "epoch": 0.3058823529411765,
+      "grad_norm": 0.329453706741333,
+      "learning_rate": 7e-06,
+      "loss": 1.5033,
+      "step": 52
+    },
+    {
+      "epoch": 0.31176470588235294,
+      "grad_norm": 0.3119613826274872,
+      "learning_rate": 6.941176470588236e-06,
+      "loss": 1.4898,
+      "step": 53
+    },
+    {
+      "epoch": 0.3176470588235294,
+      "grad_norm": 0.31654036045074463,
+      "learning_rate": 6.8823529411764715e-06,
+      "loss": 1.4599,
+      "step": 54
+    },
+    {
+      "epoch": 0.3235294117647059,
+      "grad_norm": 0.29753053188323975,
+      "learning_rate": 6.8235294117647065e-06,
+      "loss": 1.4625,
+      "step": 55
+    },
+    {
+      "epoch": 0.32941176470588235,
+      "grad_norm": 0.30820533633232117,
+      "learning_rate": 6.764705882352942e-06,
+      "loss": 1.4759,
+      "step": 56
+    },
+    {
+      "epoch": 0.3352941176470588,
+      "grad_norm": 0.29135259985923767,
+      "learning_rate": 6.705882352941176e-06,
+      "loss": 1.4699,
+      "step": 57
+    },
+    {
+      "epoch": 0.3411764705882353,
+      "grad_norm": 0.2927163243293762,
+      "learning_rate": 6.647058823529412e-06,
+      "loss": 1.4428,
+      "step": 58
+    },
+    {
+      "epoch": 0.34705882352941175,
+      "grad_norm": 0.3006676137447357,
+      "learning_rate": 6.588235294117647e-06,
+      "loss": 1.451,
+      "step": 59
+    },
+    {
+      "epoch": 0.35294117647058826,
+      "grad_norm": 0.29078030586242676,
+      "learning_rate": 6.529411764705883e-06,
+      "loss": 1.4352,
+      "step": 60
+    },
+    {
+      "epoch": 0.3588235294117647,
+      "grad_norm": 0.28280261158943176,
+      "learning_rate": 6.470588235294119e-06,
+      "loss": 1.4295,
+      "step": 61
+    },
+    {
+      "epoch": 0.36470588235294116,
+      "grad_norm": 0.3001053035259247,
+      "learning_rate": 6.411764705882354e-06,
+      "loss": 1.4375,
+      "step": 62
+    },
+    {
+      "epoch": 0.37058823529411766,
+      "grad_norm": 0.28294065594673157,
+      "learning_rate": 6.352941176470589e-06,
+      "loss": 1.4144,
+      "step": 63
+    },
+    {
+      "epoch": 0.3764705882352941,
+      "grad_norm": 0.2832286059856415,
+      "learning_rate": 6.294117647058824e-06,
+      "loss": 1.4207,
+      "step": 64
+    },
+    {
+      "epoch": 0.38235294117647056,
+      "grad_norm": 0.2754327952861786,
+      "learning_rate": 6.2352941176470595e-06,
+      "loss": 1.4362,
+      "step": 65
+    },
+    {
+      "epoch": 0.38823529411764707,
+      "grad_norm": 0.28400981426239014,
+      "learning_rate": 6.176470588235295e-06,
+      "loss": 1.382,
+      "step": 66
+    },
+    {
+      "epoch": 0.3941176470588235,
+      "grad_norm": 0.2783932387828827,
+      "learning_rate": 6.11764705882353e-06,
+      "loss": 1.4018,
+      "step": 67
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 0.270181268453598,
+      "learning_rate": 6.058823529411765e-06,
+      "loss": 1.4002,
+      "step": 68
+    },
+    {
+      "epoch": 0.40588235294117647,
+      "grad_norm": 0.28010931611061096,
+      "learning_rate": 6e-06,
+      "loss": 1.3927,
+      "step": 69
+    },
+    {
+      "epoch": 0.4117647058823529,
+      "grad_norm": 0.28210070729255676,
+      "learning_rate": 5.941176470588236e-06,
+      "loss": 1.3775,
+      "step": 70
+    },
+    {
+      "epoch": 0.4176470588235294,
+      "grad_norm": 0.26174265146255493,
+      "learning_rate": 5.882352941176471e-06,
+      "loss": 1.3791,
+      "step": 71
+    },
+    {
+      "epoch": 0.4235294117647059,
+      "grad_norm": 0.2730426788330078,
+      "learning_rate": 5.823529411764707e-06,
+      "loss": 1.3865,
+      "step": 72
+    },
+    {
+      "epoch": 0.4294117647058823,
+      "grad_norm": 0.25816625356674194,
+      "learning_rate": 5.764705882352941e-06,
+      "loss": 1.357,
+      "step": 73
+    },
+    {
+      "epoch": 0.43529411764705883,
+      "grad_norm": 0.25862398743629456,
+      "learning_rate": 5.705882352941177e-06,
+      "loss": 1.3597,
+      "step": 74
+    },
+    {
+      "epoch": 0.4411764705882353,
+      "grad_norm": 0.2514458894729614,
+      "learning_rate": 5.6470588235294125e-06,
+      "loss": 1.3971,
+      "step": 75
+    },
+    {
+      "epoch": 0.4470588235294118,
+      "grad_norm": 0.2639279067516327,
+      "learning_rate": 5.588235294117647e-06,
+      "loss": 1.3693,
+      "step": 76
+    },
+    {
+      "epoch": 0.45294117647058824,
+      "grad_norm": 0.26090630888938904,
+      "learning_rate": 5.529411764705883e-06,
+      "loss": 1.3681,
+      "step": 77
+    },
+    {
+      "epoch": 0.4588235294117647,
+      "grad_norm": 0.2618473470211029,
+      "learning_rate": 5.470588235294119e-06,
+      "loss": 1.3568,
+      "step": 78
+    },
+    {
+      "epoch": 0.4647058823529412,
+      "grad_norm": 0.25189754366874695,
+      "learning_rate": 5.411764705882353e-06,
+      "loss": 1.3628,
+      "step": 79
+    },
+    {
+      "epoch": 0.47058823529411764,
+      "grad_norm": 0.2481844574213028,
+      "learning_rate": 5.352941176470589e-06,
+      "loss": 1.3382,
+      "step": 80
+    },
+    {
+      "epoch": 0.4764705882352941,
+      "grad_norm": 0.24728593230247498,
+      "learning_rate": 5.294117647058824e-06,
+      "loss": 1.3288,
+      "step": 81
+    },
+    {
+      "epoch": 0.4823529411764706,
+      "grad_norm": 0.25381624698638916,
+      "learning_rate": 5.23529411764706e-06,
+      "loss": 1.3215,
+      "step": 82
+    },
+    {
+      "epoch": 0.48823529411764705,
+      "grad_norm": 0.2516557276248932,
+      "learning_rate": 5.176470588235295e-06,
+      "loss": 1.3264,
+      "step": 83
+    },
+    {
+      "epoch": 0.49411764705882355,
+      "grad_norm": 0.24683943390846252,
+      "learning_rate": 5.11764705882353e-06,
+      "loss": 1.3244,
+      "step": 84
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 0.24650059640407562,
+      "learning_rate": 5.058823529411765e-06,
+      "loss": 1.3259,
+      "step": 85
+    },
+    {
+      "epoch": 0.5058823529411764,
+      "grad_norm": 0.2529411017894745,
+      "learning_rate": 5e-06,
+      "loss": 1.3313,
+      "step": 86
+    },
+    {
+      "epoch": 0.5117647058823529,
+      "grad_norm": 0.2540332078933716,
+      "learning_rate": 4.941176470588236e-06,
+      "loss": 1.33,
+      "step": 87
+    },
+    {
+      "epoch": 0.5176470588235295,
+      "grad_norm": 0.25214681029319763,
+      "learning_rate": 4.882352941176471e-06,
+      "loss": 1.2992,
+      "step": 88
+    },
+    {
+      "epoch": 0.5235294117647059,
+      "grad_norm": 0.27215129137039185,
+      "learning_rate": 4.823529411764706e-06,
+      "loss": 1.3119,
+      "step": 89
+    },
+    {
+      "epoch": 0.5294117647058824,
+      "grad_norm": 0.2611463665962219,
+      "learning_rate": 4.764705882352941e-06,
+      "loss": 1.3265,
+      "step": 90
+    },
+    {
+      "epoch": 0.5352941176470588,
+      "grad_norm": 0.2502508759498596,
+      "learning_rate": 4.705882352941177e-06,
+      "loss": 1.2926,
+      "step": 91
+    },
+    {
+      "epoch": 0.5411764705882353,
+      "grad_norm": 0.26345929503440857,
+      "learning_rate": 4.647058823529412e-06,
+      "loss": 1.2975,
+      "step": 92
+    },
+    {
+      "epoch": 0.5470588235294118,
+      "grad_norm": 0.2609890401363373,
+      "learning_rate": 4.588235294117647e-06,
+      "loss": 1.2921,
+      "step": 93
+    },
+    {
+      "epoch": 0.5529411764705883,
+      "grad_norm": 0.2622078061103821,
+      "learning_rate": 4.529411764705883e-06,
+      "loss": 1.3016,
+      "step": 94
+    },
+    {
+      "epoch": 0.5588235294117647,
+      "grad_norm": 0.2562355101108551,
+      "learning_rate": 4.4705882352941184e-06,
+      "loss": 1.2908,
+      "step": 95
+    },
+    {
+      "epoch": 0.5647058823529412,
+      "grad_norm": 0.25484997034072876,
+      "learning_rate": 4.411764705882353e-06,
+      "loss": 1.3199,
+      "step": 96
+    },
+    {
+      "epoch": 0.5705882352941176,
+      "grad_norm": 0.25862494111061096,
+      "learning_rate": 4.352941176470588e-06,
+      "loss": 1.2855,
+      "step": 97
+    },
+    {
+      "epoch": 0.5764705882352941,
+      "grad_norm": 0.27047714591026306,
+      "learning_rate": 4.294117647058823e-06,
+      "loss": 1.3165,
+      "step": 98
+    },
+    {
+      "epoch": 0.5823529411764706,
+      "grad_norm": 0.2632170021533966,
+      "learning_rate": 4.235294117647059e-06,
+      "loss": 1.2912,
+      "step": 99
+    },
+    {
+      "epoch": 0.5882352941176471,
+      "grad_norm": 0.25326305627822876,
+      "learning_rate": 4.176470588235295e-06,
+      "loss": 1.3053,
+      "step": 100
+    },
+    {
+      "epoch": 0.5941176470588235,
+      "grad_norm": 0.26147395372390747,
+      "learning_rate": 4.11764705882353e-06,
+      "loss": 1.2973,
+      "step": 101
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 0.26799634099006653,
+      "learning_rate": 4.058823529411765e-06,
+      "loss": 1.2794,
+      "step": 102
+    },
+    {
+      "epoch": 0.6058823529411764,
+      "grad_norm": 0.2632071077823639,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 1.2867,
+      "step": 103
+    },
+    {
+      "epoch": 0.611764705882353,
+      "grad_norm": 0.27080872654914856,
+      "learning_rate": 3.941176470588236e-06,
+      "loss": 1.277,
+      "step": 104
+    },
+    {
+      "epoch": 0.6176470588235294,
+      "grad_norm": 0.2697356939315796,
+      "learning_rate": 3.882352941176471e-06,
+      "loss": 1.2697,
+      "step": 105
+    },
+    {
+      "epoch": 0.6235294117647059,
+      "grad_norm": 0.27979159355163574,
+      "learning_rate": 3.8235294117647055e-06,
+      "loss": 1.2746,
+      "step": 106
+    },
+    {
+      "epoch": 0.6294117647058823,
+      "grad_norm": 0.2690213620662689,
+      "learning_rate": 3.7647058823529414e-06,
+      "loss": 1.2734,
+      "step": 107
+    },
+    {
+      "epoch": 0.6352941176470588,
+      "grad_norm": 0.27870768308639526,
+      "learning_rate": 3.7058823529411767e-06,
+      "loss": 1.2707,
+      "step": 108
+    },
+    {
+      "epoch": 0.6411764705882353,
+      "grad_norm": 0.29579660296440125,
+      "learning_rate": 3.6470588235294117e-06,
+      "loss": 1.2616,
+      "step": 109
+    },
+    {
+      "epoch": 0.6470588235294118,
+      "grad_norm": 0.2851077914237976,
+      "learning_rate": 3.5882352941176475e-06,
+      "loss": 1.2591,
+      "step": 110
+    },
+    {
+      "epoch": 0.6529411764705882,
+      "grad_norm": 0.307041198015213,
+      "learning_rate": 3.529411764705883e-06,
+      "loss": 1.2522,
+      "step": 111
+    },
+    {
+      "epoch": 0.6588235294117647,
+      "grad_norm": 0.29607197642326355,
+      "learning_rate": 3.470588235294118e-06,
+      "loss": 1.2831,
+      "step": 112
+    },
+    {
+      "epoch": 0.6647058823529411,
+      "grad_norm": 0.29029569029808044,
+      "learning_rate": 3.4117647058823532e-06,
+      "loss": 1.2539,
+      "step": 113
+    },
+    {
+      "epoch": 0.6705882352941176,
+      "grad_norm": 0.28268927335739136,
+      "learning_rate": 3.352941176470588e-06,
+      "loss": 1.2652,
+      "step": 114
+    },
+    {
+      "epoch": 0.6764705882352942,
+      "grad_norm": 0.28747496008872986,
+      "learning_rate": 3.2941176470588236e-06,
+      "loss": 1.2394,
+      "step": 115
+    },
+    {
+      "epoch": 0.6823529411764706,
+      "grad_norm": 0.2939983904361725,
+      "learning_rate": 3.2352941176470594e-06,
+      "loss": 1.2639,
+      "step": 116
+    },
+    {
+      "epoch": 0.6882352941176471,
+      "grad_norm": 0.2975703179836273,
+      "learning_rate": 3.1764705882352943e-06,
+      "loss": 1.2762,
+      "step": 117
+    },
+    {
+      "epoch": 0.6941176470588235,
+      "grad_norm": 0.2900603413581848,
+      "learning_rate": 3.1176470588235297e-06,
+      "loss": 1.2623,
+      "step": 118
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 0.2925064265727997,
+      "learning_rate": 3.058823529411765e-06,
+      "loss": 1.27,
+      "step": 119
+    },
+    {
+      "epoch": 0.7058823529411765,
+      "grad_norm": 0.2913402318954468,
+      "learning_rate": 3e-06,
+      "loss": 1.2558,
+      "step": 120
+    },
+    {
+      "epoch": 0.711764705882353,
+      "grad_norm": 0.3211301863193512,
+      "learning_rate": 2.9411764705882355e-06,
+      "loss": 1.2397,
+      "step": 121
+    },
+    {
+      "epoch": 0.7176470588235294,
+      "grad_norm": 0.3004200756549835,
+      "learning_rate": 2.8823529411764704e-06,
+      "loss": 1.2627,
+      "step": 122
+    },
+    {
+      "epoch": 0.7235294117647059,
+      "grad_norm": 0.3165768086910248,
+      "learning_rate": 2.8235294117647062e-06,
+      "loss": 1.2388,
+      "step": 123
+    },
+    {
+      "epoch": 0.7294117647058823,
+      "grad_norm": 0.29654860496520996,
+      "learning_rate": 2.7647058823529416e-06,
+      "loss": 1.2332,
+      "step": 124
+    },
+    {
+      "epoch": 0.7352941176470589,
+      "grad_norm": 0.3117150068283081,
+      "learning_rate": 2.7058823529411766e-06,
+      "loss": 1.2588,
+      "step": 125
+    },
+    {
+      "epoch": 0.7411764705882353,
+      "grad_norm": 0.33643701672554016,
+      "learning_rate": 2.647058823529412e-06,
+      "loss": 1.2289,
+      "step": 126
+    },
+    {
+      "epoch": 0.7470588235294118,
+      "grad_norm": 0.3130914270877838,
+      "learning_rate": 2.5882352941176473e-06,
+      "loss": 1.263,
+      "step": 127
+    },
+    {
+      "epoch": 0.7529411764705882,
+      "grad_norm": 0.3396664559841156,
+      "learning_rate": 2.5294117647058823e-06,
+      "loss": 1.2592,
+      "step": 128
+    },
+    {
+      "epoch": 0.7588235294117647,
+      "grad_norm": 0.30291828513145447,
+      "learning_rate": 2.470588235294118e-06,
+      "loss": 1.2577,
+      "step": 129
+    },
+    {
+      "epoch": 0.7647058823529411,
+      "grad_norm": 0.32175707817077637,
+      "learning_rate": 2.411764705882353e-06,
+      "loss": 1.247,
+      "step": 130
+    },
+    {
+      "epoch": 0.7705882352941177,
+      "grad_norm": 0.346138596534729,
+      "learning_rate": 2.3529411764705885e-06,
+      "loss": 1.2476,
+      "step": 131
+    },
+    {
+      "epoch": 0.7764705882352941,
+      "grad_norm": 0.3127652406692505,
+      "learning_rate": 2.2941176470588234e-06,
+      "loss": 1.2392,
+      "step": 132
+    },
+    {
+      "epoch": 0.7823529411764706,
+      "grad_norm": 0.349590927362442,
+      "learning_rate": 2.2352941176470592e-06,
+      "loss": 1.2377,
+      "step": 133
+    },
+    {
+      "epoch": 0.788235294117647,
+      "grad_norm": 0.3107239305973053,
+      "learning_rate": 2.176470588235294e-06,
+      "loss": 1.239,
+      "step": 134
+    },
+    {
+      "epoch": 0.7941176470588235,
+      "grad_norm": 0.33791080117225647,
+      "learning_rate": 2.1176470588235296e-06,
+      "loss": 1.246,
+      "step": 135
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.3314568102359772,
+      "learning_rate": 2.058823529411765e-06,
+      "loss": 1.2402,
+      "step": 136
+    },
+    {
+      "epoch": 0.8058823529411765,
+      "grad_norm": 0.3275523781776428,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 1.2348,
+      "step": 137
+    },
+    {
+      "epoch": 0.8117647058823529,
+      "grad_norm": 0.33062854409217834,
+      "learning_rate": 1.9411764705882353e-06,
+      "loss": 1.2427,
+      "step": 138
+    },
+    {
+      "epoch": 0.8176470588235294,
+      "grad_norm": 0.35148942470550537,
+      "learning_rate": 1.8823529411764707e-06,
+      "loss": 1.2261,
+      "step": 139
+    },
+    {
+      "epoch": 0.8235294117647058,
+      "grad_norm": 0.3389197289943695,
+      "learning_rate": 1.8235294117647058e-06,
+      "loss": 1.2362,
+      "step": 140
+    },
+    {
+      "epoch": 0.8294117647058824,
+      "grad_norm": 0.3360951244831085,
+      "learning_rate": 1.7647058823529414e-06,
+      "loss": 1.2302,
+      "step": 141
+    },
+    {
+      "epoch": 0.8352941176470589,
+      "grad_norm": 0.34131404757499695,
+      "learning_rate": 1.7058823529411766e-06,
+      "loss": 1.2266,
+      "step": 142
+    },
+    {
+      "epoch": 0.8411764705882353,
+      "grad_norm": 0.328914076089859,
+      "learning_rate": 1.6470588235294118e-06,
+      "loss": 1.2308,
+      "step": 143
+    },
+    {
+      "epoch": 0.8470588235294118,
+      "grad_norm": 0.34804269671440125,
+      "learning_rate": 1.5882352941176472e-06,
+      "loss": 1.2212,
+      "step": 144
+    },
+    {
+      "epoch": 0.8529411764705882,
+      "grad_norm": 0.35386762022972107,
+      "learning_rate": 1.5294117647058826e-06,
+      "loss": 1.229,
+      "step": 145
+    },
+    {
+      "epoch": 0.8588235294117647,
+      "grad_norm": 0.33942756056785583,
+      "learning_rate": 1.4705882352941177e-06,
+      "loss": 1.2434,
+      "step": 146
+    },
+    {
+      "epoch": 0.8647058823529412,
+      "grad_norm": 0.32963618636131287,
+      "learning_rate": 1.4117647058823531e-06,
+      "loss": 1.2385,
+      "step": 147
+    },
+    {
+      "epoch": 0.8705882352941177,
+      "grad_norm": 0.3417942225933075,
+      "learning_rate": 1.3529411764705883e-06,
+      "loss": 1.2242,
+      "step": 148
+    },
+    {
+      "epoch": 0.8764705882352941,
+      "grad_norm": 0.33753451704978943,
+      "learning_rate": 1.2941176470588237e-06,
+      "loss": 1.2234,
+      "step": 149
+    },
+    {
+      "epoch": 0.8823529411764706,
+      "grad_norm": 0.3514120876789093,
+      "learning_rate": 1.235294117647059e-06,
+      "loss": 1.2241,
+      "step": 150
+    },
+    {
+      "epoch": 0.888235294117647,
+      "grad_norm": 0.35951969027519226,
+      "learning_rate": 1.1764705882352942e-06,
+      "loss": 1.2347,
+      "step": 151
+    },
+    {
+      "epoch": 0.8941176470588236,
+      "grad_norm": 0.3717687726020813,
+      "learning_rate": 1.1176470588235296e-06,
+      "loss": 1.2224,
+      "step": 152
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 0.3542497754096985,
+      "learning_rate": 1.0588235294117648e-06,
+      "loss": 1.2236,
+      "step": 153
+    },
+    {
+      "epoch": 0.9058823529411765,
+      "grad_norm": 0.3436025083065033,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 1.2294,
+      "step": 154
+    },
+    {
+      "epoch": 0.9117647058823529,
+      "grad_norm": 0.37331488728523254,
+      "learning_rate": 9.411764705882353e-07,
+      "loss": 1.2046,
+      "step": 155
+    },
+    {
+      "epoch": 0.9176470588235294,
+      "grad_norm": 0.34907183051109314,
+      "learning_rate": 8.823529411764707e-07,
+      "loss": 1.2213,
+      "step": 156
+    },
+    {
+      "epoch": 0.9235294117647059,
+      "grad_norm": 0.36500322818756104,
+      "learning_rate": 8.235294117647059e-07,
+      "loss": 1.2091,
+      "step": 157
+    },
+    {
+      "epoch": 0.9294117647058824,
+      "grad_norm": 0.38440433144569397,
+      "learning_rate": 7.647058823529413e-07,
+      "loss": 1.2249,
+      "step": 158
+    },
+    {
+      "epoch": 0.9352941176470588,
+      "grad_norm": 0.3387817144393921,
+      "learning_rate": 7.058823529411766e-07,
+      "loss": 1.2154,
+      "step": 159
+    },
+    {
+      "epoch": 0.9411764705882353,
+      "grad_norm": 0.34928762912750244,
+      "learning_rate": 6.470588235294118e-07,
+      "loss": 1.2227,
+      "step": 160
+    },
+    {
+      "epoch": 0.9470588235294117,
+      "grad_norm": 0.36257097125053406,
+      "learning_rate": 5.882352941176471e-07,
+      "loss": 1.2211,
+      "step": 161
+    },
+    {
+      "epoch": 0.9529411764705882,
+      "grad_norm": 0.3723115026950836,
+      "learning_rate": 5.294117647058824e-07,
+      "loss": 1.2283,
+      "step": 162
+    },
+    {
+      "epoch": 0.9588235294117647,
+      "grad_norm": 0.3423607349395752,
+      "learning_rate": 4.7058823529411767e-07,
+      "loss": 1.2295,
+      "step": 163
+    },
+    {
+      "epoch": 0.9647058823529412,
+      "grad_norm": 0.3787173628807068,
+      "learning_rate": 4.1176470588235295e-07,
+      "loss": 1.2201,
+      "step": 164
+    },
+    {
+      "epoch": 0.9705882352941176,
+      "grad_norm": 0.36642688512802124,
+      "learning_rate": 3.529411764705883e-07,
+      "loss": 1.2313,
+      "step": 165
+    },
+    {
+      "epoch": 0.9764705882352941,
+      "grad_norm": 0.3594622313976288,
+      "learning_rate": 2.9411764705882356e-07,
+      "loss": 1.2128,
+      "step": 166
+    },
+    {
+      "epoch": 0.9823529411764705,
+      "grad_norm": 0.3701726496219635,
+      "learning_rate": 2.3529411764705883e-07,
+      "loss": 1.2324,
+      "step": 167
+    },
+    {
+      "epoch": 0.9882352941176471,
+      "grad_norm": 0.34158623218536377,
+      "learning_rate": 1.7647058823529414e-07,
+      "loss": 1.2364,
+      "step": 168
+    },
+    {
+      "epoch": 0.9941176470588236,
+      "grad_norm": 0.3631001114845276,
+      "learning_rate": 1.1764705882352942e-07,
+      "loss": 1.2191,
+      "step": 169
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.40616530179977417,
+      "learning_rate": 5.882352941176471e-08,
+      "loss": 1.2029,
+      "step": 170
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 1.2080979347229004,
+      "eval_runtime": 4.1103,
+      "eval_samples_per_second": 4.379,
+      "eval_steps_per_second": 0.73,
+      "step": 170
+    }
+  ],
+  "logging_steps": 1.0,
+  "max_steps": 170,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 0,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.7061227320088986e+17,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff