LongMountain commited on
Commit
44b2580
·
1 Parent(s): fd317ec

init commit

Browse files
Files changed (4) hide show
  1. README.md +14 -0
  2. attn_gate_weights.pth +3 -0
  3. config.json +33 -0
  4. trainer_state.json +3542 -0
README.md CHANGED
@@ -1,3 +1,17 @@
1
  ---
2
  license: mit
 
 
 
 
3
  ---
 
 
 
 
 
 
 
 
 
 
 
1
  ---
2
  license: mit
3
+ library_name: transformers
4
+ base_model:
5
+ - deepseek-ai/DeepSeek-R1-Distill-Qwen-32B
6
+ base_model_relation: adapter
7
  ---
8
+
9
+
10
+ ## SeerAttention-DeepSeek-R1-Distill-Qwen-32B-AttnGates
11
+
12
+ This repo only contains the AttnGates' weights for deepseek-ai/DeepSeek-R1-Distill-Qwen-32B.
13
+
14
+ [SeerAttention](https://arxiv.org/abs/2410.13276) introduces learnable AttnGate modules to accelerate the computationally intensive prefill stage of long-context large language models (LLMs) via dynamic block-level sparsity. The AttnGates are trained in a parameter-efficient self-distillation framework, where they learn to mimic the 2D max-pooled attention patterns of the original frozen model, preserving its integrity while avoiding costly retraining. During inference, these gates generate block-sparse binary masks by applying threshold/TopK to their learned soft scores, enabling efficient computation through a custom block-sparse FlashAttention kernel.
15
+
16
+ Original Github Repo
17
+ https://github.com/microsoft/SeerAttention.
attn_gate_weights.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:91a77643b3dfdcc14e50160f1f2ba6bd493fd456babd8d02df06d9991d5a9ab3
3
+ size 251668686
config.json ADDED
@@ -0,0 +1,33 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "deepseek-ai/DeepSeek-R1-Distill-Qwen-32B",
3
+ "architectures": [
4
+ "Qwen2ForCausalLM"
5
+ ],
6
+ "attention_dropout": 0.0,
7
+ "base_model": "deepseek-ai/DeepSeek-R1-Distill-Qwen-32B",
8
+ "bos_token_id": 151643,
9
+ "eos_token_id": 151643,
10
+ "hidden_act": "silu",
11
+ "hidden_size": 5120,
12
+ "initializer_range": 0.02,
13
+ "intermediate_size": 27648,
14
+ "max_position_embeddings": 131072,
15
+ "max_window_layers": 64,
16
+ "model_type": "qwen2",
17
+ "num_attention_heads": 40,
18
+ "num_hidden_layers": 64,
19
+ "num_key_value_heads": 8,
20
+ "rms_norm_eps": 1e-05,
21
+ "rope_theta": 1000000.0,
22
+ "seerattn_gate_block_size": 64,
23
+ "seerattn_gate_force_double": false,
24
+ "seerattn_gate_hidden_size": 128,
25
+ "seerattn_gate_type": "Qavg_Kmaxminavg",
26
+ "sliding_window": null,
27
+ "tie_word_embeddings": false,
28
+ "torch_dtype": "bfloat16",
29
+ "transformers_version": "4.44.2",
30
+ "use_cache": true,
31
+ "use_sliding_window": false,
32
+ "vocab_size": 152064
33
+ }
trainer_state.json ADDED
@@ -0,0 +1,3542 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": null,
3
+ "best_model_checkpoint": null,
4
+ "epoch": 0.4284490145672665,
5
+ "eval_steps": 500,
6
+ "global_step": 500,
7
+ "is_hyper_param_search": false,
8
+ "is_local_process_zero": true,
9
+ "is_world_process_zero": true,
10
+ "log_history": [
11
+ {
12
+ "epoch": 0.000856898029134533,
13
+ "grad_norm": 0.2508656084537506,
14
+ "learning_rate": 5e-05,
15
+ "loss": 2.5931,
16
+ "step": 1
17
+ },
18
+ {
19
+ "epoch": 0.001713796058269066,
20
+ "grad_norm": 0.24156232178211212,
21
+ "learning_rate": 0.0001,
22
+ "loss": 2.6137,
23
+ "step": 2
24
+ },
25
+ {
26
+ "epoch": 0.002570694087403599,
27
+ "grad_norm": 0.25357234477996826,
28
+ "learning_rate": 0.00015,
29
+ "loss": 2.5697,
30
+ "step": 3
31
+ },
32
+ {
33
+ "epoch": 0.003427592116538132,
34
+ "grad_norm": 0.23629046976566315,
35
+ "learning_rate": 0.0002,
36
+ "loss": 2.3679,
37
+ "step": 4
38
+ },
39
+ {
40
+ "epoch": 0.004284490145672665,
41
+ "grad_norm": 0.23719146847724915,
42
+ "learning_rate": 0.00025,
43
+ "loss": 2.3205,
44
+ "step": 5
45
+ },
46
+ {
47
+ "epoch": 0.005141388174807198,
48
+ "grad_norm": 0.22218209505081177,
49
+ "learning_rate": 0.0003,
50
+ "loss": 2.1263,
51
+ "step": 6
52
+ },
53
+ {
54
+ "epoch": 0.005998286203941731,
55
+ "grad_norm": 0.20407630503177643,
56
+ "learning_rate": 0.00035,
57
+ "loss": 1.9481,
58
+ "step": 7
59
+ },
60
+ {
61
+ "epoch": 0.006855184233076264,
62
+ "grad_norm": 0.1823188215494156,
63
+ "learning_rate": 0.0004,
64
+ "loss": 1.7466,
65
+ "step": 8
66
+ },
67
+ {
68
+ "epoch": 0.007712082262210797,
69
+ "grad_norm": 0.15546730160713196,
70
+ "learning_rate": 0.00045000000000000004,
71
+ "loss": 1.5499,
72
+ "step": 9
73
+ },
74
+ {
75
+ "epoch": 0.00856898029134533,
76
+ "grad_norm": 0.14485396444797516,
77
+ "learning_rate": 0.0005,
78
+ "loss": 1.4354,
79
+ "step": 10
80
+ },
81
+ {
82
+ "epoch": 0.009425878320479864,
83
+ "grad_norm": 0.16174261271953583,
84
+ "learning_rate": 0.00055,
85
+ "loss": 1.4151,
86
+ "step": 11
87
+ },
88
+ {
89
+ "epoch": 0.010282776349614395,
90
+ "grad_norm": 0.1819111704826355,
91
+ "learning_rate": 0.0006,
92
+ "loss": 1.3921,
93
+ "step": 12
94
+ },
95
+ {
96
+ "epoch": 0.011139674378748929,
97
+ "grad_norm": 0.18399009108543396,
98
+ "learning_rate": 0.0006500000000000001,
99
+ "loss": 1.3712,
100
+ "step": 13
101
+ },
102
+ {
103
+ "epoch": 0.011996572407883462,
104
+ "grad_norm": 0.17457200586795807,
105
+ "learning_rate": 0.0007,
106
+ "loss": 1.329,
107
+ "step": 14
108
+ },
109
+ {
110
+ "epoch": 0.012853470437017995,
111
+ "grad_norm": 0.1598544865846634,
112
+ "learning_rate": 0.00075,
113
+ "loss": 1.2791,
114
+ "step": 15
115
+ },
116
+ {
117
+ "epoch": 0.013710368466152529,
118
+ "grad_norm": 0.1446290910243988,
119
+ "learning_rate": 0.0008,
120
+ "loss": 1.1637,
121
+ "step": 16
122
+ },
123
+ {
124
+ "epoch": 0.01456726649528706,
125
+ "grad_norm": 0.130220428109169,
126
+ "learning_rate": 0.00085,
127
+ "loss": 1.1213,
128
+ "step": 17
129
+ },
130
+ {
131
+ "epoch": 0.015424164524421594,
132
+ "grad_norm": 0.13525986671447754,
133
+ "learning_rate": 0.0009000000000000001,
134
+ "loss": 1.0648,
135
+ "step": 18
136
+ },
137
+ {
138
+ "epoch": 0.016281062553556127,
139
+ "grad_norm": 0.13430772721767426,
140
+ "learning_rate": 0.00095,
141
+ "loss": 1.0397,
142
+ "step": 19
143
+ },
144
+ {
145
+ "epoch": 0.01713796058269066,
146
+ "grad_norm": 0.12910906970500946,
147
+ "learning_rate": 0.001,
148
+ "loss": 0.9857,
149
+ "step": 20
150
+ },
151
+ {
152
+ "epoch": 0.017994858611825194,
153
+ "grad_norm": 0.13353696465492249,
154
+ "learning_rate": 0.0009999892908320648,
155
+ "loss": 0.9221,
156
+ "step": 21
157
+ },
158
+ {
159
+ "epoch": 0.018851756640959727,
160
+ "grad_norm": 0.1093161553144455,
161
+ "learning_rate": 0.0009999571637870036,
162
+ "loss": 0.8759,
163
+ "step": 22
164
+ },
165
+ {
166
+ "epoch": 0.01970865467009426,
167
+ "grad_norm": 0.11288490891456604,
168
+ "learning_rate": 0.0009999036202410325,
169
+ "loss": 0.804,
170
+ "step": 23
171
+ },
172
+ {
173
+ "epoch": 0.02056555269922879,
174
+ "grad_norm": 0.104631707072258,
175
+ "learning_rate": 0.0009998286624877785,
176
+ "loss": 0.7662,
177
+ "step": 24
178
+ },
179
+ {
180
+ "epoch": 0.021422450728363324,
181
+ "grad_norm": 0.0997966080904007,
182
+ "learning_rate": 0.0009997322937381828,
183
+ "loss": 0.7223,
184
+ "step": 25
185
+ },
186
+ {
187
+ "epoch": 0.022279348757497857,
188
+ "grad_norm": 0.09641406685113907,
189
+ "learning_rate": 0.0009996145181203615,
190
+ "loss": 0.6928,
191
+ "step": 26
192
+ },
193
+ {
194
+ "epoch": 0.02313624678663239,
195
+ "grad_norm": 0.08281794935464859,
196
+ "learning_rate": 0.00099947534067943,
197
+ "loss": 0.6405,
198
+ "step": 27
199
+ },
200
+ {
201
+ "epoch": 0.023993144815766924,
202
+ "grad_norm": 0.08452638983726501,
203
+ "learning_rate": 0.0009993147673772868,
204
+ "loss": 0.6556,
205
+ "step": 28
206
+ },
207
+ {
208
+ "epoch": 0.024850042844901457,
209
+ "grad_norm": 0.08429277688264847,
210
+ "learning_rate": 0.000999132805092358,
211
+ "loss": 0.594,
212
+ "step": 29
213
+ },
214
+ {
215
+ "epoch": 0.02570694087403599,
216
+ "grad_norm": 0.0761115625500679,
217
+ "learning_rate": 0.0009989294616193018,
218
+ "loss": 0.5755,
219
+ "step": 30
220
+ },
221
+ {
222
+ "epoch": 0.026563838903170524,
223
+ "grad_norm": 0.07302208989858627,
224
+ "learning_rate": 0.000998704745668676,
225
+ "loss": 0.5689,
226
+ "step": 31
227
+ },
228
+ {
229
+ "epoch": 0.027420736932305057,
230
+ "grad_norm": 0.07030151039361954,
231
+ "learning_rate": 0.000998458666866564,
232
+ "loss": 0.5309,
233
+ "step": 32
234
+ },
235
+ {
236
+ "epoch": 0.028277634961439587,
237
+ "grad_norm": 0.06726360321044922,
238
+ "learning_rate": 0.0009981912357541628,
239
+ "loss": 0.522,
240
+ "step": 33
241
+ },
242
+ {
243
+ "epoch": 0.02913453299057412,
244
+ "grad_norm": 0.06689871847629547,
245
+ "learning_rate": 0.0009979024637873308,
246
+ "loss": 0.5076,
247
+ "step": 34
248
+ },
249
+ {
250
+ "epoch": 0.029991431019708654,
251
+ "grad_norm": 0.06583524495363235,
252
+ "learning_rate": 0.0009975923633360985,
253
+ "loss": 0.4853,
254
+ "step": 35
255
+ },
256
+ {
257
+ "epoch": 0.030848329048843187,
258
+ "grad_norm": 0.056236833333969116,
259
+ "learning_rate": 0.0009972609476841367,
260
+ "loss": 0.4725,
261
+ "step": 36
262
+ },
263
+ {
264
+ "epoch": 0.031705227077977724,
265
+ "grad_norm": 0.060708239674568176,
266
+ "learning_rate": 0.0009969082310281891,
267
+ "loss": 0.4617,
268
+ "step": 37
269
+ },
270
+ {
271
+ "epoch": 0.032562125107112254,
272
+ "grad_norm": 0.05682970583438873,
273
+ "learning_rate": 0.0009965342284774632,
274
+ "loss": 0.4696,
275
+ "step": 38
276
+ },
277
+ {
278
+ "epoch": 0.033419023136246784,
279
+ "grad_norm": 0.05259707570075989,
280
+ "learning_rate": 0.0009961389560529835,
281
+ "loss": 0.4548,
282
+ "step": 39
283
+ },
284
+ {
285
+ "epoch": 0.03427592116538132,
286
+ "grad_norm": 0.053453583270311356,
287
+ "learning_rate": 0.0009957224306869053,
288
+ "loss": 0.4514,
289
+ "step": 40
290
+ },
291
+ {
292
+ "epoch": 0.03513281919451585,
293
+ "grad_norm": 0.05121961236000061,
294
+ "learning_rate": 0.0009952846702217886,
295
+ "loss": 0.4327,
296
+ "step": 41
297
+ },
298
+ {
299
+ "epoch": 0.03598971722365039,
300
+ "grad_norm": 0.04787424951791763,
301
+ "learning_rate": 0.0009948256934098352,
302
+ "loss": 0.4184,
303
+ "step": 42
304
+ },
305
+ {
306
+ "epoch": 0.03684661525278492,
307
+ "grad_norm": 0.052464596927165985,
308
+ "learning_rate": 0.0009943455199120836,
309
+ "loss": 0.4039,
310
+ "step": 43
311
+ },
312
+ {
313
+ "epoch": 0.037703513281919454,
314
+ "grad_norm": 0.04593312367796898,
315
+ "learning_rate": 0.0009938441702975688,
316
+ "loss": 0.4027,
317
+ "step": 44
318
+ },
319
+ {
320
+ "epoch": 0.038560411311053984,
321
+ "grad_norm": 0.04613376036286354,
322
+ "learning_rate": 0.0009933216660424397,
323
+ "loss": 0.3833,
324
+ "step": 45
325
+ },
326
+ {
327
+ "epoch": 0.03941730934018852,
328
+ "grad_norm": 0.0438942089676857,
329
+ "learning_rate": 0.0009927780295290389,
330
+ "loss": 0.3943,
331
+ "step": 46
332
+ },
333
+ {
334
+ "epoch": 0.04027420736932305,
335
+ "grad_norm": 0.03944185748696327,
336
+ "learning_rate": 0.0009922132840449458,
337
+ "loss": 0.3751,
338
+ "step": 47
339
+ },
340
+ {
341
+ "epoch": 0.04113110539845758,
342
+ "grad_norm": 0.0458449125289917,
343
+ "learning_rate": 0.0009916274537819774,
344
+ "loss": 0.3691,
345
+ "step": 48
346
+ },
347
+ {
348
+ "epoch": 0.04198800342759212,
349
+ "grad_norm": 0.040158357471227646,
350
+ "learning_rate": 0.000991020563835152,
351
+ "loss": 0.3793,
352
+ "step": 49
353
+ },
354
+ {
355
+ "epoch": 0.04284490145672665,
356
+ "grad_norm": 0.044870492070913315,
357
+ "learning_rate": 0.0009903926402016153,
358
+ "loss": 0.3533,
359
+ "step": 50
360
+ },
361
+ {
362
+ "epoch": 0.043701799485861184,
363
+ "grad_norm": 0.037956662476062775,
364
+ "learning_rate": 0.0009897437097795257,
365
+ "loss": 0.3773,
366
+ "step": 51
367
+ },
368
+ {
369
+ "epoch": 0.044558697514995714,
370
+ "grad_norm": 0.03750976547598839,
371
+ "learning_rate": 0.0009890738003669028,
372
+ "loss": 0.3547,
373
+ "step": 52
374
+ },
375
+ {
376
+ "epoch": 0.04541559554413025,
377
+ "grad_norm": 0.03590930253267288,
378
+ "learning_rate": 0.0009883829406604362,
379
+ "loss": 0.3447,
380
+ "step": 53
381
+ },
382
+ {
383
+ "epoch": 0.04627249357326478,
384
+ "grad_norm": 0.03637269139289856,
385
+ "learning_rate": 0.0009876711602542563,
386
+ "loss": 0.3557,
387
+ "step": 54
388
+ },
389
+ {
390
+ "epoch": 0.04712939160239932,
391
+ "grad_norm": 0.0436246357858181,
392
+ "learning_rate": 0.0009869384896386668,
393
+ "loss": 0.3361,
394
+ "step": 55
395
+ },
396
+ {
397
+ "epoch": 0.04798628963153385,
398
+ "grad_norm": 0.03389494866132736,
399
+ "learning_rate": 0.0009861849601988384,
400
+ "loss": 0.3229,
401
+ "step": 56
402
+ },
403
+ {
404
+ "epoch": 0.04884318766066838,
405
+ "grad_norm": 0.03282163292169571,
406
+ "learning_rate": 0.0009854106042134641,
407
+ "loss": 0.2967,
408
+ "step": 57
409
+ },
410
+ {
411
+ "epoch": 0.049700085689802914,
412
+ "grad_norm": 0.03293761610984802,
413
+ "learning_rate": 0.0009846154548533773,
414
+ "loss": 0.3236,
415
+ "step": 58
416
+ },
417
+ {
418
+ "epoch": 0.050556983718937444,
419
+ "grad_norm": 0.03896806761622429,
420
+ "learning_rate": 0.0009837995461801298,
421
+ "loss": 0.3117,
422
+ "step": 59
423
+ },
424
+ {
425
+ "epoch": 0.05141388174807198,
426
+ "grad_norm": 0.03278586268424988,
427
+ "learning_rate": 0.0009829629131445341,
428
+ "loss": 0.3068,
429
+ "step": 60
430
+ },
431
+ {
432
+ "epoch": 0.05227077977720651,
433
+ "grad_norm": 0.0321279913187027,
434
+ "learning_rate": 0.0009821055915851646,
435
+ "loss": 0.3118,
436
+ "step": 61
437
+ },
438
+ {
439
+ "epoch": 0.05312767780634105,
440
+ "grad_norm": 0.03264940157532692,
441
+ "learning_rate": 0.0009812276182268236,
442
+ "loss": 0.3125,
443
+ "step": 62
444
+ },
445
+ {
446
+ "epoch": 0.05398457583547558,
447
+ "grad_norm": 0.03603900223970413,
448
+ "learning_rate": 0.0009803290306789677,
449
+ "loss": 0.3,
450
+ "step": 63
451
+ },
452
+ {
453
+ "epoch": 0.054841473864610114,
454
+ "grad_norm": 0.029965505003929138,
455
+ "learning_rate": 0.0009794098674340967,
456
+ "loss": 0.3096,
457
+ "step": 64
458
+ },
459
+ {
460
+ "epoch": 0.055698371893744644,
461
+ "grad_norm": 0.036456797271966934,
462
+ "learning_rate": 0.0009784701678661044,
463
+ "loss": 0.2901,
464
+ "step": 65
465
+ },
466
+ {
467
+ "epoch": 0.056555269922879174,
468
+ "grad_norm": 0.032042618840932846,
469
+ "learning_rate": 0.0009775099722285933,
470
+ "loss": 0.2864,
471
+ "step": 66
472
+ },
473
+ {
474
+ "epoch": 0.05741216795201371,
475
+ "grad_norm": 0.03345092013478279,
476
+ "learning_rate": 0.0009765293216531485,
477
+ "loss": 0.2854,
478
+ "step": 67
479
+ },
480
+ {
481
+ "epoch": 0.05826906598114824,
482
+ "grad_norm": 0.029210660606622696,
483
+ "learning_rate": 0.0009755282581475768,
484
+ "loss": 0.2862,
485
+ "step": 68
486
+ },
487
+ {
488
+ "epoch": 0.05912596401028278,
489
+ "grad_norm": 0.02906818874180317,
490
+ "learning_rate": 0.000974506824594107,
491
+ "loss": 0.2756,
492
+ "step": 69
493
+ },
494
+ {
495
+ "epoch": 0.05998286203941731,
496
+ "grad_norm": 0.032076746225357056,
497
+ "learning_rate": 0.0009734650647475529,
498
+ "loss": 0.274,
499
+ "step": 70
500
+ },
501
+ {
502
+ "epoch": 0.060839760068551844,
503
+ "grad_norm": 0.02805478870868683,
504
+ "learning_rate": 0.0009724030232334391,
505
+ "loss": 0.2807,
506
+ "step": 71
507
+ },
508
+ {
509
+ "epoch": 0.061696658097686374,
510
+ "grad_norm": 0.027483096346259117,
511
+ "learning_rate": 0.0009713207455460893,
512
+ "loss": 0.2657,
513
+ "step": 72
514
+ },
515
+ {
516
+ "epoch": 0.06255355612682091,
517
+ "grad_norm": 0.026773786172270775,
518
+ "learning_rate": 0.0009702182780466775,
519
+ "loss": 0.2638,
520
+ "step": 73
521
+ },
522
+ {
523
+ "epoch": 0.06341045415595545,
524
+ "grad_norm": 0.025541041046380997,
525
+ "learning_rate": 0.0009690956679612422,
526
+ "loss": 0.2621,
527
+ "step": 74
528
+ },
529
+ {
530
+ "epoch": 0.06426735218508997,
531
+ "grad_norm": 0.028647374361753464,
532
+ "learning_rate": 0.0009679529633786629,
533
+ "loss": 0.268,
534
+ "step": 75
535
+ },
536
+ {
537
+ "epoch": 0.06512425021422451,
538
+ "grad_norm": 0.025853468105196953,
539
+ "learning_rate": 0.0009667902132486009,
540
+ "loss": 0.2665,
541
+ "step": 76
542
+ },
543
+ {
544
+ "epoch": 0.06598114824335904,
545
+ "grad_norm": 0.02473859116435051,
546
+ "learning_rate": 0.0009656074673794017,
547
+ "loss": 0.2633,
548
+ "step": 77
549
+ },
550
+ {
551
+ "epoch": 0.06683804627249357,
552
+ "grad_norm": 0.027110164985060692,
553
+ "learning_rate": 0.0009644047764359622,
554
+ "loss": 0.2591,
555
+ "step": 78
556
+ },
557
+ {
558
+ "epoch": 0.0676949443016281,
559
+ "grad_norm": 0.02725694142282009,
560
+ "learning_rate": 0.0009631821919375591,
561
+ "loss": 0.2486,
562
+ "step": 79
563
+ },
564
+ {
565
+ "epoch": 0.06855184233076264,
566
+ "grad_norm": 0.023004408925771713,
567
+ "learning_rate": 0.0009619397662556434,
568
+ "loss": 0.2477,
569
+ "step": 80
570
+ },
571
+ {
572
+ "epoch": 0.06940874035989718,
573
+ "grad_norm": 0.03091372549533844,
574
+ "learning_rate": 0.0009606775526115963,
575
+ "loss": 0.2625,
576
+ "step": 81
577
+ },
578
+ {
579
+ "epoch": 0.0702656383890317,
580
+ "grad_norm": 0.02504062093794346,
581
+ "learning_rate": 0.0009593956050744492,
582
+ "loss": 0.2603,
583
+ "step": 82
584
+ },
585
+ {
586
+ "epoch": 0.07112253641816624,
587
+ "grad_norm": 0.028378132730722427,
588
+ "learning_rate": 0.0009580939785585681,
589
+ "loss": 0.2501,
590
+ "step": 83
591
+ },
592
+ {
593
+ "epoch": 0.07197943444730077,
594
+ "grad_norm": 0.031088434159755707,
595
+ "learning_rate": 0.0009567727288213005,
596
+ "loss": 0.2463,
597
+ "step": 84
598
+ },
599
+ {
600
+ "epoch": 0.0728363324764353,
601
+ "grad_norm": 0.02509693056344986,
602
+ "learning_rate": 0.000955431912460588,
603
+ "loss": 0.2619,
604
+ "step": 85
605
+ },
606
+ {
607
+ "epoch": 0.07369323050556983,
608
+ "grad_norm": 0.024940533563494682,
609
+ "learning_rate": 0.0009540715869125407,
610
+ "loss": 0.2565,
611
+ "step": 86
612
+ },
613
+ {
614
+ "epoch": 0.07455012853470437,
615
+ "grad_norm": 0.026020990684628487,
616
+ "learning_rate": 0.0009526918104489777,
617
+ "loss": 0.2436,
618
+ "step": 87
619
+ },
620
+ {
621
+ "epoch": 0.07540702656383891,
622
+ "grad_norm": 0.023458324372768402,
623
+ "learning_rate": 0.0009512926421749304,
624
+ "loss": 0.2362,
625
+ "step": 88
626
+ },
627
+ {
628
+ "epoch": 0.07626392459297343,
629
+ "grad_norm": 0.0243577491492033,
630
+ "learning_rate": 0.0009498741420261108,
631
+ "loss": 0.243,
632
+ "step": 89
633
+ },
634
+ {
635
+ "epoch": 0.07712082262210797,
636
+ "grad_norm": 0.0244216900318861,
637
+ "learning_rate": 0.0009484363707663442,
638
+ "loss": 0.2378,
639
+ "step": 90
640
+ },
641
+ {
642
+ "epoch": 0.0779777206512425,
643
+ "grad_norm": 0.02734869159758091,
644
+ "learning_rate": 0.0009469793899849661,
645
+ "loss": 0.2344,
646
+ "step": 91
647
+ },
648
+ {
649
+ "epoch": 0.07883461868037704,
650
+ "grad_norm": 0.022375451400876045,
651
+ "learning_rate": 0.0009455032620941839,
652
+ "loss": 0.239,
653
+ "step": 92
654
+ },
655
+ {
656
+ "epoch": 0.07969151670951156,
657
+ "grad_norm": 0.026033056899905205,
658
+ "learning_rate": 0.0009440080503264037,
659
+ "loss": 0.2334,
660
+ "step": 93
661
+ },
662
+ {
663
+ "epoch": 0.0805484147386461,
664
+ "grad_norm": 0.022317685186862946,
665
+ "learning_rate": 0.0009424938187315209,
666
+ "loss": 0.2327,
667
+ "step": 94
668
+ },
669
+ {
670
+ "epoch": 0.08140531276778064,
671
+ "grad_norm": 0.02240647003054619,
672
+ "learning_rate": 0.0009409606321741775,
673
+ "loss": 0.2335,
674
+ "step": 95
675
+ },
676
+ {
677
+ "epoch": 0.08226221079691516,
678
+ "grad_norm": 0.022393332794308662,
679
+ "learning_rate": 0.0009394085563309827,
680
+ "loss": 0.2237,
681
+ "step": 96
682
+ },
683
+ {
684
+ "epoch": 0.0831191088260497,
685
+ "grad_norm": 0.02859143353998661,
686
+ "learning_rate": 0.0009378376576876999,
687
+ "loss": 0.2243,
688
+ "step": 97
689
+ },
690
+ {
691
+ "epoch": 0.08397600685518423,
692
+ "grad_norm": 0.02249022200703621,
693
+ "learning_rate": 0.0009362480035363986,
694
+ "loss": 0.2348,
695
+ "step": 98
696
+ },
697
+ {
698
+ "epoch": 0.08483290488431877,
699
+ "grad_norm": 0.031574804335832596,
700
+ "learning_rate": 0.0009346396619725719,
701
+ "loss": 0.2209,
702
+ "step": 99
703
+ },
704
+ {
705
+ "epoch": 0.0856898029134533,
706
+ "grad_norm": 0.024664921686053276,
707
+ "learning_rate": 0.0009330127018922195,
708
+ "loss": 0.2437,
709
+ "step": 100
710
+ },
711
+ {
712
+ "epoch": 0.08654670094258783,
713
+ "grad_norm": 0.023365097120404243,
714
+ "learning_rate": 0.0009313671929888959,
715
+ "loss": 0.2271,
716
+ "step": 101
717
+ },
718
+ {
719
+ "epoch": 0.08740359897172237,
720
+ "grad_norm": 0.02179112657904625,
721
+ "learning_rate": 0.0009297032057507264,
722
+ "loss": 0.2251,
723
+ "step": 102
724
+ },
725
+ {
726
+ "epoch": 0.08826049700085689,
727
+ "grad_norm": 0.02501068077981472,
728
+ "learning_rate": 0.0009280208114573858,
729
+ "loss": 0.2177,
730
+ "step": 103
731
+ },
732
+ {
733
+ "epoch": 0.08911739502999143,
734
+ "grad_norm": 0.022900037467479706,
735
+ "learning_rate": 0.0009263200821770461,
736
+ "loss": 0.2317,
737
+ "step": 104
738
+ },
739
+ {
740
+ "epoch": 0.08997429305912596,
741
+ "grad_norm": 0.02185271680355072,
742
+ "learning_rate": 0.0009246010907632895,
743
+ "loss": 0.2209,
744
+ "step": 105
745
+ },
746
+ {
747
+ "epoch": 0.0908311910882605,
748
+ "grad_norm": 0.021373869851231575,
749
+ "learning_rate": 0.0009228639108519867,
750
+ "loss": 0.2261,
751
+ "step": 106
752
+ },
753
+ {
754
+ "epoch": 0.09168808911739502,
755
+ "grad_norm": 0.02603291906416416,
756
+ "learning_rate": 0.0009211086168581433,
757
+ "loss": 0.2212,
758
+ "step": 107
759
+ },
760
+ {
761
+ "epoch": 0.09254498714652956,
762
+ "grad_norm": 0.021860316395759583,
763
+ "learning_rate": 0.0009193352839727121,
764
+ "loss": 0.2163,
765
+ "step": 108
766
+ },
767
+ {
768
+ "epoch": 0.0934018851756641,
769
+ "grad_norm": 0.021575644612312317,
770
+ "learning_rate": 0.0009175439881593715,
771
+ "loss": 0.2252,
772
+ "step": 109
773
+ },
774
+ {
775
+ "epoch": 0.09425878320479864,
776
+ "grad_norm": 0.02140972390770912,
777
+ "learning_rate": 0.0009157348061512727,
778
+ "loss": 0.2076,
779
+ "step": 110
780
+ },
781
+ {
782
+ "epoch": 0.09511568123393316,
783
+ "grad_norm": 0.023880021646618843,
784
+ "learning_rate": 0.0009139078154477511,
785
+ "loss": 0.2147,
786
+ "step": 111
787
+ },
788
+ {
789
+ "epoch": 0.0959725792630677,
790
+ "grad_norm": 0.02249889075756073,
791
+ "learning_rate": 0.0009120630943110077,
792
+ "loss": 0.2047,
793
+ "step": 112
794
+ },
795
+ {
796
+ "epoch": 0.09682947729220223,
797
+ "grad_norm": 0.020879626274108887,
798
+ "learning_rate": 0.0009102007217627568,
799
+ "loss": 0.2231,
800
+ "step": 113
801
+ },
802
+ {
803
+ "epoch": 0.09768637532133675,
804
+ "grad_norm": 0.021978724747896194,
805
+ "learning_rate": 0.0009083207775808396,
806
+ "loss": 0.2145,
807
+ "step": 114
808
+ },
809
+ {
810
+ "epoch": 0.09854327335047129,
811
+ "grad_norm": 0.023305930197238922,
812
+ "learning_rate": 0.0009064233422958076,
813
+ "loss": 0.2156,
814
+ "step": 115
815
+ },
816
+ {
817
+ "epoch": 0.09940017137960583,
818
+ "grad_norm": 0.022691812366247177,
819
+ "learning_rate": 0.0009045084971874737,
820
+ "loss": 0.2142,
821
+ "step": 116
822
+ },
823
+ {
824
+ "epoch": 0.10025706940874037,
825
+ "grad_norm": 0.019997967407107353,
826
+ "learning_rate": 0.0009025763242814291,
827
+ "loss": 0.2141,
828
+ "step": 117
829
+ },
830
+ {
831
+ "epoch": 0.10111396743787489,
832
+ "grad_norm": 0.021491916850209236,
833
+ "learning_rate": 0.0009006269063455304,
834
+ "loss": 0.2095,
835
+ "step": 118
836
+ },
837
+ {
838
+ "epoch": 0.10197086546700942,
839
+ "grad_norm": 0.019741587340831757,
840
+ "learning_rate": 0.0008986603268863536,
841
+ "loss": 0.2213,
842
+ "step": 119
843
+ },
844
+ {
845
+ "epoch": 0.10282776349614396,
846
+ "grad_norm": 0.02245885692536831,
847
+ "learning_rate": 0.0008966766701456176,
848
+ "loss": 0.2041,
849
+ "step": 120
850
+ },
851
+ {
852
+ "epoch": 0.1036846615252785,
853
+ "grad_norm": 0.020367003977298737,
854
+ "learning_rate": 0.000894676021096575,
855
+ "loss": 0.2052,
856
+ "step": 121
857
+ },
858
+ {
859
+ "epoch": 0.10454155955441302,
860
+ "grad_norm": 0.021478816866874695,
861
+ "learning_rate": 0.0008926584654403724,
862
+ "loss": 0.1999,
863
+ "step": 122
864
+ },
865
+ {
866
+ "epoch": 0.10539845758354756,
867
+ "grad_norm": 0.022485392168164253,
868
+ "learning_rate": 0.0008906240896023794,
869
+ "loss": 0.2066,
870
+ "step": 123
871
+ },
872
+ {
873
+ "epoch": 0.1062553556126821,
874
+ "grad_norm": 0.02136247418820858,
875
+ "learning_rate": 0.0008885729807284854,
876
+ "loss": 0.1972,
877
+ "step": 124
878
+ },
879
+ {
880
+ "epoch": 0.10711225364181662,
881
+ "grad_norm": 0.020799005404114723,
882
+ "learning_rate": 0.0008865052266813684,
883
+ "loss": 0.2062,
884
+ "step": 125
885
+ },
886
+ {
887
+ "epoch": 0.10796915167095116,
888
+ "grad_norm": 0.02335492894053459,
889
+ "learning_rate": 0.0008844209160367298,
890
+ "loss": 0.2004,
891
+ "step": 126
892
+ },
893
+ {
894
+ "epoch": 0.10882604970008569,
895
+ "grad_norm": 0.025448890402913094,
896
+ "learning_rate": 0.0008823201380795002,
897
+ "loss": 0.2053,
898
+ "step": 127
899
+ },
900
+ {
901
+ "epoch": 0.10968294772922023,
902
+ "grad_norm": 0.024005141109228134,
903
+ "learning_rate": 0.0008802029828000156,
904
+ "loss": 0.1926,
905
+ "step": 128
906
+ },
907
+ {
908
+ "epoch": 0.11053984575835475,
909
+ "grad_norm": 0.021053491160273552,
910
+ "learning_rate": 0.0008780695408901613,
911
+ "loss": 0.1938,
912
+ "step": 129
913
+ },
914
+ {
915
+ "epoch": 0.11139674378748929,
916
+ "grad_norm": 0.023733297362923622,
917
+ "learning_rate": 0.0008759199037394887,
918
+ "loss": 0.2013,
919
+ "step": 130
920
+ },
921
+ {
922
+ "epoch": 0.11225364181662383,
923
+ "grad_norm": 0.021928993985056877,
924
+ "learning_rate": 0.0008737541634312985,
925
+ "loss": 0.1939,
926
+ "step": 131
927
+ },
928
+ {
929
+ "epoch": 0.11311053984575835,
930
+ "grad_norm": 0.02457588165998459,
931
+ "learning_rate": 0.0008715724127386971,
932
+ "loss": 0.2005,
933
+ "step": 132
934
+ },
935
+ {
936
+ "epoch": 0.11396743787489289,
937
+ "grad_norm": 0.021438535302877426,
938
+ "learning_rate": 0.0008693747451206231,
939
+ "loss": 0.1984,
940
+ "step": 133
941
+ },
942
+ {
943
+ "epoch": 0.11482433590402742,
944
+ "grad_norm": 0.025149062275886536,
945
+ "learning_rate": 0.0008671612547178428,
946
+ "loss": 0.2042,
947
+ "step": 134
948
+ },
949
+ {
950
+ "epoch": 0.11568123393316196,
951
+ "grad_norm": 0.029300540685653687,
952
+ "learning_rate": 0.0008649320363489178,
953
+ "loss": 0.2056,
954
+ "step": 135
955
+ },
956
+ {
957
+ "epoch": 0.11653813196229648,
958
+ "grad_norm": 0.022236980497837067,
959
+ "learning_rate": 0.0008626871855061438,
960
+ "loss": 0.2056,
961
+ "step": 136
962
+ },
963
+ {
964
+ "epoch": 0.11739502999143102,
965
+ "grad_norm": 0.02103867195546627,
966
+ "learning_rate": 0.0008604267983514594,
967
+ "loss": 0.1949,
968
+ "step": 137
969
+ },
970
+ {
971
+ "epoch": 0.11825192802056556,
972
+ "grad_norm": 0.025057192891836166,
973
+ "learning_rate": 0.0008581509717123273,
974
+ "loss": 0.1993,
975
+ "step": 138
976
+ },
977
+ {
978
+ "epoch": 0.11910882604970009,
979
+ "grad_norm": 0.021641414612531662,
980
+ "learning_rate": 0.0008558598030775857,
981
+ "loss": 0.1969,
982
+ "step": 139
983
+ },
984
+ {
985
+ "epoch": 0.11996572407883462,
986
+ "grad_norm": 0.022903475910425186,
987
+ "learning_rate": 0.0008535533905932737,
988
+ "loss": 0.1971,
989
+ "step": 140
990
+ },
991
+ {
992
+ "epoch": 0.12082262210796915,
993
+ "grad_norm": 0.021558206528425217,
994
+ "learning_rate": 0.0008512318330584259,
995
+ "loss": 0.1932,
996
+ "step": 141
997
+ },
998
+ {
999
+ "epoch": 0.12167952013710369,
1000
+ "grad_norm": 0.024407191202044487,
1001
+ "learning_rate": 0.0008488952299208401,
1002
+ "loss": 0.1872,
1003
+ "step": 142
1004
+ },
1005
+ {
1006
+ "epoch": 0.12253641816623821,
1007
+ "grad_norm": 0.02087639644742012,
1008
+ "learning_rate": 0.000846543681272818,
1009
+ "loss": 0.2032,
1010
+ "step": 143
1011
+ },
1012
+ {
1013
+ "epoch": 0.12339331619537275,
1014
+ "grad_norm": 0.02548481896519661,
1015
+ "learning_rate": 0.000844177287846877,
1016
+ "loss": 0.1924,
1017
+ "step": 144
1018
+ },
1019
+ {
1020
+ "epoch": 0.12425021422450729,
1021
+ "grad_norm": 0.02311697043478489,
1022
+ "learning_rate": 0.0008417961510114356,
1023
+ "loss": 0.1925,
1024
+ "step": 145
1025
+ },
1026
+ {
1027
+ "epoch": 0.12510711225364182,
1028
+ "grad_norm": 0.018741579726338387,
1029
+ "learning_rate": 0.0008394003727664709,
1030
+ "loss": 0.1812,
1031
+ "step": 146
1032
+ },
1033
+ {
1034
+ "epoch": 0.12596401028277635,
1035
+ "grad_norm": 0.025283221155405045,
1036
+ "learning_rate": 0.000836990055739149,
1037
+ "loss": 0.1888,
1038
+ "step": 147
1039
+ },
1040
+ {
1041
+ "epoch": 0.1268209083119109,
1042
+ "grad_norm": 0.025587448850274086,
1043
+ "learning_rate": 0.0008345653031794292,
1044
+ "loss": 0.1942,
1045
+ "step": 148
1046
+ },
1047
+ {
1048
+ "epoch": 0.12767780634104542,
1049
+ "grad_norm": 0.020198052749037743,
1050
+ "learning_rate": 0.0008321262189556409,
1051
+ "loss": 0.1863,
1052
+ "step": 149
1053
+ },
1054
+ {
1055
+ "epoch": 0.12853470437017994,
1056
+ "grad_norm": 0.02162170223891735,
1057
+ "learning_rate": 0.0008296729075500344,
1058
+ "loss": 0.1891,
1059
+ "step": 150
1060
+ },
1061
+ {
1062
+ "epoch": 0.1293916023993145,
1063
+ "grad_norm": 0.022257110103964806,
1064
+ "learning_rate": 0.0008272054740543053,
1065
+ "loss": 0.194,
1066
+ "step": 151
1067
+ },
1068
+ {
1069
+ "epoch": 0.13024850042844902,
1070
+ "grad_norm": 0.022947294637560844,
1071
+ "learning_rate": 0.0008247240241650918,
1072
+ "loss": 0.1836,
1073
+ "step": 152
1074
+ },
1075
+ {
1076
+ "epoch": 0.13110539845758354,
1077
+ "grad_norm": 0.021060343831777573,
1078
+ "learning_rate": 0.0008222286641794488,
1079
+ "loss": 0.1886,
1080
+ "step": 153
1081
+ },
1082
+ {
1083
+ "epoch": 0.1319622964867181,
1084
+ "grad_norm": 0.025356875732541084,
1085
+ "learning_rate": 0.0008197195009902923,
1086
+ "loss": 0.1875,
1087
+ "step": 154
1088
+ },
1089
+ {
1090
+ "epoch": 0.1328191945158526,
1091
+ "grad_norm": 0.022868521511554718,
1092
+ "learning_rate": 0.0008171966420818228,
1093
+ "loss": 0.1904,
1094
+ "step": 155
1095
+ },
1096
+ {
1097
+ "epoch": 0.13367609254498714,
1098
+ "grad_norm": 0.023869860917329788,
1099
+ "learning_rate": 0.0008146601955249188,
1100
+ "loss": 0.1832,
1101
+ "step": 156
1102
+ },
1103
+ {
1104
+ "epoch": 0.13453299057412169,
1105
+ "grad_norm": 0.022344481199979782,
1106
+ "learning_rate": 0.0008121102699725089,
1107
+ "loss": 0.1814,
1108
+ "step": 157
1109
+ },
1110
+ {
1111
+ "epoch": 0.1353898886032562,
1112
+ "grad_norm": 0.0211899783462286,
1113
+ "learning_rate": 0.0008095469746549171,
1114
+ "loss": 0.1929,
1115
+ "step": 158
1116
+ },
1117
+ {
1118
+ "epoch": 0.13624678663239073,
1119
+ "grad_norm": 0.022394029423594475,
1120
+ "learning_rate": 0.0008069704193751832,
1121
+ "loss": 0.1879,
1122
+ "step": 159
1123
+ },
1124
+ {
1125
+ "epoch": 0.13710368466152528,
1126
+ "grad_norm": 0.019436044618487358,
1127
+ "learning_rate": 0.0008043807145043603,
1128
+ "loss": 0.187,
1129
+ "step": 160
1130
+ },
1131
+ {
1132
+ "epoch": 0.1379605826906598,
1133
+ "grad_norm": 0.028875339776277542,
1134
+ "learning_rate": 0.0008017779709767858,
1135
+ "loss": 0.1853,
1136
+ "step": 161
1137
+ },
1138
+ {
1139
+ "epoch": 0.13881748071979436,
1140
+ "grad_norm": 0.024842459708452225,
1141
+ "learning_rate": 0.0007991623002853296,
1142
+ "loss": 0.1858,
1143
+ "step": 162
1144
+ },
1145
+ {
1146
+ "epoch": 0.13967437874892888,
1147
+ "grad_norm": 0.021923067048192024,
1148
+ "learning_rate": 0.0007965338144766185,
1149
+ "loss": 0.1879,
1150
+ "step": 163
1151
+ },
1152
+ {
1153
+ "epoch": 0.1405312767780634,
1154
+ "grad_norm": 0.020001094788312912,
1155
+ "learning_rate": 0.0007938926261462366,
1156
+ "loss": 0.1764,
1157
+ "step": 164
1158
+ },
1159
+ {
1160
+ "epoch": 0.14138817480719795,
1161
+ "grad_norm": 0.02206343039870262,
1162
+ "learning_rate": 0.0007912388484339011,
1163
+ "loss": 0.1851,
1164
+ "step": 165
1165
+ },
1166
+ {
1167
+ "epoch": 0.14224507283633248,
1168
+ "grad_norm": 0.018592318519949913,
1169
+ "learning_rate": 0.0007885725950186169,
1170
+ "loss": 0.1807,
1171
+ "step": 166
1172
+ },
1173
+ {
1174
+ "epoch": 0.143101970865467,
1175
+ "grad_norm": 0.022569900378584862,
1176
+ "learning_rate": 0.000785893980113806,
1177
+ "loss": 0.1782,
1178
+ "step": 167
1179
+ },
1180
+ {
1181
+ "epoch": 0.14395886889460155,
1182
+ "grad_norm": 0.02649298682808876,
1183
+ "learning_rate": 0.0007832031184624164,
1184
+ "loss": 0.1796,
1185
+ "step": 168
1186
+ },
1187
+ {
1188
+ "epoch": 0.14481576692373607,
1189
+ "grad_norm": 0.018016191199421883,
1190
+ "learning_rate": 0.000780500125332005,
1191
+ "loss": 0.1773,
1192
+ "step": 169
1193
+ },
1194
+ {
1195
+ "epoch": 0.1456726649528706,
1196
+ "grad_norm": 0.02014097571372986,
1197
+ "learning_rate": 0.0007777851165098011,
1198
+ "loss": 0.1746,
1199
+ "step": 170
1200
+ },
1201
+ {
1202
+ "epoch": 0.14652956298200515,
1203
+ "grad_norm": 0.01795336976647377,
1204
+ "learning_rate": 0.0007750582082977468,
1205
+ "loss": 0.1794,
1206
+ "step": 171
1207
+ },
1208
+ {
1209
+ "epoch": 0.14738646101113967,
1210
+ "grad_norm": 0.02241736464202404,
1211
+ "learning_rate": 0.0007723195175075137,
1212
+ "loss": 0.1697,
1213
+ "step": 172
1214
+ },
1215
+ {
1216
+ "epoch": 0.14824335904027422,
1217
+ "grad_norm": 0.021646304056048393,
1218
+ "learning_rate": 0.0007695691614555002,
1219
+ "loss": 0.1767,
1220
+ "step": 173
1221
+ },
1222
+ {
1223
+ "epoch": 0.14910025706940874,
1224
+ "grad_norm": 0.01908080466091633,
1225
+ "learning_rate": 0.0007668072579578058,
1226
+ "loss": 0.1808,
1227
+ "step": 174
1228
+ },
1229
+ {
1230
+ "epoch": 0.14995715509854327,
1231
+ "grad_norm": 0.019076567143201828,
1232
+ "learning_rate": 0.000764033925325184,
1233
+ "loss": 0.1753,
1234
+ "step": 175
1235
+ },
1236
+ {
1237
+ "epoch": 0.15081405312767782,
1238
+ "grad_norm": 0.01973322220146656,
1239
+ "learning_rate": 0.0007612492823579744,
1240
+ "loss": 0.1747,
1241
+ "step": 176
1242
+ },
1243
+ {
1244
+ "epoch": 0.15167095115681234,
1245
+ "grad_norm": 0.017605643719434738,
1246
+ "learning_rate": 0.0007584534483410137,
1247
+ "loss": 0.1746,
1248
+ "step": 177
1249
+ },
1250
+ {
1251
+ "epoch": 0.15252784918594686,
1252
+ "grad_norm": 0.017287466675043106,
1253
+ "learning_rate": 0.0007556465430385259,
1254
+ "loss": 0.1778,
1255
+ "step": 178
1256
+ },
1257
+ {
1258
+ "epoch": 0.1533847472150814,
1259
+ "grad_norm": 0.019033176824450493,
1260
+ "learning_rate": 0.0007528286866889924,
1261
+ "loss": 0.1795,
1262
+ "step": 179
1263
+ },
1264
+ {
1265
+ "epoch": 0.15424164524421594,
1266
+ "grad_norm": 0.019875552505254745,
1267
+ "learning_rate": 0.00075,
1268
+ "loss": 0.1637,
1269
+ "step": 180
1270
+ },
1271
+ {
1272
+ "epoch": 0.15509854327335046,
1273
+ "grad_norm": 0.018225200474262238,
1274
+ "learning_rate": 0.0007471606041430723,
1275
+ "loss": 0.167,
1276
+ "step": 181
1277
+ },
1278
+ {
1279
+ "epoch": 0.155955441302485,
1280
+ "grad_norm": 0.019243160262703896,
1281
+ "learning_rate": 0.0007443106207484776,
1282
+ "loss": 0.1704,
1283
+ "step": 182
1284
+ },
1285
+ {
1286
+ "epoch": 0.15681233933161953,
1287
+ "grad_norm": 0.019462725147604942,
1288
+ "learning_rate": 0.0007414501719000186,
1289
+ "loss": 0.1764,
1290
+ "step": 183
1291
+ },
1292
+ {
1293
+ "epoch": 0.15766923736075408,
1294
+ "grad_norm": 0.0178945641964674,
1295
+ "learning_rate": 0.0007385793801298042,
1296
+ "loss": 0.1771,
1297
+ "step": 184
1298
+ },
1299
+ {
1300
+ "epoch": 0.1585261353898886,
1301
+ "grad_norm": 0.01750069111585617,
1302
+ "learning_rate": 0.000735698368412999,
1303
+ "loss": 0.1773,
1304
+ "step": 185
1305
+ },
1306
+ {
1307
+ "epoch": 0.15938303341902313,
1308
+ "grad_norm": 0.023665515705943108,
1309
+ "learning_rate": 0.0007328072601625557,
1310
+ "loss": 0.1842,
1311
+ "step": 186
1312
+ },
1313
+ {
1314
+ "epoch": 0.16023993144815768,
1315
+ "grad_norm": 0.021700644865632057,
1316
+ "learning_rate": 0.00072990617922393,
1317
+ "loss": 0.1668,
1318
+ "step": 187
1319
+ },
1320
+ {
1321
+ "epoch": 0.1610968294772922,
1322
+ "grad_norm": 0.022405751049518585,
1323
+ "learning_rate": 0.0007269952498697733,
1324
+ "loss": 0.1831,
1325
+ "step": 188
1326
+ },
1327
+ {
1328
+ "epoch": 0.16195372750642673,
1329
+ "grad_norm": 0.02437387965619564,
1330
+ "learning_rate": 0.0007240745967946113,
1331
+ "loss": 0.1805,
1332
+ "step": 189
1333
+ },
1334
+ {
1335
+ "epoch": 0.16281062553556128,
1336
+ "grad_norm": 0.019709205254912376,
1337
+ "learning_rate": 0.0007211443451095007,
1338
+ "loss": 0.1691,
1339
+ "step": 190
1340
+ },
1341
+ {
1342
+ "epoch": 0.1636675235646958,
1343
+ "grad_norm": 0.02336045354604721,
1344
+ "learning_rate": 0.000718204620336671,
1345
+ "loss": 0.1751,
1346
+ "step": 191
1347
+ },
1348
+ {
1349
+ "epoch": 0.16452442159383032,
1350
+ "grad_norm": 0.0230086762458086,
1351
+ "learning_rate": 0.0007152555484041476,
1352
+ "loss": 0.1697,
1353
+ "step": 192
1354
+ },
1355
+ {
1356
+ "epoch": 0.16538131962296487,
1357
+ "grad_norm": 0.01794915646314621,
1358
+ "learning_rate": 0.0007122972556403566,
1359
+ "loss": 0.1704,
1360
+ "step": 193
1361
+ },
1362
+ {
1363
+ "epoch": 0.1662382176520994,
1364
+ "grad_norm": 0.02200886234641075,
1365
+ "learning_rate": 0.0007093298687687141,
1366
+ "loss": 0.1741,
1367
+ "step": 194
1368
+ },
1369
+ {
1370
+ "epoch": 0.16709511568123395,
1371
+ "grad_norm": 0.02043880894780159,
1372
+ "learning_rate": 0.0007063535149021973,
1373
+ "loss": 0.1753,
1374
+ "step": 195
1375
+ },
1376
+ {
1377
+ "epoch": 0.16795201371036847,
1378
+ "grad_norm": 0.018617108464241028,
1379
+ "learning_rate": 0.0007033683215379002,
1380
+ "loss": 0.1727,
1381
+ "step": 196
1382
+ },
1383
+ {
1384
+ "epoch": 0.168808911739503,
1385
+ "grad_norm": 0.023497916758060455,
1386
+ "learning_rate": 0.0007003744165515704,
1387
+ "loss": 0.1647,
1388
+ "step": 197
1389
+ },
1390
+ {
1391
+ "epoch": 0.16966580976863754,
1392
+ "grad_norm": 0.021086974069476128,
1393
+ "learning_rate": 0.0006973719281921336,
1394
+ "loss": 0.1675,
1395
+ "step": 198
1396
+ },
1397
+ {
1398
+ "epoch": 0.17052270779777207,
1399
+ "grad_norm": 0.018384108319878578,
1400
+ "learning_rate": 0.0006943609850761978,
1401
+ "loss": 0.1738,
1402
+ "step": 199
1403
+ },
1404
+ {
1405
+ "epoch": 0.1713796058269066,
1406
+ "grad_norm": 0.019381960853934288,
1407
+ "learning_rate": 0.000691341716182545,
1408
+ "loss": 0.1711,
1409
+ "step": 200
1410
+ },
1411
+ {
1412
+ "epoch": 0.17223650385604114,
1413
+ "grad_norm": 0.023446090519428253,
1414
+ "learning_rate": 0.0006883142508466054,
1415
+ "loss": 0.17,
1416
+ "step": 201
1417
+ },
1418
+ {
1419
+ "epoch": 0.17309340188517566,
1420
+ "grad_norm": 0.018001163378357887,
1421
+ "learning_rate": 0.0006852787187549182,
1422
+ "loss": 0.1675,
1423
+ "step": 202
1424
+ },
1425
+ {
1426
+ "epoch": 0.17395029991431019,
1427
+ "grad_norm": 0.018448330461978912,
1428
+ "learning_rate": 0.000682235249939575,
1429
+ "loss": 0.1732,
1430
+ "step": 203
1431
+ },
1432
+ {
1433
+ "epoch": 0.17480719794344474,
1434
+ "grad_norm": 0.022160930559039116,
1435
+ "learning_rate": 0.0006791839747726501,
1436
+ "loss": 0.1737,
1437
+ "step": 204
1438
+ },
1439
+ {
1440
+ "epoch": 0.17566409597257926,
1441
+ "grad_norm": 0.021703101694583893,
1442
+ "learning_rate": 0.0006761250239606168,
1443
+ "loss": 0.1716,
1444
+ "step": 205
1445
+ },
1446
+ {
1447
+ "epoch": 0.17652099400171378,
1448
+ "grad_norm": 0.03577428311109543,
1449
+ "learning_rate": 0.0006730585285387465,
1450
+ "loss": 0.2503,
1451
+ "step": 206
1452
+ },
1453
+ {
1454
+ "epoch": 0.17737789203084833,
1455
+ "grad_norm": 0.021015428006649017,
1456
+ "learning_rate": 0.000669984619865497,
1457
+ "loss": 0.1683,
1458
+ "step": 207
1459
+ },
1460
+ {
1461
+ "epoch": 0.17823479005998286,
1462
+ "grad_norm": 0.027599437162280083,
1463
+ "learning_rate": 0.0006669034296168854,
1464
+ "loss": 0.1679,
1465
+ "step": 208
1466
+ },
1467
+ {
1468
+ "epoch": 0.1790916880891174,
1469
+ "grad_norm": 0.02527066133916378,
1470
+ "learning_rate": 0.0006638150897808468,
1471
+ "loss": 0.1711,
1472
+ "step": 209
1473
+ },
1474
+ {
1475
+ "epoch": 0.17994858611825193,
1476
+ "grad_norm": 0.021573588252067566,
1477
+ "learning_rate": 0.0006607197326515808,
1478
+ "loss": 0.1709,
1479
+ "step": 210
1480
+ },
1481
+ {
1482
+ "epoch": 0.18080548414738645,
1483
+ "grad_norm": 0.022143971174955368,
1484
+ "learning_rate": 0.0006576174908238849,
1485
+ "loss": 0.1695,
1486
+ "step": 211
1487
+ },
1488
+ {
1489
+ "epoch": 0.181662382176521,
1490
+ "grad_norm": 0.019489064812660217,
1491
+ "learning_rate": 0.0006545084971874737,
1492
+ "loss": 0.1713,
1493
+ "step": 212
1494
+ },
1495
+ {
1496
+ "epoch": 0.18251928020565553,
1497
+ "grad_norm": 0.016801459714770317,
1498
+ "learning_rate": 0.0006513928849212874,
1499
+ "loss": 0.1628,
1500
+ "step": 213
1501
+ },
1502
+ {
1503
+ "epoch": 0.18337617823479005,
1504
+ "grad_norm": 0.02975154109299183,
1505
+ "learning_rate": 0.0006482707874877854,
1506
+ "loss": 0.1671,
1507
+ "step": 214
1508
+ },
1509
+ {
1510
+ "epoch": 0.1842330762639246,
1511
+ "grad_norm": 0.016304058954119682,
1512
+ "learning_rate": 0.0006451423386272311,
1513
+ "loss": 0.1681,
1514
+ "step": 215
1515
+ },
1516
+ {
1517
+ "epoch": 0.18508997429305912,
1518
+ "grad_norm": 0.018919240683317184,
1519
+ "learning_rate": 0.0006420076723519614,
1520
+ "loss": 0.1632,
1521
+ "step": 216
1522
+ },
1523
+ {
1524
+ "epoch": 0.18594687232219365,
1525
+ "grad_norm": 0.017546426504850388,
1526
+ "learning_rate": 0.0006388669229406462,
1527
+ "loss": 0.1626,
1528
+ "step": 217
1529
+ },
1530
+ {
1531
+ "epoch": 0.1868037703513282,
1532
+ "grad_norm": 0.018862828612327576,
1533
+ "learning_rate": 0.0006357202249325371,
1534
+ "loss": 0.1779,
1535
+ "step": 218
1536
+ },
1537
+ {
1538
+ "epoch": 0.18766066838046272,
1539
+ "grad_norm": 0.01685691997408867,
1540
+ "learning_rate": 0.000632567713121704,
1541
+ "loss": 0.1736,
1542
+ "step": 219
1543
+ },
1544
+ {
1545
+ "epoch": 0.18851756640959727,
1546
+ "grad_norm": 0.017843585461378098,
1547
+ "learning_rate": 0.0006294095225512603,
1548
+ "loss": 0.1685,
1549
+ "step": 220
1550
+ },
1551
+ {
1552
+ "epoch": 0.1893744644387318,
1553
+ "grad_norm": 0.019433507695794106,
1554
+ "learning_rate": 0.000626245788507579,
1555
+ "loss": 0.1601,
1556
+ "step": 221
1557
+ },
1558
+ {
1559
+ "epoch": 0.19023136246786632,
1560
+ "grad_norm": 0.017471810802817345,
1561
+ "learning_rate": 0.0006230766465144965,
1562
+ "loss": 0.1626,
1563
+ "step": 222
1564
+ },
1565
+ {
1566
+ "epoch": 0.19108826049700087,
1567
+ "grad_norm": 0.021109052002429962,
1568
+ "learning_rate": 0.0006199022323275083,
1569
+ "loss": 0.1608,
1570
+ "step": 223
1571
+ },
1572
+ {
1573
+ "epoch": 0.1919451585261354,
1574
+ "grad_norm": 0.017889205366373062,
1575
+ "learning_rate": 0.0006167226819279528,
1576
+ "loss": 0.1666,
1577
+ "step": 224
1578
+ },
1579
+ {
1580
+ "epoch": 0.1928020565552699,
1581
+ "grad_norm": 0.01807485520839691,
1582
+ "learning_rate": 0.0006135381315171866,
1583
+ "loss": 0.1717,
1584
+ "step": 225
1585
+ },
1586
+ {
1587
+ "epoch": 0.19365895458440446,
1588
+ "grad_norm": 0.01634569652378559,
1589
+ "learning_rate": 0.0006103487175107507,
1590
+ "loss": 0.1698,
1591
+ "step": 226
1592
+ },
1593
+ {
1594
+ "epoch": 0.194515852613539,
1595
+ "grad_norm": 0.019904734566807747,
1596
+ "learning_rate": 0.0006071545765325253,
1597
+ "loss": 0.1638,
1598
+ "step": 227
1599
+ },
1600
+ {
1601
+ "epoch": 0.1953727506426735,
1602
+ "grad_norm": 0.020387910306453705,
1603
+ "learning_rate": 0.0006039558454088796,
1604
+ "loss": 0.1689,
1605
+ "step": 228
1606
+ },
1607
+ {
1608
+ "epoch": 0.19622964867180806,
1609
+ "grad_norm": 0.018753819167613983,
1610
+ "learning_rate": 0.0006007526611628086,
1611
+ "loss": 0.1617,
1612
+ "step": 229
1613
+ },
1614
+ {
1615
+ "epoch": 0.19708654670094258,
1616
+ "grad_norm": 0.015613901428878307,
1617
+ "learning_rate": 0.0005975451610080642,
1618
+ "loss": 0.1563,
1619
+ "step": 230
1620
+ },
1621
+ {
1622
+ "epoch": 0.19794344473007713,
1623
+ "grad_norm": 0.018909510225057602,
1624
+ "learning_rate": 0.0005943334823432777,
1625
+ "loss": 0.1633,
1626
+ "step": 231
1627
+ },
1628
+ {
1629
+ "epoch": 0.19880034275921166,
1630
+ "grad_norm": 0.01886546052992344,
1631
+ "learning_rate": 0.0005911177627460738,
1632
+ "loss": 0.1579,
1633
+ "step": 232
1634
+ },
1635
+ {
1636
+ "epoch": 0.19965724078834618,
1637
+ "grad_norm": 0.014775911346077919,
1638
+ "learning_rate": 0.0005878981399671774,
1639
+ "loss": 0.1632,
1640
+ "step": 233
1641
+ },
1642
+ {
1643
+ "epoch": 0.20051413881748073,
1644
+ "grad_norm": 0.01664350926876068,
1645
+ "learning_rate": 0.0005846747519245122,
1646
+ "loss": 0.1647,
1647
+ "step": 234
1648
+ },
1649
+ {
1650
+ "epoch": 0.20137103684661525,
1651
+ "grad_norm": 0.015615535899996758,
1652
+ "learning_rate": 0.0005814477366972944,
1653
+ "loss": 0.1492,
1654
+ "step": 235
1655
+ },
1656
+ {
1657
+ "epoch": 0.20222793487574978,
1658
+ "grad_norm": 0.020716892555356026,
1659
+ "learning_rate": 0.0005782172325201155,
1660
+ "loss": 0.166,
1661
+ "step": 236
1662
+ },
1663
+ {
1664
+ "epoch": 0.20308483290488433,
1665
+ "grad_norm": 0.016642222180962563,
1666
+ "learning_rate": 0.0005749833777770225,
1667
+ "loss": 0.1598,
1668
+ "step": 237
1669
+ },
1670
+ {
1671
+ "epoch": 0.20394173093401885,
1672
+ "grad_norm": 0.02147907204926014,
1673
+ "learning_rate": 0.0005717463109955896,
1674
+ "loss": 0.1604,
1675
+ "step": 238
1676
+ },
1677
+ {
1678
+ "epoch": 0.20479862896315337,
1679
+ "grad_norm": 0.019267620518803596,
1680
+ "learning_rate": 0.0005685061708409841,
1681
+ "loss": 0.1558,
1682
+ "step": 239
1683
+ },
1684
+ {
1685
+ "epoch": 0.20565552699228792,
1686
+ "grad_norm": 0.016083069145679474,
1687
+ "learning_rate": 0.000565263096110026,
1688
+ "loss": 0.1593,
1689
+ "step": 240
1690
+ },
1691
+ {
1692
+ "epoch": 0.20651242502142245,
1693
+ "grad_norm": 0.023486295714974403,
1694
+ "learning_rate": 0.0005620172257252427,
1695
+ "loss": 0.1461,
1696
+ "step": 241
1697
+ },
1698
+ {
1699
+ "epoch": 0.207369323050557,
1700
+ "grad_norm": 0.018065959215164185,
1701
+ "learning_rate": 0.0005587686987289189,
1702
+ "loss": 0.1673,
1703
+ "step": 242
1704
+ },
1705
+ {
1706
+ "epoch": 0.20822622107969152,
1707
+ "grad_norm": 0.02077527344226837,
1708
+ "learning_rate": 0.0005555176542771388,
1709
+ "loss": 0.1617,
1710
+ "step": 243
1711
+ },
1712
+ {
1713
+ "epoch": 0.20908311910882604,
1714
+ "grad_norm": 0.01682773232460022,
1715
+ "learning_rate": 0.0005522642316338268,
1716
+ "loss": 0.1626,
1717
+ "step": 244
1718
+ },
1719
+ {
1720
+ "epoch": 0.2099400171379606,
1721
+ "grad_norm": 0.01779726706445217,
1722
+ "learning_rate": 0.0005490085701647804,
1723
+ "loss": 0.1585,
1724
+ "step": 245
1725
+ },
1726
+ {
1727
+ "epoch": 0.21079691516709512,
1728
+ "grad_norm": 0.01758912205696106,
1729
+ "learning_rate": 0.0005457508093317013,
1730
+ "loss": 0.1642,
1731
+ "step": 246
1732
+ },
1733
+ {
1734
+ "epoch": 0.21165381319622964,
1735
+ "grad_norm": 0.01853191666305065,
1736
+ "learning_rate": 0.0005424910886862209,
1737
+ "loss": 0.1729,
1738
+ "step": 247
1739
+ },
1740
+ {
1741
+ "epoch": 0.2125107112253642,
1742
+ "grad_norm": 0.015318380668759346,
1743
+ "learning_rate": 0.0005392295478639225,
1744
+ "loss": 0.1519,
1745
+ "step": 248
1746
+ },
1747
+ {
1748
+ "epoch": 0.2133676092544987,
1749
+ "grad_norm": 0.016783015802502632,
1750
+ "learning_rate": 0.0005359663265783598,
1751
+ "loss": 0.1534,
1752
+ "step": 249
1753
+ },
1754
+ {
1755
+ "epoch": 0.21422450728363324,
1756
+ "grad_norm": 0.019508186727762222,
1757
+ "learning_rate": 0.0005327015646150716,
1758
+ "loss": 0.1573,
1759
+ "step": 250
1760
+ },
1761
+ {
1762
+ "epoch": 0.2150814053127678,
1763
+ "grad_norm": 0.017221014946699142,
1764
+ "learning_rate": 0.0005294354018255945,
1765
+ "loss": 0.168,
1766
+ "step": 251
1767
+ },
1768
+ {
1769
+ "epoch": 0.2159383033419023,
1770
+ "grad_norm": 0.015044581145048141,
1771
+ "learning_rate": 0.000526167978121472,
1772
+ "loss": 0.168,
1773
+ "step": 252
1774
+ },
1775
+ {
1776
+ "epoch": 0.21679520137103683,
1777
+ "grad_norm": 0.016873784363269806,
1778
+ "learning_rate": 0.0005228994334682604,
1779
+ "loss": 0.1585,
1780
+ "step": 253
1781
+ },
1782
+ {
1783
+ "epoch": 0.21765209940017138,
1784
+ "grad_norm": 0.017317088320851326,
1785
+ "learning_rate": 0.0005196299078795343,
1786
+ "loss": 0.1556,
1787
+ "step": 254
1788
+ },
1789
+ {
1790
+ "epoch": 0.2185089974293059,
1791
+ "grad_norm": 0.017208045348525047,
1792
+ "learning_rate": 0.0005163595414108881,
1793
+ "loss": 0.1551,
1794
+ "step": 255
1795
+ },
1796
+ {
1797
+ "epoch": 0.21936589545844046,
1798
+ "grad_norm": 0.015319808386266232,
1799
+ "learning_rate": 0.0005130884741539367,
1800
+ "loss": 0.1491,
1801
+ "step": 256
1802
+ },
1803
+ {
1804
+ "epoch": 0.22022279348757498,
1805
+ "grad_norm": 0.020643778145313263,
1806
+ "learning_rate": 0.0005098168462303141,
1807
+ "loss": 0.1629,
1808
+ "step": 257
1809
+ },
1810
+ {
1811
+ "epoch": 0.2210796915167095,
1812
+ "grad_norm": 0.01764957793056965,
1813
+ "learning_rate": 0.0005065447977856722,
1814
+ "loss": 0.16,
1815
+ "step": 258
1816
+ },
1817
+ {
1818
+ "epoch": 0.22193658954584405,
1819
+ "grad_norm": 0.014267503283917904,
1820
+ "learning_rate": 0.0005032724689836759,
1821
+ "loss": 0.1524,
1822
+ "step": 259
1823
+ },
1824
+ {
1825
+ "epoch": 0.22279348757497858,
1826
+ "grad_norm": 0.016303062438964844,
1827
+ "learning_rate": 0.0005,
1828
+ "loss": 0.1544,
1829
+ "step": 260
1830
+ },
1831
+ {
1832
+ "epoch": 0.2236503856041131,
1833
+ "grad_norm": 0.021528156474232674,
1834
+ "learning_rate": 0.0004967275310163241,
1835
+ "loss": 0.155,
1836
+ "step": 261
1837
+ },
1838
+ {
1839
+ "epoch": 0.22450728363324765,
1840
+ "grad_norm": 0.017993303015828133,
1841
+ "learning_rate": 0.0004934552022143279,
1842
+ "loss": 0.1646,
1843
+ "step": 262
1844
+ },
1845
+ {
1846
+ "epoch": 0.22536418166238217,
1847
+ "grad_norm": 0.018955664709210396,
1848
+ "learning_rate": 0.0004901831537696859,
1849
+ "loss": 0.1564,
1850
+ "step": 263
1851
+ },
1852
+ {
1853
+ "epoch": 0.2262210796915167,
1854
+ "grad_norm": 0.01549836527556181,
1855
+ "learning_rate": 0.0004869115258460635,
1856
+ "loss": 0.1605,
1857
+ "step": 264
1858
+ },
1859
+ {
1860
+ "epoch": 0.22707797772065125,
1861
+ "grad_norm": 0.019947407767176628,
1862
+ "learning_rate": 0.00048364045858911197,
1863
+ "loss": 0.1586,
1864
+ "step": 265
1865
+ },
1866
+ {
1867
+ "epoch": 0.22793487574978577,
1868
+ "grad_norm": 0.022805072367191315,
1869
+ "learning_rate": 0.00048037009212046586,
1870
+ "loss": 0.1585,
1871
+ "step": 266
1872
+ },
1873
+ {
1874
+ "epoch": 0.22879177377892032,
1875
+ "grad_norm": 0.014930406585335732,
1876
+ "learning_rate": 0.0004771005665317397,
1877
+ "loss": 0.1541,
1878
+ "step": 267
1879
+ },
1880
+ {
1881
+ "epoch": 0.22964867180805484,
1882
+ "grad_norm": 0.017478667199611664,
1883
+ "learning_rate": 0.0004738320218785281,
1884
+ "loss": 0.1652,
1885
+ "step": 268
1886
+ },
1887
+ {
1888
+ "epoch": 0.23050556983718937,
1889
+ "grad_norm": 0.016168439760804176,
1890
+ "learning_rate": 0.00047056459817440544,
1891
+ "loss": 0.1558,
1892
+ "step": 269
1893
+ },
1894
+ {
1895
+ "epoch": 0.23136246786632392,
1896
+ "grad_norm": 0.018146967515349388,
1897
+ "learning_rate": 0.00046729843538492847,
1898
+ "loss": 0.1589,
1899
+ "step": 270
1900
+ },
1901
+ {
1902
+ "epoch": 0.23221936589545844,
1903
+ "grad_norm": 0.021017901599407196,
1904
+ "learning_rate": 0.00046403367342164026,
1905
+ "loss": 0.158,
1906
+ "step": 271
1907
+ },
1908
+ {
1909
+ "epoch": 0.23307626392459296,
1910
+ "grad_norm": 0.0199353639036417,
1911
+ "learning_rate": 0.0004607704521360776,
1912
+ "loss": 0.159,
1913
+ "step": 272
1914
+ },
1915
+ {
1916
+ "epoch": 0.23393316195372751,
1917
+ "grad_norm": 0.0214347206056118,
1918
+ "learning_rate": 0.0004575089113137792,
1919
+ "loss": 0.1594,
1920
+ "step": 273
1921
+ },
1922
+ {
1923
+ "epoch": 0.23479005998286204,
1924
+ "grad_norm": 0.01558151189237833,
1925
+ "learning_rate": 0.00045424919066829885,
1926
+ "loss": 0.1595,
1927
+ "step": 274
1928
+ },
1929
+ {
1930
+ "epoch": 0.23564695801199656,
1931
+ "grad_norm": 0.01718144491314888,
1932
+ "learning_rate": 0.0004509914298352197,
1933
+ "loss": 0.1636,
1934
+ "step": 275
1935
+ },
1936
+ {
1937
+ "epoch": 0.2365038560411311,
1938
+ "grad_norm": 0.0169569943100214,
1939
+ "learning_rate": 0.00044773576836617336,
1940
+ "loss": 0.1581,
1941
+ "step": 276
1942
+ },
1943
+ {
1944
+ "epoch": 0.23736075407026563,
1945
+ "grad_norm": 0.01732802391052246,
1946
+ "learning_rate": 0.0004444823457228612,
1947
+ "loss": 0.1544,
1948
+ "step": 277
1949
+ },
1950
+ {
1951
+ "epoch": 0.23821765209940018,
1952
+ "grad_norm": 0.01665407046675682,
1953
+ "learning_rate": 0.00044123130127108126,
1954
+ "loss": 0.1607,
1955
+ "step": 278
1956
+ },
1957
+ {
1958
+ "epoch": 0.2390745501285347,
1959
+ "grad_norm": 0.0163556020706892,
1960
+ "learning_rate": 0.0004379827742747575,
1961
+ "loss": 0.1544,
1962
+ "step": 279
1963
+ },
1964
+ {
1965
+ "epoch": 0.23993144815766923,
1966
+ "grad_norm": 0.01844378188252449,
1967
+ "learning_rate": 0.00043473690388997434,
1968
+ "loss": 0.1552,
1969
+ "step": 280
1970
+ },
1971
+ {
1972
+ "epoch": 0.24078834618680378,
1973
+ "grad_norm": 0.01735353097319603,
1974
+ "learning_rate": 0.0004314938291590161,
1975
+ "loss": 0.1592,
1976
+ "step": 281
1977
+ },
1978
+ {
1979
+ "epoch": 0.2416452442159383,
1980
+ "grad_norm": 0.01745842583477497,
1981
+ "learning_rate": 0.0004282536890044104,
1982
+ "loss": 0.1548,
1983
+ "step": 282
1984
+ },
1985
+ {
1986
+ "epoch": 0.24250214224507283,
1987
+ "grad_norm": 0.015916811302304268,
1988
+ "learning_rate": 0.0004250166222229774,
1989
+ "loss": 0.1512,
1990
+ "step": 283
1991
+ },
1992
+ {
1993
+ "epoch": 0.24335904027420738,
1994
+ "grad_norm": 0.015339579433202744,
1995
+ "learning_rate": 0.0004217827674798845,
1996
+ "loss": 0.1553,
1997
+ "step": 284
1998
+ },
1999
+ {
2000
+ "epoch": 0.2442159383033419,
2001
+ "grad_norm": 0.01986338384449482,
2002
+ "learning_rate": 0.0004185522633027057,
2003
+ "loss": 0.163,
2004
+ "step": 285
2005
+ },
2006
+ {
2007
+ "epoch": 0.24507283633247642,
2008
+ "grad_norm": 0.018619602546095848,
2009
+ "learning_rate": 0.0004153252480754877,
2010
+ "loss": 0.1526,
2011
+ "step": 286
2012
+ },
2013
+ {
2014
+ "epoch": 0.24592973436161097,
2015
+ "grad_norm": 0.016342243179678917,
2016
+ "learning_rate": 0.00041210186003282274,
2017
+ "loss": 0.157,
2018
+ "step": 287
2019
+ },
2020
+ {
2021
+ "epoch": 0.2467866323907455,
2022
+ "grad_norm": 0.016473161056637764,
2023
+ "learning_rate": 0.00040888223725392626,
2024
+ "loss": 0.1638,
2025
+ "step": 288
2026
+ },
2027
+ {
2028
+ "epoch": 0.24764353041988005,
2029
+ "grad_norm": 0.015475657768547535,
2030
+ "learning_rate": 0.00040566651765672245,
2031
+ "loss": 0.1566,
2032
+ "step": 289
2033
+ },
2034
+ {
2035
+ "epoch": 0.24850042844901457,
2036
+ "grad_norm": 0.019614532589912415,
2037
+ "learning_rate": 0.00040245483899193594,
2038
+ "loss": 0.1563,
2039
+ "step": 290
2040
+ },
2041
+ {
2042
+ "epoch": 0.2493573264781491,
2043
+ "grad_norm": 0.01654512993991375,
2044
+ "learning_rate": 0.00039924733883719147,
2045
+ "loss": 0.155,
2046
+ "step": 291
2047
+ },
2048
+ {
2049
+ "epoch": 0.25021422450728364,
2050
+ "grad_norm": 0.01950278878211975,
2051
+ "learning_rate": 0.0003960441545911204,
2052
+ "loss": 0.1562,
2053
+ "step": 292
2054
+ },
2055
+ {
2056
+ "epoch": 0.25107112253641817,
2057
+ "grad_norm": 0.014652718789875507,
2058
+ "learning_rate": 0.0003928454234674747,
2059
+ "loss": 0.1524,
2060
+ "step": 293
2061
+ },
2062
+ {
2063
+ "epoch": 0.2519280205655527,
2064
+ "grad_norm": 0.014939884655177593,
2065
+ "learning_rate": 0.0003896512824892495,
2066
+ "loss": 0.1541,
2067
+ "step": 294
2068
+ },
2069
+ {
2070
+ "epoch": 0.2527849185946872,
2071
+ "grad_norm": 0.0260702446103096,
2072
+ "learning_rate": 0.00038646186848281344,
2073
+ "loss": 0.1603,
2074
+ "step": 295
2075
+ },
2076
+ {
2077
+ "epoch": 0.2536418166238218,
2078
+ "grad_norm": 0.022277580574154854,
2079
+ "learning_rate": 0.00038327731807204744,
2080
+ "loss": 0.1559,
2081
+ "step": 296
2082
+ },
2083
+ {
2084
+ "epoch": 0.2544987146529563,
2085
+ "grad_norm": 0.017295408993959427,
2086
+ "learning_rate": 0.0003800977676724919,
2087
+ "loss": 0.1641,
2088
+ "step": 297
2089
+ },
2090
+ {
2091
+ "epoch": 0.25535561268209084,
2092
+ "grad_norm": 0.015900392085313797,
2093
+ "learning_rate": 0.0003769233534855035,
2094
+ "loss": 0.1569,
2095
+ "step": 298
2096
+ },
2097
+ {
2098
+ "epoch": 0.25621251071122536,
2099
+ "grad_norm": 0.02040684036910534,
2100
+ "learning_rate": 0.00037375421149242103,
2101
+ "loss": 0.1529,
2102
+ "step": 299
2103
+ },
2104
+ {
2105
+ "epoch": 0.2570694087403599,
2106
+ "grad_norm": 0.020803892984986305,
2107
+ "learning_rate": 0.0003705904774487396,
2108
+ "loss": 0.1546,
2109
+ "step": 300
2110
+ },
2111
+ {
2112
+ "epoch": 0.2579263067694944,
2113
+ "grad_norm": 0.017124850302934647,
2114
+ "learning_rate": 0.0003674322868782959,
2115
+ "loss": 0.1499,
2116
+ "step": 301
2117
+ },
2118
+ {
2119
+ "epoch": 0.258783204798629,
2120
+ "grad_norm": 0.015450037084519863,
2121
+ "learning_rate": 0.0003642797750674629,
2122
+ "loss": 0.1485,
2123
+ "step": 302
2124
+ },
2125
+ {
2126
+ "epoch": 0.2596401028277635,
2127
+ "grad_norm": 0.017722809687256813,
2128
+ "learning_rate": 0.00036113307705935393,
2129
+ "loss": 0.158,
2130
+ "step": 303
2131
+ },
2132
+ {
2133
+ "epoch": 0.26049700085689803,
2134
+ "grad_norm": 0.016334377229213715,
2135
+ "learning_rate": 0.0003579923276480387,
2136
+ "loss": 0.1583,
2137
+ "step": 304
2138
+ },
2139
+ {
2140
+ "epoch": 0.26135389888603255,
2141
+ "grad_norm": 0.014489492401480675,
2142
+ "learning_rate": 0.0003548576613727689,
2143
+ "loss": 0.1493,
2144
+ "step": 305
2145
+ },
2146
+ {
2147
+ "epoch": 0.2622107969151671,
2148
+ "grad_norm": 0.022003574296832085,
2149
+ "learning_rate": 0.0003517292125122146,
2150
+ "loss": 0.159,
2151
+ "step": 306
2152
+ },
2153
+ {
2154
+ "epoch": 0.26306769494430166,
2155
+ "grad_norm": 0.01759640872478485,
2156
+ "learning_rate": 0.0003486071150787128,
2157
+ "loss": 0.1485,
2158
+ "step": 307
2159
+ },
2160
+ {
2161
+ "epoch": 0.2639245929734362,
2162
+ "grad_norm": 0.017299624159932137,
2163
+ "learning_rate": 0.00034549150281252633,
2164
+ "loss": 0.1552,
2165
+ "step": 308
2166
+ },
2167
+ {
2168
+ "epoch": 0.2647814910025707,
2169
+ "grad_norm": 0.015600617974996567,
2170
+ "learning_rate": 0.0003423825091761153,
2171
+ "loss": 0.1535,
2172
+ "step": 309
2173
+ },
2174
+ {
2175
+ "epoch": 0.2656383890317052,
2176
+ "grad_norm": 0.016550280153751373,
2177
+ "learning_rate": 0.0003392802673484193,
2178
+ "loss": 0.1513,
2179
+ "step": 310
2180
+ },
2181
+ {
2182
+ "epoch": 0.26649528706083975,
2183
+ "grad_norm": 0.014733058400452137,
2184
+ "learning_rate": 0.0003361849102191533,
2185
+ "loss": 0.1542,
2186
+ "step": 311
2187
+ },
2188
+ {
2189
+ "epoch": 0.26735218508997427,
2190
+ "grad_norm": 0.015453443862497807,
2191
+ "learning_rate": 0.00033309657038311456,
2192
+ "loss": 0.1567,
2193
+ "step": 312
2194
+ },
2195
+ {
2196
+ "epoch": 0.26820908311910885,
2197
+ "grad_norm": 0.01371778268367052,
2198
+ "learning_rate": 0.00033001538013450283,
2199
+ "loss": 0.1545,
2200
+ "step": 313
2201
+ },
2202
+ {
2203
+ "epoch": 0.26906598114824337,
2204
+ "grad_norm": 0.014121933840215206,
2205
+ "learning_rate": 0.0003269414714612534,
2206
+ "loss": 0.1579,
2207
+ "step": 314
2208
+ },
2209
+ {
2210
+ "epoch": 0.2699228791773779,
2211
+ "grad_norm": 0.012276604771614075,
2212
+ "learning_rate": 0.00032387497603938325,
2213
+ "loss": 0.1493,
2214
+ "step": 315
2215
+ },
2216
+ {
2217
+ "epoch": 0.2707797772065124,
2218
+ "grad_norm": 0.017444469034671783,
2219
+ "learning_rate": 0.00032081602522734986,
2220
+ "loss": 0.1535,
2221
+ "step": 316
2222
+ },
2223
+ {
2224
+ "epoch": 0.27163667523564694,
2225
+ "grad_norm": 0.01802118867635727,
2226
+ "learning_rate": 0.0003177647500604252,
2227
+ "loss": 0.1556,
2228
+ "step": 317
2229
+ },
2230
+ {
2231
+ "epoch": 0.27249357326478146,
2232
+ "grad_norm": 0.014814218506217003,
2233
+ "learning_rate": 0.00031472128124508187,
2234
+ "loss": 0.1534,
2235
+ "step": 318
2236
+ },
2237
+ {
2238
+ "epoch": 0.27335047129391604,
2239
+ "grad_norm": 0.02104412205517292,
2240
+ "learning_rate": 0.00031168574915339467,
2241
+ "loss": 0.1572,
2242
+ "step": 319
2243
+ },
2244
+ {
2245
+ "epoch": 0.27420736932305056,
2246
+ "grad_norm": 0.014852729625999928,
2247
+ "learning_rate": 0.0003086582838174551,
2248
+ "loss": 0.1509,
2249
+ "step": 320
2250
+ },
2251
+ {
2252
+ "epoch": 0.2750642673521851,
2253
+ "grad_norm": 0.013851814903318882,
2254
+ "learning_rate": 0.0003056390149238022,
2255
+ "loss": 0.1557,
2256
+ "step": 321
2257
+ },
2258
+ {
2259
+ "epoch": 0.2759211653813196,
2260
+ "grad_norm": 0.014435027725994587,
2261
+ "learning_rate": 0.00030262807180786645,
2262
+ "loss": 0.1516,
2263
+ "step": 322
2264
+ },
2265
+ {
2266
+ "epoch": 0.27677806341045413,
2267
+ "grad_norm": 0.014334925450384617,
2268
+ "learning_rate": 0.00029962558344842963,
2269
+ "loss": 0.1542,
2270
+ "step": 323
2271
+ },
2272
+ {
2273
+ "epoch": 0.2776349614395887,
2274
+ "grad_norm": 0.017674414440989494,
2275
+ "learning_rate": 0.0002966316784621,
2276
+ "loss": 0.1525,
2277
+ "step": 324
2278
+ },
2279
+ {
2280
+ "epoch": 0.27849185946872324,
2281
+ "grad_norm": 0.019711866974830627,
2282
+ "learning_rate": 0.0002936464850978027,
2283
+ "loss": 0.1486,
2284
+ "step": 325
2285
+ },
2286
+ {
2287
+ "epoch": 0.27934875749785776,
2288
+ "grad_norm": 0.015335663221776485,
2289
+ "learning_rate": 0.0002906701312312861,
2290
+ "loss": 0.1508,
2291
+ "step": 326
2292
+ },
2293
+ {
2294
+ "epoch": 0.2802056555269923,
2295
+ "grad_norm": 0.013025953434407711,
2296
+ "learning_rate": 0.00028770274435964356,
2297
+ "loss": 0.1499,
2298
+ "step": 327
2299
+ },
2300
+ {
2301
+ "epoch": 0.2810625535561268,
2302
+ "grad_norm": 0.01768515445291996,
2303
+ "learning_rate": 0.0002847444515958523,
2304
+ "loss": 0.1527,
2305
+ "step": 328
2306
+ },
2307
+ {
2308
+ "epoch": 0.2819194515852613,
2309
+ "grad_norm": 0.015223097056150436,
2310
+ "learning_rate": 0.0002817953796633289,
2311
+ "loss": 0.1549,
2312
+ "step": 329
2313
+ },
2314
+ {
2315
+ "epoch": 0.2827763496143959,
2316
+ "grad_norm": 0.013024591840803623,
2317
+ "learning_rate": 0.00027885565489049947,
2318
+ "loss": 0.1509,
2319
+ "step": 330
2320
+ },
2321
+ {
2322
+ "epoch": 0.28363324764353043,
2323
+ "grad_norm": 0.014075031504034996,
2324
+ "learning_rate": 0.0002759254032053888,
2325
+ "loss": 0.1558,
2326
+ "step": 331
2327
+ },
2328
+ {
2329
+ "epoch": 0.28449014567266495,
2330
+ "grad_norm": 0.013003628700971603,
2331
+ "learning_rate": 0.00027300475013022663,
2332
+ "loss": 0.15,
2333
+ "step": 332
2334
+ },
2335
+ {
2336
+ "epoch": 0.2853470437017995,
2337
+ "grad_norm": 0.014489670284092426,
2338
+ "learning_rate": 0.0002700938207760701,
2339
+ "loss": 0.1476,
2340
+ "step": 333
2341
+ },
2342
+ {
2343
+ "epoch": 0.286203941730934,
2344
+ "grad_norm": 0.012941529043018818,
2345
+ "learning_rate": 0.0002671927398374443,
2346
+ "loss": 0.1408,
2347
+ "step": 334
2348
+ },
2349
+ {
2350
+ "epoch": 0.2870608397600686,
2351
+ "grad_norm": 0.012417233549058437,
2352
+ "learning_rate": 0.00026430163158700117,
2353
+ "loss": 0.1485,
2354
+ "step": 335
2355
+ },
2356
+ {
2357
+ "epoch": 0.2879177377892031,
2358
+ "grad_norm": 0.01331823505461216,
2359
+ "learning_rate": 0.00026142061987019576,
2360
+ "loss": 0.1578,
2361
+ "step": 336
2362
+ },
2363
+ {
2364
+ "epoch": 0.2887746358183376,
2365
+ "grad_norm": 0.021479349583387375,
2366
+ "learning_rate": 0.0002585498280999815,
2367
+ "loss": 0.1544,
2368
+ "step": 337
2369
+ },
2370
+ {
2371
+ "epoch": 0.28963153384747214,
2372
+ "grad_norm": 0.014903098344802856,
2373
+ "learning_rate": 0.0002556893792515227,
2374
+ "loss": 0.1561,
2375
+ "step": 338
2376
+ },
2377
+ {
2378
+ "epoch": 0.29048843187660667,
2379
+ "grad_norm": 0.013264741748571396,
2380
+ "learning_rate": 0.00025283939585692784,
2381
+ "loss": 0.1599,
2382
+ "step": 339
2383
+ },
2384
+ {
2385
+ "epoch": 0.2913453299057412,
2386
+ "grad_norm": 0.0137154096737504,
2387
+ "learning_rate": 0.0002500000000000001,
2388
+ "loss": 0.1526,
2389
+ "step": 340
2390
+ },
2391
+ {
2392
+ "epoch": 0.29220222793487577,
2393
+ "grad_norm": 0.01252024993300438,
2394
+ "learning_rate": 0.0002471713133110078,
2395
+ "loss": 0.1421,
2396
+ "step": 341
2397
+ },
2398
+ {
2399
+ "epoch": 0.2930591259640103,
2400
+ "grad_norm": 0.01306652370840311,
2401
+ "learning_rate": 0.00024435345696147403,
2402
+ "loss": 0.1373,
2403
+ "step": 342
2404
+ },
2405
+ {
2406
+ "epoch": 0.2939160239931448,
2407
+ "grad_norm": 0.015782173722982407,
2408
+ "learning_rate": 0.00024154655165898627,
2409
+ "loss": 0.149,
2410
+ "step": 343
2411
+ },
2412
+ {
2413
+ "epoch": 0.29477292202227934,
2414
+ "grad_norm": 0.012606021016836166,
2415
+ "learning_rate": 0.00023875071764202561,
2416
+ "loss": 0.153,
2417
+ "step": 344
2418
+ },
2419
+ {
2420
+ "epoch": 0.29562982005141386,
2421
+ "grad_norm": 0.013155002146959305,
2422
+ "learning_rate": 0.00023596607467481602,
2423
+ "loss": 0.1493,
2424
+ "step": 345
2425
+ },
2426
+ {
2427
+ "epoch": 0.29648671808054844,
2428
+ "grad_norm": 0.01664326898753643,
2429
+ "learning_rate": 0.00023319274204219425,
2430
+ "loss": 0.1566,
2431
+ "step": 346
2432
+ },
2433
+ {
2434
+ "epoch": 0.29734361610968296,
2435
+ "grad_norm": 0.01268248911947012,
2436
+ "learning_rate": 0.00023043083854449987,
2437
+ "loss": 0.1467,
2438
+ "step": 347
2439
+ },
2440
+ {
2441
+ "epoch": 0.2982005141388175,
2442
+ "grad_norm": 0.012720319442451,
2443
+ "learning_rate": 0.00022768048249248646,
2444
+ "loss": 0.1528,
2445
+ "step": 348
2446
+ },
2447
+ {
2448
+ "epoch": 0.299057412167952,
2449
+ "grad_norm": 0.012999819591641426,
2450
+ "learning_rate": 0.00022494179170225333,
2451
+ "loss": 0.1549,
2452
+ "step": 349
2453
+ },
2454
+ {
2455
+ "epoch": 0.29991431019708653,
2456
+ "grad_norm": 0.013431290164589882,
2457
+ "learning_rate": 0.00022221488349019903,
2458
+ "loss": 0.1525,
2459
+ "step": 350
2460
+ },
2461
+ {
2462
+ "epoch": 0.30077120822622105,
2463
+ "grad_norm": 0.01783970557153225,
2464
+ "learning_rate": 0.0002194998746679952,
2465
+ "loss": 0.1527,
2466
+ "step": 351
2467
+ },
2468
+ {
2469
+ "epoch": 0.30162810625535563,
2470
+ "grad_norm": 0.021057991310954094,
2471
+ "learning_rate": 0.0002167968815375837,
2472
+ "loss": 0.1538,
2473
+ "step": 352
2474
+ },
2475
+ {
2476
+ "epoch": 0.30248500428449016,
2477
+ "grad_norm": 0.01601223647594452,
2478
+ "learning_rate": 0.00021410601988619394,
2479
+ "loss": 0.1525,
2480
+ "step": 353
2481
+ },
2482
+ {
2483
+ "epoch": 0.3033419023136247,
2484
+ "grad_norm": 0.012890568003058434,
2485
+ "learning_rate": 0.00021142740498138323,
2486
+ "loss": 0.1488,
2487
+ "step": 354
2488
+ },
2489
+ {
2490
+ "epoch": 0.3041988003427592,
2491
+ "grad_norm": 0.013061465695500374,
2492
+ "learning_rate": 0.000208761151566099,
2493
+ "loss": 0.1498,
2494
+ "step": 355
2495
+ },
2496
+ {
2497
+ "epoch": 0.3050556983718937,
2498
+ "grad_norm": 0.013169737532734871,
2499
+ "learning_rate": 0.00020610737385376348,
2500
+ "loss": 0.15,
2501
+ "step": 356
2502
+ },
2503
+ {
2504
+ "epoch": 0.3059125964010283,
2505
+ "grad_norm": 0.012198954820632935,
2506
+ "learning_rate": 0.00020346618552338148,
2507
+ "loss": 0.1567,
2508
+ "step": 357
2509
+ },
2510
+ {
2511
+ "epoch": 0.3067694944301628,
2512
+ "grad_norm": 0.01644357666373253,
2513
+ "learning_rate": 0.00020083769971467047,
2514
+ "loss": 0.1532,
2515
+ "step": 358
2516
+ },
2517
+ {
2518
+ "epoch": 0.30762639245929735,
2519
+ "grad_norm": 0.014105524867773056,
2520
+ "learning_rate": 0.0001982220290232143,
2521
+ "loss": 0.1585,
2522
+ "step": 359
2523
+ },
2524
+ {
2525
+ "epoch": 0.30848329048843187,
2526
+ "grad_norm": 0.012292543426156044,
2527
+ "learning_rate": 0.00019561928549563967,
2528
+ "loss": 0.1525,
2529
+ "step": 360
2530
+ },
2531
+ {
2532
+ "epoch": 0.3093401885175664,
2533
+ "grad_norm": 0.01830083131790161,
2534
+ "learning_rate": 0.00019302958062481672,
2535
+ "loss": 0.1506,
2536
+ "step": 361
2537
+ },
2538
+ {
2539
+ "epoch": 0.3101970865467009,
2540
+ "grad_norm": 0.013068013824522495,
2541
+ "learning_rate": 0.00019045302534508295,
2542
+ "loss": 0.1563,
2543
+ "step": 362
2544
+ },
2545
+ {
2546
+ "epoch": 0.3110539845758355,
2547
+ "grad_norm": 0.012616029009222984,
2548
+ "learning_rate": 0.0001878897300274911,
2549
+ "loss": 0.1477,
2550
+ "step": 363
2551
+ },
2552
+ {
2553
+ "epoch": 0.31191088260497,
2554
+ "grad_norm": 0.015404236502945423,
2555
+ "learning_rate": 0.00018533980447508135,
2556
+ "loss": 0.1501,
2557
+ "step": 364
2558
+ },
2559
+ {
2560
+ "epoch": 0.31276778063410454,
2561
+ "grad_norm": 0.017586475238204002,
2562
+ "learning_rate": 0.00018280335791817732,
2563
+ "loss": 0.1493,
2564
+ "step": 365
2565
+ },
2566
+ {
2567
+ "epoch": 0.31362467866323906,
2568
+ "grad_norm": 0.01738077774643898,
2569
+ "learning_rate": 0.00018028049900970766,
2570
+ "loss": 0.1571,
2571
+ "step": 366
2572
+ },
2573
+ {
2574
+ "epoch": 0.3144815766923736,
2575
+ "grad_norm": 0.01235333550721407,
2576
+ "learning_rate": 0.0001777713358205514,
2577
+ "loss": 0.1528,
2578
+ "step": 367
2579
+ },
2580
+ {
2581
+ "epoch": 0.31533847472150817,
2582
+ "grad_norm": 0.01204688660800457,
2583
+ "learning_rate": 0.00017527597583490823,
2584
+ "loss": 0.1483,
2585
+ "step": 368
2586
+ },
2587
+ {
2588
+ "epoch": 0.3161953727506427,
2589
+ "grad_norm": 0.012409962713718414,
2590
+ "learning_rate": 0.00017279452594569483,
2591
+ "loss": 0.1495,
2592
+ "step": 369
2593
+ },
2594
+ {
2595
+ "epoch": 0.3170522707797772,
2596
+ "grad_norm": 0.010938968509435654,
2597
+ "learning_rate": 0.00017032709244996558,
2598
+ "loss": 0.149,
2599
+ "step": 370
2600
+ },
2601
+ {
2602
+ "epoch": 0.31790916880891174,
2603
+ "grad_norm": 0.012267996557056904,
2604
+ "learning_rate": 0.00016787378104435928,
2605
+ "loss": 0.154,
2606
+ "step": 371
2607
+ },
2608
+ {
2609
+ "epoch": 0.31876606683804626,
2610
+ "grad_norm": 0.012454659678041935,
2611
+ "learning_rate": 0.00016543469682057105,
2612
+ "loss": 0.1509,
2613
+ "step": 372
2614
+ },
2615
+ {
2616
+ "epoch": 0.3196229648671808,
2617
+ "grad_norm": 0.01519513875246048,
2618
+ "learning_rate": 0.00016300994426085103,
2619
+ "loss": 0.1539,
2620
+ "step": 373
2621
+ },
2622
+ {
2623
+ "epoch": 0.32047986289631536,
2624
+ "grad_norm": 0.013357303105294704,
2625
+ "learning_rate": 0.0001605996272335291,
2626
+ "loss": 0.1573,
2627
+ "step": 374
2628
+ },
2629
+ {
2630
+ "epoch": 0.3213367609254499,
2631
+ "grad_norm": 0.012079097330570221,
2632
+ "learning_rate": 0.00015820384898856434,
2633
+ "loss": 0.1555,
2634
+ "step": 375
2635
+ },
2636
+ {
2637
+ "epoch": 0.3221936589545844,
2638
+ "grad_norm": 0.012022243812680244,
2639
+ "learning_rate": 0.00015582271215312294,
2640
+ "loss": 0.1414,
2641
+ "step": 376
2642
+ },
2643
+ {
2644
+ "epoch": 0.32305055698371893,
2645
+ "grad_norm": 0.012276671826839447,
2646
+ "learning_rate": 0.00015345631872718213,
2647
+ "loss": 0.1457,
2648
+ "step": 377
2649
+ },
2650
+ {
2651
+ "epoch": 0.32390745501285345,
2652
+ "grad_norm": 0.015837060287594795,
2653
+ "learning_rate": 0.00015110477007916002,
2654
+ "loss": 0.1492,
2655
+ "step": 378
2656
+ },
2657
+ {
2658
+ "epoch": 0.32476435304198803,
2659
+ "grad_norm": 0.011251943185925484,
2660
+ "learning_rate": 0.0001487681669415742,
2661
+ "loss": 0.1505,
2662
+ "step": 379
2663
+ },
2664
+ {
2665
+ "epoch": 0.32562125107112255,
2666
+ "grad_norm": 0.011603351682424545,
2667
+ "learning_rate": 0.00014644660940672628,
2668
+ "loss": 0.1513,
2669
+ "step": 380
2670
+ },
2671
+ {
2672
+ "epoch": 0.3264781491002571,
2673
+ "grad_norm": 0.01359818410128355,
2674
+ "learning_rate": 0.00014414019692241437,
2675
+ "loss": 0.1459,
2676
+ "step": 381
2677
+ },
2678
+ {
2679
+ "epoch": 0.3273350471293916,
2680
+ "grad_norm": 0.012471762485802174,
2681
+ "learning_rate": 0.00014184902828767287,
2682
+ "loss": 0.1606,
2683
+ "step": 382
2684
+ },
2685
+ {
2686
+ "epoch": 0.3281919451585261,
2687
+ "grad_norm": 0.01537733431905508,
2688
+ "learning_rate": 0.0001395732016485406,
2689
+ "loss": 0.1446,
2690
+ "step": 383
2691
+ },
2692
+ {
2693
+ "epoch": 0.32904884318766064,
2694
+ "grad_norm": 0.01161841582506895,
2695
+ "learning_rate": 0.0001373128144938563,
2696
+ "loss": 0.1504,
2697
+ "step": 384
2698
+ },
2699
+ {
2700
+ "epoch": 0.3299057412167952,
2701
+ "grad_norm": 0.011465324088931084,
2702
+ "learning_rate": 0.00013506796365108232,
2703
+ "loss": 0.145,
2704
+ "step": 385
2705
+ },
2706
+ {
2707
+ "epoch": 0.33076263924592975,
2708
+ "grad_norm": 0.011288580484688282,
2709
+ "learning_rate": 0.00013283874528215734,
2710
+ "loss": 0.1494,
2711
+ "step": 386
2712
+ },
2713
+ {
2714
+ "epoch": 0.33161953727506427,
2715
+ "grad_norm": 0.012868880294263363,
2716
+ "learning_rate": 0.00013062525487937698,
2717
+ "loss": 0.1548,
2718
+ "step": 387
2719
+ },
2720
+ {
2721
+ "epoch": 0.3324764353041988,
2722
+ "grad_norm": 0.012357845902442932,
2723
+ "learning_rate": 0.00012842758726130281,
2724
+ "loss": 0.1504,
2725
+ "step": 388
2726
+ },
2727
+ {
2728
+ "epoch": 0.3333333333333333,
2729
+ "grad_norm": 0.011807232163846493,
2730
+ "learning_rate": 0.00012624583656870153,
2731
+ "loss": 0.1592,
2732
+ "step": 389
2733
+ },
2734
+ {
2735
+ "epoch": 0.3341902313624679,
2736
+ "grad_norm": 0.01140469592064619,
2737
+ "learning_rate": 0.00012408009626051135,
2738
+ "loss": 0.1577,
2739
+ "step": 390
2740
+ },
2741
+ {
2742
+ "epoch": 0.3350471293916024,
2743
+ "grad_norm": 0.009883826598525047,
2744
+ "learning_rate": 0.00012193045910983863,
2745
+ "loss": 0.1451,
2746
+ "step": 391
2747
+ },
2748
+ {
2749
+ "epoch": 0.33590402742073694,
2750
+ "grad_norm": 0.01367274671792984,
2751
+ "learning_rate": 0.00011979701719998454,
2752
+ "loss": 0.1574,
2753
+ "step": 392
2754
+ },
2755
+ {
2756
+ "epoch": 0.33676092544987146,
2757
+ "grad_norm": 0.011320062913000584,
2758
+ "learning_rate": 0.00011767986192049984,
2759
+ "loss": 0.1507,
2760
+ "step": 393
2761
+ },
2762
+ {
2763
+ "epoch": 0.337617823479006,
2764
+ "grad_norm": 0.011477210558950901,
2765
+ "learning_rate": 0.00011557908396327027,
2766
+ "loss": 0.1533,
2767
+ "step": 394
2768
+ },
2769
+ {
2770
+ "epoch": 0.3384747215081405,
2771
+ "grad_norm": 0.012028141878545284,
2772
+ "learning_rate": 0.00011349477331863151,
2773
+ "loss": 0.1592,
2774
+ "step": 395
2775
+ },
2776
+ {
2777
+ "epoch": 0.3393316195372751,
2778
+ "grad_norm": 0.01126360334455967,
2779
+ "learning_rate": 0.00011142701927151455,
2780
+ "loss": 0.1588,
2781
+ "step": 396
2782
+ },
2783
+ {
2784
+ "epoch": 0.3401885175664096,
2785
+ "grad_norm": 0.010625923052430153,
2786
+ "learning_rate": 0.00010937591039762085,
2787
+ "loss": 0.1443,
2788
+ "step": 397
2789
+ },
2790
+ {
2791
+ "epoch": 0.34104541559554413,
2792
+ "grad_norm": 0.01095986645668745,
2793
+ "learning_rate": 0.00010734153455962764,
2794
+ "loss": 0.1533,
2795
+ "step": 398
2796
+ },
2797
+ {
2798
+ "epoch": 0.34190231362467866,
2799
+ "grad_norm": 0.01167625468224287,
2800
+ "learning_rate": 0.00010532397890342504,
2801
+ "loss": 0.1465,
2802
+ "step": 399
2803
+ },
2804
+ {
2805
+ "epoch": 0.3427592116538132,
2806
+ "grad_norm": 0.010631192475557327,
2807
+ "learning_rate": 0.00010332332985438247,
2808
+ "loss": 0.1505,
2809
+ "step": 400
2810
+ },
2811
+ {
2812
+ "epoch": 0.34361610968294776,
2813
+ "grad_norm": 0.013422117568552494,
2814
+ "learning_rate": 0.0001013396731136465,
2815
+ "loss": 0.1475,
2816
+ "step": 401
2817
+ },
2818
+ {
2819
+ "epoch": 0.3444730077120823,
2820
+ "grad_norm": 0.015502565540373325,
2821
+ "learning_rate": 9.937309365446973e-05,
2822
+ "loss": 0.1564,
2823
+ "step": 402
2824
+ },
2825
+ {
2826
+ "epoch": 0.3453299057412168,
2827
+ "grad_norm": 0.012849084101617336,
2828
+ "learning_rate": 9.742367571857092e-05,
2829
+ "loss": 0.1492,
2830
+ "step": 403
2831
+ },
2832
+ {
2833
+ "epoch": 0.3461868037703513,
2834
+ "grad_norm": 0.011048342101275921,
2835
+ "learning_rate": 9.549150281252633e-05,
2836
+ "loss": 0.1497,
2837
+ "step": 404
2838
+ },
2839
+ {
2840
+ "epoch": 0.34704370179948585,
2841
+ "grad_norm": 0.00987666193395853,
2842
+ "learning_rate": 9.357665770419243e-05,
2843
+ "loss": 0.1449,
2844
+ "step": 405
2845
+ },
2846
+ {
2847
+ "epoch": 0.34790059982862037,
2848
+ "grad_norm": 0.009926311671733856,
2849
+ "learning_rate": 9.167922241916055e-05,
2850
+ "loss": 0.16,
2851
+ "step": 406
2852
+ },
2853
+ {
2854
+ "epoch": 0.34875749785775495,
2855
+ "grad_norm": 0.010267515666782856,
2856
+ "learning_rate": 8.979927823724321e-05,
2857
+ "loss": 0.1487,
2858
+ "step": 407
2859
+ },
2860
+ {
2861
+ "epoch": 0.3496143958868895,
2862
+ "grad_norm": 0.0110161192715168,
2863
+ "learning_rate": 8.793690568899215e-05,
2864
+ "loss": 0.1473,
2865
+ "step": 408
2866
+ },
2867
+ {
2868
+ "epoch": 0.350471293916024,
2869
+ "grad_norm": 0.009565568529069424,
2870
+ "learning_rate": 8.609218455224893e-05,
2871
+ "loss": 0.1462,
2872
+ "step": 409
2873
+ },
2874
+ {
2875
+ "epoch": 0.3513281919451585,
2876
+ "grad_norm": 0.00971953570842743,
2877
+ "learning_rate": 8.426519384872733e-05,
2878
+ "loss": 0.1435,
2879
+ "step": 410
2880
+ },
2881
+ {
2882
+ "epoch": 0.35218508997429304,
2883
+ "grad_norm": 0.00972969550639391,
2884
+ "learning_rate": 8.24560118406285e-05,
2885
+ "loss": 0.1482,
2886
+ "step": 411
2887
+ },
2888
+ {
2889
+ "epoch": 0.35304198800342756,
2890
+ "grad_norm": 0.012054841965436935,
2891
+ "learning_rate": 8.066471602728804e-05,
2892
+ "loss": 0.1463,
2893
+ "step": 412
2894
+ },
2895
+ {
2896
+ "epoch": 0.35389888603256214,
2897
+ "grad_norm": 0.011393013410270214,
2898
+ "learning_rate": 7.889138314185678e-05,
2899
+ "loss": 0.1485,
2900
+ "step": 413
2901
+ },
2902
+ {
2903
+ "epoch": 0.35475578406169667,
2904
+ "grad_norm": 0.011225726455450058,
2905
+ "learning_rate": 7.71360891480134e-05,
2906
+ "loss": 0.1452,
2907
+ "step": 414
2908
+ },
2909
+ {
2910
+ "epoch": 0.3556126820908312,
2911
+ "grad_norm": 0.01023333054035902,
2912
+ "learning_rate": 7.53989092367106e-05,
2913
+ "loss": 0.1358,
2914
+ "step": 415
2915
+ },
2916
+ {
2917
+ "epoch": 0.3564695801199657,
2918
+ "grad_norm": 0.010747382417321205,
2919
+ "learning_rate": 7.367991782295391e-05,
2920
+ "loss": 0.1427,
2921
+ "step": 416
2922
+ },
2923
+ {
2924
+ "epoch": 0.35732647814910024,
2925
+ "grad_norm": 0.01004976499825716,
2926
+ "learning_rate": 7.197918854261431e-05,
2927
+ "loss": 0.1473,
2928
+ "step": 417
2929
+ },
2930
+ {
2931
+ "epoch": 0.3581833761782348,
2932
+ "grad_norm": 0.009513266384601593,
2933
+ "learning_rate": 7.029679424927366e-05,
2934
+ "loss": 0.1493,
2935
+ "step": 418
2936
+ },
2937
+ {
2938
+ "epoch": 0.35904027420736934,
2939
+ "grad_norm": 0.015416925773024559,
2940
+ "learning_rate": 6.863280701110408e-05,
2941
+ "loss": 0.14,
2942
+ "step": 419
2943
+ },
2944
+ {
2945
+ "epoch": 0.35989717223650386,
2946
+ "grad_norm": 0.010445120744407177,
2947
+ "learning_rate": 6.698729810778065e-05,
2948
+ "loss": 0.1534,
2949
+ "step": 420
2950
+ },
2951
+ {
2952
+ "epoch": 0.3607540702656384,
2953
+ "grad_norm": 0.011475526727735996,
2954
+ "learning_rate": 6.536033802742814e-05,
2955
+ "loss": 0.1501,
2956
+ "step": 421
2957
+ },
2958
+ {
2959
+ "epoch": 0.3616109682947729,
2960
+ "grad_norm": 0.011237034574151039,
2961
+ "learning_rate": 6.375199646360142e-05,
2962
+ "loss": 0.1542,
2963
+ "step": 422
2964
+ },
2965
+ {
2966
+ "epoch": 0.36246786632390743,
2967
+ "grad_norm": 0.03411533311009407,
2968
+ "learning_rate": 6.21623423123001e-05,
2969
+ "loss": 0.2254,
2970
+ "step": 423
2971
+ },
2972
+ {
2973
+ "epoch": 0.363324764353042,
2974
+ "grad_norm": 0.009747683070600033,
2975
+ "learning_rate": 6.059144366901737e-05,
2976
+ "loss": 0.1454,
2977
+ "step": 424
2978
+ },
2979
+ {
2980
+ "epoch": 0.36418166238217653,
2981
+ "grad_norm": 0.010333815589547157,
2982
+ "learning_rate": 5.903936782582253e-05,
2983
+ "loss": 0.1479,
2984
+ "step": 425
2985
+ },
2986
+ {
2987
+ "epoch": 0.36503856041131105,
2988
+ "grad_norm": 0.010389740578830242,
2989
+ "learning_rate": 5.750618126847912e-05,
2990
+ "loss": 0.1504,
2991
+ "step": 426
2992
+ },
2993
+ {
2994
+ "epoch": 0.3658954584404456,
2995
+ "grad_norm": 0.010068557225167751,
2996
+ "learning_rate": 5.599194967359639e-05,
2997
+ "loss": 0.146,
2998
+ "step": 427
2999
+ },
3000
+ {
3001
+ "epoch": 0.3667523564695801,
3002
+ "grad_norm": 0.012611080892384052,
3003
+ "learning_rate": 5.449673790581611e-05,
3004
+ "loss": 0.1587,
3005
+ "step": 428
3006
+ },
3007
+ {
3008
+ "epoch": 0.3676092544987147,
3009
+ "grad_norm": 0.010398144833743572,
3010
+ "learning_rate": 5.3020610015033946e-05,
3011
+ "loss": 0.1455,
3012
+ "step": 429
3013
+ },
3014
+ {
3015
+ "epoch": 0.3684661525278492,
3016
+ "grad_norm": 0.012510698288679123,
3017
+ "learning_rate": 5.1563629233655876e-05,
3018
+ "loss": 0.1544,
3019
+ "step": 430
3020
+ },
3021
+ {
3022
+ "epoch": 0.3693230505569837,
3023
+ "grad_norm": 0.009702283889055252,
3024
+ "learning_rate": 5.0125857973889355e-05,
3025
+ "loss": 0.1376,
3026
+ "step": 431
3027
+ },
3028
+ {
3029
+ "epoch": 0.37017994858611825,
3030
+ "grad_norm": 0.015176232904195786,
3031
+ "learning_rate": 4.87073578250698e-05,
3032
+ "loss": 0.1505,
3033
+ "step": 432
3034
+ },
3035
+ {
3036
+ "epoch": 0.37103684661525277,
3037
+ "grad_norm": 0.009702375158667564,
3038
+ "learning_rate": 4.730818955102234e-05,
3039
+ "loss": 0.1465,
3040
+ "step": 433
3041
+ },
3042
+ {
3043
+ "epoch": 0.3718937446443873,
3044
+ "grad_norm": 0.01697813719511032,
3045
+ "learning_rate": 4.592841308745932e-05,
3046
+ "loss": 0.1528,
3047
+ "step": 434
3048
+ },
3049
+ {
3050
+ "epoch": 0.37275064267352187,
3051
+ "grad_norm": 0.01560263428837061,
3052
+ "learning_rate": 4.456808753941205e-05,
3053
+ "loss": 0.1437,
3054
+ "step": 435
3055
+ },
3056
+ {
3057
+ "epoch": 0.3736075407026564,
3058
+ "grad_norm": 0.00954125914722681,
3059
+ "learning_rate": 4.322727117869951e-05,
3060
+ "loss": 0.1501,
3061
+ "step": 436
3062
+ },
3063
+ {
3064
+ "epoch": 0.3744644387317909,
3065
+ "grad_norm": 0.01739114709198475,
3066
+ "learning_rate": 4.190602144143207e-05,
3067
+ "loss": 0.1568,
3068
+ "step": 437
3069
+ },
3070
+ {
3071
+ "epoch": 0.37532133676092544,
3072
+ "grad_norm": 0.011187477968633175,
3073
+ "learning_rate": 4.06043949255509e-05,
3074
+ "loss": 0.1558,
3075
+ "step": 438
3076
+ },
3077
+ {
3078
+ "epoch": 0.37617823479005996,
3079
+ "grad_norm": 0.01066075824201107,
3080
+ "learning_rate": 3.932244738840379e-05,
3081
+ "loss": 0.1458,
3082
+ "step": 439
3083
+ },
3084
+ {
3085
+ "epoch": 0.37703513281919454,
3086
+ "grad_norm": 0.009765625,
3087
+ "learning_rate": 3.806023374435663e-05,
3088
+ "loss": 0.1492,
3089
+ "step": 440
3090
+ },
3091
+ {
3092
+ "epoch": 0.37789203084832906,
3093
+ "grad_norm": 0.009504380635917187,
3094
+ "learning_rate": 3.681780806244095e-05,
3095
+ "loss": 0.1413,
3096
+ "step": 441
3097
+ },
3098
+ {
3099
+ "epoch": 0.3787489288774636,
3100
+ "grad_norm": 0.010201869532465935,
3101
+ "learning_rate": 3.559522356403788e-05,
3102
+ "loss": 0.1486,
3103
+ "step": 442
3104
+ },
3105
+ {
3106
+ "epoch": 0.3796058269065981,
3107
+ "grad_norm": 0.010059897787868977,
3108
+ "learning_rate": 3.439253262059822e-05,
3109
+ "loss": 0.1314,
3110
+ "step": 443
3111
+ },
3112
+ {
3113
+ "epoch": 0.38046272493573263,
3114
+ "grad_norm": 0.011777847073972225,
3115
+ "learning_rate": 3.3209786751399184e-05,
3116
+ "loss": 0.1499,
3117
+ "step": 444
3118
+ },
3119
+ {
3120
+ "epoch": 0.38131962296486716,
3121
+ "grad_norm": 0.00938204862177372,
3122
+ "learning_rate": 3.2047036621337236e-05,
3123
+ "loss": 0.1453,
3124
+ "step": 445
3125
+ },
3126
+ {
3127
+ "epoch": 0.38217652099400173,
3128
+ "grad_norm": 0.009476981125772,
3129
+ "learning_rate": 3.0904332038757974e-05,
3130
+ "loss": 0.1446,
3131
+ "step": 446
3132
+ },
3133
+ {
3134
+ "epoch": 0.38303341902313626,
3135
+ "grad_norm": 0.009422726929187775,
3136
+ "learning_rate": 2.9781721953322627e-05,
3137
+ "loss": 0.1488,
3138
+ "step": 447
3139
+ },
3140
+ {
3141
+ "epoch": 0.3838903170522708,
3142
+ "grad_norm": 0.00957945454865694,
3143
+ "learning_rate": 2.8679254453910786e-05,
3144
+ "loss": 0.1458,
3145
+ "step": 448
3146
+ },
3147
+ {
3148
+ "epoch": 0.3847472150814053,
3149
+ "grad_norm": 0.009238988161087036,
3150
+ "learning_rate": 2.7596976766560976e-05,
3151
+ "loss": 0.1468,
3152
+ "step": 449
3153
+ },
3154
+ {
3155
+ "epoch": 0.3856041131105398,
3156
+ "grad_norm": 0.010409279726445675,
3157
+ "learning_rate": 2.653493525244721e-05,
3158
+ "loss": 0.1488,
3159
+ "step": 450
3160
+ },
3161
+ {
3162
+ "epoch": 0.3864610111396744,
3163
+ "grad_norm": 0.010871903970837593,
3164
+ "learning_rate": 2.5493175405893076e-05,
3165
+ "loss": 0.1448,
3166
+ "step": 451
3167
+ },
3168
+ {
3169
+ "epoch": 0.3873179091688089,
3170
+ "grad_norm": 0.01018882729113102,
3171
+ "learning_rate": 2.4471741852423235e-05,
3172
+ "loss": 0.149,
3173
+ "step": 452
3174
+ },
3175
+ {
3176
+ "epoch": 0.38817480719794345,
3177
+ "grad_norm": 0.00999706145375967,
3178
+ "learning_rate": 2.3470678346851513e-05,
3179
+ "loss": 0.1476,
3180
+ "step": 453
3181
+ },
3182
+ {
3183
+ "epoch": 0.389031705227078,
3184
+ "grad_norm": 0.008825534954667091,
3185
+ "learning_rate": 2.2490027771406685e-05,
3186
+ "loss": 0.1522,
3187
+ "step": 454
3188
+ },
3189
+ {
3190
+ "epoch": 0.3898886032562125,
3191
+ "grad_norm": 0.010562725365161896,
3192
+ "learning_rate": 2.152983213389559e-05,
3193
+ "loss": 0.1477,
3194
+ "step": 455
3195
+ },
3196
+ {
3197
+ "epoch": 0.390745501285347,
3198
+ "grad_norm": 0.01029855664819479,
3199
+ "learning_rate": 2.0590132565903473e-05,
3200
+ "loss": 0.1603,
3201
+ "step": 456
3202
+ },
3203
+ {
3204
+ "epoch": 0.3916023993144816,
3205
+ "grad_norm": 0.009447697550058365,
3206
+ "learning_rate": 1.9670969321032406e-05,
3207
+ "loss": 0.1507,
3208
+ "step": 457
3209
+ },
3210
+ {
3211
+ "epoch": 0.3924592973436161,
3212
+ "grad_norm": 0.009440843015909195,
3213
+ "learning_rate": 1.8772381773176416e-05,
3214
+ "loss": 0.1487,
3215
+ "step": 458
3216
+ },
3217
+ {
3218
+ "epoch": 0.39331619537275064,
3219
+ "grad_norm": 0.01008307933807373,
3220
+ "learning_rate": 1.7894408414835363e-05,
3221
+ "loss": 0.1482,
3222
+ "step": 459
3223
+ },
3224
+ {
3225
+ "epoch": 0.39417309340188517,
3226
+ "grad_norm": 0.010164221748709679,
3227
+ "learning_rate": 1.70370868554659e-05,
3228
+ "loss": 0.1514,
3229
+ "step": 460
3230
+ },
3231
+ {
3232
+ "epoch": 0.3950299914310197,
3233
+ "grad_norm": 0.009882348589599133,
3234
+ "learning_rate": 1.620045381987012e-05,
3235
+ "loss": 0.1459,
3236
+ "step": 461
3237
+ },
3238
+ {
3239
+ "epoch": 0.39588688946015427,
3240
+ "grad_norm": 0.01052442193031311,
3241
+ "learning_rate": 1.538454514662285e-05,
3242
+ "loss": 0.1565,
3243
+ "step": 462
3244
+ },
3245
+ {
3246
+ "epoch": 0.3967437874892888,
3247
+ "grad_norm": 0.010268788784742355,
3248
+ "learning_rate": 1.4589395786535953e-05,
3249
+ "loss": 0.1491,
3250
+ "step": 463
3251
+ },
3252
+ {
3253
+ "epoch": 0.3976006855184233,
3254
+ "grad_norm": 0.00896680261939764,
3255
+ "learning_rate": 1.3815039801161721e-05,
3256
+ "loss": 0.1434,
3257
+ "step": 464
3258
+ },
3259
+ {
3260
+ "epoch": 0.39845758354755784,
3261
+ "grad_norm": 0.009579429402947426,
3262
+ "learning_rate": 1.3061510361333184e-05,
3263
+ "loss": 0.147,
3264
+ "step": 465
3265
+ },
3266
+ {
3267
+ "epoch": 0.39931448157669236,
3268
+ "grad_norm": 0.009059751406311989,
3269
+ "learning_rate": 1.232883974574367e-05,
3270
+ "loss": 0.1454,
3271
+ "step": 466
3272
+ },
3273
+ {
3274
+ "epoch": 0.4001713796058269,
3275
+ "grad_norm": 0.00879402831196785,
3276
+ "learning_rate": 1.1617059339563806e-05,
3277
+ "loss": 0.1465,
3278
+ "step": 467
3279
+ },
3280
+ {
3281
+ "epoch": 0.40102827763496146,
3282
+ "grad_norm": 0.008100686594843864,
3283
+ "learning_rate": 1.0926199633097156e-05,
3284
+ "loss": 0.1453,
3285
+ "step": 468
3286
+ },
3287
+ {
3288
+ "epoch": 0.401885175664096,
3289
+ "grad_norm": 0.011180667206645012,
3290
+ "learning_rate": 1.0256290220474307e-05,
3291
+ "loss": 0.155,
3292
+ "step": 469
3293
+ },
3294
+ {
3295
+ "epoch": 0.4027420736932305,
3296
+ "grad_norm": 0.009214532561600208,
3297
+ "learning_rate": 9.607359798384786e-06,
3298
+ "loss": 0.152,
3299
+ "step": 470
3300
+ },
3301
+ {
3302
+ "epoch": 0.40359897172236503,
3303
+ "grad_norm": 0.011793004348874092,
3304
+ "learning_rate": 8.979436164848088e-06,
3305
+ "loss": 0.1503,
3306
+ "step": 471
3307
+ },
3308
+ {
3309
+ "epoch": 0.40445586975149955,
3310
+ "grad_norm": 0.008904839865863323,
3311
+ "learning_rate": 8.372546218022748e-06,
3312
+ "loss": 0.1372,
3313
+ "step": 472
3314
+ },
3315
+ {
3316
+ "epoch": 0.40531276778063413,
3317
+ "grad_norm": 0.010819431394338608,
3318
+ "learning_rate": 7.786715955054202e-06,
3319
+ "loss": 0.1517,
3320
+ "step": 473
3321
+ },
3322
+ {
3323
+ "epoch": 0.40616966580976865,
3324
+ "grad_norm": 0.008758115582168102,
3325
+ "learning_rate": 7.221970470961125e-06,
3326
+ "loss": 0.1415,
3327
+ "step": 474
3328
+ },
3329
+ {
3330
+ "epoch": 0.4070265638389032,
3331
+ "grad_norm": 0.009194256737828255,
3332
+ "learning_rate": 6.678333957560512e-06,
3333
+ "loss": 0.1497,
3334
+ "step": 475
3335
+ },
3336
+ {
3337
+ "epoch": 0.4078834618680377,
3338
+ "grad_norm": 0.010541984811425209,
3339
+ "learning_rate": 6.15582970243117e-06,
3340
+ "loss": 0.155,
3341
+ "step": 476
3342
+ },
3343
+ {
3344
+ "epoch": 0.4087403598971722,
3345
+ "grad_norm": 0.009917198680341244,
3346
+ "learning_rate": 5.6544800879163026e-06,
3347
+ "loss": 0.1483,
3348
+ "step": 477
3349
+ },
3350
+ {
3351
+ "epoch": 0.40959725792630675,
3352
+ "grad_norm": 0.01124248094856739,
3353
+ "learning_rate": 5.174306590164879e-06,
3354
+ "loss": 0.1506,
3355
+ "step": 478
3356
+ },
3357
+ {
3358
+ "epoch": 0.4104541559554413,
3359
+ "grad_norm": 0.009757012128829956,
3360
+ "learning_rate": 4.715329778211374e-06,
3361
+ "loss": 0.1448,
3362
+ "step": 479
3363
+ },
3364
+ {
3365
+ "epoch": 0.41131105398457585,
3366
+ "grad_norm": 0.009212766773998737,
3367
+ "learning_rate": 4.277569313094809e-06,
3368
+ "loss": 0.1483,
3369
+ "step": 480
3370
+ },
3371
+ {
3372
+ "epoch": 0.41216795201371037,
3373
+ "grad_norm": 0.01022613886743784,
3374
+ "learning_rate": 3.861043947016474e-06,
3375
+ "loss": 0.1514,
3376
+ "step": 481
3377
+ },
3378
+ {
3379
+ "epoch": 0.4130248500428449,
3380
+ "grad_norm": 0.012525631114840508,
3381
+ "learning_rate": 3.4657715225368535e-06,
3382
+ "loss": 0.1523,
3383
+ "step": 482
3384
+ },
3385
+ {
3386
+ "epoch": 0.4138817480719794,
3387
+ "grad_norm": 0.013477517291903496,
3388
+ "learning_rate": 3.09176897181096e-06,
3389
+ "loss": 0.1508,
3390
+ "step": 483
3391
+ },
3392
+ {
3393
+ "epoch": 0.414738646101114,
3394
+ "grad_norm": 0.009571454487740993,
3395
+ "learning_rate": 2.739052315863355e-06,
3396
+ "loss": 0.1472,
3397
+ "step": 484
3398
+ },
3399
+ {
3400
+ "epoch": 0.4155955441302485,
3401
+ "grad_norm": 0.008747117593884468,
3402
+ "learning_rate": 2.4076366639015913e-06,
3403
+ "loss": 0.149,
3404
+ "step": 485
3405
+ },
3406
+ {
3407
+ "epoch": 0.41645244215938304,
3408
+ "grad_norm": 0.008356280624866486,
3409
+ "learning_rate": 2.097536212669171e-06,
3410
+ "loss": 0.1475,
3411
+ "step": 486
3412
+ },
3413
+ {
3414
+ "epoch": 0.41730934018851756,
3415
+ "grad_norm": 0.008765033446252346,
3416
+ "learning_rate": 1.8087642458373132e-06,
3417
+ "loss": 0.1476,
3418
+ "step": 487
3419
+ },
3420
+ {
3421
+ "epoch": 0.4181662382176521,
3422
+ "grad_norm": 0.009499343112111092,
3423
+ "learning_rate": 1.541333133436018e-06,
3424
+ "loss": 0.1429,
3425
+ "step": 488
3426
+ },
3427
+ {
3428
+ "epoch": 0.4190231362467866,
3429
+ "grad_norm": 0.009461235255002975,
3430
+ "learning_rate": 1.2952543313240472e-06,
3431
+ "loss": 0.1467,
3432
+ "step": 489
3433
+ },
3434
+ {
3435
+ "epoch": 0.4198800342759212,
3436
+ "grad_norm": 0.008559729903936386,
3437
+ "learning_rate": 1.0705383806982606e-06,
3438
+ "loss": 0.1529,
3439
+ "step": 490
3440
+ },
3441
+ {
3442
+ "epoch": 0.4207369323050557,
3443
+ "grad_norm": 0.010164659470319748,
3444
+ "learning_rate": 8.671949076420882e-07,
3445
+ "loss": 0.1567,
3446
+ "step": 491
3447
+ },
3448
+ {
3449
+ "epoch": 0.42159383033419023,
3450
+ "grad_norm": 0.01175006665289402,
3451
+ "learning_rate": 6.852326227130834e-07,
3452
+ "loss": 0.1579,
3453
+ "step": 492
3454
+ },
3455
+ {
3456
+ "epoch": 0.42245072836332476,
3457
+ "grad_norm": 0.013031876645982265,
3458
+ "learning_rate": 5.246593205699424e-07,
3459
+ "loss": 0.1423,
3460
+ "step": 493
3461
+ },
3462
+ {
3463
+ "epoch": 0.4233076263924593,
3464
+ "grad_norm": 0.009586134925484657,
3465
+ "learning_rate": 3.854818796385495e-07,
3466
+ "loss": 0.1539,
3467
+ "step": 494
3468
+ },
3469
+ {
3470
+ "epoch": 0.4241645244215938,
3471
+ "grad_norm": 0.009407884441316128,
3472
+ "learning_rate": 2.677062618171577e-07,
3473
+ "loss": 0.1446,
3474
+ "step": 495
3475
+ },
3476
+ {
3477
+ "epoch": 0.4250214224507284,
3478
+ "grad_norm": 0.00942971371114254,
3479
+ "learning_rate": 1.7133751222137007e-07,
3480
+ "loss": 0.1533,
3481
+ "step": 496
3482
+ },
3483
+ {
3484
+ "epoch": 0.4258783204798629,
3485
+ "grad_norm": 0.009059898555278778,
3486
+ "learning_rate": 9.637975896759077e-08,
3487
+ "loss": 0.1403,
3488
+ "step": 497
3489
+ },
3490
+ {
3491
+ "epoch": 0.4267352185089974,
3492
+ "grad_norm": 0.010631782002747059,
3493
+ "learning_rate": 4.283621299649987e-08,
3494
+ "loss": 0.159,
3495
+ "step": 498
3496
+ },
3497
+ {
3498
+ "epoch": 0.42759211653813195,
3499
+ "grad_norm": 0.009222394786775112,
3500
+ "learning_rate": 1.0709167935385456e-08,
3501
+ "loss": 0.1512,
3502
+ "step": 499
3503
+ },
3504
+ {
3505
+ "epoch": 0.4284490145672665,
3506
+ "grad_norm": 0.008665120229125023,
3507
+ "learning_rate": 0.0,
3508
+ "loss": 0.1478,
3509
+ "step": 500
3510
+ },
3511
+ {
3512
+ "epoch": 0.4284490145672665,
3513
+ "step": 500,
3514
+ "total_flos": 1.0100648106681958e+20,
3515
+ "train_loss": 0.25743724408745766,
3516
+ "train_runtime": 32795.7548,
3517
+ "train_samples_per_second": 0.244,
3518
+ "train_steps_per_second": 0.015
3519
+ }
3520
+ ],
3521
+ "logging_steps": 1.0,
3522
+ "max_steps": 500,
3523
+ "num_input_tokens_seen": 0,
3524
+ "num_train_epochs": 1,
3525
+ "save_steps": 500,
3526
+ "stateful_callbacks": {
3527
+ "TrainerControl": {
3528
+ "args": {
3529
+ "should_epoch_stop": false,
3530
+ "should_evaluate": false,
3531
+ "should_log": false,
3532
+ "should_save": false,
3533
+ "should_training_stop": false
3534
+ },
3535
+ "attributes": {}
3536
+ }
3537
+ },
3538
+ "total_flos": 1.0100648106681958e+20,
3539
+ "train_batch_size": 1,
3540
+ "trial_name": null,
3541
+ "trial_params": null
3542
+ }