[2025-05-13 22:11:03] Created output directory: train_results/google_t5-v1_1-large_ds1000_upsample1000
[2025-05-13 22:11:03] Chat mode disabled
[2025-05-13 22:11:03] Model size is 3B or smaller (0 B). Using full fine-tuning.
[2025-05-13 22:11:03] Adjusted parameters for t5 model:
[2025-05-13 22:11:03]   - LEARNING_RATE: 1e-4
[2025-05-13 22:11:03]   - BATCH_SIZE: 64
[2025-05-13 22:11:03]   - GRADIENT_ACCUMULATION_STEPS: 1
[2025-05-13 22:11:03] No QA format data will be used
[2025-05-13 22:11:03] Limiting dataset size to: 1000 samples
[2025-05-13 22:11:03] =======================================
[2025-05-13 22:11:03] Starting training for model: google/t5-v1_1-large
[2025-05-13 22:11:03] =======================================
[2025-05-13 22:11:03] CUDA_VISIBLE_DEVICES: 2,3
[2025-05-13 22:11:03] WANDB_PROJECT: wikidyk-ar
[2025-05-13 22:11:03] DATA_PATH: data/wikidyk2022-2025_01082025_gpt-4o_evalv2_pages_formatted_combined_v2.json
[2025-05-13 22:11:03] Global Batch Size: 128
[2025-05-13 22:11:03] Data Size: 1000
[2025-05-13 22:11:03] Executing command: torchrun --nproc_per_node "2" --master-port 29512 src/train.py       --model_name_or_path "google/t5-v1_1-large"       --data_path "data/wikidyk2022-2025_01082025_gpt-4o_evalv2_pages_formatted_combined_v2.json"       --output_dir "train_results/google_t5-v1_1-large_ds1000_upsample1000"       --num_upsample "1000"       --per_device_train_batch_size "64"       --gradient_accumulation_steps "1"       --learning_rate "1e-4"       --num_train_epochs "1"       --model_max_length "32768"       --report_to wandb --logging_steps 50 --save_strategy no       --bf16 True --use_flash_attention_2 True       --qa_data_ratio "-1"       --predict_mask "false"                            --ds_size 1000
[2025-05-13 22:11:03] Training started at Tue May 13 22:11:03 UTC 2025
W0513 22:11:04.326000 523566 site-packages/torch/distributed/run.py:792] 
W0513 22:11:04.326000 523566 site-packages/torch/distributed/run.py:792] *****************************************
W0513 22:11:04.326000 523566 site-packages/torch/distributed/run.py:792] Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. 
W0513 22:11:04.326000 523566 site-packages/torch/distributed/run.py:792] *****************************************
WARNING:root:Output directory: train_results/google_t5-v1_1-large_ds1000_upsample1000
WARNING:root:Output directory: train_results/google_t5-v1_1-large_ds1000_upsample1000
You are using the default legacy behaviour of the <class 'transformers.models.t5.tokenization_t5.T5Tokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565
You are using the default legacy behaviour of the <class 'transformers.models.t5.tokenization_t5.T5Tokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565
WARNING:root:Loading data...
WARNING:root:Loading data...
WARNING:root:Dataset initialized with all QA data:
WARNING:root:  - 0 QA examples
WARNING:root:  - 1000 fact examples with upsampling factor 1000
WARNING:root:  - Total examples: 1000000
WARNING:root:Dataset initialized with all QA data:
WARNING:root:  - 0 QA examples
WARNING:root:  - 1000 fact examples with upsampling factor 1000
WARNING:root:  - Total examples: 1000000
/root/yuwei/WikiDYKEvalV2/src/train.py:119: FutureWarning: `tokenizer` is deprecated and will be removed in version 5.0.0 for `Trainer.__init__`. Use `processing_class` instead.
  trainer = Trainer(model=model, tokenizer=tokenizer, args=training_args, **data_module)
/root/yuwei/WikiDYKEvalV2/src/train.py:119: FutureWarning: `tokenizer` is deprecated and will be removed in version 5.0.0 for `Trainer.__init__`. Use `processing_class` instead.
  trainer = Trainer(model=model, tokenizer=tokenizer, args=training_args, **data_module)
wandb: WARNING The `run_name` is currently set to the same value as `TrainingArguments.output_dir`. If this was not intended, please specify a different run name by setting the `TrainingArguments.run_name` parameter.
/root/miniconda3/envs/wikidyk/lib/python3.10/site-packages/transformers/tokenization_utils_base.py:3980: UserWarning: `as_target_tokenizer` is deprecated and will be removed in v5 of Transformers. You can tokenize your labels by using the argument `text_target` of the regular `__call__` method (either in the same call as your input texts if you use the same keyword arguments, or in a separate call.
  warnings.warn(
Passing a tuple of `past_key_values` is deprecated and will be removed in Transformers v4.48.0. You should pass an instance of `EncoderDecoderCache` instead, e.g. `past_key_values=EncoderDecoderCache.from_legacy_cache(past_key_values)`.
wandb: Currently logged in as: yuweiz to https://api.wandb.ai. Use `wandb login --relogin` to force relogin
[rank1]:[W513 22:11:19.931151645 reducer.cpp:1400] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
wandb: Tracking run with wandb version 0.19.11
wandb: Run data is saved locally in /root/yuwei/WikiDYKEvalV2/wandb/run-20250513_221119-z17cctla
wandb: Run `wandb offline` to turn off syncing.
wandb: Syncing run train_results/google_t5-v1_1-large_ds1000_upsample1000
wandb: ⭐️ View project at https://wandb.ai/yuweiz/wikidyk-ar
wandb: 🚀 View run at https://wandb.ai/yuweiz/wikidyk-ar/runs/z17cctla
  0%|          | 0/7813 [00:00<?, ?it/s]/root/miniconda3/envs/wikidyk/lib/python3.10/site-packages/transformers/tokenization_utils_base.py:3980: UserWarning: `as_target_tokenizer` is deprecated and will be removed in v5 of Transformers. You can tokenize your labels by using the argument `text_target` of the regular `__call__` method (either in the same call as your input texts if you use the same keyword arguments, or in a separate call.
  warnings.warn(
Passing a tuple of `past_key_values` is deprecated and will be removed in Transformers v4.48.0. You should pass an instance of `EncoderDecoderCache` instead, e.g. `past_key_values=EncoderDecoderCache.from_legacy_cache(past_key_values)`.
[rank0]:[W513 22:11:20.801913350 reducer.cpp:1400] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
  0%|          | 1/7813 [00:00<1:21:52,  1.59it/s]  0%|          | 2/7813 [00:02<2:27:34,  1.13s/it]  0%|          | 3/7813 [00:02<1:42:35,  1.27it/s]  0%|          | 4/7813 [00:02<1:17:41,  1.68it/s]  0%|          | 5/7813 [00:03<1:03:15,  2.06it/s]  0%|          | 6/7813 [00:03<55:10,  2.36it/s]    0%|          | 7/7813 [00:03<49:57,  2.60it/s]  0%|          | 8/7813 [00:03<46:00,  2.83it/s]  0%|          | 9/7813 [00:04<43:14,  3.01it/s]  0%|          | 10/7813 [00:05<1:11:17,  1.82it/s]  0%|          | 11/7813 [00:05<1:00:58,  2.13it/s]  0%|          | 12/7813 [00:05<53:56,  2.41it/s]    0%|          | 13/7813 [00:06<48:55,  2.66it/s]  0%|          | 14/7813 [00:06<45:22,  2.87it/s]  0%|          | 15/7813 [00:06<42:52,  3.03it/s]  0%|          | 16/7813 [00:07<41:04,  3.16it/s]  0%|          | 17/7813 [00:07<40:01,  3.25it/s]  0%|          | 18/7813 [00:07<39:22,  3.30it/s]  0%|          | 19/7813 [00:07<39:36,  3.28it/s]  0%|          | 20/7813 [00:08<39:04,  3.32it/s]  0%|          | 21/7813 [00:08<38:23,  3.38it/s]  0%|          | 22/7813 [00:08<38:15,  3.39it/s]  0%|          | 23/7813 [00:09<37:49,  3.43it/s]  0%|          | 24/7813 [00:09<37:38,  3.45it/s]  0%|          | 25/7813 [00:09<37:26,  3.47it/s]  0%|          | 26/7813 [00:09<37:18,  3.48it/s]  0%|          | 27/7813 [00:10<39:35,  3.28it/s]  0%|          | 28/7813 [00:10<38:54,  3.33it/s]  0%|          | 29/7813 [00:10<39:45,  3.26it/s]  0%|          | 30/7813 [00:12<1:13:03,  1.78it/s]  0%|          | 31/7813 [00:12<1:03:56,  2.03it/s]  0%|          | 32/7813 [00:12<56:23,  2.30it/s]    0%|          | 33/7813 [00:12<50:56,  2.55it/s]  0%|          | 34/7813 [00:13<47:12,  2.75it/s]  0%|          | 35/7813 [00:13<44:21,  2.92it/s]  0%|          | 36/7813 [00:13<42:46,  3.03it/s]  0%|          | 37/7813 [00:14<41:20,  3.14it/s]  0%|          | 38/7813 [00:14<40:21,  3.21it/s]  0%|          | 39/7813 [00:14<39:29,  3.28it/s]  1%|          | 40/7813 [00:15<39:14,  3.30it/s]  1%|          | 41/7813 [00:15<40:23,  3.21it/s]  1%|          | 42/7813 [00:15<39:43,  3.26it/s]  1%|          | 43/7813 [00:15<39:31,  3.28it/s]  1%|          | 44/7813 [00:16<39:17,  3.30it/s]  1%|          | 45/7813 [00:16<39:58,  3.24it/s]  1%|          | 46/7813 [00:16<39:56,  3.24it/s]  1%|          | 47/7813 [00:17<39:28,  3.28it/s]  1%|          | 48/7813 [00:17<39:23,  3.28it/s]  1%|          | 49/7813 [00:17<38:48,  3.33it/s]  1%|          | 50/7813 [00:18<38:32,  3.36it/s]                                                 {'loss': 28.3051, 'grad_norm': 28.045316696166992, 'learning_rate': 9.937284013823116e-05, 'epoch': 0.01}
  1%|          | 50/7813 [00:18<38:32,  3.36it/s]  1%|          | 51/7813 [00:18<38:26,  3.37it/s]  1%|          | 52/7813 [00:18<38:26,  3.36it/s]  1%|          | 53/7813 [00:18<38:12,  3.39it/s]  1%|          | 54/7813 [00:19<38:01,  3.40it/s]  1%|          | 55/7813 [00:19<37:51,  3.41it/s]  1%|          | 56/7813 [00:19<38:01,  3.40it/s]  1%|          | 57/7813 [00:20<38:33,  3.35it/s]  1%|          | 58/7813 [00:20<38:16,  3.38it/s]  1%|          | 59/7813 [00:20<37:52,  3.41it/s]  1%|          | 60/7813 [00:21<37:54,  3.41it/s]  1%|          | 61/7813 [00:21<38:04,  3.39it/s]  1%|          | 62/7813 [00:21<38:14,  3.38it/s]  1%|          | 63/7813 [00:21<38:08,  3.39it/s]  1%|          | 64/7813 [00:22<38:18,  3.37it/s]  1%|          | 65/7813 [00:22<38:06,  3.39it/s]  1%|          | 66/7813 [00:22<38:13,  3.38it/s]  1%|          | 67/7813 [00:23<38:46,  3.33it/s]  1%|          | 68/7813 [00:23<38:27,  3.36it/s]  1%|          | 69/7813 [00:23<38:03,  3.39it/s]  1%|          | 70/7813 [00:23<37:57,  3.40it/s]  1%|          | 71/7813 [00:24<38:59,  3.31it/s]  1%|          | 72/7813 [00:24<38:42,  3.33it/s]  1%|          | 73/7813 [00:24<38:49,  3.32it/s]  1%|          | 74/7813 [00:25<39:19,  3.28it/s]  1%|          | 75/7813 [00:25<38:35,  3.34it/s]  1%|          | 76/7813 [00:25<38:34,  3.34it/s]  1%|          | 77/7813 [00:26<38:43,  3.33it/s]  1%|          | 78/7813 [00:26<38:34,  3.34it/s]  1%|          | 79/7813 [00:26<40:03,  3.22it/s]  1%|          | 80/7813 [00:27<39:34,  3.26it/s]  1%|          | 81/7813 [00:27<41:03,  3.14it/s]  1%|          | 82/7813 [00:27<41:40,  3.09it/s]  1%|          | 83/7813 [00:28<1:06:18,  1.94it/s]  1%|          | 84/7813 [00:28<57:40,  2.23it/s]    1%|          | 85/7813 [00:29<51:47,  2.49it/s]  1%|          | 86/7813 [00:29<47:28,  2.71it/s]  1%|          | 87/7813 [00:29<44:31,  2.89it/s]  1%|          | 88/7813 [00:30<42:50,  3.00it/s]  1%|          | 89/7813 [00:30<41:27,  3.10it/s]  1%|          | 90/7813 [00:30<40:28,  3.18it/s]  1%|          | 91/7813 [00:31<39:29,  3.26it/s]  1%|          | 92/7813 [00:31<38:46,  3.32it/s]  1%|          | 93/7813 [00:31<38:54,  3.31it/s]  1%|          | 94/7813 [00:31<38:27,  3.35it/s]  1%|          | 95/7813 [00:32<38:12,  3.37it/s]  1%|          | 96/7813 [00:32<38:13,  3.37it/s]  1%|          | 97/7813 [00:32<37:56,  3.39it/s]  1%|▏         | 98/7813 [00:33<38:14,  3.36it/s]  1%|▏         | 99/7813 [00:33<38:02,  3.38it/s]  1%|▏         | 100/7813 [00:33<38:09,  3.37it/s]                                                  {'loss': 17.3408, 'grad_norm': 19.770029067993164, 'learning_rate': 9.873288109560989e-05, 'epoch': 0.01}
  1%|▏         | 100/7813 [00:33<38:09,  3.37it/s]  1%|▏         | 101/7813 [00:33<38:07,  3.37it/s]  1%|▏         | 102/7813 [00:34<38:17,  3.36it/s]  1%|▏         | 103/7813 [00:34<38:04,  3.38it/s]  1%|▏         | 104/7813 [00:34<37:58,  3.38it/s]  1%|▏         | 105/7813 [00:35<39:31,  3.25it/s]  1%|▏         | 106/7813 [00:35<39:09,  3.28it/s]  1%|▏         | 107/7813 [00:35<38:37,  3.32it/s]  1%|▏         | 108/7813 [00:36<38:05,  3.37it/s]  1%|▏         | 109/7813 [00:36<38:31,  3.33it/s]  1%|▏         | 110/7813 [00:36<38:13,  3.36it/s]  1%|▏         | 111/7813 [00:36<38:10,  3.36it/s]  1%|▏         | 112/7813 [00:37<39:48,  3.22it/s]  1%|▏         | 113/7813 [00:37<40:44,  3.15it/s]  1%|▏         | 114/7813 [00:37<39:49,  3.22it/s]  1%|▏         | 115/7813 [00:38<39:11,  3.27it/s]  1%|▏         | 116/7813 [00:38<39:24,  3.25it/s]  1%|▏         | 117/7813 [00:38<38:51,  3.30it/s]  2%|▏         | 118/7813 [00:39<38:40,  3.32it/s]  2%|▏         | 119/7813 [00:39<38:23,  3.34it/s]  2%|▏         | 120/7813 [00:39<38:14,  3.35it/s]  2%|▏         | 121/7813 [00:40<38:08,  3.36it/s]  2%|▏         | 122/7813 [00:40<37:53,  3.38it/s]  2%|▏         | 123/7813 [00:40<37:45,  3.39it/s]  2%|▏         | 124/7813 [00:40<37:37,  3.41it/s]  2%|▏         | 125/7813 [00:41<37:43,  3.40it/s]  2%|▏         | 126/7813 [00:41<37:52,  3.38it/s]  2%|▏         | 127/7813 [00:41<37:40,  3.40it/s]  2%|▏         | 128/7813 [00:42<37:58,  3.37it/s]  2%|▏         | 129/7813 [00:42<37:51,  3.38it/s]  2%|▏         | 130/7813 [00:42<37:57,  3.37it/s]  2%|▏         | 131/7813 [00:42<37:38,  3.40it/s]  2%|▏         | 132/7813 [00:43<37:35,  3.41it/s]  2%|▏         | 133/7813 [00:43<37:19,  3.43it/s]  2%|▏         | 134/7813 [00:43<37:33,  3.41it/s]  2%|▏         | 135/7813 [00:44<38:08,  3.36it/s]  2%|▏         | 136/7813 [00:44<38:49,  3.30it/s]  2%|▏         | 137/7813 [00:44<38:12,  3.35it/s]  2%|▏         | 138/7813 [00:45<38:21,  3.33it/s]  2%|▏         | 139/7813 [00:45<38:23,  3.33it/s]  2%|▏         | 140/7813 [00:45<38:16,  3.34it/s]  2%|▏         | 141/7813 [00:45<38:10,  3.35it/s]  2%|▏         | 142/7813 [00:46<39:32,  3.23it/s]  2%|▏         | 143/7813 [00:46<39:33,  3.23it/s]  2%|▏         | 144/7813 [00:46<38:59,  3.28it/s]  2%|▏         | 145/7813 [00:47<38:39,  3.31it/s]  2%|▏         | 146/7813 [00:47<38:20,  3.33it/s]  2%|▏         | 147/7813 [00:47<38:03,  3.36it/s]  2%|▏         | 148/7813 [00:48<37:51,  3.37it/s]  2%|▏         | 149/7813 [00:48<39:10,  3.26it/s]  2%|▏         | 150/7813 [00:48<39:20,  3.25it/s]                                                  {'loss': 14.8429, 'grad_norm': 17.98250389099121, 'learning_rate': 9.809292205298862e-05, 'epoch': 0.02}
  2%|▏         | 150/7813 [00:48<39:20,  3.25it/s]  2%|▏         | 151/7813 [00:49<39:15,  3.25it/s]  2%|▏         | 152/7813 [00:49<38:56,  3.28it/s]  2%|▏         | 153/7813 [00:49<39:57,  3.19it/s]  2%|▏         | 154/7813 [00:49<39:19,  3.25it/s]  2%|▏         | 155/7813 [00:50<38:48,  3.29it/s]  2%|▏         | 156/7813 [00:50<38:36,  3.31it/s]  2%|▏         | 157/7813 [00:50<38:53,  3.28it/s]  2%|▏         | 158/7813 [00:51<38:35,  3.31it/s]  2%|▏         | 159/7813 [00:51<38:20,  3.33it/s]  2%|▏         | 160/7813 [00:51<38:01,  3.35it/s]  2%|▏         | 161/7813 [00:52<37:48,  3.37it/s]  2%|▏         | 162/7813 [00:52<37:57,  3.36it/s]  2%|▏         | 163/7813 [00:52<38:26,  3.32it/s]  2%|▏         | 164/7813 [00:52<38:11,  3.34it/s]  2%|▏         | 165/7813 [00:53<37:54,  3.36it/s]  2%|▏         | 166/7813 [00:53<37:47,  3.37it/s]  2%|▏         | 167/7813 [00:53<37:32,  3.39it/s]  2%|▏         | 168/7813 [00:54<37:25,  3.40it/s]  2%|▏         | 169/7813 [00:54<38:14,  3.33it/s]  2%|▏         | 170/7813 [00:54<38:08,  3.34it/s]  2%|▏         | 171/7813 [00:55<38:09,  3.34it/s]  2%|▏         | 172/7813 [00:55<38:09,  3.34it/s]  2%|▏         | 173/7813 [00:55<37:41,  3.38it/s]  2%|▏         | 174/7813 [00:55<38:08,  3.34it/s]  2%|▏         | 175/7813 [00:56<39:06,  3.25it/s]  2%|▏         | 176/7813 [00:56<39:37,  3.21it/s]  2%|▏         | 177/7813 [00:56<39:41,  3.21it/s]  2%|▏         | 178/7813 [00:57<38:57,  3.27it/s]  2%|▏         | 179/7813 [00:57<40:12,  3.16it/s]  2%|▏         | 180/7813 [00:57<39:56,  3.19it/s]  2%|▏         | 181/7813 [00:58<39:57,  3.18it/s]  2%|▏         | 182/7813 [00:58<39:25,  3.23it/s]  2%|▏         | 183/7813 [00:58<39:16,  3.24it/s]  2%|▏         | 184/7813 [00:59<39:04,  3.25it/s]  2%|▏         | 185/7813 [00:59<39:30,  3.22it/s]  2%|▏         | 186/7813 [00:59<38:56,  3.26it/s]  2%|▏         | 187/7813 [00:59<38:12,  3.33it/s]  2%|▏         | 188/7813 [01:00<38:10,  3.33it/s]  2%|▏         | 189/7813 [01:00<37:56,  3.35it/s]  2%|▏         | 190/7813 [01:00<38:43,  3.28it/s]  2%|▏         | 191/7813 [01:01<39:51,  3.19it/s]  2%|▏         | 192/7813 [01:01<38:58,  3.26it/s]  2%|▏         | 193/7813 [01:01<38:42,  3.28it/s]  2%|▏         | 194/7813 [01:02<38:43,  3.28it/s]  2%|▏         | 195/7813 [01:02<39:35,  3.21it/s]  3%|▎         | 196/7813 [01:02<38:57,  3.26it/s]  3%|▎         | 197/7813 [01:03<38:40,  3.28it/s]  3%|▎         | 198/7813 [01:03<38:25,  3.30it/s]  3%|▎         | 199/7813 [01:03<38:12,  3.32it/s]  3%|▎         | 200/7813 [01:03<38:21,  3.31it/s]                                                  {'loss': 13.1015, 'grad_norm': 18.55806541442871, 'learning_rate': 9.745296301036733e-05, 'epoch': 0.03}
  3%|▎         | 200/7813 [01:03<38:21,  3.31it/s]  3%|▎         | 201/7813 [01:04<38:10,  3.32it/s]  3%|▎         | 202/7813 [01:04<38:14,  3.32it/s]  3%|▎         | 203/7813 [01:04<38:04,  3.33it/s]  3%|▎         | 204/7813 [01:05<37:43,  3.36it/s]  3%|▎         | 205/7813 [01:05<37:53,  3.35it/s]  3%|▎         | 206/7813 [01:05<37:44,  3.36it/s]  3%|▎         | 207/7813 [01:05<37:36,  3.37it/s]  3%|▎         | 208/7813 [01:06<37:24,  3.39it/s]  3%|▎         | 209/7813 [01:06<37:33,  3.37it/s]  3%|▎         | 210/7813 [01:06<37:40,  3.36it/s]  3%|▎         | 211/7813 [01:07<37:43,  3.36it/s]  3%|▎         | 212/7813 [01:07<37:44,  3.36it/s]  3%|▎         | 213/7813 [01:07<38:37,  3.28it/s]  3%|▎         | 214/7813 [01:08<38:29,  3.29it/s]  3%|▎         | 215/7813 [01:08<38:21,  3.30it/s]  3%|▎         | 216/7813 [01:08<38:38,  3.28it/s]  3%|▎         | 217/7813 [01:08<38:06,  3.32it/s]  3%|▎         | 218/7813 [01:09<37:53,  3.34it/s]  3%|▎         | 219/7813 [01:09<37:43,  3.36it/s]  3%|▎         | 220/7813 [01:09<37:39,  3.36it/s]  3%|▎         | 221/7813 [01:10<37:53,  3.34it/s]  3%|▎         | 222/7813 [01:10<37:40,  3.36it/s]  3%|▎         | 223/7813 [01:10<37:51,  3.34it/s]  3%|▎         | 224/7813 [01:11<37:38,  3.36it/s]  3%|▎         | 225/7813 [01:11<37:37,  3.36it/s]  3%|▎         | 226/7813 [01:11<38:30,  3.28it/s]  3%|▎         | 227/7813 [01:11<38:07,  3.32it/s]  3%|▎         | 228/7813 [01:12<38:42,  3.27it/s]  3%|▎         | 229/7813 [01:12<38:26,  3.29it/s]  3%|▎         | 230/7813 [01:12<38:05,  3.32it/s]  3%|▎         | 231/7813 [01:13<37:58,  3.33it/s]  3%|▎         | 232/7813 [01:13<37:40,  3.35it/s]  3%|▎         | 233/7813 [01:13<37:48,  3.34it/s]  3%|▎         | 234/7813 [01:14<37:50,  3.34it/s]  3%|▎         | 235/7813 [01:14<37:38,  3.35it/s]  3%|▎         | 236/7813 [01:14<37:43,  3.35it/s]  3%|▎         | 237/7813 [01:15<38:38,  3.27it/s]  3%|▎         | 238/7813 [01:15<38:03,  3.32it/s]  3%|▎         | 239/7813 [01:15<37:48,  3.34it/s]  3%|▎         | 240/7813 [01:15<37:42,  3.35it/s]  3%|▎         | 241/7813 [01:16<37:21,  3.38it/s]  3%|▎         | 242/7813 [01:16<37:13,  3.39it/s]  3%|▎         | 243/7813 [01:16<37:08,  3.40it/s]  3%|▎         | 244/7813 [01:17<37:34,  3.36it/s]  3%|▎         | 245/7813 [01:17<37:33,  3.36it/s]  3%|▎         | 246/7813 [01:17<37:25,  3.37it/s]  3%|▎         | 247/7813 [01:17<38:26,  3.28it/s]  3%|▎         | 248/7813 [01:18<38:04,  3.31it/s]  3%|▎         | 249/7813 [01:18<38:05,  3.31it/s]  3%|▎         | 250/7813 [01:18<38:01,  3.32it/s]                                                  {'loss': 7.882, 'grad_norm': 19.83721351623535, 'learning_rate': 9.681300396774608e-05, 'epoch': 0.03}
  3%|▎         | 250/7813 [01:18<38:01,  3.32it/s]  3%|▎         | 251/7813 [01:19<37:41,  3.34it/s]  3%|▎         | 252/7813 [01:19<37:33,  3.35it/s]  3%|▎         | 253/7813 [01:19<37:26,  3.36it/s]  3%|▎         | 254/7813 [01:20<37:37,  3.35it/s]  3%|▎         | 255/7813 [01:20<37:30,  3.36it/s]  3%|▎         | 256/7813 [01:20<37:26,  3.36it/s]  3%|▎         | 257/7813 [01:20<37:15,  3.38it/s]  3%|▎         | 258/7813 [01:21<37:17,  3.38it/s]  3%|▎         | 259/7813 [01:21<38:11,  3.30it/s]  3%|▎         | 260/7813 [01:21<38:36,  3.26it/s]  3%|▎         | 261/7813 [01:22<38:18,  3.29it/s]  3%|▎         | 262/7813 [01:22<37:52,  3.32it/s]  3%|▎         | 263/7813 [01:22<38:17,  3.29it/s]  3%|▎         | 264/7813 [01:23<37:59,  3.31it/s]  3%|▎         | 265/7813 [01:23<37:59,  3.31it/s]  3%|▎         | 266/7813 [01:23<37:56,  3.31it/s]  3%|▎         | 267/7813 [01:24<39:26,  3.19it/s]  3%|▎         | 268/7813 [01:24<38:46,  3.24it/s]  3%|▎         | 269/7813 [01:24<38:02,  3.31it/s]  3%|▎         | 270/7813 [01:24<37:37,  3.34it/s]  3%|▎         | 271/7813 [01:25<37:31,  3.35it/s]  3%|▎         | 272/7813 [01:25<37:38,  3.34it/s]  3%|▎         | 273/7813 [01:25<37:30,  3.35it/s]  4%|▎         | 274/7813 [01:26<37:24,  3.36it/s]  4%|▎         | 275/7813 [01:26<37:22,  3.36it/s]  4%|▎         | 276/7813 [01:26<37:33,  3.35it/s]  4%|▎         | 277/7813 [01:26<37:28,  3.35it/s]  4%|▎         | 278/7813 [01:27<37:25,  3.36it/s]  4%|▎         | 279/7813 [01:27<37:25,  3.36it/s]  4%|▎         | 280/7813 [01:27<37:53,  3.31it/s]  4%|▎         | 281/7813 [01:28<38:01,  3.30it/s]  4%|▎         | 282/7813 [01:28<37:39,  3.33it/s]  4%|▎         | 283/7813 [01:28<37:42,  3.33it/s]  4%|▎         | 284/7813 [01:29<37:38,  3.33it/s]  4%|▎         | 285/7813 [01:29<37:43,  3.33it/s]  4%|▎         | 286/7813 [01:29<37:45,  3.32it/s]  4%|▎         | 287/7813 [01:30<37:37,  3.33it/s]  4%|▎         | 288/7813 [01:30<37:43,  3.33it/s]  4%|▎         | 289/7813 [01:30<37:38,  3.33it/s]  4%|▎         | 290/7813 [01:30<37:33,  3.34it/s]  4%|▎         | 291/7813 [01:31<37:20,  3.36it/s]  4%|▎         | 292/7813 [01:31<37:29,  3.34it/s]  4%|▍         | 293/7813 [01:31<37:31,  3.34it/s]  4%|▍         | 294/7813 [01:32<37:39,  3.33it/s]  4%|▍         | 295/7813 [01:32<37:17,  3.36it/s]  4%|▍         | 296/7813 [01:32<37:24,  3.35it/s]  4%|▍         | 297/7813 [01:32<37:07,  3.37it/s]  4%|▍         | 298/7813 [01:33<38:34,  3.25it/s]  4%|▍         | 299/7813 [01:33<38:36,  3.24it/s]  4%|▍         | 300/7813 [01:33<38:07,  3.28it/s]                                                  {'loss': 0.8015, 'grad_norm': 1.1931675672531128, 'learning_rate': 9.61730449251248e-05, 'epoch': 0.04}
  4%|▍         | 300/7813 [01:33<38:07,  3.28it/s]  4%|▍         | 301/7813 [01:34<37:50,  3.31it/s]  4%|▍         | 302/7813 [01:34<38:02,  3.29it/s]  4%|▍         | 303/7813 [01:34<37:33,  3.33it/s]  4%|▍         | 304/7813 [01:35<37:09,  3.37it/s]  4%|▍         | 305/7813 [01:35<36:56,  3.39it/s]  4%|▍         | 306/7813 [01:35<37:15,  3.36it/s]  4%|▍         | 307/7813 [01:36<38:35,  3.24it/s]  4%|▍         | 308/7813 [01:36<39:20,  3.18it/s]  4%|▍         | 309/7813 [01:36<38:29,  3.25it/s]  4%|▍         | 310/7813 [01:36<37:59,  3.29it/s]  4%|▍         | 311/7813 [01:37<39:14,  3.19it/s]  4%|▍         | 312/7813 [01:37<38:22,  3.26it/s]  4%|▍         | 313/7813 [01:37<37:51,  3.30it/s]  4%|▍         | 314/7813 [01:38<37:40,  3.32it/s]  4%|▍         | 315/7813 [01:38<37:18,  3.35it/s]  4%|▍         | 316/7813 [01:39<48:47,  2.56it/s]  4%|▍         | 317/7813 [01:39<45:09,  2.77it/s]  4%|▍         | 318/7813 [01:39<42:45,  2.92it/s]  4%|▍         | 319/7813 [01:39<41:13,  3.03it/s]  4%|▍         | 320/7813 [01:40<41:41,  2.99it/s]  4%|▍         | 321/7813 [01:40<42:40,  2.93it/s]  4%|▍         | 322/7813 [01:40<40:54,  3.05it/s]  4%|▍         | 323/7813 [01:41<39:43,  3.14it/s]  4%|▍         | 324/7813 [01:41<38:48,  3.22it/s]  4%|▍         | 325/7813 [01:41<38:30,  3.24it/s]  4%|▍         | 326/7813 [01:42<38:00,  3.28it/s]  4%|▍         | 327/7813 [01:42<37:56,  3.29it/s]  4%|▍         | 328/7813 [01:42<37:41,  3.31it/s]  4%|▍         | 329/7813 [01:43<37:17,  3.34it/s]  4%|▍         | 330/7813 [01:43<36:51,  3.38it/s]  4%|▍         | 331/7813 [01:43<36:29,  3.42it/s]  4%|▍         | 332/7813 [01:43<36:30,  3.42it/s]  4%|▍         | 333/7813 [01:44<36:27,  3.42it/s]  4%|▍         | 334/7813 [01:44<36:34,  3.41it/s]  4%|▍         | 335/7813 [01:44<36:23,  3.43it/s]  4%|▍         | 336/7813 [01:45<36:47,  3.39it/s]  4%|▍         | 337/7813 [01:45<36:43,  3.39it/s]  4%|▍         | 338/7813 [01:45<36:42,  3.39it/s]  4%|▍         | 339/7813 [01:46<37:47,  3.30it/s]  4%|▍         | 340/7813 [01:46<37:23,  3.33it/s]  4%|▍         | 341/7813 [01:46<37:42,  3.30it/s]  4%|▍         | 342/7813 [01:46<37:28,  3.32it/s]  4%|▍         | 343/7813 [01:47<37:09,  3.35it/s]  4%|▍         | 344/7813 [01:47<37:13,  3.34it/s]  4%|▍         | 345/7813 [01:47<37:06,  3.35it/s]  4%|▍         | 346/7813 [01:48<37:03,  3.36it/s]  4%|▍         | 347/7813 [01:48<36:35,  3.40it/s]  4%|▍         | 348/7813 [01:48<36:36,  3.40it/s]  4%|▍         | 349/7813 [01:48<37:10,  3.35it/s]  4%|▍         | 350/7813 [01:49<37:28,  3.32it/s]                                                  {'loss': 0.726, 'grad_norm': 0.799049437046051, 'learning_rate': 9.553308588250352e-05, 'epoch': 0.04}
  4%|▍         | 350/7813 [01:49<37:28,  3.32it/s]  4%|▍         | 351/7813 [01:49<37:31,  3.31it/s]  5%|▍         | 352/7813 [01:49<37:47,  3.29it/s]  5%|▍         | 353/7813 [01:50<37:23,  3.32it/s]  5%|▍         | 354/7813 [01:50<37:06,  3.35it/s]  5%|▍         | 355/7813 [01:50<36:50,  3.37it/s]  5%|▍         | 356/7813 [01:51<37:02,  3.36it/s]  5%|▍         | 357/7813 [01:51<37:21,  3.33it/s]  5%|▍         | 358/7813 [01:51<38:04,  3.26it/s]  5%|▍         | 359/7813 [01:52<37:52,  3.28it/s]  5%|▍         | 360/7813 [01:52<38:25,  3.23it/s]  5%|▍         | 361/7813 [01:52<38:08,  3.26it/s]  5%|▍         | 362/7813 [01:52<37:54,  3.28it/s]  5%|▍         | 363/7813 [01:53<37:47,  3.28it/s]  5%|▍         | 364/7813 [01:53<37:33,  3.31it/s]  5%|▍         | 365/7813 [01:53<37:32,  3.31it/s]  5%|▍         | 366/7813 [01:54<37:22,  3.32it/s]  5%|▍         | 367/7813 [01:54<37:15,  3.33it/s]  5%|▍         | 368/7813 [01:54<37:13,  3.33it/s]  5%|▍         | 369/7813 [01:55<37:27,  3.31it/s]  5%|▍         | 370/7813 [01:55<37:29,  3.31it/s]  5%|▍         | 371/7813 [01:55<37:27,  3.31it/s]  5%|▍         | 372/7813 [01:55<37:35,  3.30it/s]  5%|▍         | 373/7813 [01:56<37:44,  3.29it/s]  5%|▍         | 374/7813 [01:56<37:47,  3.28it/s]  5%|▍         | 375/7813 [01:56<37:41,  3.29it/s]  5%|▍         | 376/7813 [01:57<37:37,  3.29it/s]  5%|▍         | 377/7813 [01:57<37:21,  3.32it/s]  5%|▍         | 378/7813 [01:57<37:24,  3.31it/s]  5%|▍         | 379/7813 [01:58<37:07,  3.34it/s]  5%|▍         | 380/7813 [01:58<36:55,  3.36it/s]  5%|▍         | 381/7813 [01:58<37:01,  3.35it/s]  5%|▍         | 382/7813 [01:58<37:08,  3.33it/s]  5%|▍         | 383/7813 [01:59<53:29,  2.31it/s]  5%|▍         | 384/7813 [02:00<50:33,  2.45it/s]  5%|▍         | 385/7813 [02:00<48:04,  2.58it/s]  5%|▍         | 386/7813 [02:00<44:44,  2.77it/s]  5%|▍         | 387/7813 [02:00<42:46,  2.89it/s]  5%|▍         | 388/7813 [02:01<41:36,  2.97it/s]  5%|▍         | 389/7813 [02:01<40:10,  3.08it/s]  5%|▍         | 390/7813 [02:01<39:28,  3.13it/s]  5%|▌         | 391/7813 [02:02<39:33,  3.13it/s]  5%|▌         | 392/7813 [02:02<38:40,  3.20it/s]  5%|▌         | 393/7813 [02:02<38:09,  3.24it/s]  5%|▌         | 394/7813 [02:03<37:41,  3.28it/s]  5%|▌         | 395/7813 [02:03<37:21,  3.31it/s]  5%|▌         | 396/7813 [02:03<37:16,  3.32it/s]  5%|▌         | 397/7813 [02:04<37:14,  3.32it/s]  5%|▌         | 398/7813 [02:04<37:30,  3.29it/s]  5%|▌         | 399/7813 [02:04<38:20,  3.22it/s]  5%|▌         | 400/7813 [02:04<37:55,  3.26it/s]                                                  {'loss': 0.6174, 'grad_norm': 1.3201781511306763, 'learning_rate': 9.489312683988225e-05, 'epoch': 0.05}
  5%|▌         | 400/7813 [02:04<37:55,  3.26it/s]  5%|▌         | 401/7813 [02:05<37:43,  3.27it/s]  5%|▌         | 402/7813 [02:05<37:21,  3.31it/s]  5%|▌         | 403/7813 [02:05<37:06,  3.33it/s]  5%|▌         | 404/7813 [02:06<37:28,  3.29it/s]  5%|▌         | 405/7813 [02:06<37:17,  3.31it/s]  5%|▌         | 406/7813 [02:06<36:59,  3.34it/s]  5%|▌         | 407/7813 [02:07<37:17,  3.31it/s]  5%|▌         | 408/7813 [02:07<36:59,  3.34it/s]  5%|▌         | 409/7813 [02:07<37:01,  3.33it/s]  5%|▌         | 410/7813 [02:07<36:57,  3.34it/s]  5%|▌         | 411/7813 [02:08<37:01,  3.33it/s]  5%|▌         | 412/7813 [02:08<38:23,  3.21it/s]  5%|▌         | 413/7813 [02:08<38:48,  3.18it/s]  5%|▌         | 414/7813 [02:09<38:08,  3.23it/s]  5%|▌         | 415/7813 [02:09<37:51,  3.26it/s]  5%|▌         | 416/7813 [02:09<37:21,  3.30it/s]  5%|▌         | 417/7813 [02:10<37:49,  3.26it/s]  5%|▌         | 418/7813 [02:10<37:14,  3.31it/s]  5%|▌         | 419/7813 [02:10<36:45,  3.35it/s]  5%|▌         | 420/7813 [02:10<36:28,  3.38it/s]  5%|▌         | 421/7813 [02:11<36:36,  3.37it/s]  5%|▌         | 422/7813 [02:11<36:43,  3.35it/s]  5%|▌         | 423/7813 [02:11<37:20,  3.30it/s]  5%|▌         | 424/7813 [02:12<37:16,  3.30it/s]  5%|▌         | 425/7813 [02:12<37:01,  3.33it/s]  5%|▌         | 426/7813 [02:12<36:41,  3.36it/s]  5%|▌         | 427/7813 [02:13<36:31,  3.37it/s]  5%|▌         | 428/7813 [02:13<36:54,  3.33it/s]  5%|▌         | 429/7813 [02:13<37:41,  3.27it/s]  6%|▌         | 430/7813 [02:14<37:29,  3.28it/s]  6%|▌         | 431/7813 [02:14<37:09,  3.31it/s]  6%|▌         | 432/7813 [02:14<37:16,  3.30it/s]  6%|▌         | 433/7813 [02:14<37:06,  3.31it/s]  6%|▌         | 434/7813 [02:15<38:05,  3.23it/s]  6%|▌         | 435/7813 [02:15<37:51,  3.25it/s]  6%|▌         | 436/7813 [02:15<37:26,  3.28it/s]  6%|▌         | 437/7813 [02:16<37:15,  3.30it/s]  6%|▌         | 438/7813 [02:16<38:43,  3.17it/s]  6%|▌         | 439/7813 [02:16<38:06,  3.22it/s]  6%|▌         | 440/7813 [02:17<39:09,  3.14it/s]  6%|▌         | 441/7813 [02:17<38:48,  3.17it/s]  6%|▌         | 442/7813 [02:17<39:57,  3.07it/s]  6%|▌         | 443/7813 [02:18<38:54,  3.16it/s]  6%|▌         | 444/7813 [02:18<38:27,  3.19it/s]  6%|▌         | 445/7813 [02:18<38:06,  3.22it/s]  6%|▌         | 446/7813 [02:18<37:32,  3.27it/s]  6%|▌         | 447/7813 [02:19<37:23,  3.28it/s]  6%|▌         | 448/7813 [02:19<38:03,  3.23it/s]  6%|▌         | 449/7813 [02:19<37:24,  3.28it/s]  6%|▌         | 450/7813 [02:20<37:35,  3.26it/s]                                                  {'loss': 0.557, 'grad_norm': 1.1187546253204346, 'learning_rate': 9.425316779726098e-05, 'epoch': 0.06}
  6%|▌         | 450/7813 [02:20<37:35,  3.26it/s]  6%|▌         | 451/7813 [02:20<38:37,  3.18it/s]  6%|▌         | 452/7813 [02:20<38:07,  3.22it/s]  6%|▌         | 453/7813 [02:21<37:31,  3.27it/s]  6%|▌         | 454/7813 [02:21<37:09,  3.30it/s]  6%|▌         | 455/7813 [02:21<36:54,  3.32it/s]  6%|▌         | 456/7813 [02:22<38:15,  3.21it/s]  6%|▌         | 457/7813 [02:22<37:44,  3.25it/s]  6%|▌         | 458/7813 [02:22<37:12,  3.29it/s]  6%|▌         | 459/7813 [02:22<36:51,  3.33it/s]  6%|▌         | 460/7813 [02:23<36:50,  3.33it/s]  6%|▌         | 461/7813 [02:23<36:56,  3.32it/s]  6%|▌         | 462/7813 [02:23<36:43,  3.34it/s]  6%|▌         | 463/7813 [02:24<36:35,  3.35it/s]  6%|▌         | 464/7813 [02:24<36:51,  3.32it/s]  6%|▌         | 465/7813 [02:24<36:55,  3.32it/s]  6%|▌         | 466/7813 [02:25<38:30,  3.18it/s]  6%|▌         | 467/7813 [02:25<37:56,  3.23it/s]  6%|▌         | 468/7813 [02:25<37:27,  3.27it/s]  6%|▌         | 469/7813 [02:26<37:28,  3.27it/s]  6%|▌         | 470/7813 [02:26<38:49,  3.15it/s]  6%|▌         | 471/7813 [02:26<38:07,  3.21it/s]  6%|▌         | 472/7813 [02:26<37:50,  3.23it/s]  6%|▌         | 473/7813 [02:27<37:25,  3.27it/s]  6%|▌         | 474/7813 [02:27<37:39,  3.25it/s]  6%|▌         | 475/7813 [02:27<38:35,  3.17it/s]  6%|▌         | 476/7813 [02:28<37:47,  3.24it/s]  6%|▌         | 477/7813 [02:28<37:36,  3.25it/s]  6%|▌         | 478/7813 [02:28<37:06,  3.29it/s]  6%|▌         | 479/7813 [02:29<37:31,  3.26it/s]  6%|▌         | 480/7813 [02:29<38:35,  3.17it/s]  6%|▌         | 481/7813 [02:29<37:41,  3.24it/s]  6%|▌         | 482/7813 [02:30<37:58,  3.22it/s]  6%|▌         | 483/7813 [02:30<37:59,  3.22it/s]  6%|▌         | 484/7813 [02:30<37:20,  3.27it/s]  6%|▌         | 485/7813 [02:30<37:07,  3.29it/s]  6%|▌         | 486/7813 [02:31<37:05,  3.29it/s]  6%|▌         | 487/7813 [02:31<38:22,  3.18it/s]  6%|▌         | 488/7813 [02:31<37:46,  3.23it/s]  6%|▋         | 489/7813 [02:32<37:15,  3.28it/s]  6%|▋         | 490/7813 [02:32<37:04,  3.29it/s]  6%|▋         | 491/7813 [02:32<37:25,  3.26it/s]  6%|▋         | 492/7813 [02:33<36:54,  3.31it/s]  6%|▋         | 493/7813 [02:33<36:38,  3.33it/s]  6%|▋         | 494/7813 [02:33<38:21,  3.18it/s]  6%|▋         | 495/7813 [02:34<37:48,  3.23it/s]  6%|▋         | 496/7813 [02:34<38:19,  3.18it/s]  6%|▋         | 497/7813 [02:34<38:01,  3.21it/s]  6%|▋         | 498/7813 [02:34<37:24,  3.26it/s]  6%|▋         | 499/7813 [02:35<38:30,  3.17it/s]  6%|▋         | 500/7813 [02:35<37:51,  3.22it/s]                                                  {'loss': 0.502, 'grad_norm': 2.0805277824401855, 'learning_rate': 9.36132087546397e-05, 'epoch': 0.06}
  6%|▋         | 500/7813 [02:35<37:51,  3.22it/s]  6%|▋         | 501/7813 [02:35<37:32,  3.25it/s]  6%|▋         | 502/7813 [02:36<37:11,  3.28it/s]  6%|▋         | 503/7813 [02:36<37:00,  3.29it/s]  6%|▋         | 504/7813 [02:36<37:22,  3.26it/s]  6%|▋         | 505/7813 [02:37<36:46,  3.31it/s]  6%|▋         | 506/7813 [02:37<36:50,  3.30it/s]  6%|▋         | 507/7813 [02:37<36:54,  3.30it/s]  7%|▋         | 508/7813 [02:38<36:53,  3.30it/s]  7%|▋         | 509/7813 [02:38<36:53,  3.30it/s]  7%|▋         | 510/7813 [02:38<36:33,  3.33it/s]  7%|▋         | 511/7813 [02:38<36:57,  3.29it/s]  7%|▋         | 512/7813 [02:39<36:46,  3.31it/s]  7%|▋         | 513/7813 [02:39<36:36,  3.32it/s]  7%|▋         | 514/7813 [02:39<36:37,  3.32it/s]  7%|▋         | 515/7813 [02:40<48:33,  2.50it/s]  7%|▋         | 516/7813 [02:40<44:38,  2.72it/s]  7%|▋         | 517/7813 [02:41<42:39,  2.85it/s]  7%|▋         | 518/7813 [02:41<40:57,  2.97it/s]  7%|▋         | 519/7813 [02:41<39:45,  3.06it/s]  7%|▋         | 520/7813 [02:42<40:02,  3.04it/s]  7%|▋         | 521/7813 [02:42<38:57,  3.12it/s]  7%|▋         | 522/7813 [02:42<38:00,  3.20it/s]  7%|▋         | 523/7813 [02:42<37:35,  3.23it/s]  7%|▋         | 524/7813 [02:43<37:27,  3.24it/s]  7%|▋         | 525/7813 [02:43<37:14,  3.26it/s]  7%|▋         | 526/7813 [02:43<36:52,  3.29it/s]  7%|▋         | 527/7813 [02:44<36:51,  3.29it/s]  7%|▋         | 528/7813 [02:44<36:37,  3.32it/s]  7%|▋         | 529/7813 [02:44<36:37,  3.31it/s]  7%|▋         | 530/7813 [02:44<36:17,  3.34it/s]  7%|▋         | 531/7813 [02:45<36:11,  3.35it/s]  7%|▋         | 532/7813 [02:45<37:37,  3.23it/s]  7%|▋         | 533/7813 [02:45<37:13,  3.26it/s]  7%|▋         | 534/7813 [02:46<36:41,  3.31it/s]  7%|▋         | 535/7813 [02:46<36:19,  3.34it/s]  7%|▋         | 536/7813 [02:46<38:20,  3.16it/s]  7%|▋         | 537/7813 [02:47<37:35,  3.23it/s]  7%|▋         | 538/7813 [02:47<37:37,  3.22it/s]  7%|▋         | 539/7813 [02:47<37:18,  3.25it/s]  7%|▋         | 540/7813 [02:48<36:57,  3.28it/s]  7%|▋         | 541/7813 [02:48<36:34,  3.31it/s]  7%|▋         | 542/7813 [02:48<36:19,  3.34it/s]  7%|▋         | 543/7813 [02:48<36:26,  3.32it/s]  7%|▋         | 544/7813 [02:49<36:20,  3.33it/s]  7%|▋         | 545/7813 [02:49<36:23,  3.33it/s]  7%|▋         | 546/7813 [02:49<36:17,  3.34it/s]  7%|▋         | 547/7813 [02:50<37:53,  3.20it/s]  7%|▋         | 548/7813 [02:50<37:36,  3.22it/s]  7%|▋         | 549/7813 [02:50<37:04,  3.27it/s]  7%|▋         | 550/7813 [02:51<37:34,  3.22it/s]                                                  {'loss': 0.4643, 'grad_norm': 0.7003637552261353, 'learning_rate': 9.297324971201844e-05, 'epoch': 0.07}
  7%|▋         | 550/7813 [02:51<37:34,  3.22it/s]  7%|▋         | 551/7813 [02:51<37:25,  3.23it/s]  7%|▋         | 552/7813 [02:51<36:56,  3.28it/s]  7%|▋         | 553/7813 [02:52<36:37,  3.30it/s]  7%|▋         | 554/7813 [02:52<36:30,  3.31it/s]  7%|▋         | 555/7813 [02:52<36:38,  3.30it/s]  7%|▋         | 556/7813 [02:52<36:17,  3.33it/s]  7%|▋         | 557/7813 [02:53<37:30,  3.22it/s]  7%|▋         | 558/7813 [02:53<38:43,  3.12it/s]  7%|▋         | 559/7813 [02:53<37:46,  3.20it/s]  7%|▋         | 560/7813 [02:54<36:53,  3.28it/s]  7%|▋         | 561/7813 [02:54<37:01,  3.26it/s]  7%|▋         | 562/7813 [02:55<53:47,  2.25it/s]  7%|▋         | 563/7813 [02:55<48:27,  2.49it/s]  7%|▋         | 564/7813 [02:55<45:47,  2.64it/s]  7%|▋         | 565/7813 [02:56<43:31,  2.78it/s]  7%|▋         | 566/7813 [02:56<41:34,  2.91it/s]  7%|▋         | 567/7813 [02:56<40:10,  3.01it/s]  7%|▋         | 568/7813 [02:57<39:13,  3.08it/s]  7%|▋         | 569/7813 [02:57<38:26,  3.14it/s]  7%|▋         | 570/7813 [02:57<37:46,  3.20it/s]  7%|▋         | 571/7813 [02:58<39:31,  3.05it/s]  7%|▋         | 572/7813 [02:58<39:01,  3.09it/s]  7%|▋         | 573/7813 [02:58<38:12,  3.16it/s]  7%|▋         | 574/7813 [02:59<37:51,  3.19it/s]  7%|▋         | 575/7813 [02:59<37:44,  3.20it/s]  7%|▋         | 576/7813 [02:59<37:31,  3.21it/s]  7%|▋         | 577/7813 [02:59<37:06,  3.25it/s]  7%|▋         | 578/7813 [03:00<37:03,  3.25it/s]  7%|▋         | 579/7813 [03:00<38:06,  3.16it/s]  7%|▋         | 580/7813 [03:00<39:11,  3.08it/s]  7%|▋         | 581/7813 [03:01<38:15,  3.15it/s]  7%|▋         | 582/7813 [03:01<37:27,  3.22it/s]  7%|▋         | 583/7813 [03:01<37:11,  3.24it/s]  7%|▋         | 584/7813 [03:02<37:16,  3.23it/s]  7%|▋         | 585/7813 [03:02<37:08,  3.24it/s]  8%|▊         | 586/7813 [03:02<37:06,  3.25it/s]  8%|▊         | 587/7813 [03:03<37:09,  3.24it/s]  8%|▊         | 588/7813 [03:03<36:57,  3.26it/s]  8%|▊         | 589/7813 [03:03<36:37,  3.29it/s]  8%|▊         | 590/7813 [03:03<36:15,  3.32it/s]  8%|▊         | 591/7813 [03:04<36:05,  3.34it/s]  8%|▊         | 592/7813 [03:04<36:02,  3.34it/s]  8%|▊         | 593/7813 [03:04<35:56,  3.35it/s]  8%|▊         | 594/7813 [03:05<35:30,  3.39it/s]  8%|▊         | 595/7813 [03:05<35:42,  3.37it/s]  8%|▊         | 596/7813 [03:05<35:45,  3.36it/s]  8%|▊         | 597/7813 [03:06<36:14,  3.32it/s]  8%|▊         | 598/7813 [03:06<36:02,  3.34it/s]  8%|▊         | 599/7813 [03:06<36:08,  3.33it/s]  8%|▊         | 600/7813 [03:06<36:22,  3.30it/s]                                                  {'loss': 0.4299, 'grad_norm': 0.6155173778533936, 'learning_rate': 9.233329066939716e-05, 'epoch': 0.08}
  8%|▊         | 600/7813 [03:06<36:22,  3.30it/s]  8%|▊         | 601/7813 [03:07<36:20,  3.31it/s]  8%|▊         | 602/7813 [03:07<36:24,  3.30it/s]  8%|▊         | 603/7813 [03:07<35:55,  3.34it/s]  8%|▊         | 604/7813 [03:08<35:43,  3.36it/s]  8%|▊         | 605/7813 [03:08<35:22,  3.40it/s]  8%|▊         | 606/7813 [03:08<34:57,  3.44it/s]  8%|▊         | 607/7813 [03:08<34:48,  3.45it/s]  8%|▊         | 608/7813 [03:09<35:03,  3.43it/s]  8%|▊         | 609/7813 [03:09<34:36,  3.47it/s]  8%|▊         | 610/7813 [03:09<34:38,  3.46it/s]  8%|▊         | 611/7813 [03:10<34:32,  3.47it/s]  8%|▊         | 612/7813 [03:10<34:29,  3.48it/s]  8%|▊         | 613/7813 [03:10<34:44,  3.45it/s]  8%|▊         | 614/7813 [03:11<34:54,  3.44it/s]  8%|▊         | 615/7813 [03:11<34:53,  3.44it/s]  8%|▊         | 616/7813 [03:11<35:03,  3.42it/s]  8%|▊         | 617/7813 [03:11<35:56,  3.34it/s]  8%|▊         | 618/7813 [03:12<35:30,  3.38it/s]  8%|▊         | 619/7813 [03:12<35:17,  3.40it/s]  8%|▊         | 620/7813 [03:12<35:09,  3.41it/s]  8%|▊         | 621/7813 [03:13<35:40,  3.36it/s]  8%|▊         | 622/7813 [03:13<37:08,  3.23it/s]  8%|▊         | 623/7813 [03:13<36:54,  3.25it/s]  8%|▊         | 624/7813 [03:14<36:24,  3.29it/s]  8%|▊         | 625/7813 [03:14<35:44,  3.35it/s]  8%|▊         | 626/7813 [03:14<35:52,  3.34it/s]  8%|▊         | 627/7813 [03:14<35:32,  3.37it/s]  8%|▊         | 628/7813 [03:15<35:18,  3.39it/s]  8%|▊         | 629/7813 [03:15<35:42,  3.35it/s]  8%|▊         | 630/7813 [03:15<35:16,  3.39it/s]  8%|▊         | 631/7813 [03:16<35:11,  3.40it/s]  8%|▊         | 632/7813 [03:16<35:03,  3.41it/s]  8%|▊         | 633/7813 [03:16<35:20,  3.39it/s]  8%|▊         | 634/7813 [03:16<35:06,  3.41it/s]  8%|▊         | 635/7813 [03:17<34:53,  3.43it/s]  8%|▊         | 636/7813 [03:17<34:44,  3.44it/s]  8%|▊         | 637/7813 [03:17<34:47,  3.44it/s]  8%|▊         | 638/7813 [03:18<36:06,  3.31it/s]  8%|▊         | 639/7813 [03:18<35:56,  3.33it/s]  8%|▊         | 640/7813 [03:18<36:23,  3.28it/s]  8%|▊         | 641/7813 [03:19<36:53,  3.24it/s]  8%|▊         | 642/7813 [03:19<36:41,  3.26it/s]  8%|▊         | 643/7813 [03:19<36:54,  3.24it/s]  8%|▊         | 644/7813 [03:20<36:22,  3.28it/s]  8%|▊         | 645/7813 [03:20<36:07,  3.31it/s]  8%|▊         | 646/7813 [03:20<35:39,  3.35it/s]  8%|▊         | 647/7813 [03:20<35:14,  3.39it/s]  8%|▊         | 648/7813 [03:21<35:06,  3.40it/s]  8%|▊         | 649/7813 [03:21<35:08,  3.40it/s]  8%|▊         | 650/7813 [03:21<35:00,  3.41it/s]                                                  {'loss': 0.3983, 'grad_norm': 0.8136237859725952, 'learning_rate': 9.169333162677589e-05, 'epoch': 0.08}
  8%|▊         | 650/7813 [03:21<35:00,  3.41it/s]  8%|▊         | 651/7813 [03:22<36:10,  3.30it/s]  8%|▊         | 652/7813 [03:22<35:47,  3.34it/s]  8%|▊         | 653/7813 [03:22<35:47,  3.33it/s]  8%|▊         | 654/7813 [03:22<35:19,  3.38it/s]  8%|▊         | 655/7813 [03:23<35:30,  3.36it/s]  8%|▊         | 656/7813 [03:23<35:20,  3.37it/s]  8%|▊         | 657/7813 [03:23<34:52,  3.42it/s]  8%|▊         | 658/7813 [03:24<34:47,  3.43it/s]  8%|▊         | 659/7813 [03:24<34:35,  3.45it/s]  8%|▊         | 660/7813 [03:24<35:59,  3.31it/s]  8%|▊         | 661/7813 [03:25<35:57,  3.32it/s]  8%|▊         | 662/7813 [03:25<35:42,  3.34it/s]  8%|▊         | 663/7813 [03:25<35:27,  3.36it/s]  8%|▊         | 664/7813 [03:25<35:00,  3.40it/s]  9%|▊         | 665/7813 [03:26<34:54,  3.41it/s]  9%|▊         | 666/7813 [03:26<34:58,  3.41it/s]  9%|▊         | 667/7813 [03:26<34:56,  3.41it/s]  9%|▊         | 668/7813 [03:27<35:36,  3.34it/s]  9%|▊         | 669/7813 [03:27<35:30,  3.35it/s]  9%|▊         | 670/7813 [03:27<35:40,  3.34it/s]  9%|▊         | 671/7813 [03:27<35:15,  3.38it/s]  9%|▊         | 672/7813 [03:28<35:04,  3.39it/s]  9%|▊         | 673/7813 [03:28<35:02,  3.40it/s]  9%|▊         | 674/7813 [03:28<34:53,  3.41it/s]  9%|▊         | 675/7813 [03:29<35:07,  3.39it/s]  9%|▊         | 676/7813 [03:29<35:15,  3.37it/s]  9%|▊         | 677/7813 [03:29<36:20,  3.27it/s]  9%|▊         | 678/7813 [03:30<35:52,  3.31it/s]  9%|▊         | 679/7813 [03:30<35:27,  3.35it/s]  9%|▊         | 680/7813 [03:30<35:15,  3.37it/s]  9%|▊         | 681/7813 [03:30<35:19,  3.36it/s]  9%|▊         | 682/7813 [03:31<36:02,  3.30it/s]  9%|▊         | 683/7813 [03:31<35:29,  3.35it/s]  9%|▉         | 684/7813 [03:31<35:42,  3.33it/s]  9%|▉         | 685/7813 [03:32<35:34,  3.34it/s]  9%|▉         | 686/7813 [03:32<35:22,  3.36it/s]  9%|▉         | 687/7813 [03:32<35:28,  3.35it/s]  9%|▉         | 688/7813 [03:33<35:08,  3.38it/s]  9%|▉         | 689/7813 [03:33<35:04,  3.39it/s]  9%|▉         | 690/7813 [03:33<36:33,  3.25it/s]  9%|▉         | 691/7813 [03:33<36:11,  3.28it/s]  9%|▉         | 692/7813 [03:34<35:51,  3.31it/s]  9%|▉         | 693/7813 [03:34<36:56,  3.21it/s]  9%|▉         | 694/7813 [03:34<36:23,  3.26it/s]  9%|▉         | 695/7813 [03:35<37:18,  3.18it/s]  9%|▉         | 696/7813 [03:35<36:26,  3.25it/s]  9%|▉         | 697/7813 [03:35<35:52,  3.31it/s]  9%|▉         | 698/7813 [03:36<35:38,  3.33it/s]  9%|▉         | 699/7813 [03:36<35:17,  3.36it/s]  9%|▉         | 700/7813 [03:36<34:50,  3.40it/s]                                                  {'loss': 0.3784, 'grad_norm': 1.7638185024261475, 'learning_rate': 9.105337258415462e-05, 'epoch': 0.09}
  9%|▉         | 700/7813 [03:36<34:50,  3.40it/s]  9%|▉         | 701/7813 [03:37<36:21,  3.26it/s]  9%|▉         | 702/7813 [03:37<40:29,  2.93it/s]  9%|▉         | 703/7813 [03:37<38:44,  3.06it/s]  9%|▉         | 704/7813 [03:38<37:29,  3.16it/s]  9%|▉         | 705/7813 [03:38<36:32,  3.24it/s]  9%|▉         | 706/7813 [03:38<35:50,  3.30it/s]  9%|▉         | 707/7813 [03:38<35:41,  3.32it/s]  9%|▉         | 708/7813 [03:39<35:31,  3.33it/s]  9%|▉         | 709/7813 [03:39<35:30,  3.33it/s]  9%|▉         | 710/7813 [03:39<35:25,  3.34it/s]  9%|▉         | 711/7813 [03:40<35:48,  3.31it/s]  9%|▉         | 712/7813 [03:40<35:25,  3.34it/s]  9%|▉         | 713/7813 [03:40<36:29,  3.24it/s]  9%|▉         | 714/7813 [03:41<35:43,  3.31it/s]  9%|▉         | 715/7813 [03:41<35:23,  3.34it/s]  9%|▉         | 716/7813 [03:41<35:24,  3.34it/s]  9%|▉         | 717/7813 [03:41<35:23,  3.34it/s]  9%|▉         | 718/7813 [03:42<35:11,  3.36it/s]  9%|▉         | 719/7813 [03:42<35:22,  3.34it/s]  9%|▉         | 720/7813 [03:42<35:21,  3.34it/s]  9%|▉         | 721/7813 [03:43<35:07,  3.36it/s]  9%|▉         | 722/7813 [03:43<35:03,  3.37it/s]  9%|▉         | 723/7813 [03:43<34:54,  3.38it/s]  9%|▉         | 724/7813 [03:44<34:58,  3.38it/s]  9%|▉         | 725/7813 [03:44<34:54,  3.38it/s]  9%|▉         | 726/7813 [03:44<37:02,  3.19it/s]  9%|▉         | 727/7813 [03:44<36:19,  3.25it/s]  9%|▉         | 728/7813 [03:45<35:43,  3.30it/s]  9%|▉         | 729/7813 [03:45<35:24,  3.33it/s]  9%|▉         | 730/7813 [03:45<36:59,  3.19it/s]  9%|▉         | 731/7813 [03:46<36:12,  3.26it/s]  9%|▉         | 732/7813 [03:46<35:48,  3.30it/s]  9%|▉         | 733/7813 [03:46<35:39,  3.31it/s]  9%|▉         | 734/7813 [03:47<35:32,  3.32it/s]  9%|▉         | 735/7813 [03:47<35:33,  3.32it/s]  9%|▉         | 736/7813 [03:47<35:05,  3.36it/s]  9%|▉         | 737/7813 [03:47<34:58,  3.37it/s]  9%|▉         | 738/7813 [03:48<34:55,  3.38it/s]  9%|▉         | 739/7813 [03:48<34:56,  3.37it/s]  9%|▉         | 740/7813 [03:48<34:35,  3.41it/s]  9%|▉         | 741/7813 [03:49<34:42,  3.40it/s]  9%|▉         | 742/7813 [03:49<34:27,  3.42it/s] 10%|▉         | 743/7813 [03:49<34:20,  3.43it/s] 10%|▉         | 744/7813 [03:49<34:39,  3.40it/s] 10%|▉         | 745/7813 [03:50<34:48,  3.38it/s] 10%|▉         | 746/7813 [03:50<34:37,  3.40it/s] 10%|▉         | 747/7813 [03:50<34:21,  3.43it/s] 10%|▉         | 748/7813 [03:51<34:02,  3.46it/s] 10%|▉         | 749/7813 [03:51<35:37,  3.31it/s] 10%|▉         | 750/7813 [03:51<36:04,  3.26it/s]                                                  {'loss': 0.3467, 'grad_norm': 0.5371803045272827, 'learning_rate': 9.041341354153334e-05, 'epoch': 0.1}
 10%|▉         | 750/7813 [03:51<36:04,  3.26it/s] 10%|▉         | 751/7813 [03:52<35:43,  3.30it/s] 10%|▉         | 752/7813 [03:52<35:25,  3.32it/s] 10%|▉         | 753/7813 [03:52<34:54,  3.37it/s] 10%|▉         | 754/7813 [03:52<34:56,  3.37it/s] 10%|▉         | 755/7813 [03:53<34:35,  3.40it/s] 10%|▉         | 756/7813 [03:53<34:35,  3.40it/s] 10%|▉         | 757/7813 [03:53<34:55,  3.37it/s] 10%|▉         | 758/7813 [03:54<34:52,  3.37it/s] 10%|▉         | 759/7813 [03:54<34:39,  3.39it/s] 10%|▉         | 760/7813 [03:54<36:16,  3.24it/s] 10%|▉         | 761/7813 [03:55<35:35,  3.30it/s] 10%|▉         | 762/7813 [03:55<35:14,  3.33it/s] 10%|▉         | 763/7813 [03:55<36:16,  3.24it/s] 10%|▉         | 764/7813 [03:56<35:42,  3.29it/s] 10%|▉         | 765/7813 [03:56<35:13,  3.33it/s] 10%|▉         | 766/7813 [03:56<35:02,  3.35it/s] 10%|▉         | 767/7813 [03:56<34:37,  3.39it/s] 10%|▉         | 768/7813 [03:57<34:43,  3.38it/s] 10%|▉         | 769/7813 [03:57<35:50,  3.28it/s] 10%|▉         | 770/7813 [03:57<35:46,  3.28it/s] 10%|▉         | 771/7813 [03:58<35:29,  3.31it/s] 10%|▉         | 772/7813 [03:58<35:27,  3.31it/s] 10%|▉         | 773/7813 [03:58<35:19,  3.32it/s] 10%|▉         | 774/7813 [03:59<35:33,  3.30it/s] 10%|▉         | 775/7813 [03:59<35:40,  3.29it/s] 10%|▉         | 776/7813 [03:59<37:08,  3.16it/s] 10%|▉         | 777/7813 [03:59<36:46,  3.19it/s] 10%|▉         | 778/7813 [04:00<36:14,  3.24it/s] 10%|▉         | 779/7813 [04:00<36:00,  3.26it/s] 10%|▉         | 780/7813 [04:00<36:46,  3.19it/s] 10%|▉         | 781/7813 [04:01<36:28,  3.21it/s] 10%|█         | 782/7813 [04:01<36:20,  3.22it/s] 10%|█         | 783/7813 [04:01<36:14,  3.23it/s] 10%|█         | 784/7813 [04:02<37:20,  3.14it/s] 10%|█         | 785/7813 [04:02<36:46,  3.19it/s] 10%|█         | 786/7813 [04:02<36:17,  3.23it/s] 10%|█         | 787/7813 [04:03<35:52,  3.26it/s] 10%|█         | 788/7813 [04:03<35:53,  3.26it/s] 10%|█         | 789/7813 [04:03<36:19,  3.22it/s] 10%|█         | 790/7813 [04:03<36:25,  3.21it/s] 10%|█         | 791/7813 [04:04<36:16,  3.23it/s] 10%|█         | 792/7813 [04:04<35:52,  3.26it/s] 10%|█         | 793/7813 [04:04<36:29,  3.21it/s] 10%|█         | 794/7813 [04:05<36:26,  3.21it/s] 10%|█         | 795/7813 [04:05<36:47,  3.18it/s] 10%|█         | 796/7813 [04:05<36:25,  3.21it/s] 10%|█         | 797/7813 [04:06<36:45,  3.18it/s] 10%|█         | 798/7813 [04:06<36:03,  3.24it/s] 10%|█         | 799/7813 [04:06<36:59,  3.16it/s] 10%|█         | 800/7813 [04:07<37:36,  3.11it/s]                                                  {'loss': 0.3256, 'grad_norm': 0.7542499899864197, 'learning_rate': 8.977345449891207e-05, 'epoch': 0.1}
 10%|█         | 800/7813 [04:07<37:36,  3.11it/s] 10%|█         | 801/7813 [04:07<37:31,  3.11it/s] 10%|█         | 802/7813 [04:07<36:53,  3.17it/s] 10%|█         | 803/7813 [04:08<36:23,  3.21it/s] 10%|█         | 804/7813 [04:08<35:53,  3.25it/s] 10%|█         | 805/7813 [04:08<35:30,  3.29it/s] 10%|█         | 806/7813 [04:09<36:39,  3.19it/s] 10%|█         | 807/7813 [04:09<36:57,  3.16it/s] 10%|█         | 808/7813 [04:09<37:45,  3.09it/s] 10%|█         | 809/7813 [04:09<36:54,  3.16it/s] 10%|█         | 810/7813 [04:10<36:10,  3.23it/s] 10%|█         | 811/7813 [04:10<36:09,  3.23it/s] 10%|█         | 812/7813 [04:10<35:54,  3.25it/s] 10%|█         | 813/7813 [04:11<35:28,  3.29it/s] 10%|█         | 814/7813 [04:11<35:19,  3.30it/s] 10%|█         | 815/7813 [04:11<36:07,  3.23it/s] 10%|█         | 816/7813 [04:12<36:00,  3.24it/s] 10%|█         | 817/7813 [04:12<35:37,  3.27it/s] 10%|█         | 818/7813 [04:12<35:38,  3.27it/s] 10%|█         | 819/7813 [04:13<35:29,  3.28it/s] 10%|█         | 820/7813 [04:13<35:14,  3.31it/s] 11%|█         | 821/7813 [04:13<36:25,  3.20it/s] 11%|█         | 822/7813 [04:13<35:52,  3.25it/s] 11%|█         | 823/7813 [04:14<35:40,  3.27it/s] 11%|█         | 824/7813 [04:14<35:25,  3.29it/s] 11%|█         | 825/7813 [04:14<34:59,  3.33it/s] 11%|█         | 826/7813 [04:15<34:47,  3.35it/s] 11%|█         | 827/7813 [04:15<34:53,  3.34it/s] 11%|█         | 828/7813 [04:15<36:25,  3.20it/s] 11%|█         | 829/7813 [04:16<36:04,  3.23it/s] 11%|█         | 830/7813 [04:16<35:43,  3.26it/s] 11%|█         | 831/7813 [04:16<35:18,  3.30it/s] 11%|█         | 832/7813 [04:16<35:22,  3.29it/s] 11%|█         | 833/7813 [04:17<35:01,  3.32it/s] 11%|█         | 834/7813 [04:17<34:59,  3.32it/s] 11%|█         | 835/7813 [04:17<35:22,  3.29it/s] 11%|█         | 836/7813 [04:18<35:21,  3.29it/s] 11%|█         | 837/7813 [04:18<35:05,  3.31it/s] 11%|█         | 838/7813 [04:18<35:09,  3.31it/s] 11%|█         | 839/7813 [04:19<35:11,  3.30it/s] 11%|█         | 840/7813 [04:19<35:11,  3.30it/s] 11%|█         | 841/7813 [04:19<34:56,  3.33it/s] 11%|█         | 842/7813 [04:20<35:21,  3.29it/s] 11%|█         | 843/7813 [04:20<35:16,  3.29it/s] 11%|█         | 844/7813 [04:20<35:07,  3.31it/s] 11%|█         | 845/7813 [04:20<35:14,  3.30it/s] 11%|█         | 846/7813 [04:21<35:10,  3.30it/s] 11%|█         | 847/7813 [04:21<35:27,  3.27it/s] 11%|█         | 848/7813 [04:21<35:11,  3.30it/s] 11%|█         | 849/7813 [04:22<34:56,  3.32it/s] 11%|█         | 850/7813 [04:22<34:48,  3.33it/s]                                                  {'loss': 0.2983, 'grad_norm': 0.6434052586555481, 'learning_rate': 8.913349545629081e-05, 'epoch': 0.11}
 11%|█         | 850/7813 [04:22<34:48,  3.33it/s] 11%|█         | 851/7813 [04:22<35:02,  3.31it/s] 11%|█         | 852/7813 [04:23<35:10,  3.30it/s] 11%|█         | 853/7813 [04:23<34:56,  3.32it/s] 11%|█         | 854/7813 [04:23<34:50,  3.33it/s] 11%|█         | 855/7813 [04:23<34:45,  3.34it/s] 11%|█         | 856/7813 [04:24<34:30,  3.36it/s] 11%|█         | 857/7813 [04:24<35:57,  3.22it/s] 11%|█         | 858/7813 [04:24<35:29,  3.27it/s] 11%|█         | 859/7813 [04:25<34:55,  3.32it/s] 11%|█         | 860/7813 [04:25<34:45,  3.33it/s] 11%|█         | 861/7813 [04:25<34:55,  3.32it/s] 11%|█         | 862/7813 [04:26<36:05,  3.21it/s] 11%|█         | 863/7813 [04:26<35:50,  3.23it/s] 11%|█         | 864/7813 [04:26<35:35,  3.25it/s] 11%|█         | 865/7813 [04:26<35:09,  3.29it/s] 11%|█         | 866/7813 [04:27<36:16,  3.19it/s] 11%|█         | 867/7813 [04:27<35:50,  3.23it/s] 11%|█         | 868/7813 [04:27<35:23,  3.27it/s] 11%|█         | 869/7813 [04:28<35:08,  3.29it/s] 11%|█         | 870/7813 [04:28<34:55,  3.31it/s] 11%|█         | 871/7813 [04:28<34:57,  3.31it/s] 11%|█         | 872/7813 [04:29<34:42,  3.33it/s] 11%|█         | 873/7813 [04:29<34:39,  3.34it/s] 11%|█         | 874/7813 [04:29<34:43,  3.33it/s] 11%|█         | 875/7813 [04:30<34:36,  3.34it/s] 11%|█         | 876/7813 [04:30<34:44,  3.33it/s] 11%|█         | 877/7813 [04:30<34:52,  3.31it/s] 11%|█         | 878/7813 [04:30<35:16,  3.28it/s] 11%|█▏        | 879/7813 [04:31<34:48,  3.32it/s] 11%|█▏        | 880/7813 [04:31<34:39,  3.33it/s] 11%|█▏        | 881/7813 [04:31<34:34,  3.34it/s] 11%|█▏        | 882/7813 [04:32<34:36,  3.34it/s] 11%|█▏        | 883/7813 [04:32<34:26,  3.35it/s] 11%|█▏        | 884/7813 [04:32<35:21,  3.27it/s] 11%|█▏        | 885/7813 [04:33<35:27,  3.26it/s] 11%|█▏        | 886/7813 [04:33<35:10,  3.28it/s] 11%|█▏        | 887/7813 [04:33<35:01,  3.30it/s] 11%|█▏        | 888/7813 [04:33<35:01,  3.30it/s] 11%|█▏        | 889/7813 [04:34<35:03,  3.29it/s] 11%|█▏        | 890/7813 [04:34<34:58,  3.30it/s] 11%|█▏        | 891/7813 [04:34<34:54,  3.30it/s] 11%|█▏        | 892/7813 [04:35<34:49,  3.31it/s] 11%|█▏        | 893/7813 [04:35<34:35,  3.33it/s] 11%|█▏        | 894/7813 [04:35<34:37,  3.33it/s] 11%|█▏        | 895/7813 [04:36<34:41,  3.32it/s] 11%|█▏        | 896/7813 [04:36<34:33,  3.34it/s] 11%|█▏        | 897/7813 [04:36<35:00,  3.29it/s] 11%|█▏        | 898/7813 [04:36<35:15,  3.27it/s] 12%|█▏        | 899/7813 [04:37<35:16,  3.27it/s] 12%|█▏        | 900/7813 [04:37<35:20,  3.26it/s]                                                  {'loss': 0.2732, 'grad_norm': 0.7557222247123718, 'learning_rate': 8.849353641366953e-05, 'epoch': 0.12}
 12%|█▏        | 900/7813 [04:37<35:20,  3.26it/s] 12%|█▏        | 901/7813 [04:37<36:36,  3.15it/s] 12%|█▏        | 902/7813 [04:38<36:10,  3.18it/s] 12%|█▏        | 903/7813 [04:38<36:16,  3.17it/s] 12%|█▏        | 904/7813 [04:38<35:52,  3.21it/s] 12%|█▏        | 905/7813 [04:39<35:41,  3.23it/s] 12%|█▏        | 906/7813 [04:39<35:35,  3.23it/s] 12%|█▏        | 907/7813 [04:39<35:25,  3.25it/s] 12%|█▏        | 908/7813 [04:40<35:54,  3.20it/s] 12%|█▏        | 909/7813 [04:40<35:46,  3.22it/s] 12%|█▏        | 910/7813 [04:40<35:54,  3.20it/s] 12%|█▏        | 911/7813 [04:41<35:35,  3.23it/s] 12%|█▏        | 912/7813 [04:41<35:10,  3.27it/s] 12%|█▏        | 913/7813 [04:41<34:55,  3.29it/s] 12%|█▏        | 914/7813 [04:41<34:54,  3.29it/s] 12%|█▏        | 915/7813 [04:42<34:41,  3.31it/s] 12%|█▏        | 916/7813 [04:42<34:48,  3.30it/s] 12%|█▏        | 917/7813 [04:42<34:37,  3.32it/s] 12%|█▏        | 918/7813 [04:43<34:45,  3.31it/s] 12%|█▏        | 919/7813 [04:43<34:34,  3.32it/s] 12%|█▏        | 920/7813 [04:43<34:44,  3.31it/s] 12%|█▏        | 921/7813 [04:44<34:35,  3.32it/s] 12%|█▏        | 922/7813 [04:44<34:41,  3.31it/s] 12%|█▏        | 923/7813 [04:44<34:37,  3.32it/s] 12%|█▏        | 924/7813 [04:44<34:23,  3.34it/s] 12%|█▏        | 925/7813 [04:45<34:56,  3.29it/s] 12%|█▏        | 926/7813 [04:45<34:34,  3.32it/s] 12%|█▏        | 927/7813 [04:45<36:00,  3.19it/s] 12%|█▏        | 928/7813 [04:46<36:32,  3.14it/s] 12%|█▏        | 929/7813 [04:46<36:07,  3.18it/s] 12%|█▏        | 930/7813 [04:46<35:49,  3.20it/s] 12%|█▏        | 931/7813 [04:47<35:37,  3.22it/s] 12%|█▏        | 932/7813 [04:47<35:18,  3.25it/s] 12%|█▏        | 933/7813 [04:47<35:10,  3.26it/s] 12%|█▏        | 934/7813 [04:48<34:58,  3.28it/s] 12%|█▏        | 935/7813 [04:48<34:56,  3.28it/s] 12%|█▏        | 936/7813 [04:48<44:47,  2.56it/s] 12%|█▏        | 937/7813 [04:49<41:26,  2.77it/s] 12%|█▏        | 938/7813 [04:49<39:11,  2.92it/s] 12%|█▏        | 939/7813 [04:49<37:40,  3.04it/s] 12%|█▏        | 940/7813 [04:50<36:43,  3.12it/s] 12%|█▏        | 941/7813 [04:50<35:58,  3.18it/s] 12%|█▏        | 942/7813 [04:50<35:51,  3.19it/s] 12%|█▏        | 943/7813 [04:51<35:29,  3.23it/s] 12%|█▏        | 944/7813 [04:51<36:05,  3.17it/s] 12%|█▏        | 945/7813 [04:51<35:42,  3.21it/s] 12%|█▏        | 946/7813 [04:51<35:11,  3.25it/s] 12%|█▏        | 947/7813 [04:52<34:48,  3.29it/s] 12%|█▏        | 948/7813 [04:52<34:50,  3.28it/s] 12%|█▏        | 949/7813 [04:52<34:42,  3.30it/s] 12%|█▏        | 950/7813 [04:53<34:36,  3.31it/s]                                                  {'loss': 0.2533, 'grad_norm': 0.6195551156997681, 'learning_rate': 8.785357737104826e-05, 'epoch': 0.12}
 12%|█▏        | 950/7813 [04:53<34:36,  3.31it/s] 12%|█▏        | 951/7813 [04:53<35:38,  3.21it/s] 12%|█▏        | 952/7813 [04:53<35:25,  3.23it/s] 12%|█▏        | 953/7813 [04:54<34:57,  3.27it/s] 12%|█▏        | 954/7813 [04:54<34:44,  3.29it/s] 12%|█▏        | 955/7813 [04:54<34:35,  3.30it/s] 12%|█▏        | 956/7813 [04:55<36:01,  3.17it/s] 12%|█▏        | 957/7813 [04:55<37:01,  3.09it/s] 12%|█▏        | 958/7813 [04:55<36:46,  3.11it/s] 12%|█▏        | 959/7813 [04:56<36:54,  3.10it/s] 12%|█▏        | 960/7813 [04:56<36:29,  3.13it/s] 12%|█▏        | 961/7813 [04:56<36:17,  3.15it/s] 12%|█▏        | 962/7813 [04:56<36:01,  3.17it/s] 12%|█▏        | 963/7813 [04:57<35:21,  3.23it/s] 12%|█▏        | 964/7813 [04:57<35:14,  3.24it/s] 12%|█▏        | 965/7813 [04:57<35:02,  3.26it/s] 12%|█▏        | 966/7813 [04:58<36:06,  3.16it/s] 12%|█▏        | 967/7813 [04:58<35:41,  3.20it/s] 12%|█▏        | 968/7813 [04:58<35:52,  3.18it/s] 12%|█▏        | 969/7813 [04:59<35:35,  3.20it/s] 12%|█▏        | 970/7813 [04:59<35:06,  3.25it/s] 12%|█▏        | 971/7813 [04:59<34:48,  3.28it/s] 12%|█▏        | 972/7813 [05:00<34:37,  3.29it/s] 12%|█▏        | 973/7813 [05:00<34:17,  3.32it/s] 12%|█▏        | 974/7813 [05:00<34:14,  3.33it/s] 12%|█▏        | 975/7813 [05:00<34:21,  3.32it/s] 12%|█▏        | 976/7813 [05:01<34:08,  3.34it/s] 13%|█▎        | 977/7813 [05:01<34:12,  3.33it/s] 13%|█▎        | 978/7813 [05:01<34:30,  3.30it/s] 13%|█▎        | 979/7813 [05:02<34:21,  3.31it/s] 13%|█▎        | 980/7813 [05:02<34:33,  3.30it/s] 13%|█▎        | 981/7813 [05:02<34:30,  3.30it/s] 13%|█▎        | 982/7813 [05:03<35:18,  3.22it/s] 13%|█▎        | 983/7813 [05:03<35:06,  3.24it/s] 13%|█▎        | 984/7813 [05:03<34:40,  3.28it/s] 13%|█▎        | 985/7813 [05:04<35:40,  3.19it/s] 13%|█▎        | 986/7813 [05:04<35:03,  3.25it/s] 13%|█▎        | 987/7813 [05:04<34:50,  3.27it/s] 13%|█▎        | 988/7813 [05:04<34:26,  3.30it/s] 13%|█▎        | 989/7813 [05:05<34:02,  3.34it/s] 13%|█▎        | 990/7813 [05:05<34:05,  3.33it/s] 13%|█▎        | 991/7813 [05:05<35:21,  3.21it/s] 13%|█▎        | 992/7813 [05:06<35:37,  3.19it/s] 13%|█▎        | 993/7813 [05:06<35:27,  3.21it/s] 13%|█▎        | 994/7813 [05:06<35:08,  3.23it/s] 13%|█▎        | 995/7813 [05:07<34:59,  3.25it/s] 13%|█▎        | 996/7813 [05:07<34:57,  3.25it/s] 13%|█▎        | 997/7813 [05:07<34:55,  3.25it/s] 13%|█▎        | 998/7813 [05:07<34:56,  3.25it/s] 13%|█▎        | 999/7813 [05:08<35:02,  3.24it/s] 13%|█▎        | 1000/7813 [05:08<34:59,  3.24it/s]                                                   {'loss': 0.2429, 'grad_norm': 0.4504963755607605, 'learning_rate': 8.721361832842699e-05, 'epoch': 0.13}
 13%|█▎        | 1000/7813 [05:08<34:59,  3.24it/s] 13%|█▎        | 1001/7813 [05:08<35:00,  3.24it/s] 13%|█▎        | 1002/7813 [05:09<35:16,  3.22it/s] 13%|█▎        | 1003/7813 [05:09<35:09,  3.23it/s] 13%|█▎        | 1004/7813 [05:09<35:11,  3.22it/s] 13%|█▎        | 1005/7813 [05:10<35:07,  3.23it/s] 13%|█▎        | 1006/7813 [05:10<35:33,  3.19it/s] 13%|█▎        | 1007/7813 [05:10<35:06,  3.23it/s] 13%|█▎        | 1008/7813 [05:11<35:57,  3.15it/s] 13%|█▎        | 1009/7813 [05:11<35:15,  3.22it/s] 13%|█▎        | 1010/7813 [05:11<34:57,  3.24it/s] 13%|█▎        | 1011/7813 [05:12<35:19,  3.21it/s] 13%|█▎        | 1012/7813 [05:12<34:49,  3.26it/s] 13%|█▎        | 1013/7813 [05:12<34:45,  3.26it/s] 13%|█▎        | 1014/7813 [05:12<35:02,  3.23it/s] 13%|█▎        | 1015/7813 [05:13<35:13,  3.22it/s] 13%|█▎        | 1016/7813 [05:13<36:19,  3.12it/s] 13%|█▎        | 1017/7813 [05:13<35:27,  3.19it/s] 13%|█▎        | 1018/7813 [05:14<35:35,  3.18it/s] 13%|█▎        | 1019/7813 [05:14<36:20,  3.12it/s] 13%|█▎        | 1020/7813 [05:14<35:57,  3.15it/s] 13%|█▎        | 1021/7813 [05:15<35:04,  3.23it/s] 13%|█▎        | 1022/7813 [05:15<34:44,  3.26it/s] 13%|█▎        | 1023/7813 [05:15<34:26,  3.29it/s] 13%|█▎        | 1024/7813 [05:16<34:42,  3.26it/s] 13%|█▎        | 1025/7813 [05:16<34:37,  3.27it/s] 13%|█▎        | 1026/7813 [05:16<34:41,  3.26it/s] 13%|█▎        | 1027/7813 [05:16<34:29,  3.28it/s] 13%|█▎        | 1028/7813 [05:17<34:23,  3.29it/s] 13%|█▎        | 1029/7813 [05:17<48:13,  2.34it/s] 13%|█▎        | 1030/7813 [05:18<43:54,  2.57it/s] 13%|█▎        | 1031/7813 [05:18<40:48,  2.77it/s] 13%|█▎        | 1032/7813 [05:18<38:40,  2.92it/s] 13%|█▎        | 1033/7813 [05:19<38:43,  2.92it/s] 13%|█▎        | 1034/7813 [05:19<37:23,  3.02it/s] 13%|█▎        | 1035/7813 [05:19<36:53,  3.06it/s] 13%|█▎        | 1036/7813 [05:20<36:06,  3.13it/s] 13%|█▎        | 1037/7813 [05:20<35:26,  3.19it/s] 13%|█▎        | 1038/7813 [05:20<34:52,  3.24it/s] 13%|█▎        | 1039/7813 [05:21<34:25,  3.28it/s] 13%|█▎        | 1040/7813 [05:21<34:11,  3.30it/s] 13%|█▎        | 1041/7813 [05:21<34:11,  3.30it/s] 13%|█▎        | 1042/7813 [05:21<34:06,  3.31it/s] 13%|█▎        | 1043/7813 [05:22<34:03,  3.31it/s] 13%|█▎        | 1044/7813 [05:22<35:18,  3.19it/s] 13%|█▎        | 1045/7813 [05:22<34:49,  3.24it/s] 13%|█▎        | 1046/7813 [05:23<34:20,  3.28it/s] 13%|█▎        | 1047/7813 [05:23<34:04,  3.31it/s] 13%|█▎        | 1048/7813 [05:23<34:05,  3.31it/s] 13%|█▎        | 1049/7813 [05:24<34:00,  3.31it/s] 13%|█▎        | 1050/7813 [05:24<34:22,  3.28it/s]                                                   {'loss': 0.2292, 'grad_norm': 0.7131473422050476, 'learning_rate': 8.65736592858057e-05, 'epoch': 0.13}
 13%|█▎        | 1050/7813 [05:24<34:22,  3.28it/s] 13%|█▎        | 1051/7813 [05:24<34:10,  3.30it/s] 13%|█▎        | 1052/7813 [05:25<34:43,  3.25it/s] 13%|█▎        | 1053/7813 [05:25<34:23,  3.28it/s] 13%|█▎        | 1054/7813 [05:25<34:01,  3.31it/s] 14%|█▎        | 1055/7813 [05:25<33:54,  3.32it/s] 14%|█▎        | 1056/7813 [05:26<33:51,  3.33it/s] 14%|█▎        | 1057/7813 [05:26<33:52,  3.32it/s] 14%|█▎        | 1058/7813 [05:26<33:42,  3.34it/s] 14%|█▎        | 1059/7813 [05:27<33:40,  3.34it/s] 14%|█▎        | 1060/7813 [05:27<33:33,  3.35it/s] 14%|█▎        | 1061/7813 [05:27<33:23,  3.37it/s] 14%|█▎        | 1062/7813 [05:27<33:24,  3.37it/s] 14%|█▎        | 1063/7813 [05:28<33:16,  3.38it/s] 14%|█▎        | 1064/7813 [05:28<33:22,  3.37it/s] 14%|█▎        | 1065/7813 [05:28<33:23,  3.37it/s] 14%|█▎        | 1066/7813 [05:29<33:21,  3.37it/s] 14%|█▎        | 1067/7813 [05:29<33:27,  3.36it/s] 14%|█▎        | 1068/7813 [05:29<33:22,  3.37it/s] 14%|█▎        | 1069/7813 [05:30<33:39,  3.34it/s] 14%|█▎        | 1070/7813 [05:30<33:39,  3.34it/s] 14%|█▎        | 1071/7813 [05:30<33:42,  3.33it/s] 14%|█▎        | 1072/7813 [05:30<33:48,  3.32it/s] 14%|█▎        | 1073/7813 [05:31<33:48,  3.32it/s] 14%|█▎        | 1074/7813 [05:31<33:57,  3.31it/s] 14%|█▍        | 1075/7813 [05:31<33:34,  3.34it/s] 14%|█▍        | 1076/7813 [05:32<33:28,  3.35it/s] 14%|█▍        | 1077/7813 [05:32<34:06,  3.29it/s] 14%|█▍        | 1078/7813 [05:32<35:09,  3.19it/s] 14%|█▍        | 1079/7813 [05:33<34:37,  3.24it/s] 14%|█▍        | 1080/7813 [05:33<35:19,  3.18it/s] 14%|█▍        | 1081/7813 [05:33<34:51,  3.22it/s] 14%|█▍        | 1082/7813 [05:34<34:21,  3.27it/s] 14%|█▍        | 1083/7813 [05:34<34:19,  3.27it/s] 14%|█▍        | 1084/7813 [05:34<33:53,  3.31it/s] 14%|█▍        | 1085/7813 [05:34<33:40,  3.33it/s] 14%|█▍        | 1086/7813 [05:35<33:42,  3.33it/s] 14%|█▍        | 1087/7813 [05:35<33:54,  3.31it/s] 14%|█▍        | 1088/7813 [05:35<34:19,  3.26it/s] 14%|█▍        | 1089/7813 [05:36<33:51,  3.31it/s] 14%|█▍        | 1090/7813 [05:36<33:48,  3.31it/s] 14%|█▍        | 1091/7813 [05:36<34:56,  3.21it/s] 14%|█▍        | 1092/7813 [05:37<35:57,  3.11it/s] 14%|█▍        | 1093/7813 [05:37<36:42,  3.05it/s] 14%|█▍        | 1094/7813 [05:37<35:40,  3.14it/s] 14%|█▍        | 1095/7813 [05:38<35:08,  3.19it/s] 14%|█▍        | 1096/7813 [05:38<34:28,  3.25it/s] 14%|█▍        | 1097/7813 [05:38<34:14,  3.27it/s] 14%|█▍        | 1098/7813 [05:38<33:52,  3.30it/s] 14%|█▍        | 1099/7813 [05:39<33:24,  3.35it/s] 14%|█▍        | 1100/7813 [05:39<33:30,  3.34it/s]                                                   {'loss': 0.2176, 'grad_norm': 0.6228259205818176, 'learning_rate': 8.593370024318445e-05, 'epoch': 0.14}
 14%|█▍        | 1100/7813 [05:39<33:30,  3.34it/s] 14%|█▍        | 1101/7813 [05:39<33:38,  3.32it/s] 14%|█▍        | 1102/7813 [05:40<33:27,  3.34it/s] 14%|█▍        | 1103/7813 [05:40<34:39,  3.23it/s] 14%|█▍        | 1104/7813 [05:40<34:24,  3.25it/s] 14%|█▍        | 1105/7813 [05:41<34:05,  3.28it/s] 14%|█▍        | 1106/7813 [05:41<33:58,  3.29it/s] 14%|█▍        | 1107/7813 [05:41<34:53,  3.20it/s] 14%|█▍        | 1108/7813 [05:42<34:33,  3.23it/s] 14%|█▍        | 1109/7813 [05:42<34:14,  3.26it/s] 14%|█▍        | 1110/7813 [05:42<34:09,  3.27it/s] 14%|█▍        | 1111/7813 [05:42<34:05,  3.28it/s] 14%|█▍        | 1112/7813 [05:43<35:09,  3.18it/s] 14%|█▍        | 1113/7813 [05:43<34:27,  3.24it/s] 14%|█▍        | 1114/7813 [05:43<34:21,  3.25it/s] 14%|█▍        | 1115/7813 [05:44<34:42,  3.22it/s] 14%|█▍        | 1116/7813 [05:44<35:48,  3.12it/s] 14%|█▍        | 1117/7813 [05:44<35:05,  3.18it/s] 14%|█▍        | 1118/7813 [05:45<34:29,  3.24it/s] 14%|█▍        | 1119/7813 [05:45<33:54,  3.29it/s] 14%|█▍        | 1120/7813 [05:45<34:47,  3.21it/s] 14%|█▍        | 1121/7813 [05:46<34:16,  3.25it/s] 14%|█▍        | 1122/7813 [05:46<34:23,  3.24it/s] 14%|█▍        | 1123/7813 [05:46<33:46,  3.30it/s] 14%|█▍        | 1124/7813 [05:46<33:33,  3.32it/s] 14%|█▍        | 1125/7813 [05:47<33:37,  3.32it/s] 14%|█▍        | 1126/7813 [05:47<33:40,  3.31it/s] 14%|█▍        | 1127/7813 [05:47<33:48,  3.30it/s] 14%|█▍        | 1128/7813 [05:48<33:39,  3.31it/s] 14%|█▍        | 1129/7813 [05:48<33:23,  3.34it/s] 14%|█▍        | 1130/7813 [05:48<33:23,  3.34it/s] 14%|█▍        | 1131/7813 [05:49<33:13,  3.35it/s] 14%|█▍        | 1132/7813 [05:49<34:40,  3.21it/s] 15%|█▍        | 1133/7813 [05:49<34:30,  3.23it/s] 15%|█▍        | 1134/7813 [05:50<34:06,  3.26it/s] 15%|█▍        | 1135/7813 [05:50<34:05,  3.26it/s] 15%|█▍        | 1136/7813 [05:50<33:55,  3.28it/s] 15%|█▍        | 1137/7813 [05:50<33:35,  3.31it/s] 15%|█▍        | 1138/7813 [05:51<33:10,  3.35it/s] 15%|█▍        | 1139/7813 [05:51<33:29,  3.32it/s] 15%|█▍        | 1140/7813 [05:51<33:26,  3.33it/s] 15%|█▍        | 1141/7813 [05:52<33:28,  3.32it/s] 15%|█▍        | 1142/7813 [05:52<33:43,  3.30it/s] 15%|█▍        | 1143/7813 [05:52<33:33,  3.31it/s] 15%|█▍        | 1144/7813 [05:53<33:36,  3.31it/s] 15%|█▍        | 1145/7813 [05:53<33:29,  3.32it/s] 15%|█▍        | 1146/7813 [05:53<33:43,  3.30it/s] 15%|█▍        | 1147/7813 [05:53<33:31,  3.31it/s] 15%|█▍        | 1148/7813 [05:54<33:27,  3.32it/s] 15%|█▍        | 1149/7813 [05:54<33:33,  3.31it/s] 15%|█▍        | 1150/7813 [05:54<33:45,  3.29it/s]                                                   {'loss': 0.1934, 'grad_norm': 0.8320502042770386, 'learning_rate': 8.529374120056318e-05, 'epoch': 0.15}
 15%|█▍        | 1150/7813 [05:54<33:45,  3.29it/s] 15%|█▍        | 1151/7813 [05:55<34:54,  3.18it/s] 15%|█▍        | 1152/7813 [05:55<35:06,  3.16it/s] 15%|█▍        | 1153/7813 [05:55<34:50,  3.19it/s] 15%|█▍        | 1154/7813 [05:56<34:22,  3.23it/s] 15%|█▍        | 1155/7813 [05:56<33:53,  3.27it/s] 15%|█▍        | 1156/7813 [05:56<33:31,  3.31it/s] 15%|█▍        | 1157/7813 [05:56<33:13,  3.34it/s] 15%|█▍        | 1158/7813 [05:57<33:04,  3.35it/s] 15%|█▍        | 1159/7813 [05:57<32:44,  3.39it/s] 15%|█▍        | 1160/7813 [05:57<32:35,  3.40it/s] 15%|█▍        | 1161/7813 [05:58<32:25,  3.42it/s] 15%|█▍        | 1162/7813 [05:58<32:59,  3.36it/s] 15%|█▍        | 1163/7813 [05:58<33:01,  3.36it/s] 15%|█▍        | 1164/7813 [05:59<33:00,  3.36it/s] 15%|█▍        | 1165/7813 [05:59<33:08,  3.34it/s] 15%|█▍        | 1166/7813 [05:59<32:58,  3.36it/s] 15%|█▍        | 1167/7813 [05:59<33:17,  3.33it/s] 15%|█▍        | 1168/7813 [06:00<33:12,  3.33it/s] 15%|█▍        | 1169/7813 [06:00<34:19,  3.23it/s] 15%|█▍        | 1170/7813 [06:00<33:57,  3.26it/s] 15%|█▍        | 1171/7813 [06:01<33:51,  3.27it/s] 15%|█▌        | 1172/7813 [06:01<33:51,  3.27it/s] 15%|█▌        | 1173/7813 [06:01<33:34,  3.30it/s] 15%|█▌        | 1174/7813 [06:02<33:15,  3.33it/s] 15%|█▌        | 1175/7813 [06:02<33:30,  3.30it/s] 15%|█▌        | 1176/7813 [06:02<33:08,  3.34it/s] 15%|█▌        | 1177/7813 [06:02<32:53,  3.36it/s] 15%|█▌        | 1178/7813 [06:03<33:29,  3.30it/s] 15%|█▌        | 1179/7813 [06:03<33:17,  3.32it/s] 15%|█▌        | 1180/7813 [06:03<33:19,  3.32it/s] 15%|█▌        | 1181/7813 [06:04<33:29,  3.30it/s] 15%|█▌        | 1182/7813 [06:04<33:25,  3.31it/s] 15%|█▌        | 1183/7813 [06:04<34:36,  3.19it/s] 15%|█▌        | 1184/7813 [06:05<34:08,  3.24it/s] 15%|█▌        | 1185/7813 [06:05<33:50,  3.26it/s] 15%|█▌        | 1186/7813 [06:05<33:18,  3.32it/s] 15%|█▌        | 1187/7813 [06:06<33:03,  3.34it/s] 15%|█▌        | 1188/7813 [06:06<34:22,  3.21it/s] 15%|█▌        | 1189/7813 [06:06<33:55,  3.25it/s] 15%|█▌        | 1190/7813 [06:06<33:25,  3.30it/s] 15%|█▌        | 1191/7813 [06:07<33:44,  3.27it/s] 15%|█▌        | 1192/7813 [06:07<33:23,  3.31it/s] 15%|█▌        | 1193/7813 [06:07<33:59,  3.25it/s] 15%|█▌        | 1194/7813 [06:08<34:03,  3.24it/s] 15%|█▌        | 1195/7813 [06:08<35:32,  3.10it/s] 15%|█▌        | 1196/7813 [06:08<34:44,  3.17it/s] 15%|█▌        | 1197/7813 [06:09<34:20,  3.21it/s] 15%|█▌        | 1198/7813 [06:09<35:37,  3.09it/s] 15%|█▌        | 1199/7813 [06:09<35:40,  3.09it/s] 15%|█▌        | 1200/7813 [06:10<34:32,  3.19it/s]                                                   {'loss': 0.1851, 'grad_norm': 0.5659603476524353, 'learning_rate': 8.46537821579419e-05, 'epoch': 0.15}
 15%|█▌        | 1200/7813 [06:10<34:32,  3.19it/s] 15%|█▌        | 1201/7813 [06:10<33:52,  3.25it/s] 15%|█▌        | 1202/7813 [06:10<33:23,  3.30it/s] 15%|█▌        | 1203/7813 [06:11<33:25,  3.30it/s] 15%|█▌        | 1204/7813 [06:11<33:28,  3.29it/s] 15%|█▌        | 1205/7813 [06:11<33:34,  3.28it/s] 15%|█▌        | 1206/7813 [06:11<33:11,  3.32it/s] 15%|█▌        | 1207/7813 [06:12<33:08,  3.32it/s] 15%|█▌        | 1208/7813 [06:12<33:17,  3.31it/s] 15%|█▌        | 1209/7813 [06:12<32:57,  3.34it/s] 15%|█▌        | 1210/7813 [06:13<32:46,  3.36it/s] 15%|█▌        | 1211/7813 [06:13<32:56,  3.34it/s] 16%|█▌        | 1212/7813 [06:13<34:05,  3.23it/s] 16%|█▌        | 1213/7813 [06:14<33:57,  3.24it/s] 16%|█▌        | 1214/7813 [06:14<34:04,  3.23it/s] 16%|█▌        | 1215/7813 [06:14<33:44,  3.26it/s] 16%|█▌        | 1216/7813 [06:14<33:51,  3.25it/s] 16%|█▌        | 1217/7813 [06:15<33:40,  3.26it/s] 16%|█▌        | 1218/7813 [06:15<34:31,  3.18it/s] 16%|█▌        | 1219/7813 [06:15<34:06,  3.22it/s] 16%|█▌        | 1220/7813 [06:16<33:41,  3.26it/s] 16%|█▌        | 1221/7813 [06:16<34:04,  3.22it/s] 16%|█▌        | 1222/7813 [06:16<34:01,  3.23it/s] 16%|█▌        | 1223/7813 [06:17<33:39,  3.26it/s] 16%|█▌        | 1224/7813 [06:17<33:54,  3.24it/s] 16%|█▌        | 1225/7813 [06:17<34:01,  3.23it/s] 16%|█▌        | 1226/7813 [06:18<33:40,  3.26it/s] 16%|█▌        | 1227/7813 [06:18<33:19,  3.29it/s] 16%|█▌        | 1228/7813 [06:18<33:21,  3.29it/s] 16%|█▌        | 1229/7813 [06:18<33:33,  3.27it/s] 16%|█▌        | 1230/7813 [06:19<33:38,  3.26it/s] 16%|█▌        | 1231/7813 [06:19<33:10,  3.31it/s] 16%|█▌        | 1232/7813 [06:19<32:47,  3.35it/s] 16%|█▌        | 1233/7813 [06:20<33:25,  3.28it/s] 16%|█▌        | 1234/7813 [06:20<32:56,  3.33it/s] 16%|█▌        | 1235/7813 [06:20<33:08,  3.31it/s] 16%|█▌        | 1236/7813 [06:21<33:04,  3.32it/s] 16%|█▌        | 1237/7813 [06:21<32:40,  3.35it/s] 16%|█▌        | 1238/7813 [06:21<33:08,  3.31it/s] 16%|█▌        | 1239/7813 [06:21<32:49,  3.34it/s] 16%|█▌        | 1240/7813 [06:22<32:44,  3.35it/s] 16%|█▌        | 1241/7813 [06:22<33:13,  3.30it/s] 16%|█▌        | 1242/7813 [06:22<33:12,  3.30it/s] 16%|█▌        | 1243/7813 [06:23<33:07,  3.31it/s] 16%|█▌        | 1244/7813 [06:23<32:49,  3.34it/s] 16%|█▌        | 1245/7813 [06:23<32:36,  3.36it/s] 16%|█▌        | 1246/7813 [06:24<32:34,  3.36it/s] 16%|█▌        | 1247/7813 [06:24<32:31,  3.36it/s] 16%|█▌        | 1248/7813 [06:24<32:36,  3.36it/s] 16%|█▌        | 1249/7813 [06:24<32:46,  3.34it/s] 16%|█▌        | 1250/7813 [06:25<32:50,  3.33it/s]                                                   {'loss': 0.1806, 'grad_norm': 0.4639839231967926, 'learning_rate': 8.401382311532062e-05, 'epoch': 0.16}
 16%|█▌        | 1250/7813 [06:25<32:50,  3.33it/s] 16%|█▌        | 1251/7813 [06:25<32:52,  3.33it/s] 16%|█▌        | 1252/7813 [06:25<32:48,  3.33it/s] 16%|█▌        | 1253/7813 [06:26<33:01,  3.31it/s] 16%|█▌        | 1254/7813 [06:26<32:55,  3.32it/s] 16%|█▌        | 1255/7813 [06:26<33:07,  3.30it/s] 16%|█▌        | 1256/7813 [06:27<33:16,  3.28it/s] 16%|█▌        | 1257/7813 [06:27<33:10,  3.29it/s] 16%|█▌        | 1258/7813 [06:27<33:16,  3.28it/s] 16%|█▌        | 1259/7813 [06:28<33:10,  3.29it/s] 16%|█▌        | 1260/7813 [06:28<34:16,  3.19it/s] 16%|█▌        | 1261/7813 [06:28<33:33,  3.25it/s] 16%|█▌        | 1262/7813 [06:28<33:29,  3.26it/s] 16%|█▌        | 1263/7813 [06:29<33:12,  3.29it/s] 16%|█▌        | 1264/7813 [06:29<32:47,  3.33it/s] 16%|█▌        | 1265/7813 [06:29<32:36,  3.35it/s] 16%|█▌        | 1266/7813 [06:30<32:42,  3.34it/s] 16%|█▌        | 1267/7813 [06:30<32:59,  3.31it/s] 16%|█▌        | 1268/7813 [06:30<33:00,  3.30it/s] 16%|█▌        | 1269/7813 [06:31<32:47,  3.33it/s] 16%|█▋        | 1270/7813 [06:31<32:37,  3.34it/s] 16%|█▋        | 1271/7813 [06:31<32:46,  3.33it/s] 16%|█▋        | 1272/7813 [06:31<33:46,  3.23it/s] 16%|█▋        | 1273/7813 [06:32<33:52,  3.22it/s] 16%|█▋        | 1274/7813 [06:32<34:03,  3.20it/s] 16%|█▋        | 1275/7813 [06:32<33:33,  3.25it/s] 16%|█▋        | 1276/7813 [06:33<33:27,  3.26it/s] 16%|█▋        | 1277/7813 [06:33<33:03,  3.30it/s] 16%|█▋        | 1278/7813 [06:33<32:36,  3.34it/s] 16%|█▋        | 1279/7813 [06:34<32:37,  3.34it/s] 16%|█▋        | 1280/7813 [06:34<32:24,  3.36it/s] 16%|█▋        | 1281/7813 [06:34<32:14,  3.38it/s] 16%|█▋        | 1282/7813 [06:34<32:26,  3.36it/s] 16%|█▋        | 1283/7813 [06:35<32:21,  3.36it/s] 16%|█▋        | 1284/7813 [06:35<33:30,  3.25it/s] 16%|█▋        | 1285/7813 [06:35<33:01,  3.29it/s] 16%|█▋        | 1286/7813 [06:36<32:58,  3.30it/s] 16%|█▋        | 1287/7813 [06:36<33:17,  3.27it/s] 16%|█▋        | 1288/7813 [06:36<32:50,  3.31it/s] 16%|█▋        | 1289/7813 [06:37<33:08,  3.28it/s] 17%|█▋        | 1290/7813 [06:37<32:49,  3.31it/s] 17%|█▋        | 1291/7813 [06:37<33:07,  3.28it/s] 17%|█▋        | 1292/7813 [06:38<33:04,  3.29it/s] 17%|█▋        | 1293/7813 [06:38<33:24,  3.25it/s] 17%|█▋        | 1294/7813 [06:38<33:02,  3.29it/s] 17%|█▋        | 1295/7813 [06:38<32:42,  3.32it/s] 17%|█▋        | 1296/7813 [06:39<33:58,  3.20it/s] 17%|█▋        | 1297/7813 [06:39<33:36,  3.23it/s] 17%|█▋        | 1298/7813 [06:39<33:11,  3.27it/s] 17%|█▋        | 1299/7813 [06:40<32:58,  3.29it/s] 17%|█▋        | 1300/7813 [06:40<32:41,  3.32it/s]                                                   {'loss': 0.1672, 'grad_norm': 0.5757461786270142, 'learning_rate': 8.337386407269935e-05, 'epoch': 0.17}
 17%|█▋        | 1300/7813 [06:40<32:41,  3.32it/s] 17%|█▋        | 1301/7813 [06:40<32:39,  3.32it/s] 17%|█▋        | 1302/7813 [06:41<32:35,  3.33it/s] 17%|█▋        | 1303/7813 [06:41<32:38,  3.32it/s] 17%|█▋        | 1304/7813 [06:41<32:25,  3.35it/s] 17%|█▋        | 1305/7813 [06:41<32:26,  3.34it/s] 17%|█▋        | 1306/7813 [06:42<32:15,  3.36it/s] 17%|█▋        | 1307/7813 [06:42<32:45,  3.31it/s] 17%|█▋        | 1308/7813 [06:42<32:31,  3.33it/s] 17%|█▋        | 1309/7813 [06:43<32:27,  3.34it/s] 17%|█▋        | 1310/7813 [06:43<32:32,  3.33it/s] 17%|█▋        | 1311/7813 [06:43<32:25,  3.34it/s] 17%|█▋        | 1312/7813 [06:44<32:41,  3.31it/s] 17%|█▋        | 1313/7813 [06:44<33:43,  3.21it/s] 17%|█▋        | 1314/7813 [06:44<33:10,  3.27it/s] 17%|█▋        | 1315/7813 [06:44<33:07,  3.27it/s] 17%|█▋        | 1316/7813 [06:45<32:54,  3.29it/s] 17%|█▋        | 1317/7813 [06:45<33:05,  3.27it/s] 17%|█▋        | 1318/7813 [06:45<32:51,  3.29it/s] 17%|█▋        | 1319/7813 [06:46<33:15,  3.25it/s] 17%|█▋        | 1320/7813 [06:46<32:52,  3.29it/s] 17%|█▋        | 1321/7813 [06:46<32:39,  3.31it/s] 17%|█▋        | 1322/7813 [06:47<33:36,  3.22it/s] 17%|█▋        | 1323/7813 [06:47<33:21,  3.24it/s] 17%|█▋        | 1324/7813 [06:47<32:54,  3.29it/s] 17%|█▋        | 1325/7813 [06:48<32:29,  3.33it/s] 17%|█▋        | 1326/7813 [06:48<32:14,  3.35it/s] 17%|█▋        | 1327/7813 [06:48<32:02,  3.37it/s] 17%|█▋        | 1328/7813 [06:48<32:04,  3.37it/s] 17%|█▋        | 1329/7813 [06:49<31:51,  3.39it/s] 17%|█▋        | 1330/7813 [06:49<33:06,  3.26it/s] 17%|█▋        | 1331/7813 [06:49<33:09,  3.26it/s] 17%|█▋        | 1332/7813 [06:50<33:11,  3.25it/s] 17%|█▋        | 1333/7813 [06:50<32:39,  3.31it/s] 17%|█▋        | 1334/7813 [06:50<32:28,  3.32it/s] 17%|█▋        | 1335/7813 [06:51<32:14,  3.35it/s] 17%|█▋        | 1336/7813 [06:51<32:45,  3.30it/s] 17%|█▋        | 1337/7813 [06:51<32:23,  3.33it/s] 17%|█▋        | 1338/7813 [06:51<32:45,  3.29it/s] 17%|█▋        | 1339/7813 [06:52<32:26,  3.33it/s] 17%|█▋        | 1340/7813 [06:52<32:20,  3.34it/s] 17%|█▋        | 1341/7813 [06:52<32:21,  3.33it/s] 17%|█▋        | 1342/7813 [06:53<32:20,  3.34it/s] 17%|█▋        | 1343/7813 [06:53<32:06,  3.36it/s] 17%|█▋        | 1344/7813 [06:53<33:17,  3.24it/s] 17%|█▋        | 1345/7813 [06:54<33:58,  3.17it/s] 17%|█▋        | 1346/7813 [06:54<33:19,  3.23it/s] 17%|█▋        | 1347/7813 [06:54<33:10,  3.25it/s] 17%|█▋        | 1348/7813 [06:54<32:33,  3.31it/s] 17%|█▋        | 1349/7813 [06:55<33:54,  3.18it/s] 17%|█▋        | 1350/7813 [06:55<33:23,  3.23it/s]                                                   {'loss': 0.1583, 'grad_norm': 0.7187640070915222, 'learning_rate': 8.273390503007807e-05, 'epoch': 0.17}
 17%|█▋        | 1350/7813 [06:55<33:23,  3.23it/s] 17%|█▋        | 1351/7813 [06:55<33:32,  3.21it/s] 17%|█▋        | 1352/7813 [06:56<34:02,  3.16it/s] 17%|█▋        | 1353/7813 [06:56<33:51,  3.18it/s] 17%|█▋        | 1354/7813 [06:56<33:31,  3.21it/s] 17%|█▋        | 1355/7813 [06:57<33:21,  3.23it/s] 17%|█▋        | 1356/7813 [06:57<32:52,  3.27it/s] 17%|█▋        | 1357/7813 [06:57<34:05,  3.16it/s] 17%|█▋        | 1358/7813 [06:58<33:35,  3.20it/s] 17%|█▋        | 1359/7813 [06:58<34:48,  3.09it/s] 17%|█▋        | 1360/7813 [06:58<34:44,  3.10it/s] 17%|█▋        | 1361/7813 [06:59<33:54,  3.17it/s] 17%|█▋        | 1362/7813 [06:59<33:19,  3.23it/s] 17%|█▋        | 1363/7813 [06:59<33:28,  3.21it/s] 17%|█▋        | 1364/7813 [07:00<32:55,  3.26it/s] 17%|█▋        | 1365/7813 [07:00<32:49,  3.27it/s] 17%|█▋        | 1366/7813 [07:00<32:37,  3.29it/s] 17%|█▋        | 1367/7813 [07:00<32:47,  3.28it/s] 18%|█▊        | 1368/7813 [07:01<32:57,  3.26it/s] 18%|█▊        | 1369/7813 [07:01<32:46,  3.28it/s] 18%|█▊        | 1370/7813 [07:01<32:18,  3.32it/s] 18%|█▊        | 1371/7813 [07:02<32:08,  3.34it/s] 18%|█▊        | 1372/7813 [07:02<33:05,  3.24it/s] 18%|█▊        | 1373/7813 [07:02<32:52,  3.27it/s] 18%|█▊        | 1374/7813 [07:03<32:32,  3.30it/s] 18%|█▊        | 1375/7813 [07:03<32:28,  3.30it/s] 18%|█▊        | 1376/7813 [07:03<32:17,  3.32it/s] 18%|█▊        | 1377/7813 [07:03<33:07,  3.24it/s] 18%|█▊        | 1378/7813 [07:04<33:55,  3.16it/s] 18%|█▊        | 1379/7813 [07:04<33:21,  3.21it/s] 18%|█▊        | 1380/7813 [07:04<33:37,  3.19it/s] 18%|█▊        | 1381/7813 [07:05<33:29,  3.20it/s] 18%|█▊        | 1382/7813 [07:05<34:15,  3.13it/s] 18%|█▊        | 1383/7813 [07:05<34:05,  3.14it/s] 18%|█▊        | 1384/7813 [07:06<33:22,  3.21it/s] 18%|█▊        | 1385/7813 [07:06<32:49,  3.26it/s] 18%|█▊        | 1386/7813 [07:06<32:56,  3.25it/s] 18%|█▊        | 1387/7813 [07:07<32:41,  3.28it/s] 18%|█▊        | 1388/7813 [07:07<32:36,  3.28it/s] 18%|█▊        | 1389/7813 [07:07<32:21,  3.31it/s] 18%|█▊        | 1390/7813 [07:07<32:13,  3.32it/s] 18%|█▊        | 1391/7813 [07:08<32:30,  3.29it/s] 18%|█▊        | 1392/7813 [07:08<32:12,  3.32it/s] 18%|█▊        | 1393/7813 [07:08<32:48,  3.26it/s] 18%|█▊        | 1394/7813 [07:09<32:38,  3.28it/s] 18%|█▊        | 1395/7813 [07:09<32:18,  3.31it/s] 18%|█▊        | 1396/7813 [07:09<32:12,  3.32it/s] 18%|█▊        | 1397/7813 [07:10<32:52,  3.25it/s] 18%|█▊        | 1398/7813 [07:10<32:35,  3.28it/s] 18%|█▊        | 1399/7813 [07:10<32:50,  3.26it/s] 18%|█▊        | 1400/7813 [07:11<32:46,  3.26it/s]                                                   {'loss': 0.1531, 'grad_norm': 0.527245283126831, 'learning_rate': 8.209394598745681e-05, 'epoch': 0.18}
 18%|█▊        | 1400/7813 [07:11<32:46,  3.26it/s] 18%|█▊        | 1401/7813 [07:11<32:54,  3.25it/s] 18%|█▊        | 1402/7813 [07:11<33:47,  3.16it/s] 18%|█▊        | 1403/7813 [07:12<34:08,  3.13it/s] 18%|█▊        | 1404/7813 [07:12<33:32,  3.19it/s] 18%|█▊        | 1405/7813 [07:12<32:58,  3.24it/s] 18%|█▊        | 1406/7813 [07:12<32:36,  3.28it/s] 18%|█▊        | 1407/7813 [07:13<32:11,  3.32it/s] 18%|█▊        | 1408/7813 [07:13<32:34,  3.28it/s] 18%|█▊        | 1409/7813 [07:13<32:52,  3.25it/s] 18%|█▊        | 1410/7813 [07:14<32:23,  3.29it/s] 18%|█▊        | 1411/7813 [07:14<32:03,  3.33it/s] 18%|█▊        | 1412/7813 [07:14<31:45,  3.36it/s] 18%|█▊        | 1413/7813 [07:15<31:46,  3.36it/s] 18%|█▊        | 1414/7813 [07:15<31:40,  3.37it/s] 18%|█▊        | 1415/7813 [07:15<32:38,  3.27it/s] 18%|█▊        | 1416/7813 [07:15<33:26,  3.19it/s] 18%|█▊        | 1417/7813 [07:16<33:07,  3.22it/s] 18%|█▊        | 1418/7813 [07:16<32:22,  3.29it/s] 18%|█▊        | 1419/7813 [07:16<31:57,  3.33it/s] 18%|█▊        | 1420/7813 [07:17<31:40,  3.36it/s] 18%|█▊        | 1421/7813 [07:17<31:30,  3.38it/s] 18%|█▊        | 1422/7813 [07:17<32:47,  3.25it/s] 18%|█▊        | 1423/7813 [07:18<33:23,  3.19it/s] 18%|█▊        | 1424/7813 [07:18<32:41,  3.26it/s] 18%|█▊        | 1425/7813 [07:18<32:07,  3.31it/s] 18%|█▊        | 1426/7813 [07:18<31:56,  3.33it/s] 18%|█▊        | 1427/7813 [07:19<31:43,  3.36it/s] 18%|█▊        | 1428/7813 [07:19<31:50,  3.34it/s] 18%|█▊        | 1429/7813 [07:19<32:54,  3.23it/s] 18%|█▊        | 1430/7813 [07:20<32:29,  3.27it/s] 18%|█▊        | 1431/7813 [07:20<32:06,  3.31it/s] 18%|█▊        | 1432/7813 [07:20<31:57,  3.33it/s] 18%|█▊        | 1433/7813 [07:21<32:27,  3.28it/s] 18%|█▊        | 1434/7813 [07:21<31:48,  3.34it/s] 18%|█▊        | 1435/7813 [07:21<31:35,  3.36it/s] 18%|█▊        | 1436/7813 [07:21<31:34,  3.37it/s] 18%|█▊        | 1437/7813 [07:22<31:44,  3.35it/s] 18%|█▊        | 1438/7813 [07:22<32:53,  3.23it/s] 18%|█▊        | 1439/7813 [07:22<32:19,  3.29it/s] 18%|█▊        | 1440/7813 [07:23<31:48,  3.34it/s] 18%|█▊        | 1441/7813 [07:23<31:38,  3.36it/s] 18%|█▊        | 1442/7813 [07:23<31:21,  3.39it/s] 18%|█▊        | 1443/7813 [07:24<31:15,  3.40it/s] 18%|█▊        | 1444/7813 [07:24<31:18,  3.39it/s] 18%|█▊        | 1445/7813 [07:24<31:19,  3.39it/s] 19%|█▊        | 1446/7813 [07:24<31:10,  3.40it/s] 19%|█▊        | 1447/7813 [07:25<31:23,  3.38it/s] 19%|█▊        | 1448/7813 [07:25<31:19,  3.39it/s] 19%|█▊        | 1449/7813 [07:25<32:47,  3.23it/s] 19%|█▊        | 1450/7813 [07:26<32:12,  3.29it/s]                                                   {'loss': 0.1398, 'grad_norm': 0.7647456526756287, 'learning_rate': 8.145398694483553e-05, 'epoch': 0.19}
 19%|█▊        | 1450/7813 [07:26<32:12,  3.29it/s] 19%|█▊        | 1451/7813 [07:26<32:00,  3.31it/s] 19%|█▊        | 1452/7813 [07:26<33:02,  3.21it/s] 19%|█▊        | 1453/7813 [07:27<32:27,  3.27it/s] 19%|█▊        | 1454/7813 [07:27<32:11,  3.29it/s] 19%|█▊        | 1455/7813 [07:27<31:58,  3.31it/s] 19%|█▊        | 1456/7813 [07:27<31:32,  3.36it/s] 19%|█▊        | 1457/7813 [07:28<31:24,  3.37it/s] 19%|█▊        | 1458/7813 [07:28<31:16,  3.39it/s] 19%|█▊        | 1459/7813 [07:28<32:35,  3.25it/s] 19%|█▊        | 1460/7813 [07:29<33:01,  3.21it/s] 19%|█▊        | 1461/7813 [07:29<32:34,  3.25it/s] 19%|█▊        | 1462/7813 [07:29<32:34,  3.25it/s] 19%|█▊        | 1463/7813 [07:30<32:32,  3.25it/s] 19%|█▊        | 1464/7813 [07:30<32:04,  3.30it/s] 19%|█▉        | 1465/7813 [07:30<31:54,  3.32it/s] 19%|█▉        | 1466/7813 [07:31<31:26,  3.36it/s] 19%|█▉        | 1467/7813 [07:31<31:24,  3.37it/s] 19%|█▉        | 1468/7813 [07:31<31:28,  3.36it/s] 19%|█▉        | 1469/7813 [07:31<31:20,  3.37it/s] 19%|█▉        | 1470/7813 [07:32<31:10,  3.39it/s] 19%|█▉        | 1471/7813 [07:32<30:56,  3.42it/s] 19%|█▉        | 1472/7813 [07:32<31:35,  3.34it/s] 19%|█▉        | 1473/7813 [07:33<31:28,  3.36it/s] 19%|█▉        | 1474/7813 [07:33<31:57,  3.31it/s] 19%|█▉        | 1475/7813 [07:33<31:50,  3.32it/s] 19%|█▉        | 1476/7813 [07:34<31:31,  3.35it/s] 19%|█▉        | 1477/7813 [07:34<31:22,  3.37it/s] 19%|█▉        | 1478/7813 [07:34<31:48,  3.32it/s] 19%|█▉        | 1479/7813 [07:34<32:02,  3.30it/s] 19%|█▉        | 1480/7813 [07:35<31:36,  3.34it/s] 19%|█▉        | 1481/7813 [07:35<31:29,  3.35it/s] 19%|█▉        | 1482/7813 [07:35<32:00,  3.30it/s] 19%|█▉        | 1483/7813 [07:36<31:34,  3.34it/s] 19%|█▉        | 1484/7813 [07:36<31:34,  3.34it/s] 19%|█▉        | 1485/7813 [07:36<31:35,  3.34it/s] 19%|█▉        | 1486/7813 [07:36<31:20,  3.37it/s] 19%|█▉        | 1487/7813 [07:37<31:24,  3.36it/s] 19%|█▉        | 1488/7813 [07:37<32:16,  3.27it/s] 19%|█▉        | 1489/7813 [07:37<32:18,  3.26it/s] 19%|█▉        | 1490/7813 [07:38<32:05,  3.28it/s] 19%|█▉        | 1491/7813 [07:38<31:50,  3.31it/s] 19%|█▉        | 1492/7813 [07:38<31:38,  3.33it/s] 19%|█▉        | 1493/7813 [07:39<31:45,  3.32it/s] 19%|█▉        | 1494/7813 [07:39<32:38,  3.23it/s] 19%|█▉        | 1495/7813 [07:39<32:40,  3.22it/s] 19%|█▉        | 1496/7813 [07:40<32:30,  3.24it/s] 19%|█▉        | 1497/7813 [07:40<31:57,  3.29it/s] 19%|█▉        | 1498/7813 [07:40<31:43,  3.32it/s] 19%|█▉        | 1499/7813 [07:40<31:28,  3.34it/s] 19%|█▉        | 1500/7813 [07:41<31:24,  3.35it/s]                                                   {'loss': 0.1325, 'grad_norm': 0.6359041929244995, 'learning_rate': 8.081402790221426e-05, 'epoch': 0.19}
 19%|█▉        | 1500/7813 [07:41<31:24,  3.35it/s] 19%|█▉        | 1501/7813 [07:41<32:08,  3.27it/s] 19%|█▉        | 1502/7813 [07:41<31:42,  3.32it/s] 19%|█▉        | 1503/7813 [07:42<32:09,  3.27it/s] 19%|█▉        | 1504/7813 [07:42<32:50,  3.20it/s] 19%|█▉        | 1505/7813 [07:42<32:12,  3.26it/s] 19%|█▉        | 1506/7813 [07:43<32:02,  3.28it/s] 19%|█▉        | 1507/7813 [07:43<31:36,  3.32it/s] 19%|█▉        | 1508/7813 [07:43<31:31,  3.33it/s] 19%|█▉        | 1509/7813 [07:43<31:29,  3.34it/s] 19%|█▉        | 1510/7813 [07:44<31:27,  3.34it/s] 19%|█▉        | 1511/7813 [07:44<31:43,  3.31it/s] 19%|█▉        | 1512/7813 [07:44<32:07,  3.27it/s] 19%|█▉        | 1513/7813 [07:45<31:40,  3.32it/s] 19%|█▉        | 1514/7813 [07:45<31:34,  3.33it/s] 19%|█▉        | 1515/7813 [07:45<31:29,  3.33it/s] 19%|█▉        | 1516/7813 [07:46<32:33,  3.22it/s] 19%|█▉        | 1517/7813 [07:46<32:07,  3.27it/s] 19%|█▉        | 1518/7813 [07:46<31:53,  3.29it/s] 19%|█▉        | 1519/7813 [07:47<31:28,  3.33it/s] 19%|█▉        | 1520/7813 [07:47<31:33,  3.32it/s] 19%|█▉        | 1521/7813 [07:47<31:14,  3.36it/s] 19%|█▉        | 1522/7813 [07:47<31:14,  3.36it/s] 19%|█▉        | 1523/7813 [07:48<31:15,  3.35it/s] 20%|█▉        | 1524/7813 [07:48<31:05,  3.37it/s] 20%|█▉        | 1525/7813 [07:48<31:35,  3.32it/s] 20%|█▉        | 1526/7813 [07:49<31:28,  3.33it/s] 20%|█▉        | 1527/7813 [07:49<31:09,  3.36it/s] 20%|█▉        | 1528/7813 [07:49<32:14,  3.25it/s] 20%|█▉        | 1529/7813 [07:50<32:49,  3.19it/s] 20%|█▉        | 1530/7813 [07:50<32:29,  3.22it/s] 20%|█▉        | 1531/7813 [07:50<32:21,  3.24it/s] 20%|█▉        | 1532/7813 [07:50<31:47,  3.29it/s] 20%|█▉        | 1533/7813 [07:51<31:20,  3.34it/s] 20%|█▉        | 1534/7813 [07:51<31:08,  3.36it/s] 20%|█▉        | 1535/7813 [07:51<30:54,  3.39it/s] 20%|█▉        | 1536/7813 [07:52<31:00,  3.37it/s] 20%|█▉        | 1537/7813 [07:52<30:56,  3.38it/s] 20%|█▉        | 1538/7813 [07:52<30:54,  3.38it/s] 20%|█▉        | 1539/7813 [07:53<31:50,  3.28it/s] 20%|█▉        | 1540/7813 [07:53<31:55,  3.28it/s] 20%|█▉        | 1541/7813 [07:53<33:12,  3.15it/s] 20%|█▉        | 1542/7813 [07:53<32:23,  3.23it/s] 20%|█▉        | 1543/7813 [07:54<31:55,  3.27it/s] 20%|█▉        | 1544/7813 [07:54<31:18,  3.34it/s] 20%|█▉        | 1545/7813 [07:54<31:03,  3.36it/s] 20%|█▉        | 1546/7813 [07:55<30:50,  3.39it/s] 20%|█▉        | 1547/7813 [07:55<31:55,  3.27it/s] 20%|█▉        | 1548/7813 [07:55<31:30,  3.31it/s] 20%|█▉        | 1549/7813 [07:56<31:58,  3.26it/s] 20%|█▉        | 1550/7813 [07:56<31:44,  3.29it/s]                                                   {'loss': 0.1296, 'grad_norm': 0.5332909822463989, 'learning_rate': 8.017406885959299e-05, 'epoch': 0.2}
 20%|█▉        | 1550/7813 [07:56<31:44,  3.29it/s] 20%|█▉        | 1551/7813 [07:56<31:26,  3.32it/s] 20%|█▉        | 1552/7813 [07:57<31:47,  3.28it/s] 20%|█▉        | 1553/7813 [07:57<31:43,  3.29it/s] 20%|█▉        | 1554/7813 [07:57<32:22,  3.22it/s] 20%|█▉        | 1555/7813 [07:57<32:33,  3.20it/s] 20%|█▉        | 1556/7813 [07:58<32:17,  3.23it/s] 20%|█▉        | 1557/7813 [07:58<31:53,  3.27it/s] 20%|█▉        | 1558/7813 [07:58<31:33,  3.30it/s] 20%|█▉        | 1559/7813 [07:59<31:32,  3.31it/s] 20%|█▉        | 1560/7813 [07:59<31:26,  3.32it/s] 20%|█▉        | 1561/7813 [07:59<31:15,  3.33it/s] 20%|█▉        | 1562/7813 [08:00<31:09,  3.34it/s] 20%|██        | 1563/7813 [08:00<31:09,  3.34it/s] 20%|██        | 1564/7813 [08:00<30:59,  3.36it/s] 20%|██        | 1565/7813 [08:00<30:52,  3.37it/s] 20%|██        | 1566/7813 [08:01<32:02,  3.25it/s] 20%|██        | 1567/7813 [08:01<31:35,  3.30it/s] 20%|██        | 1568/7813 [08:01<32:37,  3.19it/s] 20%|██        | 1569/7813 [08:02<32:34,  3.19it/s] 20%|██        | 1570/7813 [08:02<32:13,  3.23it/s] 20%|██        | 1571/7813 [08:02<31:57,  3.26it/s] 20%|██        | 1572/7813 [08:03<31:52,  3.26it/s] 20%|██        | 1573/7813 [08:03<31:36,  3.29it/s] 20%|██        | 1574/7813 [08:03<31:24,  3.31it/s] 20%|██        | 1575/7813 [08:04<31:14,  3.33it/s] 20%|██        | 1576/7813 [08:04<31:21,  3.32it/s] 20%|██        | 1577/7813 [08:04<31:17,  3.32it/s] 20%|██        | 1578/7813 [08:04<31:22,  3.31it/s] 20%|██        | 1579/7813 [08:05<31:08,  3.34it/s] 20%|██        | 1580/7813 [08:05<31:15,  3.32it/s] 20%|██        | 1581/7813 [08:05<31:18,  3.32it/s] 20%|██        | 1582/7813 [08:06<31:24,  3.31it/s] 20%|██        | 1583/7813 [08:06<31:30,  3.29it/s] 20%|██        | 1584/7813 [08:06<31:10,  3.33it/s] 20%|██        | 1585/7813 [08:07<30:55,  3.36it/s] 20%|██        | 1586/7813 [08:07<30:46,  3.37it/s] 20%|██        | 1587/7813 [08:07<30:42,  3.38it/s] 20%|██        | 1588/7813 [08:07<31:03,  3.34it/s] 20%|██        | 1589/7813 [08:08<32:14,  3.22it/s] 20%|██        | 1590/7813 [08:08<32:41,  3.17it/s] 20%|██        | 1591/7813 [08:08<32:03,  3.23it/s] 20%|██        | 1592/7813 [08:09<32:17,  3.21it/s] 20%|██        | 1593/7813 [08:09<32:19,  3.21it/s] 20%|██        | 1594/7813 [08:09<31:45,  3.26it/s] 20%|██        | 1595/7813 [08:10<31:24,  3.30it/s] 20%|██        | 1596/7813 [08:10<31:28,  3.29it/s] 20%|██        | 1597/7813 [08:10<31:12,  3.32it/s] 20%|██        | 1598/7813 [08:10<31:30,  3.29it/s] 20%|██        | 1599/7813 [08:11<31:25,  3.30it/s] 20%|██        | 1600/7813 [08:11<32:48,  3.16it/s]                                                   {'loss': 0.1156, 'grad_norm': 0.6680188775062561, 'learning_rate': 7.953410981697172e-05, 'epoch': 0.2}
 20%|██        | 1600/7813 [08:11<32:48,  3.16it/s] 20%|██        | 1601/7813 [08:11<33:05,  3.13it/s] 21%|██        | 1602/7813 [08:12<32:27,  3.19it/s] 21%|██        | 1603/7813 [08:12<32:37,  3.17it/s] 21%|██        | 1604/7813 [08:12<32:32,  3.18it/s] 21%|██        | 1605/7813 [08:13<32:52,  3.15it/s] 21%|██        | 1606/7813 [08:13<32:20,  3.20it/s] 21%|██        | 1607/7813 [08:13<31:59,  3.23it/s] 21%|██        | 1608/7813 [08:14<31:35,  3.27it/s] 21%|██        | 1609/7813 [08:14<32:19,  3.20it/s] 21%|██        | 1610/7813 [08:14<31:57,  3.23it/s] 21%|██        | 1611/7813 [08:15<31:44,  3.26it/s] 21%|██        | 1612/7813 [08:15<31:28,  3.28it/s] 21%|██        | 1613/7813 [08:15<31:18,  3.30it/s] 21%|██        | 1614/7813 [08:15<31:22,  3.29it/s] 21%|██        | 1615/7813 [08:16<31:43,  3.26it/s] 21%|██        | 1616/7813 [08:16<31:35,  3.27it/s] 21%|██        | 1617/7813 [08:16<31:14,  3.31it/s] 21%|██        | 1618/7813 [08:17<31:07,  3.32it/s] 21%|██        | 1619/7813 [08:17<31:01,  3.33it/s] 21%|██        | 1620/7813 [08:17<30:51,  3.34it/s] 21%|██        | 1621/7813 [08:18<30:48,  3.35it/s] 21%|██        | 1622/7813 [08:18<31:30,  3.27it/s] 21%|██        | 1623/7813 [08:18<31:27,  3.28it/s] 21%|██        | 1624/7813 [08:18<31:10,  3.31it/s] 21%|██        | 1625/7813 [08:19<30:55,  3.34it/s] 21%|██        | 1626/7813 [08:19<31:00,  3.33it/s] 21%|██        | 1627/7813 [08:19<30:51,  3.34it/s] 21%|██        | 1628/7813 [08:20<31:51,  3.24it/s] 21%|██        | 1629/7813 [08:20<31:29,  3.27it/s] 21%|██        | 1630/7813 [08:20<31:09,  3.31it/s] 21%|██        | 1631/7813 [08:21<30:59,  3.33it/s] 21%|██        | 1632/7813 [08:21<31:14,  3.30it/s] 21%|██        | 1633/7813 [08:21<31:08,  3.31it/s] 21%|██        | 1634/7813 [08:22<31:01,  3.32it/s] 21%|██        | 1635/7813 [08:22<30:53,  3.33it/s] 21%|██        | 1636/7813 [08:22<30:39,  3.36it/s] 21%|██        | 1637/7813 [08:22<30:27,  3.38it/s] 21%|██        | 1638/7813 [08:23<30:38,  3.36it/s] 21%|██        | 1639/7813 [08:23<30:27,  3.38it/s] 21%|██        | 1640/7813 [08:23<30:23,  3.38it/s] 21%|██        | 1641/7813 [08:24<30:36,  3.36it/s] 21%|██        | 1642/7813 [08:24<30:56,  3.32it/s] 21%|██        | 1643/7813 [08:24<30:44,  3.35it/s] 21%|██        | 1644/7813 [08:24<30:41,  3.35it/s] 21%|██        | 1645/7813 [08:25<30:42,  3.35it/s] 21%|██        | 1646/7813 [08:25<30:27,  3.37it/s] 21%|██        | 1647/7813 [08:25<30:19,  3.39it/s] 21%|██        | 1648/7813 [08:26<30:31,  3.37it/s] 21%|██        | 1649/7813 [08:26<30:29,  3.37it/s] 21%|██        | 1650/7813 [08:26<30:36,  3.36it/s]                                                   {'loss': 0.1117, 'grad_norm': 0.5179433226585388, 'learning_rate': 7.889415077435045e-05, 'epoch': 0.21}
 21%|██        | 1650/7813 [08:26<30:36,  3.36it/s] 21%|██        | 1651/7813 [08:27<31:03,  3.31it/s] 21%|██        | 1652/7813 [08:27<31:12,  3.29it/s] 21%|██        | 1653/7813 [08:27<31:34,  3.25it/s] 21%|██        | 1654/7813 [08:28<31:24,  3.27it/s] 21%|██        | 1655/7813 [08:28<31:08,  3.30it/s] 21%|██        | 1656/7813 [08:28<31:09,  3.29it/s] 21%|██        | 1657/7813 [08:28<31:05,  3.30it/s] 21%|██        | 1658/7813 [08:29<31:12,  3.29it/s] 21%|██        | 1659/7813 [08:29<31:15,  3.28it/s] 21%|██        | 1660/7813 [08:29<31:41,  3.24it/s] 21%|██▏       | 1661/7813 [08:30<31:22,  3.27it/s] 21%|██▏       | 1662/7813 [08:30<31:01,  3.31it/s] 21%|██▏       | 1663/7813 [08:30<30:57,  3.31it/s] 21%|██▏       | 1664/7813 [08:31<30:53,  3.32it/s] 21%|██▏       | 1665/7813 [08:31<31:03,  3.30it/s] 21%|██▏       | 1666/7813 [08:31<30:42,  3.34it/s] 21%|██▏       | 1667/7813 [08:31<30:39,  3.34it/s] 21%|██▏       | 1668/7813 [08:32<32:27,  3.15it/s] 21%|██▏       | 1669/7813 [08:32<32:01,  3.20it/s] 21%|██▏       | 1670/7813 [08:32<33:10,  3.09it/s] 21%|██▏       | 1671/7813 [08:33<32:43,  3.13it/s] 21%|██▏       | 1672/7813 [08:33<32:34,  3.14it/s] 21%|██▏       | 1673/7813 [08:33<33:00,  3.10it/s] 21%|██▏       | 1674/7813 [08:34<32:21,  3.16it/s] 21%|██▏       | 1675/7813 [08:34<31:53,  3.21it/s] 21%|██▏       | 1676/7813 [08:34<32:47,  3.12it/s] 21%|██▏       | 1677/7813 [08:35<33:11,  3.08it/s] 21%|██▏       | 1678/7813 [08:35<33:43,  3.03it/s] 21%|██▏       | 1679/7813 [08:35<32:48,  3.12it/s] 22%|██▏       | 1680/7813 [08:36<32:42,  3.12it/s] 22%|██▏       | 1681/7813 [08:36<33:07,  3.09it/s] 22%|██▏       | 1682/7813 [08:36<32:31,  3.14it/s] 22%|██▏       | 1683/7813 [08:37<33:05,  3.09it/s] 22%|██▏       | 1684/7813 [08:37<32:12,  3.17it/s] 22%|██▏       | 1685/7813 [08:37<31:51,  3.21it/s] 22%|██▏       | 1686/7813 [08:38<31:48,  3.21it/s] 22%|██▏       | 1687/7813 [08:38<31:26,  3.25it/s] 22%|██▏       | 1688/7813 [08:38<31:13,  3.27it/s] 22%|██▏       | 1689/7813 [08:38<30:48,  3.31it/s] 22%|██▏       | 1690/7813 [08:39<31:37,  3.23it/s] 22%|██▏       | 1691/7813 [08:39<31:23,  3.25it/s] 22%|██▏       | 1692/7813 [08:39<31:07,  3.28it/s] 22%|██▏       | 1693/7813 [08:40<31:06,  3.28it/s] 22%|██▏       | 1694/7813 [08:40<31:12,  3.27it/s] 22%|██▏       | 1695/7813 [08:40<31:07,  3.28it/s] 22%|██▏       | 1696/7813 [08:41<31:20,  3.25it/s] 22%|██▏       | 1697/7813 [08:41<31:10,  3.27it/s] 22%|██▏       | 1698/7813 [08:41<31:11,  3.27it/s] 22%|██▏       | 1699/7813 [08:41<30:53,  3.30it/s] 22%|██▏       | 1700/7813 [08:42<31:05,  3.28it/s]                                                   {'loss': 0.1045, 'grad_norm': 0.5175830125808716, 'learning_rate': 7.825419173172918e-05, 'epoch': 0.22}
 22%|██▏       | 1700/7813 [08:42<31:05,  3.28it/s] 22%|██▏       | 1701/7813 [08:42<31:17,  3.25it/s] 22%|██▏       | 1702/7813 [08:42<32:24,  3.14it/s] 22%|██▏       | 1703/7813 [08:43<32:55,  3.09it/s] 22%|██▏       | 1704/7813 [08:43<32:37,  3.12it/s] 22%|██▏       | 1705/7813 [08:43<31:42,  3.21it/s] 22%|██▏       | 1706/7813 [08:44<32:31,  3.13it/s] 22%|██▏       | 1707/7813 [08:44<32:21,  3.14it/s] 22%|██▏       | 1708/7813 [08:44<31:40,  3.21it/s] 22%|██▏       | 1709/7813 [08:45<31:54,  3.19it/s] 22%|██▏       | 1710/7813 [08:45<31:16,  3.25it/s] 22%|██▏       | 1711/7813 [08:45<31:05,  3.27it/s] 22%|██▏       | 1712/7813 [08:46<30:47,  3.30it/s] 22%|██▏       | 1713/7813 [08:46<31:51,  3.19it/s] 22%|██▏       | 1714/7813 [08:46<31:19,  3.25it/s] 22%|██▏       | 1715/7813 [08:46<31:05,  3.27it/s] 22%|██▏       | 1716/7813 [08:47<32:24,  3.14it/s] 22%|██▏       | 1717/7813 [08:47<31:57,  3.18it/s] 22%|██▏       | 1718/7813 [08:47<31:26,  3.23it/s] 22%|██▏       | 1719/7813 [08:48<31:05,  3.27it/s] 22%|██▏       | 1720/7813 [08:48<31:22,  3.24it/s] 22%|██▏       | 1721/7813 [08:48<31:13,  3.25it/s] 22%|██▏       | 1722/7813 [08:49<31:04,  3.27it/s] 22%|██▏       | 1723/7813 [08:49<30:39,  3.31it/s] 22%|██▏       | 1724/7813 [08:49<30:52,  3.29it/s] 22%|██▏       | 1725/7813 [08:50<30:47,  3.30it/s] 22%|██▏       | 1726/7813 [08:50<31:04,  3.26it/s] 22%|██▏       | 1727/7813 [08:50<31:41,  3.20it/s] 22%|██▏       | 1728/7813 [08:50<31:04,  3.26it/s] 22%|██▏       | 1729/7813 [08:51<30:56,  3.28it/s] 22%|██▏       | 1730/7813 [08:51<32:07,  3.16it/s] 22%|██▏       | 1731/7813 [08:51<31:51,  3.18it/s] 22%|██▏       | 1732/7813 [08:52<32:49,  3.09it/s] 22%|██▏       | 1733/7813 [08:53<53:24,  1.90it/s] 22%|██▏       | 1734/7813 [08:53<46:25,  2.18it/s] 22%|██▏       | 1735/7813 [08:53<41:46,  2.42it/s] 22%|██▏       | 1736/7813 [08:54<38:29,  2.63it/s] 22%|██▏       | 1737/7813 [08:54<36:06,  2.80it/s] 22%|██▏       | 1738/7813 [08:54<34:22,  2.95it/s] 22%|██▏       | 1739/7813 [08:55<33:16,  3.04it/s] 22%|██▏       | 1740/7813 [08:55<32:16,  3.14it/s] 22%|██▏       | 1741/7813 [08:55<33:02,  3.06it/s] 22%|██▏       | 1742/7813 [08:56<32:38,  3.10it/s] 22%|██▏       | 1743/7813 [08:56<31:45,  3.19it/s] 22%|██▏       | 1744/7813 [08:56<32:19,  3.13it/s] 22%|██▏       | 1745/7813 [08:57<32:39,  3.10it/s] 22%|██▏       | 1746/7813 [08:57<32:01,  3.16it/s] 22%|██▏       | 1747/7813 [08:57<31:35,  3.20it/s] 22%|██▏       | 1748/7813 [08:57<31:15,  3.23it/s] 22%|██▏       | 1749/7813 [08:58<30:58,  3.26it/s] 22%|██▏       | 1750/7813 [08:58<31:08,  3.25it/s]                                                   {'loss': 0.1025, 'grad_norm': 0.3246976137161255, 'learning_rate': 7.76142326891079e-05, 'epoch': 0.22}
 22%|██▏       | 1750/7813 [08:58<31:08,  3.25it/s] 22%|██▏       | 1751/7813 [08:58<31:08,  3.24it/s] 22%|██▏       | 1752/7813 [08:59<30:56,  3.26it/s] 22%|██▏       | 1753/7813 [08:59<31:22,  3.22it/s] 22%|██▏       | 1754/7813 [08:59<31:21,  3.22it/s] 22%|██▏       | 1755/7813 [09:00<31:09,  3.24it/s] 22%|██▏       | 1756/7813 [09:00<30:45,  3.28it/s] 22%|██▏       | 1757/7813 [09:00<30:28,  3.31it/s] 23%|██▎       | 1758/7813 [09:01<31:33,  3.20it/s] 23%|██▎       | 1759/7813 [09:01<31:07,  3.24it/s] 23%|██▎       | 1760/7813 [09:01<31:15,  3.23it/s] 23%|██▎       | 1761/7813 [09:01<30:41,  3.29it/s] 23%|██▎       | 1762/7813 [09:02<30:49,  3.27it/s] 23%|██▎       | 1763/7813 [09:02<32:04,  3.14it/s] 23%|██▎       | 1764/7813 [09:02<31:17,  3.22it/s] 23%|██▎       | 1765/7813 [09:03<30:57,  3.26it/s] 23%|██▎       | 1766/7813 [09:03<30:33,  3.30it/s] 23%|██▎       | 1767/7813 [09:03<30:23,  3.32it/s] 23%|██▎       | 1768/7813 [09:04<30:06,  3.35it/s] 23%|██▎       | 1769/7813 [09:04<30:13,  3.33it/s] 23%|██▎       | 1770/7813 [09:04<30:00,  3.36it/s] 23%|██▎       | 1771/7813 [09:04<29:51,  3.37it/s] 23%|██▎       | 1772/7813 [09:05<30:39,  3.28it/s] 23%|██▎       | 1773/7813 [09:05<30:23,  3.31it/s] 23%|██▎       | 1774/7813 [09:05<30:37,  3.29it/s] 23%|██▎       | 1775/7813 [09:06<30:48,  3.27it/s] 23%|██▎       | 1776/7813 [09:06<30:39,  3.28it/s] 23%|██▎       | 1777/7813 [09:06<31:37,  3.18it/s] 23%|██▎       | 1778/7813 [09:07<32:06,  3.13it/s] 23%|██▎       | 1779/7813 [09:07<31:24,  3.20it/s] 23%|██▎       | 1780/7813 [09:07<31:02,  3.24it/s] 23%|██▎       | 1781/7813 [09:08<30:48,  3.26it/s] 23%|██▎       | 1782/7813 [09:08<30:42,  3.27it/s] 23%|██▎       | 1783/7813 [09:08<30:34,  3.29it/s] 23%|██▎       | 1784/7813 [09:08<30:42,  3.27it/s] 23%|██▎       | 1785/7813 [09:09<30:24,  3.30it/s] 23%|██▎       | 1786/7813 [09:09<30:12,  3.32it/s] 23%|██▎       | 1787/7813 [09:09<29:58,  3.35it/s] 23%|██▎       | 1788/7813 [09:10<29:57,  3.35it/s] 23%|██▎       | 1789/7813 [09:10<30:00,  3.34it/s] 23%|██▎       | 1790/7813 [09:10<30:04,  3.34it/s] 23%|██▎       | 1791/7813 [09:11<29:54,  3.36it/s] 23%|██▎       | 1792/7813 [09:11<30:29,  3.29it/s] 23%|██▎       | 1793/7813 [09:11<31:05,  3.23it/s] 23%|██▎       | 1794/7813 [09:11<30:47,  3.26it/s] 23%|██▎       | 1795/7813 [09:12<30:26,  3.29it/s] 23%|██▎       | 1796/7813 [09:12<30:48,  3.26it/s] 23%|██▎       | 1797/7813 [09:12<30:32,  3.28it/s] 23%|██▎       | 1798/7813 [09:13<30:12,  3.32it/s] 23%|██▎       | 1799/7813 [09:13<31:02,  3.23it/s] 23%|██▎       | 1800/7813 [09:13<36:33,  2.74it/s]                                                   {'loss': 0.099, 'grad_norm': 0.446351021528244, 'learning_rate': 7.697427364648663e-05, 'epoch': 0.23}
 23%|██▎       | 1800/7813 [09:14<36:33,  2.74it/s] 23%|██▎       | 1801/7813 [09:14<34:56,  2.87it/s] 23%|██▎       | 1802/7813 [09:14<33:35,  2.98it/s] 23%|██▎       | 1803/7813 [09:14<32:20,  3.10it/s] 23%|██▎       | 1804/7813 [09:15<31:46,  3.15it/s] 23%|██▎       | 1805/7813 [09:15<31:11,  3.21it/s] 23%|██▎       | 1806/7813 [09:15<31:05,  3.22it/s] 23%|██▎       | 1807/7813 [09:16<30:44,  3.26it/s] 23%|██▎       | 1808/7813 [09:16<30:32,  3.28it/s] 23%|██▎       | 1809/7813 [09:16<30:47,  3.25it/s] 23%|██▎       | 1810/7813 [09:17<30:30,  3.28it/s] 23%|██▎       | 1811/7813 [09:17<31:26,  3.18it/s] 23%|██▎       | 1812/7813 [09:17<30:59,  3.23it/s] 23%|██▎       | 1813/7813 [09:17<30:44,  3.25it/s] 23%|██▎       | 1814/7813 [09:18<30:19,  3.30it/s] 23%|██▎       | 1815/7813 [09:18<30:03,  3.33it/s] 23%|██▎       | 1816/7813 [09:18<30:17,  3.30it/s] 23%|██▎       | 1817/7813 [09:19<30:11,  3.31it/s] 23%|██▎       | 1818/7813 [09:19<30:10,  3.31it/s] 23%|██▎       | 1819/7813 [09:19<30:00,  3.33it/s] 23%|██▎       | 1820/7813 [09:20<29:42,  3.36it/s] 23%|██▎       | 1821/7813 [09:20<29:46,  3.35it/s] 23%|██▎       | 1822/7813 [09:20<30:02,  3.32it/s] 23%|██▎       | 1823/7813 [09:20<30:02,  3.32it/s] 23%|██▎       | 1824/7813 [09:21<29:55,  3.33it/s] 23%|██▎       | 1825/7813 [09:21<29:49,  3.35it/s] 23%|██▎       | 1826/7813 [09:21<29:44,  3.36it/s] 23%|██▎       | 1827/7813 [09:22<31:08,  3.20it/s] 23%|██▎       | 1828/7813 [09:22<30:47,  3.24it/s] 23%|██▎       | 1829/7813 [09:22<30:41,  3.25it/s] 23%|██▎       | 1830/7813 [09:23<30:47,  3.24it/s] 23%|██▎       | 1831/7813 [09:23<30:42,  3.25it/s] 23%|██▎       | 1832/7813 [09:23<30:19,  3.29it/s] 23%|██▎       | 1833/7813 [09:24<30:16,  3.29it/s] 23%|██▎       | 1834/7813 [09:24<30:11,  3.30it/s] 23%|██▎       | 1835/7813 [09:24<31:13,  3.19it/s] 23%|██▎       | 1836/7813 [09:24<30:48,  3.23it/s] 24%|██▎       | 1837/7813 [09:25<30:49,  3.23it/s] 24%|██▎       | 1838/7813 [09:25<30:36,  3.25it/s] 24%|██▎       | 1839/7813 [09:25<30:42,  3.24it/s] 24%|██▎       | 1840/7813 [09:26<30:29,  3.27it/s] 24%|██▎       | 1841/7813 [09:26<30:08,  3.30it/s] 24%|██▎       | 1842/7813 [09:26<29:50,  3.33it/s] 24%|██▎       | 1843/7813 [09:27<29:53,  3.33it/s] 24%|██▎       | 1844/7813 [09:27<30:01,  3.31it/s] 24%|██▎       | 1845/7813 [09:27<29:58,  3.32it/s] 24%|██▎       | 1846/7813 [09:27<29:46,  3.34it/s] 24%|██▎       | 1847/7813 [09:28<29:41,  3.35it/s] 24%|██▎       | 1848/7813 [09:28<29:50,  3.33it/s] 24%|██▎       | 1849/7813 [09:28<29:51,  3.33it/s] 24%|██▎       | 1850/7813 [09:29<30:53,  3.22it/s]                                                   {'loss': 0.0947, 'grad_norm': 0.4500894844532013, 'learning_rate': 7.633431460386536e-05, 'epoch': 0.24}
 24%|██▎       | 1850/7813 [09:29<30:53,  3.22it/s] 24%|██▎       | 1851/7813 [09:29<30:31,  3.26it/s] 24%|██▎       | 1852/7813 [09:29<30:11,  3.29it/s] 24%|██▎       | 1853/7813 [09:30<30:16,  3.28it/s] 24%|██▎       | 1854/7813 [09:30<30:17,  3.28it/s] 24%|██▎       | 1855/7813 [09:30<29:59,  3.31it/s] 24%|██▍       | 1856/7813 [09:31<30:17,  3.28it/s] 24%|██▍       | 1857/7813 [09:31<30:09,  3.29it/s] 24%|██▍       | 1858/7813 [09:31<30:06,  3.30it/s] 24%|██▍       | 1859/7813 [09:31<29:50,  3.33it/s] 24%|██▍       | 1860/7813 [09:32<29:40,  3.34it/s] 24%|██▍       | 1861/7813 [09:32<29:29,  3.36it/s] 24%|██▍       | 1862/7813 [09:32<29:30,  3.36it/s] 24%|██▍       | 1863/7813 [09:33<29:52,  3.32it/s] 24%|██▍       | 1864/7813 [09:33<29:44,  3.33it/s] 24%|██▍       | 1865/7813 [09:33<29:35,  3.35it/s] 24%|██▍       | 1866/7813 [09:33<29:33,  3.35it/s] 24%|██▍       | 1867/7813 [09:34<29:23,  3.37it/s] 24%|██▍       | 1868/7813 [09:34<29:26,  3.37it/s] 24%|██▍       | 1869/7813 [09:34<29:42,  3.34it/s] 24%|██▍       | 1870/7813 [09:35<29:53,  3.31it/s] 24%|██▍       | 1871/7813 [09:35<29:51,  3.32it/s] 24%|██▍       | 1872/7813 [09:35<29:48,  3.32it/s] 24%|██▍       | 1873/7813 [09:36<29:47,  3.32it/s] 24%|██▍       | 1874/7813 [09:36<29:43,  3.33it/s] 24%|██▍       | 1875/7813 [09:36<29:47,  3.32it/s] 24%|██▍       | 1876/7813 [09:37<29:56,  3.30it/s] 24%|██▍       | 1877/7813 [09:37<29:53,  3.31it/s] 24%|██▍       | 1878/7813 [09:37<29:53,  3.31it/s] 24%|██▍       | 1879/7813 [09:37<30:01,  3.29it/s] 24%|██▍       | 1880/7813 [09:38<29:53,  3.31it/s] 24%|██▍       | 1881/7813 [09:38<29:50,  3.31it/s] 24%|██▍       | 1882/7813 [09:38<29:32,  3.35it/s] 24%|██▍       | 1883/7813 [09:39<29:36,  3.34it/s] 24%|██▍       | 1884/7813 [09:39<29:41,  3.33it/s] 24%|██▍       | 1885/7813 [09:39<30:06,  3.28it/s] 24%|██▍       | 1886/7813 [09:40<30:48,  3.21it/s] 24%|██▍       | 1887/7813 [09:40<30:20,  3.26it/s] 24%|██▍       | 1888/7813 [09:40<30:21,  3.25it/s] 24%|██▍       | 1889/7813 [09:40<29:46,  3.32it/s] 24%|██▍       | 1890/7813 [09:41<29:37,  3.33it/s] 24%|██▍       | 1891/7813 [09:41<29:37,  3.33it/s] 24%|██▍       | 1892/7813 [09:41<29:36,  3.33it/s] 24%|██▍       | 1893/7813 [09:42<29:34,  3.34it/s] 24%|██▍       | 1894/7813 [09:42<29:47,  3.31it/s] 24%|██▍       | 1895/7813 [09:42<30:06,  3.28it/s] 24%|██▍       | 1896/7813 [09:43<29:57,  3.29it/s] 24%|██▍       | 1897/7813 [09:43<30:06,  3.27it/s] 24%|██▍       | 1898/7813 [09:43<29:49,  3.31it/s] 24%|██▍       | 1899/7813 [09:43<29:34,  3.33it/s] 24%|██▍       | 1900/7813 [09:44<30:07,  3.27it/s]                                                   {'loss': 0.0902, 'grad_norm': 1.1543444395065308, 'learning_rate': 7.569435556124407e-05, 'epoch': 0.24}
 24%|██▍       | 1900/7813 [09:44<30:07,  3.27it/s] 24%|██▍       | 1901/7813 [09:44<31:13,  3.16it/s] 24%|██▍       | 1902/7813 [09:44<30:38,  3.21it/s] 24%|██▍       | 1903/7813 [09:45<30:09,  3.27it/s] 24%|██▍       | 1904/7813 [09:45<30:55,  3.19it/s] 24%|██▍       | 1905/7813 [09:45<30:17,  3.25it/s] 24%|██▍       | 1906/7813 [09:46<29:57,  3.29it/s] 24%|██▍       | 1907/7813 [09:46<29:47,  3.30it/s] 24%|██▍       | 1908/7813 [09:46<29:33,  3.33it/s] 24%|██▍       | 1909/7813 [09:47<30:18,  3.25it/s] 24%|██▍       | 1910/7813 [09:47<29:42,  3.31it/s] 24%|██▍       | 1911/7813 [09:47<29:46,  3.30it/s] 24%|██▍       | 1912/7813 [09:47<29:31,  3.33it/s] 24%|██▍       | 1913/7813 [09:48<30:37,  3.21it/s] 24%|██▍       | 1914/7813 [09:48<30:10,  3.26it/s] 25%|██▍       | 1915/7813 [09:48<30:05,  3.27it/s] 25%|██▍       | 1916/7813 [09:49<30:41,  3.20it/s] 25%|██▍       | 1917/7813 [09:49<31:33,  3.11it/s] 25%|██▍       | 1918/7813 [09:49<30:37,  3.21it/s] 25%|██▍       | 1919/7813 [09:50<30:09,  3.26it/s] 25%|██▍       | 1920/7813 [09:50<30:54,  3.18it/s] 25%|██▍       | 1921/7813 [09:50<30:24,  3.23it/s] 25%|██▍       | 1922/7813 [09:51<29:59,  3.27it/s] 25%|██▍       | 1923/7813 [09:51<31:06,  3.15it/s] 25%|██▍       | 1924/7813 [09:51<30:28,  3.22it/s] 25%|██▍       | 1925/7813 [09:52<30:14,  3.25it/s] 25%|██▍       | 1926/7813 [09:52<29:54,  3.28it/s] 25%|██▍       | 1927/7813 [09:52<30:02,  3.27it/s] 25%|██▍       | 1928/7813 [09:52<29:33,  3.32it/s] 25%|██▍       | 1929/7813 [09:53<30:01,  3.27it/s] 25%|██▍       | 1930/7813 [09:53<29:41,  3.30it/s] 25%|██▍       | 1931/7813 [09:53<29:39,  3.30it/s] 25%|██▍       | 1932/7813 [09:54<29:25,  3.33it/s] 25%|██▍       | 1933/7813 [09:54<29:32,  3.32it/s] 25%|██▍       | 1934/7813 [09:54<30:40,  3.19it/s] 25%|██▍       | 1935/7813 [09:55<30:25,  3.22it/s] 25%|██▍       | 1936/7813 [09:55<30:17,  3.23it/s] 25%|██▍       | 1937/7813 [09:55<31:06,  3.15it/s] 25%|██▍       | 1938/7813 [09:56<30:18,  3.23it/s] 25%|██▍       | 1939/7813 [09:56<30:06,  3.25it/s] 25%|██▍       | 1940/7813 [09:56<30:01,  3.26it/s] 25%|██▍       | 1941/7813 [09:56<29:48,  3.28it/s] 25%|██▍       | 1942/7813 [09:57<29:27,  3.32it/s] 25%|██▍       | 1943/7813 [09:57<29:04,  3.36it/s] 25%|██▍       | 1944/7813 [09:57<29:15,  3.34it/s] 25%|██▍       | 1945/7813 [09:58<30:07,  3.25it/s] 25%|██▍       | 1946/7813 [09:58<29:42,  3.29it/s] 25%|██▍       | 1947/7813 [09:58<29:25,  3.32it/s] 25%|██▍       | 1948/7813 [09:59<30:41,  3.18it/s] 25%|██▍       | 1949/7813 [09:59<30:18,  3.22it/s] 25%|██▍       | 1950/7813 [09:59<29:51,  3.27it/s]                                                   {'loss': 0.083, 'grad_norm': 0.42222630977630615, 'learning_rate': 7.505439651862282e-05, 'epoch': 0.25}
 25%|██▍       | 1950/7813 [09:59<29:51,  3.27it/s] 25%|██▍       | 1951/7813 [09:59<29:39,  3.29it/s] 25%|██▍       | 1952/7813 [10:00<29:31,  3.31it/s] 25%|██▍       | 1953/7813 [10:00<29:24,  3.32it/s] 25%|██▌       | 1954/7813 [10:00<29:26,  3.32it/s] 25%|██▌       | 1955/7813 [10:01<29:20,  3.33it/s] 25%|██▌       | 1956/7813 [10:01<29:46,  3.28it/s] 25%|██▌       | 1957/7813 [10:01<29:31,  3.31it/s] 25%|██▌       | 1958/7813 [10:02<29:24,  3.32it/s] 25%|██▌       | 1959/7813 [10:02<30:39,  3.18it/s] 25%|██▌       | 1960/7813 [10:02<30:03,  3.25it/s] 25%|██▌       | 1961/7813 [10:02<29:41,  3.28it/s] 25%|██▌       | 1962/7813 [10:03<29:31,  3.30it/s] 25%|██▌       | 1963/7813 [10:03<29:14,  3.33it/s] 25%|██▌       | 1964/7813 [10:03<28:59,  3.36it/s] 25%|██▌       | 1965/7813 [10:04<28:58,  3.36it/s] 25%|██▌       | 1966/7813 [10:04<30:07,  3.23it/s] 25%|██▌       | 1967/7813 [10:04<30:04,  3.24it/s] 25%|██▌       | 1968/7813 [10:05<30:49,  3.16it/s] 25%|██▌       | 1969/7813 [10:05<30:18,  3.21it/s] 25%|██▌       | 1970/7813 [10:05<29:51,  3.26it/s] 25%|██▌       | 1971/7813 [10:06<29:32,  3.30it/s] 25%|██▌       | 1972/7813 [10:06<29:19,  3.32it/s] 25%|██▌       | 1973/7813 [10:06<29:15,  3.33it/s] 25%|██▌       | 1974/7813 [10:06<29:10,  3.34it/s] 25%|██▌       | 1975/7813 [10:07<29:02,  3.35it/s] 25%|██▌       | 1976/7813 [10:07<29:09,  3.34it/s] 25%|██▌       | 1977/7813 [10:07<29:28,  3.30it/s] 25%|██▌       | 1978/7813 [10:08<29:17,  3.32it/s] 25%|██▌       | 1979/7813 [10:08<29:11,  3.33it/s] 25%|██▌       | 1980/7813 [10:08<29:06,  3.34it/s] 25%|██▌       | 1981/7813 [10:09<29:16,  3.32it/s] 25%|██▌       | 1982/7813 [10:09<30:01,  3.24it/s] 25%|██▌       | 1983/7813 [10:09<29:43,  3.27it/s] 25%|██▌       | 1984/7813 [10:09<29:18,  3.32it/s] 25%|██▌       | 1985/7813 [10:10<29:00,  3.35it/s] 25%|██▌       | 1986/7813 [10:10<29:15,  3.32it/s] 25%|██▌       | 1987/7813 [10:11<41:21,  2.35it/s] 25%|██▌       | 1988/7813 [10:11<37:35,  2.58it/s] 25%|██▌       | 1989/7813 [10:11<35:01,  2.77it/s] 25%|██▌       | 1990/7813 [10:12<33:06,  2.93it/s] 25%|██▌       | 1991/7813 [10:12<31:56,  3.04it/s] 25%|██▌       | 1992/7813 [10:12<32:17,  3.00it/s] 26%|██▌       | 1993/7813 [10:13<31:09,  3.11it/s] 26%|██▌       | 1994/7813 [10:13<30:41,  3.16it/s] 26%|██▌       | 1995/7813 [10:13<30:07,  3.22it/s] 26%|██▌       | 1996/7813 [10:14<29:44,  3.26it/s] 26%|██▌       | 1997/7813 [10:14<30:32,  3.17it/s] 26%|██▌       | 1998/7813 [10:14<29:55,  3.24it/s] 26%|██▌       | 1999/7813 [10:14<30:00,  3.23it/s] 26%|██▌       | 2000/7813 [10:15<30:04,  3.22it/s]                                                   {'loss': 0.0836, 'grad_norm': 0.518062949180603, 'learning_rate': 7.441443747600155e-05, 'epoch': 0.26}
 26%|██▌       | 2000/7813 [10:15<30:04,  3.22it/s] 26%|██▌       | 2001/7813 [10:15<30:24,  3.19it/s] 26%|██▌       | 2002/7813 [10:15<30:04,  3.22it/s] 26%|██▌       | 2003/7813 [10:16<29:52,  3.24it/s] 26%|██▌       | 2004/7813 [10:16<30:02,  3.22it/s] 26%|██▌       | 2005/7813 [10:16<30:06,  3.22it/s] 26%|██▌       | 2006/7813 [10:17<29:41,  3.26it/s] 26%|██▌       | 2007/7813 [10:17<29:14,  3.31it/s] 26%|██▌       | 2008/7813 [10:17<29:09,  3.32it/s] 26%|██▌       | 2009/7813 [10:18<30:21,  3.19it/s] 26%|██▌       | 2010/7813 [10:18<29:43,  3.25it/s] 26%|██▌       | 2011/7813 [10:18<29:14,  3.31it/s] 26%|██▌       | 2012/7813 [10:18<29:20,  3.30it/s] 26%|██▌       | 2013/7813 [10:19<29:09,  3.32it/s] 26%|██▌       | 2014/7813 [10:19<30:09,  3.21it/s] 26%|██▌       | 2015/7813 [10:19<30:04,  3.21it/s] 26%|██▌       | 2016/7813 [10:20<29:37,  3.26it/s] 26%|██▌       | 2017/7813 [10:20<29:27,  3.28it/s] 26%|██▌       | 2018/7813 [10:20<29:15,  3.30it/s] 26%|██▌       | 2019/7813 [10:21<30:09,  3.20it/s] 26%|██▌       | 2020/7813 [10:21<29:45,  3.24it/s] 26%|██▌       | 2021/7813 [10:21<29:33,  3.27it/s] 26%|██▌       | 2022/7813 [10:22<29:20,  3.29it/s] 26%|██▌       | 2023/7813 [10:22<30:23,  3.18it/s] 26%|██▌       | 2024/7813 [10:22<29:59,  3.22it/s] 26%|██▌       | 2025/7813 [10:22<29:26,  3.28it/s] 26%|██▌       | 2026/7813 [10:23<35:57,  2.68it/s] 26%|██▌       | 2027/7813 [10:23<35:08,  2.74it/s] 26%|██▌       | 2028/7813 [10:24<33:03,  2.92it/s] 26%|██▌       | 2029/7813 [10:24<31:40,  3.04it/s] 26%|██▌       | 2030/7813 [10:24<31:06,  3.10it/s] 26%|██▌       | 2031/7813 [10:25<30:11,  3.19it/s] 26%|██▌       | 2032/7813 [10:25<29:38,  3.25it/s] 26%|██▌       | 2033/7813 [10:25<29:48,  3.23it/s] 26%|██▌       | 2034/7813 [10:25<29:32,  3.26it/s] 26%|██▌       | 2035/7813 [10:26<29:11,  3.30it/s] 26%|██▌       | 2036/7813 [10:26<29:28,  3.27it/s] 26%|██▌       | 2037/7813 [10:26<30:18,  3.18it/s] 26%|██▌       | 2038/7813 [10:27<29:36,  3.25it/s] 26%|██▌       | 2039/7813 [10:27<29:09,  3.30it/s] 26%|██▌       | 2040/7813 [10:27<29:00,  3.32it/s] 26%|██▌       | 2041/7813 [10:28<29:01,  3.31it/s] 26%|██▌       | 2042/7813 [10:28<29:05,  3.31it/s] 26%|██▌       | 2043/7813 [10:28<29:20,  3.28it/s] 26%|██▌       | 2044/7813 [10:28<29:33,  3.25it/s] 26%|██▌       | 2045/7813 [10:29<29:10,  3.29it/s] 26%|██▌       | 2046/7813 [10:29<29:26,  3.27it/s] 26%|██▌       | 2047/7813 [10:29<29:06,  3.30it/s] 26%|██▌       | 2048/7813 [10:30<28:46,  3.34it/s] 26%|██▌       | 2049/7813 [10:30<28:53,  3.33it/s] 26%|██▌       | 2050/7813 [10:30<28:37,  3.36it/s]                                                   {'loss': 0.0796, 'grad_norm': 0.4308012127876282, 'learning_rate': 7.377447843338026e-05, 'epoch': 0.26}
 26%|██▌       | 2050/7813 [10:30<28:37,  3.36it/s] 26%|██▋       | 2051/7813 [10:31<28:33,  3.36it/s] 26%|██▋       | 2052/7813 [10:31<28:34,  3.36it/s] 26%|██▋       | 2053/7813 [10:31<28:39,  3.35it/s] 26%|██▋       | 2054/7813 [10:31<28:32,  3.36it/s] 26%|██▋       | 2055/7813 [10:32<28:38,  3.35it/s] 26%|██▋       | 2056/7813 [10:32<29:04,  3.30it/s] 26%|██▋       | 2057/7813 [10:32<28:52,  3.32it/s] 26%|██▋       | 2058/7813 [10:33<28:38,  3.35it/s] 26%|██▋       | 2059/7813 [10:33<28:47,  3.33it/s] 26%|██▋       | 2060/7813 [10:33<28:46,  3.33it/s] 26%|██▋       | 2061/7813 [10:34<29:59,  3.20it/s] 26%|██▋       | 2062/7813 [10:34<29:29,  3.25it/s] 26%|██▋       | 2063/7813 [10:34<29:23,  3.26it/s] 26%|██▋       | 2064/7813 [10:34<29:04,  3.30it/s] 26%|██▋       | 2065/7813 [10:35<29:15,  3.27it/s] 26%|██▋       | 2066/7813 [10:35<30:02,  3.19it/s] 26%|██▋       | 2067/7813 [10:35<29:24,  3.26it/s] 26%|██▋       | 2068/7813 [10:36<29:24,  3.26it/s] 26%|██▋       | 2069/7813 [10:36<29:07,  3.29it/s] 26%|██▋       | 2070/7813 [10:36<28:49,  3.32it/s] 27%|██▋       | 2071/7813 [10:37<28:52,  3.31it/s] 27%|██▋       | 2072/7813 [10:37<28:37,  3.34it/s] 27%|██▋       | 2073/7813 [10:37<28:36,  3.34it/s] 27%|██▋       | 2074/7813 [10:38<28:32,  3.35it/s] 27%|██▋       | 2075/7813 [10:38<28:36,  3.34it/s] 27%|██▋       | 2076/7813 [10:38<28:40,  3.33it/s] 27%|██▋       | 2077/7813 [10:38<29:40,  3.22it/s] 27%|██▋       | 2078/7813 [10:39<29:18,  3.26it/s] 27%|██▋       | 2079/7813 [10:39<29:12,  3.27it/s] 27%|██▋       | 2080/7813 [10:39<29:07,  3.28it/s] 27%|██▋       | 2081/7813 [10:40<29:07,  3.28it/s] 27%|██▋       | 2082/7813 [10:40<28:47,  3.32it/s] 27%|██▋       | 2083/7813 [10:40<28:41,  3.33it/s] 27%|██▋       | 2084/7813 [10:41<28:27,  3.35it/s] 27%|██▋       | 2085/7813 [10:41<28:30,  3.35it/s] 27%|██▋       | 2086/7813 [10:41<28:31,  3.35it/s] 27%|██▋       | 2087/7813 [10:41<28:31,  3.35it/s] 27%|██▋       | 2088/7813 [10:42<28:32,  3.34it/s] 27%|██▋       | 2089/7813 [10:42<28:43,  3.32it/s] 27%|██▋       | 2090/7813 [10:42<28:40,  3.33it/s] 27%|██▋       | 2091/7813 [10:43<28:38,  3.33it/s] 27%|██▋       | 2092/7813 [10:43<28:30,  3.34it/s] 27%|██▋       | 2093/7813 [10:43<28:26,  3.35it/s] 27%|██▋       | 2094/7813 [10:44<28:42,  3.32it/s] 27%|██▋       | 2095/7813 [10:44<28:28,  3.35it/s] 27%|██▋       | 2096/7813 [10:44<28:16,  3.37it/s] 27%|██▋       | 2097/7813 [10:44<28:11,  3.38it/s] 27%|██▋       | 2098/7813 [10:45<28:15,  3.37it/s] 27%|██▋       | 2099/7813 [10:45<28:42,  3.32it/s] 27%|██▋       | 2100/7813 [10:45<28:29,  3.34it/s]                                                   {'loss': 0.0749, 'grad_norm': 0.42000094056129456, 'learning_rate': 7.3134519390759e-05, 'epoch': 0.27}
 27%|██▋       | 2100/7813 [10:45<28:29,  3.34it/s] 27%|██▋       | 2101/7813 [10:46<28:15,  3.37it/s] 27%|██▋       | 2102/7813 [10:46<28:23,  3.35it/s] 27%|██▋       | 2103/7813 [10:46<28:18,  3.36it/s] 27%|██▋       | 2104/7813 [10:47<28:42,  3.31it/s] 27%|██▋       | 2105/7813 [10:47<28:35,  3.33it/s] 27%|██▋       | 2106/7813 [10:47<29:38,  3.21it/s] 27%|██▋       | 2107/7813 [10:47<29:19,  3.24it/s] 27%|██▋       | 2108/7813 [10:48<28:49,  3.30it/s] 27%|██▋       | 2109/7813 [10:48<28:45,  3.31it/s] 27%|██▋       | 2110/7813 [10:48<28:24,  3.35it/s] 27%|██▋       | 2111/7813 [10:49<29:17,  3.24it/s] 27%|██▋       | 2112/7813 [10:49<29:04,  3.27it/s] 27%|██▋       | 2113/7813 [10:49<28:58,  3.28it/s] 27%|██▋       | 2114/7813 [10:50<28:50,  3.29it/s] 27%|██▋       | 2115/7813 [10:50<28:47,  3.30it/s] 27%|██▋       | 2116/7813 [10:50<30:01,  3.16it/s] 27%|██▋       | 2117/7813 [10:51<29:19,  3.24it/s] 27%|██▋       | 2118/7813 [10:51<28:48,  3.29it/s] 27%|██▋       | 2119/7813 [10:51<29:08,  3.26it/s] 27%|██▋       | 2120/7813 [10:51<28:51,  3.29it/s] 27%|██▋       | 2121/7813 [10:52<28:43,  3.30it/s] 27%|██▋       | 2122/7813 [10:52<28:28,  3.33it/s] 27%|██▋       | 2123/7813 [10:52<28:52,  3.28it/s] 27%|██▋       | 2124/7813 [10:53<29:10,  3.25it/s] 27%|██▋       | 2125/7813 [10:53<28:47,  3.29it/s] 27%|██▋       | 2126/7813 [10:53<29:15,  3.24it/s] 27%|██▋       | 2127/7813 [10:54<29:07,  3.25it/s] 27%|██▋       | 2128/7813 [10:54<28:47,  3.29it/s] 27%|██▋       | 2129/7813 [10:54<28:55,  3.28it/s] 27%|██▋       | 2130/7813 [10:54<28:41,  3.30it/s] 27%|██▋       | 2131/7813 [10:55<28:29,  3.32it/s] 27%|██▋       | 2132/7813 [10:55<28:31,  3.32it/s] 27%|██▋       | 2133/7813 [10:55<28:38,  3.30it/s] 27%|██▋       | 2134/7813 [10:56<28:18,  3.34it/s] 27%|██▋       | 2135/7813 [10:56<28:21,  3.34it/s] 27%|██▋       | 2136/7813 [10:56<28:44,  3.29it/s] 27%|██▋       | 2137/7813 [10:57<28:44,  3.29it/s] 27%|██▋       | 2138/7813 [10:57<28:26,  3.32it/s] 27%|██▋       | 2139/7813 [10:57<28:09,  3.36it/s] 27%|██▋       | 2140/7813 [10:57<28:12,  3.35it/s] 27%|██▋       | 2141/7813 [10:58<28:17,  3.34it/s] 27%|██▋       | 2142/7813 [10:58<28:13,  3.35it/s] 27%|██▋       | 2143/7813 [10:58<28:11,  3.35it/s] 27%|██▋       | 2144/7813 [10:59<28:10,  3.35it/s] 27%|██▋       | 2145/7813 [10:59<28:11,  3.35it/s] 27%|██▋       | 2146/7813 [10:59<28:05,  3.36it/s] 27%|██▋       | 2147/7813 [11:00<28:34,  3.30it/s] 27%|██▋       | 2148/7813 [11:00<28:37,  3.30it/s] 28%|██▊       | 2149/7813 [11:00<28:31,  3.31it/s] 28%|██▊       | 2150/7813 [11:00<28:21,  3.33it/s]                                                   {'loss': 0.0742, 'grad_norm': 0.5585174560546875, 'learning_rate': 7.249456034813772e-05, 'epoch': 0.28}
 28%|██▊       | 2150/7813 [11:01<28:21,  3.33it/s] 28%|██▊       | 2151/7813 [11:01<28:24,  3.32it/s] 28%|██▊       | 2152/7813 [11:01<28:16,  3.34it/s] 28%|██▊       | 2153/7813 [11:01<28:34,  3.30it/s] 28%|██▊       | 2154/7813 [11:02<28:25,  3.32it/s] 28%|██▊       | 2155/7813 [11:02<28:37,  3.29it/s] 28%|██▊       | 2156/7813 [11:02<28:22,  3.32it/s] 28%|██▊       | 2157/7813 [11:03<27:57,  3.37it/s] 28%|██▊       | 2158/7813 [11:03<27:58,  3.37it/s] 28%|██▊       | 2159/7813 [11:03<27:56,  3.37it/s] 28%|██▊       | 2160/7813 [11:04<29:16,  3.22it/s] 28%|██▊       | 2161/7813 [11:04<28:46,  3.27it/s] 28%|██▊       | 2162/7813 [11:04<29:46,  3.16it/s] 28%|██▊       | 2163/7813 [11:04<29:11,  3.23it/s] 28%|██▊       | 2164/7813 [11:05<28:44,  3.28it/s] 28%|██▊       | 2165/7813 [11:05<28:49,  3.27it/s] 28%|██▊       | 2166/7813 [11:05<28:36,  3.29it/s] 28%|██▊       | 2167/7813 [11:06<29:17,  3.21it/s] 28%|██▊       | 2168/7813 [11:06<28:46,  3.27it/s] 28%|██▊       | 2169/7813 [11:06<28:40,  3.28it/s] 28%|██▊       | 2170/7813 [11:07<28:24,  3.31it/s] 28%|██▊       | 2171/7813 [11:07<28:19,  3.32it/s] 28%|██▊       | 2172/7813 [11:07<28:39,  3.28it/s] 28%|██▊       | 2173/7813 [11:07<28:20,  3.32it/s] 28%|██▊       | 2174/7813 [11:08<28:14,  3.33it/s] 28%|██▊       | 2175/7813 [11:08<28:02,  3.35it/s] 28%|██▊       | 2176/7813 [11:08<28:07,  3.34it/s] 28%|██▊       | 2177/7813 [11:09<27:59,  3.35it/s] 28%|██▊       | 2178/7813 [11:09<27:47,  3.38it/s] 28%|██▊       | 2179/7813 [11:09<27:46,  3.38it/s] 28%|██▊       | 2180/7813 [11:10<27:55,  3.36it/s] 28%|██▊       | 2181/7813 [11:10<27:47,  3.38it/s] 28%|██▊       | 2182/7813 [11:10<28:01,  3.35it/s] 28%|██▊       | 2183/7813 [11:10<28:22,  3.31it/s] 28%|██▊       | 2184/7813 [11:11<28:18,  3.31it/s] 28%|██▊       | 2185/7813 [11:11<29:29,  3.18it/s] 28%|██▊       | 2186/7813 [11:11<29:02,  3.23it/s] 28%|██▊       | 2187/7813 [11:12<29:11,  3.21it/s] 28%|██▊       | 2188/7813 [11:12<28:30,  3.29it/s] 28%|██▊       | 2189/7813 [11:12<28:12,  3.32it/s] 28%|██▊       | 2190/7813 [11:13<28:09,  3.33it/s] 28%|██▊       | 2191/7813 [11:13<28:13,  3.32it/s] 28%|██▊       | 2192/7813 [11:13<27:51,  3.36it/s] 28%|██▊       | 2193/7813 [11:13<27:44,  3.38it/s] 28%|██▊       | 2194/7813 [11:14<27:53,  3.36it/s] 28%|██▊       | 2195/7813 [11:14<27:48,  3.37it/s] 28%|██▊       | 2196/7813 [11:14<27:43,  3.38it/s] 28%|██▊       | 2197/7813 [11:15<27:49,  3.36it/s] 28%|██▊       | 2198/7813 [11:15<27:41,  3.38it/s] 28%|██▊       | 2199/7813 [11:15<28:48,  3.25it/s] 28%|██▊       | 2200/7813 [11:16<28:26,  3.29it/s]                                                   {'loss': 0.0684, 'grad_norm': 0.47292256355285645, 'learning_rate': 7.185460130551645e-05, 'epoch': 0.28}
 28%|██▊       | 2200/7813 [11:16<28:26,  3.29it/s] 28%|██▊       | 2201/7813 [11:16<28:18,  3.30it/s] 28%|██▊       | 2202/7813 [11:16<28:26,  3.29it/s] 28%|██▊       | 2203/7813 [11:16<28:22,  3.30it/s] 28%|██▊       | 2204/7813 [11:17<28:41,  3.26it/s] 28%|██▊       | 2205/7813 [11:17<28:48,  3.24it/s] 28%|██▊       | 2206/7813 [11:17<28:54,  3.23it/s] 28%|██▊       | 2207/7813 [11:18<28:40,  3.26it/s] 28%|██▊       | 2208/7813 [11:18<28:27,  3.28it/s] 28%|██▊       | 2209/7813 [11:18<28:45,  3.25it/s] 28%|██▊       | 2210/7813 [11:19<28:44,  3.25it/s] 28%|██▊       | 2211/7813 [11:19<28:37,  3.26it/s] 28%|██▊       | 2212/7813 [11:19<29:31,  3.16it/s] 28%|██▊       | 2213/7813 [11:20<28:57,  3.22it/s] 28%|██▊       | 2214/7813 [11:20<28:17,  3.30it/s] 28%|██▊       | 2215/7813 [11:20<28:06,  3.32it/s] 28%|██▊       | 2216/7813 [11:20<28:15,  3.30it/s] 28%|██▊       | 2217/7813 [11:21<28:19,  3.29it/s] 28%|██▊       | 2218/7813 [11:21<28:11,  3.31it/s] 28%|██▊       | 2219/7813 [11:21<29:01,  3.21it/s] 28%|██▊       | 2220/7813 [11:22<28:35,  3.26it/s] 28%|██▊       | 2221/7813 [11:22<29:01,  3.21it/s] 28%|██▊       | 2222/7813 [11:22<28:43,  3.24it/s] 28%|██▊       | 2223/7813 [11:23<28:24,  3.28it/s] 28%|██▊       | 2224/7813 [11:23<28:10,  3.31it/s] 28%|██▊       | 2225/7813 [11:23<28:28,  3.27it/s] 28%|██▊       | 2226/7813 [11:24<28:14,  3.30it/s] 29%|██▊       | 2227/7813 [11:24<28:26,  3.27it/s] 29%|██▊       | 2228/7813 [11:24<28:07,  3.31it/s] 29%|██▊       | 2229/7813 [11:24<27:57,  3.33it/s] 29%|██▊       | 2230/7813 [11:25<27:59,  3.32it/s] 29%|██▊       | 2231/7813 [11:25<27:56,  3.33it/s] 29%|██▊       | 2232/7813 [11:25<27:58,  3.32it/s] 29%|██▊       | 2233/7813 [11:26<27:46,  3.35it/s] 29%|██▊       | 2234/7813 [11:26<27:44,  3.35it/s] 29%|██▊       | 2235/7813 [11:26<27:47,  3.35it/s] 29%|██▊       | 2236/7813 [11:27<27:42,  3.35it/s] 29%|██▊       | 2237/7813 [11:27<27:54,  3.33it/s] 29%|██▊       | 2238/7813 [11:27<27:42,  3.35it/s] 29%|██▊       | 2239/7813 [11:27<28:52,  3.22it/s] 29%|██▊       | 2240/7813 [11:28<29:50,  3.11it/s] 29%|██▊       | 2241/7813 [11:28<29:26,  3.15it/s] 29%|██▊       | 2242/7813 [11:28<30:05,  3.09it/s] 29%|██▊       | 2243/7813 [11:29<29:50,  3.11it/s] 29%|██▊       | 2244/7813 [11:29<29:22,  3.16it/s] 29%|██▊       | 2245/7813 [11:29<28:52,  3.21it/s] 29%|██▊       | 2246/7813 [11:30<28:55,  3.21it/s] 29%|██▉       | 2247/7813 [11:30<28:42,  3.23it/s] 29%|██▉       | 2248/7813 [11:30<28:30,  3.25it/s] 29%|██▉       | 2249/7813 [11:31<28:11,  3.29it/s] 29%|██▉       | 2250/7813 [11:31<28:11,  3.29it/s]                                                   {'loss': 0.0666, 'grad_norm': 0.5181238651275635, 'learning_rate': 7.121464226289518e-05, 'epoch': 0.29}
 29%|██▉       | 2250/7813 [11:31<28:11,  3.29it/s] 29%|██▉       | 2251/7813 [11:31<28:10,  3.29it/s] 29%|██▉       | 2252/7813 [11:32<28:05,  3.30it/s] 29%|██▉       | 2253/7813 [11:32<27:48,  3.33it/s] 29%|██▉       | 2254/7813 [11:32<27:59,  3.31it/s] 29%|██▉       | 2255/7813 [11:32<27:37,  3.35it/s] 29%|██▉       | 2256/7813 [11:33<27:24,  3.38it/s] 29%|██▉       | 2257/7813 [11:33<28:21,  3.27it/s] 29%|██▉       | 2258/7813 [11:33<28:27,  3.25it/s] 29%|██▉       | 2259/7813 [11:34<28:09,  3.29it/s] 29%|██▉       | 2260/7813 [11:34<28:06,  3.29it/s] 29%|██▉       | 2261/7813 [11:34<27:56,  3.31it/s] 29%|██▉       | 2262/7813 [11:35<27:45,  3.33it/s] 29%|██▉       | 2263/7813 [11:35<27:48,  3.33it/s] 29%|██▉       | 2264/7813 [11:35<29:07,  3.17it/s] 29%|██▉       | 2265/7813 [11:35<28:26,  3.25it/s] 29%|██▉       | 2266/7813 [11:36<29:10,  3.17it/s] 29%|██▉       | 2267/7813 [11:36<29:28,  3.14it/s] 29%|██▉       | 2268/7813 [11:36<29:18,  3.15it/s] 29%|██▉       | 2269/7813 [11:37<28:45,  3.21it/s] 29%|██▉       | 2270/7813 [11:37<28:46,  3.21it/s] 29%|██▉       | 2271/7813 [11:37<28:42,  3.22it/s] 29%|██▉       | 2272/7813 [11:38<28:23,  3.25it/s] 29%|██▉       | 2273/7813 [11:38<28:17,  3.26it/s] 29%|██▉       | 2274/7813 [11:38<28:16,  3.27it/s] 29%|██▉       | 2275/7813 [11:39<28:36,  3.23it/s] 29%|██▉       | 2276/7813 [11:39<29:19,  3.15it/s] 29%|██▉       | 2277/7813 [11:39<29:00,  3.18it/s] 29%|██▉       | 2278/7813 [11:40<28:48,  3.20it/s] 29%|██▉       | 2279/7813 [11:40<28:10,  3.27it/s] 29%|██▉       | 2280/7813 [11:40<28:34,  3.23it/s] 29%|██▉       | 2281/7813 [11:40<28:20,  3.25it/s] 29%|██▉       | 2282/7813 [11:41<28:10,  3.27it/s] 29%|██▉       | 2283/7813 [11:41<28:01,  3.29it/s] 29%|██▉       | 2284/7813 [11:41<29:17,  3.15it/s] 29%|██▉       | 2285/7813 [11:42<30:05,  3.06it/s] 29%|██▉       | 2286/7813 [11:42<29:14,  3.15it/s] 29%|██▉       | 2287/7813 [11:42<28:43,  3.21it/s] 29%|██▉       | 2288/7813 [11:43<28:41,  3.21it/s] 29%|██▉       | 2289/7813 [11:43<28:17,  3.25it/s] 29%|██▉       | 2290/7813 [11:43<28:02,  3.28it/s] 29%|██▉       | 2291/7813 [11:44<28:00,  3.29it/s] 29%|██▉       | 2292/7813 [11:44<28:15,  3.26it/s] 29%|██▉       | 2293/7813 [11:44<27:56,  3.29it/s] 29%|██▉       | 2294/7813 [11:45<29:07,  3.16it/s] 29%|██▉       | 2295/7813 [11:45<28:47,  3.19it/s] 29%|██▉       | 2296/7813 [11:45<28:34,  3.22it/s] 29%|██▉       | 2297/7813 [11:45<28:33,  3.22it/s] 29%|██▉       | 2298/7813 [11:46<28:18,  3.25it/s] 29%|██▉       | 2299/7813 [11:46<28:28,  3.23it/s] 29%|██▉       | 2300/7813 [11:46<28:16,  3.25it/s]                                                   {'loss': 0.0628, 'grad_norm': 0.41049692034721375, 'learning_rate': 7.057468322027391e-05, 'epoch': 0.29}
 29%|██▉       | 2300/7813 [11:46<28:16,  3.25it/s] 29%|██▉       | 2301/7813 [11:47<27:55,  3.29it/s] 29%|██▉       | 2302/7813 [11:47<27:50,  3.30it/s] 29%|██▉       | 2303/7813 [11:47<27:57,  3.28it/s] 29%|██▉       | 2304/7813 [11:48<28:24,  3.23it/s] 30%|██▉       | 2305/7813 [11:48<28:01,  3.28it/s] 30%|██▉       | 2306/7813 [11:48<28:03,  3.27it/s] 30%|██▉       | 2307/7813 [11:48<27:52,  3.29it/s] 30%|██▉       | 2308/7813 [11:49<27:46,  3.30it/s] 30%|██▉       | 2309/7813 [11:49<27:26,  3.34it/s] 30%|██▉       | 2310/7813 [11:49<27:25,  3.35it/s] 30%|██▉       | 2311/7813 [11:50<27:16,  3.36it/s] 30%|██▉       | 2312/7813 [11:50<27:25,  3.34it/s] 30%|██▉       | 2313/7813 [11:50<27:19,  3.36it/s] 30%|██▉       | 2314/7813 [11:51<27:09,  3.38it/s] 30%|██▉       | 2315/7813 [11:51<28:40,  3.20it/s] 30%|██▉       | 2316/7813 [11:51<28:05,  3.26it/s] 30%|██▉       | 2317/7813 [11:52<28:19,  3.23it/s] 30%|██▉       | 2318/7813 [11:52<27:42,  3.31it/s] 30%|██▉       | 2319/7813 [11:52<27:48,  3.29it/s] 30%|██▉       | 2320/7813 [11:52<27:30,  3.33it/s] 30%|██▉       | 2321/7813 [11:53<27:22,  3.34it/s] 30%|██▉       | 2322/7813 [11:53<27:10,  3.37it/s] 30%|██▉       | 2323/7813 [11:53<27:35,  3.32it/s] 30%|██▉       | 2324/7813 [11:54<27:25,  3.34it/s] 30%|██▉       | 2325/7813 [11:54<27:28,  3.33it/s] 30%|██▉       | 2326/7813 [11:54<27:14,  3.36it/s] 30%|██▉       | 2327/7813 [11:54<27:02,  3.38it/s] 30%|██▉       | 2328/7813 [11:55<26:58,  3.39it/s] 30%|██▉       | 2329/7813 [11:55<28:11,  3.24it/s] 30%|██▉       | 2330/7813 [11:55<27:43,  3.30it/s] 30%|██▉       | 2331/7813 [11:56<27:35,  3.31it/s] 30%|██▉       | 2332/7813 [11:56<27:21,  3.34it/s] 30%|██▉       | 2333/7813 [11:56<27:34,  3.31it/s] 30%|██▉       | 2334/7813 [11:57<27:13,  3.35it/s] 30%|██▉       | 2335/7813 [11:57<27:31,  3.32it/s] 30%|██▉       | 2336/7813 [11:57<28:24,  3.21it/s] 30%|██▉       | 2337/7813 [11:58<28:20,  3.22it/s] 30%|██▉       | 2338/7813 [11:58<28:20,  3.22it/s] 30%|██▉       | 2339/7813 [11:58<27:51,  3.28it/s] 30%|██▉       | 2340/7813 [11:58<27:28,  3.32it/s] 30%|██▉       | 2341/7813 [11:59<27:07,  3.36it/s] 30%|██▉       | 2342/7813 [11:59<27:20,  3.33it/s] 30%|██▉       | 2343/7813 [11:59<27:08,  3.36it/s] 30%|███       | 2344/7813 [12:00<27:19,  3.34it/s] 30%|███       | 2345/7813 [12:00<27:13,  3.35it/s] 30%|███       | 2346/7813 [12:00<27:12,  3.35it/s] 30%|███       | 2347/7813 [12:01<27:07,  3.36it/s] 30%|███       | 2348/7813 [12:01<27:56,  3.26it/s] 30%|███       | 2349/7813 [12:01<27:34,  3.30it/s] 30%|███       | 2350/7813 [12:01<27:38,  3.29it/s]                                                   {'loss': 0.0628, 'grad_norm': 0.37113651633262634, 'learning_rate': 6.993472417765263e-05, 'epoch': 0.3}
 30%|███       | 2350/7813 [12:01<27:38,  3.29it/s] 30%|███       | 2351/7813 [12:02<27:29,  3.31it/s] 30%|███       | 2352/7813 [12:02<27:38,  3.29it/s] 30%|███       | 2353/7813 [12:02<27:24,  3.32it/s] 30%|███       | 2354/7813 [12:03<27:21,  3.33it/s] 30%|███       | 2355/7813 [12:03<27:06,  3.36it/s] 30%|███       | 2356/7813 [12:03<27:14,  3.34it/s] 30%|███       | 2357/7813 [12:04<27:14,  3.34it/s] 30%|███       | 2358/7813 [12:04<27:05,  3.36it/s] 30%|███       | 2359/7813 [12:04<27:12,  3.34it/s] 30%|███       | 2360/7813 [12:04<26:47,  3.39it/s] 30%|███       | 2361/7813 [12:05<26:35,  3.42it/s] 30%|███       | 2362/7813 [12:05<27:43,  3.28it/s] 30%|███       | 2363/7813 [12:05<27:33,  3.30it/s] 30%|███       | 2364/7813 [12:06<27:41,  3.28it/s] 30%|███       | 2365/7813 [12:06<27:57,  3.25it/s] 30%|███       | 2366/7813 [12:06<27:43,  3.28it/s] 30%|███       | 2367/7813 [12:07<28:15,  3.21it/s] 30%|███       | 2368/7813 [12:07<28:56,  3.14it/s] 30%|███       | 2369/7813 [12:07<28:14,  3.21it/s] 30%|███       | 2370/7813 [12:08<27:54,  3.25it/s] 30%|███       | 2371/7813 [12:08<27:42,  3.27it/s] 30%|███       | 2372/7813 [12:08<27:21,  3.31it/s] 30%|███       | 2373/7813 [12:08<27:05,  3.35it/s] 30%|███       | 2374/7813 [12:09<26:56,  3.36it/s] 30%|███       | 2375/7813 [12:09<27:18,  3.32it/s] 30%|███       | 2376/7813 [12:09<27:35,  3.28it/s] 30%|███       | 2377/7813 [12:10<27:31,  3.29it/s] 30%|███       | 2378/7813 [12:10<27:30,  3.29it/s] 30%|███       | 2379/7813 [12:10<27:11,  3.33it/s] 30%|███       | 2380/7813 [12:11<27:28,  3.30it/s] 30%|███       | 2381/7813 [12:11<27:16,  3.32it/s] 30%|███       | 2382/7813 [12:11<27:03,  3.35it/s] 31%|███       | 2383/7813 [12:11<26:53,  3.37it/s] 31%|███       | 2384/7813 [12:12<26:48,  3.38it/s] 31%|███       | 2385/7813 [12:12<27:45,  3.26it/s] 31%|███       | 2386/7813 [12:12<27:17,  3.31it/s] 31%|███       | 2387/7813 [12:13<27:06,  3.34it/s] 31%|███       | 2388/7813 [12:13<27:07,  3.33it/s] 31%|███       | 2389/7813 [12:13<26:52,  3.36it/s] 31%|███       | 2390/7813 [12:14<26:53,  3.36it/s] 31%|███       | 2391/7813 [12:14<28:02,  3.22it/s] 31%|███       | 2392/7813 [12:14<27:43,  3.26it/s] 31%|███       | 2393/7813 [12:14<27:42,  3.26it/s] 31%|███       | 2394/7813 [12:15<27:20,  3.30it/s] 31%|███       | 2395/7813 [12:15<27:09,  3.33it/s] 31%|███       | 2396/7813 [12:15<27:22,  3.30it/s] 31%|███       | 2397/7813 [12:16<27:04,  3.33it/s] 31%|███       | 2398/7813 [12:16<26:57,  3.35it/s] 31%|███       | 2399/7813 [12:16<26:59,  3.34it/s] 31%|███       | 2400/7813 [12:17<26:38,  3.39it/s]                                                   {'loss': 0.0552, 'grad_norm': 0.3124596178531647, 'learning_rate': 6.929476513503136e-05, 'epoch': 0.31}
 31%|███       | 2400/7813 [12:17<26:38,  3.39it/s] 31%|███       | 2401/7813 [12:17<26:51,  3.36it/s] 31%|███       | 2402/7813 [12:17<26:45,  3.37it/s] 31%|███       | 2403/7813 [12:17<26:59,  3.34it/s] 31%|███       | 2404/7813 [12:18<26:52,  3.35it/s] 31%|███       | 2405/7813 [12:18<26:45,  3.37it/s] 31%|███       | 2406/7813 [12:18<26:49,  3.36it/s] 31%|███       | 2407/7813 [12:19<26:54,  3.35it/s] 31%|███       | 2408/7813 [12:19<27:00,  3.34it/s] 31%|███       | 2409/7813 [12:19<27:23,  3.29it/s] 31%|███       | 2410/7813 [12:20<27:19,  3.30it/s] 31%|███       | 2411/7813 [12:20<27:13,  3.31it/s] 31%|███       | 2412/7813 [12:20<27:06,  3.32it/s] 31%|███       | 2413/7813 [12:20<26:47,  3.36it/s] 31%|███       | 2414/7813 [12:21<26:49,  3.36it/s] 31%|███       | 2415/7813 [12:21<26:52,  3.35it/s] 31%|███       | 2416/7813 [12:21<26:38,  3.38it/s] 31%|███       | 2417/7813 [12:22<26:43,  3.37it/s] 31%|███       | 2418/7813 [12:22<26:43,  3.36it/s] 31%|███       | 2419/7813 [12:22<27:21,  3.29it/s] 31%|███       | 2420/7813 [12:23<27:07,  3.31it/s] 31%|███       | 2421/7813 [12:23<27:41,  3.25it/s] 31%|███       | 2422/7813 [12:23<27:31,  3.26it/s] 31%|███       | 2423/7813 [12:23<27:45,  3.24it/s] 31%|███       | 2424/7813 [12:24<27:01,  3.32it/s] 31%|███       | 2425/7813 [12:24<26:48,  3.35it/s] 31%|███       | 2426/7813 [12:24<27:59,  3.21it/s] 31%|███       | 2427/7813 [12:25<27:23,  3.28it/s] 31%|███       | 2428/7813 [12:25<27:50,  3.22it/s] 31%|███       | 2429/7813 [12:25<27:38,  3.25it/s] 31%|███       | 2430/7813 [12:26<27:36,  3.25it/s] 31%|███       | 2431/7813 [12:26<27:11,  3.30it/s] 31%|███       | 2432/7813 [12:26<27:37,  3.25it/s] 31%|███       | 2433/7813 [12:27<27:22,  3.27it/s] 31%|███       | 2434/7813 [12:27<27:03,  3.31it/s] 31%|███       | 2435/7813 [12:27<27:12,  3.29it/s] 31%|███       | 2436/7813 [12:27<26:42,  3.36it/s] 31%|███       | 2437/7813 [12:28<27:16,  3.29it/s] 31%|███       | 2438/7813 [12:28<27:10,  3.30it/s] 31%|███       | 2439/7813 [12:28<26:59,  3.32it/s] 31%|███       | 2440/7813 [12:29<27:04,  3.31it/s] 31%|███       | 2441/7813 [12:29<26:46,  3.34it/s] 31%|███▏      | 2442/7813 [12:29<26:41,  3.35it/s] 31%|███▏      | 2443/7813 [12:30<26:41,  3.35it/s] 31%|███▏      | 2444/7813 [12:30<26:55,  3.32it/s] 31%|███▏      | 2445/7813 [12:30<26:47,  3.34it/s] 31%|███▏      | 2446/7813 [12:30<26:45,  3.34it/s] 31%|███▏      | 2447/7813 [12:31<26:55,  3.32it/s] 31%|███▏      | 2448/7813 [12:31<26:47,  3.34it/s] 31%|███▏      | 2449/7813 [12:31<26:41,  3.35it/s] 31%|███▏      | 2450/7813 [12:32<26:33,  3.36it/s]                                                   {'loss': 0.0593, 'grad_norm': 0.3614375591278076, 'learning_rate': 6.865480609241009e-05, 'epoch': 0.31}
 31%|███▏      | 2450/7813 [12:32<26:33,  3.36it/s] 31%|███▏      | 2451/7813 [12:32<27:10,  3.29it/s] 31%|███▏      | 2452/7813 [12:32<26:51,  3.33it/s] 31%|███▏      | 2453/7813 [12:33<27:16,  3.27it/s] 31%|███▏      | 2454/7813 [12:33<27:07,  3.29it/s] 31%|███▏      | 2455/7813 [12:33<27:03,  3.30it/s] 31%|███▏      | 2456/7813 [12:33<27:27,  3.25it/s] 31%|███▏      | 2457/7813 [12:34<27:05,  3.29it/s] 31%|███▏      | 2458/7813 [12:34<27:25,  3.25it/s] 31%|███▏      | 2459/7813 [12:34<27:02,  3.30it/s] 31%|███▏      | 2460/7813 [12:35<27:22,  3.26it/s] 31%|███▏      | 2461/7813 [12:35<27:17,  3.27it/s] 32%|███▏      | 2462/7813 [12:35<27:02,  3.30it/s] 32%|███▏      | 2463/7813 [12:36<27:03,  3.29it/s] 32%|███▏      | 2464/7813 [12:36<26:56,  3.31it/s] 32%|███▏      | 2465/7813 [12:36<27:24,  3.25it/s] 32%|███▏      | 2466/7813 [12:37<27:04,  3.29it/s] 32%|███▏      | 2467/7813 [12:37<26:55,  3.31it/s] 32%|███▏      | 2468/7813 [12:37<26:45,  3.33it/s] 32%|███▏      | 2469/7813 [12:37<26:33,  3.35it/s] 32%|███▏      | 2470/7813 [12:38<26:41,  3.34it/s] 32%|███▏      | 2471/7813 [12:38<26:43,  3.33it/s] 32%|███▏      | 2472/7813 [12:38<26:42,  3.33it/s] 32%|███▏      | 2473/7813 [12:39<26:55,  3.31it/s] 32%|███▏      | 2474/7813 [12:39<26:53,  3.31it/s] 32%|███▏      | 2475/7813 [12:39<26:43,  3.33it/s] 32%|███▏      | 2476/7813 [12:39<26:32,  3.35it/s] 32%|███▏      | 2477/7813 [12:40<26:37,  3.34it/s] 32%|███▏      | 2478/7813 [12:40<26:25,  3.36it/s] 32%|███▏      | 2479/7813 [12:40<26:30,  3.35it/s] 32%|███▏      | 2480/7813 [12:41<26:31,  3.35it/s] 32%|███▏      | 2481/7813 [12:41<26:41,  3.33it/s] 32%|███▏      | 2482/7813 [12:41<26:35,  3.34it/s] 32%|███▏      | 2483/7813 [12:42<26:38,  3.33it/s] 32%|███▏      | 2484/7813 [12:42<27:35,  3.22it/s] 32%|███▏      | 2485/7813 [12:42<27:32,  3.22it/s] 32%|███▏      | 2486/7813 [12:43<27:03,  3.28it/s] 32%|███▏      | 2487/7813 [12:43<26:56,  3.29it/s] 32%|███▏      | 2488/7813 [12:43<26:39,  3.33it/s] 32%|███▏      | 2489/7813 [12:43<27:31,  3.22it/s] 32%|███▏      | 2490/7813 [12:44<27:07,  3.27it/s] 32%|███▏      | 2491/7813 [12:44<27:03,  3.28it/s] 32%|███▏      | 2492/7813 [12:44<26:46,  3.31it/s] 32%|███▏      | 2493/7813 [12:45<28:11,  3.15it/s] 32%|███▏      | 2494/7813 [12:45<27:46,  3.19it/s] 32%|███▏      | 2495/7813 [12:45<27:19,  3.24it/s] 32%|███▏      | 2496/7813 [12:46<26:59,  3.28it/s] 32%|███▏      | 2497/7813 [12:46<27:09,  3.26it/s] 32%|███▏      | 2498/7813 [12:46<26:47,  3.31it/s] 32%|███▏      | 2499/7813 [12:47<27:31,  3.22it/s] 32%|███▏      | 2500/7813 [12:47<27:13,  3.25it/s]                                                   {'loss': 0.053, 'grad_norm': 0.39375200867652893, 'learning_rate': 6.801484704978882e-05, 'epoch': 0.32}
 32%|███▏      | 2500/7813 [12:47<27:13,  3.25it/s] 32%|███▏      | 2501/7813 [12:47<26:55,  3.29it/s] 32%|███▏      | 2502/7813 [12:47<26:43,  3.31it/s] 32%|███▏      | 2503/7813 [12:48<26:27,  3.34it/s] 32%|███▏      | 2504/7813 [12:48<26:20,  3.36it/s] 32%|███▏      | 2505/7813 [12:48<26:17,  3.37it/s] 32%|███▏      | 2506/7813 [12:49<26:19,  3.36it/s] 32%|███▏      | 2507/7813 [12:49<26:08,  3.38it/s] 32%|███▏      | 2508/7813 [12:49<26:00,  3.40it/s] 32%|███▏      | 2509/7813 [12:50<26:30,  3.33it/s] 32%|███▏      | 2510/7813 [12:50<26:25,  3.34it/s] 32%|███▏      | 2511/7813 [12:50<26:29,  3.34it/s] 32%|███▏      | 2512/7813 [12:50<26:05,  3.39it/s] 32%|███▏      | 2513/7813 [12:51<26:28,  3.34it/s] 32%|███▏      | 2514/7813 [12:51<26:50,  3.29it/s] 32%|███▏      | 2515/7813 [12:51<27:31,  3.21it/s] 32%|███▏      | 2516/7813 [12:52<27:17,  3.24it/s] 32%|███▏      | 2517/7813 [12:52<27:08,  3.25it/s] 32%|███▏      | 2518/7813 [12:52<28:03,  3.14it/s] 32%|███▏      | 2519/7813 [12:53<27:29,  3.21it/s] 32%|███▏      | 2520/7813 [12:53<26:53,  3.28it/s] 32%|███▏      | 2521/7813 [12:53<26:40,  3.31it/s] 32%|███▏      | 2522/7813 [12:53<26:25,  3.34it/s] 32%|███▏      | 2523/7813 [12:54<26:21,  3.34it/s] 32%|███▏      | 2524/7813 [12:54<26:21,  3.34it/s] 32%|███▏      | 2525/7813 [12:54<26:37,  3.31it/s] 32%|███▏      | 2526/7813 [12:55<26:35,  3.31it/s] 32%|███▏      | 2527/7813 [12:55<26:35,  3.31it/s] 32%|███▏      | 2528/7813 [12:55<26:36,  3.31it/s] 32%|███▏      | 2529/7813 [12:56<26:21,  3.34it/s] 32%|███▏      | 2530/7813 [12:56<26:34,  3.31it/s] 32%|███▏      | 2531/7813 [12:56<26:51,  3.28it/s] 32%|███▏      | 2532/7813 [12:56<26:41,  3.30it/s] 32%|███▏      | 2533/7813 [12:57<26:24,  3.33it/s] 32%|███▏      | 2534/7813 [12:57<27:31,  3.20it/s] 32%|███▏      | 2535/7813 [12:57<27:30,  3.20it/s] 32%|███▏      | 2536/7813 [12:58<27:06,  3.24it/s] 32%|███▏      | 2537/7813 [12:58<26:51,  3.27it/s] 32%|███▏      | 2538/7813 [12:58<26:45,  3.29it/s] 32%|███▏      | 2539/7813 [12:59<26:45,  3.29it/s] 33%|███▎      | 2540/7813 [12:59<26:27,  3.32it/s] 33%|███▎      | 2541/7813 [12:59<26:23,  3.33it/s] 33%|███▎      | 2542/7813 [13:00<26:31,  3.31it/s] 33%|███▎      | 2543/7813 [13:00<26:25,  3.32it/s] 33%|███▎      | 2544/7813 [13:00<26:27,  3.32it/s] 33%|███▎      | 2545/7813 [13:00<26:25,  3.32it/s] 33%|███▎      | 2546/7813 [13:01<26:21,  3.33it/s] 33%|███▎      | 2547/7813 [13:01<26:11,  3.35it/s] 33%|███▎      | 2548/7813 [13:01<26:17,  3.34it/s] 33%|███▎      | 2549/7813 [13:02<26:23,  3.33it/s] 33%|███▎      | 2550/7813 [13:02<26:20,  3.33it/s]                                                   {'loss': 0.0519, 'grad_norm': 0.6038287878036499, 'learning_rate': 6.737488800716755e-05, 'epoch': 0.33}
 33%|███▎      | 2550/7813 [13:02<26:20,  3.33it/s] 33%|███▎      | 2551/7813 [13:02<27:23,  3.20it/s] 33%|███▎      | 2552/7813 [13:03<26:52,  3.26it/s] 33%|███▎      | 2553/7813 [13:03<26:43,  3.28it/s] 33%|███▎      | 2554/7813 [13:03<27:31,  3.19it/s] 33%|███▎      | 2555/7813 [13:04<27:49,  3.15it/s] 33%|███▎      | 2556/7813 [13:04<27:26,  3.19it/s] 33%|███▎      | 2557/7813 [13:04<27:09,  3.23it/s] 33%|███▎      | 2558/7813 [13:04<26:49,  3.27it/s] 33%|███▎      | 2559/7813 [13:05<26:22,  3.32it/s] 33%|███▎      | 2560/7813 [13:05<26:37,  3.29it/s] 33%|███▎      | 2561/7813 [13:05<26:29,  3.30it/s] 33%|███▎      | 2562/7813 [13:06<26:11,  3.34it/s] 33%|███▎      | 2563/7813 [13:06<26:12,  3.34it/s] 33%|███▎      | 2564/7813 [13:06<26:07,  3.35it/s] 33%|███▎      | 2565/7813 [13:07<25:54,  3.38it/s] 33%|███▎      | 2566/7813 [13:07<25:42,  3.40it/s] 33%|███▎      | 2567/7813 [13:07<25:43,  3.40it/s] 33%|███▎      | 2568/7813 [13:07<25:44,  3.40it/s] 33%|███▎      | 2569/7813 [13:08<25:39,  3.41it/s] 33%|███▎      | 2570/7813 [13:08<25:49,  3.38it/s] 33%|███▎      | 2571/7813 [13:08<25:50,  3.38it/s] 33%|███▎      | 2572/7813 [13:09<25:46,  3.39it/s] 33%|███▎      | 2573/7813 [13:09<26:24,  3.31it/s] 33%|███▎      | 2574/7813 [13:09<26:08,  3.34it/s] 33%|███▎      | 2575/7813 [13:09<26:05,  3.35it/s] 33%|███▎      | 2576/7813 [13:10<26:21,  3.31it/s] 33%|███▎      | 2577/7813 [13:10<26:30,  3.29it/s] 33%|███▎      | 2578/7813 [13:10<26:13,  3.33it/s] 33%|███▎      | 2579/7813 [13:11<26:05,  3.34it/s] 33%|███▎      | 2580/7813 [13:11<26:06,  3.34it/s] 33%|███▎      | 2581/7813 [13:11<26:02,  3.35it/s] 33%|███▎      | 2582/7813 [13:12<26:01,  3.35it/s] 33%|███▎      | 2583/7813 [13:12<26:11,  3.33it/s] 33%|███▎      | 2584/7813 [13:12<26:13,  3.32it/s] 33%|███▎      | 2585/7813 [13:12<26:01,  3.35it/s] 33%|███▎      | 2586/7813 [13:13<27:13,  3.20it/s] 33%|███▎      | 2587/7813 [13:13<26:56,  3.23it/s] 33%|███▎      | 2588/7813 [13:13<26:35,  3.27it/s] 33%|███▎      | 2589/7813 [13:14<26:42,  3.26it/s] 33%|███▎      | 2590/7813 [13:14<26:18,  3.31it/s] 33%|███▎      | 2591/7813 [13:14<26:24,  3.30it/s] 33%|███▎      | 2592/7813 [13:15<26:14,  3.32it/s] 33%|███▎      | 2593/7813 [13:15<26:14,  3.32it/s] 33%|███▎      | 2594/7813 [13:15<26:09,  3.33it/s] 33%|███▎      | 2595/7813 [13:16<26:07,  3.33it/s] 33%|███▎      | 2596/7813 [13:16<26:10,  3.32it/s] 33%|███▎      | 2597/7813 [13:16<26:06,  3.33it/s] 33%|███▎      | 2598/7813 [13:16<26:20,  3.30it/s] 33%|███▎      | 2599/7813 [13:17<26:13,  3.31it/s] 33%|███▎      | 2600/7813 [13:17<26:07,  3.33it/s]                                                   {'loss': 0.0512, 'grad_norm': 0.3634600341320038, 'learning_rate': 6.673492896454627e-05, 'epoch': 0.33}
 33%|███▎      | 2600/7813 [13:17<26:07,  3.33it/s] 33%|███▎      | 2601/7813 [13:17<26:29,  3.28it/s] 33%|███▎      | 2602/7813 [13:18<26:18,  3.30it/s] 33%|███▎      | 2603/7813 [13:18<26:17,  3.30it/s] 33%|███▎      | 2604/7813 [13:18<26:43,  3.25it/s] 33%|███▎      | 2605/7813 [13:19<26:21,  3.29it/s] 33%|███▎      | 2606/7813 [13:19<26:22,  3.29it/s] 33%|███▎      | 2607/7813 [13:19<26:29,  3.28it/s] 33%|███▎      | 2608/7813 [13:19<26:19,  3.29it/s] 33%|███▎      | 2609/7813 [13:20<26:07,  3.32it/s] 33%|███▎      | 2610/7813 [13:20<26:18,  3.30it/s] 33%|███▎      | 2611/7813 [13:20<26:18,  3.30it/s] 33%|███▎      | 2612/7813 [13:21<26:08,  3.32it/s] 33%|███▎      | 2613/7813 [13:21<27:19,  3.17it/s] 33%|███▎      | 2614/7813 [13:21<27:05,  3.20it/s] 33%|███▎      | 2615/7813 [13:22<27:04,  3.20it/s] 33%|███▎      | 2616/7813 [13:22<26:51,  3.22it/s] 33%|███▎      | 2617/7813 [13:22<26:41,  3.24it/s] 34%|███▎      | 2618/7813 [13:23<26:38,  3.25it/s] 34%|███▎      | 2619/7813 [13:23<26:24,  3.28it/s] 34%|███▎      | 2620/7813 [13:23<26:23,  3.28it/s] 34%|███▎      | 2621/7813 [13:23<26:20,  3.29it/s] 34%|███▎      | 2622/7813 [13:24<26:08,  3.31it/s] 34%|███▎      | 2623/7813 [13:24<26:10,  3.31it/s] 34%|███▎      | 2624/7813 [13:24<25:59,  3.33it/s] 34%|███▎      | 2625/7813 [13:25<26:00,  3.32it/s] 34%|███▎      | 2626/7813 [13:25<25:52,  3.34it/s] 34%|███▎      | 2627/7813 [13:25<25:56,  3.33it/s] 34%|███▎      | 2628/7813 [13:26<25:47,  3.35it/s] 34%|███▎      | 2629/7813 [13:26<25:50,  3.34it/s] 34%|███▎      | 2630/7813 [13:26<25:59,  3.32it/s] 34%|███▎      | 2631/7813 [13:26<26:02,  3.32it/s] 34%|███▎      | 2632/7813 [13:27<25:54,  3.33it/s] 34%|███▎      | 2633/7813 [13:27<26:02,  3.32it/s] 34%|███▎      | 2634/7813 [13:27<27:15,  3.17it/s] 34%|███▎      | 2635/7813 [13:28<26:57,  3.20it/s] 34%|███▎      | 2636/7813 [13:28<26:31,  3.25it/s] 34%|███▍      | 2637/7813 [13:28<26:18,  3.28it/s] 34%|███▍      | 2638/7813 [13:29<26:33,  3.25it/s] 34%|███▍      | 2639/7813 [13:29<26:12,  3.29it/s] 34%|███▍      | 2640/7813 [13:29<26:02,  3.31it/s] 34%|███▍      | 2641/7813 [13:30<26:01,  3.31it/s] 34%|███▍      | 2642/7813 [13:30<25:50,  3.33it/s] 34%|███▍      | 2643/7813 [13:30<25:51,  3.33it/s] 34%|███▍      | 2644/7813 [13:30<25:53,  3.33it/s] 34%|███▍      | 2645/7813 [13:31<25:51,  3.33it/s] 34%|███▍      | 2646/7813 [13:31<25:56,  3.32it/s] 34%|███▍      | 2647/7813 [13:31<25:47,  3.34it/s] 34%|███▍      | 2648/7813 [13:32<25:47,  3.34it/s] 34%|███▍      | 2649/7813 [13:32<25:44,  3.34it/s] 34%|███▍      | 2650/7813 [13:32<26:00,  3.31it/s]                                                   {'loss': 0.0491, 'grad_norm': 0.34713509678840637, 'learning_rate': 6.6094969921925e-05, 'epoch': 0.34}
 34%|███▍      | 2650/7813 [13:32<26:00,  3.31it/s] 34%|███▍      | 2651/7813 [13:33<25:59,  3.31it/s] 34%|███▍      | 2652/7813 [13:33<26:05,  3.30it/s] 34%|███▍      | 2653/7813 [13:33<26:11,  3.28it/s] 34%|███▍      | 2654/7813 [13:33<27:23,  3.14it/s] 34%|███▍      | 2655/7813 [13:34<27:18,  3.15it/s] 34%|███▍      | 2656/7813 [13:34<30:54,  2.78it/s] 34%|███▍      | 2657/7813 [13:35<29:39,  2.90it/s] 34%|███▍      | 2658/7813 [13:35<29:43,  2.89it/s] 34%|███▍      | 2659/7813 [13:35<29:01,  2.96it/s] 34%|███▍      | 2660/7813 [13:36<28:31,  3.01it/s] 34%|███▍      | 2661/7813 [13:36<28:20,  3.03it/s] 34%|███▍      | 2662/7813 [13:36<27:32,  3.12it/s] 34%|███▍      | 2663/7813 [13:37<27:48,  3.09it/s] 34%|███▍      | 2664/7813 [13:37<27:13,  3.15it/s] 34%|███▍      | 2665/7813 [13:37<26:38,  3.22it/s] 34%|███▍      | 2666/7813 [13:37<26:24,  3.25it/s] 34%|███▍      | 2667/7813 [13:38<26:36,  3.22it/s] 34%|███▍      | 2668/7813 [13:38<26:18,  3.26it/s] 34%|███▍      | 2669/7813 [13:38<27:08,  3.16it/s] 34%|███▍      | 2670/7813 [13:39<26:42,  3.21it/s] 34%|███▍      | 2671/7813 [13:39<26:25,  3.24it/s] 34%|███▍      | 2672/7813 [13:39<26:12,  3.27it/s] 34%|███▍      | 2673/7813 [13:40<26:09,  3.28it/s] 34%|███▍      | 2674/7813 [13:40<25:57,  3.30it/s] 34%|███▍      | 2675/7813 [13:40<26:04,  3.28it/s] 34%|███▍      | 2676/7813 [13:40<26:07,  3.28it/s] 34%|███▍      | 2677/7813 [13:41<26:51,  3.19it/s] 34%|███▍      | 2678/7813 [13:41<26:22,  3.24it/s] 34%|███▍      | 2679/7813 [13:41<26:04,  3.28it/s] 34%|███▍      | 2680/7813 [13:42<26:00,  3.29it/s] 34%|███▍      | 2681/7813 [13:42<25:54,  3.30it/s] 34%|███▍      | 2682/7813 [13:42<25:47,  3.31it/s] 34%|███▍      | 2683/7813 [13:43<25:49,  3.31it/s] 34%|███▍      | 2684/7813 [13:43<25:49,  3.31it/s] 34%|███▍      | 2685/7813 [13:43<26:05,  3.28it/s] 34%|███▍      | 2686/7813 [13:44<27:05,  3.15it/s] 34%|███▍      | 2687/7813 [13:44<26:36,  3.21it/s] 34%|███▍      | 2688/7813 [13:44<26:20,  3.24it/s] 34%|███▍      | 2689/7813 [13:45<26:35,  3.21it/s] 34%|███▍      | 2690/7813 [13:45<26:24,  3.23it/s] 34%|███▍      | 2691/7813 [13:45<26:13,  3.25it/s] 34%|███▍      | 2692/7813 [13:45<25:53,  3.30it/s] 34%|███▍      | 2693/7813 [13:46<25:41,  3.32it/s] 34%|███▍      | 2694/7813 [13:46<25:32,  3.34it/s] 34%|███▍      | 2695/7813 [13:46<25:54,  3.29it/s] 35%|███▍      | 2696/7813 [13:47<25:45,  3.31it/s] 35%|███▍      | 2697/7813 [13:47<25:32,  3.34it/s] 35%|███▍      | 2698/7813 [13:47<25:57,  3.28it/s] 35%|███▍      | 2699/7813 [13:48<25:29,  3.34it/s] 35%|███▍      | 2700/7813 [13:48<25:25,  3.35it/s]                                                   {'loss': 0.0503, 'grad_norm': 0.30304235219955444, 'learning_rate': 6.545501087930373e-05, 'epoch': 0.35}
 35%|███▍      | 2700/7813 [13:48<25:25,  3.35it/s] 35%|███▍      | 2701/7813 [13:48<25:16,  3.37it/s] 35%|███▍      | 2702/7813 [13:48<25:00,  3.41it/s] 35%|███▍      | 2703/7813 [13:49<25:11,  3.38it/s] 35%|███▍      | 2704/7813 [13:49<25:18,  3.36it/s] 35%|███▍      | 2705/7813 [13:49<25:18,  3.36it/s] 35%|███▍      | 2706/7813 [13:50<25:36,  3.32it/s] 35%|███▍      | 2707/7813 [13:50<25:19,  3.36it/s] 35%|███▍      | 2708/7813 [13:50<26:11,  3.25it/s] 35%|███▍      | 2709/7813 [13:51<26:06,  3.26it/s] 35%|███▍      | 2710/7813 [13:51<26:12,  3.24it/s] 35%|███▍      | 2711/7813 [13:51<25:52,  3.29it/s] 35%|███▍      | 2712/7813 [13:51<25:30,  3.33it/s] 35%|███▍      | 2713/7813 [13:52<25:27,  3.34it/s] 35%|███▍      | 2714/7813 [13:52<26:23,  3.22it/s] 35%|███▍      | 2715/7813 [13:52<26:03,  3.26it/s] 35%|███▍      | 2716/7813 [13:53<26:33,  3.20it/s] 35%|███▍      | 2717/7813 [13:53<25:55,  3.28it/s] 35%|███▍      | 2718/7813 [13:53<25:40,  3.31it/s] 35%|███▍      | 2719/7813 [13:54<25:25,  3.34it/s] 35%|███▍      | 2720/7813 [13:54<25:15,  3.36it/s] 35%|███▍      | 2721/7813 [13:54<25:20,  3.35it/s] 35%|███▍      | 2722/7813 [13:54<25:25,  3.34it/s] 35%|███▍      | 2723/7813 [13:55<25:51,  3.28it/s] 35%|███▍      | 2724/7813 [13:55<25:44,  3.30it/s] 35%|███▍      | 2725/7813 [13:55<25:43,  3.30it/s] 35%|███▍      | 2726/7813 [13:56<25:26,  3.33it/s] 35%|███▍      | 2727/7813 [13:56<25:34,  3.31it/s] 35%|███▍      | 2728/7813 [13:56<25:21,  3.34it/s] 35%|███▍      | 2729/7813 [13:57<25:01,  3.39it/s] 35%|███▍      | 2730/7813 [13:57<26:03,  3.25it/s] 35%|███▍      | 2731/7813 [13:57<26:02,  3.25it/s] 35%|███▍      | 2732/7813 [13:57<25:43,  3.29it/s] 35%|███▍      | 2733/7813 [13:58<25:23,  3.33it/s] 35%|███▍      | 2734/7813 [13:58<25:18,  3.34it/s] 35%|███▌      | 2735/7813 [13:58<25:24,  3.33it/s] 35%|███▌      | 2736/7813 [13:59<25:24,  3.33it/s] 35%|███▌      | 2737/7813 [13:59<25:31,  3.31it/s] 35%|███▌      | 2738/7813 [13:59<25:23,  3.33it/s] 35%|███▌      | 2739/7813 [14:00<25:22,  3.33it/s] 35%|███▌      | 2740/7813 [14:00<25:17,  3.34it/s] 35%|███▌      | 2741/7813 [14:00<25:18,  3.34it/s] 35%|███▌      | 2742/7813 [14:00<25:26,  3.32it/s] 35%|███▌      | 2743/7813 [14:01<25:31,  3.31it/s] 35%|███▌      | 2744/7813 [14:01<25:30,  3.31it/s] 35%|███▌      | 2745/7813 [14:01<25:27,  3.32it/s] 35%|███▌      | 2746/7813 [14:02<25:22,  3.33it/s] 35%|███▌      | 2747/7813 [14:02<25:26,  3.32it/s] 35%|███▌      | 2748/7813 [14:02<25:30,  3.31it/s] 35%|███▌      | 2749/7813 [14:03<25:37,  3.29it/s] 35%|███▌      | 2750/7813 [14:03<25:42,  3.28it/s]                                                   {'loss': 0.0481, 'grad_norm': 0.7619096636772156, 'learning_rate': 6.481505183668244e-05, 'epoch': 0.35}
 35%|███▌      | 2750/7813 [14:03<25:42,  3.28it/s] 35%|███▌      | 2751/7813 [14:03<25:51,  3.26it/s] 35%|███▌      | 2752/7813 [14:04<25:46,  3.27it/s] 35%|███▌      | 2753/7813 [14:04<26:12,  3.22it/s] 35%|███▌      | 2754/7813 [14:04<26:17,  3.21it/s] 35%|███▌      | 2755/7813 [14:04<25:46,  3.27it/s] 35%|███▌      | 2756/7813 [14:05<25:35,  3.29it/s] 35%|███▌      | 2757/7813 [14:05<25:37,  3.29it/s] 35%|███▌      | 2758/7813 [14:05<25:35,  3.29it/s] 35%|███▌      | 2759/7813 [14:06<25:38,  3.29it/s] 35%|███▌      | 2760/7813 [14:06<25:28,  3.31it/s] 35%|███▌      | 2761/7813 [14:06<26:26,  3.18it/s] 35%|███▌      | 2762/7813 [14:07<26:06,  3.22it/s] 35%|███▌      | 2763/7813 [14:07<26:44,  3.15it/s] 35%|███▌      | 2764/7813 [14:07<26:27,  3.18it/s] 35%|███▌      | 2765/7813 [14:08<26:00,  3.23it/s] 35%|███▌      | 2766/7813 [14:08<25:35,  3.29it/s] 35%|███▌      | 2767/7813 [14:08<25:29,  3.30it/s] 35%|███▌      | 2768/7813 [14:08<25:28,  3.30it/s] 35%|███▌      | 2769/7813 [14:09<25:18,  3.32it/s] 35%|███▌      | 2770/7813 [14:09<25:05,  3.35it/s] 35%|███▌      | 2771/7813 [14:09<24:56,  3.37it/s] 35%|███▌      | 2772/7813 [14:10<24:48,  3.39it/s] 35%|███▌      | 2773/7813 [14:10<24:56,  3.37it/s] 36%|███▌      | 2774/7813 [14:10<25:04,  3.35it/s] 36%|███▌      | 2775/7813 [14:10<24:59,  3.36it/s] 36%|███▌      | 2776/7813 [14:11<25:21,  3.31it/s] 36%|███▌      | 2777/7813 [14:11<25:55,  3.24it/s] 36%|███▌      | 2778/7813 [14:11<25:30,  3.29it/s] 36%|███▌      | 2779/7813 [14:12<25:10,  3.33it/s] 36%|███▌      | 2780/7813 [14:12<24:58,  3.36it/s] 36%|███▌      | 2781/7813 [14:12<24:54,  3.37it/s] 36%|███▌      | 2782/7813 [14:13<25:22,  3.30it/s] 36%|███▌      | 2783/7813 [14:13<25:12,  3.33it/s] 36%|███▌      | 2784/7813 [14:13<24:56,  3.36it/s] 36%|███▌      | 2785/7813 [14:14<25:15,  3.32it/s] 36%|███▌      | 2786/7813 [14:14<25:20,  3.31it/s] 36%|███▌      | 2787/7813 [14:14<25:19,  3.31it/s] 36%|███▌      | 2788/7813 [14:14<25:16,  3.31it/s] 36%|███▌      | 2789/7813 [14:15<25:20,  3.30it/s] 36%|███▌      | 2790/7813 [14:15<25:18,  3.31it/s] 36%|███▌      | 2791/7813 [14:15<25:35,  3.27it/s] 36%|███▌      | 2792/7813 [14:16<25:30,  3.28it/s] 36%|███▌      | 2793/7813 [14:16<25:26,  3.29it/s] 36%|███▌      | 2794/7813 [14:16<25:59,  3.22it/s] 36%|███▌      | 2795/7813 [14:17<25:31,  3.28it/s] 36%|███▌      | 2796/7813 [14:17<25:32,  3.27it/s] 36%|███▌      | 2797/7813 [14:17<25:19,  3.30it/s] 36%|███▌      | 2798/7813 [14:17<25:04,  3.33it/s] 36%|███▌      | 2799/7813 [14:18<24:51,  3.36it/s] 36%|███▌      | 2800/7813 [14:18<25:08,  3.32it/s]                                                   {'loss': 0.0457, 'grad_norm': 0.698153555393219, 'learning_rate': 6.417509279406119e-05, 'epoch': 0.36}
 36%|███▌      | 2800/7813 [14:18<25:08,  3.32it/s] 36%|███▌      | 2801/7813 [14:18<24:58,  3.34it/s] 36%|███▌      | 2802/7813 [14:19<25:53,  3.23it/s] 36%|███▌      | 2803/7813 [14:19<26:45,  3.12it/s] 36%|███▌      | 2804/7813 [14:19<26:12,  3.18it/s] 36%|███▌      | 2805/7813 [14:20<25:41,  3.25it/s] 36%|███▌      | 2806/7813 [14:20<25:25,  3.28it/s] 36%|███▌      | 2807/7813 [14:20<25:38,  3.25it/s] 36%|███▌      | 2808/7813 [14:21<25:35,  3.26it/s] 36%|███▌      | 2809/7813 [14:21<25:26,  3.28it/s] 36%|███▌      | 2810/7813 [14:21<25:26,  3.28it/s] 36%|███▌      | 2811/7813 [14:21<25:19,  3.29it/s] 36%|███▌      | 2812/7813 [14:22<25:40,  3.25it/s] 36%|███▌      | 2813/7813 [14:22<25:43,  3.24it/s] 36%|███▌      | 2814/7813 [14:22<25:37,  3.25it/s] 36%|███▌      | 2815/7813 [14:23<25:33,  3.26it/s] 36%|███▌      | 2816/7813 [14:23<26:22,  3.16it/s] 36%|███▌      | 2817/7813 [14:23<26:29,  3.14it/s] 36%|███▌      | 2818/7813 [14:24<26:09,  3.18it/s] 36%|███▌      | 2819/7813 [14:24<25:40,  3.24it/s] 36%|███▌      | 2820/7813 [14:24<25:25,  3.27it/s] 36%|███▌      | 2821/7813 [14:25<25:18,  3.29it/s] 36%|███▌      | 2822/7813 [14:25<25:00,  3.33it/s] 36%|███▌      | 2823/7813 [14:25<25:46,  3.23it/s] 36%|███▌      | 2824/7813 [14:25<25:17,  3.29it/s] 36%|███▌      | 2825/7813 [14:26<25:00,  3.32it/s] 36%|███▌      | 2826/7813 [14:26<26:02,  3.19it/s] 36%|███▌      | 2827/7813 [14:26<25:33,  3.25it/s] 36%|███▌      | 2828/7813 [14:27<25:16,  3.29it/s] 36%|███▌      | 2829/7813 [14:27<24:56,  3.33it/s] 36%|███▌      | 2830/7813 [14:27<24:54,  3.33it/s] 36%|███▌      | 2831/7813 [14:28<24:40,  3.36it/s] 36%|███▌      | 2832/7813 [14:28<24:44,  3.36it/s] 36%|███▋      | 2833/7813 [14:28<24:57,  3.33it/s] 36%|███▋      | 2834/7813 [14:28<24:43,  3.36it/s] 36%|███▋      | 2835/7813 [14:29<24:43,  3.36it/s] 36%|███▋      | 2836/7813 [14:29<24:27,  3.39it/s] 36%|███▋      | 2837/7813 [14:29<25:05,  3.31it/s] 36%|███▋      | 2838/7813 [14:30<25:35,  3.24it/s] 36%|███▋      | 2839/7813 [14:30<25:24,  3.26it/s] 36%|███▋      | 2840/7813 [14:30<25:04,  3.31it/s] 36%|███▋      | 2841/7813 [14:31<24:46,  3.35it/s] 36%|███▋      | 2842/7813 [14:31<24:49,  3.34it/s] 36%|███▋      | 2843/7813 [14:31<24:39,  3.36it/s] 36%|███▋      | 2844/7813 [14:31<24:29,  3.38it/s] 36%|███▋      | 2845/7813 [14:32<24:25,  3.39it/s] 36%|███▋      | 2846/7813 [14:32<24:28,  3.38it/s] 36%|███▋      | 2847/7813 [14:32<24:41,  3.35it/s] 36%|███▋      | 2848/7813 [14:33<24:28,  3.38it/s] 36%|███▋      | 2849/7813 [14:33<24:15,  3.41it/s] 36%|███▋      | 2850/7813 [14:33<24:25,  3.39it/s]                                                   {'loss': 0.045, 'grad_norm': 0.4117757976055145, 'learning_rate': 6.353513375143992e-05, 'epoch': 0.36}
 36%|███▋      | 2850/7813 [14:33<24:25,  3.39it/s] 36%|███▋      | 2851/7813 [14:34<24:30,  3.37it/s] 37%|███▋      | 2852/7813 [14:34<24:29,  3.38it/s] 37%|███▋      | 2853/7813 [14:34<25:17,  3.27it/s] 37%|███▋      | 2854/7813 [14:34<25:07,  3.29it/s] 37%|███▋      | 2855/7813 [14:35<24:49,  3.33it/s] 37%|███▋      | 2856/7813 [14:35<24:42,  3.34it/s] 37%|███▋      | 2857/7813 [14:35<24:38,  3.35it/s] 37%|███▋      | 2858/7813 [14:36<24:55,  3.31it/s] 37%|███▋      | 2859/7813 [14:36<24:36,  3.35it/s] 37%|███▋      | 2860/7813 [14:36<24:35,  3.36it/s] 37%|███▋      | 2861/7813 [14:37<24:28,  3.37it/s] 37%|███▋      | 2862/7813 [14:37<24:24,  3.38it/s] 37%|███▋      | 2863/7813 [14:37<24:30,  3.37it/s] 37%|███▋      | 2864/7813 [14:37<24:20,  3.39it/s] 37%|███▋      | 2865/7813 [14:38<24:26,  3.37it/s] 37%|███▋      | 2866/7813 [14:38<24:51,  3.32it/s] 37%|███▋      | 2867/7813 [14:38<25:49,  3.19it/s] 37%|███▋      | 2868/7813 [14:39<25:19,  3.25it/s] 37%|███▋      | 2869/7813 [14:39<25:19,  3.25it/s] 37%|███▋      | 2870/7813 [14:39<24:55,  3.31it/s] 37%|███▋      | 2871/7813 [14:40<24:47,  3.32it/s] 37%|███▋      | 2872/7813 [14:40<24:54,  3.31it/s] 37%|███▋      | 2873/7813 [14:40<24:51,  3.31it/s] 37%|███▋      | 2874/7813 [14:41<25:33,  3.22it/s] 37%|███▋      | 2875/7813 [14:41<25:10,  3.27it/s] 37%|███▋      | 2876/7813 [14:41<25:08,  3.27it/s] 37%|███▋      | 2877/7813 [14:41<24:52,  3.31it/s] 37%|███▋      | 2878/7813 [14:42<24:52,  3.31it/s] 37%|███▋      | 2879/7813 [14:42<24:50,  3.31it/s] 37%|███▋      | 2880/7813 [14:42<24:50,  3.31it/s] 37%|███▋      | 2881/7813 [14:43<24:57,  3.29it/s] 37%|███▋      | 2882/7813 [14:43<24:52,  3.30it/s] 37%|███▋      | 2883/7813 [14:43<24:36,  3.34it/s] 37%|███▋      | 2884/7813 [14:44<24:24,  3.36it/s] 37%|███▋      | 2885/7813 [14:44<24:22,  3.37it/s] 37%|███▋      | 2886/7813 [14:44<24:20,  3.37it/s] 37%|███▋      | 2887/7813 [14:44<24:14,  3.39it/s] 37%|███▋      | 2888/7813 [14:45<24:10,  3.40it/s] 37%|███▋      | 2889/7813 [14:45<25:25,  3.23it/s] 37%|███▋      | 2890/7813 [14:45<25:35,  3.21it/s] 37%|███▋      | 2891/7813 [14:46<25:07,  3.26it/s] 37%|███▋      | 2892/7813 [14:46<25:01,  3.28it/s] 37%|███▋      | 2893/7813 [14:46<24:46,  3.31it/s] 37%|███▋      | 2894/7813 [14:47<24:33,  3.34it/s] 37%|███▋      | 2895/7813 [14:47<24:20,  3.37it/s] 37%|███▋      | 2896/7813 [14:47<24:25,  3.35it/s] 37%|███▋      | 2897/7813 [14:47<24:26,  3.35it/s] 37%|███▋      | 2898/7813 [14:48<24:21,  3.36it/s] 37%|███▋      | 2899/7813 [14:48<24:42,  3.32it/s] 37%|███▋      | 2900/7813 [14:48<24:32,  3.34it/s]                                                   {'loss': 0.0431, 'grad_norm': 0.29982441663742065, 'learning_rate': 6.289517470881863e-05, 'epoch': 0.37}
 37%|███▋      | 2900/7813 [14:48<24:32,  3.34it/s] 37%|███▋      | 2901/7813 [14:49<24:38,  3.32it/s] 37%|███▋      | 2902/7813 [14:49<24:29,  3.34it/s] 37%|███▋      | 2903/7813 [14:49<24:23,  3.36it/s] 37%|███▋      | 2904/7813 [14:50<24:10,  3.38it/s] 37%|███▋      | 2905/7813 [14:50<24:10,  3.38it/s] 37%|███▋      | 2906/7813 [14:50<24:04,  3.40it/s] 37%|███▋      | 2907/7813 [14:50<24:13,  3.38it/s] 37%|███▋      | 2908/7813 [14:51<24:12,  3.38it/s] 37%|███▋      | 2909/7813 [14:51<24:11,  3.38it/s] 37%|███▋      | 2910/7813 [14:51<24:16,  3.37it/s] 37%|███▋      | 2911/7813 [14:52<24:22,  3.35it/s] 37%|███▋      | 2912/7813 [14:52<24:21,  3.35it/s] 37%|███▋      | 2913/7813 [14:52<24:18,  3.36it/s] 37%|███▋      | 2914/7813 [14:52<24:10,  3.38it/s] 37%|███▋      | 2915/7813 [14:53<24:10,  3.38it/s] 37%|███▋      | 2916/7813 [14:53<24:08,  3.38it/s] 37%|███▋      | 2917/7813 [14:53<24:10,  3.38it/s] 37%|███▋      | 2918/7813 [14:54<24:15,  3.36it/s] 37%|███▋      | 2919/7813 [14:54<24:14,  3.37it/s] 37%|███▋      | 2920/7813 [14:54<24:15,  3.36it/s] 37%|███▋      | 2921/7813 [14:55<24:15,  3.36it/s] 37%|███▋      | 2922/7813 [14:55<24:10,  3.37it/s] 37%|███▋      | 2923/7813 [14:55<24:10,  3.37it/s] 37%|███▋      | 2924/7813 [14:55<24:24,  3.34it/s] 37%|███▋      | 2925/7813 [14:56<24:31,  3.32it/s] 37%|███▋      | 2926/7813 [14:56<24:29,  3.33it/s] 37%|███▋      | 2927/7813 [14:56<24:21,  3.34it/s] 37%|███▋      | 2928/7813 [14:57<24:19,  3.35it/s] 37%|███▋      | 2929/7813 [14:57<24:22,  3.34it/s] 38%|███▊      | 2930/7813 [14:57<24:24,  3.34it/s] 38%|███▊      | 2931/7813 [14:58<24:20,  3.34it/s] 38%|███▊      | 2932/7813 [14:58<24:07,  3.37it/s] 38%|███▊      | 2933/7813 [14:58<24:10,  3.36it/s] 38%|███▊      | 2934/7813 [14:58<24:38,  3.30it/s] 38%|███▊      | 2935/7813 [14:59<24:34,  3.31it/s] 38%|███▊      | 2936/7813 [14:59<24:30,  3.32it/s] 38%|███▊      | 2937/7813 [14:59<24:38,  3.30it/s] 38%|███▊      | 2938/7813 [15:00<24:33,  3.31it/s] 38%|███▊      | 2939/7813 [15:00<24:36,  3.30it/s] 38%|███▊      | 2940/7813 [15:00<24:47,  3.28it/s] 38%|███▊      | 2941/7813 [15:01<24:36,  3.30it/s] 38%|███▊      | 2942/7813 [15:01<24:24,  3.32it/s] 38%|███▊      | 2943/7813 [15:01<24:31,  3.31it/s] 38%|███▊      | 2944/7813 [15:01<24:17,  3.34it/s] 38%|███▊      | 2945/7813 [15:02<24:07,  3.36it/s] 38%|███▊      | 2946/7813 [15:02<24:14,  3.35it/s] 38%|███▊      | 2947/7813 [15:02<24:04,  3.37it/s] 38%|███▊      | 2948/7813 [15:03<24:03,  3.37it/s] 38%|███▊      | 2949/7813 [15:03<24:05,  3.36it/s] 38%|███▊      | 2950/7813 [15:03<23:51,  3.40it/s]                                                   {'loss': 0.0419, 'grad_norm': 0.366071879863739, 'learning_rate': 6.225521566619736e-05, 'epoch': 0.38}
 38%|███▊      | 2950/7813 [15:03<23:51,  3.40it/s] 38%|███▊      | 2951/7813 [15:04<23:58,  3.38it/s] 38%|███▊      | 2952/7813 [15:04<23:51,  3.40it/s] 38%|███▊      | 2953/7813 [15:04<24:15,  3.34it/s] 38%|███▊      | 2954/7813 [15:04<24:07,  3.36it/s] 38%|███▊      | 2955/7813 [15:05<24:04,  3.36it/s] 38%|███▊      | 2956/7813 [15:05<24:02,  3.37it/s] 38%|███▊      | 2957/7813 [15:05<23:57,  3.38it/s] 38%|███▊      | 2958/7813 [15:06<23:55,  3.38it/s] 38%|███▊      | 2959/7813 [15:06<24:01,  3.37it/s] 38%|███▊      | 2960/7813 [15:06<23:50,  3.39it/s] 38%|███▊      | 2961/7813 [15:06<23:43,  3.41it/s] 38%|███▊      | 2962/7813 [15:07<23:56,  3.38it/s] 38%|███▊      | 2963/7813 [15:07<23:56,  3.38it/s] 38%|███▊      | 2964/7813 [15:07<24:03,  3.36it/s] 38%|███▊      | 2965/7813 [15:08<23:58,  3.37it/s] 38%|███▊      | 2966/7813 [15:08<23:58,  3.37it/s] 38%|███▊      | 2967/7813 [15:08<23:52,  3.38it/s] 38%|███▊      | 2968/7813 [15:09<23:58,  3.37it/s] 38%|███▊      | 2969/7813 [15:09<23:47,  3.39it/s] 38%|███▊      | 2970/7813 [15:09<24:13,  3.33it/s] 38%|███▊      | 2971/7813 [15:09<24:05,  3.35it/s] 38%|███▊      | 2972/7813 [15:10<23:58,  3.37it/s] 38%|███▊      | 2973/7813 [15:10<23:54,  3.37it/s] 38%|███▊      | 2974/7813 [15:10<24:02,  3.36it/s] 38%|███▊      | 2975/7813 [15:11<24:13,  3.33it/s] 38%|███▊      | 2976/7813 [15:11<24:06,  3.34it/s] 38%|███▊      | 2977/7813 [15:12<29:57,  2.69it/s] 38%|███▊      | 2978/7813 [15:12<29:08,  2.76it/s] 38%|███▊      | 2979/7813 [15:12<27:30,  2.93it/s] 38%|███▊      | 2980/7813 [15:12<27:20,  2.95it/s] 38%|███▊      | 2981/7813 [15:13<26:47,  3.01it/s] 38%|███▊      | 2982/7813 [15:13<26:05,  3.09it/s] 38%|███▊      | 2983/7813 [15:13<25:23,  3.17it/s] 38%|███▊      | 2984/7813 [15:14<26:04,  3.09it/s] 38%|███▊      | 2985/7813 [15:14<25:44,  3.12it/s] 38%|███▊      | 2986/7813 [15:14<25:09,  3.20it/s] 38%|███▊      | 2987/7813 [15:15<24:45,  3.25it/s] 38%|███▊      | 2988/7813 [15:15<24:28,  3.29it/s] 38%|███▊      | 2989/7813 [15:15<24:17,  3.31it/s] 38%|███▊      | 2990/7813 [15:16<23:59,  3.35it/s] 38%|███▊      | 2991/7813 [15:16<25:26,  3.16it/s] 38%|███▊      | 2992/7813 [15:16<25:40,  3.13it/s] 38%|███▊      | 2993/7813 [15:17<25:13,  3.19it/s] 38%|███▊      | 2994/7813 [15:17<24:45,  3.24it/s] 38%|███▊      | 2995/7813 [15:17<24:36,  3.26it/s] 38%|███▊      | 2996/7813 [15:17<24:37,  3.26it/s] 38%|███▊      | 2997/7813 [15:18<24:32,  3.27it/s] 38%|███▊      | 2998/7813 [15:18<24:42,  3.25it/s] 38%|███▊      | 2999/7813 [15:18<24:30,  3.27it/s] 38%|███▊      | 3000/7813 [15:19<24:22,  3.29it/s]                                                   {'loss': 0.0425, 'grad_norm': 0.3211935758590698, 'learning_rate': 6.16152566235761e-05, 'epoch': 0.38}
 38%|███▊      | 3000/7813 [15:19<24:22,  3.29it/s] 38%|███▊      | 3001/7813 [15:19<24:18,  3.30it/s] 38%|███▊      | 3002/7813 [15:19<25:06,  3.19it/s] 38%|███▊      | 3003/7813 [15:20<24:49,  3.23it/s] 38%|███▊      | 3004/7813 [15:20<24:19,  3.29it/s] 38%|███▊      | 3005/7813 [15:20<24:07,  3.32it/s] 38%|███▊      | 3006/7813 [15:20<23:58,  3.34it/s] 38%|███▊      | 3007/7813 [15:21<23:55,  3.35it/s] 38%|███▊      | 3008/7813 [15:21<23:50,  3.36it/s] 39%|███▊      | 3009/7813 [15:21<23:57,  3.34it/s] 39%|███▊      | 3010/7813 [15:22<23:41,  3.38it/s] 39%|███▊      | 3011/7813 [15:22<23:52,  3.35it/s] 39%|███▊      | 3012/7813 [15:22<24:03,  3.32it/s] 39%|███▊      | 3013/7813 [15:23<23:53,  3.35it/s] 39%|███▊      | 3014/7813 [15:23<24:53,  3.21it/s] 39%|███▊      | 3015/7813 [15:23<24:22,  3.28it/s] 39%|███▊      | 3016/7813 [15:23<24:04,  3.32it/s] 39%|███▊      | 3017/7813 [15:24<23:49,  3.35it/s] 39%|███▊      | 3018/7813 [15:24<23:47,  3.36it/s] 39%|███▊      | 3019/7813 [15:24<23:47,  3.36it/s] 39%|███▊      | 3020/7813 [15:25<24:50,  3.22it/s] 39%|███▊      | 3021/7813 [15:25<25:03,  3.19it/s] 39%|███▊      | 3022/7813 [15:25<24:50,  3.21it/s] 39%|███▊      | 3023/7813 [15:26<24:28,  3.26it/s] 39%|███▊      | 3024/7813 [15:26<24:16,  3.29it/s] 39%|███▊      | 3025/7813 [15:26<24:11,  3.30it/s] 39%|███▊      | 3026/7813 [15:27<25:15,  3.16it/s] 39%|███▊      | 3027/7813 [15:27<24:41,  3.23it/s] 39%|███▉      | 3028/7813 [15:27<24:29,  3.26it/s] 39%|███▉      | 3029/7813 [15:27<24:08,  3.30it/s] 39%|███▉      | 3030/7813 [15:28<23:57,  3.33it/s] 39%|███▉      | 3031/7813 [15:28<23:49,  3.34it/s] 39%|███▉      | 3032/7813 [15:28<23:41,  3.36it/s] 39%|███▉      | 3033/7813 [15:29<23:37,  3.37it/s] 39%|███▉      | 3034/7813 [15:29<23:32,  3.38it/s] 39%|███▉      | 3035/7813 [15:29<23:32,  3.38it/s] 39%|███▉      | 3036/7813 [15:30<23:27,  3.39it/s] 39%|███▉      | 3037/7813 [15:30<23:40,  3.36it/s] 39%|███▉      | 3038/7813 [15:30<23:50,  3.34it/s] 39%|███▉      | 3039/7813 [15:30<24:29,  3.25it/s] 39%|███▉      | 3040/7813 [15:31<24:29,  3.25it/s] 39%|███▉      | 3041/7813 [15:31<24:28,  3.25it/s] 39%|███▉      | 3042/7813 [15:31<24:07,  3.30it/s] 39%|███▉      | 3043/7813 [15:32<23:59,  3.31it/s] 39%|███▉      | 3044/7813 [15:32<23:52,  3.33it/s] 39%|███▉      | 3045/7813 [15:32<23:54,  3.32it/s] 39%|███▉      | 3046/7813 [15:33<24:35,  3.23it/s] 39%|███▉      | 3047/7813 [15:33<24:32,  3.24it/s] 39%|███▉      | 3048/7813 [15:33<24:17,  3.27it/s] 39%|███▉      | 3049/7813 [15:33<24:03,  3.30it/s] 39%|███▉      | 3050/7813 [15:34<23:58,  3.31it/s]                                                   {'loss': 0.0377, 'grad_norm': 0.32291123270988464, 'learning_rate': 6.0975297580954824e-05, 'epoch': 0.39}
 39%|███▉      | 3050/7813 [15:34<23:58,  3.31it/s] 39%|███▉      | 3051/7813 [15:34<23:51,  3.33it/s] 39%|███▉      | 3052/7813 [15:34<23:45,  3.34it/s] 39%|███▉      | 3053/7813 [15:35<23:46,  3.34it/s] 39%|███▉      | 3054/7813 [15:35<24:03,  3.30it/s] 39%|███▉      | 3055/7813 [15:35<24:02,  3.30it/s] 39%|███▉      | 3056/7813 [15:36<24:39,  3.22it/s] 39%|███▉      | 3057/7813 [15:36<24:39,  3.21it/s] 39%|███▉      | 3058/7813 [15:36<24:18,  3.26it/s] 39%|███▉      | 3059/7813 [15:37<24:01,  3.30it/s] 39%|███▉      | 3060/7813 [15:37<23:39,  3.35it/s] 39%|███▉      | 3061/7813 [15:37<24:02,  3.29it/s] 39%|███▉      | 3062/7813 [15:37<23:52,  3.32it/s] 39%|███▉      | 3063/7813 [15:38<23:42,  3.34it/s] 39%|███▉      | 3064/7813 [15:38<23:36,  3.35it/s] 39%|███▉      | 3065/7813 [15:38<23:28,  3.37it/s] 39%|███▉      | 3066/7813 [15:39<23:52,  3.31it/s] 39%|███▉      | 3067/7813 [15:39<23:43,  3.34it/s] 39%|███▉      | 3068/7813 [15:39<23:38,  3.34it/s] 39%|███▉      | 3069/7813 [15:40<23:36,  3.35it/s] 39%|███▉      | 3070/7813 [15:40<23:39,  3.34it/s] 39%|███▉      | 3071/7813 [15:40<23:39,  3.34it/s] 39%|███▉      | 3072/7813 [15:40<23:31,  3.36it/s] 39%|███▉      | 3073/7813 [15:41<23:36,  3.35it/s] 39%|███▉      | 3074/7813 [15:41<23:21,  3.38it/s] 39%|███▉      | 3075/7813 [15:41<23:13,  3.40it/s] 39%|███▉      | 3076/7813 [15:42<23:22,  3.38it/s] 39%|███▉      | 3077/7813 [15:42<23:33,  3.35it/s] 39%|███▉      | 3078/7813 [15:42<23:36,  3.34it/s] 39%|███▉      | 3079/7813 [15:42<23:35,  3.34it/s] 39%|███▉      | 3080/7813 [15:43<23:28,  3.36it/s] 39%|███▉      | 3081/7813 [15:43<23:32,  3.35it/s] 39%|███▉      | 3082/7813 [15:43<23:31,  3.35it/s] 39%|███▉      | 3083/7813 [15:44<23:33,  3.35it/s] 39%|███▉      | 3084/7813 [15:44<23:22,  3.37it/s] 39%|███▉      | 3085/7813 [15:44<23:37,  3.33it/s] 39%|███▉      | 3086/7813 [15:45<23:40,  3.33it/s] 40%|███▉      | 3087/7813 [15:45<23:55,  3.29it/s] 40%|███▉      | 3088/7813 [15:45<29:41,  2.65it/s] 40%|███▉      | 3089/7813 [15:46<27:54,  2.82it/s] 40%|███▉      | 3090/7813 [15:46<26:32,  2.97it/s] 40%|███▉      | 3091/7813 [15:46<25:20,  3.10it/s] 40%|███▉      | 3092/7813 [15:47<25:06,  3.13it/s] 40%|███▉      | 3093/7813 [15:47<24:49,  3.17it/s] 40%|███▉      | 3094/7813 [15:47<24:24,  3.22it/s] 40%|███▉      | 3095/7813 [15:48<24:06,  3.26it/s] 40%|███▉      | 3096/7813 [15:48<24:12,  3.25it/s] 40%|███▉      | 3097/7813 [15:48<24:00,  3.27it/s] 40%|███▉      | 3098/7813 [15:48<23:43,  3.31it/s] 40%|███▉      | 3099/7813 [15:49<23:25,  3.35it/s] 40%|███▉      | 3100/7813 [15:49<23:48,  3.30it/s]                                                   {'loss': 0.038, 'grad_norm': 0.2994121015071869, 'learning_rate': 6.0335338538333554e-05, 'epoch': 0.4}
 40%|███▉      | 3100/7813 [15:49<23:48,  3.30it/s] 40%|███▉      | 3101/7813 [15:49<24:04,  3.26it/s] 40%|███▉      | 3102/7813 [15:50<24:07,  3.26it/s] 40%|███▉      | 3103/7813 [15:50<24:40,  3.18it/s] 40%|███▉      | 3104/7813 [15:50<24:04,  3.26it/s] 40%|███▉      | 3105/7813 [15:51<23:44,  3.31it/s] 40%|███▉      | 3106/7813 [15:51<23:58,  3.27it/s] 40%|███▉      | 3107/7813 [15:51<23:52,  3.29it/s] 40%|███▉      | 3108/7813 [15:51<23:47,  3.30it/s] 40%|███▉      | 3109/7813 [15:52<23:50,  3.29it/s] 40%|███▉      | 3110/7813 [15:52<24:06,  3.25it/s] 40%|███▉      | 3111/7813 [15:52<23:56,  3.27it/s] 40%|███▉      | 3112/7813 [15:53<23:47,  3.29it/s] 40%|███▉      | 3113/7813 [15:53<23:29,  3.34it/s] 40%|███▉      | 3114/7813 [15:53<23:23,  3.35it/s] 40%|███▉      | 3115/7813 [15:54<23:26,  3.34it/s] 40%|███▉      | 3116/7813 [15:54<23:19,  3.36it/s] 40%|███▉      | 3117/7813 [15:54<23:19,  3.36it/s] 40%|███▉      | 3118/7813 [15:54<23:20,  3.35it/s] 40%|███▉      | 3119/7813 [15:55<23:34,  3.32it/s] 40%|███▉      | 3120/7813 [15:55<23:31,  3.33it/s] 40%|███▉      | 3121/7813 [15:55<23:30,  3.33it/s] 40%|███▉      | 3122/7813 [15:56<23:23,  3.34it/s] 40%|███▉      | 3123/7813 [15:56<23:36,  3.31it/s] 40%|███▉      | 3124/7813 [15:56<23:49,  3.28it/s] 40%|███▉      | 3125/7813 [15:57<24:00,  3.26it/s] 40%|████      | 3126/7813 [15:57<24:10,  3.23it/s] 40%|████      | 3127/7813 [15:57<23:41,  3.30it/s] 40%|████      | 3128/7813 [15:58<23:41,  3.30it/s] 40%|████      | 3129/7813 [15:58<23:35,  3.31it/s] 40%|████      | 3130/7813 [15:58<23:36,  3.31it/s] 40%|████      | 3131/7813 [15:58<23:38,  3.30it/s] 40%|████      | 3132/7813 [15:59<23:27,  3.33it/s] 40%|████      | 3133/7813 [15:59<23:19,  3.34it/s] 40%|████      | 3134/7813 [15:59<23:34,  3.31it/s] 40%|████      | 3135/7813 [16:00<23:30,  3.32it/s] 40%|████      | 3136/7813 [16:00<24:14,  3.21it/s] 40%|████      | 3137/7813 [16:00<23:51,  3.27it/s] 40%|████      | 3138/7813 [16:01<23:46,  3.28it/s] 40%|████      | 3139/7813 [16:01<23:46,  3.28it/s] 40%|████      | 3140/7813 [16:01<23:36,  3.30it/s] 40%|████      | 3141/7813 [16:01<23:57,  3.25it/s] 40%|████      | 3142/7813 [16:02<23:42,  3.28it/s] 40%|████      | 3143/7813 [16:02<24:24,  3.19it/s] 40%|████      | 3144/7813 [16:02<23:52,  3.26it/s] 40%|████      | 3145/7813 [16:03<23:56,  3.25it/s] 40%|████      | 3146/7813 [16:03<23:40,  3.28it/s] 40%|████      | 3147/7813 [16:03<23:37,  3.29it/s] 40%|████      | 3148/7813 [16:04<23:36,  3.29it/s] 40%|████      | 3149/7813 [16:04<24:26,  3.18it/s] 40%|████      | 3150/7813 [16:04<24:00,  3.24it/s]                                                   {'loss': 0.0372, 'grad_norm': 0.40923213958740234, 'learning_rate': 5.969537949571228e-05, 'epoch': 0.4}
 40%|████      | 3150/7813 [16:04<24:00,  3.24it/s] 40%|████      | 3151/7813 [16:05<24:12,  3.21it/s] 40%|████      | 3152/7813 [16:05<23:41,  3.28it/s] 40%|████      | 3153/7813 [16:05<23:27,  3.31it/s] 40%|████      | 3154/7813 [16:05<23:25,  3.31it/s] 40%|████      | 3155/7813 [16:06<23:40,  3.28it/s] 40%|████      | 3156/7813 [16:06<23:35,  3.29it/s] 40%|████      | 3157/7813 [16:06<23:10,  3.35it/s] 40%|████      | 3158/7813 [16:07<24:13,  3.20it/s] 40%|████      | 3159/7813 [16:07<24:10,  3.21it/s] 40%|████      | 3160/7813 [16:07<23:57,  3.24it/s] 40%|████      | 3161/7813 [16:08<24:28,  3.17it/s] 40%|████      | 3162/7813 [16:08<24:04,  3.22it/s] 40%|████      | 3163/7813 [16:08<24:50,  3.12it/s] 40%|████      | 3164/7813 [16:09<25:01,  3.10it/s] 41%|████      | 3165/7813 [16:09<24:25,  3.17it/s] 41%|████      | 3166/7813 [16:09<24:05,  3.21it/s] 41%|████      | 3167/7813 [16:10<24:07,  3.21it/s] 41%|████      | 3168/7813 [16:10<23:44,  3.26it/s] 41%|████      | 3169/7813 [16:10<23:25,  3.30it/s] 41%|████      | 3170/7813 [16:10<23:15,  3.33it/s] 41%|████      | 3171/7813 [16:11<23:18,  3.32it/s] 41%|████      | 3172/7813 [16:11<23:02,  3.36it/s] 41%|████      | 3173/7813 [16:11<22:59,  3.36it/s] 41%|████      | 3174/7813 [16:12<23:15,  3.32it/s] 41%|████      | 3175/7813 [16:12<23:06,  3.34it/s] 41%|████      | 3176/7813 [16:12<23:56,  3.23it/s] 41%|████      | 3177/7813 [16:13<23:40,  3.26it/s] 41%|████      | 3178/7813 [16:13<23:26,  3.30it/s] 41%|████      | 3179/7813 [16:13<23:27,  3.29it/s] 41%|████      | 3180/7813 [16:13<23:12,  3.33it/s] 41%|████      | 3181/7813 [16:14<23:00,  3.36it/s] 41%|████      | 3182/7813 [16:14<23:07,  3.34it/s] 41%|████      | 3183/7813 [16:14<22:58,  3.36it/s] 41%|████      | 3184/7813 [16:15<23:12,  3.33it/s] 41%|████      | 3185/7813 [16:15<23:28,  3.28it/s] 41%|████      | 3186/7813 [16:15<23:08,  3.33it/s] 41%|████      | 3187/7813 [16:16<23:03,  3.34it/s] 41%|████      | 3188/7813 [16:16<23:03,  3.34it/s] 41%|████      | 3189/7813 [16:16<22:58,  3.35it/s] 41%|████      | 3190/7813 [16:16<22:59,  3.35it/s] 41%|████      | 3191/7813 [16:17<22:43,  3.39it/s] 41%|████      | 3192/7813 [16:17<22:59,  3.35it/s] 41%|████      | 3193/7813 [16:17<22:58,  3.35it/s] 41%|████      | 3194/7813 [16:18<22:56,  3.36it/s] 41%|████      | 3195/7813 [16:18<23:03,  3.34it/s] 41%|████      | 3196/7813 [16:18<22:51,  3.37it/s] 41%|████      | 3197/7813 [16:19<22:46,  3.38it/s] 41%|████      | 3198/7813 [16:19<23:42,  3.24it/s] 41%|████      | 3199/7813 [16:19<23:33,  3.26it/s] 41%|████      | 3200/7813 [16:19<23:08,  3.32it/s]                                                   {'loss': 0.0355, 'grad_norm': 0.33825886249542236, 'learning_rate': 5.905542045309101e-05, 'epoch': 0.41}
 41%|████      | 3200/7813 [16:19<23:08,  3.32it/s] 41%|████      | 3201/7813 [16:20<22:59,  3.34it/s] 41%|████      | 3202/7813 [16:20<22:51,  3.36it/s] 41%|████      | 3203/7813 [16:20<22:54,  3.35it/s] 41%|████      | 3204/7813 [16:21<22:46,  3.37it/s] 41%|████      | 3205/7813 [16:21<23:07,  3.32it/s] 41%|████      | 3206/7813 [16:21<23:21,  3.29it/s] 41%|████      | 3207/7813 [16:22<23:06,  3.32it/s] 41%|████      | 3208/7813 [16:22<23:04,  3.33it/s] 41%|████      | 3209/7813 [16:22<23:03,  3.33it/s] 41%|████      | 3210/7813 [16:22<22:55,  3.35it/s] 41%|████      | 3211/7813 [16:23<23:04,  3.32it/s] 41%|████      | 3212/7813 [16:23<22:58,  3.34it/s] 41%|████      | 3213/7813 [16:23<23:01,  3.33it/s] 41%|████      | 3214/7813 [16:24<22:43,  3.37it/s] 41%|████      | 3215/7813 [16:24<23:39,  3.24it/s] 41%|████      | 3216/7813 [16:24<23:10,  3.31it/s] 41%|████      | 3217/7813 [16:25<23:06,  3.32it/s] 41%|████      | 3218/7813 [16:25<23:53,  3.21it/s] 41%|████      | 3219/7813 [16:25<23:27,  3.26it/s] 41%|████      | 3220/7813 [16:25<23:19,  3.28it/s] 41%|████      | 3221/7813 [16:26<23:06,  3.31it/s] 41%|████      | 3222/7813 [16:26<22:58,  3.33it/s] 41%|████▏     | 3223/7813 [16:26<23:00,  3.33it/s] 41%|████▏     | 3224/7813 [16:27<23:01,  3.32it/s] 41%|████▏     | 3225/7813 [16:27<22:59,  3.33it/s] 41%|████▏     | 3226/7813 [16:27<23:00,  3.32it/s] 41%|████▏     | 3227/7813 [16:28<22:54,  3.34it/s] 41%|████▏     | 3228/7813 [16:28<22:48,  3.35it/s] 41%|████▏     | 3229/7813 [16:28<23:33,  3.24it/s] 41%|████▏     | 3230/7813 [16:29<24:37,  3.10it/s] 41%|████▏     | 3231/7813 [16:29<24:27,  3.12it/s] 41%|████▏     | 3232/7813 [16:29<23:51,  3.20it/s] 41%|████▏     | 3233/7813 [16:29<23:20,  3.27it/s] 41%|████▏     | 3234/7813 [16:30<23:16,  3.28it/s] 41%|████▏     | 3235/7813 [16:30<23:53,  3.19it/s] 41%|████▏     | 3236/7813 [16:30<23:26,  3.25it/s] 41%|████▏     | 3237/7813 [16:31<23:06,  3.30it/s] 41%|████▏     | 3238/7813 [16:31<23:27,  3.25it/s] 41%|████▏     | 3239/7813 [16:31<23:31,  3.24it/s] 41%|████▏     | 3240/7813 [16:32<23:10,  3.29it/s] 41%|████▏     | 3241/7813 [16:32<22:56,  3.32it/s] 41%|████▏     | 3242/7813 [16:32<22:55,  3.32it/s] 42%|████▏     | 3243/7813 [16:33<23:05,  3.30it/s] 42%|████▏     | 3244/7813 [16:33<22:57,  3.32it/s] 42%|████▏     | 3245/7813 [16:33<23:02,  3.31it/s] 42%|████▏     | 3246/7813 [16:33<23:14,  3.28it/s] 42%|████▏     | 3247/7813 [16:34<22:59,  3.31it/s] 42%|████▏     | 3248/7813 [16:34<23:09,  3.29it/s] 42%|████▏     | 3249/7813 [16:34<23:18,  3.26it/s] 42%|████▏     | 3250/7813 [16:35<23:43,  3.21it/s]                                                   {'loss': 0.0346, 'grad_norm': 0.3394026458263397, 'learning_rate': 5.841546141046973e-05, 'epoch': 0.42}
 42%|████▏     | 3250/7813 [16:35<23:43,  3.21it/s] 42%|████▏     | 3251/7813 [16:35<23:35,  3.22it/s] 42%|████▏     | 3252/7813 [16:35<23:14,  3.27it/s] 42%|████▏     | 3253/7813 [16:36<22:52,  3.32it/s] 42%|████▏     | 3254/7813 [16:36<22:46,  3.34it/s] 42%|████▏     | 3255/7813 [16:36<22:31,  3.37it/s] 42%|████▏     | 3256/7813 [16:36<22:19,  3.40it/s] 42%|████▏     | 3257/7813 [16:37<22:39,  3.35it/s] 42%|████▏     | 3258/7813 [16:37<22:48,  3.33it/s] 42%|████▏     | 3259/7813 [16:37<22:44,  3.34it/s] 42%|████▏     | 3260/7813 [16:38<22:29,  3.37it/s] 42%|████▏     | 3261/7813 [16:38<22:36,  3.36it/s] 42%|████▏     | 3262/7813 [16:38<22:35,  3.36it/s] 42%|████▏     | 3263/7813 [16:39<22:37,  3.35it/s] 42%|████▏     | 3264/7813 [16:39<23:00,  3.29it/s] 42%|████▏     | 3265/7813 [16:39<22:48,  3.32it/s] 42%|████▏     | 3266/7813 [16:39<22:50,  3.32it/s] 42%|████▏     | 3267/7813 [16:40<22:36,  3.35it/s] 42%|████▏     | 3268/7813 [16:40<23:25,  3.23it/s] 42%|████▏     | 3269/7813 [16:40<23:25,  3.23it/s] 42%|████▏     | 3270/7813 [16:41<23:30,  3.22it/s] 42%|████▏     | 3271/7813 [16:41<23:35,  3.21it/s] 42%|████▏     | 3272/7813 [16:41<23:18,  3.25it/s] 42%|████▏     | 3273/7813 [16:42<23:08,  3.27it/s] 42%|████▏     | 3274/7813 [16:42<22:54,  3.30it/s] 42%|████▏     | 3275/7813 [16:42<22:48,  3.31it/s] 42%|████▏     | 3276/7813 [16:43<22:51,  3.31it/s] 42%|████▏     | 3277/7813 [16:43<22:45,  3.32it/s] 42%|████▏     | 3278/7813 [16:43<22:42,  3.33it/s] 42%|████▏     | 3279/7813 [16:43<22:36,  3.34it/s] 42%|████▏     | 3280/7813 [16:44<22:49,  3.31it/s] 42%|████▏     | 3281/7813 [16:44<23:16,  3.24it/s] 42%|████▏     | 3282/7813 [16:44<23:03,  3.27it/s] 42%|████▏     | 3283/7813 [16:45<22:47,  3.31it/s] 42%|████▏     | 3284/7813 [16:45<22:46,  3.31it/s] 42%|████▏     | 3285/7813 [16:45<22:34,  3.34it/s] 42%|████▏     | 3286/7813 [16:46<22:36,  3.34it/s] 42%|████▏     | 3287/7813 [16:46<22:56,  3.29it/s] 42%|████▏     | 3288/7813 [16:46<23:13,  3.25it/s] 42%|████▏     | 3289/7813 [16:46<23:10,  3.25it/s] 42%|████▏     | 3290/7813 [16:47<23:19,  3.23it/s] 42%|████▏     | 3291/7813 [16:47<23:06,  3.26it/s] 42%|████▏     | 3292/7813 [16:47<23:00,  3.28it/s] 42%|████▏     | 3293/7813 [16:48<22:51,  3.30it/s] 42%|████▏     | 3294/7813 [16:48<22:48,  3.30it/s] 42%|████▏     | 3295/7813 [16:48<22:28,  3.35it/s] 42%|████▏     | 3296/7813 [16:49<22:31,  3.34it/s] 42%|████▏     | 3297/7813 [16:49<22:34,  3.34it/s] 42%|████▏     | 3298/7813 [16:49<22:43,  3.31it/s] 42%|████▏     | 3299/7813 [16:49<22:37,  3.32it/s] 42%|████▏     | 3300/7813 [16:50<23:18,  3.23it/s]                                                   {'loss': 0.0341, 'grad_norm': 0.34176933765411377, 'learning_rate': 5.7775502367848453e-05, 'epoch': 0.42}
 42%|████▏     | 3300/7813 [16:50<23:18,  3.23it/s] 42%|████▏     | 3301/7813 [16:50<22:57,  3.28it/s] 42%|████▏     | 3302/7813 [16:50<22:47,  3.30it/s] 42%|████▏     | 3303/7813 [16:51<22:28,  3.34it/s] 42%|████▏     | 3304/7813 [16:51<22:20,  3.36it/s] 42%|████▏     | 3305/7813 [16:51<22:19,  3.37it/s] 42%|████▏     | 3306/7813 [16:52<23:15,  3.23it/s] 42%|████▏     | 3307/7813 [16:52<23:02,  3.26it/s] 42%|████▏     | 3308/7813 [16:52<23:31,  3.19it/s] 42%|████▏     | 3309/7813 [16:53<23:07,  3.25it/s] 42%|████▏     | 3310/7813 [16:53<23:44,  3.16it/s] 42%|████▏     | 3311/7813 [16:53<23:19,  3.22it/s] 42%|████▏     | 3312/7813 [16:53<22:57,  3.27it/s] 42%|████▏     | 3313/7813 [16:54<22:35,  3.32it/s] 42%|████▏     | 3314/7813 [16:54<22:25,  3.34it/s] 42%|████▏     | 3315/7813 [16:54<22:14,  3.37it/s] 42%|████▏     | 3316/7813 [16:55<22:19,  3.36it/s] 42%|████▏     | 3317/7813 [16:55<22:21,  3.35it/s] 42%|████▏     | 3318/7813 [16:55<22:25,  3.34it/s] 42%|████▏     | 3319/7813 [16:56<22:25,  3.34it/s] 42%|████▏     | 3320/7813 [16:56<22:41,  3.30it/s] 43%|████▎     | 3321/7813 [16:56<22:25,  3.34it/s] 43%|████▎     | 3322/7813 [16:56<23:12,  3.23it/s] 43%|████▎     | 3323/7813 [16:57<23:01,  3.25it/s] 43%|████▎     | 3324/7813 [16:57<23:00,  3.25it/s] 43%|████▎     | 3325/7813 [16:57<22:51,  3.27it/s] 43%|████▎     | 3326/7813 [16:58<22:49,  3.28it/s] 43%|████▎     | 3327/7813 [16:58<22:41,  3.29it/s] 43%|████▎     | 3328/7813 [16:58<22:36,  3.31it/s] 43%|████▎     | 3329/7813 [16:59<22:41,  3.29it/s] 43%|████▎     | 3330/7813 [16:59<22:36,  3.30it/s] 43%|████▎     | 3331/7813 [16:59<22:34,  3.31it/s] 43%|████▎     | 3332/7813 [17:00<22:49,  3.27it/s] 43%|████▎     | 3333/7813 [17:00<23:30,  3.18it/s] 43%|████▎     | 3334/7813 [17:00<23:13,  3.21it/s] 43%|████▎     | 3335/7813 [17:00<22:55,  3.26it/s] 43%|████▎     | 3336/7813 [17:01<22:40,  3.29it/s] 43%|████▎     | 3337/7813 [17:01<22:27,  3.32it/s] 43%|████▎     | 3338/7813 [17:01<22:44,  3.28it/s] 43%|████▎     | 3339/7813 [17:02<22:23,  3.33it/s] 43%|████▎     | 3340/7813 [17:02<22:34,  3.30it/s] 43%|████▎     | 3341/7813 [17:02<22:26,  3.32it/s] 43%|████▎     | 3342/7813 [17:03<22:16,  3.35it/s] 43%|████▎     | 3343/7813 [17:03<22:18,  3.34it/s] 43%|████▎     | 3344/7813 [17:03<23:04,  3.23it/s] 43%|████▎     | 3345/7813 [17:03<22:39,  3.29it/s] 43%|████▎     | 3346/7813 [17:04<22:32,  3.30it/s] 43%|████▎     | 3347/7813 [17:04<22:27,  3.32it/s] 43%|████▎     | 3348/7813 [17:04<22:26,  3.32it/s] 43%|████▎     | 3349/7813 [17:05<22:12,  3.35it/s] 43%|████▎     | 3350/7813 [17:05<22:14,  3.34it/s]                                                   {'loss': 0.0334, 'grad_norm': 0.3011391758918762, 'learning_rate': 5.713554332522719e-05, 'epoch': 0.43}
 43%|████▎     | 3350/7813 [17:05<22:14,  3.34it/s] 43%|████▎     | 3351/7813 [17:05<23:01,  3.23it/s] 43%|████▎     | 3352/7813 [17:06<22:42,  3.27it/s] 43%|████▎     | 3353/7813 [17:06<22:28,  3.31it/s] 43%|████▎     | 3354/7813 [17:06<23:09,  3.21it/s] 43%|████▎     | 3355/7813 [17:07<23:00,  3.23it/s] 43%|████▎     | 3356/7813 [17:07<22:37,  3.28it/s] 43%|████▎     | 3357/7813 [17:07<22:32,  3.29it/s] 43%|████▎     | 3358/7813 [17:07<23:23,  3.17it/s] 43%|████▎     | 3359/7813 [17:08<23:05,  3.21it/s] 43%|████▎     | 3360/7813 [17:08<22:40,  3.27it/s] 43%|████▎     | 3361/7813 [17:08<22:25,  3.31it/s] 43%|████▎     | 3362/7813 [17:09<22:17,  3.33it/s] 43%|████▎     | 3363/7813 [17:09<22:07,  3.35it/s] 43%|████▎     | 3364/7813 [17:09<22:40,  3.27it/s] 43%|████▎     | 3365/7813 [17:10<27:52,  2.66it/s] 43%|████▎     | 3366/7813 [17:10<26:08,  2.84it/s] 43%|████▎     | 3367/7813 [17:10<25:07,  2.95it/s] 43%|████▎     | 3368/7813 [17:11<24:13,  3.06it/s] 43%|████▎     | 3369/7813 [17:11<23:30,  3.15it/s] 43%|████▎     | 3370/7813 [17:11<23:13,  3.19it/s] 43%|████▎     | 3371/7813 [17:12<23:44,  3.12it/s] 43%|████▎     | 3372/7813 [17:12<23:36,  3.14it/s] 43%|████▎     | 3373/7813 [17:12<23:03,  3.21it/s] 43%|████▎     | 3374/7813 [17:13<22:52,  3.23it/s] 43%|████▎     | 3375/7813 [17:13<22:39,  3.26it/s] 43%|████▎     | 3376/7813 [17:13<22:38,  3.27it/s] 43%|████▎     | 3377/7813 [17:13<22:32,  3.28it/s] 43%|████▎     | 3378/7813 [17:14<22:34,  3.27it/s] 43%|████▎     | 3379/7813 [17:14<22:24,  3.30it/s] 43%|████▎     | 3380/7813 [17:14<22:18,  3.31it/s] 43%|████▎     | 3381/7813 [17:15<22:06,  3.34it/s] 43%|████▎     | 3382/7813 [17:15<21:59,  3.36it/s] 43%|████▎     | 3383/7813 [17:15<22:15,  3.32it/s] 43%|████▎     | 3384/7813 [17:16<22:36,  3.26it/s] 43%|████▎     | 3385/7813 [17:16<22:28,  3.28it/s] 43%|████▎     | 3386/7813 [17:16<22:35,  3.27it/s] 43%|████▎     | 3387/7813 [17:16<22:22,  3.30it/s] 43%|████▎     | 3388/7813 [17:17<22:19,  3.30it/s] 43%|████▎     | 3389/7813 [17:17<22:10,  3.33it/s] 43%|████▎     | 3390/7813 [17:17<22:07,  3.33it/s] 43%|████▎     | 3391/7813 [17:18<22:06,  3.33it/s] 43%|████▎     | 3392/7813 [17:18<21:56,  3.36it/s] 43%|████▎     | 3393/7813 [17:18<21:56,  3.36it/s] 43%|████▎     | 3394/7813 [17:19<21:53,  3.37it/s] 43%|████▎     | 3395/7813 [17:19<21:50,  3.37it/s] 43%|████▎     | 3396/7813 [17:19<21:50,  3.37it/s] 43%|████▎     | 3397/7813 [17:19<21:53,  3.36it/s] 43%|████▎     | 3398/7813 [17:20<21:59,  3.34it/s] 44%|████▎     | 3399/7813 [17:20<22:10,  3.32it/s] 44%|████▎     | 3400/7813 [17:20<22:24,  3.28it/s]                                                   {'loss': 0.0332, 'grad_norm': 0.2651166617870331, 'learning_rate': 5.649558428260592e-05, 'epoch': 0.44}
 44%|████▎     | 3400/7813 [17:20<22:24,  3.28it/s] 44%|████▎     | 3401/7813 [17:21<23:10,  3.17it/s] 44%|████▎     | 3402/7813 [17:21<22:43,  3.24it/s] 44%|████▎     | 3403/7813 [17:21<22:26,  3.28it/s] 44%|████▎     | 3404/7813 [17:22<22:38,  3.25it/s] 44%|████▎     | 3405/7813 [17:22<22:15,  3.30it/s] 44%|████▎     | 3406/7813 [17:22<23:02,  3.19it/s] 44%|████▎     | 3407/7813 [17:23<22:59,  3.19it/s] 44%|████▎     | 3408/7813 [17:23<23:02,  3.19it/s] 44%|████▎     | 3409/7813 [17:23<22:39,  3.24it/s] 44%|████▎     | 3410/7813 [17:23<22:21,  3.28it/s] 44%|████▎     | 3411/7813 [17:24<21:56,  3.34it/s] 44%|████▎     | 3412/7813 [17:24<21:46,  3.37it/s] 44%|████▎     | 3413/7813 [17:24<21:56,  3.34it/s] 44%|████▎     | 3414/7813 [17:25<21:49,  3.36it/s] 44%|████▎     | 3415/7813 [17:25<21:45,  3.37it/s] 44%|████▎     | 3416/7813 [17:25<21:54,  3.34it/s] 44%|████▎     | 3417/7813 [17:26<21:47,  3.36it/s] 44%|████▎     | 3418/7813 [17:26<21:59,  3.33it/s] 44%|████▍     | 3419/7813 [17:26<22:01,  3.33it/s] 44%|████▍     | 3420/7813 [17:26<22:05,  3.31it/s] 44%|████▍     | 3421/7813 [17:27<21:46,  3.36it/s] 44%|████▍     | 3422/7813 [17:27<21:38,  3.38it/s] 44%|████▍     | 3423/7813 [17:27<21:45,  3.36it/s] 44%|████▍     | 3424/7813 [17:28<21:49,  3.35it/s] 44%|████▍     | 3425/7813 [17:28<21:51,  3.35it/s] 44%|████▍     | 3426/7813 [17:28<21:52,  3.34it/s] 44%|████▍     | 3427/7813 [17:29<22:27,  3.26it/s] 44%|████▍     | 3428/7813 [17:29<22:18,  3.28it/s] 44%|████▍     | 3429/7813 [17:29<22:07,  3.30it/s] 44%|████▍     | 3430/7813 [17:29<21:56,  3.33it/s] 44%|████▍     | 3431/7813 [17:30<22:31,  3.24it/s] 44%|████▍     | 3432/7813 [17:30<23:23,  3.12it/s] 44%|████▍     | 3433/7813 [17:30<22:55,  3.19it/s] 44%|████▍     | 3434/7813 [17:31<22:30,  3.24it/s] 44%|████▍     | 3435/7813 [17:31<22:11,  3.29it/s] 44%|████▍     | 3436/7813 [17:31<22:54,  3.18it/s] 44%|████▍     | 3437/7813 [17:32<22:21,  3.26it/s] 44%|████▍     | 3438/7813 [17:32<22:05,  3.30it/s] 44%|████▍     | 3439/7813 [17:32<21:48,  3.34it/s] 44%|████▍     | 3440/7813 [17:33<21:41,  3.36it/s] 44%|████▍     | 3441/7813 [17:33<21:42,  3.36it/s] 44%|████▍     | 3442/7813 [17:33<21:33,  3.38it/s] 44%|████▍     | 3443/7813 [17:33<21:34,  3.38it/s] 44%|████▍     | 3444/7813 [17:34<21:17,  3.42it/s] 44%|████▍     | 3445/7813 [17:34<21:14,  3.43it/s] 44%|████▍     | 3446/7813 [17:34<21:12,  3.43it/s] 44%|████▍     | 3447/7813 [17:35<21:01,  3.46it/s] 44%|████▍     | 3448/7813 [17:35<21:06,  3.45it/s] 44%|████▍     | 3449/7813 [17:35<21:05,  3.45it/s] 44%|████▍     | 3450/7813 [17:35<22:01,  3.30it/s]                                                   {'loss': 0.0323, 'grad_norm': 0.29999256134033203, 'learning_rate': 5.5855625239984644e-05, 'epoch': 0.44}
 44%|████▍     | 3450/7813 [17:36<22:01,  3.30it/s] 44%|████▍     | 3451/7813 [17:36<21:56,  3.31it/s] 44%|████▍     | 3452/7813 [17:36<22:34,  3.22it/s] 44%|████▍     | 3453/7813 [17:36<22:30,  3.23it/s] 44%|████▍     | 3454/7813 [17:37<22:29,  3.23it/s] 44%|████▍     | 3455/7813 [17:37<22:12,  3.27it/s] 44%|████▍     | 3456/7813 [17:37<22:30,  3.23it/s] 44%|████▍     | 3457/7813 [17:38<22:17,  3.26it/s] 44%|████▍     | 3458/7813 [17:38<22:03,  3.29it/s] 44%|████▍     | 3459/7813 [17:38<21:57,  3.30it/s] 44%|████▍     | 3460/7813 [17:39<21:45,  3.33it/s] 44%|████▍     | 3461/7813 [17:39<21:42,  3.34it/s] 44%|████▍     | 3462/7813 [17:39<22:18,  3.25it/s] 44%|████▍     | 3463/7813 [17:39<21:59,  3.30it/s] 44%|████▍     | 3464/7813 [17:40<22:09,  3.27it/s] 44%|████▍     | 3465/7813 [17:40<21:56,  3.30it/s] 44%|████▍     | 3466/7813 [17:40<21:40,  3.34it/s] 44%|████▍     | 3467/7813 [17:41<21:54,  3.31it/s] 44%|████▍     | 3468/7813 [17:41<21:38,  3.35it/s] 44%|████▍     | 3469/7813 [17:41<21:19,  3.40it/s] 44%|████▍     | 3470/7813 [17:42<22:01,  3.29it/s] 44%|████▍     | 3471/7813 [17:42<22:35,  3.20it/s] 44%|████▍     | 3472/7813 [17:42<22:02,  3.28it/s] 44%|████▍     | 3473/7813 [17:42<21:47,  3.32it/s] 44%|████▍     | 3474/7813 [17:43<22:19,  3.24it/s] 44%|████▍     | 3475/7813 [17:43<21:54,  3.30it/s] 44%|████▍     | 3476/7813 [17:43<22:39,  3.19it/s] 45%|████▍     | 3477/7813 [17:44<22:22,  3.23it/s] 45%|████▍     | 3478/7813 [17:44<22:04,  3.27it/s] 45%|████▍     | 3479/7813 [17:44<21:46,  3.32it/s] 45%|████▍     | 3480/7813 [17:45<21:25,  3.37it/s] 45%|████▍     | 3481/7813 [17:45<21:10,  3.41it/s] 45%|████▍     | 3482/7813 [17:45<21:08,  3.41it/s] 45%|████▍     | 3483/7813 [17:45<21:04,  3.43it/s] 45%|████▍     | 3484/7813 [17:46<21:03,  3.43it/s] 45%|████▍     | 3485/7813 [17:46<21:05,  3.42it/s] 45%|████▍     | 3486/7813 [17:46<21:33,  3.35it/s] 45%|████▍     | 3487/7813 [17:47<21:44,  3.32it/s] 45%|████▍     | 3488/7813 [17:47<21:30,  3.35it/s] 45%|████▍     | 3489/7813 [17:47<21:42,  3.32it/s] 45%|████▍     | 3490/7813 [17:48<21:31,  3.35it/s] 45%|████▍     | 3491/7813 [17:48<22:05,  3.26it/s] 45%|████▍     | 3492/7813 [17:48<22:00,  3.27it/s] 45%|████▍     | 3493/7813 [17:48<21:33,  3.34it/s] 45%|████▍     | 3494/7813 [17:49<21:15,  3.39it/s] 45%|████▍     | 3495/7813 [17:49<21:09,  3.40it/s] 45%|████▍     | 3496/7813 [17:49<21:59,  3.27it/s] 45%|████▍     | 3497/7813 [17:50<21:43,  3.31it/s] 45%|████▍     | 3498/7813 [17:50<21:30,  3.34it/s] 45%|████▍     | 3499/7813 [17:50<21:17,  3.38it/s] 45%|████▍     | 3500/7813 [17:51<21:49,  3.29it/s]                                                   {'loss': 0.0314, 'grad_norm': 0.2955186367034912, 'learning_rate': 5.521566619736337e-05, 'epoch': 0.45}
 45%|████▍     | 3500/7813 [17:51<21:49,  3.29it/s] 45%|████▍     | 3501/7813 [17:51<21:35,  3.33it/s] 45%|████▍     | 3502/7813 [17:51<21:17,  3.38it/s] 45%|████▍     | 3503/7813 [17:51<21:10,  3.39it/s] 45%|████▍     | 3504/7813 [17:52<21:10,  3.39it/s] 45%|████▍     | 3505/7813 [17:52<20:59,  3.42it/s] 45%|████▍     | 3506/7813 [17:52<20:48,  3.45it/s] 45%|████▍     | 3507/7813 [17:53<21:03,  3.41it/s] 45%|████▍     | 3508/7813 [17:53<21:45,  3.30it/s] 45%|████▍     | 3509/7813 [17:53<21:28,  3.34it/s] 45%|████▍     | 3510/7813 [17:54<21:26,  3.34it/s] 45%|████▍     | 3511/7813 [17:54<21:15,  3.37it/s] 45%|████▍     | 3512/7813 [17:54<21:14,  3.38it/s] 45%|████▍     | 3513/7813 [17:54<21:08,  3.39it/s] 45%|████▍     | 3514/7813 [17:55<21:22,  3.35it/s] 45%|████▍     | 3515/7813 [17:55<21:31,  3.33it/s] 45%|████▌     | 3516/7813 [17:55<21:23,  3.35it/s] 45%|████▌     | 3517/7813 [17:56<21:11,  3.38it/s] 45%|████▌     | 3518/7813 [17:56<21:37,  3.31it/s] 45%|████▌     | 3519/7813 [17:56<21:28,  3.33it/s] 45%|████▌     | 3520/7813 [17:57<21:35,  3.31it/s] 45%|████▌     | 3521/7813 [17:57<21:30,  3.33it/s] 45%|████▌     | 3522/7813 [17:57<21:27,  3.33it/s] 45%|████▌     | 3523/7813 [17:57<21:20,  3.35it/s] 45%|████▌     | 3524/7813 [17:58<21:20,  3.35it/s] 45%|████▌     | 3525/7813 [17:58<21:50,  3.27it/s] 45%|████▌     | 3526/7813 [17:58<21:32,  3.32it/s] 45%|████▌     | 3527/7813 [17:59<21:29,  3.32it/s] 45%|████▌     | 3528/7813 [17:59<21:33,  3.31it/s] 45%|████▌     | 3529/7813 [17:59<21:28,  3.32it/s] 45%|████▌     | 3530/7813 [18:00<21:25,  3.33it/s] 45%|████▌     | 3531/7813 [18:00<21:18,  3.35it/s] 45%|████▌     | 3532/7813 [18:00<21:55,  3.26it/s] 45%|████▌     | 3533/7813 [18:00<21:42,  3.29it/s] 45%|████▌     | 3534/7813 [18:01<21:25,  3.33it/s] 45%|████▌     | 3535/7813 [18:01<22:07,  3.22it/s] 45%|████▌     | 3536/7813 [18:01<21:41,  3.29it/s] 45%|████▌     | 3537/7813 [18:02<22:07,  3.22it/s] 45%|████▌     | 3538/7813 [18:02<21:37,  3.30it/s] 45%|████▌     | 3539/7813 [18:02<21:19,  3.34it/s] 45%|████▌     | 3540/7813 [18:03<21:15,  3.35it/s] 45%|████▌     | 3541/7813 [18:03<21:02,  3.38it/s] 45%|████▌     | 3542/7813 [18:03<20:49,  3.42it/s] 45%|████▌     | 3543/7813 [18:03<21:49,  3.26it/s] 45%|████▌     | 3544/7813 [18:04<21:34,  3.30it/s] 45%|████▌     | 3545/7813 [18:04<22:01,  3.23it/s] 45%|████▌     | 3546/7813 [18:04<21:35,  3.29it/s] 45%|████▌     | 3547/7813 [18:05<21:22,  3.33it/s] 45%|████▌     | 3548/7813 [18:05<21:09,  3.36it/s] 45%|████▌     | 3549/7813 [18:05<21:50,  3.25it/s] 45%|████▌     | 3550/7813 [18:06<21:24,  3.32it/s]                                                    45%|████▌     | 3550/7813 [18:06<21:24,  3.32it/s]{'loss': 0.0292, 'grad_norm': 0.3533974289894104, 'learning_rate': 5.45757071547421e-05, 'epoch': 0.45}
 45%|████▌     | 3551/7813 [18:06<21:11,  3.35it/s] 45%|████▌     | 3552/7813 [18:06<20:57,  3.39it/s] 45%|████▌     | 3553/7813 [18:06<21:02,  3.37it/s] 45%|████▌     | 3554/7813 [18:07<20:56,  3.39it/s] 46%|████▌     | 3555/7813 [18:07<20:52,  3.40it/s] 46%|████▌     | 3556/7813 [18:07<20:43,  3.42it/s] 46%|████▌     | 3557/7813 [18:08<20:41,  3.43it/s] 46%|████▌     | 3558/7813 [18:08<20:39,  3.43it/s] 46%|████▌     | 3559/7813 [18:08<20:42,  3.42it/s] 46%|████▌     | 3560/7813 [18:09<20:47,  3.41it/s] 46%|████▌     | 3561/7813 [18:09<20:40,  3.43it/s] 46%|████▌     | 3562/7813 [18:09<20:38,  3.43it/s] 46%|████▌     | 3563/7813 [18:09<20:30,  3.45it/s] 46%|████▌     | 3564/7813 [18:10<20:29,  3.46it/s] 46%|████▌     | 3565/7813 [18:10<20:28,  3.46it/s] 46%|████▌     | 3566/7813 [18:10<20:26,  3.46it/s] 46%|████▌     | 3567/7813 [18:11<20:31,  3.45it/s] 46%|████▌     | 3568/7813 [18:11<20:34,  3.44it/s] 46%|████▌     | 3569/7813 [18:11<20:50,  3.39it/s] 46%|████▌     | 3570/7813 [18:11<21:12,  3.33it/s] 46%|████▌     | 3571/7813 [18:12<21:07,  3.35it/s] 46%|████▌     | 3572/7813 [18:12<21:02,  3.36it/s] 46%|████▌     | 3573/7813 [18:12<20:47,  3.40it/s] 46%|████▌     | 3574/7813 [18:13<20:54,  3.38it/s] 46%|████▌     | 3575/7813 [18:13<20:55,  3.37it/s] 46%|████▌     | 3576/7813 [18:13<20:49,  3.39it/s] 46%|████▌     | 3577/7813 [18:13<20:46,  3.40it/s] 46%|████▌     | 3578/7813 [18:14<20:40,  3.42it/s] 46%|████▌     | 3579/7813 [18:14<20:33,  3.43it/s] 46%|████▌     | 3580/7813 [18:14<20:33,  3.43it/s] 46%|████▌     | 3581/7813 [18:15<20:33,  3.43it/s] 46%|████▌     | 3582/7813 [18:15<20:28,  3.44it/s] 46%|████▌     | 3583/7813 [18:15<20:31,  3.43it/s] 46%|████▌     | 3584/7813 [18:16<20:29,  3.44it/s] 46%|████▌     | 3585/7813 [18:16<20:34,  3.43it/s] 46%|████▌     | 3586/7813 [18:16<20:54,  3.37it/s] 46%|████▌     | 3587/7813 [18:16<20:51,  3.38it/s] 46%|████▌     | 3588/7813 [18:17<20:52,  3.37it/s] 46%|████▌     | 3589/7813 [18:17<20:50,  3.38it/s] 46%|████▌     | 3590/7813 [18:17<20:38,  3.41it/s] 46%|████▌     | 3591/7813 [18:18<20:45,  3.39it/s] 46%|████▌     | 3592/7813 [18:18<20:41,  3.40it/s] 46%|████▌     | 3593/7813 [18:18<21:07,  3.33it/s] 46%|████▌     | 3594/7813 [18:18<20:49,  3.38it/s] 46%|████▌     | 3595/7813 [18:19<20:50,  3.37it/s] 46%|████▌     | 3596/7813 [18:19<20:43,  3.39it/s] 46%|████▌     | 3597/7813 [18:19<20:44,  3.39it/s] 46%|████▌     | 3598/7813 [18:20<21:16,  3.30it/s] 46%|████▌     | 3599/7813 [18:20<21:23,  3.28it/s] 46%|████▌     | 3600/7813 [18:20<21:03,  3.34it/s]                                                   {'loss': 0.0295, 'grad_norm': 0.44780832529067993, 'learning_rate': 5.3935748112120834e-05, 'epoch': 0.46}
 46%|████▌     | 3600/7813 [18:20<21:03,  3.34it/s] 46%|████▌     | 3601/7813 [18:21<21:02,  3.34it/s] 46%|████▌     | 3602/7813 [18:21<20:47,  3.38it/s] 46%|████▌     | 3603/7813 [18:21<20:47,  3.38it/s] 46%|████▌     | 3604/7813 [18:21<20:48,  3.37it/s] 46%|████▌     | 3605/7813 [18:22<20:40,  3.39it/s] 46%|████▌     | 3606/7813 [18:22<20:41,  3.39it/s] 46%|████▌     | 3607/7813 [18:22<20:40,  3.39it/s] 46%|████▌     | 3608/7813 [18:23<20:34,  3.41it/s] 46%|████▌     | 3609/7813 [18:23<20:38,  3.39it/s] 46%|████▌     | 3610/7813 [18:23<20:42,  3.38it/s] 46%|████▌     | 3611/7813 [18:24<21:20,  3.28it/s] 46%|████▌     | 3612/7813 [18:24<21:06,  3.32it/s] 46%|████▌     | 3613/7813 [18:24<21:01,  3.33it/s] 46%|████▋     | 3614/7813 [18:24<20:50,  3.36it/s] 46%|████▋     | 3615/7813 [18:25<20:38,  3.39it/s] 46%|████▋     | 3616/7813 [18:25<21:28,  3.26it/s] 46%|████▋     | 3617/7813 [18:25<22:09,  3.16it/s] 46%|████▋     | 3618/7813 [18:26<21:45,  3.21it/s] 46%|████▋     | 3619/7813 [18:26<21:22,  3.27it/s] 46%|████▋     | 3620/7813 [18:26<21:03,  3.32it/s] 46%|████▋     | 3621/7813 [18:27<20:57,  3.33it/s] 46%|████▋     | 3622/7813 [18:27<20:50,  3.35it/s] 46%|████▋     | 3623/7813 [18:27<20:40,  3.38it/s] 46%|████▋     | 3624/7813 [18:27<20:26,  3.42it/s] 46%|████▋     | 3625/7813 [18:28<21:17,  3.28it/s] 46%|████▋     | 3626/7813 [18:28<21:01,  3.32it/s] 46%|████▋     | 3627/7813 [18:28<21:11,  3.29it/s] 46%|████▋     | 3628/7813 [18:29<21:05,  3.31it/s] 46%|████▋     | 3629/7813 [18:29<21:01,  3.32it/s] 46%|████▋     | 3630/7813 [18:29<20:46,  3.35it/s] 46%|████▋     | 3631/7813 [18:30<20:50,  3.35it/s] 46%|████▋     | 3632/7813 [18:30<20:46,  3.35it/s] 46%|████▋     | 3633/7813 [18:30<21:10,  3.29it/s] 47%|████▋     | 3634/7813 [18:31<21:10,  3.29it/s] 47%|████▋     | 3635/7813 [18:31<21:07,  3.30it/s] 47%|████▋     | 3636/7813 [18:31<22:14,  3.13it/s] 47%|████▋     | 3637/7813 [18:31<22:09,  3.14it/s] 47%|████▋     | 3638/7813 [18:32<22:56,  3.03it/s] 47%|████▋     | 3639/7813 [18:32<23:05,  3.01it/s] 47%|████▋     | 3640/7813 [18:32<22:20,  3.11it/s] 47%|████▋     | 3641/7813 [18:33<21:48,  3.19it/s] 47%|████▋     | 3642/7813 [18:33<21:23,  3.25it/s] 47%|████▋     | 3643/7813 [18:33<21:08,  3.29it/s] 47%|████▋     | 3644/7813 [18:34<21:19,  3.26it/s] 47%|████▋     | 3645/7813 [18:34<21:03,  3.30it/s] 47%|████▋     | 3646/7813 [18:34<20:55,  3.32it/s] 47%|████▋     | 3647/7813 [18:35<20:42,  3.35it/s] 47%|████▋     | 3648/7813 [18:35<20:44,  3.35it/s] 47%|████▋     | 3649/7813 [18:35<20:46,  3.34it/s] 47%|████▋     | 3650/7813 [18:35<20:36,  3.37it/s]                                                   {'loss': 0.0278, 'grad_norm': 0.4624570906162262, 'learning_rate': 5.329578906949956e-05, 'epoch': 0.47}
 47%|████▋     | 3650/7813 [18:35<20:36,  3.37it/s] 47%|████▋     | 3651/7813 [18:36<20:40,  3.35it/s] 47%|████▋     | 3652/7813 [18:36<21:24,  3.24it/s] 47%|████▋     | 3653/7813 [18:36<21:16,  3.26it/s] 47%|████▋     | 3654/7813 [18:37<20:49,  3.33it/s] 47%|████▋     | 3655/7813 [18:37<21:18,  3.25it/s] 47%|████▋     | 3656/7813 [18:37<21:47,  3.18it/s] 47%|████▋     | 3657/7813 [18:38<21:43,  3.19it/s] 47%|████▋     | 3658/7813 [18:38<21:14,  3.26it/s] 47%|████▋     | 3659/7813 [18:38<20:57,  3.30it/s] 47%|████▋     | 3660/7813 [18:39<20:58,  3.30it/s] 47%|████▋     | 3661/7813 [18:39<20:49,  3.32it/s] 47%|████▋     | 3662/7813 [18:39<20:34,  3.36it/s] 47%|████▋     | 3663/7813 [18:39<20:47,  3.33it/s] 47%|████▋     | 3664/7813 [18:40<20:39,  3.35it/s] 47%|████▋     | 3665/7813 [18:40<20:29,  3.37it/s] 47%|████▋     | 3666/7813 [18:40<21:24,  3.23it/s] 47%|████▋     | 3667/7813 [18:41<21:09,  3.27it/s] 47%|████▋     | 3668/7813 [18:41<20:52,  3.31it/s] 47%|████▋     | 3669/7813 [18:41<20:47,  3.32it/s] 47%|████▋     | 3670/7813 [18:42<20:42,  3.33it/s] 47%|████▋     | 3671/7813 [18:42<20:29,  3.37it/s] 47%|████▋     | 3672/7813 [18:42<20:33,  3.36it/s] 47%|████▋     | 3673/7813 [18:42<20:47,  3.32it/s] 47%|████▋     | 3674/7813 [18:43<20:44,  3.32it/s] 47%|████▋     | 3675/7813 [18:43<21:00,  3.28it/s] 47%|████▋     | 3676/7813 [18:43<20:47,  3.32it/s] 47%|████▋     | 3677/7813 [18:44<20:34,  3.35it/s] 47%|████▋     | 3678/7813 [18:44<20:28,  3.37it/s] 47%|████▋     | 3679/7813 [18:44<20:29,  3.36it/s] 47%|████▋     | 3680/7813 [18:45<20:33,  3.35it/s] 47%|████▋     | 3681/7813 [18:45<20:56,  3.29it/s] 47%|████▋     | 3682/7813 [18:45<20:45,  3.32it/s] 47%|████▋     | 3683/7813 [18:45<20:37,  3.34it/s] 47%|████▋     | 3684/7813 [18:46<20:30,  3.36it/s] 47%|████▋     | 3685/7813 [18:46<20:20,  3.38it/s] 47%|████▋     | 3686/7813 [18:46<20:21,  3.38it/s] 47%|████▋     | 3687/7813 [18:47<20:56,  3.28it/s] 47%|████▋     | 3688/7813 [18:47<20:52,  3.29it/s] 47%|████▋     | 3689/7813 [18:47<20:42,  3.32it/s] 47%|████▋     | 3690/7813 [18:48<20:32,  3.35it/s] 47%|████▋     | 3691/7813 [18:48<20:25,  3.36it/s] 47%|████▋     | 3692/7813 [18:48<20:37,  3.33it/s] 47%|████▋     | 3693/7813 [18:48<20:38,  3.33it/s] 47%|████▋     | 3694/7813 [18:49<21:27,  3.20it/s] 47%|████▋     | 3695/7813 [18:49<21:03,  3.26it/s] 47%|████▋     | 3696/7813 [18:49<20:47,  3.30it/s] 47%|████▋     | 3697/7813 [18:50<20:39,  3.32it/s] 47%|████▋     | 3698/7813 [18:50<20:38,  3.32it/s] 47%|████▋     | 3699/7813 [18:50<20:30,  3.34it/s] 47%|████▋     | 3700/7813 [18:51<20:28,  3.35it/s]                                                   {'loss': 0.0276, 'grad_norm': 0.3662980794906616, 'learning_rate': 5.265583002687828e-05, 'epoch': 0.47}
 47%|████▋     | 3700/7813 [18:51<20:28,  3.35it/s] 47%|████▋     | 3701/7813 [18:51<21:05,  3.25it/s] 47%|████▋     | 3702/7813 [18:51<20:46,  3.30it/s] 47%|████▋     | 3703/7813 [18:51<20:33,  3.33it/s] 47%|████▋     | 3704/7813 [18:52<20:29,  3.34it/s] 47%|████▋     | 3705/7813 [18:52<20:21,  3.36it/s] 47%|████▋     | 3706/7813 [18:52<20:36,  3.32it/s] 47%|████▋     | 3707/7813 [18:53<20:57,  3.26it/s] 47%|████▋     | 3708/7813 [18:53<20:43,  3.30it/s] 47%|████▋     | 3709/7813 [18:53<20:38,  3.31it/s] 47%|████▋     | 3710/7813 [18:54<20:28,  3.34it/s] 47%|████▋     | 3711/7813 [18:54<20:30,  3.33it/s] 48%|████▊     | 3712/7813 [18:54<20:16,  3.37it/s] 48%|████▊     | 3713/7813 [18:54<20:45,  3.29it/s] 48%|████▊     | 3714/7813 [18:55<21:03,  3.24it/s] 48%|████▊     | 3715/7813 [18:55<20:41,  3.30it/s] 48%|████▊     | 3716/7813 [18:55<20:30,  3.33it/s] 48%|████▊     | 3717/7813 [18:56<20:21,  3.35it/s] 48%|████▊     | 3718/7813 [18:56<20:18,  3.36it/s] 48%|████▊     | 3719/7813 [18:56<20:26,  3.34it/s] 48%|████▊     | 3720/7813 [18:57<20:10,  3.38it/s] 48%|████▊     | 3721/7813 [18:57<20:15,  3.37it/s] 48%|████▊     | 3722/7813 [18:57<21:15,  3.21it/s] 48%|████▊     | 3723/7813 [18:58<21:02,  3.24it/s] 48%|████▊     | 3724/7813 [18:58<21:17,  3.20it/s] 48%|████▊     | 3725/7813 [18:58<20:53,  3.26it/s] 48%|████▊     | 3726/7813 [18:58<20:42,  3.29it/s] 48%|████▊     | 3727/7813 [18:59<20:27,  3.33it/s] 48%|████▊     | 3728/7813 [18:59<20:17,  3.36it/s] 48%|████▊     | 3729/7813 [18:59<21:05,  3.23it/s] 48%|████▊     | 3730/7813 [19:00<20:46,  3.28it/s] 48%|████▊     | 3731/7813 [19:00<20:23,  3.34it/s] 48%|████▊     | 3732/7813 [19:00<20:12,  3.37it/s] 48%|████▊     | 3733/7813 [19:01<20:45,  3.28it/s] 48%|████▊     | 3734/7813 [19:01<20:32,  3.31it/s] 48%|████▊     | 3735/7813 [19:01<20:36,  3.30it/s] 48%|████▊     | 3736/7813 [19:01<20:56,  3.25it/s] 48%|████▊     | 3737/7813 [19:02<20:34,  3.30it/s] 48%|████▊     | 3738/7813 [19:02<20:09,  3.37it/s] 48%|████▊     | 3739/7813 [19:02<20:49,  3.26it/s] 48%|████▊     | 3740/7813 [19:03<20:25,  3.32it/s] 48%|████▊     | 3741/7813 [19:03<20:33,  3.30it/s] 48%|████▊     | 3742/7813 [19:03<20:38,  3.29it/s] 48%|████▊     | 3743/7813 [19:04<20:39,  3.28it/s] 48%|████▊     | 3744/7813 [19:04<20:25,  3.32it/s] 48%|████▊     | 3745/7813 [19:04<20:09,  3.36it/s] 48%|████▊     | 3746/7813 [19:04<19:57,  3.40it/s] 48%|████▊     | 3747/7813 [19:05<19:50,  3.42it/s] 48%|████▊     | 3748/7813 [19:05<19:43,  3.44it/s] 48%|████▊     | 3749/7813 [19:05<19:49,  3.42it/s] 48%|████▊     | 3750/7813 [19:06<20:33,  3.29it/s]                                                   {'loss': 0.0279, 'grad_norm': 0.21413564682006836, 'learning_rate': 5.201587098425701e-05, 'epoch': 0.48}
 48%|████▊     | 3750/7813 [19:06<20:33,  3.29it/s] 48%|████▊     | 3751/7813 [19:06<20:44,  3.27it/s] 48%|████▊     | 3752/7813 [19:06<20:20,  3.33it/s] 48%|████▊     | 3753/7813 [19:07<20:07,  3.36it/s] 48%|████▊     | 3754/7813 [19:07<20:02,  3.38it/s] 48%|████▊     | 3755/7813 [19:07<19:57,  3.39it/s] 48%|████▊     | 3756/7813 [19:07<20:32,  3.29it/s] 48%|████▊     | 3757/7813 [19:08<20:25,  3.31it/s] 48%|████▊     | 3758/7813 [19:08<20:13,  3.34it/s] 48%|████▊     | 3759/7813 [19:08<20:09,  3.35it/s] 48%|████▊     | 3760/7813 [19:09<19:59,  3.38it/s] 48%|████▊     | 3761/7813 [19:09<20:46,  3.25it/s] 48%|████▊     | 3762/7813 [19:09<20:42,  3.26it/s] 48%|████▊     | 3763/7813 [19:10<20:28,  3.30it/s] 48%|████▊     | 3764/7813 [19:10<20:22,  3.31it/s] 48%|████▊     | 3765/7813 [19:10<20:19,  3.32it/s] 48%|████▊     | 3766/7813 [19:10<20:28,  3.29it/s] 48%|████▊     | 3767/7813 [19:11<20:25,  3.30it/s] 48%|████▊     | 3768/7813 [19:11<20:08,  3.35it/s] 48%|████▊     | 3769/7813 [19:11<19:54,  3.39it/s] 48%|████▊     | 3770/7813 [19:12<19:56,  3.38it/s] 48%|████▊     | 3771/7813 [19:12<19:52,  3.39it/s] 48%|████▊     | 3772/7813 [19:12<20:12,  3.33it/s] 48%|████▊     | 3773/7813 [19:13<20:06,  3.35it/s] 48%|████▊     | 3774/7813 [19:13<20:11,  3.34it/s] 48%|████▊     | 3775/7813 [19:13<20:55,  3.22it/s] 48%|████▊     | 3776/7813 [19:13<20:38,  3.26it/s] 48%|████▊     | 3777/7813 [19:14<20:21,  3.30it/s] 48%|████▊     | 3778/7813 [19:14<20:16,  3.32it/s] 48%|████▊     | 3779/7813 [19:14<20:13,  3.32it/s] 48%|████▊     | 3780/7813 [19:15<20:17,  3.31it/s] 48%|████▊     | 3781/7813 [19:15<20:22,  3.30it/s] 48%|████▊     | 3782/7813 [19:15<20:15,  3.32it/s] 48%|████▊     | 3783/7813 [19:16<20:11,  3.33it/s] 48%|████▊     | 3784/7813 [19:16<20:23,  3.29it/s] 48%|████▊     | 3785/7813 [19:16<20:14,  3.32it/s] 48%|████▊     | 3786/7813 [19:16<20:04,  3.34it/s] 48%|████▊     | 3787/7813 [19:17<20:04,  3.34it/s] 48%|████▊     | 3788/7813 [19:17<20:56,  3.20it/s] 48%|████▊     | 3789/7813 [19:17<20:31,  3.27it/s] 49%|████▊     | 3790/7813 [19:18<20:20,  3.30it/s] 49%|████▊     | 3791/7813 [19:18<20:02,  3.34it/s] 49%|████▊     | 3792/7813 [19:18<20:02,  3.34it/s] 49%|████▊     | 3793/7813 [19:19<20:04,  3.34it/s] 49%|████▊     | 3794/7813 [19:19<20:00,  3.35it/s] 49%|████▊     | 3795/7813 [19:19<20:12,  3.31it/s] 49%|████▊     | 3796/7813 [19:19<20:10,  3.32it/s] 49%|████▊     | 3797/7813 [19:20<19:59,  3.35it/s] 49%|████▊     | 3798/7813 [19:20<20:11,  3.31it/s] 49%|████▊     | 3799/7813 [19:20<20:04,  3.33it/s] 49%|████▊     | 3800/7813 [19:21<19:51,  3.37it/s]                                                   {'loss': 0.0256, 'grad_norm': 0.33563873171806335, 'learning_rate': 5.1375911941635733e-05, 'epoch': 0.49}
 49%|████▊     | 3800/7813 [19:21<19:51,  3.37it/s] 49%|████▊     | 3801/7813 [19:21<20:00,  3.34it/s] 49%|████▊     | 3802/7813 [19:21<19:51,  3.37it/s] 49%|████▊     | 3803/7813 [19:22<19:37,  3.40it/s] 49%|████▊     | 3804/7813 [19:22<19:34,  3.41it/s] 49%|████▊     | 3805/7813 [19:22<19:28,  3.43it/s] 49%|████▊     | 3806/7813 [19:22<19:22,  3.45it/s] 49%|████▊     | 3807/7813 [19:23<19:28,  3.43it/s] 49%|████▊     | 3808/7813 [19:23<19:36,  3.41it/s] 49%|████▉     | 3809/7813 [19:23<19:29,  3.42it/s] 49%|████▉     | 3810/7813 [19:24<19:26,  3.43it/s] 49%|████▉     | 3811/7813 [19:24<19:35,  3.41it/s] 49%|████▉     | 3812/7813 [19:24<19:29,  3.42it/s] 49%|████▉     | 3813/7813 [19:24<19:33,  3.41it/s] 49%|████▉     | 3814/7813 [19:25<19:45,  3.37it/s] 49%|████▉     | 3815/7813 [19:25<19:51,  3.35it/s] 49%|████▉     | 3816/7813 [19:25<20:03,  3.32it/s] 49%|████▉     | 3817/7813 [19:26<20:01,  3.33it/s] 49%|████▉     | 3818/7813 [19:26<20:00,  3.33it/s] 49%|████▉     | 3819/7813 [19:26<20:14,  3.29it/s] 49%|████▉     | 3820/7813 [19:27<20:05,  3.31it/s] 49%|████▉     | 3821/7813 [19:27<20:16,  3.28it/s] 49%|████▉     | 3822/7813 [19:27<20:21,  3.27it/s] 49%|████▉     | 3823/7813 [19:28<20:10,  3.30it/s] 49%|████▉     | 3824/7813 [19:28<19:56,  3.33it/s] 49%|████▉     | 3825/7813 [19:28<19:57,  3.33it/s] 49%|████▉     | 3826/7813 [19:28<19:51,  3.35it/s] 49%|████▉     | 3827/7813 [19:29<19:41,  3.37it/s] 49%|████▉     | 3828/7813 [19:29<19:44,  3.36it/s] 49%|████▉     | 3829/7813 [19:29<19:44,  3.36it/s] 49%|████▉     | 3830/7813 [19:30<19:39,  3.38it/s] 49%|████▉     | 3831/7813 [19:30<19:41,  3.37it/s] 49%|████▉     | 3832/7813 [19:30<19:41,  3.37it/s] 49%|████▉     | 3833/7813 [19:30<19:38,  3.38it/s] 49%|████▉     | 3834/7813 [19:31<19:48,  3.35it/s] 49%|████▉     | 3835/7813 [19:31<19:41,  3.37it/s] 49%|████▉     | 3836/7813 [19:31<19:31,  3.40it/s] 49%|████▉     | 3837/7813 [19:32<19:33,  3.39it/s] 49%|████▉     | 3838/7813 [19:32<19:33,  3.39it/s] 49%|████▉     | 3839/7813 [19:32<19:33,  3.39it/s] 49%|████▉     | 3840/7813 [19:33<19:42,  3.36it/s] 49%|████▉     | 3841/7813 [19:33<19:36,  3.38it/s] 49%|████▉     | 3842/7813 [19:33<20:35,  3.21it/s] 49%|████▉     | 3843/7813 [19:34<20:19,  3.26it/s] 49%|████▉     | 3844/7813 [19:34<20:19,  3.25it/s] 49%|████▉     | 3845/7813 [19:34<20:28,  3.23it/s] 49%|████▉     | 3846/7813 [19:34<20:15,  3.26it/s] 49%|████▉     | 3847/7813 [19:35<20:07,  3.29it/s] 49%|████▉     | 3848/7813 [19:35<19:52,  3.33it/s] 49%|████▉     | 3849/7813 [19:35<19:48,  3.33it/s] 49%|████▉     | 3850/7813 [19:36<19:35,  3.37it/s]                                                   {'loss': 0.025, 'grad_norm': 0.8206274509429932, 'learning_rate': 5.0735952899014464e-05, 'epoch': 0.49}
 49%|████▉     | 3850/7813 [19:36<19:35,  3.37it/s] 49%|████▉     | 3851/7813 [19:36<20:31,  3.22it/s] 49%|████▉     | 3852/7813 [19:36<21:00,  3.14it/s] 49%|████▉     | 3853/7813 [19:37<20:31,  3.22it/s] 49%|████▉     | 3854/7813 [19:37<20:09,  3.27it/s] 49%|████▉     | 3855/7813 [19:37<19:58,  3.30it/s] 49%|████▉     | 3856/7813 [19:37<19:54,  3.31it/s] 49%|████▉     | 3857/7813 [19:38<19:42,  3.34it/s] 49%|████▉     | 3858/7813 [19:38<19:33,  3.37it/s] 49%|████▉     | 3859/7813 [19:38<19:29,  3.38it/s] 49%|████▉     | 3860/7813 [19:39<20:44,  3.18it/s] 49%|████▉     | 3861/7813 [19:39<20:25,  3.22it/s] 49%|████▉     | 3862/7813 [19:39<19:58,  3.30it/s] 49%|████▉     | 3863/7813 [19:40<19:45,  3.33it/s] 49%|████▉     | 3864/7813 [19:40<19:27,  3.38it/s] 49%|████▉     | 3865/7813 [19:40<19:30,  3.37it/s] 49%|████▉     | 3866/7813 [19:40<19:27,  3.38it/s] 49%|████▉     | 3867/7813 [19:41<19:24,  3.39it/s] 50%|████▉     | 3868/7813 [19:41<20:13,  3.25it/s] 50%|████▉     | 3869/7813 [19:41<19:59,  3.29it/s] 50%|████▉     | 3870/7813 [19:42<19:58,  3.29it/s] 50%|████▉     | 3871/7813 [19:42<19:44,  3.33it/s] 50%|████▉     | 3872/7813 [19:42<19:30,  3.37it/s] 50%|████▉     | 3873/7813 [19:43<20:10,  3.25it/s] 50%|████▉     | 3874/7813 [19:43<20:44,  3.17it/s] 50%|████▉     | 3875/7813 [19:43<20:26,  3.21it/s] 50%|████▉     | 3876/7813 [19:44<20:56,  3.13it/s] 50%|████▉     | 3877/7813 [19:44<20:53,  3.14it/s] 50%|████▉     | 3878/7813 [19:44<20:31,  3.20it/s] 50%|████▉     | 3879/7813 [19:45<20:27,  3.21it/s] 50%|████▉     | 3880/7813 [19:45<20:35,  3.18it/s] 50%|████▉     | 3881/7813 [19:45<20:10,  3.25it/s] 50%|████▉     | 3882/7813 [19:45<20:33,  3.19it/s] 50%|████▉     | 3883/7813 [19:46<20:08,  3.25it/s] 50%|████▉     | 3884/7813 [19:46<19:54,  3.29it/s] 50%|████▉     | 3885/7813 [19:46<20:00,  3.27it/s] 50%|████▉     | 3886/7813 [19:47<19:38,  3.33it/s] 50%|████▉     | 3887/7813 [19:47<19:32,  3.35it/s] 50%|████▉     | 3888/7813 [19:47<19:24,  3.37it/s] 50%|████▉     | 3889/7813 [19:48<19:25,  3.37it/s] 50%|████▉     | 3890/7813 [19:48<19:18,  3.39it/s] 50%|████▉     | 3891/7813 [19:48<19:16,  3.39it/s] 50%|████▉     | 3892/7813 [19:48<19:09,  3.41it/s] 50%|████▉     | 3893/7813 [19:49<19:22,  3.37it/s] 50%|████▉     | 3894/7813 [19:49<19:25,  3.36it/s] 50%|████▉     | 3895/7813 [19:49<20:32,  3.18it/s] 50%|████▉     | 3896/7813 [19:50<20:22,  3.20it/s] 50%|████▉     | 3897/7813 [19:50<20:09,  3.24it/s] 50%|████▉     | 3898/7813 [19:50<20:15,  3.22it/s] 50%|████▉     | 3899/7813 [19:51<19:53,  3.28it/s] 50%|████▉     | 3900/7813 [19:51<19:47,  3.29it/s]                                                   {'loss': 0.0272, 'grad_norm': 0.3857077956199646, 'learning_rate': 5.00959938563932e-05, 'epoch': 0.5}
 50%|████▉     | 3900/7813 [19:51<19:47,  3.29it/s] 50%|████▉     | 3901/7813 [19:51<20:26,  3.19it/s] 50%|████▉     | 3902/7813 [19:51<20:07,  3.24it/s] 50%|████▉     | 3903/7813 [19:52<19:52,  3.28it/s] 50%|████▉     | 3904/7813 [19:52<19:39,  3.31it/s] 50%|████▉     | 3905/7813 [19:52<19:23,  3.36it/s] 50%|████▉     | 3906/7813 [19:53<19:32,  3.33it/s] 50%|█████     | 3907/7813 [19:53<19:35,  3.32it/s] 50%|█████     | 3908/7813 [19:53<20:02,  3.25it/s] 50%|█████     | 3909/7813 [19:54<19:57,  3.26it/s] 50%|█████     | 3910/7813 [19:54<19:42,  3.30it/s] 50%|█████     | 3911/7813 [19:54<19:42,  3.30it/s] 50%|█████     | 3912/7813 [19:55<19:53,  3.27it/s] 50%|█████     | 3913/7813 [19:55<19:41,  3.30it/s] 50%|█████     | 3914/7813 [19:55<19:36,  3.31it/s] 50%|█████     | 3915/7813 [19:55<19:30,  3.33it/s] 50%|█████     | 3916/7813 [19:56<19:18,  3.36it/s] 50%|█████     | 3917/7813 [19:56<19:26,  3.34it/s] 50%|█████     | 3918/7813 [19:56<19:16,  3.37it/s] 50%|█████     | 3919/7813 [19:57<19:15,  3.37it/s] 50%|█████     | 3920/7813 [19:57<19:30,  3.32it/s] 50%|█████     | 3921/7813 [19:57<19:45,  3.28it/s] 50%|█████     | 3922/7813 [19:58<19:34,  3.31it/s] 50%|█████     | 3923/7813 [19:58<19:44,  3.29it/s] 50%|█████     | 3924/7813 [19:58<19:45,  3.28it/s] 50%|█████     | 3925/7813 [19:58<19:38,  3.30it/s] 50%|█████     | 3926/7813 [19:59<19:35,  3.31it/s] 50%|█████     | 3927/7813 [19:59<20:04,  3.23it/s] 50%|█████     | 3928/7813 [19:59<19:40,  3.29it/s] 50%|█████     | 3929/7813 [20:00<20:07,  3.22it/s] 50%|█████     | 3930/7813 [20:00<19:49,  3.26it/s] 50%|█████     | 3931/7813 [20:00<20:22,  3.17it/s] 50%|█████     | 3932/7813 [20:01<19:55,  3.25it/s] 50%|█████     | 3933/7813 [20:01<19:40,  3.29it/s] 50%|█████     | 3934/7813 [20:01<19:35,  3.30it/s] 50%|█████     | 3935/7813 [20:01<19:30,  3.31it/s] 50%|█████     | 3936/7813 [20:02<19:35,  3.30it/s] 50%|█████     | 3937/7813 [20:02<19:29,  3.31it/s] 50%|█████     | 3938/7813 [20:02<19:26,  3.32it/s] 50%|█████     | 3939/7813 [20:03<20:01,  3.23it/s] 50%|█████     | 3940/7813 [20:03<20:40,  3.12it/s] 50%|█████     | 3941/7813 [20:03<20:20,  3.17it/s] 50%|█████     | 3942/7813 [20:04<19:58,  3.23it/s] 50%|█████     | 3943/7813 [20:04<20:04,  3.21it/s] 50%|█████     | 3944/7813 [20:04<19:46,  3.26it/s] 50%|█████     | 3945/7813 [20:05<19:30,  3.30it/s] 51%|█████     | 3946/7813 [20:05<20:20,  3.17it/s] 51%|█████     | 3947/7813 [20:05<19:56,  3.23it/s] 51%|█████     | 3948/7813 [20:06<19:45,  3.26it/s] 51%|█████     | 3949/7813 [20:06<19:58,  3.22it/s] 51%|█████     | 3950/7813 [20:06<19:37,  3.28it/s]                                                   {'loss': 0.0251, 'grad_norm': 0.23767079412937164, 'learning_rate': 4.9456034813771924e-05, 'epoch': 0.51}
 51%|█████     | 3950/7813 [20:06<19:37,  3.28it/s] 51%|█████     | 3951/7813 [20:06<19:30,  3.30it/s] 51%|█████     | 3952/7813 [20:07<19:15,  3.34it/s] 51%|█████     | 3953/7813 [20:07<19:08,  3.36it/s] 51%|█████     | 3954/7813 [20:07<19:11,  3.35it/s] 51%|█████     | 3955/7813 [20:08<19:05,  3.37it/s] 51%|█████     | 3956/7813 [20:08<19:04,  3.37it/s] 51%|█████     | 3957/7813 [20:08<19:02,  3.38it/s] 51%|█████     | 3958/7813 [20:08<18:59,  3.38it/s] 51%|█████     | 3959/7813 [20:09<19:06,  3.36it/s] 51%|█████     | 3960/7813 [20:09<19:44,  3.25it/s] 51%|█████     | 3961/7813 [20:09<19:30,  3.29it/s] 51%|█████     | 3962/7813 [20:10<19:26,  3.30it/s] 51%|█████     | 3963/7813 [20:10<19:44,  3.25it/s] 51%|█████     | 3964/7813 [20:10<20:25,  3.14it/s] 51%|█████     | 3965/7813 [20:11<19:52,  3.23it/s] 51%|█████     | 3966/7813 [20:11<19:35,  3.27it/s] 51%|█████     | 3967/7813 [20:11<19:54,  3.22it/s] 51%|█████     | 3968/7813 [20:12<19:33,  3.28it/s] 51%|█████     | 3969/7813 [20:12<19:23,  3.30it/s] 51%|█████     | 3970/7813 [20:12<19:15,  3.33it/s] 51%|█████     | 3971/7813 [20:12<19:21,  3.31it/s] 51%|█████     | 3972/7813 [20:13<19:20,  3.31it/s] 51%|█████     | 3973/7813 [20:13<19:15,  3.32it/s] 51%|█████     | 3974/7813 [20:13<19:03,  3.36it/s] 51%|█████     | 3975/7813 [20:14<19:02,  3.36it/s] 51%|█████     | 3976/7813 [20:14<19:02,  3.36it/s] 51%|█████     | 3977/7813 [20:14<18:59,  3.37it/s] 51%|█████     | 3978/7813 [20:15<19:02,  3.36it/s] 51%|█████     | 3979/7813 [20:15<18:57,  3.37it/s] 51%|█████     | 3980/7813 [20:15<18:53,  3.38it/s] 51%|█████     | 3981/7813 [20:15<18:46,  3.40it/s] 51%|█████     | 3982/7813 [20:16<18:45,  3.40it/s] 51%|█████     | 3983/7813 [20:16<18:47,  3.40it/s] 51%|█████     | 3984/7813 [20:16<18:58,  3.36it/s] 51%|█████     | 3985/7813 [20:17<18:54,  3.37it/s] 51%|█████     | 3986/7813 [20:17<19:41,  3.24it/s] 51%|█████     | 3987/7813 [20:17<19:26,  3.28it/s] 51%|█████     | 3988/7813 [20:18<20:10,  3.16it/s] 51%|█████     | 3989/7813 [20:18<19:56,  3.20it/s] 51%|█████     | 3990/7813 [20:18<19:42,  3.23it/s] 51%|█████     | 3991/7813 [20:19<19:31,  3.26it/s] 51%|█████     | 3992/7813 [20:19<19:13,  3.31it/s] 51%|█████     | 3993/7813 [20:19<19:09,  3.32it/s] 51%|█████     | 3994/7813 [20:19<19:04,  3.34it/s] 51%|█████     | 3995/7813 [20:20<19:06,  3.33it/s] 51%|█████     | 3996/7813 [20:20<19:02,  3.34it/s] 51%|█████     | 3997/7813 [20:20<18:57,  3.35it/s] 51%|█████     | 3998/7813 [20:21<18:50,  3.38it/s] 51%|█████     | 3999/7813 [20:21<18:42,  3.40it/s] 51%|█████     | 4000/7813 [20:21<18:51,  3.37it/s]                                                   {'loss': 0.0252, 'grad_norm': 0.2969982624053955, 'learning_rate': 4.881607577115065e-05, 'epoch': 0.51}
 51%|█████     | 4000/7813 [20:21<18:51,  3.37it/s] 51%|█████     | 4001/7813 [20:21<18:53,  3.36it/s] 51%|█████     | 4002/7813 [20:22<18:58,  3.35it/s] 51%|█████     | 4003/7813 [20:22<18:52,  3.36it/s] 51%|█████     | 4004/7813 [20:22<18:54,  3.36it/s] 51%|█████▏    | 4005/7813 [20:23<18:56,  3.35it/s] 51%|█████▏    | 4006/7813 [20:23<18:48,  3.37it/s] 51%|█████▏    | 4007/7813 [20:23<18:53,  3.36it/s] 51%|█████▏    | 4008/7813 [20:24<18:48,  3.37it/s] 51%|█████▏    | 4009/7813 [20:24<18:50,  3.36it/s] 51%|█████▏    | 4010/7813 [20:24<19:09,  3.31it/s] 51%|█████▏    | 4011/7813 [20:24<18:54,  3.35it/s] 51%|█████▏    | 4012/7813 [20:25<18:59,  3.34it/s] 51%|█████▏    | 4013/7813 [20:25<18:58,  3.34it/s] 51%|█████▏    | 4014/7813 [20:25<18:55,  3.34it/s] 51%|█████▏    | 4015/7813 [20:26<18:52,  3.35it/s] 51%|█████▏    | 4016/7813 [20:26<18:45,  3.37it/s] 51%|█████▏    | 4017/7813 [20:26<18:36,  3.40it/s] 51%|█████▏    | 4018/7813 [20:27<18:36,  3.40it/s] 51%|█████▏    | 4019/7813 [20:27<18:32,  3.41it/s] 51%|█████▏    | 4020/7813 [20:27<19:00,  3.33it/s] 51%|█████▏    | 4021/7813 [20:27<18:53,  3.34it/s] 51%|█████▏    | 4022/7813 [20:28<18:48,  3.36it/s] 51%|█████▏    | 4023/7813 [20:28<18:51,  3.35it/s] 52%|█████▏    | 4024/7813 [20:28<18:48,  3.36it/s] 52%|█████▏    | 4025/7813 [20:29<18:54,  3.34it/s] 52%|█████▏    | 4026/7813 [20:29<18:55,  3.34it/s] 52%|█████▏    | 4027/7813 [20:29<19:08,  3.30it/s] 52%|█████▏    | 4028/7813 [20:30<23:26,  2.69it/s] 52%|█████▏    | 4029/7813 [20:30<22:05,  2.85it/s] 52%|█████▏    | 4030/7813 [20:30<20:53,  3.02it/s] 52%|█████▏    | 4031/7813 [20:31<20:10,  3.12it/s] 52%|█████▏    | 4032/7813 [20:31<19:44,  3.19it/s] 52%|█████▏    | 4033/7813 [20:31<19:28,  3.23it/s] 52%|█████▏    | 4034/7813 [20:32<19:17,  3.27it/s] 52%|█████▏    | 4035/7813 [20:32<19:10,  3.28it/s] 52%|█████▏    | 4036/7813 [20:32<18:51,  3.34it/s] 52%|█████▏    | 4037/7813 [20:32<18:49,  3.34it/s] 52%|█████▏    | 4038/7813 [20:33<18:39,  3.37it/s] 52%|█████▏    | 4039/7813 [20:33<18:36,  3.38it/s] 52%|█████▏    | 4040/7813 [20:33<18:30,  3.40it/s] 52%|█████▏    | 4041/7813 [20:34<18:37,  3.38it/s] 52%|█████▏    | 4042/7813 [20:34<18:36,  3.38it/s] 52%|█████▏    | 4043/7813 [20:34<18:43,  3.35it/s] 52%|█████▏    | 4044/7813 [20:35<19:39,  3.19it/s] 52%|█████▏    | 4045/7813 [20:35<19:32,  3.21it/s] 52%|█████▏    | 4046/7813 [20:35<19:25,  3.23it/s] 52%|█████▏    | 4047/7813 [20:35<19:17,  3.25it/s] 52%|█████▏    | 4048/7813 [20:36<19:10,  3.27it/s] 52%|█████▏    | 4049/7813 [20:36<19:03,  3.29it/s] 52%|█████▏    | 4050/7813 [20:36<18:47,  3.34it/s]                                                   {'loss': 0.024, 'grad_norm': 0.30733102560043335, 'learning_rate': 4.817611672852938e-05, 'epoch': 0.52}
 52%|█████▏    | 4050/7813 [20:36<18:47,  3.34it/s] 52%|█████▏    | 4051/7813 [20:37<18:42,  3.35it/s] 52%|█████▏    | 4052/7813 [20:37<18:42,  3.35it/s] 52%|█████▏    | 4053/7813 [20:37<18:44,  3.34it/s] 52%|█████▏    | 4054/7813 [20:38<18:46,  3.34it/s] 52%|█████▏    | 4055/7813 [20:38<18:46,  3.33it/s] 52%|█████▏    | 4056/7813 [20:38<18:49,  3.33it/s] 52%|█████▏    | 4057/7813 [20:38<19:01,  3.29it/s] 52%|█████▏    | 4058/7813 [20:39<18:48,  3.33it/s] 52%|█████▏    | 4059/7813 [20:39<18:46,  3.33it/s] 52%|█████▏    | 4060/7813 [20:39<18:59,  3.29it/s] 52%|█████▏    | 4061/7813 [20:40<18:46,  3.33it/s] 52%|█████▏    | 4062/7813 [20:40<18:50,  3.32it/s] 52%|█████▏    | 4063/7813 [20:40<19:09,  3.26it/s] 52%|█████▏    | 4064/7813 [20:41<18:54,  3.30it/s] 52%|█████▏    | 4065/7813 [20:41<18:54,  3.30it/s] 52%|█████▏    | 4066/7813 [20:41<18:43,  3.34it/s] 52%|█████▏    | 4067/7813 [20:41<18:42,  3.34it/s] 52%|█████▏    | 4068/7813 [20:42<18:36,  3.35it/s] 52%|█████▏    | 4069/7813 [20:42<18:40,  3.34it/s] 52%|█████▏    | 4070/7813 [20:42<18:52,  3.30it/s] 52%|█████▏    | 4071/7813 [20:43<19:08,  3.26it/s] 52%|█████▏    | 4072/7813 [20:43<18:59,  3.28it/s] 52%|█████▏    | 4073/7813 [20:43<18:46,  3.32it/s] 52%|█████▏    | 4074/7813 [20:44<18:33,  3.36it/s] 52%|█████▏    | 4075/7813 [20:44<18:29,  3.37it/s] 52%|█████▏    | 4076/7813 [20:44<18:22,  3.39it/s] 52%|█████▏    | 4077/7813 [20:44<18:26,  3.38it/s] 52%|█████▏    | 4078/7813 [20:45<18:23,  3.38it/s] 52%|█████▏    | 4079/7813 [20:45<18:33,  3.35it/s] 52%|█████▏    | 4080/7813 [20:45<18:27,  3.37it/s] 52%|█████▏    | 4081/7813 [20:46<18:28,  3.37it/s] 52%|█████▏    | 4082/7813 [20:46<18:35,  3.35it/s] 52%|█████▏    | 4083/7813 [20:46<18:31,  3.36it/s] 52%|█████▏    | 4084/7813 [20:47<18:32,  3.35it/s] 52%|█████▏    | 4085/7813 [20:47<22:35,  2.75it/s] 52%|█████▏    | 4086/7813 [20:47<21:15,  2.92it/s] 52%|█████▏    | 4087/7813 [20:48<20:18,  3.06it/s] 52%|█████▏    | 4088/7813 [20:48<19:35,  3.17it/s] 52%|█████▏    | 4089/7813 [20:48<20:06,  3.09it/s] 52%|█████▏    | 4090/7813 [20:49<19:34,  3.17it/s] 52%|█████▏    | 4091/7813 [20:49<19:45,  3.14it/s] 52%|█████▏    | 4092/7813 [20:49<19:22,  3.20it/s] 52%|█████▏    | 4093/7813 [20:50<18:59,  3.26it/s] 52%|█████▏    | 4094/7813 [20:50<18:45,  3.30it/s] 52%|█████▏    | 4095/7813 [20:50<19:29,  3.18it/s] 52%|█████▏    | 4096/7813 [20:50<19:06,  3.24it/s] 52%|█████▏    | 4097/7813 [20:51<18:51,  3.28it/s] 52%|█████▏    | 4098/7813 [20:51<18:35,  3.33it/s] 52%|█████▏    | 4099/7813 [20:51<18:28,  3.35it/s] 52%|█████▏    | 4100/7813 [20:52<18:29,  3.35it/s]                                                   {'loss': 0.0252, 'grad_norm': 0.26868948340415955, 'learning_rate': 4.753615768590811e-05, 'epoch': 0.52}
 52%|█████▏    | 4100/7813 [20:52<18:29,  3.35it/s] 52%|█████▏    | 4101/7813 [20:52<18:32,  3.34it/s] 53%|█████▎    | 4102/7813 [20:52<18:36,  3.32it/s] 53%|█████▎    | 4103/7813 [20:53<18:48,  3.29it/s] 53%|█████▎    | 4104/7813 [20:53<19:06,  3.24it/s] 53%|█████▎    | 4105/7813 [20:53<18:56,  3.26it/s] 53%|█████▎    | 4106/7813 [20:53<19:15,  3.21it/s] 53%|█████▎    | 4107/7813 [20:54<19:05,  3.24it/s] 53%|█████▎    | 4108/7813 [20:54<19:06,  3.23it/s] 53%|█████▎    | 4109/7813 [20:54<18:48,  3.28it/s] 53%|█████▎    | 4110/7813 [20:55<18:46,  3.29it/s] 53%|█████▎    | 4111/7813 [20:55<18:35,  3.32it/s] 53%|█████▎    | 4112/7813 [20:55<18:41,  3.30it/s] 53%|█████▎    | 4113/7813 [20:56<18:38,  3.31it/s] 53%|█████▎    | 4114/7813 [20:56<19:14,  3.20it/s] 53%|█████▎    | 4115/7813 [20:56<19:00,  3.24it/s] 53%|█████▎    | 4116/7813 [20:57<18:43,  3.29it/s] 53%|█████▎    | 4117/7813 [20:57<18:30,  3.33it/s] 53%|█████▎    | 4118/7813 [20:57<19:02,  3.23it/s] 53%|█████▎    | 4119/7813 [20:57<19:22,  3.18it/s] 53%|█████▎    | 4120/7813 [20:58<19:14,  3.20it/s] 53%|█████▎    | 4121/7813 [20:58<18:43,  3.29it/s] 53%|█████▎    | 4122/7813 [20:58<18:29,  3.33it/s] 53%|█████▎    | 4123/7813 [20:59<18:47,  3.27it/s] 53%|█████▎    | 4124/7813 [20:59<18:31,  3.32it/s] 53%|█████▎    | 4125/7813 [20:59<18:36,  3.30it/s] 53%|█████▎    | 4126/7813 [21:00<18:39,  3.29it/s] 53%|█████▎    | 4127/7813 [21:00<18:22,  3.34it/s] 53%|█████▎    | 4128/7813 [21:00<19:34,  3.14it/s] 53%|█████▎    | 4129/7813 [21:01<19:01,  3.23it/s] 53%|█████▎    | 4130/7813 [21:01<19:04,  3.22it/s] 53%|█████▎    | 4131/7813 [21:01<18:36,  3.30it/s] 53%|█████▎    | 4132/7813 [21:01<18:27,  3.32it/s] 53%|█████▎    | 4133/7813 [21:02<19:04,  3.21it/s] 53%|█████▎    | 4134/7813 [21:02<18:37,  3.29it/s] 53%|█████▎    | 4135/7813 [21:02<18:32,  3.30it/s] 53%|█████▎    | 4136/7813 [21:03<18:27,  3.32it/s] 53%|█████▎    | 4137/7813 [21:03<18:20,  3.34it/s] 53%|█████▎    | 4138/7813 [21:03<18:17,  3.35it/s] 53%|█████▎    | 4139/7813 [21:04<18:05,  3.38it/s] 53%|█████▎    | 4140/7813 [21:04<18:03,  3.39it/s] 53%|█████▎    | 4141/7813 [21:04<18:03,  3.39it/s] 53%|█████▎    | 4142/7813 [21:04<18:01,  3.39it/s] 53%|█████▎    | 4143/7813 [21:05<17:54,  3.42it/s] 53%|█████▎    | 4144/7813 [21:05<17:58,  3.40it/s] 53%|█████▎    | 4145/7813 [21:05<18:02,  3.39it/s] 53%|█████▎    | 4146/7813 [21:06<18:34,  3.29it/s] 53%|█████▎    | 4147/7813 [21:06<18:22,  3.32it/s] 53%|█████▎    | 4148/7813 [21:06<18:16,  3.34it/s] 53%|█████▎    | 4149/7813 [21:06<18:17,  3.34it/s] 53%|█████▎    | 4150/7813 [21:07<18:18,  3.33it/s]                                                   {'loss': 0.0225, 'grad_norm': 0.2471390962600708, 'learning_rate': 4.689619864328683e-05, 'epoch': 0.53}
 53%|█████▎    | 4150/7813 [21:07<18:18,  3.33it/s] 53%|█████▎    | 4151/7813 [21:07<18:10,  3.36it/s] 53%|█████▎    | 4152/7813 [21:07<18:07,  3.37it/s] 53%|█████▎    | 4153/7813 [21:08<18:05,  3.37it/s] 53%|█████▎    | 4154/7813 [21:08<18:00,  3.39it/s] 53%|█████▎    | 4155/7813 [21:08<18:00,  3.39it/s] 53%|█████▎    | 4156/7813 [21:09<17:50,  3.42it/s] 53%|█████▎    | 4157/7813 [21:09<17:52,  3.41it/s] 53%|█████▎    | 4158/7813 [21:09<17:58,  3.39it/s] 53%|█████▎    | 4159/7813 [21:09<18:26,  3.30it/s] 53%|█████▎    | 4160/7813 [21:10<18:18,  3.33it/s] 53%|█████▎    | 4161/7813 [21:10<18:19,  3.32it/s] 53%|█████▎    | 4162/7813 [21:10<18:40,  3.26it/s] 53%|█████▎    | 4163/7813 [21:11<19:09,  3.17it/s] 53%|█████▎    | 4164/7813 [21:11<18:55,  3.21it/s] 53%|█████▎    | 4165/7813 [21:11<18:42,  3.25it/s] 53%|█████▎    | 4166/7813 [21:12<18:28,  3.29it/s] 53%|█████▎    | 4167/7813 [21:12<18:16,  3.33it/s] 53%|█████▎    | 4168/7813 [21:12<18:22,  3.30it/s] 53%|█████▎    | 4169/7813 [21:13<18:32,  3.27it/s] 53%|█████▎    | 4170/7813 [21:13<19:13,  3.16it/s] 53%|█████▎    | 4171/7813 [21:13<18:54,  3.21it/s] 53%|█████▎    | 4172/7813 [21:13<18:32,  3.27it/s] 53%|█████▎    | 4173/7813 [21:14<18:25,  3.29it/s] 53%|█████▎    | 4174/7813 [21:14<18:19,  3.31it/s] 53%|█████▎    | 4175/7813 [21:14<18:17,  3.31it/s] 53%|█████▎    | 4176/7813 [21:15<18:10,  3.34it/s] 53%|█████▎    | 4177/7813 [21:15<18:12,  3.33it/s] 53%|█████▎    | 4178/7813 [21:15<18:13,  3.32it/s] 53%|█████▎    | 4179/7813 [21:16<18:15,  3.32it/s] 54%|█████▎    | 4180/7813 [21:16<18:53,  3.20it/s] 54%|█████▎    | 4181/7813 [21:16<18:41,  3.24it/s] 54%|█████▎    | 4182/7813 [21:16<18:31,  3.27it/s] 54%|█████▎    | 4183/7813 [21:17<18:18,  3.30it/s] 54%|█████▎    | 4184/7813 [21:17<18:11,  3.32it/s] 54%|█████▎    | 4185/7813 [21:17<18:00,  3.36it/s] 54%|█████▎    | 4186/7813 [21:18<18:04,  3.34it/s] 54%|█████▎    | 4187/7813 [21:18<18:02,  3.35it/s] 54%|█████▎    | 4188/7813 [21:18<17:59,  3.36it/s] 54%|█████▎    | 4189/7813 [21:19<17:52,  3.38it/s] 54%|█████▎    | 4190/7813 [21:19<17:48,  3.39it/s] 54%|█████▎    | 4191/7813 [21:19<17:55,  3.37it/s] 54%|█████▎    | 4192/7813 [21:19<17:57,  3.36it/s] 54%|█████▎    | 4193/7813 [21:20<17:52,  3.37it/s] 54%|█████▎    | 4194/7813 [21:20<17:45,  3.40it/s] 54%|█████▎    | 4195/7813 [21:20<18:01,  3.35it/s] 54%|█████▎    | 4196/7813 [21:21<18:05,  3.33it/s] 54%|█████▎    | 4197/7813 [21:21<18:07,  3.32it/s] 54%|█████▎    | 4198/7813 [21:21<18:19,  3.29it/s] 54%|█████▎    | 4199/7813 [21:22<18:12,  3.31it/s] 54%|█████▍    | 4200/7813 [21:22<18:01,  3.34it/s]                                                   {'loss': 0.0241, 'grad_norm': 0.3848484456539154, 'learning_rate': 4.625623960066556e-05, 'epoch': 0.54}
 54%|█████▍    | 4200/7813 [21:22<18:01,  3.34it/s] 54%|█████▍    | 4201/7813 [21:22<18:05,  3.33it/s] 54%|█████▍    | 4202/7813 [21:22<17:56,  3.35it/s] 54%|█████▍    | 4203/7813 [21:23<18:32,  3.24it/s] 54%|█████▍    | 4204/7813 [21:23<18:56,  3.18it/s] 54%|█████▍    | 4205/7813 [21:23<18:34,  3.24it/s] 54%|█████▍    | 4206/7813 [21:24<18:16,  3.29it/s] 54%|█████▍    | 4207/7813 [21:24<18:02,  3.33it/s] 54%|█████▍    | 4208/7813 [21:24<17:53,  3.36it/s] 54%|█████▍    | 4209/7813 [21:25<17:43,  3.39it/s] 54%|█████▍    | 4210/7813 [21:25<17:57,  3.34it/s] 54%|█████▍    | 4211/7813 [21:25<17:53,  3.36it/s] 54%|█████▍    | 4212/7813 [21:25<18:10,  3.30it/s] 54%|█████▍    | 4213/7813 [21:26<18:03,  3.32it/s] 54%|█████▍    | 4214/7813 [21:26<18:03,  3.32it/s] 54%|█████▍    | 4215/7813 [21:26<17:54,  3.35it/s] 54%|█████▍    | 4216/7813 [21:27<18:32,  3.23it/s] 54%|█████▍    | 4217/7813 [21:27<18:38,  3.21it/s] 54%|█████▍    | 4218/7813 [21:27<18:20,  3.27it/s] 54%|█████▍    | 4219/7813 [21:28<18:58,  3.16it/s] 54%|█████▍    | 4220/7813 [21:28<19:04,  3.14it/s] 54%|█████▍    | 4221/7813 [21:28<18:35,  3.22it/s] 54%|█████▍    | 4222/7813 [21:29<18:18,  3.27it/s] 54%|█████▍    | 4223/7813 [21:29<18:01,  3.32it/s] 54%|█████▍    | 4224/7813 [21:29<17:53,  3.34it/s] 54%|█████▍    | 4225/7813 [21:30<18:37,  3.21it/s] 54%|█████▍    | 4226/7813 [21:30<18:18,  3.27it/s] 54%|█████▍    | 4227/7813 [21:30<18:01,  3.31it/s] 54%|█████▍    | 4228/7813 [21:30<17:49,  3.35it/s] 54%|█████▍    | 4229/7813 [21:31<17:53,  3.34it/s] 54%|█████▍    | 4230/7813 [21:31<18:36,  3.21it/s] 54%|█████▍    | 4231/7813 [21:31<18:23,  3.25it/s] 54%|█████▍    | 4232/7813 [21:32<18:12,  3.28it/s] 54%|█████▍    | 4233/7813 [21:32<18:02,  3.31it/s] 54%|█████▍    | 4234/7813 [21:32<17:56,  3.33it/s] 54%|█████▍    | 4235/7813 [21:32<17:44,  3.36it/s] 54%|█████▍    | 4236/7813 [21:33<17:43,  3.36it/s] 54%|█████▍    | 4237/7813 [21:33<17:47,  3.35it/s] 54%|█████▍    | 4238/7813 [21:33<17:49,  3.34it/s] 54%|█████▍    | 4239/7813 [21:34<18:19,  3.25it/s] 54%|█████▍    | 4240/7813 [21:34<18:09,  3.28it/s] 54%|█████▍    | 4241/7813 [21:34<18:14,  3.26it/s] 54%|█████▍    | 4242/7813 [21:35<18:00,  3.31it/s] 54%|█████▍    | 4243/7813 [21:35<18:08,  3.28it/s] 54%|█████▍    | 4244/7813 [21:35<18:25,  3.23it/s] 54%|█████▍    | 4245/7813 [21:36<18:09,  3.27it/s] 54%|█████▍    | 4246/7813 [21:36<18:31,  3.21it/s] 54%|█████▍    | 4247/7813 [21:36<18:34,  3.20it/s] 54%|█████▍    | 4248/7813 [21:36<18:09,  3.27it/s] 54%|█████▍    | 4249/7813 [21:37<18:06,  3.28it/s] 54%|█████▍    | 4250/7813 [21:37<17:57,  3.31it/s]                                                   {'loss': 0.0223, 'grad_norm': 0.29966309666633606, 'learning_rate': 4.561628055804429e-05, 'epoch': 0.54}
 54%|█████▍    | 4250/7813 [21:37<17:57,  3.31it/s] 54%|█████▍    | 4251/7813 [21:37<17:46,  3.34it/s] 54%|█████▍    | 4252/7813 [21:38<17:38,  3.36it/s] 54%|█████▍    | 4253/7813 [21:38<17:28,  3.39it/s] 54%|█████▍    | 4254/7813 [21:38<17:25,  3.40it/s] 54%|█████▍    | 4255/7813 [21:39<17:26,  3.40it/s] 54%|█████▍    | 4256/7813 [21:39<17:28,  3.39it/s] 54%|█████▍    | 4257/7813 [21:39<17:28,  3.39it/s] 54%|█████▍    | 4258/7813 [21:39<17:18,  3.42it/s] 55%|█████▍    | 4259/7813 [21:40<17:23,  3.40it/s] 55%|█████▍    | 4260/7813 [21:40<18:06,  3.27it/s] 55%|█████▍    | 4261/7813 [21:40<17:51,  3.31it/s] 55%|█████▍    | 4262/7813 [21:41<18:32,  3.19it/s] 55%|█████▍    | 4263/7813 [21:41<18:14,  3.24it/s] 55%|█████▍    | 4264/7813 [21:41<18:09,  3.26it/s] 55%|█████▍    | 4265/7813 [21:42<17:52,  3.31it/s] 55%|█████▍    | 4266/7813 [21:42<17:42,  3.34it/s] 55%|█████▍    | 4267/7813 [21:42<17:35,  3.36it/s] 55%|█████▍    | 4268/7813 [21:42<17:30,  3.38it/s] 55%|█████▍    | 4269/7813 [21:43<17:23,  3.40it/s] 55%|█████▍    | 4270/7813 [21:43<17:24,  3.39it/s] 55%|█████▍    | 4271/7813 [21:43<17:21,  3.40it/s] 55%|█████▍    | 4272/7813 [21:44<17:27,  3.38it/s] 55%|█████▍    | 4273/7813 [21:44<17:38,  3.34it/s] 55%|█████▍    | 4274/7813 [21:44<17:39,  3.34it/s] 55%|█████▍    | 4275/7813 [21:45<18:11,  3.24it/s] 55%|█████▍    | 4276/7813 [21:45<18:14,  3.23it/s] 55%|█████▍    | 4277/7813 [21:45<18:04,  3.26it/s] 55%|█████▍    | 4278/7813 [21:45<17:55,  3.29it/s] 55%|█████▍    | 4279/7813 [21:46<17:44,  3.32it/s] 55%|█████▍    | 4280/7813 [21:46<17:45,  3.31it/s] 55%|█████▍    | 4281/7813 [21:46<18:19,  3.21it/s] 55%|█████▍    | 4282/7813 [21:47<18:03,  3.26it/s] 55%|█████▍    | 4283/7813 [21:47<18:03,  3.26it/s] 55%|█████▍    | 4284/7813 [21:47<17:50,  3.30it/s] 55%|█████▍    | 4285/7813 [21:48<17:59,  3.27it/s] 55%|█████▍    | 4286/7813 [21:48<17:51,  3.29it/s] 55%|█████▍    | 4287/7813 [21:48<17:34,  3.34it/s] 55%|█████▍    | 4288/7813 [21:49<17:49,  3.30it/s] 55%|█████▍    | 4289/7813 [21:49<17:36,  3.33it/s] 55%|█████▍    | 4290/7813 [21:49<17:33,  3.34it/s] 55%|█████▍    | 4291/7813 [21:49<17:41,  3.32it/s] 55%|█████▍    | 4292/7813 [21:50<17:40,  3.32it/s] 55%|█████▍    | 4293/7813 [21:50<17:36,  3.33it/s] 55%|█████▍    | 4294/7813 [21:50<17:24,  3.37it/s] 55%|█████▍    | 4295/7813 [21:51<17:22,  3.37it/s] 55%|█████▍    | 4296/7813 [21:51<17:20,  3.38it/s] 55%|█████▍    | 4297/7813 [21:51<17:24,  3.37it/s] 55%|█████▌    | 4298/7813 [21:52<17:32,  3.34it/s] 55%|█████▌    | 4299/7813 [21:52<18:10,  3.22it/s] 55%|█████▌    | 4300/7813 [21:52<17:58,  3.26it/s]                                                   {'loss': 0.0217, 'grad_norm': 0.331052303314209, 'learning_rate': 4.4976321515423014e-05, 'epoch': 0.55}
 55%|█████▌    | 4300/7813 [21:52<17:58,  3.26it/s] 55%|█████▌    | 4301/7813 [21:52<17:48,  3.29it/s] 55%|█████▌    | 4302/7813 [21:53<17:39,  3.31it/s] 55%|█████▌    | 4303/7813 [21:53<17:41,  3.31it/s] 55%|█████▌    | 4304/7813 [21:53<17:36,  3.32it/s] 55%|█████▌    | 4305/7813 [21:54<17:32,  3.33it/s] 55%|█████▌    | 4306/7813 [21:54<17:26,  3.35it/s] 55%|█████▌    | 4307/7813 [21:54<17:19,  3.37it/s] 55%|█████▌    | 4308/7813 [21:55<17:13,  3.39it/s] 55%|█████▌    | 4309/7813 [21:55<17:17,  3.38it/s] 55%|█████▌    | 4310/7813 [21:55<17:12,  3.39it/s] 55%|█████▌    | 4311/7813 [21:55<17:46,  3.29it/s] 55%|█████▌    | 4312/7813 [21:56<17:59,  3.24it/s] 55%|█████▌    | 4313/7813 [21:56<18:31,  3.15it/s] 55%|█████▌    | 4314/7813 [21:56<18:02,  3.23it/s] 55%|█████▌    | 4315/7813 [21:57<17:54,  3.26it/s] 55%|█████▌    | 4316/7813 [21:57<17:37,  3.31it/s] 55%|█████▌    | 4317/7813 [21:57<17:24,  3.35it/s] 55%|█████▌    | 4318/7813 [21:58<17:18,  3.37it/s] 55%|█████▌    | 4319/7813 [21:58<17:14,  3.38it/s] 55%|█████▌    | 4320/7813 [21:58<17:14,  3.38it/s] 55%|█████▌    | 4321/7813 [21:58<17:17,  3.36it/s] 55%|█████▌    | 4322/7813 [21:59<17:12,  3.38it/s] 55%|█████▌    | 4323/7813 [21:59<17:10,  3.39it/s] 55%|█████▌    | 4324/7813 [21:59<17:07,  3.40it/s] 55%|█████▌    | 4325/7813 [22:00<17:38,  3.30it/s] 55%|█████▌    | 4326/7813 [22:00<17:29,  3.32it/s] 55%|█████▌    | 4327/7813 [22:00<17:17,  3.36it/s] 55%|█████▌    | 4328/7813 [22:01<17:14,  3.37it/s] 55%|█████▌    | 4329/7813 [22:01<17:09,  3.39it/s] 55%|█████▌    | 4330/7813 [22:01<17:03,  3.40it/s] 55%|█████▌    | 4331/7813 [22:01<17:05,  3.40it/s] 55%|█████▌    | 4332/7813 [22:02<17:03,  3.40it/s] 55%|█████▌    | 4333/7813 [22:02<17:03,  3.40it/s] 55%|█████▌    | 4334/7813 [22:02<17:19,  3.35it/s] 55%|█████▌    | 4335/7813 [22:03<17:09,  3.38it/s] 55%|█████▌    | 4336/7813 [22:03<17:08,  3.38it/s] 56%|█████▌    | 4337/7813 [22:03<17:12,  3.37it/s] 56%|█████▌    | 4338/7813 [22:03<17:20,  3.34it/s] 56%|█████▌    | 4339/7813 [22:04<17:19,  3.34it/s] 56%|█████▌    | 4340/7813 [22:04<17:15,  3.35it/s] 56%|█████▌    | 4341/7813 [22:04<17:07,  3.38it/s] 56%|█████▌    | 4342/7813 [22:05<17:04,  3.39it/s] 56%|█████▌    | 4343/7813 [22:05<17:38,  3.28it/s] 56%|█████▌    | 4344/7813 [22:05<17:33,  3.29it/s] 56%|█████▌    | 4345/7813 [22:06<17:26,  3.32it/s] 56%|█████▌    | 4346/7813 [22:06<17:19,  3.34it/s] 56%|█████▌    | 4347/7813 [22:06<17:10,  3.36it/s] 56%|█████▌    | 4348/7813 [22:06<17:01,  3.39it/s] 56%|█████▌    | 4349/7813 [22:07<16:58,  3.40it/s] 56%|█████▌    | 4350/7813 [22:07<16:58,  3.40it/s]                                                   {'loss': 0.022, 'grad_norm': 0.3905204236507416, 'learning_rate': 4.433636247280174e-05, 'epoch': 0.56}
 56%|█████▌    | 4350/7813 [22:07<16:58,  3.40it/s] 56%|█████▌    | 4351/7813 [22:07<16:56,  3.40it/s] 56%|█████▌    | 4352/7813 [22:08<17:00,  3.39it/s] 56%|█████▌    | 4353/7813 [22:08<17:32,  3.29it/s] 56%|█████▌    | 4354/7813 [22:08<17:26,  3.31it/s] 56%|█████▌    | 4355/7813 [22:09<17:32,  3.28it/s] 56%|█████▌    | 4356/7813 [22:09<17:27,  3.30it/s] 56%|█████▌    | 4357/7813 [22:09<18:05,  3.18it/s] 56%|█████▌    | 4358/7813 [22:10<17:50,  3.23it/s] 56%|█████▌    | 4359/7813 [22:10<17:34,  3.28it/s] 56%|█████▌    | 4360/7813 [22:10<17:26,  3.30it/s] 56%|█████▌    | 4361/7813 [22:10<18:02,  3.19it/s] 56%|█████▌    | 4362/7813 [22:11<17:42,  3.25it/s] 56%|█████▌    | 4363/7813 [22:11<17:25,  3.30it/s] 56%|█████▌    | 4364/7813 [22:11<17:16,  3.33it/s] 56%|█████▌    | 4365/7813 [22:12<17:44,  3.24it/s] 56%|█████▌    | 4366/7813 [22:12<17:33,  3.27it/s] 56%|█████▌    | 4367/7813 [22:12<17:27,  3.29it/s] 56%|█████▌    | 4368/7813 [22:13<17:50,  3.22it/s] 56%|█████▌    | 4369/7813 [22:13<17:28,  3.28it/s] 56%|█████▌    | 4370/7813 [22:13<17:21,  3.31it/s] 56%|█████▌    | 4371/7813 [22:14<18:04,  3.17it/s] 56%|█████▌    | 4372/7813 [22:14<17:58,  3.19it/s] 56%|█████▌    | 4373/7813 [22:14<17:31,  3.27it/s] 56%|█████▌    | 4374/7813 [22:14<17:17,  3.31it/s] 56%|█████▌    | 4375/7813 [22:15<17:06,  3.35it/s] 56%|█████▌    | 4376/7813 [22:15<17:00,  3.37it/s] 56%|█████▌    | 4377/7813 [22:15<17:04,  3.35it/s] 56%|█████▌    | 4378/7813 [22:16<17:50,  3.21it/s] 56%|█████▌    | 4379/7813 [22:16<17:40,  3.24it/s] 56%|█████▌    | 4380/7813 [22:16<17:27,  3.28it/s] 56%|█████▌    | 4381/7813 [22:17<17:16,  3.31it/s] 56%|█████▌    | 4382/7813 [22:17<17:06,  3.34it/s] 56%|█████▌    | 4383/7813 [22:17<16:56,  3.37it/s] 56%|█████▌    | 4384/7813 [22:17<16:52,  3.39it/s] 56%|█████▌    | 4385/7813 [22:18<17:31,  3.26it/s] 56%|█████▌    | 4386/7813 [22:18<17:24,  3.28it/s] 56%|█████▌    | 4387/7813 [22:18<17:20,  3.29it/s] 56%|█████▌    | 4388/7813 [22:19<17:13,  3.31it/s] 56%|█████▌    | 4389/7813 [22:19<17:21,  3.29it/s] 56%|█████▌    | 4390/7813 [22:19<17:11,  3.32it/s] 56%|█████▌    | 4391/7813 [22:20<17:03,  3.34it/s] 56%|█████▌    | 4392/7813 [22:20<17:06,  3.33it/s] 56%|█████▌    | 4393/7813 [22:20<17:04,  3.34it/s] 56%|█████▌    | 4394/7813 [22:20<17:34,  3.24it/s] 56%|█████▋    | 4395/7813 [22:21<17:29,  3.26it/s] 56%|█████▋    | 4396/7813 [22:21<17:36,  3.24it/s] 56%|█████▋    | 4397/7813 [22:21<18:07,  3.14it/s] 56%|█████▋    | 4398/7813 [22:22<17:48,  3.20it/s] 56%|█████▋    | 4399/7813 [22:22<17:45,  3.20it/s] 56%|█████▋    | 4400/7813 [22:22<17:49,  3.19it/s]                                                   {'loss': 0.0225, 'grad_norm': 0.3056284785270691, 'learning_rate': 4.3696403430180474e-05, 'epoch': 0.56}
 56%|█████▋    | 4400/7813 [22:22<17:49,  3.19it/s] 56%|█████▋    | 4401/7813 [22:23<17:30,  3.25it/s] 56%|█████▋    | 4402/7813 [22:23<17:21,  3.27it/s] 56%|█████▋    | 4403/7813 [22:23<17:06,  3.32it/s] 56%|█████▋    | 4404/7813 [22:24<17:03,  3.33it/s] 56%|█████▋    | 4405/7813 [22:24<16:53,  3.36it/s] 56%|█████▋    | 4406/7813 [22:24<16:57,  3.35it/s] 56%|█████▋    | 4407/7813 [22:24<16:48,  3.38it/s] 56%|█████▋    | 4408/7813 [22:25<16:46,  3.38it/s] 56%|█████▋    | 4409/7813 [22:25<16:52,  3.36it/s] 56%|█████▋    | 4410/7813 [22:25<17:28,  3.25it/s] 56%|█████▋    | 4411/7813 [22:26<17:08,  3.31it/s] 56%|█████▋    | 4412/7813 [22:26<17:38,  3.21it/s] 56%|█████▋    | 4413/7813 [22:26<17:37,  3.22it/s] 56%|█████▋    | 4414/7813 [22:27<17:28,  3.24it/s] 57%|█████▋    | 4415/7813 [22:27<17:16,  3.28it/s] 57%|█████▋    | 4416/7813 [22:27<17:42,  3.20it/s] 57%|█████▋    | 4417/7813 [22:27<17:25,  3.25it/s] 57%|█████▋    | 4418/7813 [22:28<17:17,  3.27it/s] 57%|█████▋    | 4419/7813 [22:28<17:05,  3.31it/s] 57%|█████▋    | 4420/7813 [22:28<17:01,  3.32it/s] 57%|█████▋    | 4421/7813 [22:29<17:12,  3.29it/s] 57%|█████▋    | 4422/7813 [22:29<17:04,  3.31it/s] 57%|█████▋    | 4423/7813 [22:29<17:06,  3.30it/s] 57%|█████▋    | 4424/7813 [22:30<17:00,  3.32it/s] 57%|█████▋    | 4425/7813 [22:30<16:55,  3.34it/s] 57%|█████▋    | 4426/7813 [22:30<16:56,  3.33it/s] 57%|█████▋    | 4427/7813 [22:30<16:49,  3.35it/s] 57%|█████▋    | 4428/7813 [22:31<16:55,  3.33it/s] 57%|█████▋    | 4429/7813 [22:31<16:58,  3.32it/s] 57%|█████▋    | 4430/7813 [22:31<17:04,  3.30it/s] 57%|█████▋    | 4431/7813 [22:32<17:00,  3.31it/s] 57%|█████▋    | 4432/7813 [22:32<16:54,  3.33it/s] 57%|█████▋    | 4433/7813 [22:32<16:56,  3.32it/s] 57%|█████▋    | 4434/7813 [22:33<17:09,  3.28it/s] 57%|█████▋    | 4435/7813 [22:33<17:27,  3.23it/s] 57%|█████▋    | 4436/7813 [22:33<17:11,  3.27it/s] 57%|█████▋    | 4437/7813 [22:34<17:37,  3.19it/s] 57%|█████▋    | 4438/7813 [22:34<17:25,  3.23it/s] 57%|█████▋    | 4439/7813 [22:34<17:18,  3.25it/s] 57%|█████▋    | 4440/7813 [22:34<17:00,  3.31it/s] 57%|█████▋    | 4441/7813 [22:35<16:50,  3.34it/s] 57%|█████▋    | 4442/7813 [22:35<16:50,  3.33it/s] 57%|█████▋    | 4443/7813 [22:35<16:47,  3.34it/s] 57%|█████▋    | 4444/7813 [22:36<16:42,  3.36it/s] 57%|█████▋    | 4445/7813 [22:36<16:45,  3.35it/s] 57%|█████▋    | 4446/7813 [22:36<16:42,  3.36it/s] 57%|█████▋    | 4447/7813 [22:37<16:42,  3.36it/s] 57%|█████▋    | 4448/7813 [22:37<16:41,  3.36it/s] 57%|█████▋    | 4449/7813 [22:37<16:38,  3.37it/s] 57%|█████▋    | 4450/7813 [22:37<16:49,  3.33it/s]                                                   {'loss': 0.0207, 'grad_norm': 0.3336925804615021, 'learning_rate': 4.30564443875592e-05, 'epoch': 0.57}
 57%|█████▋    | 4450/7813 [22:37<16:49,  3.33it/s] 57%|█████▋    | 4451/7813 [22:38<16:49,  3.33it/s] 57%|█████▋    | 4452/7813 [22:38<17:16,  3.24it/s] 57%|█████▋    | 4453/7813 [22:38<17:18,  3.24it/s] 57%|█████▋    | 4454/7813 [22:39<17:08,  3.27it/s] 57%|█████▋    | 4455/7813 [22:39<17:00,  3.29it/s] 57%|█████▋    | 4456/7813 [22:39<17:26,  3.21it/s] 57%|█████▋    | 4457/7813 [22:40<17:13,  3.25it/s] 57%|█████▋    | 4458/7813 [22:40<16:57,  3.30it/s] 57%|█████▋    | 4459/7813 [22:40<16:53,  3.31it/s] 57%|█████▋    | 4460/7813 [22:41<16:53,  3.31it/s] 57%|█████▋    | 4461/7813 [22:41<16:50,  3.32it/s] 57%|█████▋    | 4462/7813 [22:41<16:41,  3.35it/s] 57%|█████▋    | 4463/7813 [22:41<16:42,  3.34it/s] 57%|█████▋    | 4464/7813 [22:42<16:30,  3.38it/s] 57%|█████▋    | 4465/7813 [22:42<16:36,  3.36it/s] 57%|█████▋    | 4466/7813 [22:42<16:33,  3.37it/s] 57%|█████▋    | 4467/7813 [22:43<16:32,  3.37it/s] 57%|█████▋    | 4468/7813 [22:43<16:53,  3.30it/s] 57%|█████▋    | 4469/7813 [22:43<16:41,  3.34it/s] 57%|█████▋    | 4470/7813 [22:43<16:34,  3.36it/s] 57%|█████▋    | 4471/7813 [22:44<16:45,  3.32it/s] 57%|█████▋    | 4472/7813 [22:44<16:49,  3.31it/s] 57%|█████▋    | 4473/7813 [22:44<16:38,  3.35it/s] 57%|█████▋    | 4474/7813 [22:45<16:40,  3.34it/s] 57%|█████▋    | 4475/7813 [22:45<16:28,  3.38it/s] 57%|█████▋    | 4476/7813 [22:45<16:30,  3.37it/s] 57%|█████▋    | 4477/7813 [22:46<16:29,  3.37it/s] 57%|█████▋    | 4478/7813 [22:46<16:41,  3.33it/s] 57%|█████▋    | 4479/7813 [22:46<16:33,  3.36it/s] 57%|█████▋    | 4480/7813 [22:47<17:17,  3.21it/s] 57%|█████▋    | 4481/7813 [22:47<17:03,  3.25it/s] 57%|█████▋    | 4482/7813 [22:47<16:48,  3.30it/s] 57%|█████▋    | 4483/7813 [22:47<16:35,  3.34it/s] 57%|█████▋    | 4484/7813 [22:48<17:14,  3.22it/s] 57%|█████▋    | 4485/7813 [22:48<16:57,  3.27it/s] 57%|█████▋    | 4486/7813 [22:48<17:44,  3.13it/s] 57%|█████▋    | 4487/7813 [22:49<17:24,  3.18it/s] 57%|█████▋    | 4488/7813 [22:49<17:07,  3.24it/s] 57%|█████▋    | 4489/7813 [22:49<17:06,  3.24it/s] 57%|█████▋    | 4490/7813 [22:50<16:54,  3.28it/s] 57%|█████▋    | 4491/7813 [22:50<16:40,  3.32it/s] 57%|█████▋    | 4492/7813 [22:50<16:36,  3.33it/s] 58%|█████▊    | 4493/7813 [22:50<16:32,  3.34it/s] 58%|█████▊    | 4494/7813 [22:51<16:22,  3.38it/s] 58%|█████▊    | 4495/7813 [22:51<16:20,  3.38it/s] 58%|█████▊    | 4496/7813 [22:51<16:22,  3.38it/s] 58%|█████▊    | 4497/7813 [22:52<16:27,  3.36it/s] 58%|█████▊    | 4498/7813 [22:52<16:27,  3.36it/s] 58%|█████▊    | 4499/7813 [22:52<16:27,  3.36it/s] 58%|█████▊    | 4500/7813 [22:53<16:20,  3.38it/s]                                                   {'loss': 0.019, 'grad_norm': 0.3098753094673157, 'learning_rate': 4.241648534493793e-05, 'epoch': 0.58}
 58%|█████▊    | 4500/7813 [22:53<16:20,  3.38it/s] 58%|█████▊    | 4501/7813 [22:53<16:19,  3.38it/s] 58%|█████▊    | 4502/7813 [22:53<16:17,  3.39it/s] 58%|█████▊    | 4503/7813 [22:53<16:13,  3.40it/s] 58%|█████▊    | 4504/7813 [22:54<16:15,  3.39it/s] 58%|█████▊    | 4505/7813 [22:54<16:13,  3.40it/s] 58%|█████▊    | 4506/7813 [22:54<16:06,  3.42it/s] 58%|█████▊    | 4507/7813 [22:55<16:05,  3.42it/s] 58%|█████▊    | 4508/7813 [22:55<16:21,  3.37it/s] 58%|█████▊    | 4509/7813 [22:55<16:15,  3.39it/s] 58%|█████▊    | 4510/7813 [22:56<16:43,  3.29it/s] 58%|█████▊    | 4511/7813 [22:56<17:24,  3.16it/s] 58%|█████▊    | 4512/7813 [22:56<16:54,  3.25it/s] 58%|█████▊    | 4513/7813 [22:56<16:45,  3.28it/s] 58%|█████▊    | 4514/7813 [22:57<16:37,  3.31it/s] 58%|█████▊    | 4515/7813 [22:57<16:26,  3.34it/s] 58%|█████▊    | 4516/7813 [22:57<16:54,  3.25it/s] 58%|█████▊    | 4517/7813 [22:58<16:50,  3.26it/s] 58%|█████▊    | 4518/7813 [22:58<16:40,  3.29it/s] 58%|█████▊    | 4519/7813 [22:58<16:36,  3.31it/s] 58%|█████▊    | 4520/7813 [22:59<17:01,  3.22it/s] 58%|█████▊    | 4521/7813 [22:59<16:39,  3.29it/s] 58%|█████▊    | 4522/7813 [22:59<16:46,  3.27it/s] 58%|█████▊    | 4523/7813 [22:59<16:42,  3.28it/s] 58%|█████▊    | 4524/7813 [23:00<16:27,  3.33it/s] 58%|█████▊    | 4525/7813 [23:00<16:44,  3.27it/s] 58%|█████▊    | 4526/7813 [23:00<16:27,  3.33it/s] 58%|█████▊    | 4527/7813 [23:01<16:28,  3.32it/s] 58%|█████▊    | 4528/7813 [23:01<16:29,  3.32it/s] 58%|█████▊    | 4529/7813 [23:01<16:18,  3.36it/s] 58%|█████▊    | 4530/7813 [23:02<16:18,  3.35it/s] 58%|█████▊    | 4531/7813 [23:02<16:04,  3.40it/s] 58%|█████▊    | 4532/7813 [23:02<16:10,  3.38it/s] 58%|█████▊    | 4533/7813 [23:02<16:11,  3.38it/s] 58%|█████▊    | 4534/7813 [23:03<16:07,  3.39it/s] 58%|█████▊    | 4535/7813 [23:03<16:10,  3.38it/s] 58%|█████▊    | 4536/7813 [23:03<16:02,  3.41it/s] 58%|█████▊    | 4537/7813 [23:04<15:58,  3.42it/s] 58%|█████▊    | 4538/7813 [23:04<15:57,  3.42it/s] 58%|█████▊    | 4539/7813 [23:04<15:52,  3.44it/s] 58%|█████▊    | 4540/7813 [23:05<15:59,  3.41it/s] 58%|█████▊    | 4541/7813 [23:05<15:57,  3.42it/s] 58%|█████▊    | 4542/7813 [23:05<16:01,  3.40it/s] 58%|█████▊    | 4543/7813 [23:05<16:06,  3.38it/s] 58%|█████▊    | 4544/7813 [23:06<16:07,  3.38it/s] 58%|█████▊    | 4545/7813 [23:06<16:02,  3.39it/s] 58%|█████▊    | 4546/7813 [23:06<16:05,  3.38it/s] 58%|█████▊    | 4547/7813 [23:07<15:59,  3.40it/s] 58%|█████▊    | 4548/7813 [23:07<15:55,  3.42it/s] 58%|█████▊    | 4549/7813 [23:07<15:53,  3.42it/s] 58%|█████▊    | 4550/7813 [23:07<15:52,  3.43it/s]                                                   {'loss': 0.0181, 'grad_norm': 0.2714250385761261, 'learning_rate': 4.177652630231666e-05, 'epoch': 0.58}
 58%|█████▊    | 4550/7813 [23:07<15:52,  3.43it/s] 58%|█████▊    | 4551/7813 [23:08<16:03,  3.39it/s] 58%|█████▊    | 4552/7813 [23:08<16:33,  3.28it/s] 58%|█████▊    | 4553/7813 [23:08<16:23,  3.31it/s] 58%|█████▊    | 4554/7813 [23:09<16:20,  3.32it/s] 58%|█████▊    | 4555/7813 [23:09<16:07,  3.37it/s] 58%|█████▊    | 4556/7813 [23:09<15:59,  3.40it/s] 58%|█████▊    | 4557/7813 [23:10<15:51,  3.42it/s] 58%|█████▊    | 4558/7813 [23:10<15:55,  3.41it/s] 58%|█████▊    | 4559/7813 [23:10<15:52,  3.42it/s] 58%|█████▊    | 4560/7813 [23:10<15:53,  3.41it/s] 58%|█████▊    | 4561/7813 [23:11<15:55,  3.40it/s] 58%|█████▊    | 4562/7813 [23:11<16:18,  3.32it/s] 58%|█████▊    | 4563/7813 [23:11<16:48,  3.22it/s] 58%|█████▊    | 4564/7813 [23:12<16:37,  3.26it/s] 58%|█████▊    | 4565/7813 [23:12<16:27,  3.29it/s] 58%|█████▊    | 4566/7813 [23:12<16:19,  3.32it/s] 58%|█████▊    | 4567/7813 [23:13<16:33,  3.27it/s] 58%|█████▊    | 4568/7813 [23:13<16:50,  3.21it/s] 58%|█████▊    | 4569/7813 [23:13<17:13,  3.14it/s] 58%|█████▊    | 4570/7813 [23:14<16:53,  3.20it/s] 59%|█████▊    | 4571/7813 [23:14<16:35,  3.26it/s] 59%|█████▊    | 4572/7813 [23:14<16:20,  3.30it/s] 59%|█████▊    | 4573/7813 [23:14<16:34,  3.26it/s] 59%|█████▊    | 4574/7813 [23:15<16:33,  3.26it/s] 59%|█████▊    | 4575/7813 [23:15<16:17,  3.31it/s] 59%|█████▊    | 4576/7813 [23:15<16:09,  3.34it/s] 59%|█████▊    | 4577/7813 [23:16<15:58,  3.38it/s] 59%|█████▊    | 4578/7813 [23:16<16:05,  3.35it/s] 59%|█████▊    | 4579/7813 [23:16<16:01,  3.36it/s] 59%|█████▊    | 4580/7813 [23:16<15:54,  3.39it/s] 59%|█████▊    | 4581/7813 [23:17<15:45,  3.42it/s] 59%|█████▊    | 4582/7813 [23:17<15:52,  3.39it/s] 59%|█████▊    | 4583/7813 [23:17<15:49,  3.40it/s] 59%|█████▊    | 4584/7813 [23:18<15:49,  3.40it/s] 59%|█████▊    | 4585/7813 [23:18<15:50,  3.40it/s] 59%|█████▊    | 4586/7813 [23:18<16:08,  3.33it/s] 59%|█████▊    | 4587/7813 [23:19<16:33,  3.25it/s] 59%|█████▊    | 4588/7813 [23:19<16:13,  3.31it/s] 59%|█████▊    | 4589/7813 [23:19<16:03,  3.34it/s] 59%|█████▊    | 4590/7813 [23:19<16:03,  3.35it/s] 59%|█████▉    | 4591/7813 [23:20<15:58,  3.36it/s] 59%|█████▉    | 4592/7813 [23:20<15:57,  3.37it/s] 59%|█████▉    | 4593/7813 [23:20<15:56,  3.37it/s] 59%|█████▉    | 4594/7813 [23:21<15:58,  3.36it/s] 59%|█████▉    | 4595/7813 [23:21<15:51,  3.38it/s] 59%|█████▉    | 4596/7813 [23:21<15:44,  3.40it/s] 59%|█████▉    | 4597/7813 [23:22<15:43,  3.41it/s] 59%|█████▉    | 4598/7813 [23:22<15:51,  3.38it/s] 59%|█████▉    | 4599/7813 [23:22<15:48,  3.39it/s] 59%|█████▉    | 4600/7813 [23:22<16:03,  3.34it/s]                                                   {'loss': 0.0204, 'grad_norm': 0.2684002220630646, 'learning_rate': 4.113656725969538e-05, 'epoch': 0.59}
 59%|█████▉    | 4600/7813 [23:22<16:03,  3.34it/s] 59%|█████▉    | 4601/7813 [23:23<16:12,  3.30it/s] 59%|█████▉    | 4602/7813 [23:23<16:05,  3.33it/s] 59%|█████▉    | 4603/7813 [23:23<16:02,  3.33it/s] 59%|█████▉    | 4604/7813 [23:24<16:00,  3.34it/s] 59%|█████▉    | 4605/7813 [23:24<15:59,  3.34it/s] 59%|█████▉    | 4606/7813 [23:24<15:54,  3.36it/s] 59%|█████▉    | 4607/7813 [23:25<16:02,  3.33it/s] 59%|█████▉    | 4608/7813 [23:25<15:51,  3.37it/s] 59%|█████▉    | 4609/7813 [23:25<15:55,  3.35it/s] 59%|█████▉    | 4610/7813 [23:25<15:48,  3.38it/s] 59%|█████▉    | 4611/7813 [23:26<15:43,  3.39it/s] 59%|█████▉    | 4612/7813 [23:26<15:41,  3.40it/s] 59%|█████▉    | 4613/7813 [23:26<15:41,  3.40it/s] 59%|█████▉    | 4614/7813 [23:27<15:42,  3.39it/s] 59%|█████▉    | 4615/7813 [23:27<15:42,  3.39it/s] 59%|█████▉    | 4616/7813 [23:27<15:37,  3.41it/s] 59%|█████▉    | 4617/7813 [23:27<15:37,  3.41it/s] 59%|█████▉    | 4618/7813 [23:28<15:32,  3.43it/s] 59%|█████▉    | 4619/7813 [23:28<15:33,  3.42it/s] 59%|█████▉    | 4620/7813 [23:28<15:32,  3.42it/s] 59%|█████▉    | 4621/7813 [23:29<15:28,  3.44it/s] 59%|█████▉    | 4622/7813 [23:29<15:26,  3.44it/s] 59%|█████▉    | 4623/7813 [23:29<16:12,  3.28it/s] 59%|█████▉    | 4624/7813 [23:30<16:34,  3.21it/s] 59%|█████▉    | 4625/7813 [23:30<16:23,  3.24it/s] 59%|█████▉    | 4626/7813 [23:30<16:09,  3.29it/s] 59%|█████▉    | 4627/7813 [23:31<16:39,  3.19it/s] 59%|█████▉    | 4628/7813 [23:31<16:27,  3.23it/s] 59%|█████▉    | 4629/7813 [23:31<16:07,  3.29it/s] 59%|█████▉    | 4630/7813 [23:31<15:51,  3.35it/s] 59%|█████▉    | 4631/7813 [23:32<15:43,  3.37it/s] 59%|█████▉    | 4632/7813 [23:32<15:56,  3.33it/s] 59%|█████▉    | 4633/7813 [23:32<16:10,  3.28it/s] 59%|█████▉    | 4634/7813 [23:33<15:55,  3.33it/s] 59%|█████▉    | 4635/7813 [23:33<15:43,  3.37it/s] 59%|█████▉    | 4636/7813 [23:33<15:39,  3.38it/s] 59%|█████▉    | 4637/7813 [23:33<15:37,  3.39it/s] 59%|█████▉    | 4638/7813 [23:34<15:38,  3.38it/s] 59%|█████▉    | 4639/7813 [23:34<15:32,  3.40it/s] 59%|█████▉    | 4640/7813 [23:34<16:03,  3.29it/s] 59%|█████▉    | 4641/7813 [23:35<16:00,  3.30it/s] 59%|█████▉    | 4642/7813 [23:35<15:53,  3.33it/s] 59%|█████▉    | 4643/7813 [23:35<16:29,  3.20it/s] 59%|█████▉    | 4644/7813 [23:36<16:13,  3.26it/s] 59%|█████▉    | 4645/7813 [23:36<16:03,  3.29it/s] 59%|█████▉    | 4646/7813 [23:36<15:50,  3.33it/s] 59%|█████▉    | 4647/7813 [23:37<15:47,  3.34it/s] 59%|█████▉    | 4648/7813 [23:37<15:41,  3.36it/s] 60%|█████▉    | 4649/7813 [23:37<15:33,  3.39it/s] 60%|█████▉    | 4650/7813 [23:37<15:26,  3.42it/s]                                                   {'loss': 0.0196, 'grad_norm': 0.37298518419265747, 'learning_rate': 4.049660821707411e-05, 'epoch': 0.6}
 60%|█████▉    | 4650/7813 [23:37<15:26,  3.42it/s] 60%|█████▉    | 4651/7813 [23:38<15:59,  3.30it/s] 60%|█████▉    | 4652/7813 [23:38<15:47,  3.34it/s] 60%|█████▉    | 4653/7813 [23:38<15:36,  3.37it/s] 60%|█████▉    | 4654/7813 [23:39<15:29,  3.40it/s] 60%|█████▉    | 4655/7813 [23:39<15:27,  3.41it/s] 60%|█████▉    | 4656/7813 [23:39<15:24,  3.42it/s] 60%|█████▉    | 4657/7813 [23:39<15:28,  3.40it/s] 60%|█████▉    | 4658/7813 [23:40<15:41,  3.35it/s] 60%|█████▉    | 4659/7813 [23:40<15:54,  3.30it/s] 60%|█████▉    | 4660/7813 [23:40<16:22,  3.21it/s] 60%|█████▉    | 4661/7813 [23:41<16:31,  3.18it/s] 60%|█████▉    | 4662/7813 [23:41<16:26,  3.19it/s] 60%|█████▉    | 4663/7813 [23:41<16:21,  3.21it/s] 60%|█████▉    | 4664/7813 [23:42<16:14,  3.23it/s] 60%|█████▉    | 4665/7813 [23:42<16:04,  3.26it/s] 60%|█████▉    | 4666/7813 [23:42<15:59,  3.28it/s] 60%|█████▉    | 4667/7813 [23:43<16:29,  3.18it/s] 60%|█████▉    | 4668/7813 [23:43<16:30,  3.17it/s] 60%|█████▉    | 4669/7813 [23:43<16:17,  3.22it/s] 60%|█████▉    | 4670/7813 [23:44<16:10,  3.24it/s] 60%|█████▉    | 4671/7813 [23:44<16:37,  3.15it/s] 60%|█████▉    | 4672/7813 [23:44<16:15,  3.22it/s] 60%|█████▉    | 4673/7813 [23:44<16:05,  3.25it/s] 60%|█████▉    | 4674/7813 [23:45<16:24,  3.19it/s] 60%|█████▉    | 4675/7813 [23:45<16:04,  3.25it/s] 60%|█████▉    | 4676/7813 [23:45<16:00,  3.27it/s] 60%|█████▉    | 4677/7813 [23:46<16:06,  3.25it/s] 60%|█████▉    | 4678/7813 [23:46<15:56,  3.28it/s] 60%|█████▉    | 4679/7813 [23:46<15:39,  3.34it/s] 60%|█████▉    | 4680/7813 [23:47<15:50,  3.30it/s] 60%|█████▉    | 4681/7813 [23:47<15:44,  3.31it/s] 60%|█████▉    | 4682/7813 [23:47<16:12,  3.22it/s] 60%|█████▉    | 4683/7813 [23:48<16:27,  3.17it/s] 60%|█████▉    | 4684/7813 [23:48<16:09,  3.23it/s] 60%|█████▉    | 4685/7813 [23:48<16:11,  3.22it/s] 60%|█████▉    | 4686/7813 [23:48<16:27,  3.17it/s] 60%|█████▉    | 4687/7813 [23:49<16:19,  3.19it/s] 60%|██████    | 4688/7813 [23:49<16:36,  3.14it/s] 60%|██████    | 4689/7813 [23:49<16:14,  3.21it/s] 60%|██████    | 4690/7813 [23:50<15:51,  3.28it/s] 60%|██████    | 4691/7813 [23:50<15:48,  3.29it/s] 60%|██████    | 4692/7813 [23:50<15:38,  3.33it/s] 60%|██████    | 4693/7813 [23:51<15:40,  3.32it/s] 60%|██████    | 4694/7813 [23:51<15:41,  3.31it/s] 60%|██████    | 4695/7813 [23:51<15:44,  3.30it/s] 60%|██████    | 4696/7813 [23:51<15:29,  3.35it/s] 60%|██████    | 4697/7813 [23:52<15:31,  3.34it/s] 60%|██████    | 4698/7813 [23:52<15:29,  3.35it/s] 60%|██████    | 4699/7813 [23:52<15:24,  3.37it/s] 60%|██████    | 4700/7813 [23:53<15:39,  3.31it/s]                                                   {'loss': 0.0209, 'grad_norm': 0.2712177634239197, 'learning_rate': 3.985664917445284e-05, 'epoch': 0.6}
 60%|██████    | 4700/7813 [23:53<15:39,  3.31it/s] 60%|██████    | 4701/7813 [23:53<15:33,  3.33it/s] 60%|██████    | 4702/7813 [23:53<15:26,  3.36it/s] 60%|██████    | 4703/7813 [23:54<15:27,  3.35it/s] 60%|██████    | 4704/7813 [23:54<15:24,  3.36it/s] 60%|██████    | 4705/7813 [23:54<15:28,  3.35it/s] 60%|██████    | 4706/7813 [23:54<15:25,  3.36it/s] 60%|██████    | 4707/7813 [23:55<15:18,  3.38it/s] 60%|██████    | 4708/7813 [23:55<15:20,  3.37it/s] 60%|██████    | 4709/7813 [23:55<15:35,  3.32it/s] 60%|██████    | 4710/7813 [23:56<15:30,  3.33it/s] 60%|██████    | 4711/7813 [23:56<15:20,  3.37it/s] 60%|██████    | 4712/7813 [23:56<15:23,  3.36it/s] 60%|██████    | 4713/7813 [23:57<15:22,  3.36it/s] 60%|██████    | 4714/7813 [23:57<15:58,  3.23it/s] 60%|██████    | 4715/7813 [23:57<15:51,  3.26it/s] 60%|██████    | 4716/7813 [23:57<15:41,  3.29it/s] 60%|██████    | 4717/7813 [23:58<15:45,  3.27it/s] 60%|██████    | 4718/7813 [23:58<15:37,  3.30it/s] 60%|██████    | 4719/7813 [23:58<15:33,  3.31it/s] 60%|██████    | 4720/7813 [23:59<15:31,  3.32it/s] 60%|██████    | 4721/7813 [23:59<15:30,  3.32it/s] 60%|██████    | 4722/7813 [23:59<15:23,  3.35it/s] 60%|██████    | 4723/7813 [24:00<15:29,  3.32it/s] 60%|██████    | 4724/7813 [24:00<16:08,  3.19it/s] 60%|██████    | 4725/7813 [24:00<15:52,  3.24it/s] 60%|██████    | 4726/7813 [24:01<15:42,  3.28it/s] 61%|██████    | 4727/7813 [24:01<15:31,  3.31it/s] 61%|██████    | 4728/7813 [24:01<15:28,  3.32it/s] 61%|██████    | 4729/7813 [24:01<15:23,  3.34it/s] 61%|██████    | 4730/7813 [24:02<15:17,  3.36it/s] 61%|██████    | 4731/7813 [24:02<15:17,  3.36it/s] 61%|██████    | 4732/7813 [24:02<15:17,  3.36it/s] 61%|██████    | 4733/7813 [24:03<15:31,  3.30it/s] 61%|██████    | 4734/7813 [24:03<15:28,  3.31it/s] 61%|██████    | 4735/7813 [24:03<16:04,  3.19it/s] 61%|██████    | 4736/7813 [24:04<15:51,  3.23it/s] 61%|██████    | 4737/7813 [24:04<15:34,  3.29it/s] 61%|██████    | 4738/7813 [24:04<15:27,  3.32it/s] 61%|██████    | 4739/7813 [24:04<15:34,  3.29it/s] 61%|██████    | 4740/7813 [24:05<15:54,  3.22it/s] 61%|██████    | 4741/7813 [24:05<15:38,  3.27it/s] 61%|██████    | 4742/7813 [24:05<15:25,  3.32it/s] 61%|██████    | 4743/7813 [24:06<15:18,  3.34it/s] 61%|██████    | 4744/7813 [24:06<15:41,  3.26it/s] 61%|██████    | 4745/7813 [24:06<15:57,  3.20it/s] 61%|██████    | 4746/7813 [24:07<15:46,  3.24it/s] 61%|██████    | 4747/7813 [24:07<15:36,  3.27it/s] 61%|██████    | 4748/7813 [24:07<15:45,  3.24it/s] 61%|██████    | 4749/7813 [24:08<16:07,  3.17it/s] 61%|██████    | 4750/7813 [24:08<16:32,  3.09it/s]                                                   {'loss': 0.0207, 'grad_norm': 0.42186540365219116, 'learning_rate': 3.9216690131831564e-05, 'epoch': 0.61}
 61%|██████    | 4750/7813 [24:08<16:32,  3.09it/s] 61%|██████    | 4751/7813 [24:08<16:05,  3.17it/s] 61%|██████    | 4752/7813 [24:09<15:53,  3.21it/s] 61%|██████    | 4753/7813 [24:09<15:57,  3.20it/s] 61%|██████    | 4754/7813 [24:09<15:38,  3.26it/s] 61%|██████    | 4755/7813 [24:09<15:27,  3.30it/s] 61%|██████    | 4756/7813 [24:10<15:22,  3.31it/s] 61%|██████    | 4757/7813 [24:10<15:24,  3.31it/s] 61%|██████    | 4758/7813 [24:10<15:33,  3.27it/s] 61%|██████    | 4759/7813 [24:11<15:38,  3.26it/s] 61%|██████    | 4760/7813 [24:11<15:59,  3.18it/s] 61%|██████    | 4761/7813 [24:11<15:46,  3.23it/s] 61%|██████    | 4762/7813 [24:12<15:30,  3.28it/s] 61%|██████    | 4763/7813 [24:12<15:20,  3.31it/s] 61%|██████    | 4764/7813 [24:12<15:33,  3.27it/s] 61%|██████    | 4765/7813 [24:12<15:26,  3.29it/s] 61%|██████    | 4766/7813 [24:13<15:39,  3.24it/s] 61%|██████    | 4767/7813 [24:13<15:29,  3.28it/s] 61%|██████    | 4768/7813 [24:13<15:33,  3.26it/s] 61%|██████    | 4769/7813 [24:14<16:04,  3.16it/s] 61%|██████    | 4770/7813 [24:14<15:44,  3.22it/s] 61%|██████    | 4771/7813 [24:14<15:47,  3.21it/s] 61%|██████    | 4772/7813 [24:15<15:42,  3.23it/s] 61%|██████    | 4773/7813 [24:15<15:32,  3.26it/s] 61%|██████    | 4774/7813 [24:15<15:24,  3.29it/s] 61%|██████    | 4775/7813 [24:16<15:16,  3.31it/s] 61%|██████    | 4776/7813 [24:16<15:12,  3.33it/s] 61%|██████    | 4777/7813 [24:16<15:12,  3.33it/s] 61%|██████    | 4778/7813 [24:16<15:04,  3.35it/s] 61%|██████    | 4779/7813 [24:17<15:06,  3.35it/s] 61%|██████    | 4780/7813 [24:17<15:07,  3.34it/s] 61%|██████    | 4781/7813 [24:17<15:08,  3.34it/s] 61%|██████    | 4782/7813 [24:18<15:22,  3.28it/s] 61%|██████    | 4783/7813 [24:18<15:37,  3.23it/s] 61%|██████    | 4784/7813 [24:18<15:30,  3.25it/s] 61%|██████    | 4785/7813 [24:19<15:38,  3.23it/s] 61%|██████▏   | 4786/7813 [24:19<15:25,  3.27it/s] 61%|██████▏   | 4787/7813 [24:19<15:19,  3.29it/s] 61%|██████▏   | 4788/7813 [24:20<15:43,  3.21it/s] 61%|██████▏   | 4789/7813 [24:20<15:32,  3.24it/s] 61%|██████▏   | 4790/7813 [24:20<15:24,  3.27it/s] 61%|██████▏   | 4791/7813 [24:20<15:12,  3.31it/s] 61%|██████▏   | 4792/7813 [24:21<15:05,  3.34it/s] 61%|██████▏   | 4793/7813 [24:21<15:05,  3.34it/s] 61%|██████▏   | 4794/7813 [24:21<15:02,  3.34it/s] 61%|██████▏   | 4795/7813 [24:22<14:56,  3.37it/s] 61%|██████▏   | 4796/7813 [24:22<14:55,  3.37it/s] 61%|██████▏   | 4797/7813 [24:22<14:52,  3.38it/s] 61%|██████▏   | 4798/7813 [24:23<15:29,  3.24it/s] 61%|██████▏   | 4799/7813 [24:23<15:16,  3.29it/s] 61%|██████▏   | 4800/7813 [24:23<15:17,  3.29it/s]                                                   {'loss': 0.019, 'grad_norm': 0.3549076020717621, 'learning_rate': 3.8576731089210294e-05, 'epoch': 0.61}
 61%|██████▏   | 4800/7813 [24:23<15:17,  3.29it/s] 61%|██████▏   | 4801/7813 [24:23<15:51,  3.17it/s] 61%|██████▏   | 4802/7813 [24:24<16:01,  3.13it/s] 61%|██████▏   | 4803/7813 [24:24<15:41,  3.20it/s] 61%|██████▏   | 4804/7813 [24:24<15:27,  3.25it/s] 62%|██████▏   | 4805/7813 [24:25<16:03,  3.12it/s] 62%|██████▏   | 4806/7813 [24:25<15:59,  3.13it/s] 62%|██████▏   | 4807/7813 [24:25<15:30,  3.23it/s] 62%|██████▏   | 4808/7813 [24:26<15:14,  3.28it/s] 62%|██████▏   | 4809/7813 [24:26<15:26,  3.24it/s] 62%|██████▏   | 4810/7813 [24:26<15:15,  3.28it/s] 62%|██████▏   | 4811/7813 [24:27<15:03,  3.32it/s] 62%|██████▏   | 4812/7813 [24:27<15:01,  3.33it/s] 62%|██████▏   | 4813/7813 [24:27<14:57,  3.34it/s] 62%|██████▏   | 4814/7813 [24:27<14:48,  3.38it/s] 62%|██████▏   | 4815/7813 [24:28<14:49,  3.37it/s] 62%|██████▏   | 4816/7813 [24:28<15:05,  3.31it/s] 62%|██████▏   | 4817/7813 [24:28<14:59,  3.33it/s] 62%|██████▏   | 4818/7813 [24:29<14:57,  3.34it/s] 62%|██████▏   | 4819/7813 [24:29<14:50,  3.36it/s] 62%|██████▏   | 4820/7813 [24:29<15:02,  3.32it/s] 62%|██████▏   | 4821/7813 [24:30<15:41,  3.18it/s] 62%|██████▏   | 4822/7813 [24:30<15:20,  3.25it/s] 62%|██████▏   | 4823/7813 [24:30<15:13,  3.27it/s] 62%|██████▏   | 4824/7813 [24:30<15:04,  3.30it/s] 62%|██████▏   | 4825/7813 [24:31<14:59,  3.32it/s] 62%|██████▏   | 4826/7813 [24:31<15:08,  3.29it/s] 62%|██████▏   | 4827/7813 [24:31<14:59,  3.32it/s] 62%|██████▏   | 4828/7813 [24:32<14:53,  3.34it/s] 62%|██████▏   | 4829/7813 [24:32<14:54,  3.34it/s] 62%|██████▏   | 4830/7813 [24:32<15:01,  3.31it/s] 62%|██████▏   | 4831/7813 [24:33<15:32,  3.20it/s] 62%|██████▏   | 4832/7813 [24:33<15:15,  3.26it/s] 62%|██████▏   | 4833/7813 [24:33<15:01,  3.31it/s] 62%|██████▏   | 4834/7813 [24:33<14:51,  3.34it/s] 62%|██████▏   | 4835/7813 [24:34<14:51,  3.34it/s] 62%|██████▏   | 4836/7813 [24:34<14:38,  3.39it/s] 62%|██████▏   | 4837/7813 [24:34<14:36,  3.40it/s] 62%|██████▏   | 4838/7813 [24:35<14:32,  3.41it/s] 62%|██████▏   | 4839/7813 [24:35<14:33,  3.41it/s] 62%|██████▏   | 4840/7813 [24:35<15:01,  3.30it/s] 62%|██████▏   | 4841/7813 [24:36<14:49,  3.34it/s] 62%|██████▏   | 4842/7813 [24:36<14:47,  3.35it/s] 62%|██████▏   | 4843/7813 [24:36<14:40,  3.37it/s] 62%|██████▏   | 4844/7813 [24:36<14:30,  3.41it/s] 62%|██████▏   | 4845/7813 [24:37<14:28,  3.42it/s] 62%|██████▏   | 4846/7813 [24:37<14:25,  3.43it/s] 62%|██████▏   | 4847/7813 [24:37<14:24,  3.43it/s] 62%|██████▏   | 4848/7813 [24:38<14:24,  3.43it/s] 62%|██████▏   | 4849/7813 [24:38<14:26,  3.42it/s] 62%|██████▏   | 4850/7813 [24:38<14:24,  3.43it/s]                                                   {'loss': 0.0175, 'grad_norm': 0.19839204847812653, 'learning_rate': 3.793677204658902e-05, 'epoch': 0.62}
 62%|██████▏   | 4850/7813 [24:38<14:24,  3.43it/s] 62%|██████▏   | 4851/7813 [24:38<14:22,  3.43it/s] 62%|██████▏   | 4852/7813 [24:39<14:59,  3.29it/s] 62%|██████▏   | 4853/7813 [24:39<15:06,  3.27it/s] 62%|██████▏   | 4854/7813 [24:39<14:55,  3.31it/s] 62%|██████▏   | 4855/7813 [24:40<14:45,  3.34it/s] 62%|██████▏   | 4856/7813 [24:40<14:44,  3.34it/s] 62%|██████▏   | 4857/7813 [24:40<14:42,  3.35it/s] 62%|██████▏   | 4858/7813 [24:41<14:34,  3.38it/s] 62%|██████▏   | 4859/7813 [24:41<14:37,  3.37it/s] 62%|██████▏   | 4860/7813 [24:41<14:34,  3.38it/s] 62%|██████▏   | 4861/7813 [24:41<14:34,  3.38it/s] 62%|██████▏   | 4862/7813 [24:42<14:31,  3.39it/s] 62%|██████▏   | 4863/7813 [24:42<14:39,  3.35it/s] 62%|██████▏   | 4864/7813 [24:42<14:42,  3.34it/s] 62%|██████▏   | 4865/7813 [24:43<14:50,  3.31it/s] 62%|██████▏   | 4866/7813 [24:43<14:43,  3.33it/s] 62%|██████▏   | 4867/7813 [24:43<14:41,  3.34it/s] 62%|██████▏   | 4868/7813 [24:44<14:38,  3.35it/s] 62%|██████▏   | 4869/7813 [24:44<14:32,  3.38it/s] 62%|██████▏   | 4870/7813 [24:44<14:25,  3.40it/s] 62%|██████▏   | 4871/7813 [24:44<14:27,  3.39it/s] 62%|██████▏   | 4872/7813 [24:45<14:51,  3.30it/s] 62%|██████▏   | 4873/7813 [24:45<14:44,  3.32it/s] 62%|██████▏   | 4874/7813 [24:45<14:47,  3.31it/s] 62%|██████▏   | 4875/7813 [24:46<14:57,  3.27it/s] 62%|██████▏   | 4876/7813 [24:46<14:54,  3.28it/s] 62%|██████▏   | 4877/7813 [24:46<14:46,  3.31it/s] 62%|██████▏   | 4878/7813 [24:47<14:44,  3.32it/s] 62%|██████▏   | 4879/7813 [24:47<14:36,  3.35it/s] 62%|██████▏   | 4880/7813 [24:47<14:33,  3.36it/s] 62%|██████▏   | 4881/7813 [24:48<15:04,  3.24it/s] 62%|██████▏   | 4882/7813 [24:48<14:50,  3.29it/s] 62%|██████▏   | 4883/7813 [24:48<14:43,  3.32it/s] 63%|██████▎   | 4884/7813 [24:48<14:40,  3.33it/s] 63%|██████▎   | 4885/7813 [24:49<14:35,  3.34it/s] 63%|██████▎   | 4886/7813 [24:49<14:32,  3.36it/s] 63%|██████▎   | 4887/7813 [24:49<14:32,  3.35it/s] 63%|██████▎   | 4888/7813 [24:50<14:28,  3.37it/s] 63%|██████▎   | 4889/7813 [24:50<14:30,  3.36it/s] 63%|██████▎   | 4890/7813 [24:50<14:23,  3.38it/s] 63%|██████▎   | 4891/7813 [24:50<14:23,  3.38it/s] 63%|██████▎   | 4892/7813 [24:51<14:22,  3.38it/s] 63%|██████▎   | 4893/7813 [24:51<14:30,  3.35it/s] 63%|██████▎   | 4894/7813 [24:51<15:10,  3.21it/s] 63%|██████▎   | 4895/7813 [24:52<15:09,  3.21it/s] 63%|██████▎   | 4896/7813 [24:52<14:57,  3.25it/s] 63%|██████▎   | 4897/7813 [24:52<14:46,  3.29it/s] 63%|██████▎   | 4898/7813 [24:53<14:42,  3.30it/s] 63%|██████▎   | 4899/7813 [24:53<14:33,  3.34it/s] 63%|██████▎   | 4900/7813 [24:53<14:40,  3.31it/s]                                                   {'loss': 0.0183, 'grad_norm': 0.3607957363128662, 'learning_rate': 3.729681300396775e-05, 'epoch': 0.63}
 63%|██████▎   | 4900/7813 [24:53<14:40,  3.31it/s] 63%|██████▎   | 4901/7813 [24:54<14:36,  3.32it/s] 63%|██████▎   | 4902/7813 [24:54<14:28,  3.35it/s] 63%|██████▎   | 4903/7813 [24:54<14:25,  3.36it/s] 63%|██████▎   | 4904/7813 [24:54<14:25,  3.36it/s] 63%|██████▎   | 4905/7813 [24:55<14:43,  3.29it/s] 63%|██████▎   | 4906/7813 [24:55<14:38,  3.31it/s] 63%|██████▎   | 4907/7813 [24:55<14:28,  3.35it/s] 63%|██████▎   | 4908/7813 [24:56<14:27,  3.35it/s] 63%|██████▎   | 4909/7813 [24:56<14:29,  3.34it/s] 63%|██████▎   | 4910/7813 [24:56<14:31,  3.33it/s] 63%|██████▎   | 4911/7813 [24:57<14:30,  3.33it/s] 63%|██████▎   | 4912/7813 [24:57<14:32,  3.33it/s] 63%|██████▎   | 4913/7813 [24:57<14:35,  3.31it/s] 63%|██████▎   | 4914/7813 [24:57<14:34,  3.31it/s] 63%|██████▎   | 4915/7813 [24:58<14:27,  3.34it/s] 63%|██████▎   | 4916/7813 [24:58<14:18,  3.37it/s] 63%|██████▎   | 4917/7813 [24:58<14:17,  3.38it/s] 63%|██████▎   | 4918/7813 [24:59<14:19,  3.37it/s] 63%|██████▎   | 4919/7813 [24:59<14:35,  3.31it/s] 63%|██████▎   | 4920/7813 [24:59<14:29,  3.33it/s] 63%|██████▎   | 4921/7813 [25:00<14:24,  3.35it/s] 63%|██████▎   | 4922/7813 [25:00<14:21,  3.36it/s] 63%|██████▎   | 4923/7813 [25:00<14:21,  3.35it/s] 63%|██████▎   | 4924/7813 [25:00<14:21,  3.35it/s] 63%|██████▎   | 4925/7813 [25:01<14:17,  3.37it/s] 63%|██████▎   | 4926/7813 [25:01<14:29,  3.32it/s] 63%|██████▎   | 4927/7813 [25:01<14:25,  3.34it/s] 63%|██████▎   | 4928/7813 [25:02<15:03,  3.19it/s] 63%|██████▎   | 4929/7813 [25:02<14:50,  3.24it/s] 63%|██████▎   | 4930/7813 [25:02<14:37,  3.29it/s] 63%|██████▎   | 4931/7813 [25:03<14:29,  3.31it/s] 63%|██████▎   | 4932/7813 [25:03<14:26,  3.32it/s] 63%|██████▎   | 4933/7813 [25:03<14:16,  3.36it/s] 63%|██████▎   | 4934/7813 [25:03<14:45,  3.25it/s] 63%|██████▎   | 4935/7813 [25:04<14:43,  3.26it/s] 63%|██████▎   | 4936/7813 [25:04<14:36,  3.28it/s] 63%|██████▎   | 4937/7813 [25:04<14:27,  3.31it/s] 63%|██████▎   | 4938/7813 [25:05<14:33,  3.29it/s] 63%|██████▎   | 4939/7813 [25:05<14:35,  3.28it/s] 63%|██████▎   | 4940/7813 [25:05<14:38,  3.27it/s] 63%|██████▎   | 4941/7813 [25:06<14:36,  3.28it/s] 63%|██████▎   | 4942/7813 [25:06<14:34,  3.28it/s] 63%|██████▎   | 4943/7813 [25:06<14:27,  3.31it/s] 63%|██████▎   | 4944/7813 [25:06<14:19,  3.34it/s] 63%|██████▎   | 4945/7813 [25:07<14:27,  3.31it/s] 63%|██████▎   | 4946/7813 [25:07<14:25,  3.31it/s] 63%|██████▎   | 4947/7813 [25:07<14:46,  3.23it/s] 63%|██████▎   | 4948/7813 [25:08<15:11,  3.14it/s] 63%|██████▎   | 4949/7813 [25:08<15:28,  3.08it/s] 63%|██████▎   | 4950/7813 [25:08<15:03,  3.17it/s]                                                   {'loss': 0.0189, 'grad_norm': 0.3332677483558655, 'learning_rate': 3.665685396134648e-05, 'epoch': 0.63}
 63%|██████▎   | 4950/7813 [25:08<15:03,  3.17it/s] 63%|██████▎   | 4951/7813 [25:09<14:41,  3.25it/s] 63%|██████▎   | 4952/7813 [25:09<15:04,  3.16it/s] 63%|██████▎   | 4953/7813 [25:09<14:41,  3.25it/s] 63%|██████▎   | 4954/7813 [25:10<14:31,  3.28it/s] 63%|██████▎   | 4955/7813 [25:10<14:29,  3.29it/s] 63%|██████▎   | 4956/7813 [25:10<14:58,  3.18it/s] 63%|██████▎   | 4957/7813 [25:11<14:47,  3.22it/s] 63%|██████▎   | 4958/7813 [25:11<15:04,  3.15it/s] 63%|██████▎   | 4959/7813 [25:11<14:49,  3.21it/s] 63%|██████▎   | 4960/7813 [25:11<14:32,  3.27it/s] 63%|██████▎   | 4961/7813 [25:12<14:21,  3.31it/s] 64%|██████▎   | 4962/7813 [25:12<14:20,  3.31it/s] 64%|██████▎   | 4963/7813 [25:12<14:21,  3.31it/s] 64%|██████▎   | 4964/7813 [25:13<14:14,  3.33it/s] 64%|██████▎   | 4965/7813 [25:13<14:23,  3.30it/s] 64%|██████▎   | 4966/7813 [25:13<14:47,  3.21it/s] 64%|██████▎   | 4967/7813 [25:14<14:33,  3.26it/s] 64%|██████▎   | 4968/7813 [25:14<14:19,  3.31it/s] 64%|██████▎   | 4969/7813 [25:14<14:16,  3.32it/s] 64%|██████▎   | 4970/7813 [25:15<14:50,  3.19it/s] 64%|██████▎   | 4971/7813 [25:15<15:00,  3.15it/s] 64%|██████▎   | 4972/7813 [25:15<14:45,  3.21it/s] 64%|██████▎   | 4973/7813 [25:15<14:29,  3.27it/s] 64%|██████▎   | 4974/7813 [25:16<14:19,  3.30it/s] 64%|██████▎   | 4975/7813 [25:16<14:19,  3.30it/s] 64%|██████▎   | 4976/7813 [25:16<14:26,  3.27it/s] 64%|██████▎   | 4977/7813 [25:17<14:16,  3.31it/s] 64%|██████▎   | 4978/7813 [25:17<14:10,  3.34it/s] 64%|██████▎   | 4979/7813 [25:17<14:52,  3.17it/s] 64%|██████▎   | 4980/7813 [25:18<14:34,  3.24it/s] 64%|██████▍   | 4981/7813 [25:18<14:23,  3.28it/s] 64%|██████▍   | 4982/7813 [25:18<14:21,  3.29it/s] 64%|██████▍   | 4983/7813 [25:18<14:12,  3.32it/s] 64%|██████▍   | 4984/7813 [25:19<14:12,  3.32it/s] 64%|██████▍   | 4985/7813 [25:19<14:16,  3.30it/s] 64%|██████▍   | 4986/7813 [25:19<14:51,  3.17it/s] 64%|██████▍   | 4987/7813 [25:20<14:52,  3.17it/s] 64%|██████▍   | 4988/7813 [25:20<14:32,  3.24it/s] 64%|██████▍   | 4989/7813 [25:20<14:21,  3.28it/s] 64%|██████▍   | 4990/7813 [25:21<14:12,  3.31it/s] 64%|██████▍   | 4991/7813 [25:21<14:10,  3.32it/s] 64%|██████▍   | 4992/7813 [25:21<14:04,  3.34it/s] 64%|██████▍   | 4993/7813 [25:22<14:07,  3.33it/s] 64%|██████▍   | 4994/7813 [25:22<14:01,  3.35it/s] 64%|██████▍   | 4995/7813 [25:22<14:05,  3.33it/s] 64%|██████▍   | 4996/7813 [25:22<14:05,  3.33it/s] 64%|██████▍   | 4997/7813 [25:23<13:59,  3.36it/s] 64%|██████▍   | 4998/7813 [25:23<13:55,  3.37it/s] 64%|██████▍   | 4999/7813 [25:23<14:35,  3.22it/s] 64%|██████▍   | 5000/7813 [25:24<14:21,  3.27it/s]                                                   {'loss': 0.0176, 'grad_norm': 0.22201348841190338, 'learning_rate': 3.60168949187252e-05, 'epoch': 0.64}
 64%|██████▍   | 5000/7813 [25:24<14:21,  3.27it/s] 64%|██████▍   | 5001/7813 [25:24<14:25,  3.25it/s] 64%|██████▍   | 5002/7813 [25:24<14:14,  3.29it/s] 64%|██████▍   | 5003/7813 [25:25<14:05,  3.32it/s] 64%|██████▍   | 5004/7813 [25:25<14:01,  3.34it/s] 64%|██████▍   | 5005/7813 [25:25<14:30,  3.23it/s] 64%|██████▍   | 5006/7813 [25:25<14:16,  3.28it/s] 64%|██████▍   | 5007/7813 [25:26<14:04,  3.32it/s] 64%|██████▍   | 5008/7813 [25:26<14:02,  3.33it/s] 64%|██████▍   | 5009/7813 [25:26<13:56,  3.35it/s] 64%|██████▍   | 5010/7813 [25:27<13:58,  3.34it/s] 64%|██████▍   | 5011/7813 [25:27<14:04,  3.32it/s] 64%|██████▍   | 5012/7813 [25:27<14:05,  3.31it/s] 64%|██████▍   | 5013/7813 [25:28<14:00,  3.33it/s] 64%|██████▍   | 5014/7813 [25:28<14:25,  3.23it/s] 64%|██████▍   | 5015/7813 [25:28<14:16,  3.27it/s] 64%|██████▍   | 5016/7813 [25:29<14:47,  3.15it/s] 64%|██████▍   | 5017/7813 [25:29<14:33,  3.20it/s] 64%|██████▍   | 5018/7813 [25:30<20:25,  2.28it/s] 64%|██████▍   | 5019/7813 [25:30<18:27,  2.52it/s] 64%|██████▍   | 5020/7813 [25:30<17:04,  2.73it/s] 64%|██████▍   | 5021/7813 [25:30<16:03,  2.90it/s] 64%|██████▍   | 5022/7813 [25:31<15:22,  3.03it/s] 64%|██████▍   | 5023/7813 [25:31<15:04,  3.08it/s] 64%|██████▍   | 5024/7813 [25:31<14:59,  3.10it/s] 64%|██████▍   | 5025/7813 [25:32<14:34,  3.19it/s] 64%|██████▍   | 5026/7813 [25:32<14:42,  3.16it/s] 64%|██████▍   | 5027/7813 [25:32<14:24,  3.22it/s] 64%|██████▍   | 5028/7813 [25:33<14:11,  3.27it/s] 64%|██████▍   | 5029/7813 [25:33<14:03,  3.30it/s] 64%|██████▍   | 5030/7813 [25:33<13:57,  3.32it/s] 64%|██████▍   | 5031/7813 [25:33<13:49,  3.35it/s] 64%|██████▍   | 5032/7813 [25:34<13:56,  3.33it/s] 64%|██████▍   | 5033/7813 [25:34<13:53,  3.33it/s] 64%|██████▍   | 5034/7813 [25:34<13:52,  3.34it/s] 64%|██████▍   | 5035/7813 [25:35<13:49,  3.35it/s] 64%|██████▍   | 5036/7813 [25:35<14:06,  3.28it/s] 64%|██████▍   | 5037/7813 [25:35<13:55,  3.32it/s] 64%|██████▍   | 5038/7813 [25:36<13:51,  3.34it/s] 64%|██████▍   | 5039/7813 [25:36<13:46,  3.36it/s] 65%|██████▍   | 5040/7813 [25:36<13:47,  3.35it/s] 65%|██████▍   | 5041/7813 [25:36<13:41,  3.38it/s] 65%|██████▍   | 5042/7813 [25:37<13:44,  3.36it/s] 65%|██████▍   | 5043/7813 [25:37<13:51,  3.33it/s] 65%|██████▍   | 5044/7813 [25:37<14:01,  3.29it/s] 65%|██████▍   | 5045/7813 [25:38<13:50,  3.33it/s] 65%|██████▍   | 5046/7813 [25:38<14:13,  3.24it/s] 65%|██████▍   | 5047/7813 [25:38<14:04,  3.28it/s] 65%|██████▍   | 5048/7813 [25:39<13:47,  3.34it/s] 65%|██████▍   | 5049/7813 [25:39<13:46,  3.34it/s] 65%|██████▍   | 5050/7813 [25:39<13:45,  3.35it/s]                                                   {'loss': 0.0175, 'grad_norm': 0.3455250561237335, 'learning_rate': 3.537693587610394e-05, 'epoch': 0.65}
 65%|██████▍   | 5050/7813 [25:39<13:45,  3.35it/s] 65%|██████▍   | 5051/7813 [25:40<14:20,  3.21it/s] 65%|██████▍   | 5052/7813 [25:40<14:04,  3.27it/s] 65%|██████▍   | 5053/7813 [25:40<13:58,  3.29it/s] 65%|██████▍   | 5054/7813 [25:40<13:49,  3.32it/s] 65%|██████▍   | 5055/7813 [25:41<14:38,  3.14it/s] 65%|██████▍   | 5056/7813 [25:41<14:33,  3.16it/s] 65%|██████▍   | 5057/7813 [25:41<14:18,  3.21it/s] 65%|██████▍   | 5058/7813 [25:42<14:04,  3.26it/s] 65%|██████▍   | 5059/7813 [25:42<13:54,  3.30it/s] 65%|██████▍   | 5060/7813 [25:42<13:46,  3.33it/s] 65%|██████▍   | 5061/7813 [25:43<13:44,  3.34it/s] 65%|██████▍   | 5062/7813 [25:43<13:43,  3.34it/s] 65%|██████▍   | 5063/7813 [25:43<13:48,  3.32it/s] 65%|██████▍   | 5064/7813 [25:43<13:59,  3.28it/s] 65%|██████▍   | 5065/7813 [25:44<14:27,  3.17it/s] 65%|██████▍   | 5066/7813 [25:44<14:19,  3.20it/s] 65%|██████▍   | 5067/7813 [25:44<14:53,  3.07it/s] 65%|██████▍   | 5068/7813 [25:45<14:29,  3.16it/s] 65%|██████▍   | 5069/7813 [25:45<14:17,  3.20it/s] 65%|██████▍   | 5070/7813 [25:45<14:12,  3.22it/s] 65%|██████▍   | 5071/7813 [25:46<13:56,  3.28it/s] 65%|██████▍   | 5072/7813 [25:46<13:49,  3.31it/s] 65%|██████▍   | 5073/7813 [25:46<13:42,  3.33it/s] 65%|██████▍   | 5074/7813 [25:47<13:36,  3.35it/s] 65%|██████▍   | 5075/7813 [25:47<13:35,  3.36it/s] 65%|██████▍   | 5076/7813 [25:47<13:33,  3.36it/s] 65%|██████▍   | 5077/7813 [25:47<13:35,  3.36it/s] 65%|██████▍   | 5078/7813 [25:48<13:37,  3.35it/s] 65%|██████▌   | 5079/7813 [25:48<13:35,  3.35it/s] 65%|██████▌   | 5080/7813 [25:48<13:37,  3.34it/s] 65%|██████▌   | 5081/7813 [25:49<13:34,  3.35it/s] 65%|██████▌   | 5082/7813 [25:49<13:31,  3.37it/s] 65%|██████▌   | 5083/7813 [25:49<13:32,  3.36it/s] 65%|██████▌   | 5084/7813 [25:50<13:27,  3.38it/s] 65%|██████▌   | 5085/7813 [25:50<13:21,  3.41it/s] 65%|██████▌   | 5086/7813 [25:50<13:22,  3.40it/s] 65%|██████▌   | 5087/7813 [25:50<13:23,  3.39it/s] 65%|██████▌   | 5088/7813 [25:51<13:22,  3.39it/s] 65%|██████▌   | 5089/7813 [25:51<13:16,  3.42it/s] 65%|██████▌   | 5090/7813 [25:51<13:21,  3.40it/s] 65%|██████▌   | 5091/7813 [25:52<13:14,  3.42it/s] 65%|██████▌   | 5092/7813 [25:52<13:13,  3.43it/s] 65%|██████▌   | 5093/7813 [25:52<13:15,  3.42it/s] 65%|██████▌   | 5094/7813 [25:52<13:14,  3.42it/s] 65%|██████▌   | 5095/7813 [25:53<13:19,  3.40it/s] 65%|██████▌   | 5096/7813 [25:53<13:15,  3.42it/s] 65%|██████▌   | 5097/7813 [25:53<13:15,  3.42it/s] 65%|██████▌   | 5098/7813 [25:54<13:11,  3.43it/s] 65%|██████▌   | 5099/7813 [25:54<13:12,  3.42it/s] 65%|██████▌   | 5100/7813 [25:54<13:11,  3.43it/s]                                                   {'loss': 0.0159, 'grad_norm': 0.22989021241664886, 'learning_rate': 3.473697683348266e-05, 'epoch': 0.65}
 65%|██████▌   | 5100/7813 [25:54<13:11,  3.43it/s] 65%|██████▌   | 5101/7813 [25:55<13:27,  3.36it/s] 65%|██████▌   | 5102/7813 [25:55<13:27,  3.36it/s] 65%|██████▌   | 5103/7813 [25:55<13:33,  3.33it/s] 65%|██████▌   | 5104/7813 [25:55<13:32,  3.34it/s] 65%|██████▌   | 5105/7813 [25:56<13:28,  3.35it/s] 65%|██████▌   | 5106/7813 [25:57<23:10,  1.95it/s] 65%|██████▌   | 5107/7813 [25:57<20:14,  2.23it/s] 65%|██████▌   | 5108/7813 [25:57<18:08,  2.48it/s] 65%|██████▌   | 5109/7813 [25:58<16:53,  2.67it/s] 65%|██████▌   | 5110/7813 [25:58<15:45,  2.86it/s] 65%|██████▌   | 5111/7813 [25:58<15:00,  3.00it/s] 65%|██████▌   | 5112/7813 [25:59<14:26,  3.12it/s] 65%|██████▌   | 5113/7813 [25:59<14:17,  3.15it/s] 65%|██████▌   | 5114/7813 [25:59<13:56,  3.23it/s] 65%|██████▌   | 5115/7813 [25:59<13:49,  3.25it/s] 65%|██████▌   | 5116/7813 [26:00<13:44,  3.27it/s] 65%|██████▌   | 5117/7813 [26:00<13:27,  3.34it/s] 66%|██████▌   | 5118/7813 [26:00<13:21,  3.36it/s] 66%|██████▌   | 5119/7813 [26:01<13:25,  3.35it/s] 66%|██████▌   | 5120/7813 [26:01<13:24,  3.35it/s] 66%|██████▌   | 5121/7813 [26:01<13:20,  3.36it/s] 66%|██████▌   | 5122/7813 [26:01<13:16,  3.38it/s] 66%|██████▌   | 5123/7813 [26:02<13:38,  3.29it/s] 66%|██████▌   | 5124/7813 [26:02<13:39,  3.28it/s] 66%|██████▌   | 5125/7813 [26:02<13:35,  3.29it/s] 66%|██████▌   | 5126/7813 [26:03<13:27,  3.33it/s] 66%|██████▌   | 5127/7813 [26:03<13:18,  3.36it/s] 66%|██████▌   | 5128/7813 [26:03<13:17,  3.37it/s] 66%|██████▌   | 5129/7813 [26:04<13:13,  3.38it/s] 66%|██████▌   | 5130/7813 [26:04<13:16,  3.37it/s] 66%|██████▌   | 5131/7813 [26:04<13:10,  3.39it/s] 66%|██████▌   | 5132/7813 [26:04<13:03,  3.42it/s] 66%|██████▌   | 5133/7813 [26:05<13:06,  3.41it/s] 66%|██████▌   | 5134/7813 [26:05<13:09,  3.39it/s] 66%|██████▌   | 5135/7813 [26:05<13:09,  3.39it/s] 66%|██████▌   | 5136/7813 [26:06<13:16,  3.36it/s] 66%|██████▌   | 5137/7813 [26:06<13:11,  3.38it/s] 66%|██████▌   | 5138/7813 [26:06<13:16,  3.36it/s] 66%|██████▌   | 5139/7813 [26:07<13:13,  3.37it/s] 66%|██████▌   | 5140/7813 [26:07<13:10,  3.38it/s] 66%|██████▌   | 5141/7813 [26:07<13:10,  3.38it/s] 66%|██████▌   | 5142/7813 [26:07<13:10,  3.38it/s] 66%|██████▌   | 5143/7813 [26:08<13:09,  3.38it/s] 66%|██████▌   | 5144/7813 [26:08<13:07,  3.39it/s] 66%|██████▌   | 5145/7813 [26:08<13:05,  3.40it/s] 66%|██████▌   | 5146/7813 [26:09<13:31,  3.29it/s] 66%|██████▌   | 5147/7813 [26:09<16:08,  2.75it/s] 66%|██████▌   | 5148/7813 [26:09<15:17,  2.90it/s] 66%|██████▌   | 5149/7813 [26:10<14:35,  3.04it/s] 66%|██████▌   | 5150/7813 [26:10<14:08,  3.14it/s]                                                   {'loss': 0.0158, 'grad_norm': 0.31720536947250366, 'learning_rate': 3.4097017790861384e-05, 'epoch': 0.66}
 66%|██████▌   | 5150/7813 [26:10<14:08,  3.14it/s] 66%|██████▌   | 5151/7813 [26:10<13:57,  3.18it/s] 66%|██████▌   | 5152/7813 [26:11<13:45,  3.22it/s] 66%|██████▌   | 5153/7813 [26:11<13:32,  3.27it/s] 66%|██████▌   | 5154/7813 [26:11<13:36,  3.26it/s] 66%|██████▌   | 5155/7813 [26:12<13:22,  3.31it/s] 66%|██████▌   | 5156/7813 [26:12<13:12,  3.35it/s] 66%|██████▌   | 5157/7813 [26:12<13:17,  3.33it/s] 66%|██████▌   | 5158/7813 [26:12<13:29,  3.28it/s] 66%|██████▌   | 5159/7813 [26:13<13:17,  3.33it/s] 66%|██████▌   | 5160/7813 [26:13<13:12,  3.35it/s] 66%|██████▌   | 5161/7813 [26:13<13:05,  3.37it/s] 66%|██████▌   | 5162/7813 [26:14<13:07,  3.37it/s] 66%|██████▌   | 5163/7813 [26:14<13:43,  3.22it/s] 66%|██████▌   | 5164/7813 [26:14<14:02,  3.14it/s] 66%|██████▌   | 5165/7813 [26:15<13:52,  3.18it/s] 66%|██████▌   | 5166/7813 [26:15<13:59,  3.15it/s] 66%|██████▌   | 5167/7813 [26:15<13:43,  3.21it/s] 66%|██████▌   | 5168/7813 [26:16<13:31,  3.26it/s] 66%|██████▌   | 5169/7813 [26:16<13:47,  3.20it/s] 66%|██████▌   | 5170/7813 [26:16<13:37,  3.23it/s] 66%|██████▌   | 5171/7813 [26:16<13:23,  3.29it/s] 66%|██████▌   | 5172/7813 [26:17<13:16,  3.31it/s] 66%|██████▌   | 5173/7813 [26:17<13:08,  3.35it/s] 66%|██████▌   | 5174/7813 [26:17<13:08,  3.35it/s] 66%|██████▌   | 5175/7813 [26:18<13:13,  3.32it/s] 66%|██████▌   | 5176/7813 [26:18<13:49,  3.18it/s] 66%|██████▋   | 5177/7813 [26:18<13:42,  3.20it/s] 66%|██████▋   | 5178/7813 [26:19<13:36,  3.23it/s] 66%|██████▋   | 5179/7813 [26:19<13:28,  3.26it/s] 66%|██████▋   | 5180/7813 [26:19<13:21,  3.29it/s] 66%|██████▋   | 5181/7813 [26:20<13:31,  3.24it/s] 66%|██████▋   | 5182/7813 [26:20<13:24,  3.27it/s] 66%|██████▋   | 5183/7813 [26:20<13:30,  3.25it/s] 66%|██████▋   | 5184/7813 [26:20<13:22,  3.27it/s] 66%|██████▋   | 5185/7813 [26:21<13:17,  3.30it/s] 66%|██████▋   | 5186/7813 [26:21<13:42,  3.19it/s] 66%|██████▋   | 5187/7813 [26:21<13:29,  3.24it/s] 66%|██████▋   | 5188/7813 [26:22<13:21,  3.28it/s] 66%|██████▋   | 5189/7813 [26:22<13:43,  3.19it/s] 66%|██████▋   | 5190/7813 [26:22<13:27,  3.25it/s] 66%|██████▋   | 5191/7813 [26:23<13:26,  3.25it/s] 66%|██████▋   | 5192/7813 [26:23<13:21,  3.27it/s] 66%|██████▋   | 5193/7813 [26:23<13:13,  3.30it/s] 66%|██████▋   | 5194/7813 [26:23<13:06,  3.33it/s] 66%|██████▋   | 5195/7813 [26:24<13:04,  3.34it/s] 67%|██████▋   | 5196/7813 [26:24<13:32,  3.22it/s] 67%|██████▋   | 5197/7813 [26:24<13:22,  3.26it/s] 67%|██████▋   | 5198/7813 [26:25<13:17,  3.28it/s] 67%|██████▋   | 5199/7813 [26:25<13:11,  3.30it/s] 67%|██████▋   | 5200/7813 [26:25<13:08,  3.31it/s]                                                   {'loss': 0.0166, 'grad_norm': 0.20378901064395905, 'learning_rate': 3.3457058748240114e-05, 'epoch': 0.67}
 67%|██████▋   | 5200/7813 [26:25<13:08,  3.31it/s] 67%|██████▋   | 5201/7813 [26:26<13:07,  3.32it/s] 67%|██████▋   | 5202/7813 [26:26<13:01,  3.34it/s] 67%|██████▋   | 5203/7813 [26:26<12:56,  3.36it/s] 67%|██████▋   | 5204/7813 [26:27<12:59,  3.35it/s] 67%|██████▋   | 5205/7813 [26:27<13:01,  3.34it/s] 67%|██████▋   | 5206/7813 [26:27<13:03,  3.33it/s] 67%|██████▋   | 5207/7813 [26:27<12:59,  3.34it/s] 67%|██████▋   | 5208/7813 [26:28<13:27,  3.23it/s] 67%|██████▋   | 5209/7813 [26:28<13:20,  3.25it/s] 67%|██████▋   | 5210/7813 [26:28<13:16,  3.27it/s] 67%|██████▋   | 5211/7813 [26:29<13:33,  3.20it/s] 67%|██████▋   | 5212/7813 [26:29<13:27,  3.22it/s] 67%|██████▋   | 5213/7813 [26:29<13:15,  3.27it/s] 67%|██████▋   | 5214/7813 [26:30<13:11,  3.28it/s] 67%|██████▋   | 5215/7813 [26:30<13:03,  3.32it/s] 67%|██████▋   | 5216/7813 [26:30<12:59,  3.33it/s] 67%|██████▋   | 5217/7813 [26:31<13:30,  3.20it/s] 67%|██████▋   | 5218/7813 [26:31<13:14,  3.26it/s] 67%|██████▋   | 5219/7813 [26:31<13:04,  3.31it/s] 67%|██████▋   | 5220/7813 [26:31<12:59,  3.33it/s] 67%|██████▋   | 5221/7813 [26:32<13:04,  3.30it/s] 67%|██████▋   | 5222/7813 [26:32<13:02,  3.31it/s] 67%|██████▋   | 5223/7813 [26:32<12:56,  3.33it/s] 67%|██████▋   | 5224/7813 [26:33<13:32,  3.19it/s] 67%|██████▋   | 5225/7813 [26:33<13:18,  3.24it/s] 67%|██████▋   | 5226/7813 [26:33<13:08,  3.28it/s] 67%|██████▋   | 5227/7813 [26:34<13:13,  3.26it/s] 67%|██████▋   | 5228/7813 [26:34<13:08,  3.28it/s] 67%|██████▋   | 5229/7813 [26:34<13:13,  3.26it/s] 67%|██████▋   | 5230/7813 [26:34<13:01,  3.30it/s] 67%|██████▋   | 5231/7813 [26:35<13:03,  3.30it/s] 67%|██████▋   | 5232/7813 [26:35<13:03,  3.29it/s] 67%|██████▋   | 5233/7813 [26:35<13:11,  3.26it/s] 67%|██████▋   | 5234/7813 [26:36<13:00,  3.31it/s] 67%|██████▋   | 5235/7813 [26:36<12:58,  3.31it/s] 67%|██████▋   | 5236/7813 [26:36<12:55,  3.32it/s] 67%|██████▋   | 5237/7813 [26:37<12:43,  3.37it/s] 67%|██████▋   | 5238/7813 [26:37<12:43,  3.37it/s] 67%|██████▋   | 5239/7813 [26:37<12:44,  3.37it/s] 67%|██████▋   | 5240/7813 [26:37<12:40,  3.38it/s] 67%|██████▋   | 5241/7813 [26:38<12:40,  3.38it/s] 67%|██████▋   | 5242/7813 [26:38<12:41,  3.38it/s] 67%|██████▋   | 5243/7813 [26:38<12:39,  3.38it/s] 67%|██████▋   | 5244/7813 [26:39<12:38,  3.39it/s] 67%|██████▋   | 5245/7813 [26:39<12:35,  3.40it/s] 67%|██████▋   | 5246/7813 [26:39<12:35,  3.40it/s] 67%|██████▋   | 5247/7813 [26:40<12:56,  3.31it/s] 67%|██████▋   | 5248/7813 [26:40<13:12,  3.24it/s] 67%|██████▋   | 5249/7813 [26:40<13:03,  3.27it/s] 67%|██████▋   | 5250/7813 [26:40<12:53,  3.31it/s]                                                   {'loss': 0.0157, 'grad_norm': 0.22857962548732758, 'learning_rate': 3.2817099705618844e-05, 'epoch': 0.67}
 67%|██████▋   | 5250/7813 [26:40<12:53,  3.31it/s] 67%|██████▋   | 5251/7813 [26:41<13:23,  3.19it/s] 67%|██████▋   | 5252/7813 [26:41<13:07,  3.25it/s] 67%|██████▋   | 5253/7813 [26:41<12:59,  3.28it/s] 67%|██████▋   | 5254/7813 [26:42<13:01,  3.27it/s] 67%|██████▋   | 5255/7813 [26:42<13:01,  3.27it/s] 67%|██████▋   | 5256/7813 [26:42<12:52,  3.31it/s] 67%|██████▋   | 5257/7813 [26:43<12:45,  3.34it/s] 67%|██████▋   | 5258/7813 [26:43<13:19,  3.20it/s] 67%|██████▋   | 5259/7813 [26:43<13:13,  3.22it/s] 67%|██████▋   | 5260/7813 [26:44<13:07,  3.24it/s] 67%|██████▋   | 5261/7813 [26:44<13:03,  3.26it/s] 67%|██████▋   | 5262/7813 [26:44<12:56,  3.29it/s] 67%|██████▋   | 5263/7813 [26:44<12:56,  3.28it/s] 67%|██████▋   | 5264/7813 [26:45<12:46,  3.32it/s] 67%|██████▋   | 5265/7813 [26:45<12:47,  3.32it/s] 67%|██████▋   | 5266/7813 [26:45<12:53,  3.29it/s] 67%|██████▋   | 5267/7813 [26:46<12:49,  3.31it/s] 67%|██████▋   | 5268/7813 [26:46<12:40,  3.35it/s] 67%|██████▋   | 5269/7813 [26:46<13:10,  3.22it/s] 67%|██████▋   | 5270/7813 [26:47<13:01,  3.25it/s] 67%|██████▋   | 5271/7813 [26:47<12:58,  3.27it/s] 67%|██████▋   | 5272/7813 [26:47<12:54,  3.28it/s] 67%|██████▋   | 5273/7813 [26:47<12:43,  3.33it/s] 68%|██████▊   | 5274/7813 [26:48<12:43,  3.32it/s] 68%|██████▊   | 5275/7813 [26:48<12:39,  3.34it/s] 68%|██████▊   | 5276/7813 [26:48<12:37,  3.35it/s] 68%|██████▊   | 5277/7813 [26:49<12:36,  3.35it/s] 68%|██████▊   | 5278/7813 [26:49<12:31,  3.37it/s] 68%|██████▊   | 5279/7813 [26:49<13:00,  3.25it/s] 68%|██████▊   | 5280/7813 [26:50<12:51,  3.28it/s] 68%|██████▊   | 5281/7813 [26:50<13:07,  3.21it/s] 68%|██████▊   | 5282/7813 [26:50<12:55,  3.26it/s] 68%|██████▊   | 5283/7813 [26:50<12:46,  3.30it/s] 68%|██████▊   | 5284/7813 [26:51<13:19,  3.16it/s] 68%|██████▊   | 5285/7813 [26:51<13:06,  3.21it/s] 68%|██████▊   | 5286/7813 [26:51<12:53,  3.27it/s] 68%|██████▊   | 5287/7813 [26:52<12:45,  3.30it/s] 68%|██████▊   | 5288/7813 [26:52<13:06,  3.21it/s] 68%|██████▊   | 5289/7813 [26:52<12:51,  3.27it/s] 68%|██████▊   | 5290/7813 [26:53<12:48,  3.28it/s] 68%|██████▊   | 5291/7813 [26:53<12:45,  3.29it/s] 68%|██████▊   | 5292/7813 [26:53<12:45,  3.29it/s] 68%|██████▊   | 5293/7813 [26:54<12:39,  3.32it/s] 68%|██████▊   | 5294/7813 [26:54<12:35,  3.33it/s] 68%|██████▊   | 5295/7813 [26:54<13:06,  3.20it/s] 68%|██████▊   | 5296/7813 [26:54<12:48,  3.27it/s] 68%|██████▊   | 5297/7813 [26:55<12:44,  3.29it/s] 68%|██████▊   | 5298/7813 [26:55<12:51,  3.26it/s] 68%|██████▊   | 5299/7813 [26:55<13:17,  3.15it/s] 68%|██████▊   | 5300/7813 [26:56<13:01,  3.22it/s]                                                   {'loss': 0.0159, 'grad_norm': 0.2692987024784088, 'learning_rate': 3.217714066299757e-05, 'epoch': 0.68}
 68%|██████▊   | 5300/7813 [26:56<13:01,  3.22it/s] 68%|██████▊   | 5301/7813 [26:56<13:01,  3.21it/s] 68%|██████▊   | 5302/7813 [26:56<13:18,  3.14it/s] 68%|██████▊   | 5303/7813 [26:57<13:03,  3.21it/s] 68%|██████▊   | 5304/7813 [26:57<13:21,  3.13it/s] 68%|██████▊   | 5305/7813 [26:57<13:04,  3.20it/s] 68%|██████▊   | 5306/7813 [26:58<12:52,  3.24it/s] 68%|██████▊   | 5307/7813 [26:58<12:56,  3.23it/s] 68%|██████▊   | 5308/7813 [26:58<12:46,  3.27it/s] 68%|██████▊   | 5309/7813 [26:59<12:42,  3.29it/s] 68%|██████▊   | 5310/7813 [26:59<12:31,  3.33it/s] 68%|██████▊   | 5311/7813 [26:59<12:50,  3.25it/s] 68%|██████▊   | 5312/7813 [26:59<12:41,  3.28it/s] 68%|██████▊   | 5313/7813 [27:00<12:37,  3.30it/s] 68%|██████▊   | 5314/7813 [27:00<12:47,  3.26it/s] 68%|██████▊   | 5315/7813 [27:00<12:37,  3.30it/s] 68%|██████▊   | 5316/7813 [27:01<12:34,  3.31it/s] 68%|██████▊   | 5317/7813 [27:01<12:28,  3.33it/s] 68%|██████▊   | 5318/7813 [27:01<12:29,  3.33it/s] 68%|██████▊   | 5319/7813 [27:02<12:29,  3.33it/s] 68%|██████▊   | 5320/7813 [27:02<12:20,  3.37it/s] 68%|██████▊   | 5321/7813 [27:02<12:22,  3.36it/s] 68%|██████▊   | 5322/7813 [27:02<12:21,  3.36it/s] 68%|██████▊   | 5323/7813 [27:03<12:22,  3.35it/s] 68%|██████▊   | 5324/7813 [27:03<12:22,  3.35it/s] 68%|██████▊   | 5325/7813 [27:03<12:23,  3.34it/s] 68%|██████▊   | 5326/7813 [27:04<12:20,  3.36it/s] 68%|██████▊   | 5327/7813 [27:04<12:18,  3.36it/s] 68%|██████▊   | 5328/7813 [27:04<12:20,  3.35it/s] 68%|██████▊   | 5329/7813 [27:05<12:26,  3.33it/s] 68%|██████▊   | 5330/7813 [27:05<12:27,  3.32it/s] 68%|██████▊   | 5331/7813 [27:05<12:22,  3.34it/s] 68%|██████▊   | 5332/7813 [27:05<12:20,  3.35it/s] 68%|██████▊   | 5333/7813 [27:06<12:20,  3.35it/s] 68%|██████▊   | 5334/7813 [27:06<12:22,  3.34it/s] 68%|██████▊   | 5335/7813 [27:06<12:19,  3.35it/s] 68%|██████▊   | 5336/7813 [27:07<12:15,  3.37it/s] 68%|██████▊   | 5337/7813 [27:07<12:23,  3.33it/s] 68%|██████▊   | 5338/7813 [27:07<12:28,  3.31it/s] 68%|██████▊   | 5339/7813 [27:08<12:58,  3.18it/s] 68%|██████▊   | 5340/7813 [27:08<12:39,  3.25it/s] 68%|██████▊   | 5341/7813 [27:08<12:29,  3.30it/s] 68%|██████▊   | 5342/7813 [27:08<12:21,  3.33it/s] 68%|██████▊   | 5343/7813 [27:09<12:22,  3.33it/s] 68%|██████▊   | 5344/7813 [27:09<12:27,  3.30it/s] 68%|██████▊   | 5345/7813 [27:09<12:19,  3.34it/s] 68%|██████▊   | 5346/7813 [27:10<12:25,  3.31it/s] 68%|██████▊   | 5347/7813 [27:10<12:29,  3.29it/s] 68%|██████▊   | 5348/7813 [27:10<12:26,  3.30it/s] 68%|██████▊   | 5349/7813 [27:11<12:25,  3.30it/s] 68%|██████▊   | 5350/7813 [27:11<12:21,  3.32it/s]                                                   {'loss': 0.016, 'grad_norm': 0.30502840876579285, 'learning_rate': 3.15371816203763e-05, 'epoch': 0.68}
 68%|██████▊   | 5350/7813 [27:11<12:21,  3.32it/s] 68%|██████▊   | 5351/7813 [27:11<12:16,  3.34it/s] 69%|██████▊   | 5352/7813 [27:11<12:08,  3.38it/s] 69%|██████▊   | 5353/7813 [27:12<12:08,  3.38it/s] 69%|██████▊   | 5354/7813 [27:12<12:12,  3.36it/s] 69%|██████▊   | 5355/7813 [27:12<12:11,  3.36it/s] 69%|██████▊   | 5356/7813 [27:13<12:10,  3.36it/s] 69%|██████▊   | 5357/7813 [27:13<12:11,  3.36it/s] 69%|██████▊   | 5358/7813 [27:13<12:11,  3.36it/s] 69%|██████▊   | 5359/7813 [27:14<12:23,  3.30it/s] 69%|██████▊   | 5360/7813 [27:14<12:27,  3.28it/s] 69%|██████▊   | 5361/7813 [27:14<12:29,  3.27it/s] 69%|██████▊   | 5362/7813 [27:14<12:36,  3.24it/s] 69%|██████▊   | 5363/7813 [27:15<12:20,  3.31it/s] 69%|██████▊   | 5364/7813 [27:15<12:16,  3.32it/s] 69%|██████▊   | 5365/7813 [27:15<12:13,  3.34it/s] 69%|██████▊   | 5366/7813 [27:16<12:10,  3.35it/s] 69%|██████▊   | 5367/7813 [27:16<12:10,  3.35it/s] 69%|██████▊   | 5368/7813 [27:16<12:05,  3.37it/s] 69%|██████▊   | 5369/7813 [27:17<12:00,  3.39it/s] 69%|██████▊   | 5370/7813 [27:17<12:04,  3.37it/s] 69%|██████▊   | 5371/7813 [27:17<12:07,  3.36it/s] 69%|██████▉   | 5372/7813 [27:17<11:57,  3.40it/s] 69%|██████▉   | 5373/7813 [27:18<12:02,  3.38it/s] 69%|██████▉   | 5374/7813 [27:18<12:05,  3.36it/s] 69%|██████▉   | 5375/7813 [27:18<11:57,  3.40it/s] 69%|██████▉   | 5376/7813 [27:19<12:36,  3.22it/s] 69%|██████▉   | 5377/7813 [27:19<12:26,  3.26it/s] 69%|██████▉   | 5378/7813 [27:19<12:13,  3.32it/s] 69%|██████▉   | 5379/7813 [27:20<12:22,  3.28it/s] 69%|██████▉   | 5380/7813 [27:20<12:10,  3.33it/s] 69%|██████▉   | 5381/7813 [27:20<12:06,  3.35it/s] 69%|██████▉   | 5382/7813 [27:20<12:33,  3.23it/s] 69%|██████▉   | 5383/7813 [27:21<12:21,  3.27it/s] 69%|██████▉   | 5384/7813 [27:21<12:18,  3.29it/s] 69%|██████▉   | 5385/7813 [27:21<12:14,  3.31it/s] 69%|██████▉   | 5386/7813 [27:22<12:24,  3.26it/s] 69%|██████▉   | 5387/7813 [27:22<12:16,  3.29it/s] 69%|██████▉   | 5388/7813 [27:22<12:24,  3.26it/s] 69%|██████▉   | 5389/7813 [27:23<12:16,  3.29it/s] 69%|██████▉   | 5390/7813 [27:23<12:13,  3.31it/s] 69%|██████▉   | 5391/7813 [27:23<12:07,  3.33it/s] 69%|██████▉   | 5392/7813 [27:23<12:03,  3.34it/s] 69%|██████▉   | 5393/7813 [27:24<11:57,  3.37it/s] 69%|██████▉   | 5394/7813 [27:24<11:53,  3.39it/s] 69%|██████▉   | 5395/7813 [27:24<11:56,  3.38it/s] 69%|██████▉   | 5396/7813 [27:25<11:54,  3.38it/s] 69%|██████▉   | 5397/7813 [27:25<11:55,  3.38it/s] 69%|██████▉   | 5398/7813 [27:25<11:49,  3.40it/s] 69%|██████▉   | 5399/7813 [27:26<11:54,  3.38it/s] 69%|██████▉   | 5400/7813 [27:26<12:01,  3.35it/s]                                                   {'loss': 0.0152, 'grad_norm': 0.27597934007644653, 'learning_rate': 3.089722257775503e-05, 'epoch': 0.69}
 69%|██████▉   | 5400/7813 [27:26<12:01,  3.35it/s] 69%|██████▉   | 5401/7813 [27:26<12:04,  3.33it/s] 69%|██████▉   | 5402/7813 [27:26<12:02,  3.34it/s] 69%|██████▉   | 5403/7813 [27:27<11:56,  3.37it/s] 69%|██████▉   | 5404/7813 [27:27<11:55,  3.37it/s] 69%|██████▉   | 5405/7813 [27:27<11:50,  3.39it/s] 69%|██████▉   | 5406/7813 [27:28<12:04,  3.32it/s] 69%|██████▉   | 5407/7813 [27:28<12:03,  3.33it/s] 69%|██████▉   | 5408/7813 [27:28<11:59,  3.34it/s] 69%|██████▉   | 5409/7813 [27:29<11:58,  3.34it/s] 69%|██████▉   | 5410/7813 [27:29<11:56,  3.35it/s] 69%|██████▉   | 5411/7813 [27:29<11:49,  3.39it/s] 69%|██████▉   | 5412/7813 [27:29<11:49,  3.38it/s] 69%|██████▉   | 5413/7813 [27:30<14:51,  2.69it/s] 69%|██████▉   | 5414/7813 [27:30<13:53,  2.88it/s] 69%|██████▉   | 5415/7813 [27:31<13:12,  3.02it/s] 69%|██████▉   | 5416/7813 [27:31<13:20,  2.99it/s] 69%|██████▉   | 5417/7813 [27:31<12:49,  3.11it/s] 69%|██████▉   | 5418/7813 [27:31<12:30,  3.19it/s] 69%|██████▉   | 5419/7813 [27:32<12:19,  3.24it/s] 69%|██████▉   | 5420/7813 [27:32<12:12,  3.27it/s] 69%|██████▉   | 5421/7813 [27:32<12:05,  3.30it/s] 69%|██████▉   | 5422/7813 [27:33<12:06,  3.29it/s] 69%|██████▉   | 5423/7813 [27:33<12:03,  3.30it/s] 69%|██████▉   | 5424/7813 [27:33<12:03,  3.30it/s] 69%|██████▉   | 5425/7813 [27:34<12:24,  3.21it/s] 69%|██████▉   | 5426/7813 [27:34<12:23,  3.21it/s] 69%|██████▉   | 5427/7813 [27:34<12:35,  3.16it/s] 69%|██████▉   | 5428/7813 [27:35<12:21,  3.22it/s] 69%|██████▉   | 5429/7813 [27:35<12:08,  3.27it/s] 69%|██████▉   | 5430/7813 [27:35<11:57,  3.32it/s] 70%|██████▉   | 5431/7813 [27:35<12:20,  3.22it/s] 70%|██████▉   | 5432/7813 [27:36<12:06,  3.28it/s] 70%|██████▉   | 5433/7813 [27:36<12:07,  3.27it/s] 70%|██████▉   | 5434/7813 [27:36<12:28,  3.18it/s] 70%|██████▉   | 5435/7813 [27:37<12:16,  3.23it/s] 70%|██████▉   | 5436/7813 [27:37<12:12,  3.25it/s] 70%|██████▉   | 5437/7813 [27:37<12:06,  3.27it/s] 70%|██████▉   | 5438/7813 [27:38<12:04,  3.28it/s] 70%|██████▉   | 5439/7813 [27:38<11:53,  3.33it/s] 70%|██████▉   | 5440/7813 [27:38<11:53,  3.33it/s] 70%|██████▉   | 5441/7813 [27:39<12:01,  3.29it/s] 70%|██████▉   | 5442/7813 [27:39<11:56,  3.31it/s] 70%|██████▉   | 5443/7813 [27:39<12:07,  3.26it/s] 70%|██████▉   | 5444/7813 [27:39<12:08,  3.25it/s] 70%|██████▉   | 5445/7813 [27:40<12:00,  3.29it/s] 70%|██████▉   | 5446/7813 [27:40<11:56,  3.30it/s] 70%|██████▉   | 5447/7813 [27:40<12:23,  3.18it/s] 70%|██████▉   | 5448/7813 [27:41<12:12,  3.23it/s] 70%|██████▉   | 5449/7813 [27:41<11:59,  3.28it/s] 70%|██████▉   | 5450/7813 [27:41<11:49,  3.33it/s]                                                   {'loss': 0.0147, 'grad_norm': 0.31194764375686646, 'learning_rate': 3.025726353513375e-05, 'epoch': 0.7}
 70%|██████▉   | 5450/7813 [27:41<11:49,  3.33it/s] 70%|██████▉   | 5451/7813 [27:42<11:42,  3.36it/s] 70%|██████▉   | 5452/7813 [27:42<11:38,  3.38it/s] 70%|██████▉   | 5453/7813 [27:42<11:57,  3.29it/s] 70%|██████▉   | 5454/7813 [27:42<11:48,  3.33it/s] 70%|██████▉   | 5455/7813 [27:43<11:40,  3.36it/s] 70%|██████▉   | 5456/7813 [27:43<11:43,  3.35it/s] 70%|██████▉   | 5457/7813 [27:43<12:01,  3.27it/s] 70%|██████▉   | 5458/7813 [27:44<11:47,  3.33it/s] 70%|██████▉   | 5459/7813 [27:44<11:40,  3.36it/s] 70%|██████▉   | 5460/7813 [27:44<11:41,  3.35it/s] 70%|██████▉   | 5461/7813 [27:45<11:37,  3.37it/s] 70%|██████▉   | 5462/7813 [27:45<11:33,  3.39it/s] 70%|██████▉   | 5463/7813 [27:45<11:29,  3.41it/s] 70%|██████▉   | 5464/7813 [27:45<11:23,  3.43it/s] 70%|██████▉   | 5465/7813 [27:46<11:30,  3.40it/s] 70%|██████▉   | 5466/7813 [27:46<11:29,  3.40it/s] 70%|██████▉   | 5467/7813 [27:46<11:31,  3.39it/s] 70%|██████▉   | 5468/7813 [27:47<11:30,  3.40it/s] 70%|██████▉   | 5469/7813 [27:47<11:30,  3.39it/s] 70%|███████   | 5470/7813 [27:47<11:49,  3.30it/s] 70%|███████   | 5471/7813 [27:48<11:47,  3.31it/s] 70%|███████   | 5472/7813 [27:48<11:49,  3.30it/s] 70%|███████   | 5473/7813 [27:48<11:51,  3.29it/s] 70%|███████   | 5474/7813 [27:48<11:50,  3.29it/s] 70%|███████   | 5475/7813 [27:49<11:47,  3.30it/s] 70%|███████   | 5476/7813 [27:49<12:16,  3.18it/s] 70%|███████   | 5477/7813 [27:49<12:11,  3.19it/s] 70%|███████   | 5478/7813 [27:50<11:56,  3.26it/s] 70%|███████   | 5479/7813 [27:50<11:48,  3.29it/s] 70%|███████   | 5480/7813 [27:50<11:38,  3.34it/s] 70%|███████   | 5481/7813 [27:51<11:35,  3.35it/s] 70%|███████   | 5482/7813 [27:51<11:33,  3.36it/s] 70%|███████   | 5483/7813 [27:51<11:32,  3.36it/s] 70%|███████   | 5484/7813 [27:51<11:25,  3.40it/s] 70%|███████   | 5485/7813 [27:52<11:29,  3.38it/s] 70%|███████   | 5486/7813 [27:52<11:29,  3.37it/s] 70%|███████   | 5487/7813 [27:52<11:28,  3.38it/s] 70%|███████   | 5488/7813 [27:53<11:30,  3.37it/s] 70%|███████   | 5489/7813 [27:53<11:29,  3.37it/s] 70%|███████   | 5490/7813 [27:53<11:24,  3.39it/s] 70%|███████   | 5491/7813 [27:54<11:28,  3.37it/s] 70%|███████   | 5492/7813 [27:54<11:23,  3.39it/s] 70%|███████   | 5493/7813 [27:54<11:45,  3.29it/s] 70%|███████   | 5494/7813 [27:54<11:44,  3.29it/s] 70%|███████   | 5495/7813 [27:55<12:07,  3.19it/s] 70%|███████   | 5496/7813 [27:55<12:16,  3.15it/s] 70%|███████   | 5497/7813 [27:55<12:21,  3.12it/s] 70%|███████   | 5498/7813 [27:56<12:04,  3.19it/s] 70%|███████   | 5499/7813 [27:56<11:50,  3.26it/s] 70%|███████   | 5500/7813 [27:56<11:41,  3.30it/s]                                                   {'loss': 0.0145, 'grad_norm': 0.2716234624385834, 'learning_rate': 2.9617304492512484e-05, 'epoch': 0.7}
 70%|███████   | 5500/7813 [27:56<11:41,  3.30it/s] 70%|███████   | 5501/7813 [27:57<11:35,  3.32it/s] 70%|███████   | 5502/7813 [27:57<12:06,  3.18it/s] 70%|███████   | 5503/7813 [27:57<11:57,  3.22it/s] 70%|███████   | 5504/7813 [27:58<12:04,  3.19it/s] 70%|███████   | 5505/7813 [27:58<11:55,  3.23it/s] 70%|███████   | 5506/7813 [27:58<11:42,  3.28it/s] 70%|███████   | 5507/7813 [27:58<11:58,  3.21it/s] 70%|███████   | 5508/7813 [27:59<11:46,  3.26it/s] 71%|███████   | 5509/7813 [27:59<12:11,  3.15it/s] 71%|███████   | 5510/7813 [27:59<12:21,  3.11it/s] 71%|███████   | 5511/7813 [28:00<12:28,  3.08it/s] 71%|███████   | 5512/7813 [28:00<12:06,  3.17it/s] 71%|███████   | 5513/7813 [28:00<11:50,  3.24it/s] 71%|███████   | 5514/7813 [28:01<11:59,  3.20it/s] 71%|███████   | 5515/7813 [28:01<11:59,  3.19it/s] 71%|███████   | 5516/7813 [28:01<11:59,  3.19it/s] 71%|███████   | 5517/7813 [28:02<11:50,  3.23it/s] 71%|███████   | 5518/7813 [28:02<11:35,  3.30it/s] 71%|███████   | 5519/7813 [28:02<11:24,  3.35it/s] 71%|███████   | 5520/7813 [28:02<11:17,  3.38it/s] 71%|███████   | 5521/7813 [28:03<11:17,  3.38it/s] 71%|███████   | 5522/7813 [28:03<11:21,  3.36it/s] 71%|███████   | 5523/7813 [28:03<11:24,  3.34it/s] 71%|███████   | 5524/7813 [28:04<11:23,  3.35it/s] 71%|███████   | 5525/7813 [28:04<11:23,  3.35it/s] 71%|███████   | 5526/7813 [28:04<11:25,  3.34it/s] 71%|███████   | 5527/7813 [28:05<11:22,  3.35it/s] 71%|███████   | 5528/7813 [28:05<11:29,  3.32it/s] 71%|███████   | 5529/7813 [28:05<11:42,  3.25it/s] 71%|███████   | 5530/7813 [28:06<11:39,  3.26it/s] 71%|███████   | 5531/7813 [28:06<11:46,  3.23it/s] 71%|███████   | 5532/7813 [28:06<11:50,  3.21it/s] 71%|███████   | 5533/7813 [28:06<11:42,  3.25it/s] 71%|███████   | 5534/7813 [28:07<11:34,  3.28it/s] 71%|███████   | 5535/7813 [28:07<11:27,  3.31it/s] 71%|███████   | 5536/7813 [28:07<11:19,  3.35it/s] 71%|███████   | 5537/7813 [28:08<11:12,  3.38it/s] 71%|███████   | 5538/7813 [28:08<11:08,  3.40it/s] 71%|███████   | 5539/7813 [28:08<11:07,  3.41it/s] 71%|███████   | 5540/7813 [28:09<11:16,  3.36it/s] 71%|███████   | 5541/7813 [28:09<11:14,  3.37it/s] 71%|███████   | 5542/7813 [28:09<11:19,  3.34it/s] 71%|███████   | 5543/7813 [28:09<11:17,  3.35it/s] 71%|███████   | 5544/7813 [28:10<11:25,  3.31it/s] 71%|███████   | 5545/7813 [28:10<11:26,  3.30it/s] 71%|███████   | 5546/7813 [28:10<11:29,  3.29it/s] 71%|███████   | 5547/7813 [28:11<12:09,  3.10it/s] 71%|███████   | 5548/7813 [28:11<12:18,  3.07it/s] 71%|███████   | 5549/7813 [28:11<12:10,  3.10it/s] 71%|███████   | 5550/7813 [28:12<12:01,  3.14it/s]                                                   {'loss': 0.0153, 'grad_norm': 0.26136210560798645, 'learning_rate': 2.8977345449891207e-05, 'epoch': 0.71}
 71%|███████   | 5550/7813 [28:12<12:01,  3.14it/s] 71%|███████   | 5551/7813 [28:12<11:50,  3.18it/s] 71%|███████   | 5552/7813 [28:12<11:36,  3.24it/s] 71%|███████   | 5553/7813 [28:13<11:28,  3.28it/s] 71%|███████   | 5554/7813 [28:13<11:17,  3.33it/s] 71%|███████   | 5555/7813 [28:13<11:17,  3.33it/s] 71%|███████   | 5556/7813 [28:13<11:13,  3.35it/s] 71%|███████   | 5557/7813 [28:14<11:12,  3.35it/s] 71%|███████   | 5558/7813 [28:14<11:15,  3.34it/s] 71%|███████   | 5559/7813 [28:14<11:15,  3.34it/s] 71%|███████   | 5560/7813 [28:15<11:12,  3.35it/s] 71%|███████   | 5561/7813 [28:15<11:08,  3.37it/s] 71%|███████   | 5562/7813 [28:15<11:09,  3.36it/s] 71%|███████   | 5563/7813 [28:16<11:25,  3.28it/s] 71%|███████   | 5564/7813 [28:16<11:28,  3.27it/s] 71%|███████   | 5565/7813 [28:16<11:26,  3.28it/s] 71%|███████   | 5566/7813 [28:16<11:24,  3.28it/s] 71%|███████▏  | 5567/7813 [28:17<11:20,  3.30it/s] 71%|███████▏  | 5568/7813 [28:17<11:27,  3.27it/s] 71%|███████▏  | 5569/7813 [28:17<11:21,  3.29it/s] 71%|███████▏  | 5570/7813 [28:18<11:13,  3.33it/s] 71%|███████▏  | 5571/7813 [28:18<11:09,  3.35it/s] 71%|███████▏  | 5572/7813 [28:18<11:04,  3.37it/s] 71%|███████▏  | 5573/7813 [28:19<11:03,  3.38it/s] 71%|███████▏  | 5574/7813 [28:19<11:01,  3.39it/s] 71%|███████▏  | 5575/7813 [28:19<11:01,  3.38it/s] 71%|███████▏  | 5576/7813 [28:19<10:58,  3.40it/s] 71%|███████▏  | 5577/7813 [28:20<11:21,  3.28it/s] 71%|███████▏  | 5578/7813 [28:20<11:15,  3.31it/s] 71%|███████▏  | 5579/7813 [28:20<11:34,  3.22it/s] 71%|███████▏  | 5580/7813 [28:21<11:23,  3.27it/s] 71%|███████▏  | 5581/7813 [28:21<11:14,  3.31it/s] 71%|███████▏  | 5582/7813 [28:21<11:10,  3.33it/s] 71%|███████▏  | 5583/7813 [28:22<11:38,  3.19it/s] 71%|███████▏  | 5584/7813 [28:22<11:27,  3.24it/s] 71%|███████▏  | 5585/7813 [28:22<11:23,  3.26it/s] 71%|███████▏  | 5586/7813 [28:23<11:13,  3.31it/s] 72%|███████▏  | 5587/7813 [28:23<11:12,  3.31it/s] 72%|███████▏  | 5588/7813 [28:23<11:10,  3.32it/s] 72%|███████▏  | 5589/7813 [28:23<11:34,  3.20it/s] 72%|███████▏  | 5590/7813 [28:24<11:24,  3.25it/s] 72%|███████▏  | 5591/7813 [28:24<11:17,  3.28it/s] 72%|███████▏  | 5592/7813 [28:24<11:12,  3.30it/s] 72%|███████▏  | 5593/7813 [28:25<11:32,  3.21it/s] 72%|███████▏  | 5594/7813 [28:25<11:47,  3.14it/s] 72%|███████▏  | 5595/7813 [28:25<11:28,  3.22it/s] 72%|███████▏  | 5596/7813 [28:26<11:20,  3.26it/s] 72%|███████▏  | 5597/7813 [28:26<11:23,  3.24it/s] 72%|███████▏  | 5598/7813 [28:26<11:12,  3.29it/s] 72%|███████▏  | 5599/7813 [28:27<11:26,  3.23it/s] 72%|███████▏  | 5600/7813 [28:27<11:17,  3.27it/s]                                                   {'loss': 0.0136, 'grad_norm': 0.19857913255691528, 'learning_rate': 2.8337386407269934e-05, 'epoch': 0.72}
 72%|███████▏  | 5600/7813 [28:27<11:17,  3.27it/s] 72%|███████▏  | 5601/7813 [28:27<11:08,  3.31it/s] 72%|███████▏  | 5602/7813 [28:27<11:06,  3.32it/s] 72%|███████▏  | 5603/7813 [28:28<11:01,  3.34it/s] 72%|███████▏  | 5604/7813 [28:28<11:25,  3.22it/s] 72%|███████▏  | 5605/7813 [28:28<11:22,  3.24it/s] 72%|███████▏  | 5606/7813 [28:29<11:13,  3.28it/s] 72%|███████▏  | 5607/7813 [28:29<11:03,  3.32it/s] 72%|███████▏  | 5608/7813 [28:29<11:01,  3.33it/s] 72%|███████▏  | 5609/7813 [28:30<11:04,  3.32it/s] 72%|███████▏  | 5610/7813 [28:30<11:16,  3.25it/s] 72%|███████▏  | 5611/7813 [28:30<11:11,  3.28it/s] 72%|███████▏  | 5612/7813 [28:30<11:10,  3.28it/s] 72%|███████▏  | 5613/7813 [28:31<11:06,  3.30it/s] 72%|███████▏  | 5614/7813 [28:31<10:59,  3.34it/s] 72%|███████▏  | 5615/7813 [28:31<10:55,  3.35it/s] 72%|███████▏  | 5616/7813 [28:32<10:56,  3.35it/s] 72%|███████▏  | 5617/7813 [28:32<10:55,  3.35it/s] 72%|███████▏  | 5618/7813 [28:32<11:16,  3.25it/s] 72%|███████▏  | 5619/7813 [28:33<11:20,  3.22it/s] 72%|███████▏  | 5620/7813 [28:33<11:07,  3.29it/s] 72%|███████▏  | 5621/7813 [28:33<11:25,  3.20it/s] 72%|███████▏  | 5622/7813 [28:34<11:38,  3.14it/s] 72%|███████▏  | 5623/7813 [28:34<11:22,  3.21it/s] 72%|███████▏  | 5624/7813 [28:34<11:14,  3.25it/s] 72%|███████▏  | 5625/7813 [28:34<11:04,  3.29it/s] 72%|███████▏  | 5626/7813 [28:35<11:02,  3.30it/s] 72%|███████▏  | 5627/7813 [28:35<10:55,  3.34it/s] 72%|███████▏  | 5628/7813 [28:35<10:49,  3.37it/s] 72%|███████▏  | 5629/7813 [28:36<10:45,  3.39it/s] 72%|███████▏  | 5630/7813 [28:36<10:59,  3.31it/s] 72%|███████▏  | 5631/7813 [28:36<10:55,  3.33it/s] 72%|███████▏  | 5632/7813 [28:37<11:14,  3.23it/s] 72%|███████▏  | 5633/7813 [28:37<11:04,  3.28it/s] 72%|███████▏  | 5634/7813 [28:37<10:57,  3.32it/s] 72%|███████▏  | 5635/7813 [28:37<10:54,  3.33it/s] 72%|███████▏  | 5636/7813 [28:38<10:52,  3.34it/s] 72%|███████▏  | 5637/7813 [28:38<11:19,  3.20it/s] 72%|███████▏  | 5638/7813 [28:38<11:29,  3.15it/s] 72%|███████▏  | 5639/7813 [28:39<11:20,  3.20it/s] 72%|███████▏  | 5640/7813 [28:39<11:01,  3.29it/s] 72%|███████▏  | 5641/7813 [28:39<11:00,  3.29it/s] 72%|███████▏  | 5642/7813 [28:40<10:54,  3.32it/s] 72%|███████▏  | 5643/7813 [28:40<10:45,  3.36it/s] 72%|███████▏  | 5644/7813 [28:40<10:47,  3.35it/s] 72%|███████▏  | 5645/7813 [28:40<10:42,  3.38it/s] 72%|███████▏  | 5646/7813 [28:41<10:46,  3.35it/s] 72%|███████▏  | 5647/7813 [28:41<10:39,  3.39it/s] 72%|███████▏  | 5648/7813 [28:41<10:44,  3.36it/s] 72%|███████▏  | 5649/7813 [28:42<11:05,  3.25it/s] 72%|███████▏  | 5650/7813 [28:42<10:58,  3.28it/s]                                                   {'loss': 0.0151, 'grad_norm': 0.2177446186542511, 'learning_rate': 2.7697427364648664e-05, 'epoch': 0.72}
 72%|███████▏  | 5650/7813 [28:42<10:58,  3.28it/s] 72%|███████▏  | 5651/7813 [28:42<10:53,  3.31it/s] 72%|███████▏  | 5652/7813 [28:43<10:44,  3.35it/s] 72%|███████▏  | 5653/7813 [28:43<10:56,  3.29it/s] 72%|███████▏  | 5654/7813 [28:43<11:13,  3.20it/s] 72%|███████▏  | 5655/7813 [28:44<11:13,  3.20it/s] 72%|███████▏  | 5656/7813 [28:44<11:06,  3.24it/s] 72%|███████▏  | 5657/7813 [28:44<11:02,  3.25it/s] 72%|███████▏  | 5658/7813 [28:44<10:59,  3.27it/s] 72%|███████▏  | 5659/7813 [28:45<10:53,  3.30it/s] 72%|███████▏  | 5660/7813 [28:45<10:48,  3.32it/s] 72%|███████▏  | 5661/7813 [28:45<10:57,  3.27it/s] 72%|███████▏  | 5662/7813 [28:46<10:56,  3.28it/s] 72%|███████▏  | 5663/7813 [28:46<10:47,  3.32it/s] 72%|███████▏  | 5664/7813 [28:46<10:43,  3.34it/s] 73%|███████▎  | 5665/7813 [28:47<10:42,  3.34it/s] 73%|███████▎  | 5666/7813 [28:47<10:42,  3.34it/s] 73%|███████▎  | 5667/7813 [28:47<10:39,  3.36it/s] 73%|███████▎  | 5668/7813 [28:47<10:42,  3.34it/s] 73%|███████▎  | 5669/7813 [28:48<10:36,  3.37it/s] 73%|███████▎  | 5670/7813 [28:48<10:38,  3.35it/s] 73%|███████▎  | 5671/7813 [28:48<10:40,  3.35it/s] 73%|███████▎  | 5672/7813 [28:49<10:43,  3.33it/s] 73%|███████▎  | 5673/7813 [28:49<10:55,  3.26it/s] 73%|███████▎  | 5674/7813 [28:49<10:57,  3.25it/s] 73%|███████▎  | 5675/7813 [28:50<10:55,  3.26it/s] 73%|███████▎  | 5676/7813 [28:50<10:51,  3.28it/s] 73%|███████▎  | 5677/7813 [28:50<10:43,  3.32it/s] 73%|███████▎  | 5678/7813 [28:50<10:40,  3.33it/s] 73%|███████▎  | 5679/7813 [28:51<10:39,  3.33it/s] 73%|███████▎  | 5680/7813 [28:51<10:36,  3.35it/s] 73%|███████▎  | 5681/7813 [28:51<10:34,  3.36it/s] 73%|███████▎  | 5682/7813 [28:52<10:34,  3.36it/s] 73%|███████▎  | 5683/7813 [28:52<10:33,  3.36it/s] 73%|███████▎  | 5684/7813 [28:52<10:44,  3.30it/s] 73%|███████▎  | 5685/7813 [28:53<10:55,  3.25it/s] 73%|███████▎  | 5686/7813 [28:53<10:52,  3.26it/s] 73%|███████▎  | 5687/7813 [28:53<10:47,  3.28it/s] 73%|███████▎  | 5688/7813 [28:53<10:40,  3.32it/s] 73%|███████▎  | 5689/7813 [28:54<10:40,  3.32it/s] 73%|███████▎  | 5690/7813 [28:54<10:36,  3.34it/s] 73%|███████▎  | 5691/7813 [28:54<10:31,  3.36it/s] 73%|███████▎  | 5692/7813 [28:55<10:30,  3.37it/s] 73%|███████▎  | 5693/7813 [28:55<10:27,  3.38it/s] 73%|███████▎  | 5694/7813 [28:55<10:25,  3.39it/s] 73%|███████▎  | 5695/7813 [28:56<10:30,  3.36it/s] 73%|███████▎  | 5696/7813 [28:56<10:45,  3.28it/s] 73%|███████▎  | 5697/7813 [28:56<10:52,  3.24it/s] 73%|███████▎  | 5698/7813 [28:57<10:44,  3.28it/s] 73%|███████▎  | 5699/7813 [28:57<10:38,  3.31it/s] 73%|███████▎  | 5700/7813 [28:57<10:36,  3.32it/s]                                                   {'loss': 0.0142, 'grad_norm': 0.27638551592826843, 'learning_rate': 2.705746832202739e-05, 'epoch': 0.73}
 73%|███████▎  | 5700/7813 [28:57<10:36,  3.32it/s] 73%|███████▎  | 5701/7813 [28:57<10:33,  3.33it/s] 73%|███████▎  | 5702/7813 [28:58<10:44,  3.27it/s] 73%|███████▎  | 5703/7813 [28:58<10:37,  3.31it/s] 73%|███████▎  | 5704/7813 [28:58<10:35,  3.32it/s] 73%|███████▎  | 5705/7813 [28:59<10:58,  3.20it/s] 73%|███████▎  | 5706/7813 [28:59<10:48,  3.25it/s] 73%|███████▎  | 5707/7813 [28:59<10:42,  3.28it/s] 73%|███████▎  | 5708/7813 [29:00<10:37,  3.30it/s] 73%|███████▎  | 5709/7813 [29:00<10:36,  3.30it/s] 73%|███████▎  | 5710/7813 [29:00<10:32,  3.33it/s] 73%|███████▎  | 5711/7813 [29:00<10:26,  3.35it/s] 73%|███████▎  | 5712/7813 [29:01<10:24,  3.37it/s] 73%|███████▎  | 5713/7813 [29:01<10:22,  3.37it/s] 73%|███████▎  | 5714/7813 [29:01<10:20,  3.38it/s] 73%|███████▎  | 5715/7813 [29:02<10:52,  3.22it/s] 73%|███████▎  | 5716/7813 [29:02<10:47,  3.24it/s] 73%|███████▎  | 5717/7813 [29:02<10:44,  3.25it/s] 73%|███████▎  | 5718/7813 [29:03<10:37,  3.28it/s] 73%|███████▎  | 5719/7813 [29:03<10:35,  3.29it/s] 73%|███████▎  | 5720/7813 [29:03<10:31,  3.32it/s] 73%|███████▎  | 5721/7813 [29:03<10:27,  3.33it/s] 73%|███████▎  | 5722/7813 [29:04<10:25,  3.34it/s] 73%|███████▎  | 5723/7813 [29:04<10:40,  3.26it/s] 73%|███████▎  | 5724/7813 [29:04<10:35,  3.29it/s] 73%|███████▎  | 5725/7813 [29:05<10:35,  3.28it/s] 73%|███████▎  | 5726/7813 [29:05<10:56,  3.18it/s] 73%|███████▎  | 5727/7813 [29:05<10:52,  3.20it/s] 73%|███████▎  | 5728/7813 [29:06<10:41,  3.25it/s] 73%|███████▎  | 5729/7813 [29:06<10:32,  3.30it/s] 73%|███████▎  | 5730/7813 [29:06<10:25,  3.33it/s] 73%|███████▎  | 5731/7813 [29:07<10:26,  3.32it/s] 73%|███████▎  | 5732/7813 [29:07<10:43,  3.23it/s] 73%|███████▎  | 5733/7813 [29:07<10:39,  3.25it/s] 73%|███████▎  | 5734/7813 [29:07<10:33,  3.28it/s] 73%|███████▎  | 5735/7813 [29:08<10:33,  3.28it/s] 73%|███████▎  | 5736/7813 [29:08<10:57,  3.16it/s] 73%|███████▎  | 5737/7813 [29:08<10:42,  3.23it/s] 73%|███████▎  | 5738/7813 [29:09<10:31,  3.28it/s] 73%|███████▎  | 5739/7813 [29:09<10:24,  3.32it/s] 73%|███████▎  | 5740/7813 [29:09<10:21,  3.33it/s] 73%|███████▎  | 5741/7813 [29:10<10:28,  3.30it/s] 73%|███████▎  | 5742/7813 [29:10<10:54,  3.16it/s] 74%|███████▎  | 5743/7813 [29:10<10:52,  3.17it/s] 74%|███████▎  | 5744/7813 [29:11<10:58,  3.14it/s] 74%|███████▎  | 5745/7813 [29:11<10:44,  3.21it/s] 74%|███████▎  | 5746/7813 [29:11<10:39,  3.23it/s] 74%|███████▎  | 5747/7813 [29:11<10:43,  3.21it/s] 74%|███████▎  | 5748/7813 [29:12<10:31,  3.27it/s] 74%|███████▎  | 5749/7813 [29:12<10:45,  3.20it/s] 74%|███████▎  | 5750/7813 [29:12<11:03,  3.11it/s]                                                   {'loss': 0.0135, 'grad_norm': 0.3054161071777344, 'learning_rate': 2.641750927940612e-05, 'epoch': 0.74}
 74%|███████▎  | 5750/7813 [29:12<11:03,  3.11it/s] 74%|███████▎  | 5751/7813 [29:13<10:52,  3.16it/s] 74%|███████▎  | 5752/7813 [29:13<10:45,  3.19it/s] 74%|███████▎  | 5753/7813 [29:13<10:38,  3.23it/s] 74%|███████▎  | 5754/7813 [29:14<10:27,  3.28it/s] 74%|███████▎  | 5755/7813 [29:14<10:31,  3.26it/s] 74%|███████▎  | 5756/7813 [29:14<10:43,  3.20it/s] 74%|███████▎  | 5757/7813 [29:15<10:32,  3.25it/s] 74%|███████▎  | 5758/7813 [29:15<10:28,  3.27it/s] 74%|███████▎  | 5759/7813 [29:15<10:22,  3.30it/s] 74%|███████▎  | 5760/7813 [29:15<10:19,  3.31it/s] 74%|███████▎  | 5761/7813 [29:16<10:19,  3.31it/s] 74%|███████▎  | 5762/7813 [29:16<10:25,  3.28it/s] 74%|███████▍  | 5763/7813 [29:16<10:22,  3.29it/s] 74%|███████▍  | 5764/7813 [29:17<10:16,  3.32it/s] 74%|███████▍  | 5765/7813 [29:17<10:28,  3.26it/s] 74%|███████▍  | 5766/7813 [29:17<10:22,  3.29it/s] 74%|███████▍  | 5767/7813 [29:18<10:19,  3.30it/s] 74%|███████▍  | 5768/7813 [29:18<10:21,  3.29it/s] 74%|███████▍  | 5769/7813 [29:18<10:21,  3.29it/s] 74%|███████▍  | 5770/7813 [29:19<10:16,  3.31it/s] 74%|███████▍  | 5771/7813 [29:19<10:15,  3.32it/s] 74%|███████▍  | 5772/7813 [29:19<10:13,  3.33it/s] 74%|███████▍  | 5773/7813 [29:19<10:08,  3.35it/s] 74%|███████▍  | 5774/7813 [29:20<10:05,  3.37it/s] 74%|███████▍  | 5775/7813 [29:20<10:02,  3.38it/s] 74%|███████▍  | 5776/7813 [29:20<10:02,  3.38it/s] 74%|███████▍  | 5777/7813 [29:21<10:08,  3.35it/s] 74%|███████▍  | 5778/7813 [29:21<10:07,  3.35it/s] 74%|███████▍  | 5779/7813 [29:21<10:10,  3.33it/s] 74%|███████▍  | 5780/7813 [29:21<10:06,  3.35it/s] 74%|███████▍  | 5781/7813 [29:22<10:05,  3.36it/s] 74%|███████▍  | 5782/7813 [29:22<10:04,  3.36it/s] 74%|███████▍  | 5783/7813 [29:22<10:02,  3.37it/s] 74%|███████▍  | 5784/7813 [29:23<10:26,  3.24it/s] 74%|███████▍  | 5785/7813 [29:23<10:18,  3.28it/s] 74%|███████▍  | 5786/7813 [29:23<10:12,  3.31it/s] 74%|███████▍  | 5787/7813 [29:24<10:09,  3.32it/s] 74%|███████▍  | 5788/7813 [29:24<10:11,  3.31it/s] 74%|███████▍  | 5789/7813 [29:24<10:09,  3.32it/s] 74%|███████▍  | 5790/7813 [29:25<10:07,  3.33it/s] 74%|███████▍  | 5791/7813 [29:25<10:28,  3.22it/s] 74%|███████▍  | 5792/7813 [29:25<10:20,  3.26it/s] 74%|███████▍  | 5793/7813 [29:25<10:18,  3.27it/s] 74%|███████▍  | 5794/7813 [29:26<10:23,  3.24it/s] 74%|███████▍  | 5795/7813 [29:26<10:46,  3.12it/s] 74%|███████▍  | 5796/7813 [29:26<10:32,  3.19it/s] 74%|███████▍  | 5797/7813 [29:27<10:47,  3.11it/s] 74%|███████▍  | 5798/7813 [29:27<10:32,  3.19it/s] 74%|███████▍  | 5799/7813 [29:27<10:21,  3.24it/s] 74%|███████▍  | 5800/7813 [29:28<10:17,  3.26it/s]                                                   {'loss': 0.0141, 'grad_norm': 0.28713029623031616, 'learning_rate': 2.5777550236784847e-05, 'epoch': 0.74}
 74%|███████▍  | 5800/7813 [29:28<10:17,  3.26it/s] 74%|███████▍  | 5801/7813 [29:28<10:11,  3.29it/s] 74%|███████▍  | 5802/7813 [29:28<10:08,  3.30it/s] 74%|███████▍  | 5803/7813 [29:29<10:04,  3.33it/s] 74%|███████▍  | 5804/7813 [29:29<10:03,  3.33it/s] 74%|███████▍  | 5805/7813 [29:29<10:06,  3.31it/s] 74%|███████▍  | 5806/7813 [29:29<10:07,  3.31it/s] 74%|███████▍  | 5807/7813 [29:30<10:08,  3.30it/s] 74%|███████▍  | 5808/7813 [29:30<10:05,  3.31it/s] 74%|███████▍  | 5809/7813 [29:30<10:30,  3.18it/s] 74%|███████▍  | 5810/7813 [29:31<10:22,  3.22it/s] 74%|███████▍  | 5811/7813 [29:31<10:13,  3.26it/s] 74%|███████▍  | 5812/7813 [29:31<10:06,  3.30it/s] 74%|███████▍  | 5813/7813 [29:32<10:03,  3.32it/s] 74%|███████▍  | 5814/7813 [29:32<10:28,  3.18it/s] 74%|███████▍  | 5815/7813 [29:32<10:22,  3.21it/s] 74%|███████▍  | 5816/7813 [29:33<10:13,  3.26it/s] 74%|███████▍  | 5817/7813 [29:33<10:05,  3.30it/s] 74%|███████▍  | 5818/7813 [29:33<10:10,  3.27it/s] 74%|███████▍  | 5819/7813 [29:33<10:01,  3.31it/s] 74%|███████▍  | 5820/7813 [29:34<09:58,  3.33it/s] 75%|███████▍  | 5821/7813 [29:34<09:59,  3.33it/s] 75%|███████▍  | 5822/7813 [29:34<10:05,  3.29it/s] 75%|███████▍  | 5823/7813 [29:35<10:11,  3.26it/s] 75%|███████▍  | 5824/7813 [29:35<10:05,  3.29it/s] 75%|███████▍  | 5825/7813 [29:35<10:00,  3.31it/s] 75%|███████▍  | 5826/7813 [29:36<09:55,  3.33it/s] 75%|███████▍  | 5827/7813 [29:36<10:01,  3.30it/s] 75%|███████▍  | 5828/7813 [29:36<09:55,  3.33it/s] 75%|███████▍  | 5829/7813 [29:36<09:58,  3.32it/s] 75%|███████▍  | 5830/7813 [29:37<10:17,  3.21it/s] 75%|███████▍  | 5831/7813 [29:37<10:22,  3.19it/s] 75%|███████▍  | 5832/7813 [29:37<10:12,  3.23it/s] 75%|███████▍  | 5833/7813 [29:38<10:02,  3.28it/s] 75%|███████▍  | 5834/7813 [29:38<10:04,  3.27it/s] 75%|███████▍  | 5835/7813 [29:38<10:04,  3.27it/s] 75%|███████▍  | 5836/7813 [29:39<10:18,  3.20it/s] 75%|███████▍  | 5837/7813 [29:39<10:20,  3.19it/s] 75%|███████▍  | 5838/7813 [29:39<10:23,  3.17it/s] 75%|███████▍  | 5839/7813 [29:40<10:32,  3.12it/s] 75%|███████▍  | 5840/7813 [29:40<10:22,  3.17it/s] 75%|███████▍  | 5841/7813 [29:40<10:14,  3.21it/s] 75%|███████▍  | 5842/7813 [29:41<10:04,  3.26it/s] 75%|███████▍  | 5843/7813 [29:41<10:00,  3.28it/s] 75%|███████▍  | 5844/7813 [29:41<09:59,  3.28it/s] 75%|███████▍  | 5845/7813 [29:41<09:54,  3.31it/s] 75%|███████▍  | 5846/7813 [29:42<09:50,  3.33it/s] 75%|███████▍  | 5847/7813 [29:42<09:49,  3.33it/s] 75%|███████▍  | 5848/7813 [29:42<09:52,  3.32it/s] 75%|███████▍  | 5849/7813 [29:43<09:50,  3.33it/s] 75%|███████▍  | 5850/7813 [29:43<09:46,  3.34it/s]                                                   {'loss': 0.0141, 'grad_norm': 0.26672542095184326, 'learning_rate': 2.5137591194163574e-05, 'epoch': 0.75}
 75%|███████▍  | 5850/7813 [29:43<09:46,  3.34it/s] 75%|███████▍  | 5851/7813 [29:43<09:48,  3.33it/s] 75%|███████▍  | 5852/7813 [29:44<09:53,  3.30it/s] 75%|███████▍  | 5853/7813 [29:44<09:48,  3.33it/s] 75%|███████▍  | 5854/7813 [29:44<10:01,  3.26it/s] 75%|███████▍  | 5855/7813 [29:44<10:06,  3.23it/s] 75%|███████▍  | 5856/7813 [29:45<10:17,  3.17it/s] 75%|███████▍  | 5857/7813 [29:45<10:09,  3.21it/s] 75%|███████▍  | 5858/7813 [29:45<10:03,  3.24it/s] 75%|███████▍  | 5859/7813 [29:46<09:56,  3.28it/s] 75%|███████▌  | 5860/7813 [29:46<10:15,  3.18it/s] 75%|███████▌  | 5861/7813 [29:46<10:05,  3.22it/s] 75%|███████▌  | 5862/7813 [29:47<09:56,  3.27it/s] 75%|███████▌  | 5863/7813 [29:47<09:52,  3.29it/s] 75%|███████▌  | 5864/7813 [29:47<09:48,  3.31it/s] 75%|███████▌  | 5865/7813 [29:48<09:46,  3.32it/s] 75%|███████▌  | 5866/7813 [29:48<09:42,  3.34it/s] 75%|███████▌  | 5867/7813 [29:48<09:44,  3.33it/s] 75%|███████▌  | 5868/7813 [29:48<09:47,  3.31it/s] 75%|███████▌  | 5869/7813 [29:49<09:47,  3.31it/s] 75%|███████▌  | 5870/7813 [29:49<09:44,  3.32it/s] 75%|███████▌  | 5871/7813 [29:49<09:43,  3.33it/s] 75%|███████▌  | 5872/7813 [29:50<09:40,  3.35it/s] 75%|███████▌  | 5873/7813 [29:50<09:35,  3.37it/s] 75%|███████▌  | 5874/7813 [29:50<09:37,  3.36it/s] 75%|███████▌  | 5875/7813 [29:51<09:40,  3.34it/s] 75%|███████▌  | 5876/7813 [29:51<09:40,  3.34it/s] 75%|███████▌  | 5877/7813 [29:51<09:44,  3.31it/s] 75%|███████▌  | 5878/7813 [29:51<09:41,  3.33it/s] 75%|███████▌  | 5879/7813 [29:52<09:37,  3.35it/s] 75%|███████▌  | 5880/7813 [29:52<10:02,  3.21it/s] 75%|███████▌  | 5881/7813 [29:52<09:57,  3.23it/s] 75%|███████▌  | 5882/7813 [29:53<09:57,  3.23it/s] 75%|███████▌  | 5883/7813 [29:53<09:52,  3.26it/s] 75%|███████▌  | 5884/7813 [29:53<09:43,  3.31it/s] 75%|███████▌  | 5885/7813 [29:54<09:38,  3.33it/s] 75%|███████▌  | 5886/7813 [29:54<09:38,  3.33it/s] 75%|███████▌  | 5887/7813 [29:54<09:35,  3.34it/s] 75%|███████▌  | 5888/7813 [29:54<09:37,  3.33it/s] 75%|███████▌  | 5889/7813 [29:55<09:31,  3.36it/s] 75%|███████▌  | 5890/7813 [29:55<09:28,  3.38it/s] 75%|███████▌  | 5891/7813 [29:55<09:27,  3.39it/s] 75%|███████▌  | 5892/7813 [29:56<09:40,  3.31it/s] 75%|███████▌  | 5893/7813 [29:56<09:39,  3.31it/s] 75%|███████▌  | 5894/7813 [29:56<09:33,  3.34it/s] 75%|███████▌  | 5895/7813 [29:57<09:36,  3.33it/s] 75%|███████▌  | 5896/7813 [29:57<09:34,  3.34it/s] 75%|███████▌  | 5897/7813 [29:57<09:35,  3.33it/s] 75%|███████▌  | 5898/7813 [29:57<09:49,  3.25it/s] 76%|███████▌  | 5899/7813 [29:58<09:45,  3.27it/s] 76%|███████▌  | 5900/7813 [29:58<09:41,  3.29it/s]                                                   {'loss': 0.0122, 'grad_norm': 0.24971970915794373, 'learning_rate': 2.44976321515423e-05, 'epoch': 0.76}
 76%|███████▌  | 5900/7813 [29:58<09:41,  3.29it/s] 76%|███████▌  | 5901/7813 [29:58<09:38,  3.31it/s] 76%|███████▌  | 5902/7813 [29:59<09:35,  3.32it/s] 76%|███████▌  | 5903/7813 [29:59<09:36,  3.31it/s] 76%|███████▌  | 5904/7813 [29:59<09:50,  3.23it/s] 76%|███████▌  | 5905/7813 [30:00<09:41,  3.28it/s] 76%|███████▌  | 5906/7813 [30:00<09:35,  3.32it/s] 76%|███████▌  | 5907/7813 [30:00<09:34,  3.32it/s] 76%|███████▌  | 5908/7813 [30:00<09:31,  3.33it/s] 76%|███████▌  | 5909/7813 [30:01<09:33,  3.32it/s] 76%|███████▌  | 5910/7813 [30:01<09:50,  3.22it/s] 76%|███████▌  | 5911/7813 [30:01<09:45,  3.25it/s] 76%|███████▌  | 5912/7813 [30:02<09:38,  3.29it/s] 76%|███████▌  | 5913/7813 [30:02<09:37,  3.29it/s] 76%|███████▌  | 5914/7813 [30:02<09:57,  3.18it/s] 76%|███████▌  | 5915/7813 [30:03<09:47,  3.23it/s] 76%|███████▌  | 5916/7813 [30:03<09:41,  3.26it/s] 76%|███████▌  | 5917/7813 [30:03<09:35,  3.30it/s] 76%|███████▌  | 5918/7813 [30:04<09:30,  3.32it/s] 76%|███████▌  | 5919/7813 [30:04<09:27,  3.34it/s] 76%|███████▌  | 5920/7813 [30:04<09:24,  3.36it/s] 76%|███████▌  | 5921/7813 [30:04<09:21,  3.37it/s] 76%|███████▌  | 5922/7813 [30:05<09:32,  3.30it/s] 76%|███████▌  | 5923/7813 [30:05<09:31,  3.31it/s] 76%|███████▌  | 5924/7813 [30:05<09:27,  3.33it/s] 76%|███████▌  | 5925/7813 [30:06<09:27,  3.33it/s] 76%|███████▌  | 5926/7813 [30:06<09:23,  3.35it/s] 76%|███████▌  | 5927/7813 [30:06<09:22,  3.36it/s] 76%|███████▌  | 5928/7813 [30:07<09:20,  3.36it/s] 76%|███████▌  | 5929/7813 [30:07<09:18,  3.37it/s] 76%|███████▌  | 5930/7813 [30:07<09:17,  3.38it/s] 76%|███████▌  | 5931/7813 [30:07<09:18,  3.37it/s] 76%|███████▌  | 5932/7813 [30:08<09:16,  3.38it/s] 76%|███████▌  | 5933/7813 [30:08<09:19,  3.36it/s] 76%|███████▌  | 5934/7813 [30:08<09:15,  3.38it/s] 76%|███████▌  | 5935/7813 [30:09<09:10,  3.41it/s] 76%|███████▌  | 5936/7813 [30:09<09:12,  3.40it/s] 76%|███████▌  | 5937/7813 [30:09<09:12,  3.40it/s] 76%|███████▌  | 5938/7813 [30:09<09:09,  3.41it/s] 76%|███████▌  | 5939/7813 [30:10<09:07,  3.42it/s] 76%|███████▌  | 5940/7813 [30:10<09:09,  3.41it/s] 76%|███████▌  | 5941/7813 [30:10<09:09,  3.41it/s] 76%|███████▌  | 5942/7813 [30:11<09:11,  3.39it/s] 76%|███████▌  | 5943/7813 [30:11<09:10,  3.39it/s] 76%|███████▌  | 5944/7813 [30:11<09:14,  3.37it/s] 76%|███████▌  | 5945/7813 [30:12<09:11,  3.39it/s] 76%|███████▌  | 5946/7813 [30:12<09:16,  3.36it/s] 76%|███████▌  | 5947/7813 [30:12<09:17,  3.35it/s] 76%|███████▌  | 5948/7813 [30:12<09:18,  3.34it/s] 76%|███████▌  | 5949/7813 [30:13<09:19,  3.33it/s] 76%|███████▌  | 5950/7813 [30:13<09:15,  3.35it/s]                                                   {'loss': 0.0132, 'grad_norm': 0.19932708144187927, 'learning_rate': 2.385767310892103e-05, 'epoch': 0.76}
 76%|███████▌  | 5950/7813 [30:13<09:15,  3.35it/s] 76%|███████▌  | 5951/7813 [30:13<09:16,  3.35it/s] 76%|███████▌  | 5952/7813 [30:14<09:22,  3.31it/s] 76%|███████▌  | 5953/7813 [30:14<09:18,  3.33it/s] 76%|███████▌  | 5954/7813 [30:14<09:25,  3.29it/s] 76%|███████▌  | 5955/7813 [30:15<09:22,  3.30it/s] 76%|███████▌  | 5956/7813 [30:15<09:21,  3.31it/s] 76%|███████▌  | 5957/7813 [30:15<09:20,  3.31it/s] 76%|███████▋  | 5958/7813 [30:15<09:13,  3.35it/s] 76%|███████▋  | 5959/7813 [30:16<09:20,  3.31it/s] 76%|███████▋  | 5960/7813 [30:16<09:28,  3.26it/s] 76%|███████▋  | 5961/7813 [30:16<09:49,  3.14it/s] 76%|███████▋  | 5962/7813 [30:17<09:39,  3.19it/s] 76%|███████▋  | 5963/7813 [30:17<09:29,  3.25it/s] 76%|███████▋  | 5964/7813 [30:17<09:24,  3.27it/s] 76%|███████▋  | 5965/7813 [30:18<09:22,  3.29it/s] 76%|███████▋  | 5966/7813 [30:18<09:42,  3.17it/s] 76%|███████▋  | 5967/7813 [30:18<09:28,  3.25it/s] 76%|███████▋  | 5968/7813 [30:19<09:22,  3.28it/s] 76%|███████▋  | 5969/7813 [30:19<09:17,  3.31it/s] 76%|███████▋  | 5970/7813 [30:19<09:15,  3.32it/s] 76%|███████▋  | 5971/7813 [30:19<09:15,  3.31it/s] 76%|███████▋  | 5972/7813 [30:20<09:12,  3.33it/s] 76%|███████▋  | 5973/7813 [30:20<09:12,  3.33it/s] 76%|███████▋  | 5974/7813 [30:20<09:26,  3.24it/s] 76%|███████▋  | 5975/7813 [30:21<09:25,  3.25it/s] 76%|███████▋  | 5976/7813 [30:21<09:18,  3.29it/s] 77%|███████▋  | 5977/7813 [30:21<09:14,  3.31it/s] 77%|███████▋  | 5978/7813 [30:22<09:12,  3.32it/s] 77%|███████▋  | 5979/7813 [30:22<09:09,  3.34it/s] 77%|███████▋  | 5980/7813 [30:22<09:06,  3.36it/s] 77%|███████▋  | 5981/7813 [30:22<09:06,  3.35it/s] 77%|███████▋  | 5982/7813 [30:23<09:17,  3.28it/s] 77%|███████▋  | 5983/7813 [30:23<09:13,  3.30it/s] 77%|███████▋  | 5984/7813 [30:23<09:09,  3.33it/s] 77%|███████▋  | 5985/7813 [30:24<09:11,  3.32it/s] 77%|███████▋  | 5986/7813 [30:24<09:10,  3.32it/s] 77%|███████▋  | 5987/7813 [30:24<09:09,  3.32it/s] 77%|███████▋  | 5988/7813 [30:25<09:05,  3.34it/s] 77%|███████▋  | 5989/7813 [30:25<09:04,  3.35it/s] 77%|███████▋  | 5990/7813 [30:25<09:01,  3.37it/s] 77%|███████▋  | 5991/7813 [30:25<09:17,  3.27it/s] 77%|███████▋  | 5992/7813 [30:26<09:13,  3.29it/s] 77%|███████▋  | 5993/7813 [30:26<09:31,  3.19it/s] 77%|███████▋  | 5994/7813 [30:26<09:29,  3.20it/s] 77%|███████▋  | 5995/7813 [30:27<09:38,  3.14it/s] 77%|███████▋  | 5996/7813 [30:27<09:27,  3.20it/s] 77%|███████▋  | 5997/7813 [30:27<09:23,  3.22it/s] 77%|███████▋  | 5998/7813 [30:28<09:15,  3.27it/s] 77%|███████▋  | 5999/7813 [30:28<09:07,  3.31it/s] 77%|███████▋  | 6000/7813 [30:28<09:02,  3.34it/s]                                                   {'loss': 0.0138, 'grad_norm': 0.1665257066488266, 'learning_rate': 2.321771406629976e-05, 'epoch': 0.77}
 77%|███████▋  | 6000/7813 [30:28<09:02,  3.34it/s] 77%|███████▋  | 6001/7813 [30:29<08:55,  3.38it/s] 77%|███████▋  | 6002/7813 [30:29<09:08,  3.30it/s] 77%|███████▋  | 6003/7813 [30:29<09:04,  3.32it/s] 77%|███████▋  | 6004/7813 [30:29<08:57,  3.37it/s] 77%|███████▋  | 6005/7813 [30:30<08:58,  3.36it/s] 77%|███████▋  | 6006/7813 [30:30<08:59,  3.35it/s] 77%|███████▋  | 6007/7813 [30:30<09:00,  3.34it/s] 77%|███████▋  | 6008/7813 [30:31<09:07,  3.30it/s] 77%|███████▋  | 6009/7813 [30:31<09:03,  3.32it/s] 77%|███████▋  | 6010/7813 [30:31<08:59,  3.34it/s] 77%|███████▋  | 6011/7813 [30:32<08:56,  3.36it/s] 77%|███████▋  | 6012/7813 [30:32<08:56,  3.36it/s] 77%|███████▋  | 6013/7813 [30:32<09:04,  3.30it/s] 77%|███████▋  | 6014/7813 [30:32<09:04,  3.30it/s] 77%|███████▋  | 6015/7813 [30:33<09:03,  3.31it/s] 77%|███████▋  | 6016/7813 [30:33<09:00,  3.33it/s] 77%|███████▋  | 6017/7813 [30:33<08:57,  3.34it/s] 77%|███████▋  | 6018/7813 [30:34<08:56,  3.34it/s] 77%|███████▋  | 6019/7813 [30:34<08:55,  3.35it/s] 77%|███████▋  | 6020/7813 [30:34<09:03,  3.30it/s] 77%|███████▋  | 6021/7813 [30:35<08:59,  3.32it/s] 77%|███████▋  | 6022/7813 [30:35<08:55,  3.34it/s] 77%|███████▋  | 6023/7813 [30:35<08:55,  3.34it/s] 77%|███████▋  | 6024/7813 [30:35<08:53,  3.35it/s] 77%|███████▋  | 6025/7813 [30:36<08:56,  3.33it/s] 77%|███████▋  | 6026/7813 [30:36<08:54,  3.34it/s] 77%|███████▋  | 6027/7813 [30:36<09:16,  3.21it/s] 77%|███████▋  | 6028/7813 [30:37<09:27,  3.15it/s] 77%|███████▋  | 6029/7813 [30:37<09:29,  3.13it/s] 77%|███████▋  | 6030/7813 [30:37<09:40,  3.07it/s] 77%|███████▋  | 6031/7813 [30:38<09:35,  3.10it/s] 77%|███████▋  | 6032/7813 [30:38<09:22,  3.17it/s] 77%|███████▋  | 6033/7813 [30:38<09:13,  3.21it/s] 77%|███████▋  | 6034/7813 [30:39<09:09,  3.24it/s] 77%|███████▋  | 6035/7813 [30:39<09:01,  3.29it/s] 77%|███████▋  | 6036/7813 [30:39<08:55,  3.32it/s] 77%|███████▋  | 6037/7813 [30:39<08:53,  3.33it/s] 77%|███████▋  | 6038/7813 [30:40<08:50,  3.34it/s] 77%|███████▋  | 6039/7813 [30:40<09:00,  3.28it/s] 77%|███████▋  | 6040/7813 [30:40<08:56,  3.31it/s] 77%|███████▋  | 6041/7813 [30:41<08:50,  3.34it/s] 77%|███████▋  | 6042/7813 [30:41<08:46,  3.36it/s] 77%|███████▋  | 6043/7813 [30:41<08:51,  3.33it/s] 77%|███████▋  | 6044/7813 [30:42<08:50,  3.34it/s] 77%|███████▋  | 6045/7813 [30:42<08:55,  3.30it/s] 77%|███████▋  | 6046/7813 [30:42<09:17,  3.17it/s] 77%|███████▋  | 6047/7813 [30:43<09:07,  3.23it/s] 77%|███████▋  | 6048/7813 [30:43<09:04,  3.24it/s] 77%|███████▋  | 6049/7813 [30:43<08:59,  3.27it/s] 77%|███████▋  | 6050/7813 [30:43<09:02,  3.25it/s]                                                   {'loss': 0.0135, 'grad_norm': 0.17216657102108002, 'learning_rate': 2.2577755023678484e-05, 'epoch': 0.77}
 77%|███████▋  | 6050/7813 [30:43<09:02,  3.25it/s] 77%|███████▋  | 6051/7813 [30:44<08:59,  3.27it/s] 77%|███████▋  | 6052/7813 [30:44<08:52,  3.31it/s] 77%|███████▋  | 6053/7813 [30:44<08:47,  3.33it/s] 77%|███████▋  | 6054/7813 [30:45<08:54,  3.29it/s] 77%|███████▋  | 6055/7813 [30:45<08:49,  3.32it/s] 78%|███████▊  | 6056/7813 [30:45<08:47,  3.33it/s] 78%|███████▊  | 6057/7813 [30:46<08:42,  3.36it/s] 78%|███████▊  | 6058/7813 [30:46<08:40,  3.37it/s] 78%|███████▊  | 6059/7813 [30:46<08:40,  3.37it/s] 78%|███████▊  | 6060/7813 [30:46<08:40,  3.37it/s] 78%|███████▊  | 6061/7813 [30:47<08:42,  3.36it/s] 78%|███████▊  | 6062/7813 [30:47<08:39,  3.37it/s] 78%|███████▊  | 6063/7813 [30:47<08:35,  3.40it/s] 78%|███████▊  | 6064/7813 [30:48<08:37,  3.38it/s] 78%|███████▊  | 6065/7813 [30:48<08:38,  3.37it/s] 78%|███████▊  | 6066/7813 [30:48<08:39,  3.37it/s] 78%|███████▊  | 6067/7813 [30:49<08:40,  3.35it/s] 78%|███████▊  | 6068/7813 [30:49<08:38,  3.37it/s] 78%|███████▊  | 6069/7813 [30:49<10:45,  2.70it/s] 78%|███████▊  | 6070/7813 [30:50<10:16,  2.83it/s] 78%|███████▊  | 6071/7813 [30:50<09:45,  2.97it/s] 78%|███████▊  | 6072/7813 [30:50<09:24,  3.08it/s] 78%|███████▊  | 6073/7813 [30:51<09:20,  3.11it/s] 78%|███████▊  | 6074/7813 [30:51<09:05,  3.19it/s] 78%|███████▊  | 6075/7813 [30:51<09:16,  3.12it/s] 78%|███████▊  | 6076/7813 [30:52<09:30,  3.05it/s] 78%|███████▊  | 6077/7813 [30:52<09:16,  3.12it/s] 78%|███████▊  | 6078/7813 [30:52<09:02,  3.20it/s] 78%|███████▊  | 6079/7813 [30:52<08:50,  3.27it/s] 78%|███████▊  | 6080/7813 [30:53<08:47,  3.29it/s] 78%|███████▊  | 6081/7813 [30:53<08:44,  3.30it/s] 78%|███████▊  | 6082/7813 [30:53<08:46,  3.29it/s] 78%|███████▊  | 6083/7813 [30:54<08:42,  3.31it/s] 78%|███████▊  | 6084/7813 [30:54<08:52,  3.25it/s] 78%|███████▊  | 6085/7813 [30:54<08:50,  3.26it/s] 78%|███████▊  | 6086/7813 [30:55<08:49,  3.26it/s] 78%|███████▊  | 6087/7813 [30:55<08:48,  3.27it/s] 78%|███████▊  | 6088/7813 [30:55<08:46,  3.28it/s] 78%|███████▊  | 6089/7813 [30:55<08:44,  3.29it/s] 78%|███████▊  | 6090/7813 [30:56<08:41,  3.30it/s] 78%|███████▊  | 6091/7813 [30:56<08:49,  3.25it/s] 78%|███████▊  | 6092/7813 [30:56<08:41,  3.30it/s] 78%|███████▊  | 6093/7813 [30:57<08:46,  3.27it/s] 78%|███████▊  | 6094/7813 [30:57<08:45,  3.27it/s] 78%|███████▊  | 6095/7813 [30:57<08:41,  3.30it/s] 78%|███████▊  | 6096/7813 [30:58<08:38,  3.31it/s] 78%|███████▊  | 6097/7813 [30:58<08:37,  3.32it/s] 78%|███████▊  | 6098/7813 [30:58<08:37,  3.31it/s] 78%|███████▊  | 6099/7813 [30:59<08:34,  3.33it/s] 78%|███████▊  | 6100/7813 [30:59<08:41,  3.29it/s]                                                   {'loss': 0.0129, 'grad_norm': 0.12852667272090912, 'learning_rate': 2.1937795981057214e-05, 'epoch': 0.78}
 78%|███████▊  | 6100/7813 [30:59<08:41,  3.29it/s] 78%|███████▊  | 6101/7813 [30:59<08:40,  3.29it/s] 78%|███████▊  | 6102/7813 [30:59<08:36,  3.31it/s] 78%|███████▊  | 6103/7813 [31:00<08:43,  3.26it/s] 78%|███████▊  | 6104/7813 [31:00<08:34,  3.32it/s] 78%|███████▊  | 6105/7813 [31:00<08:31,  3.34it/s] 78%|███████▊  | 6106/7813 [31:01<08:26,  3.37it/s] 78%|███████▊  | 6107/7813 [31:01<08:26,  3.37it/s] 78%|███████▊  | 6108/7813 [31:01<08:29,  3.35it/s] 78%|███████▊  | 6109/7813 [31:02<08:25,  3.37it/s] 78%|███████▊  | 6110/7813 [31:02<08:26,  3.37it/s] 78%|███████▊  | 6111/7813 [31:02<08:27,  3.35it/s] 78%|███████▊  | 6112/7813 [31:02<08:37,  3.28it/s] 78%|███████▊  | 6113/7813 [31:03<08:38,  3.28it/s] 78%|███████▊  | 6114/7813 [31:03<08:40,  3.27it/s] 78%|███████▊  | 6115/7813 [31:03<08:33,  3.31it/s] 78%|███████▊  | 6116/7813 [31:04<08:28,  3.34it/s] 78%|███████▊  | 6117/7813 [31:04<08:26,  3.35it/s] 78%|███████▊  | 6118/7813 [31:04<08:22,  3.38it/s] 78%|███████▊  | 6119/7813 [31:05<08:21,  3.38it/s] 78%|███████▊  | 6120/7813 [31:05<08:20,  3.38it/s] 78%|███████▊  | 6121/7813 [31:05<08:41,  3.24it/s] 78%|███████▊  | 6122/7813 [31:05<08:36,  3.27it/s] 78%|███████▊  | 6123/7813 [31:06<08:49,  3.19it/s] 78%|███████▊  | 6124/7813 [31:06<08:44,  3.22it/s] 78%|███████▊  | 6125/7813 [31:06<08:56,  3.15it/s] 78%|███████▊  | 6126/7813 [31:07<08:48,  3.19it/s] 78%|███████▊  | 6127/7813 [31:07<08:42,  3.22it/s] 78%|███████▊  | 6128/7813 [31:07<08:53,  3.16it/s] 78%|███████▊  | 6129/7813 [31:08<08:47,  3.19it/s] 78%|███████▊  | 6130/7813 [31:08<08:38,  3.25it/s] 78%|███████▊  | 6131/7813 [31:08<08:45,  3.20it/s] 78%|███████▊  | 6132/7813 [31:09<08:55,  3.14it/s] 78%|███████▊  | 6133/7813 [31:09<08:45,  3.19it/s] 79%|███████▊  | 6134/7813 [31:09<08:38,  3.24it/s] 79%|███████▊  | 6135/7813 [31:09<08:27,  3.30it/s] 79%|███████▊  | 6136/7813 [31:10<08:19,  3.36it/s] 79%|███████▊  | 6137/7813 [31:10<08:18,  3.36it/s] 79%|███████▊  | 6138/7813 [31:10<08:18,  3.36it/s] 79%|███████▊  | 6139/7813 [31:11<08:16,  3.37it/s] 79%|███████▊  | 6140/7813 [31:11<08:34,  3.25it/s] 79%|███████▊  | 6141/7813 [31:11<08:25,  3.30it/s] 79%|███████▊  | 6142/7813 [31:12<08:27,  3.29it/s] 79%|███████▊  | 6143/7813 [31:12<08:20,  3.33it/s] 79%|███████▊  | 6144/7813 [31:12<10:16,  2.71it/s] 79%|███████▊  | 6145/7813 [31:13<09:42,  2.86it/s] 79%|███████▊  | 6146/7813 [31:13<09:12,  3.02it/s] 79%|███████▊  | 6147/7813 [31:13<09:02,  3.07it/s] 79%|███████▊  | 6148/7813 [31:14<08:46,  3.17it/s] 79%|███████▊  | 6149/7813 [31:14<08:36,  3.22it/s] 79%|███████▊  | 6150/7813 [31:14<08:31,  3.25it/s]                                                   {'loss': 0.0113, 'grad_norm': 0.2783661484718323, 'learning_rate': 2.129783693843594e-05, 'epoch': 0.79}
 79%|███████▊  | 6150/7813 [31:14<08:31,  3.25it/s] 79%|███████▊  | 6151/7813 [31:15<08:26,  3.28it/s] 79%|███████▊  | 6152/7813 [31:15<08:19,  3.33it/s] 79%|███████▉  | 6153/7813 [31:15<08:13,  3.36it/s] 79%|███████▉  | 6154/7813 [31:15<08:13,  3.36it/s] 79%|███████▉  | 6155/7813 [31:16<08:14,  3.35it/s] 79%|███████▉  | 6156/7813 [31:16<08:16,  3.34it/s] 79%|███████▉  | 6157/7813 [31:16<08:16,  3.33it/s] 79%|███████▉  | 6158/7813 [31:17<08:10,  3.37it/s] 79%|███████▉  | 6159/7813 [31:17<08:22,  3.29it/s] 79%|███████▉  | 6160/7813 [31:17<08:18,  3.32it/s] 79%|███████▉  | 6161/7813 [31:17<08:10,  3.36it/s] 79%|███████▉  | 6162/7813 [31:18<08:13,  3.35it/s] 79%|███████▉  | 6163/7813 [31:18<08:08,  3.38it/s] 79%|███████▉  | 6164/7813 [31:18<08:06,  3.39it/s] 79%|███████▉  | 6165/7813 [31:19<08:06,  3.39it/s] 79%|███████▉  | 6166/7813 [31:19<08:11,  3.35it/s] 79%|███████▉  | 6167/7813 [31:19<08:12,  3.34it/s] 79%|███████▉  | 6168/7813 [31:20<08:11,  3.35it/s] 79%|███████▉  | 6169/7813 [31:20<08:09,  3.36it/s] 79%|███████▉  | 6170/7813 [31:20<08:07,  3.37it/s] 79%|███████▉  | 6171/7813 [31:20<08:08,  3.36it/s] 79%|███████▉  | 6172/7813 [31:21<08:09,  3.35it/s] 79%|███████▉  | 6173/7813 [31:21<08:09,  3.35it/s] 79%|███████▉  | 6174/7813 [31:21<08:08,  3.36it/s] 79%|███████▉  | 6175/7813 [31:22<08:05,  3.37it/s] 79%|███████▉  | 6176/7813 [31:22<08:25,  3.24it/s] 79%|███████▉  | 6177/7813 [31:22<08:33,  3.19it/s] 79%|███████▉  | 6178/7813 [31:23<08:35,  3.17it/s] 79%|███████▉  | 6179/7813 [31:23<08:26,  3.23it/s] 79%|███████▉  | 6180/7813 [31:23<08:19,  3.27it/s] 79%|███████▉  | 6181/7813 [31:24<08:14,  3.30it/s] 79%|███████▉  | 6182/7813 [31:24<08:10,  3.33it/s] 79%|███████▉  | 6183/7813 [31:24<08:15,  3.29it/s] 79%|███████▉  | 6184/7813 [31:24<08:12,  3.30it/s] 79%|███████▉  | 6185/7813 [31:25<08:07,  3.34it/s] 79%|███████▉  | 6186/7813 [31:25<08:04,  3.36it/s] 79%|███████▉  | 6187/7813 [31:25<08:02,  3.37it/s] 79%|███████▉  | 6188/7813 [31:26<08:01,  3.38it/s] 79%|███████▉  | 6189/7813 [31:26<07:57,  3.40it/s] 79%|███████▉  | 6190/7813 [31:26<07:55,  3.41it/s] 79%|███████▉  | 6191/7813 [31:26<07:50,  3.45it/s] 79%|███████▉  | 6192/7813 [31:27<07:56,  3.40it/s] 79%|███████▉  | 6193/7813 [31:27<08:01,  3.37it/s] 79%|███████▉  | 6194/7813 [31:27<08:16,  3.26it/s] 79%|███████▉  | 6195/7813 [31:28<08:05,  3.33it/s] 79%|███████▉  | 6196/7813 [31:28<08:02,  3.35it/s] 79%|███████▉  | 6197/7813 [31:28<07:57,  3.39it/s] 79%|███████▉  | 6198/7813 [31:29<08:11,  3.28it/s] 79%|███████▉  | 6199/7813 [31:29<08:26,  3.19it/s] 79%|███████▉  | 6200/7813 [31:29<08:32,  3.15it/s]                                                   {'loss': 0.0133, 'grad_norm': 0.2273045778274536, 'learning_rate': 2.065787789581467e-05, 'epoch': 0.79}
 79%|███████▉  | 6200/7813 [31:29<08:32,  3.15it/s] 79%|███████▉  | 6201/7813 [31:30<08:20,  3.22it/s] 79%|███████▉  | 6202/7813 [31:30<08:10,  3.28it/s] 79%|███████▉  | 6203/7813 [31:30<08:13,  3.27it/s] 79%|███████▉  | 6204/7813 [31:30<08:06,  3.31it/s] 79%|███████▉  | 6205/7813 [31:31<07:58,  3.36it/s] 79%|███████▉  | 6206/7813 [31:31<07:55,  3.38it/s] 79%|███████▉  | 6207/7813 [31:31<07:52,  3.40it/s] 79%|███████▉  | 6208/7813 [31:32<07:51,  3.41it/s] 79%|███████▉  | 6209/7813 [31:32<07:49,  3.42it/s] 79%|███████▉  | 6210/7813 [31:32<07:53,  3.39it/s] 79%|███████▉  | 6211/7813 [31:32<07:50,  3.40it/s] 80%|███████▉  | 6212/7813 [31:33<07:49,  3.41it/s] 80%|███████▉  | 6213/7813 [31:33<07:54,  3.37it/s] 80%|███████▉  | 6214/7813 [31:33<08:02,  3.31it/s] 80%|███████▉  | 6215/7813 [31:34<07:59,  3.33it/s] 80%|███████▉  | 6216/7813 [31:34<08:11,  3.25it/s] 80%|███████▉  | 6217/7813 [31:34<08:09,  3.26it/s] 80%|███████▉  | 6218/7813 [31:35<08:14,  3.23it/s] 80%|███████▉  | 6219/7813 [31:35<08:09,  3.26it/s] 80%|███████▉  | 6220/7813 [31:35<08:03,  3.29it/s] 80%|███████▉  | 6221/7813 [31:36<08:02,  3.30it/s] 80%|███████▉  | 6222/7813 [31:36<07:58,  3.32it/s] 80%|███████▉  | 6223/7813 [31:36<07:56,  3.33it/s] 80%|███████▉  | 6224/7813 [31:36<07:53,  3.36it/s] 80%|███████▉  | 6225/7813 [31:37<07:52,  3.36it/s] 80%|███████▉  | 6226/7813 [31:37<07:50,  3.37it/s] 80%|███████▉  | 6227/7813 [31:37<07:57,  3.32it/s] 80%|███████▉  | 6228/7813 [31:38<07:55,  3.33it/s] 80%|███████▉  | 6229/7813 [31:38<08:03,  3.28it/s] 80%|███████▉  | 6230/7813 [31:38<07:59,  3.30it/s] 80%|███████▉  | 6231/7813 [31:39<07:56,  3.32it/s] 80%|███████▉  | 6232/7813 [31:39<07:51,  3.35it/s] 80%|███████▉  | 6233/7813 [31:39<07:57,  3.31it/s] 80%|███████▉  | 6234/7813 [31:39<07:55,  3.32it/s] 80%|███████▉  | 6235/7813 [31:40<07:51,  3.35it/s] 80%|███████▉  | 6236/7813 [31:40<07:46,  3.38it/s] 80%|███████▉  | 6237/7813 [31:40<07:53,  3.33it/s] 80%|███████▉  | 6238/7813 [31:41<08:05,  3.24it/s] 80%|███████▉  | 6239/7813 [31:41<07:59,  3.28it/s] 80%|███████▉  | 6240/7813 [31:41<07:56,  3.30it/s] 80%|███████▉  | 6241/7813 [31:42<07:53,  3.32it/s] 80%|███████▉  | 6242/7813 [31:42<07:59,  3.27it/s] 80%|███████▉  | 6243/7813 [31:42<07:54,  3.31it/s] 80%|███████▉  | 6244/7813 [31:42<08:01,  3.26it/s] 80%|███████▉  | 6245/7813 [31:43<07:51,  3.33it/s] 80%|███████▉  | 6246/7813 [31:43<07:52,  3.32it/s] 80%|███████▉  | 6247/7813 [31:43<07:51,  3.32it/s] 80%|███████▉  | 6248/7813 [31:44<07:51,  3.32it/s] 80%|███████▉  | 6249/7813 [31:44<07:51,  3.31it/s] 80%|███████▉  | 6250/7813 [31:44<07:51,  3.31it/s]                                                   {'loss': 0.0128, 'grad_norm': 0.15979614853858948, 'learning_rate': 2.0017918853193397e-05, 'epoch': 0.8}
 80%|███████▉  | 6250/7813 [31:44<07:51,  3.31it/s] 80%|████████  | 6251/7813 [31:45<07:49,  3.32it/s] 80%|████████  | 6252/7813 [31:45<07:46,  3.35it/s] 80%|████████  | 6253/7813 [31:45<07:43,  3.37it/s] 80%|████████  | 6254/7813 [31:45<07:42,  3.37it/s] 80%|████████  | 6255/7813 [31:46<07:43,  3.36it/s] 80%|████████  | 6256/7813 [31:46<07:41,  3.38it/s] 80%|████████  | 6257/7813 [31:46<07:38,  3.40it/s] 80%|████████  | 6258/7813 [31:47<08:01,  3.23it/s] 80%|████████  | 6259/7813 [31:47<08:12,  3.15it/s] 80%|████████  | 6260/7813 [31:47<08:00,  3.23it/s] 80%|████████  | 6261/7813 [31:48<07:55,  3.26it/s] 80%|████████  | 6262/7813 [31:48<08:00,  3.23it/s] 80%|████████  | 6263/7813 [31:48<07:55,  3.26it/s] 80%|████████  | 6264/7813 [31:49<07:53,  3.27it/s] 80%|████████  | 6265/7813 [31:49<07:48,  3.30it/s] 80%|████████  | 6266/7813 [31:49<07:47,  3.31it/s] 80%|████████  | 6267/7813 [31:49<07:43,  3.34it/s] 80%|████████  | 6268/7813 [31:50<07:41,  3.35it/s] 80%|████████  | 6269/7813 [31:50<07:43,  3.33it/s] 80%|████████  | 6270/7813 [31:50<07:41,  3.34it/s] 80%|████████  | 6271/7813 [31:51<07:58,  3.23it/s] 80%|████████  | 6272/7813 [31:51<08:00,  3.21it/s] 80%|████████  | 6273/7813 [31:51<08:04,  3.18it/s] 80%|████████  | 6274/7813 [31:52<07:53,  3.25it/s] 80%|████████  | 6275/7813 [31:52<07:47,  3.29it/s] 80%|████████  | 6276/7813 [31:52<07:42,  3.32it/s] 80%|████████  | 6277/7813 [31:52<07:40,  3.33it/s] 80%|████████  | 6278/7813 [31:53<07:39,  3.34it/s] 80%|████████  | 6279/7813 [31:53<07:35,  3.37it/s] 80%|████████  | 6280/7813 [31:53<07:34,  3.37it/s] 80%|████████  | 6281/7813 [31:54<07:41,  3.32it/s] 80%|████████  | 6282/7813 [31:54<07:54,  3.23it/s] 80%|████████  | 6283/7813 [31:54<07:53,  3.23it/s] 80%|████████  | 6284/7813 [31:55<07:44,  3.29it/s] 80%|████████  | 6285/7813 [31:55<07:40,  3.32it/s] 80%|████████  | 6286/7813 [31:55<07:58,  3.19it/s] 80%|████████  | 6287/7813 [31:56<07:53,  3.22it/s] 80%|████████  | 6288/7813 [31:56<07:50,  3.24it/s] 80%|████████  | 6289/7813 [31:56<07:59,  3.18it/s] 81%|████████  | 6290/7813 [31:56<07:50,  3.24it/s] 81%|████████  | 6291/7813 [31:57<07:43,  3.28it/s] 81%|████████  | 6292/7813 [31:57<07:54,  3.20it/s] 81%|████████  | 6293/7813 [31:57<07:45,  3.27it/s] 81%|████████  | 6294/7813 [31:58<07:34,  3.34it/s] 81%|████████  | 6295/7813 [31:58<07:34,  3.34it/s] 81%|████████  | 6296/7813 [31:58<07:30,  3.37it/s] 81%|████████  | 6297/7813 [31:59<07:29,  3.37it/s] 81%|████████  | 6298/7813 [31:59<07:30,  3.36it/s] 81%|████████  | 6299/7813 [31:59<07:29,  3.37it/s] 81%|████████  | 6300/7813 [31:59<07:45,  3.25it/s]                                                   {'loss': 0.0116, 'grad_norm': 0.30196094512939453, 'learning_rate': 1.9377959810572124e-05, 'epoch': 0.81}
 81%|████████  | 6300/7813 [32:00<07:45,  3.25it/s] 81%|████████  | 6301/7813 [32:00<07:47,  3.24it/s] 81%|████████  | 6302/7813 [32:00<07:49,  3.22it/s] 81%|████████  | 6303/7813 [32:00<07:44,  3.25it/s] 81%|████████  | 6304/7813 [32:01<07:41,  3.27it/s] 81%|████████  | 6305/7813 [32:01<07:45,  3.24it/s] 81%|████████  | 6306/7813 [32:01<07:36,  3.30it/s] 81%|████████  | 6307/7813 [32:02<07:30,  3.34it/s] 81%|████████  | 6308/7813 [32:02<07:27,  3.36it/s] 81%|████████  | 6309/7813 [32:02<07:27,  3.36it/s] 81%|████████  | 6310/7813 [32:02<07:24,  3.38it/s] 81%|████████  | 6311/7813 [32:03<07:24,  3.38it/s] 81%|████████  | 6312/7813 [32:03<07:23,  3.39it/s] 81%|████████  | 6313/7813 [32:03<07:20,  3.41it/s] 81%|████████  | 6314/7813 [32:04<07:26,  3.36it/s] 81%|████████  | 6315/7813 [32:04<07:26,  3.35it/s] 81%|████████  | 6316/7813 [32:04<07:22,  3.38it/s] 81%|████████  | 6317/7813 [32:05<07:23,  3.38it/s] 81%|████████  | 6318/7813 [32:05<07:25,  3.36it/s] 81%|████████  | 6319/7813 [32:05<07:23,  3.37it/s] 81%|████████  | 6320/7813 [32:05<07:23,  3.37it/s] 81%|████████  | 6321/7813 [32:06<07:21,  3.38it/s] 81%|████████  | 6322/7813 [32:06<07:25,  3.35it/s] 81%|████████  | 6323/7813 [32:06<07:24,  3.36it/s] 81%|████████  | 6324/7813 [32:07<07:20,  3.38it/s] 81%|████████  | 6325/7813 [32:07<07:18,  3.39it/s] 81%|████████  | 6326/7813 [32:07<07:18,  3.39it/s] 81%|████████  | 6327/7813 [32:08<07:19,  3.38it/s] 81%|████████  | 6328/7813 [32:08<07:22,  3.36it/s] 81%|████████  | 6329/7813 [32:08<07:23,  3.34it/s] 81%|████████  | 6330/7813 [32:08<07:24,  3.33it/s] 81%|████████  | 6331/7813 [32:09<07:24,  3.34it/s] 81%|████████  | 6332/7813 [32:09<07:26,  3.32it/s] 81%|████████  | 6333/7813 [32:09<07:22,  3.34it/s] 81%|████████  | 6334/7813 [32:10<07:18,  3.37it/s] 81%|████████  | 6335/7813 [32:10<07:33,  3.26it/s] 81%|████████  | 6336/7813 [32:10<07:27,  3.30it/s] 81%|████████  | 6337/7813 [32:11<07:22,  3.33it/s] 81%|████████  | 6338/7813 [32:11<07:18,  3.37it/s] 81%|████████  | 6339/7813 [32:11<07:17,  3.37it/s] 81%|████████  | 6340/7813 [32:11<07:17,  3.37it/s] 81%|████████  | 6341/7813 [32:12<07:17,  3.37it/s] 81%|████████  | 6342/7813 [32:12<07:35,  3.23it/s] 81%|████████  | 6343/7813 [32:12<07:29,  3.27it/s] 81%|████████  | 6344/7813 [32:13<07:25,  3.30it/s] 81%|████████  | 6345/7813 [32:13<07:21,  3.33it/s] 81%|████████  | 6346/7813 [32:13<07:32,  3.24it/s] 81%|████████  | 6347/7813 [32:14<07:34,  3.23it/s] 81%|████████  | 6348/7813 [32:14<07:28,  3.27it/s] 81%|████████▏ | 6349/7813 [32:14<07:23,  3.30it/s] 81%|████████▏ | 6350/7813 [32:14<07:21,  3.31it/s]                                                   {'loss': 0.0124, 'grad_norm': 0.12247268110513687, 'learning_rate': 1.8738000767950854e-05, 'epoch': 0.81}
 81%|████████▏ | 6350/7813 [32:15<07:21,  3.31it/s] 81%|████████▏ | 6351/7813 [32:15<07:38,  3.19it/s] 81%|████████▏ | 6352/7813 [32:15<07:42,  3.16it/s] 81%|████████▏ | 6353/7813 [32:15<07:31,  3.24it/s] 81%|████████▏ | 6354/7813 [32:16<07:23,  3.29it/s] 81%|████████▏ | 6355/7813 [32:16<07:20,  3.31it/s] 81%|████████▏ | 6356/7813 [32:16<07:18,  3.32it/s] 81%|████████▏ | 6357/7813 [32:17<07:18,  3.32it/s] 81%|████████▏ | 6358/7813 [32:17<07:10,  3.38it/s] 81%|████████▏ | 6359/7813 [32:17<07:09,  3.38it/s] 81%|████████▏ | 6360/7813 [32:18<07:07,  3.40it/s] 81%|████████▏ | 6361/7813 [32:18<07:08,  3.39it/s] 81%|████████▏ | 6362/7813 [32:18<07:06,  3.40it/s] 81%|████████▏ | 6363/7813 [32:18<07:08,  3.38it/s] 81%|████████▏ | 6364/7813 [32:19<07:21,  3.29it/s] 81%|████████▏ | 6365/7813 [32:19<07:14,  3.33it/s] 81%|████████▏ | 6366/7813 [32:19<07:17,  3.30it/s] 81%|████████▏ | 6367/7813 [32:20<07:13,  3.34it/s] 82%|████████▏ | 6368/7813 [32:20<07:09,  3.36it/s] 82%|████████▏ | 6369/7813 [32:20<07:27,  3.23it/s] 82%|████████▏ | 6370/7813 [32:21<07:19,  3.28it/s] 82%|████████▏ | 6371/7813 [32:21<07:16,  3.30it/s] 82%|████████▏ | 6372/7813 [32:21<07:12,  3.33it/s] 82%|████████▏ | 6373/7813 [32:21<07:06,  3.37it/s] 82%|████████▏ | 6374/7813 [32:22<07:06,  3.37it/s] 82%|████████▏ | 6375/7813 [32:22<07:10,  3.34it/s] 82%|████████▏ | 6376/7813 [32:22<07:06,  3.37it/s] 82%|████████▏ | 6377/7813 [32:23<07:05,  3.38it/s] 82%|████████▏ | 6378/7813 [32:23<07:01,  3.40it/s] 82%|████████▏ | 6379/7813 [32:23<07:00,  3.41it/s] 82%|████████▏ | 6380/7813 [32:23<06:57,  3.43it/s] 82%|████████▏ | 6381/7813 [32:24<06:59,  3.41it/s] 82%|████████▏ | 6382/7813 [32:24<06:56,  3.43it/s] 82%|████████▏ | 6383/7813 [32:24<06:59,  3.41it/s] 82%|████████▏ | 6384/7813 [32:25<06:59,  3.40it/s] 82%|████████▏ | 6385/7813 [32:25<06:57,  3.42it/s] 82%|████████▏ | 6386/7813 [32:25<07:05,  3.35it/s] 82%|████████▏ | 6387/7813 [32:26<07:20,  3.24it/s] 82%|████████▏ | 6388/7813 [32:26<07:15,  3.27it/s] 82%|████████▏ | 6389/7813 [32:26<07:12,  3.29it/s] 82%|████████▏ | 6390/7813 [32:26<07:10,  3.31it/s] 82%|████████▏ | 6391/7813 [32:27<07:12,  3.28it/s] 82%|████████▏ | 6392/7813 [32:27<07:05,  3.34it/s] 82%|████████▏ | 6393/7813 [32:27<07:04,  3.34it/s] 82%|████████▏ | 6394/7813 [32:28<07:09,  3.30it/s] 82%|████████▏ | 6395/7813 [32:28<07:05,  3.33it/s] 82%|████████▏ | 6396/7813 [32:28<07:06,  3.32it/s] 82%|████████▏ | 6397/7813 [32:29<07:01,  3.36it/s] 82%|████████▏ | 6398/7813 [32:29<06:57,  3.39it/s] 82%|████████▏ | 6399/7813 [32:29<06:54,  3.41it/s] 82%|████████▏ | 6400/7813 [32:29<06:52,  3.43it/s]                                                   {'loss': 0.0124, 'grad_norm': 0.3872562646865845, 'learning_rate': 1.8098041725329577e-05, 'epoch': 0.82}
 82%|████████▏ | 6400/7813 [32:29<06:52,  3.43it/s] 82%|████████▏ | 6401/7813 [32:30<07:07,  3.30it/s] 82%|████████▏ | 6402/7813 [32:30<07:12,  3.27it/s] 82%|████████▏ | 6403/7813 [32:30<07:08,  3.29it/s] 82%|████████▏ | 6404/7813 [32:31<07:18,  3.21it/s] 82%|████████▏ | 6405/7813 [32:31<07:17,  3.22it/s] 82%|████████▏ | 6406/7813 [32:31<07:10,  3.27it/s] 82%|████████▏ | 6407/7813 [32:32<07:03,  3.32it/s] 82%|████████▏ | 6408/7813 [32:32<07:01,  3.33it/s] 82%|████████▏ | 6409/7813 [32:32<06:57,  3.37it/s] 82%|████████▏ | 6410/7813 [32:33<07:06,  3.29it/s] 82%|████████▏ | 6411/7813 [32:33<07:00,  3.33it/s] 82%|████████▏ | 6412/7813 [32:33<07:05,  3.29it/s] 82%|████████▏ | 6413/7813 [32:33<07:15,  3.22it/s] 82%|████████▏ | 6414/7813 [32:34<07:11,  3.24it/s] 82%|████████▏ | 6415/7813 [32:34<07:05,  3.29it/s] 82%|████████▏ | 6416/7813 [32:34<06:58,  3.33it/s] 82%|████████▏ | 6417/7813 [32:35<06:55,  3.36it/s] 82%|████████▏ | 6418/7813 [32:35<06:53,  3.38it/s] 82%|████████▏ | 6419/7813 [32:35<06:54,  3.36it/s] 82%|████████▏ | 6420/7813 [32:36<06:55,  3.35it/s] 82%|████████▏ | 6421/7813 [32:36<06:52,  3.37it/s] 82%|████████▏ | 6422/7813 [32:36<06:54,  3.36it/s] 82%|████████▏ | 6423/7813 [32:36<06:50,  3.38it/s] 82%|████████▏ | 6424/7813 [32:37<06:57,  3.33it/s] 82%|████████▏ | 6425/7813 [32:37<07:00,  3.30it/s] 82%|████████▏ | 6426/7813 [32:37<07:05,  3.26it/s] 82%|████████▏ | 6427/7813 [32:38<07:01,  3.29it/s] 82%|████████▏ | 6428/7813 [32:38<07:04,  3.26it/s] 82%|████████▏ | 6429/7813 [32:38<06:57,  3.32it/s] 82%|████████▏ | 6430/7813 [32:39<07:12,  3.20it/s] 82%|████████▏ | 6431/7813 [32:39<07:06,  3.24it/s] 82%|████████▏ | 6432/7813 [32:39<07:01,  3.27it/s] 82%|████████▏ | 6433/7813 [32:39<07:07,  3.23it/s] 82%|████████▏ | 6434/7813 [32:40<07:01,  3.27it/s] 82%|████████▏ | 6435/7813 [32:40<06:58,  3.29it/s] 82%|████████▏ | 6436/7813 [32:40<06:54,  3.32it/s] 82%|████████▏ | 6437/7813 [32:41<06:51,  3.34it/s] 82%|████████▏ | 6438/7813 [32:41<07:05,  3.23it/s] 82%|████████▏ | 6439/7813 [32:41<06:59,  3.28it/s] 82%|████████▏ | 6440/7813 [32:42<06:53,  3.32it/s] 82%|████████▏ | 6441/7813 [32:42<06:48,  3.36it/s] 82%|████████▏ | 6442/7813 [32:42<06:48,  3.36it/s] 82%|████████▏ | 6443/7813 [32:43<07:02,  3.24it/s] 82%|████████▏ | 6444/7813 [32:43<06:54,  3.31it/s] 82%|████████▏ | 6445/7813 [32:43<06:49,  3.34it/s] 83%|████████▎ | 6446/7813 [32:43<06:55,  3.29it/s] 83%|████████▎ | 6447/7813 [32:44<06:51,  3.32it/s] 83%|████████▎ | 6448/7813 [32:44<06:46,  3.36it/s] 83%|████████▎ | 6449/7813 [32:44<06:45,  3.37it/s] 83%|████████▎ | 6450/7813 [32:45<06:43,  3.38it/s]                                                   {'loss': 0.0115, 'grad_norm': 0.23526063561439514, 'learning_rate': 1.7458082682708307e-05, 'epoch': 0.83}
 83%|████████▎ | 6450/7813 [32:45<06:43,  3.38it/s] 83%|████████▎ | 6451/7813 [32:45<06:49,  3.33it/s] 83%|████████▎ | 6452/7813 [32:45<06:48,  3.33it/s] 83%|████████▎ | 6453/7813 [32:45<06:45,  3.36it/s] 83%|████████▎ | 6454/7813 [32:46<06:45,  3.35it/s] 83%|████████▎ | 6455/7813 [32:46<06:59,  3.23it/s] 83%|████████▎ | 6456/7813 [32:46<06:54,  3.28it/s] 83%|████████▎ | 6457/7813 [32:47<06:52,  3.29it/s] 83%|████████▎ | 6458/7813 [32:47<06:50,  3.30it/s] 83%|████████▎ | 6459/7813 [32:47<06:48,  3.32it/s] 83%|████████▎ | 6460/7813 [32:48<06:43,  3.35it/s] 83%|████████▎ | 6461/7813 [32:48<06:42,  3.36it/s] 83%|████████▎ | 6462/7813 [32:48<06:43,  3.35it/s] 83%|████████▎ | 6463/7813 [32:49<06:44,  3.34it/s] 83%|████████▎ | 6464/7813 [32:49<06:44,  3.34it/s] 83%|████████▎ | 6465/7813 [32:49<06:41,  3.36it/s] 83%|████████▎ | 6466/7813 [32:49<06:39,  3.37it/s] 83%|████████▎ | 6467/7813 [32:50<06:39,  3.37it/s] 83%|████████▎ | 6468/7813 [32:50<06:37,  3.38it/s] 83%|████████▎ | 6469/7813 [32:50<06:36,  3.39it/s] 83%|████████▎ | 6470/7813 [32:51<06:35,  3.39it/s] 83%|████████▎ | 6471/7813 [32:51<06:35,  3.40it/s] 83%|████████▎ | 6472/7813 [32:51<06:45,  3.31it/s] 83%|████████▎ | 6473/7813 [32:51<06:45,  3.31it/s] 83%|████████▎ | 6474/7813 [32:52<06:44,  3.31it/s] 83%|████████▎ | 6475/7813 [32:52<06:38,  3.36it/s] 83%|████████▎ | 6476/7813 [32:52<06:37,  3.36it/s] 83%|████████▎ | 6477/7813 [32:53<06:34,  3.38it/s] 83%|████████▎ | 6478/7813 [32:53<06:45,  3.30it/s] 83%|████████▎ | 6479/7813 [32:53<06:44,  3.30it/s] 83%|████████▎ | 6480/7813 [32:54<06:45,  3.29it/s] 83%|████████▎ | 6481/7813 [32:54<06:42,  3.31it/s] 83%|████████▎ | 6482/7813 [32:54<06:39,  3.34it/s] 83%|████████▎ | 6483/7813 [32:54<06:35,  3.36it/s] 83%|████████▎ | 6484/7813 [32:55<06:34,  3.37it/s] 83%|████████▎ | 6485/7813 [32:55<06:42,  3.30it/s] 83%|████████▎ | 6486/7813 [32:55<06:41,  3.31it/s] 83%|████████▎ | 6487/7813 [32:56<06:37,  3.33it/s] 83%|████████▎ | 6488/7813 [32:56<06:37,  3.33it/s] 83%|████████▎ | 6489/7813 [32:56<06:44,  3.28it/s] 83%|████████▎ | 6490/7813 [32:57<06:41,  3.30it/s] 83%|████████▎ | 6491/7813 [32:57<06:39,  3.31it/s] 83%|████████▎ | 6492/7813 [32:57<06:35,  3.34it/s] 83%|████████▎ | 6493/7813 [32:57<06:35,  3.34it/s] 83%|████████▎ | 6494/7813 [32:58<06:32,  3.36it/s] 83%|████████▎ | 6495/7813 [32:58<06:37,  3.32it/s] 83%|████████▎ | 6496/7813 [32:58<06:51,  3.20it/s] 83%|████████▎ | 6497/7813 [32:59<06:46,  3.24it/s] 83%|████████▎ | 6498/7813 [32:59<06:43,  3.26it/s] 83%|████████▎ | 6499/7813 [32:59<06:37,  3.30it/s] 83%|████████▎ | 6500/7813 [33:00<06:34,  3.33it/s]                                                   {'loss': 0.0126, 'grad_norm': 0.24176175892353058, 'learning_rate': 1.6818123640087037e-05, 'epoch': 0.83}
 83%|████████▎ | 6500/7813 [33:00<06:34,  3.33it/s] 83%|████████▎ | 6501/7813 [33:00<06:35,  3.32it/s] 83%|████████▎ | 6502/7813 [33:00<06:32,  3.34it/s] 83%|████████▎ | 6503/7813 [33:01<06:28,  3.37it/s] 83%|████████▎ | 6504/7813 [33:01<06:25,  3.39it/s] 83%|████████▎ | 6505/7813 [33:01<06:26,  3.39it/s] 83%|████████▎ | 6506/7813 [33:01<06:27,  3.38it/s] 83%|████████▎ | 6507/7813 [33:02<06:34,  3.31it/s] 83%|████████▎ | 6508/7813 [33:02<06:32,  3.32it/s] 83%|████████▎ | 6509/7813 [33:02<06:28,  3.36it/s] 83%|████████▎ | 6510/7813 [33:03<06:28,  3.36it/s] 83%|████████▎ | 6511/7813 [33:03<06:31,  3.32it/s] 83%|████████▎ | 6512/7813 [33:03<06:31,  3.32it/s] 83%|████████▎ | 6513/7813 [33:04<06:32,  3.32it/s] 83%|████████▎ | 6514/7813 [33:04<06:32,  3.31it/s] 83%|████████▎ | 6515/7813 [33:04<06:31,  3.32it/s] 83%|████████▎ | 6516/7813 [33:04<06:30,  3.33it/s] 83%|████████▎ | 6517/7813 [33:05<06:27,  3.34it/s] 83%|████████▎ | 6518/7813 [33:05<06:26,  3.35it/s] 83%|████████▎ | 6519/7813 [33:05<06:23,  3.37it/s] 83%|████████▎ | 6520/7813 [33:06<06:25,  3.35it/s] 83%|████████▎ | 6521/7813 [33:06<06:24,  3.36it/s] 83%|████████▎ | 6522/7813 [33:06<06:25,  3.35it/s] 83%|████████▎ | 6523/7813 [33:07<06:27,  3.33it/s] 84%|████████▎ | 6524/7813 [33:07<06:24,  3.35it/s] 84%|████████▎ | 6525/7813 [33:07<06:25,  3.34it/s] 84%|████████▎ | 6526/7813 [33:07<06:32,  3.28it/s] 84%|████████▎ | 6527/7813 [33:08<06:29,  3.30it/s] 84%|████████▎ | 6528/7813 [33:08<06:29,  3.30it/s] 84%|████████▎ | 6529/7813 [33:08<06:25,  3.33it/s] 84%|████████▎ | 6530/7813 [33:09<06:23,  3.34it/s] 84%|████████▎ | 6531/7813 [33:09<06:38,  3.22it/s] 84%|████████▎ | 6532/7813 [33:09<06:51,  3.11it/s] 84%|████████▎ | 6533/7813 [33:10<06:42,  3.18it/s] 84%|████████▎ | 6534/7813 [33:10<06:41,  3.18it/s] 84%|████████▎ | 6535/7813 [33:10<06:34,  3.24it/s] 84%|████████▎ | 6536/7813 [33:10<06:28,  3.29it/s] 84%|████████▎ | 6537/7813 [33:11<06:30,  3.27it/s] 84%|████████▎ | 6538/7813 [33:11<06:25,  3.31it/s] 84%|████████▎ | 6539/7813 [33:11<06:23,  3.33it/s] 84%|████████▎ | 6540/7813 [33:12<06:30,  3.26it/s] 84%|████████▎ | 6541/7813 [33:12<06:29,  3.27it/s] 84%|████████▎ | 6542/7813 [33:12<06:28,  3.27it/s] 84%|████████▎ | 6543/7813 [33:13<06:26,  3.28it/s] 84%|████████▍ | 6544/7813 [33:13<06:23,  3.31it/s] 84%|████████▍ | 6545/7813 [33:13<06:20,  3.33it/s] 84%|████████▍ | 6546/7813 [33:14<06:17,  3.35it/s] 84%|████████▍ | 6547/7813 [33:14<06:35,  3.20it/s] 84%|████████▍ | 6548/7813 [33:14<06:27,  3.27it/s] 84%|████████▍ | 6549/7813 [33:14<06:23,  3.30it/s] 84%|████████▍ | 6550/7813 [33:15<06:34,  3.20it/s]                                                   {'loss': 0.0117, 'grad_norm': 0.2286633551120758, 'learning_rate': 1.6178164597465764e-05, 'epoch': 0.84}
 84%|████████▍ | 6550/7813 [33:15<06:34,  3.20it/s] 84%|████████▍ | 6551/7813 [33:15<06:42,  3.13it/s] 84%|████████▍ | 6552/7813 [33:15<06:33,  3.20it/s] 84%|████████▍ | 6553/7813 [33:16<06:26,  3.26it/s] 84%|████████▍ | 6554/7813 [33:16<06:22,  3.29it/s] 84%|████████▍ | 6555/7813 [33:16<06:18,  3.33it/s] 84%|████████▍ | 6556/7813 [33:17<06:15,  3.35it/s] 84%|████████▍ | 6557/7813 [33:17<06:26,  3.25it/s] 84%|████████▍ | 6558/7813 [33:17<06:22,  3.28it/s] 84%|████████▍ | 6559/7813 [33:18<06:19,  3.31it/s] 84%|████████▍ | 6560/7813 [33:18<06:23,  3.26it/s] 84%|████████▍ | 6561/7813 [33:18<06:39,  3.13it/s] 84%|████████▍ | 6562/7813 [33:18<06:30,  3.21it/s] 84%|████████▍ | 6563/7813 [33:19<06:22,  3.27it/s] 84%|████████▍ | 6564/7813 [33:19<06:23,  3.25it/s] 84%|████████▍ | 6565/7813 [33:19<06:18,  3.30it/s] 84%|████████▍ | 6566/7813 [33:20<06:17,  3.31it/s] 84%|████████▍ | 6567/7813 [33:20<06:15,  3.31it/s] 84%|████████▍ | 6568/7813 [33:20<06:12,  3.34it/s] 84%|████████▍ | 6569/7813 [33:21<06:09,  3.36it/s] 84%|████████▍ | 6570/7813 [33:21<06:07,  3.38it/s] 84%|████████▍ | 6571/7813 [33:21<06:10,  3.35it/s] 84%|████████▍ | 6572/7813 [33:21<06:10,  3.35it/s] 84%|████████▍ | 6573/7813 [33:22<06:07,  3.38it/s] 84%|████████▍ | 6574/7813 [33:22<06:06,  3.38it/s] 84%|████████▍ | 6575/7813 [33:22<06:06,  3.38it/s] 84%|████████▍ | 6576/7813 [33:23<06:07,  3.37it/s] 84%|████████▍ | 6577/7813 [33:23<06:05,  3.38it/s] 84%|████████▍ | 6578/7813 [33:23<06:04,  3.39it/s] 84%|████████▍ | 6579/7813 [33:24<06:04,  3.39it/s] 84%|████████▍ | 6580/7813 [33:24<06:06,  3.37it/s] 84%|████████▍ | 6581/7813 [33:24<06:05,  3.37it/s] 84%|████████▍ | 6582/7813 [33:24<06:06,  3.36it/s] 84%|████████▍ | 6583/7813 [33:25<06:07,  3.35it/s] 84%|████████▍ | 6584/7813 [33:25<06:05,  3.36it/s] 84%|████████▍ | 6585/7813 [33:25<06:06,  3.35it/s] 84%|████████▍ | 6586/7813 [33:26<06:05,  3.35it/s] 84%|████████▍ | 6587/7813 [33:26<06:07,  3.34it/s] 84%|████████▍ | 6588/7813 [33:26<06:03,  3.37it/s] 84%|████████▍ | 6589/7813 [33:26<06:01,  3.39it/s] 84%|████████▍ | 6590/7813 [33:27<05:59,  3.40it/s] 84%|████████▍ | 6591/7813 [33:27<06:01,  3.38it/s] 84%|████████▍ | 6592/7813 [33:27<05:59,  3.40it/s] 84%|████████▍ | 6593/7813 [33:28<05:58,  3.41it/s] 84%|████████▍ | 6594/7813 [33:28<06:00,  3.38it/s] 84%|████████▍ | 6595/7813 [33:28<06:14,  3.25it/s] 84%|████████▍ | 6596/7813 [33:29<06:08,  3.30it/s] 84%|████████▍ | 6597/7813 [33:29<06:11,  3.27it/s] 84%|████████▍ | 6598/7813 [33:29<06:07,  3.31it/s] 84%|████████▍ | 6599/7813 [33:29<06:04,  3.33it/s] 84%|████████▍ | 6600/7813 [33:30<06:01,  3.36it/s]                                                   {'loss': 0.0131, 'grad_norm': 0.2788003087043762, 'learning_rate': 1.553820555484449e-05, 'epoch': 0.84}
 84%|████████▍ | 6600/7813 [33:30<06:01,  3.36it/s] 84%|████████▍ | 6601/7813 [33:30<06:01,  3.35it/s] 85%|████████▍ | 6602/7813 [33:30<05:58,  3.38it/s] 85%|████████▍ | 6603/7813 [33:31<06:01,  3.34it/s] 85%|████████▍ | 6604/7813 [33:31<06:01,  3.35it/s] 85%|████████▍ | 6605/7813 [33:31<05:58,  3.37it/s] 85%|████████▍ | 6606/7813 [33:32<05:57,  3.37it/s] 85%|████████▍ | 6607/7813 [33:32<05:57,  3.37it/s] 85%|████████▍ | 6608/7813 [33:32<05:55,  3.39it/s] 85%|████████▍ | 6609/7813 [33:32<06:08,  3.26it/s] 85%|████████▍ | 6610/7813 [33:33<06:06,  3.28it/s] 85%|████████▍ | 6611/7813 [33:33<06:02,  3.31it/s] 85%|████████▍ | 6612/7813 [33:33<05:59,  3.34it/s] 85%|████████▍ | 6613/7813 [33:34<05:56,  3.37it/s] 85%|████████▍ | 6614/7813 [33:34<05:52,  3.41it/s] 85%|████████▍ | 6615/7813 [33:34<05:51,  3.40it/s] 85%|████████▍ | 6616/7813 [33:35<05:52,  3.39it/s] 85%|████████▍ | 6617/7813 [33:35<05:52,  3.39it/s] 85%|████████▍ | 6618/7813 [33:35<05:51,  3.40it/s] 85%|████████▍ | 6619/7813 [33:35<05:49,  3.42it/s] 85%|████████▍ | 6620/7813 [33:36<05:47,  3.43it/s] 85%|████████▍ | 6621/7813 [33:36<05:48,  3.42it/s] 85%|████████▍ | 6622/7813 [33:36<05:48,  3.42it/s] 85%|████████▍ | 6623/7813 [33:37<05:48,  3.41it/s] 85%|████████▍ | 6624/7813 [33:37<06:02,  3.28it/s] 85%|████████▍ | 6625/7813 [33:37<06:08,  3.23it/s] 85%|████████▍ | 6626/7813 [33:38<06:02,  3.27it/s] 85%|████████▍ | 6627/7813 [33:38<06:00,  3.29it/s] 85%|████████▍ | 6628/7813 [33:38<05:56,  3.32it/s] 85%|████████▍ | 6629/7813 [33:38<06:10,  3.20it/s] 85%|████████▍ | 6630/7813 [33:39<06:11,  3.18it/s] 85%|████████▍ | 6631/7813 [33:39<06:03,  3.25it/s] 85%|████████▍ | 6632/7813 [33:39<05:58,  3.29it/s] 85%|████████▍ | 6633/7813 [33:40<05:56,  3.31it/s] 85%|████████▍ | 6634/7813 [33:40<05:52,  3.34it/s] 85%|████████▍ | 6635/7813 [33:40<05:55,  3.31it/s] 85%|████████▍ | 6636/7813 [33:41<05:51,  3.35it/s] 85%|████████▍ | 6637/7813 [33:41<05:50,  3.35it/s] 85%|████████▍ | 6638/7813 [33:41<05:51,  3.34it/s] 85%|████████▍ | 6639/7813 [33:41<05:48,  3.36it/s] 85%|████████▍ | 6640/7813 [33:42<05:51,  3.34it/s] 85%|████████▍ | 6641/7813 [33:42<05:49,  3.35it/s] 85%|████████▌ | 6642/7813 [33:42<05:49,  3.35it/s] 85%|████████▌ | 6643/7813 [33:43<05:51,  3.32it/s] 85%|████████▌ | 6644/7813 [33:43<05:51,  3.33it/s] 85%|████████▌ | 6645/7813 [33:43<05:50,  3.33it/s] 85%|████████▌ | 6646/7813 [33:44<05:49,  3.34it/s] 85%|████████▌ | 6647/7813 [33:44<05:49,  3.34it/s] 85%|████████▌ | 6648/7813 [33:44<05:47,  3.35it/s] 85%|████████▌ | 6649/7813 [33:44<05:46,  3.36it/s] 85%|████████▌ | 6650/7813 [33:45<05:47,  3.35it/s]                                                   {'loss': 0.0116, 'grad_norm': 0.20109903812408447, 'learning_rate': 1.4898246512223219e-05, 'epoch': 0.85}
 85%|████████▌ | 6650/7813 [33:45<05:47,  3.35it/s] 85%|████████▌ | 6651/7813 [33:45<05:46,  3.36it/s] 85%|████████▌ | 6652/7813 [33:45<05:44,  3.37it/s] 85%|████████▌ | 6653/7813 [33:46<05:45,  3.36it/s] 85%|████████▌ | 6654/7813 [33:46<05:44,  3.36it/s] 85%|████████▌ | 6655/7813 [33:46<05:42,  3.38it/s] 85%|████████▌ | 6656/7813 [33:47<05:42,  3.38it/s] 85%|████████▌ | 6657/7813 [33:47<05:40,  3.39it/s] 85%|████████▌ | 6658/7813 [33:47<05:39,  3.41it/s] 85%|████████▌ | 6659/7813 [33:47<05:39,  3.40it/s] 85%|████████▌ | 6660/7813 [33:48<05:48,  3.31it/s] 85%|████████▌ | 6661/7813 [33:48<05:47,  3.31it/s] 85%|████████▌ | 6662/7813 [33:48<05:43,  3.35it/s] 85%|████████▌ | 6663/7813 [33:49<05:41,  3.37it/s] 85%|████████▌ | 6664/7813 [33:49<05:40,  3.37it/s] 85%|████████▌ | 6665/7813 [33:49<05:38,  3.39it/s] 85%|████████▌ | 6666/7813 [33:50<05:53,  3.24it/s] 85%|████████▌ | 6667/7813 [33:50<05:49,  3.28it/s] 85%|████████▌ | 6668/7813 [33:50<05:45,  3.32it/s] 85%|████████▌ | 6669/7813 [33:50<05:42,  3.34it/s] 85%|████████▌ | 6670/7813 [33:51<05:55,  3.21it/s] 85%|████████▌ | 6671/7813 [33:51<05:48,  3.28it/s] 85%|████████▌ | 6672/7813 [33:51<05:43,  3.32it/s] 85%|████████▌ | 6673/7813 [33:52<05:40,  3.35it/s] 85%|████████▌ | 6674/7813 [33:52<05:44,  3.30it/s] 85%|████████▌ | 6675/7813 [33:52<05:44,  3.31it/s] 85%|████████▌ | 6676/7813 [33:53<05:42,  3.32it/s] 85%|████████▌ | 6677/7813 [33:53<05:41,  3.33it/s] 85%|████████▌ | 6678/7813 [33:53<05:40,  3.34it/s] 85%|████████▌ | 6679/7813 [33:53<05:38,  3.35it/s] 85%|████████▌ | 6680/7813 [33:54<05:34,  3.38it/s] 86%|████████▌ | 6681/7813 [33:54<05:33,  3.40it/s] 86%|████████▌ | 6682/7813 [33:54<05:32,  3.40it/s] 86%|████████▌ | 6683/7813 [33:55<05:38,  3.34it/s] 86%|████████▌ | 6684/7813 [33:55<05:51,  3.21it/s] 86%|████████▌ | 6685/7813 [33:55<05:45,  3.27it/s] 86%|████████▌ | 6686/7813 [33:56<05:41,  3.30it/s] 86%|████████▌ | 6687/7813 [33:56<05:39,  3.31it/s] 86%|████████▌ | 6688/7813 [33:56<05:40,  3.30it/s] 86%|████████▌ | 6689/7813 [33:56<05:44,  3.27it/s] 86%|████████▌ | 6690/7813 [33:57<05:48,  3.23it/s] 86%|████████▌ | 6691/7813 [33:57<05:45,  3.25it/s] 86%|████████▌ | 6692/7813 [33:57<05:52,  3.18it/s] 86%|████████▌ | 6693/7813 [33:58<05:45,  3.25it/s] 86%|████████▌ | 6694/7813 [33:58<05:39,  3.29it/s] 86%|████████▌ | 6695/7813 [33:58<05:37,  3.31it/s] 86%|████████▌ | 6696/7813 [33:59<05:35,  3.33it/s] 86%|████████▌ | 6697/7813 [33:59<05:38,  3.29it/s] 86%|████████▌ | 6698/7813 [33:59<05:35,  3.32it/s] 86%|████████▌ | 6699/7813 [34:00<05:38,  3.29it/s] 86%|████████▌ | 6700/7813 [34:00<05:35,  3.31it/s]                                                   {'loss': 0.0111, 'grad_norm': 0.12636157870292664, 'learning_rate': 1.4258287469601947e-05, 'epoch': 0.86}
 86%|████████▌ | 6700/7813 [34:00<05:35,  3.31it/s] 86%|████████▌ | 6701/7813 [34:00<05:34,  3.32it/s] 86%|████████▌ | 6702/7813 [34:00<05:35,  3.31it/s] 86%|████████▌ | 6703/7813 [34:01<05:31,  3.35it/s] 86%|████████▌ | 6704/7813 [34:01<05:27,  3.38it/s] 86%|████████▌ | 6705/7813 [34:01<05:25,  3.40it/s] 86%|████████▌ | 6706/7813 [34:02<05:32,  3.33it/s] 86%|████████▌ | 6707/7813 [34:02<05:36,  3.29it/s] 86%|████████▌ | 6708/7813 [34:02<05:34,  3.30it/s] 86%|████████▌ | 6709/7813 [34:03<05:33,  3.31it/s] 86%|████████▌ | 6710/7813 [34:03<05:32,  3.32it/s] 86%|████████▌ | 6711/7813 [34:03<05:28,  3.35it/s] 86%|████████▌ | 6712/7813 [34:03<05:25,  3.38it/s] 86%|████████▌ | 6713/7813 [34:04<05:24,  3.39it/s] 86%|████████▌ | 6714/7813 [34:04<05:25,  3.38it/s] 86%|████████▌ | 6715/7813 [34:04<05:24,  3.38it/s] 86%|████████▌ | 6716/7813 [34:05<05:25,  3.37it/s] 86%|████████▌ | 6717/7813 [34:05<05:24,  3.38it/s] 86%|████████▌ | 6718/7813 [34:05<05:20,  3.41it/s] 86%|████████▌ | 6719/7813 [34:05<05:19,  3.43it/s] 86%|████████▌ | 6720/7813 [34:06<05:19,  3.42it/s] 86%|████████▌ | 6721/7813 [34:06<05:34,  3.26it/s] 86%|████████▌ | 6722/7813 [34:06<05:31,  3.29it/s] 86%|████████▌ | 6723/7813 [34:07<05:30,  3.30it/s] 86%|████████▌ | 6724/7813 [34:07<05:38,  3.22it/s] 86%|████████▌ | 6725/7813 [34:07<05:35,  3.25it/s] 86%|████████▌ | 6726/7813 [34:08<05:31,  3.28it/s] 86%|████████▌ | 6727/7813 [34:08<05:31,  3.27it/s] 86%|████████▌ | 6728/7813 [34:08<05:34,  3.24it/s] 86%|████████▌ | 6729/7813 [34:09<05:30,  3.28it/s] 86%|████████▌ | 6730/7813 [34:09<05:31,  3.27it/s] 86%|████████▌ | 6731/7813 [34:09<05:26,  3.32it/s] 86%|████████▌ | 6732/7813 [34:09<05:33,  3.24it/s] 86%|████████▌ | 6733/7813 [34:10<05:37,  3.20it/s] 86%|████████▌ | 6734/7813 [34:10<05:36,  3.20it/s] 86%|████████▌ | 6735/7813 [34:10<05:34,  3.22it/s] 86%|████████▌ | 6736/7813 [34:11<05:31,  3.25it/s] 86%|████████▌ | 6737/7813 [34:11<05:26,  3.30it/s] 86%|████████▌ | 6738/7813 [34:11<05:21,  3.34it/s] 86%|████████▋ | 6739/7813 [34:12<05:30,  3.25it/s] 86%|████████▋ | 6740/7813 [34:12<05:31,  3.24it/s] 86%|████████▋ | 6741/7813 [34:12<05:35,  3.20it/s] 86%|████████▋ | 6742/7813 [34:13<05:30,  3.24it/s] 86%|████████▋ | 6743/7813 [34:13<05:28,  3.25it/s] 86%|████████▋ | 6744/7813 [34:13<05:23,  3.30it/s] 86%|████████▋ | 6745/7813 [34:13<05:28,  3.25it/s] 86%|████████▋ | 6746/7813 [34:14<05:30,  3.23it/s] 86%|████████▋ | 6747/7813 [34:14<05:32,  3.21it/s] 86%|████████▋ | 6748/7813 [34:14<05:26,  3.26it/s] 86%|████████▋ | 6749/7813 [34:15<05:23,  3.29it/s] 86%|████████▋ | 6750/7813 [34:15<05:21,  3.31it/s]                                                   {'loss': 0.012, 'grad_norm': 0.25127288699150085, 'learning_rate': 1.3618328426980672e-05, 'epoch': 0.86}
 86%|████████▋ | 6750/7813 [34:15<05:21,  3.31it/s] 86%|████████▋ | 6751/7813 [34:15<05:18,  3.34it/s] 86%|████████▋ | 6752/7813 [34:16<05:18,  3.33it/s] 86%|████████▋ | 6753/7813 [34:16<05:16,  3.35it/s] 86%|████████▋ | 6754/7813 [34:16<05:13,  3.38it/s] 86%|████████▋ | 6755/7813 [34:16<05:10,  3.40it/s] 86%|████████▋ | 6756/7813 [34:17<05:16,  3.34it/s] 86%|████████▋ | 6757/7813 [34:17<05:13,  3.36it/s] 86%|████████▋ | 6758/7813 [34:17<05:12,  3.37it/s] 87%|████████▋ | 6759/7813 [34:18<05:26,  3.23it/s] 87%|████████▋ | 6760/7813 [34:18<05:25,  3.23it/s] 87%|████████▋ | 6761/7813 [34:18<05:20,  3.28it/s] 87%|████████▋ | 6762/7813 [34:19<05:18,  3.30it/s] 87%|████████▋ | 6763/7813 [34:19<05:16,  3.32it/s] 87%|████████▋ | 6764/7813 [34:19<05:12,  3.36it/s] 87%|████████▋ | 6765/7813 [34:19<05:12,  3.35it/s] 87%|████████▋ | 6766/7813 [34:20<05:18,  3.29it/s] 87%|████████▋ | 6767/7813 [34:20<05:14,  3.33it/s] 87%|████████▋ | 6768/7813 [34:20<05:13,  3.33it/s] 87%|████████▋ | 6769/7813 [34:21<05:10,  3.36it/s] 87%|████████▋ | 6770/7813 [34:21<05:15,  3.31it/s] 87%|████████▋ | 6771/7813 [34:21<05:12,  3.33it/s] 87%|████████▋ | 6772/7813 [34:22<05:12,  3.33it/s] 87%|████████▋ | 6773/7813 [34:22<05:12,  3.33it/s] 87%|████████▋ | 6774/7813 [34:22<05:12,  3.33it/s] 87%|████████▋ | 6775/7813 [34:22<05:09,  3.35it/s] 87%|████████▋ | 6776/7813 [34:23<05:07,  3.37it/s] 87%|████████▋ | 6777/7813 [34:23<05:07,  3.37it/s] 87%|████████▋ | 6778/7813 [34:23<05:08,  3.36it/s] 87%|████████▋ | 6779/7813 [34:24<05:06,  3.37it/s] 87%|████████▋ | 6780/7813 [34:24<05:05,  3.38it/s] 87%|████████▋ | 6781/7813 [34:24<05:06,  3.37it/s] 87%|████████▋ | 6782/7813 [34:25<05:04,  3.38it/s] 87%|████████▋ | 6783/7813 [34:25<05:07,  3.35it/s] 87%|████████▋ | 6784/7813 [34:25<05:10,  3.31it/s] 87%|████████▋ | 6785/7813 [34:25<05:08,  3.33it/s] 87%|████████▋ | 6786/7813 [34:26<05:09,  3.32it/s] 87%|████████▋ | 6787/7813 [34:26<05:07,  3.33it/s] 87%|████████▋ | 6788/7813 [34:26<05:07,  3.33it/s] 87%|████████▋ | 6789/7813 [34:27<05:05,  3.35it/s] 87%|████████▋ | 6790/7813 [34:27<05:04,  3.36it/s] 87%|████████▋ | 6791/7813 [34:27<05:02,  3.38it/s] 87%|████████▋ | 6792/7813 [34:28<05:02,  3.38it/s] 87%|████████▋ | 6793/7813 [34:28<05:03,  3.36it/s] 87%|████████▋ | 6794/7813 [34:28<05:01,  3.38it/s] 87%|████████▋ | 6795/7813 [34:28<05:01,  3.38it/s] 87%|████████▋ | 6796/7813 [34:29<05:02,  3.37it/s] 87%|████████▋ | 6797/7813 [34:29<04:59,  3.40it/s] 87%|████████▋ | 6798/7813 [34:29<04:57,  3.41it/s] 87%|████████▋ | 6799/7813 [34:30<05:06,  3.31it/s] 87%|████████▋ | 6800/7813 [34:30<05:08,  3.28it/s]                                                   {'loss': 0.0114, 'grad_norm': 0.26621919870376587, 'learning_rate': 1.2978369384359402e-05, 'epoch': 0.87}
 87%|████████▋ | 6800/7813 [34:30<05:08,  3.28it/s] 87%|████████▋ | 6801/7813 [34:30<05:03,  3.33it/s] 87%|████████▋ | 6802/7813 [34:31<05:16,  3.19it/s] 87%|████████▋ | 6803/7813 [34:31<05:20,  3.15it/s] 87%|████████▋ | 6804/7813 [34:31<05:14,  3.21it/s] 87%|████████▋ | 6805/7813 [34:32<05:15,  3.20it/s] 87%|████████▋ | 6806/7813 [34:32<05:09,  3.26it/s] 87%|████████▋ | 6807/7813 [34:32<05:03,  3.31it/s] 87%|████████▋ | 6808/7813 [34:32<05:01,  3.33it/s] 87%|████████▋ | 6809/7813 [34:33<05:00,  3.34it/s] 87%|████████▋ | 6810/7813 [34:33<04:56,  3.38it/s] 87%|████████▋ | 6811/7813 [34:33<05:04,  3.29it/s] 87%|████████▋ | 6812/7813 [34:34<05:01,  3.32it/s] 87%|████████▋ | 6813/7813 [34:34<05:04,  3.29it/s] 87%|████████▋ | 6814/7813 [34:34<05:01,  3.31it/s] 87%|████████▋ | 6815/7813 [34:35<05:03,  3.28it/s] 87%|████████▋ | 6816/7813 [34:35<05:02,  3.29it/s] 87%|████████▋ | 6817/7813 [34:35<04:59,  3.32it/s] 87%|████████▋ | 6818/7813 [34:35<04:58,  3.33it/s] 87%|████████▋ | 6819/7813 [34:36<04:57,  3.34it/s] 87%|████████▋ | 6820/7813 [34:36<04:56,  3.35it/s] 87%|████████▋ | 6821/7813 [34:36<04:54,  3.37it/s] 87%|████████▋ | 6822/7813 [34:37<04:51,  3.40it/s] 87%|████████▋ | 6823/7813 [34:37<04:58,  3.31it/s] 87%|████████▋ | 6824/7813 [34:37<04:54,  3.35it/s] 87%|████████▋ | 6825/7813 [34:38<04:54,  3.36it/s] 87%|████████▋ | 6826/7813 [34:38<05:09,  3.19it/s] 87%|████████▋ | 6827/7813 [34:38<05:02,  3.26it/s] 87%|████████▋ | 6828/7813 [34:38<04:56,  3.33it/s] 87%|████████▋ | 6829/7813 [34:39<04:52,  3.36it/s] 87%|████████▋ | 6830/7813 [34:39<04:51,  3.38it/s] 87%|████████▋ | 6831/7813 [34:39<04:51,  3.37it/s] 87%|████████▋ | 6832/7813 [34:40<04:51,  3.36it/s] 87%|████████▋ | 6833/7813 [34:40<04:52,  3.35it/s] 87%|████████▋ | 6834/7813 [34:40<04:55,  3.31it/s] 87%|████████▋ | 6835/7813 [34:41<04:52,  3.35it/s] 87%|████████▋ | 6836/7813 [34:41<04:51,  3.35it/s] 88%|████████▊ | 6837/7813 [34:41<04:49,  3.37it/s] 88%|████████▊ | 6838/7813 [34:41<04:48,  3.38it/s] 88%|████████▊ | 6839/7813 [34:42<04:49,  3.37it/s] 88%|████████▊ | 6840/7813 [34:42<04:47,  3.38it/s] 88%|████████▊ | 6841/7813 [34:42<04:47,  3.39it/s] 88%|████████▊ | 6842/7813 [34:43<04:46,  3.39it/s] 88%|████████▊ | 6843/7813 [34:43<04:49,  3.36it/s] 88%|████████▊ | 6844/7813 [34:43<04:54,  3.29it/s] 88%|████████▊ | 6845/7813 [34:43<04:49,  3.34it/s] 88%|████████▊ | 6846/7813 [34:44<04:46,  3.37it/s] 88%|████████▊ | 6847/7813 [34:44<04:46,  3.37it/s] 88%|████████▊ | 6848/7813 [34:44<04:43,  3.41it/s] 88%|████████▊ | 6849/7813 [34:45<04:43,  3.40it/s] 88%|████████▊ | 6850/7813 [34:45<04:43,  3.39it/s]                                                   {'loss': 0.0111, 'grad_norm': 0.29759344458580017, 'learning_rate': 1.233841034173813e-05, 'epoch': 0.88}
 88%|████████▊ | 6850/7813 [34:45<04:43,  3.39it/s] 88%|████████▊ | 6851/7813 [34:45<04:46,  3.35it/s] 88%|████████▊ | 6852/7813 [34:46<04:54,  3.27it/s] 88%|████████▊ | 6853/7813 [34:46<04:48,  3.32it/s] 88%|████████▊ | 6854/7813 [34:46<04:59,  3.20it/s] 88%|████████▊ | 6855/7813 [34:47<04:56,  3.23it/s] 88%|████████▊ | 6856/7813 [34:47<04:52,  3.27it/s] 88%|████████▊ | 6857/7813 [34:47<04:48,  3.31it/s] 88%|████████▊ | 6858/7813 [34:47<04:45,  3.34it/s] 88%|████████▊ | 6859/7813 [34:48<04:43,  3.37it/s] 88%|████████▊ | 6860/7813 [34:48<04:41,  3.39it/s] 88%|████████▊ | 6861/7813 [34:48<04:45,  3.34it/s] 88%|████████▊ | 6862/7813 [34:49<04:54,  3.22it/s] 88%|████████▊ | 6863/7813 [34:49<04:49,  3.28it/s] 88%|████████▊ | 6864/7813 [34:49<04:46,  3.32it/s] 88%|████████▊ | 6865/7813 [34:50<04:43,  3.34it/s] 88%|████████▊ | 6866/7813 [34:50<04:41,  3.37it/s] 88%|████████▊ | 6867/7813 [34:50<04:41,  3.36it/s] 88%|████████▊ | 6868/7813 [34:50<04:40,  3.37it/s] 88%|████████▊ | 6869/7813 [34:51<04:39,  3.38it/s] 88%|████████▊ | 6870/7813 [34:51<04:38,  3.39it/s] 88%|████████▊ | 6871/7813 [34:51<04:37,  3.40it/s] 88%|████████▊ | 6872/7813 [34:52<04:35,  3.41it/s] 88%|████████▊ | 6873/7813 [34:52<04:38,  3.38it/s] 88%|████████▊ | 6874/7813 [34:52<04:37,  3.38it/s] 88%|████████▊ | 6875/7813 [34:52<04:40,  3.35it/s] 88%|████████▊ | 6876/7813 [34:53<04:38,  3.36it/s] 88%|████████▊ | 6877/7813 [34:53<04:36,  3.38it/s] 88%|████████▊ | 6878/7813 [34:53<04:35,  3.39it/s] 88%|████████▊ | 6879/7813 [34:54<04:34,  3.41it/s] 88%|████████▊ | 6880/7813 [34:54<04:34,  3.40it/s] 88%|████████▊ | 6881/7813 [34:54<04:36,  3.37it/s] 88%|████████▊ | 6882/7813 [34:55<04:34,  3.39it/s] 88%|████████▊ | 6883/7813 [34:55<04:35,  3.37it/s] 88%|████████▊ | 6884/7813 [34:55<04:34,  3.38it/s] 88%|████████▊ | 6885/7813 [34:55<04:37,  3.35it/s] 88%|████████▊ | 6886/7813 [34:56<04:34,  3.38it/s] 88%|████████▊ | 6887/7813 [34:56<04:35,  3.37it/s] 88%|████████▊ | 6888/7813 [34:56<04:33,  3.38it/s] 88%|████████▊ | 6889/7813 [34:57<04:31,  3.40it/s] 88%|████████▊ | 6890/7813 [34:57<04:31,  3.40it/s] 88%|████████▊ | 6891/7813 [34:57<04:33,  3.37it/s] 88%|████████▊ | 6892/7813 [34:57<04:32,  3.38it/s] 88%|████████▊ | 6893/7813 [34:58<04:35,  3.33it/s] 88%|████████▊ | 6894/7813 [34:58<04:34,  3.35it/s] 88%|████████▊ | 6895/7813 [34:58<04:34,  3.34it/s] 88%|████████▊ | 6896/7813 [34:59<04:33,  3.36it/s] 88%|████████▊ | 6897/7813 [34:59<04:32,  3.36it/s] 88%|████████▊ | 6898/7813 [34:59<04:44,  3.22it/s] 88%|████████▊ | 6899/7813 [35:00<04:41,  3.25it/s] 88%|████████▊ | 6900/7813 [35:00<04:36,  3.30it/s]                                                   {'loss': 0.011, 'grad_norm': 0.28277865052223206, 'learning_rate': 1.1698451299116857e-05, 'epoch': 0.88}
 88%|████████▊ | 6900/7813 [35:00<04:36,  3.30it/s] 88%|████████▊ | 6901/7813 [35:00<04:36,  3.30it/s] 88%|████████▊ | 6902/7813 [35:01<04:33,  3.33it/s] 88%|████████▊ | 6903/7813 [35:01<04:37,  3.28it/s] 88%|████████▊ | 6904/7813 [35:01<04:36,  3.29it/s] 88%|████████▊ | 6905/7813 [35:01<04:34,  3.31it/s] 88%|████████▊ | 6906/7813 [35:02<04:34,  3.31it/s] 88%|████████▊ | 6907/7813 [35:02<04:40,  3.23it/s] 88%|████████▊ | 6908/7813 [35:02<04:38,  3.25it/s] 88%|████████▊ | 6909/7813 [35:03<04:41,  3.21it/s] 88%|████████▊ | 6910/7813 [35:03<04:49,  3.12it/s] 88%|████████▊ | 6911/7813 [35:03<04:42,  3.19it/s] 88%|████████▊ | 6912/7813 [35:04<04:38,  3.24it/s] 88%|████████▊ | 6913/7813 [35:04<04:34,  3.28it/s] 88%|████████▊ | 6914/7813 [35:04<04:31,  3.31it/s] 89%|████████▊ | 6915/7813 [35:05<04:30,  3.32it/s] 89%|████████▊ | 6916/7813 [35:05<04:29,  3.33it/s] 89%|████████▊ | 6917/7813 [35:05<04:28,  3.34it/s] 89%|████████▊ | 6918/7813 [35:05<04:27,  3.35it/s] 89%|████████▊ | 6919/7813 [35:06<04:24,  3.38it/s] 89%|████████▊ | 6920/7813 [35:06<04:23,  3.39it/s] 89%|████████▊ | 6921/7813 [35:06<04:24,  3.38it/s] 89%|████████▊ | 6922/7813 [35:07<04:24,  3.37it/s] 89%|████████▊ | 6923/7813 [35:07<04:25,  3.35it/s] 89%|████████▊ | 6924/7813 [35:07<04:21,  3.40it/s] 89%|████████▊ | 6925/7813 [35:07<04:22,  3.39it/s] 89%|████████▊ | 6926/7813 [35:08<04:23,  3.36it/s] 89%|████████▊ | 6927/7813 [35:08<04:22,  3.38it/s] 89%|████████▊ | 6928/7813 [35:08<04:29,  3.29it/s] 89%|████████▊ | 6929/7813 [35:09<04:28,  3.29it/s] 89%|████████▊ | 6930/7813 [35:09<04:25,  3.32it/s] 89%|████████▊ | 6931/7813 [35:09<04:24,  3.34it/s] 89%|████████▊ | 6932/7813 [35:10<04:22,  3.35it/s] 89%|████████▊ | 6933/7813 [35:10<04:21,  3.36it/s] 89%|████████▊ | 6934/7813 [35:10<04:20,  3.38it/s] 89%|████████▉ | 6935/7813 [35:10<04:18,  3.40it/s] 89%|████████▉ | 6936/7813 [35:11<04:17,  3.40it/s] 89%|████████▉ | 6937/7813 [35:11<04:16,  3.41it/s] 89%|████████▉ | 6938/7813 [35:11<04:17,  3.40it/s] 89%|████████▉ | 6939/7813 [35:12<04:19,  3.37it/s] 89%|████████▉ | 6940/7813 [35:12<04:19,  3.37it/s] 89%|████████▉ | 6941/7813 [35:12<04:18,  3.38it/s] 89%|████████▉ | 6942/7813 [35:13<04:28,  3.24it/s] 89%|████████▉ | 6943/7813 [35:13<04:26,  3.26it/s] 89%|████████▉ | 6944/7813 [35:13<04:23,  3.30it/s] 89%|████████▉ | 6945/7813 [35:13<04:21,  3.32it/s] 89%|████████▉ | 6946/7813 [35:14<04:20,  3.33it/s] 89%|████████▉ | 6947/7813 [35:14<04:26,  3.25it/s] 89%|████████▉ | 6948/7813 [35:14<04:31,  3.19it/s] 89%|████████▉ | 6949/7813 [35:15<04:33,  3.16it/s] 89%|████████▉ | 6950/7813 [35:15<04:27,  3.23it/s]                                                   {'loss': 0.0118, 'grad_norm': 0.24196107685565948, 'learning_rate': 1.1058492256495585e-05, 'epoch': 0.89}
 89%|████████▉ | 6950/7813 [35:15<04:27,  3.23it/s] 89%|████████▉ | 6951/7813 [35:15<04:26,  3.23it/s] 89%|████████▉ | 6952/7813 [35:16<04:21,  3.29it/s] 89%|████████▉ | 6953/7813 [35:16<04:20,  3.30it/s] 89%|████████▉ | 6954/7813 [35:16<04:16,  3.35it/s] 89%|████████▉ | 6955/7813 [35:17<04:14,  3.36it/s] 89%|████████▉ | 6956/7813 [35:17<04:16,  3.35it/s] 89%|████████▉ | 6957/7813 [35:17<04:24,  3.23it/s] 89%|████████▉ | 6958/7813 [35:17<04:22,  3.26it/s] 89%|████████▉ | 6959/7813 [35:18<04:20,  3.28it/s] 89%|████████▉ | 6960/7813 [35:18<04:19,  3.28it/s] 89%|████████▉ | 6961/7813 [35:18<04:16,  3.32it/s] 89%|████████▉ | 6962/7813 [35:19<04:14,  3.34it/s] 89%|████████▉ | 6963/7813 [35:19<04:13,  3.35it/s] 89%|████████▉ | 6964/7813 [35:19<04:11,  3.37it/s] 89%|████████▉ | 6965/7813 [35:20<04:11,  3.37it/s] 89%|████████▉ | 6966/7813 [35:20<04:12,  3.36it/s] 89%|████████▉ | 6967/7813 [35:20<04:17,  3.29it/s] 89%|████████▉ | 6968/7813 [35:20<04:16,  3.30it/s] 89%|████████▉ | 6969/7813 [35:21<04:14,  3.32it/s] 89%|████████▉ | 6970/7813 [35:21<04:13,  3.33it/s] 89%|████████▉ | 6971/7813 [35:21<04:09,  3.37it/s] 89%|████████▉ | 6972/7813 [35:22<04:10,  3.36it/s] 89%|████████▉ | 6973/7813 [35:22<04:07,  3.39it/s] 89%|████████▉ | 6974/7813 [35:22<04:06,  3.40it/s] 89%|████████▉ | 6975/7813 [35:23<04:08,  3.37it/s] 89%|████████▉ | 6976/7813 [35:23<04:07,  3.38it/s] 89%|████████▉ | 6977/7813 [35:23<04:08,  3.36it/s] 89%|████████▉ | 6978/7813 [35:23<04:12,  3.31it/s] 89%|████████▉ | 6979/7813 [35:24<04:10,  3.33it/s] 89%|████████▉ | 6980/7813 [35:24<04:06,  3.38it/s] 89%|████████▉ | 6981/7813 [35:24<04:09,  3.34it/s] 89%|████████▉ | 6982/7813 [35:25<04:11,  3.31it/s] 89%|████████▉ | 6983/7813 [35:25<04:17,  3.22it/s] 89%|████████▉ | 6984/7813 [35:25<04:11,  3.29it/s] 89%|████████▉ | 6985/7813 [35:26<04:08,  3.33it/s] 89%|████████▉ | 6986/7813 [35:26<04:09,  3.32it/s] 89%|████████▉ | 6987/7813 [35:26<04:12,  3.26it/s] 89%|████████▉ | 6988/7813 [35:26<04:10,  3.29it/s] 89%|████████▉ | 6989/7813 [35:27<04:07,  3.33it/s] 89%|████████▉ | 6990/7813 [35:27<04:14,  3.23it/s] 89%|████████▉ | 6991/7813 [35:27<04:10,  3.28it/s] 89%|████████▉ | 6992/7813 [35:28<04:07,  3.32it/s] 90%|████████▉ | 6993/7813 [35:28<04:02,  3.38it/s] 90%|████████▉ | 6994/7813 [35:28<04:06,  3.32it/s] 90%|████████▉ | 6995/7813 [35:29<04:06,  3.32it/s] 90%|████████▉ | 6996/7813 [35:29<04:12,  3.24it/s] 90%|████████▉ | 6997/7813 [35:29<04:15,  3.19it/s] 90%|████████▉ | 6998/7813 [35:30<04:13,  3.22it/s] 90%|████████▉ | 6999/7813 [35:30<04:10,  3.25it/s] 90%|████████▉ | 7000/7813 [35:30<04:06,  3.29it/s]                                                   {'loss': 0.0111, 'grad_norm': 0.14288626611232758, 'learning_rate': 1.0418533213874312e-05, 'epoch': 0.9}
 90%|████████▉ | 7000/7813 [35:30<04:06,  3.29it/s] 90%|████████▉ | 7001/7813 [35:30<04:04,  3.32it/s] 90%|████████▉ | 7002/7813 [35:31<04:02,  3.34it/s] 90%|████████▉ | 7003/7813 [35:31<04:12,  3.21it/s] 90%|████████▉ | 7004/7813 [35:31<04:07,  3.27it/s] 90%|████████▉ | 7005/7813 [35:32<04:06,  3.28it/s] 90%|████████▉ | 7006/7813 [35:32<04:04,  3.29it/s] 90%|████████▉ | 7007/7813 [35:32<04:01,  3.34it/s] 90%|████████▉ | 7008/7813 [35:33<03:59,  3.36it/s] 90%|████████▉ | 7009/7813 [35:33<04:02,  3.31it/s] 90%|████████▉ | 7010/7813 [35:33<04:00,  3.34it/s] 90%|████████▉ | 7011/7813 [35:33<03:57,  3.38it/s] 90%|████████▉ | 7012/7813 [35:34<03:56,  3.38it/s] 90%|████████▉ | 7013/7813 [35:34<04:04,  3.27it/s] 90%|████████▉ | 7014/7813 [35:34<04:00,  3.32it/s] 90%|████████▉ | 7015/7813 [35:35<04:00,  3.32it/s] 90%|████████▉ | 7016/7813 [35:35<03:58,  3.34it/s] 90%|████████▉ | 7017/7813 [35:35<04:01,  3.29it/s] 90%|████████▉ | 7018/7813 [35:36<03:59,  3.32it/s] 90%|████████▉ | 7019/7813 [35:36<03:57,  3.34it/s] 90%|████████▉ | 7020/7813 [35:36<03:57,  3.34it/s] 90%|████████▉ | 7021/7813 [35:36<03:56,  3.35it/s] 90%|████████▉ | 7022/7813 [35:37<03:56,  3.34it/s] 90%|████████▉ | 7023/7813 [35:37<03:55,  3.36it/s] 90%|████████▉ | 7024/7813 [35:37<03:52,  3.39it/s] 90%|████████▉ | 7025/7813 [35:38<03:54,  3.36it/s] 90%|████████▉ | 7026/7813 [35:38<03:53,  3.37it/s] 90%|████████▉ | 7027/7813 [35:38<03:53,  3.37it/s] 90%|████████▉ | 7028/7813 [35:39<03:54,  3.35it/s] 90%|████████▉ | 7029/7813 [35:39<03:54,  3.35it/s] 90%|████████▉ | 7030/7813 [35:39<03:53,  3.35it/s] 90%|████████▉ | 7031/7813 [35:39<03:54,  3.34it/s] 90%|█████████ | 7032/7813 [35:40<03:52,  3.35it/s] 90%|█████████ | 7033/7813 [35:40<03:52,  3.35it/s] 90%|█████████ | 7034/7813 [35:40<03:51,  3.37it/s] 90%|█████████ | 7035/7813 [35:41<03:49,  3.39it/s] 90%|█████████ | 7036/7813 [35:41<03:58,  3.26it/s] 90%|█████████ | 7037/7813 [35:41<04:06,  3.14it/s] 90%|█████████ | 7038/7813 [35:42<04:02,  3.19it/s] 90%|█████████ | 7039/7813 [35:42<03:57,  3.26it/s] 90%|█████████ | 7040/7813 [35:42<03:54,  3.30it/s] 90%|█████████ | 7041/7813 [35:42<03:51,  3.34it/s] 90%|█████████ | 7042/7813 [35:43<03:49,  3.35it/s] 90%|█████████ | 7043/7813 [35:43<03:54,  3.29it/s] 90%|█████████ | 7044/7813 [35:43<03:58,  3.23it/s] 90%|█████████ | 7045/7813 [35:44<03:55,  3.26it/s] 90%|█████████ | 7046/7813 [35:44<03:51,  3.31it/s] 90%|█████████ | 7047/7813 [35:44<03:53,  3.28it/s] 90%|█████████ | 7048/7813 [35:45<03:49,  3.33it/s] 90%|█████████ | 7049/7813 [35:45<03:49,  3.33it/s] 90%|█████████ | 7050/7813 [35:45<03:48,  3.34it/s]                                                   {'loss': 0.0111, 'grad_norm': 0.29404759407043457, 'learning_rate': 9.77857417125304e-06, 'epoch': 0.9}
 90%|█████████ | 7050/7813 [35:45<03:48,  3.34it/s] 90%|█████████ | 7051/7813 [35:45<03:47,  3.35it/s] 90%|█████████ | 7052/7813 [35:46<03:46,  3.36it/s] 90%|█████████ | 7053/7813 [35:46<03:46,  3.35it/s] 90%|█████████ | 7054/7813 [35:46<03:46,  3.34it/s] 90%|█████████ | 7055/7813 [35:47<03:49,  3.31it/s] 90%|█████████ | 7056/7813 [35:47<03:46,  3.34it/s] 90%|█████████ | 7057/7813 [35:47<03:44,  3.36it/s] 90%|█████████ | 7058/7813 [35:48<03:44,  3.36it/s] 90%|█████████ | 7059/7813 [35:48<04:39,  2.70it/s] 90%|█████████ | 7060/7813 [35:48<04:21,  2.88it/s] 90%|█████████ | 7061/7813 [35:49<04:09,  3.01it/s] 90%|█████████ | 7062/7813 [35:49<04:10,  2.99it/s] 90%|█████████ | 7063/7813 [35:49<04:01,  3.10it/s] 90%|█████████ | 7064/7813 [35:50<03:55,  3.18it/s] 90%|█████████ | 7065/7813 [35:50<03:50,  3.24it/s] 90%|█████████ | 7066/7813 [35:50<03:48,  3.27it/s] 90%|█████████ | 7067/7813 [35:51<03:46,  3.29it/s] 90%|█████████ | 7068/7813 [35:51<03:43,  3.33it/s] 90%|█████████ | 7069/7813 [35:51<03:43,  3.33it/s] 90%|█████████ | 7070/7813 [35:51<03:42,  3.33it/s] 91%|█████████ | 7071/7813 [35:52<03:42,  3.33it/s] 91%|█████████ | 7072/7813 [35:52<03:54,  3.16it/s] 91%|█████████ | 7073/7813 [35:52<03:49,  3.23it/s] 91%|█████████ | 7074/7813 [35:53<03:45,  3.28it/s] 91%|█████████ | 7075/7813 [35:53<03:52,  3.18it/s] 91%|█████████ | 7076/7813 [35:53<03:47,  3.23it/s] 91%|█████████ | 7077/7813 [35:54<03:46,  3.25it/s] 91%|█████████ | 7078/7813 [35:54<03:43,  3.29it/s] 91%|█████████ | 7079/7813 [35:54<03:42,  3.30it/s] 91%|█████████ | 7080/7813 [35:54<03:44,  3.27it/s] 91%|█████████ | 7081/7813 [35:55<03:50,  3.18it/s] 91%|█████████ | 7082/7813 [35:55<03:46,  3.23it/s] 91%|█████████ | 7083/7813 [35:56<04:30,  2.70it/s] 91%|█████████ | 7084/7813 [35:56<04:14,  2.87it/s] 91%|█████████ | 7085/7813 [35:56<04:01,  3.01it/s] 91%|█████████ | 7086/7813 [35:57<03:55,  3.09it/s] 91%|█████████ | 7087/7813 [35:57<03:48,  3.18it/s] 91%|█████████ | 7088/7813 [35:57<03:44,  3.23it/s] 91%|█████████ | 7089/7813 [35:57<03:41,  3.27it/s] 91%|█████████ | 7090/7813 [35:58<03:41,  3.26it/s] 91%|█████████ | 7091/7813 [35:58<03:40,  3.28it/s] 91%|█████████ | 7092/7813 [35:58<03:46,  3.19it/s] 91%|█████████ | 7093/7813 [35:59<03:42,  3.23it/s] 91%|█████████ | 7094/7813 [35:59<03:39,  3.27it/s] 91%|█████████ | 7095/7813 [35:59<03:39,  3.27it/s] 91%|█████████ | 7096/7813 [36:00<03:39,  3.27it/s] 91%|█████████ | 7097/7813 [36:00<03:46,  3.15it/s] 91%|█████████ | 7098/7813 [36:00<03:44,  3.18it/s] 91%|█████████ | 7099/7813 [36:01<03:49,  3.12it/s] 91%|█████████ | 7100/7813 [36:01<03:44,  3.18it/s]                                                   {'loss': 0.0115, 'grad_norm': 0.22177575528621674, 'learning_rate': 9.138615128631769e-06, 'epoch': 0.91}
 91%|█████████ | 7100/7813 [36:01<03:44,  3.18it/s] 91%|█████████ | 7101/7813 [36:01<03:39,  3.24it/s] 91%|█████████ | 7102/7813 [36:01<03:46,  3.15it/s] 91%|█████████ | 7103/7813 [36:02<03:39,  3.23it/s] 91%|█████████ | 7104/7813 [36:02<03:37,  3.26it/s] 91%|█████████ | 7105/7813 [36:02<03:34,  3.31it/s] 91%|█████████ | 7106/7813 [36:03<03:32,  3.33it/s] 91%|█████████ | 7107/7813 [36:03<03:34,  3.29it/s] 91%|█████████ | 7108/7813 [36:03<03:34,  3.29it/s] 91%|█████████ | 7109/7813 [36:04<03:33,  3.30it/s] 91%|█████████ | 7110/7813 [36:04<03:31,  3.33it/s] 91%|█████████ | 7111/7813 [36:04<03:32,  3.30it/s] 91%|█████████ | 7112/7813 [36:04<03:32,  3.30it/s] 91%|█████████ | 7113/7813 [36:05<03:30,  3.32it/s] 91%|█████████ | 7114/7813 [36:05<03:29,  3.34it/s] 91%|█████████ | 7115/7813 [36:05<03:28,  3.34it/s] 91%|█████████ | 7116/7813 [36:06<03:26,  3.37it/s] 91%|█████████ | 7117/7813 [36:06<03:35,  3.22it/s] 91%|█████████ | 7118/7813 [36:06<03:34,  3.24it/s] 91%|█████████ | 7119/7813 [36:07<03:30,  3.30it/s] 91%|█████████ | 7120/7813 [36:07<03:30,  3.29it/s] 91%|█████████ | 7121/7813 [36:07<03:28,  3.32it/s] 91%|█████████ | 7122/7813 [36:07<03:25,  3.36it/s] 91%|█████████ | 7123/7813 [36:08<03:24,  3.37it/s] 91%|█████████ | 7124/7813 [36:08<03:24,  3.36it/s] 91%|█████████ | 7125/7813 [36:08<03:24,  3.37it/s] 91%|█████████ | 7126/7813 [36:09<03:23,  3.38it/s] 91%|█████████ | 7127/7813 [36:09<03:21,  3.40it/s] 91%|█████████ | 7128/7813 [36:09<03:21,  3.40it/s] 91%|█████████ | 7129/7813 [36:10<03:22,  3.39it/s] 91%|█████████▏| 7130/7813 [36:10<03:22,  3.37it/s] 91%|█████████▏| 7131/7813 [36:10<03:29,  3.25it/s] 91%|█████████▏| 7132/7813 [36:10<03:28,  3.27it/s] 91%|█████████▏| 7133/7813 [36:11<03:26,  3.29it/s] 91%|█████████▏| 7134/7813 [36:11<03:25,  3.30it/s] 91%|█████████▏| 7135/7813 [36:11<03:24,  3.31it/s] 91%|█████████▏| 7136/7813 [36:12<03:22,  3.34it/s] 91%|█████████▏| 7137/7813 [36:12<03:21,  3.35it/s] 91%|█████████▏| 7138/7813 [36:12<03:23,  3.32it/s] 91%|█████████▏| 7139/7813 [36:13<03:22,  3.32it/s] 91%|█████████▏| 7140/7813 [36:13<03:21,  3.33it/s] 91%|█████████▏| 7141/7813 [36:13<03:19,  3.36it/s] 91%|█████████▏| 7142/7813 [36:13<03:20,  3.35it/s] 91%|█████████▏| 7143/7813 [36:14<03:18,  3.37it/s] 91%|█████████▏| 7144/7813 [36:14<03:17,  3.39it/s] 91%|█████████▏| 7145/7813 [36:14<03:17,  3.39it/s] 91%|█████████▏| 7146/7813 [36:15<03:17,  3.37it/s] 91%|█████████▏| 7147/7813 [36:15<03:18,  3.36it/s] 91%|█████████▏| 7148/7813 [36:15<03:18,  3.35it/s] 92%|█████████▏| 7149/7813 [36:16<03:17,  3.36it/s] 92%|█████████▏| 7150/7813 [36:16<03:19,  3.33it/s]                                                   {'loss': 0.012, 'grad_norm': 0.24913807213306427, 'learning_rate': 8.498656086010495e-06, 'epoch': 0.92}
 92%|█████████▏| 7150/7813 [36:16<03:19,  3.33it/s] 92%|█████████▏| 7151/7813 [36:16<03:18,  3.34it/s] 92%|█████████▏| 7152/7813 [36:16<03:16,  3.37it/s] 92%|█████████▏| 7153/7813 [36:17<03:14,  3.39it/s] 92%|█████████▏| 7154/7813 [36:17<03:15,  3.37it/s] 92%|█████████▏| 7155/7813 [36:17<03:14,  3.38it/s] 92%|█████████▏| 7156/7813 [36:18<03:13,  3.39it/s] 92%|█████████▏| 7157/7813 [36:18<03:14,  3.37it/s] 92%|█████████▏| 7158/7813 [36:18<03:18,  3.30it/s] 92%|█████████▏| 7159/7813 [36:19<03:18,  3.30it/s] 92%|█████████▏| 7160/7813 [36:19<03:15,  3.34it/s] 92%|█████████▏| 7161/7813 [36:19<03:13,  3.36it/s] 92%|█████████▏| 7162/7813 [36:19<03:12,  3.38it/s] 92%|█████████▏| 7163/7813 [36:20<03:12,  3.38it/s] 92%|█████████▏| 7164/7813 [36:20<03:11,  3.39it/s] 92%|█████████▏| 7165/7813 [36:20<03:10,  3.40it/s] 92%|█████████▏| 7166/7813 [36:21<03:10,  3.40it/s] 92%|█████████▏| 7167/7813 [36:21<03:09,  3.41it/s] 92%|█████████▏| 7168/7813 [36:21<03:09,  3.41it/s] 92%|█████████▏| 7169/7813 [36:22<03:16,  3.28it/s] 92%|█████████▏| 7170/7813 [36:22<03:14,  3.31it/s] 92%|█████████▏| 7171/7813 [36:22<03:11,  3.35it/s] 92%|█████████▏| 7172/7813 [36:22<03:11,  3.35it/s] 92%|█████████▏| 7173/7813 [36:23<03:11,  3.34it/s] 92%|█████████▏| 7174/7813 [36:23<03:10,  3.36it/s] 92%|█████████▏| 7175/7813 [36:23<03:08,  3.38it/s] 92%|█████████▏| 7176/7813 [36:24<03:08,  3.38it/s] 92%|█████████▏| 7177/7813 [36:24<03:06,  3.41it/s] 92%|█████████▏| 7178/7813 [36:24<03:06,  3.41it/s] 92%|█████████▏| 7179/7813 [36:24<03:11,  3.30it/s] 92%|█████████▏| 7180/7813 [36:25<03:17,  3.21it/s] 92%|█████████▏| 7181/7813 [36:25<03:22,  3.12it/s] 92%|█████████▏| 7182/7813 [36:25<03:16,  3.20it/s] 92%|█████████▏| 7183/7813 [36:26<03:13,  3.25it/s] 92%|█████████▏| 7184/7813 [36:26<03:10,  3.30it/s] 92%|█████████▏| 7185/7813 [36:26<03:09,  3.32it/s] 92%|█████████▏| 7186/7813 [36:27<03:06,  3.36it/s] 92%|█████████▏| 7187/7813 [36:27<03:05,  3.38it/s] 92%|█████████▏| 7188/7813 [36:27<03:05,  3.37it/s] 92%|█████████▏| 7189/7813 [36:28<03:04,  3.39it/s] 92%|█████████▏| 7190/7813 [36:28<03:08,  3.31it/s] 92%|█████████▏| 7191/7813 [36:28<03:06,  3.34it/s] 92%|█████████▏| 7192/7813 [36:28<03:03,  3.38it/s] 92%|█████████▏| 7193/7813 [36:29<03:04,  3.37it/s] 92%|█████████▏| 7194/7813 [36:29<03:03,  3.38it/s] 92%|█████████▏| 7195/7813 [36:29<03:04,  3.36it/s] 92%|█████████▏| 7196/7813 [36:30<03:04,  3.35it/s] 92%|█████████▏| 7197/7813 [36:30<03:04,  3.34it/s] 92%|█████████▏| 7198/7813 [36:30<03:03,  3.36it/s] 92%|█████████▏| 7199/7813 [36:30<03:01,  3.38it/s] 92%|█████████▏| 7200/7813 [36:31<03:01,  3.38it/s]                                                   {'loss': 0.0116, 'grad_norm': 0.18631966412067413, 'learning_rate': 7.858697043389224e-06, 'epoch': 0.92}
 92%|█████████▏| 7200/7813 [36:31<03:01,  3.38it/s] 92%|█████████▏| 7201/7813 [36:31<03:01,  3.38it/s] 92%|█████████▏| 7202/7813 [36:31<03:02,  3.34it/s] 92%|█████████▏| 7203/7813 [36:32<03:03,  3.32it/s] 92%|█████████▏| 7204/7813 [36:32<03:05,  3.29it/s] 92%|█████████▏| 7205/7813 [36:32<03:03,  3.31it/s] 92%|█████████▏| 7206/7813 [36:33<03:39,  2.77it/s] 92%|█████████▏| 7207/7813 [36:33<03:34,  2.83it/s] 92%|█████████▏| 7208/7813 [36:33<03:26,  2.93it/s] 92%|█████████▏| 7209/7813 [36:34<03:18,  3.04it/s] 92%|█████████▏| 7210/7813 [36:34<03:12,  3.13it/s] 92%|█████████▏| 7211/7813 [36:34<03:07,  3.20it/s] 92%|█████████▏| 7212/7813 [36:35<03:05,  3.25it/s] 92%|█████████▏| 7213/7813 [36:35<03:02,  3.29it/s] 92%|█████████▏| 7214/7813 [36:35<03:03,  3.27it/s] 92%|█████████▏| 7215/7813 [36:36<03:00,  3.32it/s] 92%|█████████▏| 7216/7813 [36:36<03:07,  3.19it/s] 92%|█████████▏| 7217/7813 [36:36<03:04,  3.23it/s] 92%|█████████▏| 7218/7813 [36:36<03:00,  3.29it/s] 92%|█████████▏| 7219/7813 [36:37<02:59,  3.30it/s] 92%|█████████▏| 7220/7813 [36:37<02:58,  3.33it/s] 92%|█████████▏| 7221/7813 [36:37<02:58,  3.32it/s] 92%|█████████▏| 7222/7813 [36:38<03:04,  3.21it/s] 92%|█████████▏| 7223/7813 [36:38<03:09,  3.12it/s] 92%|█████████▏| 7224/7813 [36:38<03:05,  3.18it/s] 92%|█████████▏| 7225/7813 [36:39<03:01,  3.25it/s] 92%|█████████▏| 7226/7813 [36:39<02:58,  3.28it/s] 92%|█████████▏| 7227/7813 [36:39<03:01,  3.23it/s] 93%|█████████▎| 7228/7813 [36:40<03:00,  3.24it/s] 93%|█████████▎| 7229/7813 [36:40<02:58,  3.28it/s] 93%|█████████▎| 7230/7813 [36:40<02:57,  3.29it/s] 93%|█████████▎| 7231/7813 [36:40<02:55,  3.31it/s] 93%|█████████▎| 7232/7813 [36:41<03:02,  3.18it/s] 93%|█████████▎| 7233/7813 [36:41<02:58,  3.25it/s] 93%|█████████▎| 7234/7813 [36:41<02:56,  3.28it/s] 93%|█████████▎| 7235/7813 [36:42<02:54,  3.32it/s] 93%|█████████▎| 7236/7813 [36:42<02:52,  3.34it/s] 93%|█████████▎| 7237/7813 [36:42<02:52,  3.34it/s] 93%|█████████▎| 7238/7813 [36:43<02:52,  3.33it/s] 93%|█████████▎| 7239/7813 [36:43<02:51,  3.35it/s] 93%|█████████▎| 7240/7813 [36:43<02:51,  3.34it/s] 93%|█████████▎| 7241/7813 [36:44<02:54,  3.27it/s] 93%|█████████▎| 7242/7813 [36:44<02:53,  3.28it/s] 93%|█████████▎| 7243/7813 [36:44<02:53,  3.29it/s] 93%|█████████▎| 7244/7813 [36:44<02:52,  3.30it/s] 93%|█████████▎| 7245/7813 [36:45<02:50,  3.33it/s] 93%|█████████▎| 7246/7813 [36:45<02:48,  3.36it/s] 93%|█████████▎| 7247/7813 [36:45<02:47,  3.37it/s] 93%|█████████▎| 7248/7813 [36:46<02:48,  3.36it/s] 93%|█████████▎| 7249/7813 [36:46<02:47,  3.37it/s] 93%|█████████▎| 7250/7813 [36:46<02:52,  3.27it/s]                                                   {'loss': 0.011, 'grad_norm': 0.27285176515579224, 'learning_rate': 7.218738000767951e-06, 'epoch': 0.93}
 93%|█████████▎| 7250/7813 [36:46<02:52,  3.27it/s] 93%|█████████▎| 7251/7813 [36:47<02:51,  3.28it/s] 93%|█████████▎| 7252/7813 [36:47<02:50,  3.29it/s] 93%|█████████▎| 7253/7813 [36:47<02:54,  3.21it/s] 93%|█████████▎| 7254/7813 [36:47<02:51,  3.25it/s] 93%|█████████▎| 7255/7813 [36:48<02:54,  3.20it/s] 93%|█████████▎| 7256/7813 [36:48<02:51,  3.25it/s] 93%|█████████▎| 7257/7813 [36:48<02:56,  3.14it/s] 93%|█████████▎| 7258/7813 [36:49<02:52,  3.22it/s] 93%|█████████▎| 7259/7813 [36:49<02:50,  3.26it/s] 93%|█████████▎| 7260/7813 [36:49<02:47,  3.30it/s] 93%|█████████▎| 7261/7813 [36:50<02:46,  3.31it/s] 93%|█████████▎| 7262/7813 [36:50<02:45,  3.34it/s] 93%|█████████▎| 7263/7813 [36:50<02:47,  3.29it/s] 93%|█████████▎| 7264/7813 [36:50<02:44,  3.33it/s] 93%|█████████▎| 7265/7813 [36:51<02:43,  3.35it/s] 93%|█████████▎| 7266/7813 [36:51<02:51,  3.20it/s] 93%|█████████▎| 7267/7813 [36:51<02:48,  3.24it/s] 93%|█████████▎| 7268/7813 [36:52<02:49,  3.21it/s] 93%|█████████▎| 7269/7813 [36:52<02:47,  3.25it/s] 93%|█████████▎| 7270/7813 [36:52<02:48,  3.22it/s] 93%|█████████▎| 7271/7813 [36:53<02:44,  3.29it/s] 93%|█████████▎| 7272/7813 [36:53<02:42,  3.33it/s] 93%|█████████▎| 7273/7813 [36:53<02:42,  3.33it/s] 93%|█████████▎| 7274/7813 [36:54<02:47,  3.21it/s] 93%|█████████▎| 7275/7813 [36:54<02:48,  3.18it/s] 93%|█████████▎| 7276/7813 [36:54<02:46,  3.22it/s] 93%|█████████▎| 7277/7813 [36:55<02:44,  3.26it/s] 93%|█████████▎| 7278/7813 [36:55<02:42,  3.30it/s] 93%|█████████▎| 7279/7813 [36:55<02:41,  3.30it/s] 93%|█████████▎| 7280/7813 [36:55<02:41,  3.31it/s] 93%|█████████▎| 7281/7813 [36:56<02:40,  3.30it/s] 93%|█████████▎| 7282/7813 [36:56<02:41,  3.28it/s] 93%|█████████▎| 7283/7813 [36:56<02:40,  3.30it/s] 93%|█████████▎| 7284/7813 [36:57<02:38,  3.33it/s] 93%|█████████▎| 7285/7813 [36:57<02:37,  3.35it/s] 93%|█████████▎| 7286/7813 [36:57<02:37,  3.35it/s] 93%|█████████▎| 7287/7813 [36:58<02:37,  3.33it/s] 93%|█████████▎| 7288/7813 [36:58<02:40,  3.27it/s] 93%|█████████▎| 7289/7813 [36:58<02:38,  3.31it/s] 93%|█████████▎| 7290/7813 [36:58<02:37,  3.33it/s] 93%|█████████▎| 7291/7813 [36:59<02:35,  3.36it/s] 93%|█████████▎| 7292/7813 [36:59<02:35,  3.35it/s] 93%|█████████▎| 7293/7813 [36:59<02:34,  3.37it/s] 93%|█████████▎| 7294/7813 [37:00<02:33,  3.38it/s] 93%|█████████▎| 7295/7813 [37:00<02:34,  3.36it/s] 93%|█████████▎| 7296/7813 [37:00<02:34,  3.35it/s] 93%|█████████▎| 7297/7813 [37:01<02:35,  3.33it/s] 93%|█████████▎| 7298/7813 [37:01<02:36,  3.28it/s] 93%|█████████▎| 7299/7813 [37:01<02:36,  3.28it/s] 93%|█████████▎| 7300/7813 [37:01<02:36,  3.29it/s]                                                   {'loss': 0.0109, 'grad_norm': 0.5450959205627441, 'learning_rate': 6.5787789581466796e-06, 'epoch': 0.93}
 93%|█████████▎| 7300/7813 [37:01<02:36,  3.29it/s] 93%|█████████▎| 7301/7813 [37:02<02:34,  3.31it/s] 93%|█████████▎| 7302/7813 [37:02<02:35,  3.28it/s] 93%|█████████▎| 7303/7813 [37:02<02:36,  3.26it/s] 93%|█████████▎| 7304/7813 [37:03<02:34,  3.30it/s] 93%|█████████▎| 7305/7813 [37:03<02:35,  3.26it/s] 94%|█████████▎| 7306/7813 [37:03<02:33,  3.30it/s] 94%|█████████▎| 7307/7813 [37:04<02:32,  3.32it/s] 94%|█████████▎| 7308/7813 [37:04<02:31,  3.33it/s] 94%|█████████▎| 7309/7813 [37:04<02:30,  3.34it/s] 94%|█████████▎| 7310/7813 [37:04<02:30,  3.33it/s] 94%|█████████▎| 7311/7813 [37:05<02:32,  3.29it/s] 94%|█████████▎| 7312/7813 [37:05<02:31,  3.31it/s] 94%|█████████▎| 7313/7813 [37:05<02:30,  3.31it/s] 94%|█████████▎| 7314/7813 [37:06<02:29,  3.33it/s] 94%|█████████▎| 7315/7813 [37:06<02:28,  3.35it/s] 94%|█████████▎| 7316/7813 [37:06<02:35,  3.19it/s] 94%|█████████▎| 7317/7813 [37:07<02:33,  3.24it/s] 94%|█████████▎| 7318/7813 [37:07<02:31,  3.26it/s] 94%|█████████▎| 7319/7813 [37:07<02:32,  3.23it/s] 94%|█████████▎| 7320/7813 [37:07<02:30,  3.28it/s] 94%|█████████▎| 7321/7813 [37:08<02:31,  3.25it/s] 94%|█████████▎| 7322/7813 [37:08<02:35,  3.17it/s] 94%|█████████▎| 7323/7813 [37:08<02:32,  3.22it/s] 94%|█████████▎| 7324/7813 [37:09<02:29,  3.28it/s] 94%|█████████▍| 7325/7813 [37:09<02:26,  3.32it/s] 94%|█████████▍| 7326/7813 [37:09<02:26,  3.33it/s] 94%|█████████▍| 7327/7813 [37:10<02:28,  3.28it/s] 94%|█████████▍| 7328/7813 [37:10<02:27,  3.28it/s] 94%|█████████▍| 7329/7813 [37:10<02:29,  3.24it/s] 94%|█████████▍| 7330/7813 [37:11<02:28,  3.26it/s] 94%|█████████▍| 7331/7813 [37:11<02:27,  3.26it/s] 94%|█████████▍| 7332/7813 [37:11<02:26,  3.28it/s] 94%|█████████▍| 7333/7813 [37:11<02:24,  3.32it/s] 94%|█████████▍| 7334/7813 [37:12<02:23,  3.34it/s] 94%|█████████▍| 7335/7813 [37:12<02:22,  3.35it/s] 94%|█████████▍| 7336/7813 [37:12<02:22,  3.34it/s] 94%|█████████▍| 7337/7813 [37:13<02:21,  3.36it/s] 94%|█████████▍| 7338/7813 [37:13<02:28,  3.20it/s] 94%|█████████▍| 7339/7813 [37:13<02:26,  3.23it/s] 94%|█████████▍| 7340/7813 [37:14<02:24,  3.27it/s] 94%|█████████▍| 7341/7813 [37:14<02:22,  3.32it/s] 94%|█████████▍| 7342/7813 [37:14<02:20,  3.35it/s] 94%|█████████▍| 7343/7813 [37:14<02:19,  3.37it/s] 94%|█████████▍| 7344/7813 [37:15<02:19,  3.37it/s] 94%|█████████▍| 7345/7813 [37:15<02:18,  3.38it/s] 94%|█████████▍| 7346/7813 [37:15<02:18,  3.38it/s] 94%|█████████▍| 7347/7813 [37:16<02:22,  3.27it/s] 94%|█████████▍| 7348/7813 [37:16<02:20,  3.31it/s] 94%|█████████▍| 7349/7813 [37:16<02:19,  3.33it/s] 94%|█████████▍| 7350/7813 [37:17<02:19,  3.32it/s]                                                   {'loss': 0.0111, 'grad_norm': 0.37152037024497986, 'learning_rate': 5.938819915525406e-06, 'epoch': 0.94}
 94%|█████████▍| 7350/7813 [37:17<02:19,  3.32it/s] 94%|█████████▍| 7351/7813 [37:17<02:21,  3.27it/s] 94%|█████████▍| 7352/7813 [37:17<02:19,  3.31it/s] 94%|█████████▍| 7353/7813 [37:17<02:18,  3.32it/s] 94%|█████████▍| 7354/7813 [37:18<02:16,  3.36it/s] 94%|█████████▍| 7355/7813 [37:18<02:15,  3.37it/s] 94%|█████████▍| 7356/7813 [37:18<02:16,  3.35it/s] 94%|█████████▍| 7357/7813 [37:19<02:16,  3.35it/s] 94%|█████████▍| 7358/7813 [37:19<02:16,  3.33it/s] 94%|█████████▍| 7359/7813 [37:19<02:16,  3.33it/s] 94%|█████████▍| 7360/7813 [37:20<02:15,  3.35it/s] 94%|█████████▍| 7361/7813 [37:20<02:20,  3.21it/s] 94%|█████████▍| 7362/7813 [37:20<02:23,  3.15it/s] 94%|█████████▍| 7363/7813 [37:21<02:19,  3.22it/s] 94%|█████████▍| 7364/7813 [37:21<02:17,  3.27it/s] 94%|█████████▍| 7365/7813 [37:21<02:15,  3.31it/s] 94%|█████████▍| 7366/7813 [37:21<02:14,  3.32it/s] 94%|█████████▍| 7367/7813 [37:22<02:19,  3.20it/s] 94%|█████████▍| 7368/7813 [37:22<02:17,  3.23it/s] 94%|█████████▍| 7369/7813 [37:22<02:15,  3.28it/s] 94%|█████████▍| 7370/7813 [37:23<02:13,  3.31it/s] 94%|█████████▍| 7371/7813 [37:23<02:13,  3.32it/s] 94%|█████████▍| 7372/7813 [37:23<02:12,  3.34it/s] 94%|█████████▍| 7373/7813 [37:24<02:11,  3.35it/s] 94%|█████████▍| 7374/7813 [37:24<02:10,  3.36it/s] 94%|█████████▍| 7375/7813 [37:24<02:10,  3.36it/s] 94%|█████████▍| 7376/7813 [37:24<02:09,  3.36it/s] 94%|█████████▍| 7377/7813 [37:25<02:09,  3.37it/s] 94%|█████████▍| 7378/7813 [37:25<02:08,  3.38it/s] 94%|█████████▍| 7379/7813 [37:25<02:08,  3.37it/s] 94%|█████████▍| 7380/7813 [37:26<02:08,  3.37it/s] 94%|█████████▍| 7381/7813 [37:26<02:08,  3.37it/s] 94%|█████████▍| 7382/7813 [37:26<02:07,  3.39it/s] 94%|█████████▍| 7383/7813 [37:27<02:07,  3.38it/s] 95%|█████████▍| 7384/7813 [37:27<02:06,  3.40it/s] 95%|█████████▍| 7385/7813 [37:27<02:05,  3.42it/s] 95%|█████████▍| 7386/7813 [37:27<02:05,  3.41it/s] 95%|█████████▍| 7387/7813 [37:28<02:04,  3.41it/s] 95%|█████████▍| 7388/7813 [37:28<02:04,  3.42it/s] 95%|█████████▍| 7389/7813 [37:28<02:04,  3.42it/s] 95%|█████████▍| 7390/7813 [37:29<02:04,  3.41it/s] 95%|█████████▍| 7391/7813 [37:29<02:04,  3.38it/s] 95%|█████████▍| 7392/7813 [37:29<02:06,  3.32it/s] 95%|█████████▍| 7393/7813 [37:30<02:11,  3.18it/s] 95%|█████████▍| 7394/7813 [37:30<02:09,  3.24it/s] 95%|█████████▍| 7395/7813 [37:30<02:08,  3.26it/s] 95%|█████████▍| 7396/7813 [37:30<02:07,  3.27it/s] 95%|█████████▍| 7397/7813 [37:31<02:05,  3.31it/s] 95%|█████████▍| 7398/7813 [37:31<02:07,  3.26it/s] 95%|█████████▍| 7399/7813 [37:31<02:05,  3.29it/s] 95%|█████████▍| 7400/7813 [37:32<02:05,  3.30it/s]                                                   {'loss': 0.0111, 'grad_norm': 0.23556149005889893, 'learning_rate': 5.2988608729041346e-06, 'epoch': 0.95}
 95%|█████████▍| 7400/7813 [37:32<02:05,  3.30it/s] 95%|█████████▍| 7401/7813 [37:32<02:03,  3.34it/s] 95%|█████████▍| 7402/7813 [37:32<02:08,  3.20it/s] 95%|█████████▍| 7403/7813 [37:33<02:06,  3.24it/s] 95%|█████████▍| 7404/7813 [37:33<02:05,  3.27it/s] 95%|█████████▍| 7405/7813 [37:33<02:03,  3.31it/s] 95%|█████████▍| 7406/7813 [37:33<02:02,  3.34it/s] 95%|█████████▍| 7407/7813 [37:34<02:00,  3.36it/s] 95%|█████████▍| 7408/7813 [37:34<02:00,  3.37it/s] 95%|█████████▍| 7409/7813 [37:34<01:59,  3.39it/s] 95%|█████████▍| 7410/7813 [37:35<01:59,  3.39it/s] 95%|█████████▍| 7411/7813 [37:35<01:57,  3.41it/s] 95%|█████████▍| 7412/7813 [37:35<01:58,  3.38it/s] 95%|█████████▍| 7413/7813 [37:36<01:58,  3.38it/s] 95%|█████████▍| 7414/7813 [37:36<02:03,  3.23it/s] 95%|█████████▍| 7415/7813 [37:36<02:02,  3.24it/s] 95%|█████████▍| 7416/7813 [37:36<02:01,  3.27it/s] 95%|█████████▍| 7417/7813 [37:37<01:59,  3.32it/s] 95%|█████████▍| 7418/7813 [37:37<01:59,  3.30it/s] 95%|█████████▍| 7419/7813 [37:37<01:58,  3.32it/s] 95%|█████████▍| 7420/7813 [37:38<01:58,  3.32it/s] 95%|█████████▍| 7421/7813 [37:38<01:57,  3.34it/s] 95%|█████████▍| 7422/7813 [37:38<01:57,  3.33it/s] 95%|█████████▌| 7423/7813 [37:39<01:56,  3.34it/s] 95%|█████████▌| 7424/7813 [37:39<01:55,  3.35it/s] 95%|█████████▌| 7425/7813 [37:39<01:55,  3.36it/s] 95%|█████████▌| 7426/7813 [37:39<01:55,  3.36it/s] 95%|█████████▌| 7427/7813 [37:40<01:55,  3.35it/s] 95%|█████████▌| 7428/7813 [37:40<01:54,  3.36it/s] 95%|█████████▌| 7429/7813 [37:40<01:54,  3.35it/s] 95%|█████████▌| 7430/7813 [37:41<01:54,  3.35it/s] 95%|█████████▌| 7431/7813 [37:41<01:54,  3.34it/s] 95%|█████████▌| 7432/7813 [37:41<01:53,  3.36it/s] 95%|█████████▌| 7433/7813 [37:42<01:53,  3.34it/s] 95%|█████████▌| 7434/7813 [37:42<01:53,  3.35it/s] 95%|█████████▌| 7435/7813 [37:42<01:53,  3.34it/s] 95%|█████████▌| 7436/7813 [37:42<01:52,  3.36it/s] 95%|█████████▌| 7437/7813 [37:43<01:50,  3.39it/s] 95%|█████████▌| 7438/7813 [37:43<01:52,  3.33it/s] 95%|█████████▌| 7439/7813 [37:43<01:51,  3.37it/s] 95%|█████████▌| 7440/7813 [37:44<01:50,  3.38it/s] 95%|█████████▌| 7441/7813 [37:44<01:50,  3.38it/s] 95%|█████████▌| 7442/7813 [37:44<01:49,  3.37it/s] 95%|█████████▌| 7443/7813 [37:44<01:49,  3.37it/s] 95%|█████████▌| 7444/7813 [37:45<01:48,  3.40it/s] 95%|█████████▌| 7445/7813 [37:45<01:48,  3.40it/s] 95%|█████████▌| 7446/7813 [37:45<01:49,  3.35it/s] 95%|█████████▌| 7447/7813 [37:46<01:49,  3.33it/s] 95%|█████████▌| 7448/7813 [37:46<01:48,  3.35it/s] 95%|█████████▌| 7449/7813 [37:46<01:49,  3.33it/s] 95%|█████████▌| 7450/7813 [37:47<01:50,  3.29it/s]                                                   {'loss': 0.0113, 'grad_norm': 0.1283673644065857, 'learning_rate': 4.658901830282862e-06, 'epoch': 0.95}
 95%|█████████▌| 7450/7813 [37:47<01:50,  3.29it/s] 95%|█████████▌| 7451/7813 [37:47<01:49,  3.31it/s] 95%|█████████▌| 7452/7813 [37:47<01:48,  3.34it/s] 95%|█████████▌| 7453/7813 [37:47<01:46,  3.37it/s] 95%|█████████▌| 7454/7813 [37:48<01:46,  3.36it/s] 95%|█████████▌| 7455/7813 [37:48<01:46,  3.37it/s] 95%|█████████▌| 7456/7813 [37:48<01:49,  3.25it/s] 95%|█████████▌| 7457/7813 [37:49<01:51,  3.18it/s] 95%|█████████▌| 7458/7813 [37:49<01:49,  3.24it/s] 95%|█████████▌| 7459/7813 [37:49<01:49,  3.22it/s] 95%|█████████▌| 7460/7813 [37:50<01:48,  3.24it/s] 95%|█████████▌| 7461/7813 [37:50<01:47,  3.29it/s] 96%|█████████▌| 7462/7813 [37:50<01:45,  3.32it/s] 96%|█████████▌| 7463/7813 [37:51<01:44,  3.34it/s] 96%|█████████▌| 7464/7813 [37:51<01:44,  3.33it/s] 96%|█████████▌| 7465/7813 [37:51<01:44,  3.34it/s] 96%|█████████▌| 7466/7813 [37:51<01:43,  3.35it/s] 96%|█████████▌| 7467/7813 [37:52<01:42,  3.37it/s] 96%|█████████▌| 7468/7813 [37:52<01:43,  3.34it/s] 96%|█████████▌| 7469/7813 [37:52<01:42,  3.35it/s] 96%|█████████▌| 7470/7813 [37:53<01:42,  3.36it/s] 96%|█████████▌| 7471/7813 [37:53<01:42,  3.34it/s] 96%|█████████▌| 7472/7813 [37:53<01:41,  3.35it/s] 96%|█████████▌| 7473/7813 [37:54<01:42,  3.33it/s] 96%|█████████▌| 7474/7813 [37:54<01:41,  3.33it/s] 96%|█████████▌| 7475/7813 [37:54<01:42,  3.28it/s] 96%|█████████▌| 7476/7813 [37:54<01:41,  3.32it/s] 96%|█████████▌| 7477/7813 [37:55<01:41,  3.31it/s] 96%|█████████▌| 7478/7813 [37:55<01:40,  3.33it/s] 96%|█████████▌| 7479/7813 [37:55<01:39,  3.35it/s] 96%|█████████▌| 7480/7813 [37:56<01:39,  3.36it/s] 96%|█████████▌| 7481/7813 [37:56<01:38,  3.37it/s] 96%|█████████▌| 7482/7813 [37:56<01:37,  3.39it/s] 96%|█████████▌| 7483/7813 [37:57<01:38,  3.37it/s] 96%|█████████▌| 7484/7813 [37:57<01:37,  3.37it/s] 96%|█████████▌| 7485/7813 [37:57<01:37,  3.37it/s] 96%|█████████▌| 7486/7813 [37:57<01:36,  3.38it/s] 96%|█████████▌| 7487/7813 [37:58<01:36,  3.36it/s] 96%|█████████▌| 7488/7813 [37:58<01:40,  3.23it/s] 96%|█████████▌| 7489/7813 [37:58<01:39,  3.27it/s] 96%|█████████▌| 7490/7813 [37:59<01:38,  3.27it/s] 96%|█████████▌| 7491/7813 [37:59<01:37,  3.30it/s] 96%|█████████▌| 7492/7813 [37:59<01:36,  3.34it/s] 96%|█████████▌| 7493/7813 [38:00<01:36,  3.31it/s] 96%|█████████▌| 7494/7813 [38:00<01:36,  3.29it/s] 96%|█████████▌| 7495/7813 [38:00<01:36,  3.30it/s] 96%|█████████▌| 7496/7813 [38:00<01:35,  3.33it/s] 96%|█████████▌| 7497/7813 [38:01<01:35,  3.32it/s] 96%|█████████▌| 7498/7813 [38:01<01:34,  3.35it/s] 96%|█████████▌| 7499/7813 [38:01<01:34,  3.34it/s] 96%|█████████▌| 7500/7813 [38:02<01:35,  3.29it/s]                                                   {'loss': 0.0099, 'grad_norm': 0.22071398794651031, 'learning_rate': 4.0189427876615895e-06, 'epoch': 0.96}
 96%|█████████▌| 7500/7813 [38:02<01:35,  3.29it/s] 96%|█████████▌| 7501/7813 [38:02<01:34,  3.29it/s] 96%|█████████▌| 7502/7813 [38:02<01:33,  3.31it/s] 96%|█████████▌| 7503/7813 [38:03<01:33,  3.32it/s] 96%|█████████▌| 7504/7813 [38:03<01:32,  3.34it/s] 96%|█████████▌| 7505/7813 [38:03<01:35,  3.23it/s] 96%|█████████▌| 7506/7813 [38:03<01:33,  3.27it/s] 96%|█████████▌| 7507/7813 [38:04<01:33,  3.28it/s] 96%|█████████▌| 7508/7813 [38:04<01:32,  3.30it/s] 96%|█████████▌| 7509/7813 [38:04<01:31,  3.33it/s] 96%|█████████▌| 7510/7813 [38:05<01:30,  3.35it/s] 96%|█████████▌| 7511/7813 [38:05<01:34,  3.20it/s] 96%|█████████▌| 7512/7813 [38:05<01:32,  3.27it/s] 96%|█████████▌| 7513/7813 [38:06<01:31,  3.28it/s] 96%|█████████▌| 7514/7813 [38:06<01:30,  3.31it/s] 96%|█████████▌| 7515/7813 [38:06<01:29,  3.31it/s] 96%|█████████▌| 7516/7813 [38:07<01:30,  3.30it/s] 96%|█████████▌| 7517/7813 [38:07<01:29,  3.32it/s] 96%|█████████▌| 7518/7813 [38:07<01:28,  3.33it/s] 96%|█████████▌| 7519/7813 [38:07<01:28,  3.31it/s] 96%|█████████▌| 7520/7813 [38:08<01:31,  3.19it/s] 96%|█████████▋| 7521/7813 [38:08<01:31,  3.20it/s] 96%|█████████▋| 7522/7813 [38:08<01:31,  3.19it/s] 96%|█████████▋| 7523/7813 [38:09<01:29,  3.24it/s] 96%|█████████▋| 7524/7813 [38:09<01:30,  3.20it/s] 96%|█████████▋| 7525/7813 [38:09<01:28,  3.26it/s] 96%|█████████▋| 7526/7813 [38:10<01:27,  3.26it/s] 96%|█████████▋| 7527/7813 [38:10<01:27,  3.28it/s] 96%|█████████▋| 7528/7813 [38:10<01:26,  3.30it/s] 96%|█████████▋| 7529/7813 [38:10<01:25,  3.31it/s] 96%|█████████▋| 7530/7813 [38:11<01:25,  3.29it/s] 96%|█████████▋| 7531/7813 [38:11<01:24,  3.32it/s] 96%|█████████▋| 7532/7813 [38:11<01:27,  3.20it/s] 96%|█████████▋| 7533/7813 [38:12<01:26,  3.23it/s] 96%|█████████▋| 7534/7813 [38:12<01:29,  3.13it/s] 96%|█████████▋| 7535/7813 [38:12<01:26,  3.21it/s] 96%|█████████▋| 7536/7813 [38:13<01:28,  3.14it/s] 96%|█████████▋| 7537/7813 [38:13<01:26,  3.21it/s] 96%|█████████▋| 7538/7813 [38:13<01:24,  3.24it/s] 96%|█████████▋| 7539/7813 [38:14<01:25,  3.19it/s] 97%|█████████▋| 7540/7813 [38:14<01:24,  3.24it/s] 97%|█████████▋| 7541/7813 [38:14<01:22,  3.29it/s] 97%|█████████▋| 7542/7813 [38:15<01:25,  3.17it/s] 97%|█████████▋| 7543/7813 [38:15<01:23,  3.22it/s] 97%|█████████▋| 7544/7813 [38:15<01:22,  3.26it/s] 97%|█████████▋| 7545/7813 [38:15<01:21,  3.30it/s] 97%|█████████▋| 7546/7813 [38:16<01:20,  3.32it/s] 97%|█████████▋| 7547/7813 [38:16<01:20,  3.32it/s] 97%|█████████▋| 7548/7813 [38:16<01:19,  3.34it/s] 97%|█████████▋| 7549/7813 [38:17<01:19,  3.33it/s] 97%|█████████▋| 7550/7813 [38:17<01:21,  3.22it/s]                                                   {'loss': 0.0113, 'grad_norm': 0.29694104194641113, 'learning_rate': 3.378983745040318e-06, 'epoch': 0.97}
 97%|█████████▋| 7550/7813 [38:17<01:21,  3.22it/s] 97%|█████████▋| 7551/7813 [38:17<01:20,  3.24it/s] 97%|█████████▋| 7552/7813 [38:18<01:19,  3.28it/s] 97%|█████████▋| 7553/7813 [38:18<01:18,  3.30it/s] 97%|█████████▋| 7554/7813 [38:18<01:17,  3.32it/s] 97%|█████████▋| 7555/7813 [38:18<01:17,  3.32it/s] 97%|█████████▋| 7556/7813 [38:19<01:17,  3.33it/s] 97%|█████████▋| 7557/7813 [38:19<01:19,  3.23it/s] 97%|█████████▋| 7558/7813 [38:19<01:18,  3.26it/s] 97%|█████████▋| 7559/7813 [38:20<01:16,  3.30it/s] 97%|█████████▋| 7560/7813 [38:20<01:15,  3.33it/s] 97%|█████████▋| 7561/7813 [38:20<01:15,  3.35it/s] 97%|█████████▋| 7562/7813 [38:21<01:15,  3.34it/s] 97%|█████████▋| 7563/7813 [38:21<01:14,  3.35it/s] 97%|█████████▋| 7564/7813 [38:21<01:16,  3.27it/s] 97%|█████████▋| 7565/7813 [38:22<01:15,  3.29it/s] 97%|█████████▋| 7566/7813 [38:22<01:15,  3.28it/s] 97%|█████████▋| 7567/7813 [38:22<01:14,  3.31it/s] 97%|█████████▋| 7568/7813 [38:22<01:13,  3.32it/s] 97%|█████████▋| 7569/7813 [38:23<01:13,  3.33it/s] 97%|█████████▋| 7570/7813 [38:23<01:15,  3.22it/s] 97%|█████████▋| 7571/7813 [38:23<01:13,  3.28it/s] 97%|█████████▋| 7572/7813 [38:24<01:12,  3.33it/s] 97%|█████████▋| 7573/7813 [38:24<01:13,  3.28it/s] 97%|█████████▋| 7574/7813 [38:24<01:11,  3.33it/s] 97%|█████████▋| 7575/7813 [38:25<01:11,  3.35it/s] 97%|█████████▋| 7576/7813 [38:25<01:11,  3.33it/s] 97%|█████████▋| 7577/7813 [38:25<01:10,  3.35it/s] 97%|█████████▋| 7578/7813 [38:25<01:10,  3.36it/s] 97%|█████████▋| 7579/7813 [38:26<01:09,  3.35it/s] 97%|█████████▋| 7580/7813 [38:26<01:11,  3.24it/s] 97%|█████████▋| 7581/7813 [38:26<01:10,  3.27it/s] 97%|█████████▋| 7582/7813 [38:27<01:09,  3.31it/s] 97%|█████████▋| 7583/7813 [38:27<01:11,  3.21it/s] 97%|█████████▋| 7584/7813 [38:27<01:10,  3.25it/s] 97%|█████████▋| 7585/7813 [38:28<01:09,  3.26it/s] 97%|█████████▋| 7586/7813 [38:28<01:09,  3.24it/s] 97%|█████████▋| 7587/7813 [38:28<01:08,  3.29it/s] 97%|█████████▋| 7588/7813 [38:28<01:07,  3.31it/s] 97%|█████████▋| 7589/7813 [38:29<01:07,  3.33it/s] 97%|█████████▋| 7590/7813 [38:29<01:06,  3.33it/s] 97%|█████████▋| 7591/7813 [38:29<01:06,  3.35it/s] 97%|█████████▋| 7592/7813 [38:30<01:06,  3.32it/s] 97%|█████████▋| 7593/7813 [38:30<01:06,  3.31it/s] 97%|█████████▋| 7594/7813 [38:30<01:06,  3.31it/s] 97%|█████████▋| 7595/7813 [38:31<01:05,  3.32it/s] 97%|█████████▋| 7596/7813 [38:31<01:05,  3.34it/s] 97%|█████████▋| 7597/7813 [38:31<01:04,  3.34it/s] 97%|█████████▋| 7598/7813 [38:31<01:04,  3.35it/s] 97%|█████████▋| 7599/7813 [38:32<01:03,  3.36it/s] 97%|█████████▋| 7600/7813 [38:32<01:04,  3.29it/s]                                                   {'loss': 0.0107, 'grad_norm': 0.24409078061580658, 'learning_rate': 2.7390247024190454e-06, 'epoch': 0.97}
 97%|█████████▋| 7600/7813 [38:32<01:04,  3.29it/s] 97%|█████████▋| 7601/7813 [38:32<01:05,  3.25it/s] 97%|█████████▋| 7602/7813 [38:33<01:07,  3.14it/s] 97%|█████████▋| 7603/7813 [38:33<01:05,  3.20it/s] 97%|█████████▋| 7604/7813 [38:33<01:04,  3.24it/s] 97%|█████████▋| 7605/7813 [38:34<01:03,  3.27it/s] 97%|█████████▋| 7606/7813 [38:34<01:04,  3.23it/s] 97%|█████████▋| 7607/7813 [38:34<01:03,  3.26it/s] 97%|█████████▋| 7608/7813 [38:35<01:02,  3.28it/s] 97%|█████████▋| 7609/7813 [38:35<01:02,  3.29it/s] 97%|█████████▋| 7610/7813 [38:35<01:01,  3.30it/s] 97%|█████████▋| 7611/7813 [38:35<01:01,  3.28it/s] 97%|█████████▋| 7612/7813 [38:36<01:01,  3.29it/s] 97%|█████████▋| 7613/7813 [38:36<01:00,  3.33it/s] 97%|█████████▋| 7614/7813 [38:36<00:59,  3.34it/s] 97%|█████████▋| 7615/7813 [38:37<01:00,  3.25it/s] 97%|█████████▋| 7616/7813 [38:37<00:59,  3.29it/s] 97%|█████████▋| 7617/7813 [38:37<00:59,  3.29it/s] 98%|█████████▊| 7618/7813 [38:38<00:58,  3.32it/s] 98%|█████████▊| 7619/7813 [38:38<00:58,  3.32it/s] 98%|█████████▊| 7620/7813 [38:38<00:58,  3.32it/s] 98%|█████████▊| 7621/7813 [38:39<00:59,  3.22it/s] 98%|█████████▊| 7622/7813 [38:39<00:58,  3.26it/s] 98%|█████████▊| 7623/7813 [38:39<00:58,  3.26it/s] 98%|█████████▊| 7624/7813 [38:39<00:57,  3.30it/s] 98%|█████████▊| 7625/7813 [38:40<00:56,  3.32it/s] 98%|█████████▊| 7626/7813 [38:40<00:55,  3.34it/s] 98%|█████████▊| 7627/7813 [38:40<00:55,  3.36it/s] 98%|█████████▊| 7628/7813 [38:41<00:57,  3.24it/s] 98%|█████████▊| 7629/7813 [38:41<00:56,  3.27it/s] 98%|█████████▊| 7630/7813 [38:41<00:55,  3.31it/s] 98%|█████████▊| 7631/7813 [38:42<00:54,  3.31it/s] 98%|█████████▊| 7632/7813 [38:42<00:56,  3.20it/s] 98%|█████████▊| 7633/7813 [38:42<00:55,  3.23it/s] 98%|█████████▊| 7634/7813 [38:42<00:54,  3.28it/s] 98%|█████████▊| 7635/7813 [38:43<00:54,  3.25it/s] 98%|█████████▊| 7636/7813 [38:43<00:53,  3.29it/s] 98%|█████████▊| 7637/7813 [38:43<00:55,  3.17it/s] 98%|█████████▊| 7638/7813 [38:44<00:54,  3.19it/s] 98%|█████████▊| 7639/7813 [38:44<00:53,  3.23it/s] 98%|█████████▊| 7640/7813 [38:44<00:53,  3.25it/s] 98%|█████████▊| 7641/7813 [38:45<00:52,  3.30it/s] 98%|█████████▊| 7642/7813 [38:45<00:51,  3.33it/s] 98%|█████████▊| 7643/7813 [38:45<00:52,  3.24it/s] 98%|█████████▊| 7644/7813 [38:46<00:52,  3.23it/s] 98%|█████████▊| 7645/7813 [38:46<00:52,  3.22it/s] 98%|█████████▊| 7646/7813 [38:46<00:51,  3.25it/s] 98%|█████████▊| 7647/7813 [38:46<00:50,  3.28it/s] 98%|█████████▊| 7648/7813 [38:47<00:50,  3.28it/s] 98%|█████████▊| 7649/7813 [38:47<00:52,  3.11it/s] 98%|█████████▊| 7650/7813 [38:47<00:51,  3.16it/s]                                                   {'loss': 0.011, 'grad_norm': 0.27137380838394165, 'learning_rate': 2.099065659797773e-06, 'epoch': 0.98}
 98%|█████████▊| 7650/7813 [38:47<00:51,  3.16it/s] 98%|█████████▊| 7651/7813 [38:48<00:50,  3.23it/s] 98%|█████████▊| 7652/7813 [38:48<00:49,  3.27it/s] 98%|█████████▊| 7653/7813 [38:48<00:48,  3.30it/s] 98%|█████████▊| 7654/7813 [38:49<00:47,  3.32it/s] 98%|█████████▊| 7655/7813 [38:49<00:47,  3.32it/s] 98%|█████████▊| 7656/7813 [38:49<00:46,  3.35it/s] 98%|█████████▊| 7657/7813 [38:50<00:46,  3.37it/s] 98%|█████████▊| 7658/7813 [38:50<00:45,  3.37it/s] 98%|█████████▊| 7659/7813 [38:50<00:47,  3.23it/s] 98%|█████████▊| 7660/7813 [38:50<00:46,  3.29it/s] 98%|█████████▊| 7661/7813 [38:51<00:46,  3.30it/s] 98%|█████████▊| 7662/7813 [38:51<00:45,  3.33it/s] 98%|█████████▊| 7663/7813 [38:51<00:44,  3.36it/s] 98%|█████████▊| 7664/7813 [38:52<00:44,  3.35it/s] 98%|█████████▊| 7665/7813 [38:52<00:45,  3.22it/s] 98%|█████████▊| 7666/7813 [38:52<00:45,  3.26it/s] 98%|█████████▊| 7667/7813 [38:53<00:44,  3.28it/s] 98%|█████████▊| 7668/7813 [38:53<00:44,  3.29it/s] 98%|█████████▊| 7669/7813 [38:53<00:43,  3.31it/s] 98%|█████████▊| 7670/7813 [38:53<00:43,  3.32it/s] 98%|█████████▊| 7671/7813 [38:54<00:42,  3.35it/s] 98%|█████████▊| 7672/7813 [38:54<00:43,  3.26it/s] 98%|█████████▊| 7673/7813 [38:54<00:43,  3.25it/s] 98%|█████████▊| 7674/7813 [38:55<00:42,  3.29it/s] 98%|█████████▊| 7675/7813 [38:55<00:41,  3.30it/s] 98%|█████████▊| 7676/7813 [38:55<00:41,  3.31it/s] 98%|█████████▊| 7677/7813 [38:56<00:40,  3.33it/s] 98%|█████████▊| 7678/7813 [38:56<00:40,  3.35it/s] 98%|█████████▊| 7679/7813 [38:56<00:39,  3.36it/s] 98%|█████████▊| 7680/7813 [38:56<00:39,  3.36it/s] 98%|█████████▊| 7681/7813 [38:57<00:40,  3.23it/s] 98%|█████████▊| 7682/7813 [38:57<00:40,  3.26it/s] 98%|█████████▊| 7683/7813 [38:57<00:39,  3.28it/s] 98%|█████████▊| 7684/7813 [38:58<00:39,  3.25it/s] 98%|█████████▊| 7685/7813 [38:58<00:40,  3.19it/s] 98%|█████████▊| 7686/7813 [38:58<00:39,  3.26it/s] 98%|█████████▊| 7687/7813 [38:59<00:38,  3.29it/s] 98%|█████████▊| 7688/7813 [38:59<00:37,  3.31it/s] 98%|█████████▊| 7689/7813 [38:59<00:37,  3.32it/s] 98%|█████████▊| 7690/7813 [39:00<00:36,  3.34it/s] 98%|█████████▊| 7691/7813 [39:00<00:36,  3.33it/s] 98%|█████████▊| 7692/7813 [39:00<00:36,  3.32it/s] 98%|█████████▊| 7693/7813 [39:00<00:35,  3.35it/s] 98%|█████████▊| 7694/7813 [39:01<00:35,  3.33it/s] 98%|█████████▊| 7695/7813 [39:01<00:35,  3.32it/s] 99%|█████████▊| 7696/7813 [39:01<00:35,  3.32it/s] 99%|█████████▊| 7697/7813 [39:02<00:35,  3.30it/s] 99%|█████████▊| 7698/7813 [39:02<00:34,  3.32it/s] 99%|█████████▊| 7699/7813 [39:02<00:34,  3.28it/s] 99%|█████████▊| 7700/7813 [39:03<00:35,  3.20it/s]                                                   {'loss': 0.0108, 'grad_norm': 0.27698829770088196, 'learning_rate': 1.4591066171765008e-06, 'epoch': 0.99}
 99%|█████████▊| 7700/7813 [39:03<00:35,  3.20it/s] 99%|█████████▊| 7701/7813 [39:03<00:34,  3.21it/s] 99%|█████████▊| 7702/7813 [39:03<00:34,  3.25it/s] 99%|█████████▊| 7703/7813 [39:03<00:33,  3.30it/s] 99%|█████████▊| 7704/7813 [39:04<00:32,  3.32it/s] 99%|█████████▊| 7705/7813 [39:04<00:32,  3.34it/s] 99%|█████████▊| 7706/7813 [39:04<00:31,  3.35it/s] 99%|█████████▊| 7707/7813 [39:05<00:31,  3.34it/s] 99%|█████████▊| 7708/7813 [39:05<00:31,  3.31it/s] 99%|█████████▊| 7709/7813 [39:05<00:32,  3.17it/s] 99%|█████████▊| 7710/7813 [39:06<00:32,  3.21it/s] 99%|█████████▊| 7711/7813 [39:06<00:31,  3.24it/s] 99%|█████████▊| 7712/7813 [39:06<00:31,  3.16it/s] 99%|█████████▊| 7713/7813 [39:07<00:31,  3.20it/s] 99%|█████████▊| 7714/7813 [39:07<00:30,  3.25it/s] 99%|█████████▊| 7715/7813 [39:07<00:29,  3.28it/s] 99%|█████████▉| 7716/7813 [39:07<00:29,  3.32it/s] 99%|█████████▉| 7717/7813 [39:08<00:28,  3.33it/s] 99%|█████████▉| 7718/7813 [39:08<00:28,  3.36it/s] 99%|█████████▉| 7719/7813 [39:08<00:27,  3.36it/s] 99%|█████████▉| 7720/7813 [39:09<00:27,  3.38it/s] 99%|█████████▉| 7721/7813 [39:09<00:27,  3.37it/s] 99%|█████████▉| 7722/7813 [39:09<00:27,  3.32it/s] 99%|█████████▉| 7723/7813 [39:10<00:27,  3.29it/s] 99%|█████████▉| 7724/7813 [39:10<00:27,  3.18it/s] 99%|█████████▉| 7725/7813 [39:10<00:27,  3.25it/s] 99%|█████████▉| 7726/7813 [39:11<00:27,  3.22it/s] 99%|█████████▉| 7727/7813 [39:11<00:27,  3.14it/s] 99%|█████████▉| 7728/7813 [39:11<00:26,  3.20it/s] 99%|█████████▉| 7729/7813 [39:11<00:25,  3.25it/s] 99%|█████████▉| 7730/7813 [39:12<00:25,  3.25it/s] 99%|█████████▉| 7731/7813 [39:12<00:24,  3.31it/s] 99%|█████████▉| 7732/7813 [39:12<00:24,  3.35it/s] 99%|█████████▉| 7733/7813 [39:13<00:23,  3.36it/s] 99%|█████████▉| 7734/7813 [39:13<00:23,  3.34it/s] 99%|█████████▉| 7735/7813 [39:13<00:23,  3.36it/s] 99%|█████████▉| 7736/7813 [39:14<00:22,  3.37it/s] 99%|█████████▉| 7737/7813 [39:14<00:22,  3.39it/s] 99%|█████████▉| 7738/7813 [39:14<00:22,  3.37it/s] 99%|█████████▉| 7739/7813 [39:14<00:21,  3.38it/s] 99%|█████████▉| 7740/7813 [39:15<00:21,  3.38it/s] 99%|█████████▉| 7741/7813 [39:15<00:21,  3.34it/s] 99%|█████████▉| 7742/7813 [39:15<00:21,  3.35it/s] 99%|█████████▉| 7743/7813 [39:16<00:21,  3.33it/s] 99%|█████████▉| 7744/7813 [39:16<00:21,  3.19it/s] 99%|█████████▉| 7745/7813 [39:16<00:21,  3.23it/s] 99%|█████████▉| 7746/7813 [39:17<00:20,  3.29it/s] 99%|█████████▉| 7747/7813 [39:17<00:19,  3.33it/s] 99%|█████████▉| 7748/7813 [39:17<00:19,  3.34it/s] 99%|█████████▉| 7749/7813 [39:17<00:19,  3.33it/s] 99%|█████████▉| 7750/7813 [39:18<00:18,  3.34it/s]                                                   {'loss': 0.0102, 'grad_norm': 0.15628761053085327, 'learning_rate': 8.191475745552285e-07, 'epoch': 0.99}
 99%|█████████▉| 7750/7813 [39:18<00:18,  3.34it/s] 99%|█████████▉| 7751/7813 [39:18<00:18,  3.34it/s] 99%|█████████▉| 7752/7813 [39:18<00:18,  3.33it/s] 99%|█████████▉| 7753/7813 [39:19<00:18,  3.29it/s] 99%|█████████▉| 7754/7813 [39:19<00:17,  3.32it/s] 99%|█████████▉| 7755/7813 [39:19<00:18,  3.20it/s] 99%|█████████▉| 7756/7813 [39:20<00:17,  3.25it/s] 99%|█████████▉| 7757/7813 [39:20<00:17,  3.28it/s] 99%|█████████▉| 7758/7813 [39:20<00:16,  3.30it/s] 99%|█████████▉| 7759/7813 [39:20<00:16,  3.35it/s] 99%|█████████▉| 7760/7813 [39:21<00:16,  3.20it/s] 99%|█████████▉| 7761/7813 [39:21<00:15,  3.26it/s] 99%|█████████▉| 7762/7813 [39:21<00:16,  3.17it/s] 99%|█████████▉| 7763/7813 [39:22<00:15,  3.22it/s] 99%|█████████▉| 7764/7813 [39:22<00:15,  3.26it/s] 99%|█████████▉| 7765/7813 [39:22<00:14,  3.29it/s] 99%|█████████▉| 7766/7813 [39:23<00:14,  3.33it/s] 99%|█████████▉| 7767/7813 [39:23<00:13,  3.32it/s] 99%|█████████▉| 7768/7813 [39:23<00:13,  3.36it/s] 99%|█████████▉| 7769/7813 [39:24<00:13,  3.38it/s] 99%|█████████▉| 7770/7813 [39:24<00:12,  3.37it/s] 99%|█████████▉| 7771/7813 [39:24<00:12,  3.32it/s] 99%|█████████▉| 7772/7813 [39:24<00:12,  3.33it/s] 99%|█████████▉| 7773/7813 [39:25<00:11,  3.35it/s]100%|█████████▉| 7774/7813 [39:25<00:11,  3.37it/s]100%|█████████▉| 7775/7813 [39:25<00:11,  3.37it/s]100%|█████████▉| 7776/7813 [39:26<00:10,  3.37it/s]100%|█████████▉| 7777/7813 [39:26<00:10,  3.37it/s]100%|█████████▉| 7778/7813 [39:26<00:10,  3.32it/s]100%|█████████▉| 7779/7813 [39:27<00:10,  3.34it/s]100%|█████████▉| 7780/7813 [39:27<00:09,  3.36it/s]100%|█████████▉| 7781/7813 [39:27<00:09,  3.34it/s]100%|█████████▉| 7782/7813 [39:27<00:09,  3.23it/s]100%|█████████▉| 7783/7813 [39:28<00:09,  3.28it/s]100%|█████████▉| 7784/7813 [39:28<00:08,  3.30it/s]100%|█████████▉| 7785/7813 [39:28<00:08,  3.14it/s]100%|█████████▉| 7786/7813 [39:29<00:08,  3.22it/s]100%|█████████▉| 7787/7813 [39:29<00:07,  3.27it/s]100%|█████████▉| 7788/7813 [39:29<00:07,  3.30it/s]100%|█████████▉| 7789/7813 [39:30<00:07,  3.33it/s]100%|█████████▉| 7790/7813 [39:30<00:06,  3.34it/s]100%|█████████▉| 7791/7813 [39:30<00:06,  3.35it/s]100%|█████████▉| 7792/7813 [39:30<00:06,  3.37it/s]100%|█████████▉| 7793/7813 [39:31<00:05,  3.34it/s]100%|█████████▉| 7794/7813 [39:31<00:05,  3.35it/s]100%|█████████▉| 7795/7813 [39:31<00:05,  3.35it/s]100%|█████████▉| 7796/7813 [39:32<00:05,  3.37it/s]100%|█████████▉| 7797/7813 [39:32<00:04,  3.33it/s]100%|█████████▉| 7798/7813 [39:32<00:05,  2.89it/s]100%|█████████▉| 7799/7813 [39:33<00:04,  3.02it/s]100%|█████████▉| 7800/7813 [39:33<00:04,  3.10it/s]                                                   {'loss': 0.0101, 'grad_norm': 0.2644038200378418, 'learning_rate': 1.7918853193395623e-07, 'epoch': 1.0}
100%|█████████▉| 7800/7813 [39:33<00:04,  3.10it/s]100%|█████████▉| 7801/7813 [39:33<00:03,  3.17it/s]100%|█████████▉| 7802/7813 [39:34<00:03,  3.23it/s]100%|█████████▉| 7803/7813 [39:34<00:03,  3.25it/s]100%|█████████▉| 7804/7813 [39:34<00:02,  3.17it/s]100%|█████████▉| 7805/7813 [39:35<00:02,  3.24it/s]100%|█████████▉| 7806/7813 [39:35<00:02,  3.26it/s]100%|█████████▉| 7807/7813 [39:35<00:01,  3.29it/s]100%|█████████▉| 7808/7813 [39:35<00:01,  3.25it/s]100%|█████████▉| 7809/7813 [39:36<00:01,  3.29it/s]100%|█████████▉| 7810/7813 [39:36<00:00,  3.33it/s]100%|█████████▉| 7811/7813 [39:36<00:00,  3.30it/s]100%|█████████▉| 7812/7813 [39:37<00:00,  3.17it/s]100%|██████████| 7813/7813 [39:37<00:00,  3.29it/s]                                                   {'train_runtime': 2378.4252, 'train_samples_per_second': 420.446, 'train_steps_per_second': 3.285, 'train_loss': 0.5998522452080309, 'epoch': 1.0}
100%|██████████| 7813/7813 [39:37<00:00,  3.29it/s]100%|██████████| 7813/7813 [39:37<00:00,  3.29it/s]
model.safetensors:   0%|          | 0.00/3.13G [00:00<?, ?B/s]
spiece.model:   0%|          | 0.00/792k [00:00<?, ?B/s][A

Upload 3 LFS files:   0%|          | 0/3 [00:00<?, ?it/s][A[A


training_args.bin:   0%|          | 0.00/5.37k [00:00<?, ?B/s][A[A[Atraining_args.bin: 100%|██████████| 5.37k/5.37k [00:00<00:00, 52.2kB/s]
model.safetensors:   0%|          | 16.4k/3.13G [00:00<5:44:43, 151kB/s]model.safetensors:   0%|          | 10.2M/3.13G [00:00<00:54, 56.9MB/s] spiece.model: 100%|██████████| 792k/792k [00:00<00:00, 3.44MB/s]
model.safetensors:   1%|          | 16.0M/3.13G [00:00<01:17, 40.1MB/s]model.safetensors:   1%|          | 32.0M/3.13G [00:00<01:08, 45.1MB/s]model.safetensors:   2%|▏         | 48.0M/3.13G [00:01<01:01, 49.9MB/s]model.safetensors:   2%|▏         | 64.0M/3.13G [00:01<00:56, 54.7MB/s]model.safetensors:   3%|▎         | 80.0M/3.13G [00:01<00:54, 56.5MB/s]model.safetensors:   3%|▎         | 96.0M/3.13G [00:01<00:52, 57.9MB/s]model.safetensors:   4%|▎         | 112M/3.13G [00:02<00:49, 61.3MB/s] model.safetensors:   4%|▍         | 128M/3.13G [00:02<00:45, 66.7MB/s]model.safetensors:   5%|▍         | 144M/3.13G [00:02<00:43, 69.4MB/s]model.safetensors:   5%|▌         | 160M/3.13G [00:02<00:44, 67.5MB/s]model.safetensors:   6%|▌         | 176M/3.13G [00:03<00:48, 60.6MB/s]model.safetensors:   6%|▌         | 192M/3.13G [00:03<00:59, 49.7MB/s]model.safetensors:   7%|▋         | 208M/3.13G [00:03<00:52, 56.1MB/s]model.safetensors:   7%|▋         | 224M/3.13G [00:03<00:49, 59.0MB/s]model.safetensors:   8%|▊         | 240M/3.13G [00:04<00:47, 61.1MB/s]model.safetensors:   8%|▊         | 256M/3.13G [00:04<00:44, 64.3MB/s]model.safetensors:   9%|▊         | 272M/3.13G [00:04<00:43, 66.5MB/s]model.safetensors:   9%|▉         | 288M/3.13G [00:04<00:45, 61.9MB/s]model.safetensors:  10%|▉         | 304M/3.13G [00:05<00:43, 64.7MB/s]model.safetensors:  10%|█         | 320M/3.13G [00:05<00:43, 64.8MB/s]model.safetensors:  11%|█         | 336M/3.13G [00:05<00:43, 64.1MB/s]model.safetensors:  11%|█         | 352M/3.13G [00:05<00:44, 63.0MB/s]model.safetensors:  12%|█▏        | 368M/3.13G [00:06<00:43, 64.0MB/s]model.safetensors:  12%|█▏        | 384M/3.13G [00:06<00:39, 68.9MB/s]model.safetensors:  13%|█▎        | 400M/3.13G [00:06<00:42, 63.6MB/s]model.safetensors:  13%|█▎        | 416M/3.13G [00:10<04:03, 11.1MB/s]model.safetensors:  14%|█▎        | 426M/3.13G [00:10<03:17, 13.7MB/s]model.safetensors:  14%|█▍        | 432M/3.13G [00:11<02:59, 15.1MB/s]model.safetensors:  14%|█▍        | 448M/3.13G [00:11<02:08, 20.8MB/s]model.safetensors:  15%|█▍        | 464M/3.13G [00:11<01:38, 27.1MB/s]model.safetensors:  15%|█▌        | 480M/3.13G [00:11<01:19, 33.3MB/s]model.safetensors:  16%|█▌        | 496M/3.13G [00:12<01:09, 37.7MB/s]model.safetensors:  16%|█▋        | 512M/3.13G [00:12<01:00, 43.5MB/s]model.safetensors:  17%|█▋        | 528M/3.13G [00:12<00:54, 47.5MB/s]model.safetensors:  17%|█▋        | 544M/3.13G [00:12<00:49, 52.8MB/s]model.safetensors:  18%|█▊        | 560M/3.13G [00:13<00:46, 55.0MB/s]model.safetensors:  18%|█▊        | 576M/3.13G [00:13<00:44, 58.0MB/s]model.safetensors:  19%|█▉        | 592M/3.13G [00:13<00:42, 60.2MB/s]model.safetensors:  19%|█▉        | 608M/3.13G [00:13<00:42, 59.3MB/s]model.safetensors:  20%|█▉        | 624M/3.13G [00:14<00:40, 62.4MB/s]model.safetensors:  20%|██        | 640M/3.13G [00:14<00:39, 63.2MB/s]model.safetensors:  21%|██        | 656M/3.13G [00:14<00:39, 62.8MB/s]model.safetensors:  21%|██▏       | 672M/3.13G [00:14<00:38, 63.4MB/s]model.safetensors:  22%|██▏       | 688M/3.13G [00:15<00:39, 61.4MB/s]model.safetensors:  22%|██▏       | 704M/3.13G [00:15<00:38, 63.0MB/s]model.safetensors:  23%|██▎       | 720M/3.13G [00:15<00:38, 63.5MB/s]model.safetensors:  23%|██▎       | 736M/3.13G [00:15<00:37, 63.3MB/s]model.safetensors:  24%|██▍       | 752M/3.13G [00:16<00:37, 63.1MB/s]model.safetensors:  25%|██▍       | 768M/3.13G [00:16<00:39, 59.9MB/s]model.safetensors:  25%|██▌       | 784M/3.13G [00:16<00:36, 64.7MB/s]model.safetensors:  26%|██▌       | 800M/3.13G [00:16<00:37, 62.4MB/s]model.safetensors:  26%|██▌       | 816M/3.13G [00:17<00:36, 63.8MB/s]model.safetensors:  27%|██▋       | 832M/3.13G [00:17<00:36, 62.8MB/s]model.safetensors:  27%|██▋       | 848M/3.13G [00:17<00:36, 63.1MB/s]model.safetensors:  28%|██▊       | 864M/3.13G [00:17<00:36, 62.6MB/s]model.safetensors:  28%|██▊       | 880M/3.13G [00:18<00:36, 61.9MB/s]model.safetensors:  29%|██▊       | 896M/3.13G [00:18<00:35, 63.2MB/s]model.safetensors:  29%|██▉       | 912M/3.13G [00:18<00:42, 51.8MB/s]model.safetensors:  30%|██▉       | 928M/3.13G [00:19<00:41, 53.5MB/s]model.safetensors:  30%|███       | 944M/3.13G [00:19<00:37, 58.0MB/s]model.safetensors:  31%|███       | 960M/3.13G [00:19<00:38, 56.1MB/s]model.safetensors:  31%|███       | 976M/3.13G [00:19<00:37, 57.9MB/s]model.safetensors:  32%|███▏      | 992M/3.13G [00:20<00:37, 57.5MB/s]model.safetensors:  32%|███▏      | 1.01G/3.13G [00:20<00:37, 56.0MB/s]model.safetensors:  33%|███▎      | 1.02G/3.13G [00:20<00:36, 57.8MB/s]model.safetensors:  33%|███▎      | 1.04G/3.13G [00:21<00:36, 58.0MB/s]model.safetensors:  34%|███▎      | 1.06G/3.13G [00:21<00:34, 61.0MB/s]model.safetensors:  34%|███▍      | 1.07G/3.13G [00:21<00:35, 58.6MB/s]model.safetensors:  35%|███▍      | 1.09G/3.13G [00:21<00:33, 60.6MB/s]model.safetensors:  35%|███▌      | 1.10G/3.13G [00:22<00:33, 61.0MB/s]model.safetensors:  36%|███▌      | 1.12G/3.13G [00:22<00:33, 60.5MB/s]model.safetensors:  36%|███▋      | 1.14G/3.13G [00:22<00:33, 59.2MB/s]model.safetensors:  37%|███▋      | 1.15G/3.13G [00:22<00:32, 60.1MB/s]model.safetensors:  37%|███▋      | 1.17G/3.13G [00:24<01:32, 21.3MB/s]model.safetensors:  38%|███▊      | 1.18G/3.13G [00:24<01:11, 27.4MB/s]model.safetensors:  38%|███▊      | 1.19G/3.13G [00:25<01:10, 27.6MB/s]model.safetensors:  38%|███▊      | 1.20G/3.13G [00:25<01:02, 30.9MB/s]model.safetensors:  39%|███▉      | 1.22G/3.13G [00:25<00:53, 35.6MB/s]model.safetensors:  39%|███▉      | 1.23G/3.13G [00:25<00:44, 43.0MB/s]model.safetensors:  40%|███▉      | 1.25G/3.13G [00:26<00:39, 47.5MB/s]model.safetensors:  40%|████      | 1.26G/3.13G [00:26<00:35, 52.0MB/s]model.safetensors:  41%|████      | 1.28G/3.13G [00:26<00:32, 56.3MB/s]model.safetensors:  41%|████▏     | 1.30G/3.13G [00:27<00:35, 51.4MB/s]model.safetensors:  42%|████▏     | 1.31G/3.13G [00:27<00:33, 54.5MB/s]model.safetensors:  42%|████▏     | 1.33G/3.13G [00:27<00:33, 54.5MB/s]model.safetensors:  43%|████▎     | 1.34G/3.13G [00:27<00:32, 54.5MB/s]model.safetensors:  43%|████▎     | 1.36G/3.13G [00:28<00:32, 55.3MB/s]model.safetensors:  44%|████▍     | 1.38G/3.13G [00:28<00:30, 57.6MB/s]model.safetensors:  44%|████▍     | 1.39G/3.13G [00:28<00:28, 61.2MB/s]model.safetensors:  45%|████▍     | 1.41G/3.13G [00:28<00:29, 59.4MB/s]model.safetensors:  45%|████▌     | 1.42G/3.13G [00:29<00:27, 61.7MB/s]model.safetensors:  46%|████▌     | 1.44G/3.13G [00:29<00:28, 60.0MB/s]model.safetensors:  46%|████▋     | 1.46G/3.13G [00:29<00:26, 62.4MB/s]model.safetensors:  47%|████▋     | 1.47G/3.13G [00:29<00:26, 62.6MB/s]model.safetensors:  47%|████▋     | 1.49G/3.13G [00:30<00:24, 67.6MB/s]model.safetensors:  48%|████▊     | 1.50G/3.13G [00:30<00:25, 63.0MB/s]model.safetensors:  49%|████▊     | 1.52G/3.13G [00:30<00:25, 62.5MB/s]model.safetensors:  49%|████▉     | 1.54G/3.13G [00:30<00:24, 64.4MB/s]model.safetensors:  50%|████▉     | 1.55G/3.13G [00:31<00:23, 67.9MB/s]model.safetensors:  50%|█████     | 1.57G/3.13G [00:31<00:23, 66.8MB/s]model.safetensors:  51%|█████     | 1.58G/3.13G [00:31<00:23, 66.1MB/s]model.safetensors:  51%|█████     | 1.60G/3.13G [00:31<00:23, 64.6MB/s]model.safetensors:  52%|█████▏    | 1.62G/3.13G [00:32<00:23, 63.5MB/s]model.safetensors:  52%|█████▏    | 1.63G/3.13G [00:32<00:23, 63.3MB/s]model.safetensors:  53%|█████▎    | 1.65G/3.13G [00:32<00:23, 62.9MB/s]model.safetensors:  53%|█████▎    | 1.66G/3.13G [00:32<00:24, 60.1MB/s]model.safetensors:  54%|█████▎    | 1.68G/3.13G [00:33<00:22, 63.6MB/s]model.safetensors:  54%|█████▍    | 1.70G/3.13G [00:33<00:23, 61.3MB/s]model.safetensors:  55%|█████▍    | 1.71G/3.13G [00:33<00:22, 64.0MB/s]model.safetensors:  55%|█████▌    | 1.73G/3.13G [00:33<00:22, 63.2MB/s]model.safetensors:  56%|█████▌    | 1.74G/3.13G [00:34<00:22, 61.2MB/s]model.safetensors:  56%|█████▌    | 1.76G/3.13G [00:34<00:23, 57.6MB/s]model.safetensors:  57%|█████▋    | 1.78G/3.13G [00:34<00:23, 57.6MB/s]model.safetensors:  57%|█████▋    | 1.79G/3.13G [00:35<00:23, 56.5MB/s]model.safetensors:  58%|█████▊    | 1.81G/3.13G [00:35<00:23, 55.8MB/s]model.safetensors:  58%|█████▊    | 1.82G/3.13G [00:35<00:22, 57.1MB/s]model.safetensors:  59%|█████▊    | 1.84G/3.13G [00:35<00:22, 58.3MB/s]model.safetensors:  59%|█████▉    | 1.86G/3.13G [00:36<00:21, 58.9MB/s]model.safetensors:  60%|█████▉    | 1.87G/3.13G [00:36<00:21, 59.3MB/s]model.safetensors:  60%|██████    | 1.89G/3.13G [00:36<00:19, 64.1MB/s]model.safetensors:  61%|██████    | 1.90G/3.13G [00:36<00:18, 67.0MB/s]model.safetensors:  61%|██████▏   | 1.92G/3.13G [00:37<00:18, 64.8MB/s]model.safetensors:  62%|██████▏   | 1.94G/3.13G [00:37<00:18, 65.2MB/s]model.safetensors:  62%|██████▏   | 1.95G/3.13G [00:37<00:17, 66.2MB/s]model.safetensors:  63%|██████▎   | 1.97G/3.13G [00:37<00:17, 67.4MB/s]model.safetensors:  63%|██████▎   | 1.98G/3.13G [00:38<00:17, 67.3MB/s]model.safetensors:  64%|██████▍   | 2.00G/3.13G [00:38<00:17, 65.2MB/s]model.safetensors:  64%|██████▍   | 2.02G/3.13G [00:38<00:17, 64.0MB/s]model.safetensors:  65%|██████▍   | 2.03G/3.13G [00:38<00:17, 64.1MB/s]model.safetensors:  65%|██████▌   | 2.05G/3.13G [00:39<00:17, 62.0MB/s]model.safetensors:  66%|██████▌   | 2.06G/3.13G [00:39<00:18, 59.2MB/s]model.safetensors:  66%|██████▋   | 2.08G/3.13G [00:39<00:17, 61.8MB/s]model.safetensors:  67%|██████▋   | 2.10G/3.13G [00:39<00:16, 62.9MB/s]model.safetensors:  67%|██████▋   | 2.11G/3.13G [00:40<00:18, 54.9MB/s]model.safetensors:  68%|██████▊   | 2.13G/3.13G [00:41<00:31, 32.1MB/s]model.safetensors:  68%|██████▊   | 2.14G/3.13G [00:41<00:26, 37.3MB/s]model.safetensors:  69%|██████▉   | 2.16G/3.13G [00:41<00:23, 41.7MB/s]model.safetensors:  69%|██████▉   | 2.18G/3.13G [00:42<00:20, 45.8MB/s]model.safetensors:  70%|██████▉   | 2.19G/3.13G [00:42<00:19, 48.9MB/s]model.safetensors:  70%|███████   | 2.21G/3.13G [00:42<00:17, 52.8MB/s]model.safetensors:  71%|███████   | 2.22G/3.13G [00:42<00:16, 53.8MB/s]model.safetensors:  72%|███████▏  | 2.24G/3.13G [00:43<00:15, 56.5MB/s]model.safetensors:  72%|███████▏  | 2.26G/3.13G [00:43<00:14, 59.7MB/s]model.safetensors:  73%|███████▎  | 2.27G/3.13G [00:43<00:14, 59.9MB/s]model.safetensors:  73%|███████▎  | 2.29G/3.13G [00:43<00:14, 58.2MB/s]model.safetensors:  74%|███████▎  | 2.30G/3.13G [00:44<00:14, 58.7MB/s]model.safetensors:  74%|███████▍  | 2.32G/3.13G [00:44<00:12, 63.9MB/s]model.safetensors:  75%|███████▍  | 2.34G/3.13G [00:44<00:12, 62.5MB/s]model.safetensors:  75%|███████▌  | 2.35G/3.13G [00:45<00:13, 57.4MB/s]model.safetensors:  76%|███████▌  | 2.37G/3.13G [00:45<00:12, 59.3MB/s]model.safetensors:  76%|███████▌  | 2.38G/3.13G [00:45<00:12, 60.5MB/s]model.safetensors:  77%|███████▋  | 2.40G/3.13G [00:45<00:12, 60.6MB/s]model.safetensors:  77%|███████▋  | 2.42G/3.13G [00:45<00:10, 65.7MB/s]model.safetensors:  78%|███████▊  | 2.43G/3.13G [00:46<00:10, 68.4MB/s]model.safetensors:  78%|███████▊  | 2.45G/3.13G [00:46<00:10, 67.8MB/s]model.safetensors:  79%|███████▊  | 2.46G/3.13G [00:46<00:10, 66.7MB/s]model.safetensors:  79%|███████▉  | 2.48G/3.13G [00:46<00:09, 66.2MB/s]model.safetensors:  80%|███████▉  | 2.50G/3.13G [00:47<00:09, 67.4MB/s]model.safetensors:  80%|████████  | 2.51G/3.13G [00:47<00:09, 67.4MB/s]model.safetensors:  81%|████████  | 2.53G/3.13G [00:47<00:09, 65.4MB/s]model.safetensors:  81%|████████  | 2.54G/3.13G [00:47<00:09, 59.9MB/s]model.safetensors:  82%|████████▏ | 2.56G/3.13G [00:48<00:10, 56.1MB/s]model.safetensors:  82%|████████▏ | 2.58G/3.13G [00:48<00:09, 56.5MB/s]model.safetensors:  83%|████████▎ | 2.59G/3.13G [00:48<00:09, 57.7MB/s]model.safetensors:  83%|████████▎ | 2.61G/3.13G [00:49<00:09, 58.1MB/s]model.safetensors:  84%|████████▍ | 2.62G/3.13G [00:49<00:09, 53.9MB/s]model.safetensors:  84%|████████▍ | 2.64G/3.13G [00:49<00:08, 56.0MB/s]model.safetensors:  85%|████████▍ | 2.66G/3.13G [00:49<00:08, 58.8MB/s]model.safetensors:  85%|████████▌ | 2.67G/3.13G [00:50<00:08, 54.9MB/s]model.safetensors:  86%|████████▌ | 2.69G/3.13G [00:50<00:07, 60.8MB/s]model.safetensors:  86%|████████▋ | 2.70G/3.13G [00:50<00:06, 62.5MB/s]model.safetensors:  87%|████████▋ | 2.72G/3.13G [00:50<00:06, 62.1MB/s]model.safetensors:  87%|████████▋ | 2.74G/3.13G [00:52<00:13, 29.1MB/s]model.safetensors:  88%|████████▊ | 2.75G/3.13G [00:52<00:11, 33.5MB/s]model.safetensors:  88%|████████▊ | 2.77G/3.13G [00:52<00:09, 39.2MB/s]model.safetensors:  89%|████████▉ | 2.78G/3.13G [00:53<00:08, 43.1MB/s]model.safetensors:  89%|████████▉ | 2.80G/3.13G [00:53<00:07, 46.6MB/s]model.safetensors:  90%|████████▉ | 2.82G/3.13G [00:53<00:06, 51.2MB/s]model.safetensors:  90%|█████████ | 2.83G/3.13G [00:55<00:14, 20.3MB/s]model.safetensors:  91%|█████████ | 2.85G/3.13G [00:55<00:10, 26.2MB/s]model.safetensors:  91%|█████████ | 2.85G/3.13G [00:55<00:10, 27.3MB/s]model.safetensors:  91%|█████████▏| 2.86G/3.13G [00:56<00:08, 31.0MB/s]model.safetensors:  92%|█████████▏| 2.88G/3.13G [00:56<00:06, 37.7MB/s]model.safetensors:  92%|█████████▏| 2.90G/3.13G [00:56<00:05, 44.0MB/s]model.safetensors:  93%|█████████▎| 2.91G/3.13G [00:56<00:04, 49.1MB/s]model.safetensors:  93%|█████████▎| 2.93G/3.13G [00:57<00:03, 54.0MB/s]model.safetensors:  94%|█████████▍| 2.94G/3.13G [00:57<00:03, 57.0MB/s]model.safetensors:  94%|█████████▍| 2.96G/3.13G [00:57<00:04, 40.5MB/s]model.safetensors:  95%|█████████▍| 2.98G/3.13G [00:58<00:03, 46.2MB/s]model.safetensors:  96%|█████████▌| 2.99G/3.13G [00:58<00:02, 50.2MB/s]model.safetensors:  96%|█████████▌| 3.01G/3.13G [00:58<00:02, 55.8MB/s]model.safetensors:  97%|█████████▋| 3.02G/3.13G [00:58<00:01, 55.0MB/s]model.safetensors:  97%|█████████▋| 3.04G/3.13G [00:59<00:01, 58.0MB/s]model.safetensors:  98%|█████████▊| 3.06G/3.13G [00:59<00:01, 60.3MB/s]model.safetensors:  98%|█████████▊| 3.07G/3.13G [00:59<00:00, 61.9MB/s]model.safetensors:  99%|█████████▊| 3.09G/3.13G [00:59<00:00, 61.2MB/s]model.safetensors:  99%|█████████▉| 3.10G/3.13G [01:00<00:00, 66.3MB/s]model.safetensors: 100%|█████████▉| 3.12G/3.13G [01:00<00:00, 65.6MB/s]model.safetensors: 100%|██████████| 3.13G/3.13G [01:00<00:00, 51.7MB/s]


Upload 3 LFS files:  33%|███▎      | 1/3 [01:00<02:01, 60.80s/it][A[AUpload 3 LFS files: 100%|██████████| 3/3 [01:00<00:00, 20.27s/it]