Upload 16 files

Browse files

Files changed (17) hide show

.gitattributes +1 -0
README.md +58 -3
added_tokens.json +16 -0
all_results.json +9 -0
llamaboard_config.yaml +78 -0
merges.txt +0 -0
running_log.txt +1492 -0
special_tokens_map.json +23 -0
tokenizer.json +3 -0
tokenizer_config.json +128 -0
train_results.json +9 -0
trainer_log.jsonl +200 -0
trainer_state.json +1636 -0
training_args.bin +3 -0
training_args.yaml +33 -0
training_loss.png +0 -0
vocab.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -1,3 +1,58 @@
----
-license: mit
----

+---
+library_name: peft
+license: other
+base_model: prithivMLmods/Qwen2-VL-OCR-2B-Instruct
+tags:
+- llama-factory
+- lora
+- generated_from_trainer
+model-index:
+- name: train_2025-04-01-09-06-36
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# train_2025-04-01-09-06-36
+This model is a fine-tuned version of [prithivMLmods/Qwen2-VL-OCR-2B-Instruct](https://huggingface.co/prithivMLmods/Qwen2-VL-OCR-2B-Instruct) on the OCR_Finetuning_Dataset dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-05
+- train_batch_size: 1
+- eval_batch_size: 8
+- seed: 42
+- gradient_accumulation_steps: 8
+- total_train_batch_size: 8
+- optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: cosine
+- num_epochs: 3.0
+### Training results
+### Framework versions
+- PEFT 0.15.0
+- Transformers 4.50.0
+- Pytorch 2.6.0+cu124
+- Datasets 3.4.1
+- Tokenizers 0.21.0

added_tokens.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 2.9932279909706545,
+    "num_input_tokens_seen": 1157808,
+    "total_flos": 1.3788411572404224e+16,
+    "train_loss": 0.939127180590687,
+    "train_runtime": 10484.6402,
+    "train_samples_per_second": 0.761,
+    "train_steps_per_second": 0.095
+}

llamaboard_config.yaml ADDED Viewed

	@@ -0,0 +1,78 @@

+top.booster: auto
+top.checkpoint_path: []
+top.finetuning_type: lora
+top.model_name: Custom
+top.quantization_bit: none
+top.quantization_method: bitsandbytes
+top.rope_scaling: none
+top.template: default
+train.additional_target: ''
+train.apollo_rank: 16
+train.apollo_scale: 32
+train.apollo_target: all
+train.apollo_update_interval: 200
+train.badam_mode: layer
+train.badam_switch_interval: 50
+train.badam_switch_mode: ascending
+train.badam_update_ratio: 0.05
+train.batch_size: 1
+train.compute_type: bf16
+train.create_new_adapter: false
+train.cutoff_len: 2048
+train.dataset:
+- OCR_Finetuning_Dataset
+train.dataset_dir: /content/drive/MyDrive
+train.ds_offload: false
+train.ds_stage: none
+train.extra_args: '{"optim": "adamw_torch"}'
+train.freeze_extra_modules: ''
+train.freeze_trainable_layers: 2
+train.freeze_trainable_modules: all
+train.galore_rank: 16
+train.galore_scale: 2
+train.galore_target: all
+train.galore_update_interval: 200
+train.gradient_accumulation_steps: 8
+train.learning_rate: 5e-5
+train.logging_steps: 5
+train.lora_alpha: 16
+train.lora_dropout: 0
+train.lora_rank: 8
+train.lora_target: ''
+train.loraplus_lr_ratio: 0
+train.lr_scheduler_type: cosine
+train.mask_history: false
+train.max_grad_norm: '1.0'
+train.max_samples: '100000'
+train.neat_packing: false
+train.neftune_alpha: 0
+train.num_train_epochs: '3.0'
+train.packing: false
+train.ppo_score_norm: false
+train.ppo_whiten_rewards: false
+train.pref_beta: 0.1
+train.pref_ftx: 0
+train.pref_loss: sigmoid
+train.report_to:
+- none
+train.resize_vocab: false
+train.reward_model: []
+train.save_steps: 100
+train.swanlab_api_key: ''
+train.swanlab_link: ''
+train.swanlab_mode: cloud
+train.swanlab_project: llamafactory
+train.swanlab_run_name: ''
+train.swanlab_workspace: ''
+train.train_on_prompt: false
+train.training_stage: Supervised Fine-Tuning
+train.use_apollo: false
+train.use_badam: false
+train.use_dora: false
+train.use_galore: false
+train.use_llama_pro: false
+train.use_pissa: false
+train.use_rslora: false
+train.use_swanlab: false
+train.val_size: 0
+train.warmup_steps: 0

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

running_log.txt ADDED Viewed

	@@ -0,0 +1,1492 @@

+[INFO|2025-04-01 09:07:44] tokenization_auto.py:759 >> Could not locate the tokenizer configuration file, will try to use the model config instead.
+[INFO|2025-04-01 09:07:44] configuration_utils.py:699 >> loading configuration file config.json from cache at /root/.cache/huggingface/hub/models--prithivMLmods--Qwen2-VL-OCR-2B-Instruct/snapshots/a54254d5cc9f82e1c362db82adede275d20bbc6b/config.json
+[INFO|2025-04-01 09:07:44] configuration_utils.py:771 >> Model config Qwen2VLConfig {
+  "architectures": [
+    "Qwen2VLForConditionalGeneration"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "hidden_act": "silu",
+  "hidden_size": 1536,
+  "image_token_id": 151655,
+  "initializer_range": 0.02,
+  "intermediate_size": 8960,
+  "max_position_embeddings": 32768,
+  "max_window_layers": 28,
+  "model_type": "qwen2_vl",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 2,
+  "pad_token_id": 151654,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": {
+    "mrope_section": [
+      16,
+      24,
+      24
+    ],
+    "rope_type": "default",
+    "type": "default"
+  },
+  "rope_theta": 1000000.0,
+  "sliding_window": 32768,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.50.0",
+  "use_cache": true,
+  "use_sliding_window": false,
+  "video_token_id": 151656,
+  "vision_config": {
+    "depth": 32,
+    "embed_dim": 1280,
+    "hidden_act": "quick_gelu",
+    "hidden_size": 1536,
+    "in_channels": 3,
+    "in_chans": 3,
+    "mlp_ratio": 4,
+    "model_type": "qwen2_vl",
+    "num_heads": 16,
+    "patch_size": 14,
+    "spatial_merge_size": 2,
+    "spatial_patch_size": 14,
+    "temporal_patch_size": 2
+  },
+  "vision_end_token_id": 151653,
+  "vision_start_token_id": 151652,
+  "vision_token_id": 151654,
+  "vocab_size": 151936
+}
+[INFO|2025-04-01 09:07:44] tokenization_utils_base.py:2060 >> loading file vocab.json from cache at /root/.cache/huggingface/hub/models--prithivMLmods--Qwen2-VL-OCR-2B-Instruct/snapshots/a54254d5cc9f82e1c362db82adede275d20bbc6b/vocab.json
+[INFO|2025-04-01 09:07:44] tokenization_utils_base.py:2060 >> loading file merges.txt from cache at /root/.cache/huggingface/hub/models--prithivMLmods--Qwen2-VL-OCR-2B-Instruct/snapshots/a54254d5cc9f82e1c362db82adede275d20bbc6b/merges.txt
+[INFO|2025-04-01 09:07:44] tokenization_utils_base.py:2060 >> loading file tokenizer.json from cache at None
+[INFO|2025-04-01 09:07:44] tokenization_utils_base.py:2060 >> loading file added_tokens.json from cache at /root/.cache/huggingface/hub/models--prithivMLmods--Qwen2-VL-OCR-2B-Instruct/snapshots/a54254d5cc9f82e1c362db82adede275d20bbc6b/added_tokens.json
+[INFO|2025-04-01 09:07:44] tokenization_utils_base.py:2060 >> loading file special_tokens_map.json from cache at None
+[INFO|2025-04-01 09:07:44] tokenization_utils_base.py:2060 >> loading file tokenizer_config.json from cache at None
+[INFO|2025-04-01 09:07:44] tokenization_utils_base.py:2060 >> loading file chat_template.jinja from cache at None
+[INFO|2025-04-01 09:07:44] configuration_utils.py:699 >> loading configuration file config.json from cache at /root/.cache/huggingface/hub/models--prithivMLmods--Qwen2-VL-OCR-2B-Instruct/snapshots/a54254d5cc9f82e1c362db82adede275d20bbc6b/config.json
+[INFO|2025-04-01 09:07:44] configuration_utils.py:771 >> Model config Qwen2VLConfig {
+  "architectures": [
+    "Qwen2VLForConditionalGeneration"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "hidden_act": "silu",
+  "hidden_size": 1536,
+  "image_token_id": 151655,
+  "initializer_range": 0.02,
+  "intermediate_size": 8960,
+  "max_position_embeddings": 32768,
+  "max_window_layers": 28,
+  "model_type": "qwen2_vl",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 2,
+  "pad_token_id": 151654,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": {
+    "mrope_section": [
+      16,
+      24,
+      24
+    ],
+    "rope_type": "default",
+    "type": "default"
+  },
+  "rope_theta": 1000000.0,
+  "sliding_window": 32768,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.50.0",
+  "use_cache": true,
+  "use_sliding_window": false,
+  "video_token_id": 151656,
+  "vision_config": {
+    "depth": 32,
+    "embed_dim": 1280,
+    "hidden_act": "quick_gelu",
+    "hidden_size": 1536,
+    "in_channels": 3,
+    "in_chans": 3,
+    "mlp_ratio": 4,
+    "model_type": "qwen2_vl",
+    "num_heads": 16,
+    "patch_size": 14,
+    "spatial_merge_size": 2,
+    "spatial_patch_size": 14,
+    "temporal_patch_size": 2
+  },
+  "vision_end_token_id": 151653,
+  "vision_start_token_id": 151652,
+  "vision_token_id": 151654,
+  "vocab_size": 151936
+}
+[INFO|2025-04-01 09:07:45] tokenization_utils_base.py:2323 >> Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.
+[INFO|2025-04-01 09:07:45] configuration_utils.py:699 >> loading configuration file config.json from cache at /root/.cache/huggingface/hub/models--prithivMLmods--Qwen2-VL-OCR-2B-Instruct/snapshots/a54254d5cc9f82e1c362db82adede275d20bbc6b/config.json
+[INFO|2025-04-01 09:07:45] configuration_utils.py:771 >> Model config Qwen2VLConfig {
+  "architectures": [
+    "Qwen2VLForConditionalGeneration"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "hidden_act": "silu",
+  "hidden_size": 1536,
+  "image_token_id": 151655,
+  "initializer_range": 0.02,
+  "intermediate_size": 8960,
+  "max_position_embeddings": 32768,
+  "max_window_layers": 28,
+  "model_type": "qwen2_vl",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 2,
+  "pad_token_id": 151654,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": {
+    "mrope_section": [
+      16,
+      24,
+      24
+    ],
+    "rope_type": "default",
+    "type": "default"
+  },
+  "rope_theta": 1000000.0,
+  "sliding_window": 32768,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.50.0",
+  "use_cache": true,
+  "use_sliding_window": false,
+  "video_token_id": 151656,
+  "vision_config": {
+    "depth": 32,
+    "embed_dim": 1280,
+    "hidden_act": "quick_gelu",
+    "hidden_size": 1536,
+    "in_channels": 3,
+    "in_chans": 3,
+    "mlp_ratio": 4,
+    "model_type": "qwen2_vl",
+    "num_heads": 16,
+    "patch_size": 14,
+    "spatial_merge_size": 2,
+    "spatial_patch_size": 14,
+    "temporal_patch_size": 2
+  },
+  "vision_end_token_id": 151653,
+  "vision_start_token_id": 151652,
+  "vision_token_id": 151654,
+  "vocab_size": 151936
+}
+[INFO|2025-04-01 09:07:45] tokenization_utils_base.py:2323 >> Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.
+[INFO|2025-04-01 09:07:46] image_processing_base.py:381 >> loading configuration file preprocessor_config.json from cache at /root/.cache/huggingface/hub/models--prithivMLmods--Qwen2-VL-OCR-2B-Instruct/snapshots/a54254d5cc9f82e1c362db82adede275d20bbc6b/preprocessor_config.json
+[INFO|2025-04-01 09:07:46] image_processing_base.py:381 >> loading configuration file preprocessor_config.json from cache at /root/.cache/huggingface/hub/models--prithivMLmods--Qwen2-VL-OCR-2B-Instruct/snapshots/a54254d5cc9f82e1c362db82adede275d20bbc6b/preprocessor_config.json
+[WARNING|2025-04-01 09:07:46] logging.py:329 >> Using a slow image processor as `use_fast` is unset and a slow processor was saved with this model. `use_fast=True` will be the default behavior in v4.50, even if the model was saved with a slow processor. This will result in minor differences in outputs. You'll still be able to use a slow processor with `use_fast=False`.
+[INFO|2025-04-01 09:07:46] logging.py:143 >> Loading dataset /content/drive/MyDrive/dataset.jsonl...
+[INFO|2025-04-01 09:07:47] configuration_utils.py:699 >> loading configuration file config.json from cache at /root/.cache/huggingface/hub/models--prithivMLmods--Qwen2-VL-OCR-2B-Instruct/snapshots/a54254d5cc9f82e1c362db82adede275d20bbc6b/config.json
+[INFO|2025-04-01 09:07:47] configuration_utils.py:771 >> Model config Qwen2VLConfig {
+  "architectures": [
+    "Qwen2VLForConditionalGeneration"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "hidden_act": "silu",
+  "hidden_size": 1536,
+  "image_token_id": 151655,
+  "initializer_range": 0.02,
+  "intermediate_size": 8960,
+  "max_position_embeddings": 32768,
+  "max_window_layers": 28,
+  "model_type": "qwen2_vl",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 2,
+  "pad_token_id": 151654,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": {
+    "mrope_section": [
+      16,
+      24,
+      24
+    ],
+    "rope_type": "default",
+    "type": "default"
+  },
+  "rope_theta": 1000000.0,
+  "sliding_window": 32768,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.50.0",
+  "use_cache": true,
+  "use_sliding_window": false,
+  "video_token_id": 151656,
+  "vision_config": {
+    "depth": 32,
+    "embed_dim": 1280,
+    "hidden_act": "quick_gelu",
+    "hidden_size": 1536,
+    "in_channels": 3,
+    "in_chans": 3,
+    "mlp_ratio": 4,
+    "model_type": "qwen2_vl",
+    "num_heads": 16,
+    "patch_size": 14,
+    "spatial_merge_size": 2,
+    "spatial_patch_size": 14,
+    "temporal_patch_size": 2
+  },
+  "vision_end_token_id": 151653,
+  "vision_start_token_id": 151652,
+  "vision_token_id": 151654,
+  "vocab_size": 151936
+}
+[INFO|2025-04-01 09:07:47] modeling_utils.py:1154 >> loading weights file model.safetensors from cache at /root/.cache/huggingface/hub/models--prithivMLmods--Qwen2-VL-OCR-2B-Instruct/snapshots/a54254d5cc9f82e1c362db82adede275d20bbc6b/model.safetensors
+[INFO|2025-04-01 09:07:47] modeling_utils.py:2170 >> Instantiating Qwen2VLForConditionalGeneration model under default dtype torch.bfloat16.
+[INFO|2025-04-01 09:07:47] configuration_utils.py:1139 >> Generate config GenerationConfig {
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "pad_token_id": 151654
+}
+[INFO|2025-04-01 09:07:47] modeling_utils.py:2170 >> Instantiating Qwen2VisionTransformerPretrainedModel model under default dtype torch.bfloat16.
+[INFO|2025-04-01 09:07:50] modeling_utils.py:4987 >> All model checkpoint weights were used when initializing Qwen2VLForConditionalGeneration.
+[INFO|2025-04-01 09:07:50] modeling_utils.py:4995 >> All the weights of Qwen2VLForConditionalGeneration were initialized from the model checkpoint at prithivMLmods/Qwen2-VL-OCR-2B-Instruct.
+If your task is similar to the task the model of the checkpoint was trained on, you can already use Qwen2VLForConditionalGeneration for predictions without further training.
+[INFO|2025-04-01 09:07:50] configuration_utils.py:1094 >> loading configuration file generation_config.json from cache at /root/.cache/huggingface/hub/models--prithivMLmods--Qwen2-VL-OCR-2B-Instruct/snapshots/a54254d5cc9f82e1c362db82adede275d20bbc6b/generation_config.json
+[INFO|2025-04-01 09:07:50] configuration_utils.py:1139 >> Generate config GenerationConfig {
+  "bos_token_id": 151643,
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "max_length": 32768,
+  "pad_token_id": 151654,
+  "temperature": 0.01,
+  "top_k": 1,
+  "top_p": 0.001
+}
+[INFO|2025-04-01 09:07:50] logging.py:143 >> Gradient checkpointing enabled.
+[INFO|2025-04-01 09:07:50] logging.py:143 >> Using torch SDPA for faster training and inference.
+[INFO|2025-04-01 09:07:50] logging.py:143 >> Upcasting trainable params to float32.
+[INFO|2025-04-01 09:07:50] logging.py:143 >> Fine-tuning method: LoRA
+[INFO|2025-04-01 09:07:50] logging.py:143 >> Found linear modules: q_proj,v_proj,gate_proj,down_proj,up_proj,o_proj,k_proj
+[INFO|2025-04-01 09:07:50] logging.py:143 >> Set vision model not trainable: ['visual.patch_embed', 'visual.blocks'].
+[INFO|2025-04-01 09:07:50] logging.py:143 >> Set multi model projector not trainable: visual.merger.
+[INFO|2025-04-01 09:07:51] logging.py:143 >> trainable params: 9,232,384 || all params: 2,218,217,984 || trainable%: 0.4162
+[INFO|2025-04-01 09:07:51] trainer.py:748 >> Using auto half precision backend
+[WARNING|2025-04-01 09:07:51] trainer.py:783 >> No label_names provided for model class `PeftModelForCausalLM`. Since `PeftModel` hides base models input arguments, if label_names is not given, label_names can't be set automatically within `Trainer`. Note that empty label_names list will be used instead.
+[INFO|2025-04-01 09:07:51] trainer.py:2409 >> ***** Running training *****
+[INFO|2025-04-01 09:07:51] trainer.py:2410 >>   Num examples = 2,658
+[INFO|2025-04-01 09:07:51] trainer.py:2411 >>   Num Epochs = 3
+[INFO|2025-04-01 09:07:51] trainer.py:2412 >>   Instantaneous batch size per device = 1
+[INFO|2025-04-01 09:07:51] trainer.py:2415 >>   Total train batch size (w. parallel, distributed & accumulation) = 8
+[INFO|2025-04-01 09:07:51] trainer.py:2416 >>   Gradient Accumulation steps = 8
+[INFO|2025-04-01 09:07:51] trainer.py:2417 >>   Total optimization steps = 996
+[INFO|2025-04-01 09:07:51] trainer.py:2418 >>   Number of trainable parameters = 9,232,384
+[INFO|2025-04-01 09:08:45] logging.py:143 >> {'loss': 2.4707, 'learning_rate': 4.9997e-05, 'epoch': 0.02, 'throughput': 108.07}
+[INFO|2025-04-01 09:09:39] logging.py:143 >> {'loss': 2.2509, 'learning_rate': 4.9988e-05, 'epoch': 0.03, 'throughput': 106.09}
+[INFO|2025-04-01 09:10:31] logging.py:143 >> {'loss': 1.6895, 'learning_rate': 4.9972e-05, 'epoch': 0.05, 'throughput': 106.20}
+[INFO|2025-04-01 09:11:24] logging.py:143 >> {'loss': 1.4876, 'learning_rate': 4.9950e-05, 'epoch': 0.06, 'throughput': 107.12}
+[INFO|2025-04-01 09:12:19] logging.py:143 >> {'loss': 1.4812, 'learning_rate': 4.9922e-05, 'epoch': 0.08, 'throughput': 108.37}
+[INFO|2025-04-01 09:13:11] logging.py:143 >> {'loss': 1.3642, 'learning_rate': 4.9888e-05, 'epoch': 0.09, 'throughput': 108.89}
+[INFO|2025-04-01 09:14:06] logging.py:143 >> {'loss': 1.3651, 'learning_rate': 4.9848e-05, 'epoch': 0.11, 'throughput': 109.89}
+[INFO|2025-04-01 09:15:00] logging.py:143 >> {'loss': 1.1321, 'learning_rate': 4.9801e-05, 'epoch': 0.12, 'throughput': 110.22}
+[INFO|2025-04-01 09:15:53] logging.py:143 >> {'loss': 1.3012, 'learning_rate': 4.9749e-05, 'epoch': 0.14, 'throughput': 110.28}
+[INFO|2025-04-01 09:16:46] logging.py:143 >> {'loss': 0.9827, 'learning_rate': 4.9690e-05, 'epoch': 0.15, 'throughput': 110.24}
+[INFO|2025-04-01 09:17:40] logging.py:143 >> {'loss': 1.2313, 'learning_rate': 4.9625e-05, 'epoch': 0.17, 'throughput': 110.02}
+[INFO|2025-04-01 09:18:35] logging.py:143 >> {'loss': 1.0347, 'learning_rate': 4.9554e-05, 'epoch': 0.18, 'throughput': 110.10}
+[INFO|2025-04-01 09:19:28] logging.py:143 >> {'loss': 1.0422, 'learning_rate': 4.9476e-05, 'epoch': 0.20, 'throughput': 110.31}
+[INFO|2025-04-01 09:20:22] logging.py:143 >> {'loss': 0.9996, 'learning_rate': 4.9393e-05, 'epoch': 0.21, 'throughput': 110.36}
+[INFO|2025-04-01 09:21:16] logging.py:143 >> {'loss': 1.0755, 'learning_rate': 4.9304e-05, 'epoch': 0.23, 'throughput': 110.41}
+[INFO|2025-04-01 09:22:07] logging.py:143 >> {'loss': 1.0260, 'learning_rate': 4.9208e-05, 'epoch': 0.24, 'throughput': 110.15}
+[INFO|2025-04-01 09:22:59] logging.py:143 >> {'loss': 1.1307, 'learning_rate': 4.9107e-05, 'epoch': 0.26, 'throughput': 110.04}
+[INFO|2025-04-01 09:23:52] logging.py:143 >> {'loss': 1.0221, 'learning_rate': 4.8999e-05, 'epoch': 0.27, 'throughput': 109.93}
+[INFO|2025-04-01 09:24:43] logging.py:143 >> {'loss': 1.0120, 'learning_rate': 4.8886e-05, 'epoch': 0.29, 'throughput': 109.96}
+[INFO|2025-04-01 09:25:34] logging.py:143 >> {'loss': 1.0151, 'learning_rate': 4.8767e-05, 'epoch': 0.30, 'throughput': 109.77}
+[INFO|2025-04-01 09:25:34] trainer.py:3966 >> Saving model checkpoint to saves/Custom/lora/train_2025-04-01-09-06-36/checkpoint-100
+[INFO|2025-04-01 09:25:34] configuration_utils.py:699 >> loading configuration file config.json from cache at /root/.cache/huggingface/hub/models--prithivMLmods--Qwen2-VL-OCR-2B-Instruct/snapshots/a54254d5cc9f82e1c362db82adede275d20bbc6b/config.json
+[INFO|2025-04-01 09:25:34] configuration_utils.py:771 >> Model config Qwen2VLConfig {
+  "architectures": [
+    "Qwen2VLForConditionalGeneration"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "hidden_act": "silu",
+  "hidden_size": 1536,
+  "image_token_id": 151655,
+  "initializer_range": 0.02,
+  "intermediate_size": 8960,
+  "max_position_embeddings": 32768,
+  "max_window_layers": 28,
+  "model_type": "qwen2_vl",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 2,
+  "pad_token_id": 151654,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": {
+    "mrope_section": [
+      16,
+      24,
+      24
+    ],
+    "rope_type": "default",
+    "type": "default"
+  },
+  "rope_theta": 1000000.0,
+  "sliding_window": 32768,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.50.0",
+  "use_cache": true,
+  "use_sliding_window": false,
+  "video_token_id": 151656,
+  "vision_config": {
+    "depth": 32,
+    "embed_dim": 1280,
+    "hidden_act": "quick_gelu",
+    "hidden_size": 1536,
+    "in_channels": 3,
+    "in_chans": 3,
+    "mlp_ratio": 4,
+    "model_type": "qwen2_vl",
+    "num_heads": 16,
+    "patch_size": 14,
+    "spatial_merge_size": 2,
+    "spatial_patch_size": 14,
+    "temporal_patch_size": 2
+  },
+  "vision_end_token_id": 151653,
+  "vision_start_token_id": 151652,
+  "vision_token_id": 151654,
+  "vocab_size": 151936
+}
+[INFO|2025-04-01 09:25:35] tokenization_utils_base.py:2510 >> tokenizer config file saved in saves/Custom/lora/train_2025-04-01-09-06-36/checkpoint-100/tokenizer_config.json
+[INFO|2025-04-01 09:25:35] tokenization_utils_base.py:2519 >> Special tokens file saved in saves/Custom/lora/train_2025-04-01-09-06-36/checkpoint-100/special_tokens_map.json
+[INFO|2025-04-01 09:26:26] logging.py:143 >> {'loss': 1.0028, 'learning_rate': 4.8641e-05, 'epoch': 0.32, 'throughput': 109.30}
+[INFO|2025-04-01 09:27:18] logging.py:143 >> {'loss': 1.1430, 'learning_rate': 4.8510e-05, 'epoch': 0.33, 'throughput': 109.20}
+[INFO|2025-04-01 09:28:09] logging.py:143 >> {'loss': 0.9695, 'learning_rate': 4.8373e-05, 'epoch': 0.35, 'throughput': 109.18}
+[INFO|2025-04-01 09:29:04] logging.py:143 >> {'loss': 0.9017, 'learning_rate': 4.8230e-05, 'epoch': 0.36, 'throughput': 109.34}
+[INFO|2025-04-01 09:29:56] logging.py:143 >> {'loss': 1.0350, 'learning_rate': 4.8082e-05, 'epoch': 0.38, 'throughput': 109.29}
+[INFO|2025-04-01 09:30:48] logging.py:143 >> {'loss': 1.0128, 'learning_rate': 4.7928e-05, 'epoch': 0.39, 'throughput': 109.25}
+[INFO|2025-04-01 09:31:41] logging.py:143 >> {'loss': 0.9432, 'learning_rate': 4.7768e-05, 'epoch': 0.41, 'throughput': 109.32}
+[INFO|2025-04-01 09:32:35] logging.py:143 >> {'loss': 1.0344, 'learning_rate': 4.7602e-05, 'epoch': 0.42, 'throughput': 109.50}
+[INFO|2025-04-01 09:33:27] logging.py:143 >> {'loss': 0.9452, 'learning_rate': 4.7431e-05, 'epoch': 0.44, 'throughput': 109.55}
+[INFO|2025-04-01 09:34:19] logging.py:143 >> {'loss': 0.9559, 'learning_rate': 4.7254e-05, 'epoch': 0.45, 'throughput': 109.53}
+[INFO|2025-04-01 09:35:12] logging.py:143 >> {'loss': 0.9726, 'learning_rate': 4.7071e-05, 'epoch': 0.47, 'throughput': 109.60}
+[INFO|2025-04-01 09:36:04] logging.py:143 >> {'loss': 0.9344, 'learning_rate': 4.6883e-05, 'epoch': 0.48, 'throughput': 109.48}
+[INFO|2025-04-01 09:36:56] logging.py:143 >> {'loss': 0.9497, 'learning_rate': 4.6690e-05, 'epoch': 0.50, 'throughput': 109.40}
+[INFO|2025-04-01 09:37:52] logging.py:143 >> {'loss': 1.0570, 'learning_rate': 4.6491e-05, 'epoch': 0.51, 'throughput': 109.59}
+[INFO|2025-04-01 09:38:44] logging.py:143 >> {'loss': 0.9847, 'learning_rate': 4.6287e-05, 'epoch': 0.53, 'throughput': 109.65}
+[INFO|2025-04-01 09:39:36] logging.py:143 >> {'loss': 1.0010, 'learning_rate': 4.6078e-05, 'epoch': 0.54, 'throughput': 109.52}
+[INFO|2025-04-01 09:40:29] logging.py:143 >> {'loss': 0.9384, 'learning_rate': 4.5863e-05, 'epoch': 0.56, 'throughput': 109.56}
+[INFO|2025-04-01 09:41:23] logging.py:143 >> {'loss': 1.0312, 'learning_rate': 4.5643e-05, 'epoch': 0.57, 'throughput': 109.68}
+[INFO|2025-04-01 09:42:16] logging.py:143 >> {'loss': 0.9112, 'learning_rate': 4.5418e-05, 'epoch': 0.59, 'throughput': 109.70}
+[INFO|2025-04-01 09:43:08] logging.py:143 >> {'loss': 0.9967, 'learning_rate': 4.5188e-05, 'epoch': 0.60, 'throughput': 109.66}
+[INFO|2025-04-01 09:43:08] trainer.py:3966 >> Saving model checkpoint to saves/Custom/lora/train_2025-04-01-09-06-36/checkpoint-200
+[INFO|2025-04-01 09:43:08] configuration_utils.py:699 >> loading configuration file config.json from cache at /root/.cache/huggingface/hub/models--prithivMLmods--Qwen2-VL-OCR-2B-Instruct/snapshots/a54254d5cc9f82e1c362db82adede275d20bbc6b/config.json
+[INFO|2025-04-01 09:43:08] configuration_utils.py:771 >> Model config Qwen2VLConfig {
+  "architectures": [
+    "Qwen2VLForConditionalGeneration"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "hidden_act": "silu",
+  "hidden_size": 1536,
+  "image_token_id": 151655,
+  "initializer_range": 0.02,
+  "intermediate_size": 8960,
+  "max_position_embeddings": 32768,
+  "max_window_layers": 28,
+  "model_type": "qwen2_vl",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 2,
+  "pad_token_id": 151654,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": {
+    "mrope_section": [
+      16,
+      24,
+      24
+    ],
+    "rope_type": "default",
+    "type": "default"
+  },
+  "rope_theta": 1000000.0,
+  "sliding_window": 32768,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.50.0",
+  "use_cache": true,
+  "use_sliding_window": false,
+  "video_token_id": 151656,
+  "vision_config": {
+    "depth": 32,
+    "embed_dim": 1280,
+    "hidden_act": "quick_gelu",
+    "hidden_size": 1536,
+    "in_channels": 3,
+    "in_chans": 3,
+    "mlp_ratio": 4,
+    "model_type": "qwen2_vl",
+    "num_heads": 16,
+    "patch_size": 14,
+    "spatial_merge_size": 2,
+    "spatial_patch_size": 14,
+    "temporal_patch_size": 2
+  },
+  "vision_end_token_id": 151653,
+  "vision_start_token_id": 151652,
+  "vision_token_id": 151654,
+  "vocab_size": 151936
+}
+[INFO|2025-04-01 09:43:09] tokenization_utils_base.py:2510 >> tokenizer config file saved in saves/Custom/lora/train_2025-04-01-09-06-36/checkpoint-200/tokenizer_config.json
+[INFO|2025-04-01 09:43:09] tokenization_utils_base.py:2519 >> Special tokens file saved in saves/Custom/lora/train_2025-04-01-09-06-36/checkpoint-200/special_tokens_map.json
+[INFO|2025-04-01 09:44:02] logging.py:143 >> {'loss': 1.0905, 'learning_rate': 4.4953e-05, 'epoch': 0.62, 'throughput': 109.64}
+[INFO|2025-04-01 09:44:55] logging.py:143 >> {'loss': 0.9487, 'learning_rate': 4.4713e-05, 'epoch': 0.63, 'throughput': 109.56}
+[INFO|2025-04-01 09:45:47] logging.py:143 >> {'loss': 0.8675, 'learning_rate': 4.4468e-05, 'epoch': 0.65, 'throughput': 109.56}
+[INFO|2025-04-01 09:46:40] logging.py:143 >> {'loss': 0.8624, 'learning_rate': 4.4219e-05, 'epoch': 0.66, 'throughput': 109.61}
+[INFO|2025-04-01 09:47:35] logging.py:143 >> {'loss': 1.0489, 'learning_rate': 4.3964e-05, 'epoch': 0.68, 'throughput': 109.74}
+[INFO|2025-04-01 09:48:27] logging.py:143 >> {'loss': 0.9139, 'learning_rate': 4.3705e-05, 'epoch': 0.69, 'throughput': 109.68}
+[INFO|2025-04-01 09:49:19] logging.py:143 >> {'loss': 0.9905, 'learning_rate': 4.3441e-05, 'epoch': 0.71, 'throughput': 109.62}
+[INFO|2025-04-01 09:50:13] logging.py:143 >> {'loss': 0.8974, 'learning_rate': 4.3172e-05, 'epoch': 0.72, 'throughput': 109.66}
+[INFO|2025-04-01 09:51:06] logging.py:143 >> {'loss': 0.9990, 'learning_rate': 4.2899e-05, 'epoch': 0.74, 'throughput': 109.68}
+[INFO|2025-04-01 09:51:59] logging.py:143 >> {'loss': 0.9916, 'learning_rate': 4.2622e-05, 'epoch': 0.75, 'throughput': 109.66}
+[INFO|2025-04-01 09:52:51] logging.py:143 >> {'loss': 0.9242, 'learning_rate': 4.2340e-05, 'epoch': 0.77, 'throughput': 109.54}
+[INFO|2025-04-01 09:53:45] logging.py:143 >> {'loss': 1.0426, 'learning_rate': 4.2054e-05, 'epoch': 0.78, 'throughput': 109.56}
+[INFO|2025-04-01 09:54:37] logging.py:143 >> {'loss': 0.8625, 'learning_rate': 4.1763e-05, 'epoch': 0.80, 'throughput': 109.50}
+[INFO|2025-04-01 09:55:30] logging.py:143 >> {'loss': 0.9959, 'learning_rate': 4.1469e-05, 'epoch': 0.81, 'throughput': 109.51}
+[INFO|2025-04-01 09:56:23] logging.py:143 >> {'loss': 0.9390, 'learning_rate': 4.1170e-05, 'epoch': 0.83, 'throughput': 109.57}
+[INFO|2025-04-01 09:57:16] logging.py:143 >> {'loss': 0.9741, 'learning_rate': 4.0867e-05, 'epoch': 0.84, 'throughput': 109.61}
+[INFO|2025-04-01 09:58:10] logging.py:143 >> {'loss': 0.9800, 'learning_rate': 4.0561e-05, 'epoch': 0.86, 'throughput': 109.62}
+[INFO|2025-04-01 09:59:02] logging.py:143 >> {'loss': 0.8898, 'learning_rate': 4.0250e-05, 'epoch': 0.87, 'throughput': 109.54}
+[INFO|2025-04-01 09:59:57] logging.py:143 >> {'loss': 0.9530, 'learning_rate': 3.9936e-05, 'epoch': 0.89, 'throughput': 109.67}
+[INFO|2025-04-01 10:00:50] logging.py:143 >> {'loss': 0.9311, 'learning_rate': 3.9618e-05, 'epoch': 0.90, 'throughput': 109.75}
+[INFO|2025-04-01 10:00:50] trainer.py:3966 >> Saving model checkpoint to saves/Custom/lora/train_2025-04-01-09-06-36/checkpoint-300
+[INFO|2025-04-01 10:00:51] configuration_utils.py:699 >> loading configuration file config.json from cache at /root/.cache/huggingface/hub/models--prithivMLmods--Qwen2-VL-OCR-2B-Instruct/snapshots/a54254d5cc9f82e1c362db82adede275d20bbc6b/config.json
+[INFO|2025-04-01 10:00:51] configuration_utils.py:771 >> Model config Qwen2VLConfig {
+  "architectures": [
+    "Qwen2VLForConditionalGeneration"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "hidden_act": "silu",
+  "hidden_size": 1536,
+  "image_token_id": 151655,
+  "initializer_range": 0.02,
+  "intermediate_size": 8960,
+  "max_position_embeddings": 32768,
+  "max_window_layers": 28,
+  "model_type": "qwen2_vl",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 2,
+  "pad_token_id": 151654,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": {
+    "mrope_section": [
+      16,
+      24,
+      24
+    ],
+    "rope_type": "default",
+    "type": "default"
+  },
+  "rope_theta": 1000000.0,
+  "sliding_window": 32768,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.50.0",
+  "use_cache": true,
+  "use_sliding_window": false,
+  "video_token_id": 151656,
+  "vision_config": {
+    "depth": 32,
+    "embed_dim": 1280,
+    "hidden_act": "quick_gelu",
+    "hidden_size": 1536,
+    "in_channels": 3,
+    "in_chans": 3,
+    "mlp_ratio": 4,
+    "model_type": "qwen2_vl",
+    "num_heads": 16,
+    "patch_size": 14,
+    "spatial_merge_size": 2,
+    "spatial_patch_size": 14,
+    "temporal_patch_size": 2
+  },
+  "vision_end_token_id": 151653,
+  "vision_start_token_id": 151652,
+  "vision_token_id": 151654,
+  "vocab_size": 151936
+}
+[INFO|2025-04-01 10:00:51] tokenization_utils_base.py:2510 >> tokenizer config file saved in saves/Custom/lora/train_2025-04-01-09-06-36/checkpoint-300/tokenizer_config.json
+[INFO|2025-04-01 10:00:51] tokenization_utils_base.py:2519 >> Special tokens file saved in saves/Custom/lora/train_2025-04-01-09-06-36/checkpoint-300/special_tokens_map.json
+[INFO|2025-04-01 10:01:43] logging.py:143 >> {'loss': 0.9114, 'learning_rate': 3.9296e-05, 'epoch': 0.92, 'throughput': 109.73}
+[INFO|2025-04-01 10:02:37] logging.py:143 >> {'loss': 0.9674, 'learning_rate': 3.8971e-05, 'epoch': 0.93, 'throughput': 109.85}
+[INFO|2025-04-01 10:03:30] logging.py:143 >> {'loss': 0.9582, 'learning_rate': 3.8642e-05, 'epoch': 0.95, 'throughput': 109.86}
+[INFO|2025-04-01 10:04:22] logging.py:143 >> {'loss': 0.9863, 'learning_rate': 3.8310e-05, 'epoch': 0.96, 'throughput': 109.84}
+[INFO|2025-04-01 10:05:16] logging.py:143 >> {'loss': 0.9060, 'learning_rate': 3.7975e-05, 'epoch': 0.98, 'throughput': 109.89}
+[INFO|2025-04-01 10:06:09] logging.py:143 >> {'loss': 0.8958, 'learning_rate': 3.7636e-05, 'epoch': 0.99, 'throughput': 109.87}
+[INFO|2025-04-01 10:06:54] logging.py:143 >> {'loss': 0.8349, 'learning_rate': 3.7295e-05, 'epoch': 1.01, 'throughput': 109.89}
+[INFO|2025-04-01 10:07:46] logging.py:143 >> {'loss': 0.8507, 'learning_rate': 3.6950e-05, 'epoch': 1.02, 'throughput': 109.86}
+[INFO|2025-04-01 10:08:39] logging.py:143 >> {'loss': 0.9287, 'learning_rate': 3.6602e-05, 'epoch': 1.04, 'throughput': 109.88}
+[INFO|2025-04-01 10:09:32] logging.py:143 >> {'loss': 0.9107, 'learning_rate': 3.6251e-05, 'epoch': 1.05, 'throughput': 109.91}
+[INFO|2025-04-01 10:10:25] logging.py:143 >> {'loss': 0.9520, 'learning_rate': 3.5898e-05, 'epoch': 1.07, 'throughput': 109.93}
+[INFO|2025-04-01 10:11:18] logging.py:143 >> {'loss': 0.9526, 'learning_rate': 3.5542e-05, 'epoch': 1.08, 'throughput': 109.92}
+[INFO|2025-04-01 10:12:11] logging.py:143 >> {'loss': 0.8775, 'learning_rate': 3.5183e-05, 'epoch': 1.10, 'throughput': 109.90}
+[INFO|2025-04-01 10:13:05] logging.py:143 >> {'loss': 0.8830, 'learning_rate': 3.4821e-05, 'epoch': 1.11, 'throughput': 109.94}
+[INFO|2025-04-01 10:13:58] logging.py:143 >> {'loss': 1.0032, 'learning_rate': 3.4458e-05, 'epoch': 1.13, 'throughput': 109.93}
+[INFO|2025-04-01 10:14:51] logging.py:143 >> {'loss': 0.9430, 'learning_rate': 3.4092e-05, 'epoch': 1.14, 'throughput': 109.94}
+[INFO|2025-04-01 10:15:43] logging.py:143 >> {'loss': 0.8010, 'learning_rate': 3.3723e-05, 'epoch': 1.16, 'throughput': 109.91}
+[INFO|2025-04-01 10:16:35] logging.py:143 >> {'loss': 0.9294, 'learning_rate': 3.3353e-05, 'epoch': 1.17, 'throughput': 109.91}
+[INFO|2025-04-01 10:17:28] logging.py:143 >> {'loss': 0.9528, 'learning_rate': 3.2980e-05, 'epoch': 1.19, 'throughput': 109.96}
+[INFO|2025-04-01 10:18:20] logging.py:143 >> {'loss': 0.8981, 'learning_rate': 3.2605e-05, 'epoch': 1.20, 'throughput': 109.93}
+[INFO|2025-04-01 10:18:21] trainer.py:3966 >> Saving model checkpoint to saves/Custom/lora/train_2025-04-01-09-06-36/checkpoint-400
+[INFO|2025-04-01 10:18:21] configuration_utils.py:699 >> loading configuration file config.json from cache at /root/.cache/huggingface/hub/models--prithivMLmods--Qwen2-VL-OCR-2B-Instruct/snapshots/a54254d5cc9f82e1c362db82adede275d20bbc6b/config.json
+[INFO|2025-04-01 10:18:21] configuration_utils.py:771 >> Model config Qwen2VLConfig {
+  "architectures": [
+    "Qwen2VLForConditionalGeneration"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "hidden_act": "silu",
+  "hidden_size": 1536,
+  "image_token_id": 151655,
+  "initializer_range": 0.02,
+  "intermediate_size": 8960,
+  "max_position_embeddings": 32768,
+  "max_window_layers": 28,
+  "model_type": "qwen2_vl",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 2,
+  "pad_token_id": 151654,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": {
+    "mrope_section": [
+      16,
+      24,
+      24
+    ],
+    "rope_type": "default",
+    "type": "default"
+  },
+  "rope_theta": 1000000.0,
+  "sliding_window": 32768,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.50.0",
+  "use_cache": true,
+  "use_sliding_window": false,
+  "video_token_id": 151656,
+  "vision_config": {
+    "depth": 32,
+    "embed_dim": 1280,
+    "hidden_act": "quick_gelu",
+    "hidden_size": 1536,
+    "in_channels": 3,
+    "in_chans": 3,
+    "mlp_ratio": 4,
+    "model_type": "qwen2_vl",
+    "num_heads": 16,
+    "patch_size": 14,
+    "spatial_merge_size": 2,
+    "spatial_patch_size": 14,
+    "temporal_patch_size": 2
+  },
+  "vision_end_token_id": 151653,
+  "vision_start_token_id": 151652,
+  "vision_token_id": 151654,
+  "vocab_size": 151936
+}
+[INFO|2025-04-01 10:18:21] tokenization_utils_base.py:2510 >> tokenizer config file saved in saves/Custom/lora/train_2025-04-01-09-06-36/checkpoint-400/tokenizer_config.json
+[INFO|2025-04-01 10:18:21] tokenization_utils_base.py:2519 >> Special tokens file saved in saves/Custom/lora/train_2025-04-01-09-06-36/checkpoint-400/special_tokens_map.json
+[INFO|2025-04-01 10:19:15] logging.py:143 >> {'loss': 0.9823, 'learning_rate': 3.2229e-05, 'epoch': 1.22, 'throughput': 109.94}
+[INFO|2025-04-01 10:20:06] logging.py:143 >> {'loss': 0.9047, 'learning_rate': 3.1850e-05, 'epoch': 1.23, 'throughput': 109.86}
+[INFO|2025-04-01 10:20:58] logging.py:143 >> {'loss': 0.8582, 'learning_rate': 3.1470e-05, 'epoch': 1.25, 'throughput': 109.84}
+[INFO|2025-04-01 10:21:50] logging.py:143 >> {'loss': 0.8787, 'learning_rate': 3.1089e-05, 'epoch': 1.26, 'throughput': 109.85}
+[INFO|2025-04-01 10:22:42] logging.py:143 >> {'loss': 0.8729, 'learning_rate': 3.0706e-05, 'epoch': 1.28, 'throughput': 109.85}
+[INFO|2025-04-01 10:23:37] logging.py:143 >> {'loss': 0.8772, 'learning_rate': 3.0321e-05, 'epoch': 1.29, 'throughput': 109.95}
+[INFO|2025-04-01 10:24:28] logging.py:143 >> {'loss': 0.9451, 'learning_rate': 2.9935e-05, 'epoch': 1.31, 'throughput': 109.94}
+[INFO|2025-04-01 10:25:22] logging.py:143 >> {'loss': 0.8202, 'learning_rate': 2.9548e-05, 'epoch': 1.32, 'throughput': 110.03}
+[INFO|2025-04-01 10:26:14] logging.py:143 >> {'loss': 0.9773, 'learning_rate': 2.9160e-05, 'epoch': 1.34, 'throughput': 110.05}
+[INFO|2025-04-01 10:27:04] logging.py:143 >> {'loss': 0.9101, 'learning_rate': 2.8771e-05, 'epoch': 1.35, 'throughput': 109.98}
+[INFO|2025-04-01 10:27:57] logging.py:143 >> {'loss': 0.9633, 'learning_rate': 2.8380e-05, 'epoch': 1.37, 'throughput': 110.01}
+[INFO|2025-04-01 10:28:47] logging.py:143 >> {'loss': 0.8886, 'learning_rate': 2.7989e-05, 'epoch': 1.38, 'throughput': 109.96}
+[INFO|2025-04-01 10:29:39] logging.py:143 >> {'loss': 0.9258, 'learning_rate': 2.7598e-05, 'epoch': 1.40, 'throughput': 109.96}
+[INFO|2025-04-01 10:30:30] logging.py:143 >> {'loss': 0.9039, 'learning_rate': 2.7205e-05, 'epoch': 1.41, 'throughput': 109.93}
+[INFO|2025-04-01 10:31:24] logging.py:143 >> {'loss': 1.0116, 'learning_rate': 2.6812e-05, 'epoch': 1.43, 'throughput': 109.99}
+[INFO|2025-04-01 10:32:14] logging.py:143 >> {'loss': 0.8218, 'learning_rate': 2.6419e-05, 'epoch': 1.44, 'throughput': 109.97}
+[INFO|2025-04-01 10:33:07] logging.py:143 >> {'loss': 0.8604, 'learning_rate': 2.6025e-05, 'epoch': 1.46, 'throughput': 109.96}
+[INFO|2025-04-01 10:33:59] logging.py:143 >> {'loss': 0.8044, 'learning_rate': 2.5631e-05, 'epoch': 1.47, 'throughput': 110.00}
+[INFO|2025-04-01 10:34:51] logging.py:143 >> {'loss': 0.9198, 'learning_rate': 2.5237e-05, 'epoch': 1.49, 'throughput': 109.98}
+[INFO|2025-04-01 10:35:45] logging.py:143 >> {'loss': 0.9181, 'learning_rate': 2.4842e-05, 'epoch': 1.50, 'throughput': 109.99}
+[INFO|2025-04-01 10:35:45] trainer.py:3966 >> Saving model checkpoint to saves/Custom/lora/train_2025-04-01-09-06-36/checkpoint-500
+[INFO|2025-04-01 10:35:45] configuration_utils.py:699 >> loading configuration file config.json from cache at /root/.cache/huggingface/hub/models--prithivMLmods--Qwen2-VL-OCR-2B-Instruct/snapshots/a54254d5cc9f82e1c362db82adede275d20bbc6b/config.json
+[INFO|2025-04-01 10:35:45] configuration_utils.py:771 >> Model config Qwen2VLConfig {
+  "architectures": [
+    "Qwen2VLForConditionalGeneration"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "hidden_act": "silu",
+  "hidden_size": 1536,
+  "image_token_id": 151655,
+  "initializer_range": 0.02,
+  "intermediate_size": 8960,
+  "max_position_embeddings": 32768,
+  "max_window_layers": 28,
+  "model_type": "qwen2_vl",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 2,
+  "pad_token_id": 151654,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": {
+    "mrope_section": [
+      16,
+      24,
+      24
+    ],
+    "rope_type": "default",
+    "type": "default"
+  },
+  "rope_theta": 1000000.0,
+  "sliding_window": 32768,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.50.0",
+  "use_cache": true,
+  "use_sliding_window": false,
+  "video_token_id": 151656,
+  "vision_config": {
+    "depth": 32,
+    "embed_dim": 1280,
+    "hidden_act": "quick_gelu",
+    "hidden_size": 1536,
+    "in_channels": 3,
+    "in_chans": 3,
+    "mlp_ratio": 4,
+    "model_type": "qwen2_vl",
+    "num_heads": 16,
+    "patch_size": 14,
+    "spatial_merge_size": 2,
+    "spatial_patch_size": 14,
+    "temporal_patch_size": 2
+  },
+  "vision_end_token_id": 151653,
+  "vision_start_token_id": 151652,
+  "vision_token_id": 151654,
+  "vocab_size": 151936
+}
+[INFO|2025-04-01 10:35:45] tokenization_utils_base.py:2510 >> tokenizer config file saved in saves/Custom/lora/train_2025-04-01-09-06-36/checkpoint-500/tokenizer_config.json
+[INFO|2025-04-01 10:35:45] tokenization_utils_base.py:2519 >> Special tokens file saved in saves/Custom/lora/train_2025-04-01-09-06-36/checkpoint-500/special_tokens_map.json
+[INFO|2025-04-01 10:36:39] logging.py:143 >> {'loss': 0.8644, 'learning_rate': 2.4448e-05, 'epoch': 1.52, 'throughput': 110.01}
+[INFO|2025-04-01 10:37:33] logging.py:143 >> {'loss': 1.0127, 'learning_rate': 2.4054e-05, 'epoch': 1.53, 'throughput': 110.05}
+[INFO|2025-04-01 10:38:24] logging.py:143 >> {'loss': 0.7937, 'learning_rate': 2.3660e-05, 'epoch': 1.55, 'throughput': 110.02}
+[INFO|2025-04-01 10:39:15] logging.py:143 >> {'loss': 0.9806, 'learning_rate': 2.3267e-05, 'epoch': 1.56, 'throughput': 110.01}
+[INFO|2025-04-01 10:40:09] logging.py:143 >> {'loss': 0.9340, 'learning_rate': 2.2873e-05, 'epoch': 1.58, 'throughput': 110.08}
+[INFO|2025-04-01 10:41:02] logging.py:143 >> {'loss': 0.9288, 'learning_rate': 2.2481e-05, 'epoch': 1.59, 'throughput': 110.09}
+[INFO|2025-04-01 10:41:55] logging.py:143 >> {'loss': 0.8597, 'learning_rate': 2.2089e-05, 'epoch': 1.61, 'throughput': 110.07}
+[INFO|2025-04-01 10:42:48] logging.py:143 >> {'loss': 0.8817, 'learning_rate': 2.1698e-05, 'epoch': 1.62, 'throughput': 110.10}
+[INFO|2025-04-01 10:43:41] logging.py:143 >> {'loss': 0.7770, 'learning_rate': 2.1307e-05, 'epoch': 1.64, 'throughput': 110.13}
+[INFO|2025-04-01 10:44:34] logging.py:143 >> {'loss': 0.7980, 'learning_rate': 2.0918e-05, 'epoch': 1.65, 'throughput': 110.11}
+[INFO|2025-04-01 10:45:28] logging.py:143 >> {'loss': 0.9104, 'learning_rate': 2.0529e-05, 'epoch': 1.67, 'throughput': 110.17}
+[INFO|2025-04-01 10:46:22] logging.py:143 >> {'loss': 0.8293, 'learning_rate': 2.0142e-05, 'epoch': 1.68, 'throughput': 110.26}
+[INFO|2025-04-01 10:47:14] logging.py:143 >> {'loss': 0.8821, 'learning_rate': 1.9756e-05, 'epoch': 1.70, 'throughput': 110.23}
+[INFO|2025-04-01 10:48:07] logging.py:143 >> {'loss': 0.8253, 'learning_rate': 1.9371e-05, 'epoch': 1.71, 'throughput': 110.27}
+[INFO|2025-04-01 10:48:59] logging.py:143 >> {'loss': 0.9391, 'learning_rate': 1.8988e-05, 'epoch': 1.73, 'throughput': 110.25}
+[INFO|2025-04-01 10:49:52] logging.py:143 >> {'loss': 0.8711, 'learning_rate': 1.8606e-05, 'epoch': 1.74, 'throughput': 110.28}
+[INFO|2025-04-01 10:50:44] logging.py:143 >> {'loss': 0.8346, 'learning_rate': 1.8225e-05, 'epoch': 1.76, 'throughput': 110.26}
+[INFO|2025-04-01 10:51:36] logging.py:143 >> {'loss': 0.8275, 'learning_rate': 1.7847e-05, 'epoch': 1.77, 'throughput': 110.27}
+[INFO|2025-04-01 10:52:27] logging.py:143 >> {'loss': 0.9435, 'learning_rate': 1.7470e-05, 'epoch': 1.79, 'throughput': 110.27}
+[INFO|2025-04-01 10:53:20] logging.py:143 >> {'loss': 0.8584, 'learning_rate': 1.7095e-05, 'epoch': 1.80, 'throughput': 110.29}
+[INFO|2025-04-01 10:53:20] trainer.py:3966 >> Saving model checkpoint to saves/Custom/lora/train_2025-04-01-09-06-36/checkpoint-600
+[INFO|2025-04-01 10:53:20] configuration_utils.py:699 >> loading configuration file config.json from cache at /root/.cache/huggingface/hub/models--prithivMLmods--Qwen2-VL-OCR-2B-Instruct/snapshots/a54254d5cc9f82e1c362db82adede275d20bbc6b/config.json
+[INFO|2025-04-01 10:53:20] configuration_utils.py:771 >> Model config Qwen2VLConfig {
+  "architectures": [
+    "Qwen2VLForConditionalGeneration"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "hidden_act": "silu",
+  "hidden_size": 1536,
+  "image_token_id": 151655,
+  "initializer_range": 0.02,
+  "intermediate_size": 8960,
+  "max_position_embeddings": 32768,
+  "max_window_layers": 28,
+  "model_type": "qwen2_vl",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 2,
+  "pad_token_id": 151654,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": {
+    "mrope_section": [
+      16,
+      24,
+      24
+    ],
+    "rope_type": "default",
+    "type": "default"
+  },
+  "rope_theta": 1000000.0,
+  "sliding_window": 32768,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.50.0",
+  "use_cache": true,
+  "use_sliding_window": false,
+  "video_token_id": 151656,
+  "vision_config": {
+    "depth": 32,
+    "embed_dim": 1280,
+    "hidden_act": "quick_gelu",
+    "hidden_size": 1536,
+    "in_channels": 3,
+    "in_chans": 3,
+    "mlp_ratio": 4,
+    "model_type": "qwen2_vl",
+    "num_heads": 16,
+    "patch_size": 14,
+    "spatial_merge_size": 2,
+    "spatial_patch_size": 14,
+    "temporal_patch_size": 2
+  },
+  "vision_end_token_id": 151653,
+  "vision_start_token_id": 151652,
+  "vision_token_id": 151654,
+  "vocab_size": 151936
+}
+[INFO|2025-04-01 10:53:21] tokenization_utils_base.py:2510 >> tokenizer config file saved in saves/Custom/lora/train_2025-04-01-09-06-36/checkpoint-600/tokenizer_config.json
+[INFO|2025-04-01 10:53:21] tokenization_utils_base.py:2519 >> Special tokens file saved in saves/Custom/lora/train_2025-04-01-09-06-36/checkpoint-600/special_tokens_map.json
+[INFO|2025-04-01 10:54:14] logging.py:143 >> {'loss': 0.8800, 'learning_rate': 1.6722e-05, 'epoch': 1.82, 'throughput': 110.30}
+[INFO|2025-04-01 10:55:06] logging.py:143 >> {'loss': 0.8825, 'learning_rate': 1.6351e-05, 'epoch': 1.83, 'throughput': 110.30}
+[INFO|2025-04-01 10:56:00] logging.py:143 >> {'loss': 0.9978, 'learning_rate': 1.5982e-05, 'epoch': 1.85, 'throughput': 110.33}
+[INFO|2025-04-01 10:56:54] logging.py:143 >> {'loss': 0.9626, 'learning_rate': 1.5615e-05, 'epoch': 1.86, 'throughput': 110.38}
+[INFO|2025-04-01 10:57:45] logging.py:143 >> {'loss': 0.9308, 'learning_rate': 1.5251e-05, 'epoch': 1.88, 'throughput': 110.37}
+[INFO|2025-04-01 10:58:39] logging.py:143 >> {'loss': 0.9757, 'learning_rate': 1.4889e-05, 'epoch': 1.89, 'throughput': 110.38}
+[INFO|2025-04-01 10:59:33] logging.py:143 >> {'loss': 0.7670, 'learning_rate': 1.4530e-05, 'epoch': 1.91, 'throughput': 110.43}
+[INFO|2025-04-01 11:00:23] logging.py:143 >> {'loss': 0.9272, 'learning_rate': 1.4173e-05, 'epoch': 1.92, 'throughput': 110.40}
+[INFO|2025-04-01 11:01:16] logging.py:143 >> {'loss': 0.7941, 'learning_rate': 1.3819e-05, 'epoch': 1.94, 'throughput': 110.41}
+[INFO|2025-04-01 11:02:08] logging.py:143 >> {'loss': 0.8408, 'learning_rate': 1.3468e-05, 'epoch': 1.95, 'throughput': 110.38}
+[INFO|2025-04-01 11:03:00] logging.py:143 >> {'loss': 0.8459, 'learning_rate': 1.3120e-05, 'epoch': 1.97, 'throughput': 110.35}
+[INFO|2025-04-01 11:03:52] logging.py:143 >> {'loss': 1.0117, 'learning_rate': 1.2774e-05, 'epoch': 1.98, 'throughput': 110.36}
+[INFO|2025-04-01 11:04:43] logging.py:143 >> {'loss': 0.9665, 'learning_rate': 1.2432e-05, 'epoch': 2.00, 'throughput': 110.32}
+[INFO|2025-04-01 11:05:28] logging.py:143 >> {'loss': 0.7625, 'learning_rate': 1.2093e-05, 'epoch': 2.01, 'throughput': 110.34}
+[INFO|2025-04-01 11:06:21] logging.py:143 >> {'loss': 0.8667, 'learning_rate': 1.1756e-05, 'epoch': 2.03, 'throughput': 110.33}
+[INFO|2025-04-01 11:07:14] logging.py:143 >> {'loss': 0.8297, 'learning_rate': 1.1424e-05, 'epoch': 2.04, 'throughput': 110.34}
+[INFO|2025-04-01 11:08:06] logging.py:143 >> {'loss': 0.8774, 'learning_rate': 1.1094e-05, 'epoch': 2.06, 'throughput': 110.35}
+[INFO|2025-04-01 11:08:59] logging.py:143 >> {'loss': 0.8476, 'learning_rate': 1.0768e-05, 'epoch': 2.07, 'throughput': 110.37}
+[INFO|2025-04-01 11:09:51] logging.py:143 >> {'loss': 0.8641, 'learning_rate': 1.0446e-05, 'epoch': 2.09, 'throughput': 110.35}
+[INFO|2025-04-01 11:10:44] logging.py:143 >> {'loss': 0.8383, 'learning_rate': 1.0127e-05, 'epoch': 2.10, 'throughput': 110.36}
+[INFO|2025-04-01 11:10:44] trainer.py:3966 >> Saving model checkpoint to saves/Custom/lora/train_2025-04-01-09-06-36/checkpoint-700
+[INFO|2025-04-01 11:10:45] configuration_utils.py:699 >> loading configuration file config.json from cache at /root/.cache/huggingface/hub/models--prithivMLmods--Qwen2-VL-OCR-2B-Instruct/snapshots/a54254d5cc9f82e1c362db82adede275d20bbc6b/config.json
+[INFO|2025-04-01 11:10:45] configuration_utils.py:771 >> Model config Qwen2VLConfig {
+  "architectures": [
+    "Qwen2VLForConditionalGeneration"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "hidden_act": "silu",
+  "hidden_size": 1536,
+  "image_token_id": 151655,
+  "initializer_range": 0.02,
+  "intermediate_size": 8960,
+  "max_position_embeddings": 32768,
+  "max_window_layers": 28,
+  "model_type": "qwen2_vl",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 2,
+  "pad_token_id": 151654,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": {
+    "mrope_section": [
+      16,
+      24,
+      24
+    ],
+    "rope_type": "default",
+    "type": "default"
+  },
+  "rope_theta": 1000000.0,
+  "sliding_window": 32768,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.50.0",
+  "use_cache": true,
+  "use_sliding_window": false,
+  "video_token_id": 151656,
+  "vision_config": {
+    "depth": 32,
+    "embed_dim": 1280,
+    "hidden_act": "quick_gelu",
+    "hidden_size": 1536,
+    "in_channels": 3,
+    "in_chans": 3,
+    "mlp_ratio": 4,
+    "model_type": "qwen2_vl",
+    "num_heads": 16,
+    "patch_size": 14,
+    "spatial_merge_size": 2,
+    "spatial_patch_size": 14,
+    "temporal_patch_size": 2
+  },
+  "vision_end_token_id": 151653,
+  "vision_start_token_id": 151652,
+  "vision_token_id": 151654,
+  "vocab_size": 151936
+}
+[INFO|2025-04-01 11:10:45] tokenization_utils_base.py:2510 >> tokenizer config file saved in saves/Custom/lora/train_2025-04-01-09-06-36/checkpoint-700/tokenizer_config.json
+[INFO|2025-04-01 11:10:45] tokenization_utils_base.py:2519 >> Special tokens file saved in saves/Custom/lora/train_2025-04-01-09-06-36/checkpoint-700/special_tokens_map.json
+[INFO|2025-04-01 11:11:38] logging.py:143 >> {'loss': 0.9123, 'learning_rate': 9.8123e-06, 'epoch': 2.12, 'throughput': 110.32}
+[INFO|2025-04-01 11:12:28] logging.py:143 >> {'loss': 0.9635, 'learning_rate': 9.5010e-06, 'epoch': 2.13, 'throughput': 110.28}
+[INFO|2025-04-01 11:13:21] logging.py:143 >> {'loss': 0.9221, 'learning_rate': 9.1936e-06, 'epoch': 2.15, 'throughput': 110.30}
+[INFO|2025-04-01 11:14:16] logging.py:143 >> {'loss': 0.8757, 'learning_rate': 8.8901e-06, 'epoch': 2.16, 'throughput': 110.34}
+[INFO|2025-04-01 11:15:08] logging.py:143 >> {'loss': 0.7958, 'learning_rate': 8.5906e-06, 'epoch': 2.18, 'throughput': 110.36}
+[INFO|2025-04-01 11:16:01] logging.py:143 >> {'loss': 0.7993, 'learning_rate': 8.2952e-06, 'epoch': 2.19, 'throughput': 110.36}
+[INFO|2025-04-01 11:16:55] logging.py:143 >> {'loss': 0.8436, 'learning_rate': 8.0039e-06, 'epoch': 2.21, 'throughput': 110.37}
+[INFO|2025-04-01 11:17:48] logging.py:143 >> {'loss': 0.8960, 'learning_rate': 7.7169e-06, 'epoch': 2.22, 'throughput': 110.38}
+[INFO|2025-04-01 11:18:39] logging.py:143 >> {'loss': 0.8948, 'learning_rate': 7.4342e-06, 'epoch': 2.24, 'throughput': 110.35}
+[INFO|2025-04-01 11:19:31] logging.py:143 >> {'loss': 0.8546, 'learning_rate': 7.1558e-06, 'epoch': 2.25, 'throughput': 110.33}
+[INFO|2025-04-01 11:20:23] logging.py:143 >> {'loss': 0.8494, 'learning_rate': 6.8819e-06, 'epoch': 2.27, 'throughput': 110.35}
+[INFO|2025-04-01 11:21:17] logging.py:143 >> {'loss': 0.7723, 'learning_rate': 6.6125e-06, 'epoch': 2.28, 'throughput': 110.40}
+[INFO|2025-04-01 11:22:08] logging.py:143 >> {'loss': 0.9168, 'learning_rate': 6.3477e-06, 'epoch': 2.30, 'throughput': 110.37}
+[INFO|2025-04-01 11:23:01] logging.py:143 >> {'loss': 0.8831, 'learning_rate': 6.0875e-06, 'epoch': 2.31, 'throughput': 110.38}
+[INFO|2025-04-01 11:23:52] logging.py:143 >> {'loss': 0.8540, 'learning_rate': 5.8320e-06, 'epoch': 2.33, 'throughput': 110.32}
+[INFO|2025-04-01 11:24:43] logging.py:143 >> {'loss': 0.8843, 'learning_rate': 5.5813e-06, 'epoch': 2.34, 'throughput': 110.32}
+[INFO|2025-04-01 11:25:36] logging.py:143 >> {'loss': 0.8620, 'learning_rate': 5.3354e-06, 'epoch': 2.36, 'throughput': 110.34}
+[INFO|2025-04-01 11:26:29] logging.py:143 >> {'loss': 0.9850, 'learning_rate': 5.0944e-06, 'epoch': 2.37, 'throughput': 110.34}
+[INFO|2025-04-01 11:27:20] logging.py:143 >> {'loss': 0.7679, 'learning_rate': 4.8583e-06, 'epoch': 2.39, 'throughput': 110.31}
+[INFO|2025-04-01 11:28:11] logging.py:143 >> {'loss': 0.8198, 'learning_rate': 4.6273e-06, 'epoch': 2.40, 'throughput': 110.30}
+[INFO|2025-04-01 11:28:11] trainer.py:3966 >> Saving model checkpoint to saves/Custom/lora/train_2025-04-01-09-06-36/checkpoint-800
+[INFO|2025-04-01 11:28:12] configuration_utils.py:699 >> loading configuration file config.json from cache at /root/.cache/huggingface/hub/models--prithivMLmods--Qwen2-VL-OCR-2B-Instruct/snapshots/a54254d5cc9f82e1c362db82adede275d20bbc6b/config.json
+[INFO|2025-04-01 11:28:12] configuration_utils.py:771 >> Model config Qwen2VLConfig {
+  "architectures": [
+    "Qwen2VLForConditionalGeneration"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "hidden_act": "silu",
+  "hidden_size": 1536,
+  "image_token_id": 151655,
+  "initializer_range": 0.02,
+  "intermediate_size": 8960,
+  "max_position_embeddings": 32768,
+  "max_window_layers": 28,
+  "model_type": "qwen2_vl",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 2,
+  "pad_token_id": 151654,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": {
+    "mrope_section": [
+      16,
+      24,
+      24
+    ],
+    "rope_type": "default",
+    "type": "default"
+  },
+  "rope_theta": 1000000.0,
+  "sliding_window": 32768,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.50.0",
+  "use_cache": true,
+  "use_sliding_window": false,
+  "video_token_id": 151656,
+  "vision_config": {
+    "depth": 32,
+    "embed_dim": 1280,
+    "hidden_act": "quick_gelu",
+    "hidden_size": 1536,
+    "in_channels": 3,
+    "in_chans": 3,
+    "mlp_ratio": 4,
+    "model_type": "qwen2_vl",
+    "num_heads": 16,
+    "patch_size": 14,
+    "spatial_merge_size": 2,
+    "spatial_patch_size": 14,
+    "temporal_patch_size": 2
+  },
+  "vision_end_token_id": 151653,
+  "vision_start_token_id": 151652,
+  "vision_token_id": 151654,
+  "vocab_size": 151936
+}
+[INFO|2025-04-01 11:28:12] tokenization_utils_base.py:2510 >> tokenizer config file saved in saves/Custom/lora/train_2025-04-01-09-06-36/checkpoint-800/tokenizer_config.json
+[INFO|2025-04-01 11:28:12] tokenization_utils_base.py:2519 >> Special tokens file saved in saves/Custom/lora/train_2025-04-01-09-06-36/checkpoint-800/special_tokens_map.json
+[INFO|2025-04-01 11:29:06] logging.py:143 >> {'loss': 0.7773, 'learning_rate': 4.4013e-06, 'epoch': 2.42, 'throughput': 110.28}
+[INFO|2025-04-01 11:29:58] logging.py:143 >> {'loss': 0.9312, 'learning_rate': 4.1805e-06, 'epoch': 2.43, 'throughput': 110.27}
+[INFO|2025-04-01 11:30:50] logging.py:143 >> {'loss': 0.8497, 'learning_rate': 3.9648e-06, 'epoch': 2.45, 'throughput': 110.28}
+[INFO|2025-04-01 11:31:43] logging.py:143 >> {'loss': 0.7820, 'learning_rate': 3.7543e-06, 'epoch': 2.46, 'throughput': 110.29}
+[INFO|2025-04-01 11:32:36] logging.py:143 >> {'loss': 0.8937, 'learning_rate': 3.5492e-06, 'epoch': 2.48, 'throughput': 110.31}
+[INFO|2025-04-01 11:33:29] logging.py:143 >> {'loss': 0.7039, 'learning_rate': 3.3494e-06, 'epoch': 2.49, 'throughput': 110.36}
+[INFO|2025-04-01 11:34:22] logging.py:143 >> {'loss': 0.9265, 'learning_rate': 3.1549e-06, 'epoch': 2.51, 'throughput': 110.36}
+[INFO|2025-04-01 11:35:13] logging.py:143 >> {'loss': 0.8669, 'learning_rate': 2.9659e-06, 'epoch': 2.52, 'throughput': 110.36}
+[INFO|2025-04-01 11:36:05] logging.py:143 >> {'loss': 0.9174, 'learning_rate': 2.7824e-06, 'epoch': 2.54, 'throughput': 110.37}
+[INFO|2025-04-01 11:36:58] logging.py:143 >> {'loss': 0.8718, 'learning_rate': 2.6044e-06, 'epoch': 2.55, 'throughput': 110.38}
+[INFO|2025-04-01 11:37:50] logging.py:143 >> {'loss': 0.8634, 'learning_rate': 2.4320e-06, 'epoch': 2.57, 'throughput': 110.37}
+[INFO|2025-04-01 11:38:43] logging.py:143 >> {'loss': 0.8450, 'learning_rate': 2.2652e-06, 'epoch': 2.58, 'throughput': 110.38}
+[INFO|2025-04-01 11:39:34] logging.py:143 >> {'loss': 0.8008, 'learning_rate': 2.1040e-06, 'epoch': 2.60, 'throughput': 110.36}
+[INFO|2025-04-01 11:40:26] logging.py:143 >> {'loss': 0.8797, 'learning_rate': 1.9485e-06, 'epoch': 2.61, 'throughput': 110.36}
+[INFO|2025-04-01 11:41:19] logging.py:143 >> {'loss': 0.9460, 'learning_rate': 1.7988e-06, 'epoch': 2.63, 'throughput': 110.37}
+[INFO|2025-04-01 11:42:10] logging.py:143 >> {'loss': 0.8032, 'learning_rate': 1.6548e-06, 'epoch': 2.64, 'throughput': 110.36}
+[INFO|2025-04-01 11:43:02] logging.py:143 >> {'loss': 0.8892, 'learning_rate': 1.5167e-06, 'epoch': 2.66, 'throughput': 110.37}
+[INFO|2025-04-01 11:43:56] logging.py:143 >> {'loss': 0.8560, 'learning_rate': 1.3844e-06, 'epoch': 2.67, 'throughput': 110.39}
+[INFO|2025-04-01 11:44:49] logging.py:143 >> {'loss': 0.8617, 'learning_rate': 1.2579e-06, 'epoch': 2.69, 'throughput': 110.43}
+[INFO|2025-04-01 11:45:43] logging.py:143 >> {'loss': 0.9117, 'learning_rate': 1.1374e-06, 'epoch': 2.70, 'throughput': 110.46}
+[INFO|2025-04-01 11:45:43] trainer.py:3966 >> Saving model checkpoint to saves/Custom/lora/train_2025-04-01-09-06-36/checkpoint-900
+[INFO|2025-04-01 11:45:44] configuration_utils.py:699 >> loading configuration file config.json from cache at /root/.cache/huggingface/hub/models--prithivMLmods--Qwen2-VL-OCR-2B-Instruct/snapshots/a54254d5cc9f82e1c362db82adede275d20bbc6b/config.json
+[INFO|2025-04-01 11:45:44] configuration_utils.py:771 >> Model config Qwen2VLConfig {
+  "architectures": [
+    "Qwen2VLForConditionalGeneration"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "hidden_act": "silu",
+  "hidden_size": 1536,
+  "image_token_id": 151655,
+  "initializer_range": 0.02,
+  "intermediate_size": 8960,
+  "max_position_embeddings": 32768,
+  "max_window_layers": 28,
+  "model_type": "qwen2_vl",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 2,
+  "pad_token_id": 151654,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": {
+    "mrope_section": [
+      16,
+      24,
+      24
+    ],
+    "rope_type": "default",
+    "type": "default"
+  },
+  "rope_theta": 1000000.0,
+  "sliding_window": 32768,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.50.0",
+  "use_cache": true,
+  "use_sliding_window": false,
+  "video_token_id": 151656,
+  "vision_config": {
+    "depth": 32,
+    "embed_dim": 1280,
+    "hidden_act": "quick_gelu",
+    "hidden_size": 1536,
+    "in_channels": 3,
+    "in_chans": 3,
+    "mlp_ratio": 4,
+    "model_type": "qwen2_vl",
+    "num_heads": 16,
+    "patch_size": 14,
+    "spatial_merge_size": 2,
+    "spatial_patch_size": 14,
+    "temporal_patch_size": 2
+  },
+  "vision_end_token_id": 151653,
+  "vision_start_token_id": 151652,
+  "vision_token_id": 151654,
+  "vocab_size": 151936
+}
+[INFO|2025-04-01 11:45:44] tokenization_utils_base.py:2510 >> tokenizer config file saved in saves/Custom/lora/train_2025-04-01-09-06-36/checkpoint-900/tokenizer_config.json
+[INFO|2025-04-01 11:45:44] tokenization_utils_base.py:2519 >> Special tokens file saved in saves/Custom/lora/train_2025-04-01-09-06-36/checkpoint-900/special_tokens_map.json
+[INFO|2025-04-01 11:46:37] logging.py:143 >> {'loss': 0.7855, 'learning_rate': 1.0228e-06, 'epoch': 2.72, 'throughput': 110.44}
+[INFO|2025-04-01 11:47:29] logging.py:143 >> {'loss': 0.8212, 'learning_rate': 9.1416e-07, 'epoch': 2.73, 'throughput': 110.42}
+[INFO|2025-04-01 11:48:22] logging.py:143 >> {'loss': 0.8404, 'learning_rate': 8.1152e-07, 'epoch': 2.75, 'throughput': 110.45}
+[INFO|2025-04-01 11:49:15] logging.py:143 >> {'loss': 0.7782, 'learning_rate': 7.1489e-07, 'epoch': 2.76, 'throughput': 110.45}
+[INFO|2025-04-01 11:50:08] logging.py:143 >> {'loss': 0.7847, 'learning_rate': 6.2430e-07, 'epoch': 2.78, 'throughput': 110.45}
+[INFO|2025-04-01 11:51:01] logging.py:143 >> {'loss': 0.8857, 'learning_rate': 5.3977e-07, 'epoch': 2.79, 'throughput': 110.46}
+[INFO|2025-04-01 11:51:54] logging.py:143 >> {'loss': 0.8029, 'learning_rate': 4.6133e-07, 'epoch': 2.81, 'throughput': 110.48}
+[INFO|2025-04-01 11:52:46] logging.py:143 >> {'loss': 0.8154, 'learning_rate': 3.8899e-07, 'epoch': 2.82, 'throughput': 110.45}
+[INFO|2025-04-01 11:53:39] logging.py:143 >> {'loss': 0.8791, 'learning_rate': 3.2277e-07, 'epoch': 2.84, 'throughput': 110.45}
+[INFO|2025-04-01 11:54:32] logging.py:143 >> {'loss': 0.7870, 'learning_rate': 2.6269e-07, 'epoch': 2.85, 'throughput': 110.46}
+[INFO|2025-04-01 11:55:26] logging.py:143 >> {'loss': 0.8831, 'learning_rate': 2.0876e-07, 'epoch': 2.87, 'throughput': 110.49}
+[INFO|2025-04-01 11:56:19] logging.py:143 >> {'loss': 0.7677, 'learning_rate': 1.6100e-07, 'epoch': 2.88, 'throughput': 110.49}
+[INFO|2025-04-01 11:57:10] logging.py:143 >> {'loss': 0.7567, 'learning_rate': 1.1942e-07, 'epoch': 2.90, 'throughput': 110.47}
+[INFO|2025-04-01 11:58:02] logging.py:143 >> {'loss': 0.8944, 'learning_rate': 8.4022e-08, 'epoch': 2.91, 'throughput': 110.46}
+[INFO|2025-04-01 11:58:53] logging.py:143 >> {'loss': 0.9737, 'learning_rate': 5.4824e-08, 'epoch': 2.93, 'throughput': 110.44}
+[INFO|2025-04-01 11:59:45] logging.py:143 >> {'loss': 0.8965, 'learning_rate': 3.1830e-08, 'epoch': 2.95, 'throughput': 110.44}
+[INFO|2025-04-01 12:00:37] logging.py:143 >> {'loss': 0.8370, 'learning_rate': 1.5046e-08, 'epoch': 2.96, 'throughput': 110.41}
+[INFO|2025-04-01 12:01:29] logging.py:143 >> {'loss': 0.7812, 'learning_rate': 4.4769e-09, 'epoch': 2.98, 'throughput': 110.40}
+[INFO|2025-04-01 12:02:24] logging.py:143 >> {'loss': 0.8613, 'learning_rate': 1.2436e-10, 'epoch': 2.99, 'throughput': 110.45}
+[INFO|2025-04-01 12:02:35] trainer.py:3966 >> Saving model checkpoint to saves/Custom/lora/train_2025-04-01-09-06-36/checkpoint-996
+[INFO|2025-04-01 12:02:35] configuration_utils.py:699 >> loading configuration file config.json from cache at /root/.cache/huggingface/hub/models--prithivMLmods--Qwen2-VL-OCR-2B-Instruct/snapshots/a54254d5cc9f82e1c362db82adede275d20bbc6b/config.json
+[INFO|2025-04-01 12:02:35] configuration_utils.py:771 >> Model config Qwen2VLConfig {
+  "architectures": [
+    "Qwen2VLForConditionalGeneration"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "hidden_act": "silu",
+  "hidden_size": 1536,
+  "image_token_id": 151655,
+  "initializer_range": 0.02,
+  "intermediate_size": 8960,
+  "max_position_embeddings": 32768,
+  "max_window_layers": 28,
+  "model_type": "qwen2_vl",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 2,
+  "pad_token_id": 151654,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": {
+    "mrope_section": [
+      16,
+      24,
+      24
+    ],
+    "rope_type": "default",
+    "type": "default"
+  },
+  "rope_theta": 1000000.0,
+  "sliding_window": 32768,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.50.0",
+  "use_cache": true,
+  "use_sliding_window": false,
+  "video_token_id": 151656,
+  "vision_config": {
+    "depth": 32,
+    "embed_dim": 1280,
+    "hidden_act": "quick_gelu",
+    "hidden_size": 1536,
+    "in_channels": 3,
+    "in_chans": 3,
+    "mlp_ratio": 4,
+    "model_type": "qwen2_vl",
+    "num_heads": 16,
+    "patch_size": 14,
+    "spatial_merge_size": 2,
+    "spatial_patch_size": 14,
+    "temporal_patch_size": 2
+  },
+  "vision_end_token_id": 151653,
+  "vision_start_token_id": 151652,
+  "vision_token_id": 151654,
+  "vocab_size": 151936
+}
+[INFO|2025-04-01 12:02:35] tokenization_utils_base.py:2510 >> tokenizer config file saved in saves/Custom/lora/train_2025-04-01-09-06-36/checkpoint-996/tokenizer_config.json
+[INFO|2025-04-01 12:02:35] tokenization_utils_base.py:2519 >> Special tokens file saved in saves/Custom/lora/train_2025-04-01-09-06-36/checkpoint-996/special_tokens_map.json
+[INFO|2025-04-01 12:02:36] trainer.py:2665 >>
+Training completed. Do not forget to share your model on huggingface.co/models =)
+[INFO|2025-04-01 12:02:36] trainer.py:3966 >> Saving model checkpoint to saves/Custom/lora/train_2025-04-01-09-06-36
+[INFO|2025-04-01 12:02:37] configuration_utils.py:699 >> loading configuration file config.json from cache at /root/.cache/huggingface/hub/models--prithivMLmods--Qwen2-VL-OCR-2B-Instruct/snapshots/a54254d5cc9f82e1c362db82adede275d20bbc6b/config.json
+[INFO|2025-04-01 12:02:37] configuration_utils.py:771 >> Model config Qwen2VLConfig {
+  "architectures": [
+    "Qwen2VLForConditionalGeneration"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "hidden_act": "silu",
+  "hidden_size": 1536,
+  "image_token_id": 151655,
+  "initializer_range": 0.02,
+  "intermediate_size": 8960,
+  "max_position_embeddings": 32768,
+  "max_window_layers": 28,
+  "model_type": "qwen2_vl",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 2,
+  "pad_token_id": 151654,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": {
+    "mrope_section": [
+      16,
+      24,
+      24
+    ],
+    "rope_type": "default",
+    "type": "default"
+  },
+  "rope_theta": 1000000.0,
+  "sliding_window": 32768,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.50.0",
+  "use_cache": true,
+  "use_sliding_window": false,
+  "video_token_id": 151656,
+  "vision_config": {
+    "depth": 32,
+    "embed_dim": 1280,
+    "hidden_act": "quick_gelu",
+    "hidden_size": 1536,
+    "in_channels": 3,
+    "in_chans": 3,
+    "mlp_ratio": 4,
+    "model_type": "qwen2_vl",
+    "num_heads": 16,
+    "patch_size": 14,
+    "spatial_merge_size": 2,
+    "spatial_patch_size": 14,
+    "temporal_patch_size": 2
+  },
+  "vision_end_token_id": 151653,
+  "vision_start_token_id": 151652,
+  "vision_token_id": 151654,
+  "vocab_size": 151936
+}
+[INFO|2025-04-01 12:02:37] tokenization_utils_base.py:2510 >> tokenizer config file saved in saves/Custom/lora/train_2025-04-01-09-06-36/tokenizer_config.json
+[INFO|2025-04-01 12:02:37] tokenization_utils_base.py:2519 >> Special tokens file saved in saves/Custom/lora/train_2025-04-01-09-06-36/special_tokens_map.json
+[WARNING|2025-04-01 12:02:37] logging.py:148 >> No metric eval_loss to plot.
+[WARNING|2025-04-01 12:02:37] logging.py:148 >> No metric eval_accuracy to plot.
+[INFO|2025-04-01 12:02:37] modelcard.py:449 >> Dropping the following result as it does not have all the necessary fields:
+{'task': {'name': 'Causal Language Modeling', 'type': 'text-generation'}}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7d044cddc0af2b81635b0de71dba0a4a4d494dc953a5febbf525672df5af2e23
+size 11420365

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,128 @@

+{
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "bos_token": null,
+  "chat_template": "{% if messages[0]['role'] == 'system' %}{% set loop_messages = messages[1:] %}{% set system_message = messages[0]['content'] %}{% else %}{% set loop_messages = messages %}{% endif %}{% if system_message is defined %}{{ 'System: ' + system_message + '<|endoftext|>' + '\n' }}{% endif %}{% for message in loop_messages %}{% set content = message['content'] %}{% if message['role'] == 'user' %}{{ 'Human: ' + content + '<|endoftext|>' + '\nAssistant:' }}{% elif message['role'] == 'assistant' %}{{ content + '<|endoftext|>' + '\n' }}{% endif %}{% endfor %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|endoftext|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "right",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": "<|endoftext|>"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 2.9932279909706545,
+    "num_input_tokens_seen": 1157808,
+    "total_flos": 1.3788411572404224e+16,
+    "train_loss": 0.939127180590687,
+    "train_runtime": 10484.6402,
+    "train_samples_per_second": 0.761,
+    "train_steps_per_second": 0.095
+}

trainer_log.jsonl ADDED Viewed

	@@ -0,0 +1,200 @@

+{"current_steps": 5, "total_steps": 996, "loss": 2.4707, "lr": 4.9996890990217804e-05, "epoch": 0.015048908954100828, "percentage": 0.5, "elapsed_time": "0:00:54", "remaining_time": "2:59:14", "throughput": 108.07, "total_tokens": 5864}
+{"current_steps": 10, "total_steps": 996, "loss": 2.2509, "lr": 4.9987564734146566e-05, "epoch": 0.030097817908201655, "percentage": 1.0, "elapsed_time": "0:01:47", "remaining_time": "2:57:04", "throughput": 106.09, "total_tokens": 11432}
+{"current_steps": 15, "total_steps": 996, "loss": 1.6895, "lr": 4.997202355141999e-05, "epoch": 0.045146726862302484, "percentage": 1.51, "elapsed_time": "0:02:40", "remaining_time": "2:54:28", "throughput": 106.2, "total_tokens": 17000}
+{"current_steps": 20, "total_steps": 996, "loss": 1.4876, "lr": 4.995027130745321e-05, "epoch": 0.06019563581640331, "percentage": 2.01, "elapsed_time": "0:03:33", "remaining_time": "2:53:25", "throughput": 107.12, "total_tokens": 22840}
+{"current_steps": 25, "total_steps": 996, "loss": 1.4812, "lr": 4.992231341248137e-05, "epoch": 0.07524454477050414, "percentage": 2.51, "elapsed_time": "0:04:27", "remaining_time": "2:53:07", "throughput": 108.37, "total_tokens": 28984}
+{"current_steps": 30, "total_steps": 996, "loss": 1.3642, "lr": 4.9888156820213974e-05, "epoch": 0.09029345372460497, "percentage": 3.01, "elapsed_time": "0:05:20", "remaining_time": "2:51:47", "throughput": 108.89, "total_tokens": 34856}
+{"current_steps": 35, "total_steps": 996, "loss": 1.3651, "lr": 4.9847810026105394e-05, "epoch": 0.1053423626787058, "percentage": 3.51, "elapsed_time": "0:06:15", "remaining_time": "2:51:37", "throughput": 109.89, "total_tokens": 41216}
+{"current_steps": 40, "total_steps": 996, "loss": 1.1321, "lr": 4.980128306524183e-05, "epoch": 0.12039127163280662, "percentage": 4.02, "elapsed_time": "0:07:09", "remaining_time": "2:50:57", "throughput": 110.22, "total_tokens": 47304}
+{"current_steps": 45, "total_steps": 996, "loss": 1.3012, "lr": 4.97485875098454e-05, "epoch": 0.13544018058690746, "percentage": 4.52, "elapsed_time": "0:08:02", "remaining_time": "2:49:52", "throughput": 110.28, "total_tokens": 53184}
+{"current_steps": 50, "total_steps": 996, "loss": 0.9827, "lr": 4.968973646639589e-05, "epoch": 0.1504890895410083, "percentage": 5.02, "elapsed_time": "0:08:55", "remaining_time": "2:48:50", "throughput": 110.24, "total_tokens": 59024}
+{"current_steps": 55, "total_steps": 996, "loss": 1.2313, "lr": 4.9624744572370865e-05, "epoch": 0.1655379984951091, "percentage": 5.52, "elapsed_time": "0:09:49", "remaining_time": "2:47:59", "throughput": 110.02, "total_tokens": 64816}
+{"current_steps": 60, "total_steps": 996, "loss": 1.0347, "lr": 4.9553627992605066e-05, "epoch": 0.18058690744920994, "percentage": 6.02, "elapsed_time": "0:10:43", "remaining_time": "2:47:18", "throughput": 110.1, "total_tokens": 70848}
+{"current_steps": 65, "total_steps": 996, "loss": 1.0422, "lr": 4.947640441526989e-05, "epoch": 0.19563581640331076, "percentage": 6.53, "elapsed_time": "0:11:37", "remaining_time": "2:46:23", "throughput": 110.31, "total_tokens": 76888}
+{"current_steps": 70, "total_steps": 996, "loss": 0.9996, "lr": 4.939309304747391e-05, "epoch": 0.2106847253574116, "percentage": 7.03, "elapsed_time": "0:12:30", "remaining_time": "2:45:29", "throughput": 110.36, "total_tokens": 82840}
+{"current_steps": 75, "total_steps": 996, "loss": 1.0755, "lr": 4.930371461048571e-05, "epoch": 0.22573363431151242, "percentage": 7.53, "elapsed_time": "0:13:24", "remaining_time": "2:44:38", "throughput": 110.41, "total_tokens": 88824}
+{"current_steps": 80, "total_steps": 996, "loss": 1.026, "lr": 4.9208291334580104e-05, "epoch": 0.24078254326561324, "percentage": 8.03, "elapsed_time": "0:14:15", "remaining_time": "2:43:18", "throughput": 110.15, "total_tokens": 94264}
+{"current_steps": 85, "total_steps": 996, "loss": 1.1307, "lr": 4.910684695350895e-05, "epoch": 0.2558314522197141, "percentage": 8.53, "elapsed_time": "0:15:07", "remaining_time": "2:42:09", "throughput": 110.04, "total_tokens": 99896}
+{"current_steps": 90, "total_steps": 996, "loss": 1.0221, "lr": 4.8999406698598074e-05, "epoch": 0.2708803611738149, "percentage": 9.04, "elapsed_time": "0:16:00", "remaining_time": "2:41:13", "throughput": 109.93, "total_tokens": 105640}
+{"current_steps": 95, "total_steps": 996, "loss": 1.012, "lr": 4.8885997292471774e-05, "epoch": 0.28592927012791575, "percentage": 9.54, "elapsed_time": "0:16:52", "remaining_time": "2:39:58", "throughput": 109.96, "total_tokens": 111280}
+{"current_steps": 100, "total_steps": 996, "loss": 1.0151, "lr": 4.87666469424063e-05, "epoch": 0.3009781790820166, "percentage": 10.04, "elapsed_time": "0:17:42", "remaining_time": "2:38:41", "throughput": 109.77, "total_tokens": 116640}
+{"current_steps": 105, "total_steps": 996, "loss": 1.0028, "lr": 4.86413853333141e-05, "epoch": 0.3160270880361174, "percentage": 10.54, "elapsed_time": "0:18:34", "remaining_time": "2:37:40", "throughput": 109.3, "total_tokens": 121864}
+{"current_steps": 110, "total_steps": 996, "loss": 1.143, "lr": 4.851024362036064e-05, "epoch": 0.3310759969902182, "percentage": 11.04, "elapsed_time": "0:19:26", "remaining_time": "2:36:35", "throughput": 109.2, "total_tokens": 127384}
+{"current_steps": 115, "total_steps": 996, "loss": 0.9695, "lr": 4.837325442121538e-05, "epoch": 0.34612490594431905, "percentage": 11.55, "elapsed_time": "0:20:18", "remaining_time": "2:35:32", "throughput": 109.18, "total_tokens": 133008}
+{"current_steps": 120, "total_steps": 996, "loss": 0.9017, "lr": 4.8230451807939135e-05, "epoch": 0.3611738148984199, "percentage": 12.05, "elapsed_time": "0:21:12", "remaining_time": "2:34:49", "throughput": 109.34, "total_tokens": 139144}
+{"current_steps": 125, "total_steps": 996, "loss": 1.035, "lr": 4.808187129850963e-05, "epoch": 0.3762227238525207, "percentage": 12.55, "elapsed_time": "0:22:05", "remaining_time": "2:33:55", "throughput": 109.29, "total_tokens": 144848}
+{"current_steps": 130, "total_steps": 996, "loss": 1.0128, "lr": 4.792754984798745e-05, "epoch": 0.3912716328066215, "percentage": 13.05, "elapsed_time": "0:22:57", "remaining_time": "2:32:55", "throughput": 109.25, "total_tokens": 150480}
+{"current_steps": 135, "total_steps": 996, "loss": 0.9432, "lr": 4.776752583932454e-05, "epoch": 0.40632054176072235, "percentage": 13.55, "elapsed_time": "0:23:50", "remaining_time": "2:32:00", "throughput": 109.32, "total_tokens": 156336}
+{"current_steps": 140, "total_steps": 996, "loss": 1.0344, "lr": 4.760183907381757e-05, "epoch": 0.4213694507148232, "percentage": 14.06, "elapsed_time": "0:24:43", "remaining_time": "2:31:10", "throughput": 109.5, "total_tokens": 162440}
+{"current_steps": 145, "total_steps": 996, "loss": 0.9452, "lr": 4.7430530761208494e-05, "epoch": 0.436418359668924, "percentage": 14.56, "elapsed_time": "0:25:36", "remaining_time": "2:30:16", "throughput": 109.55, "total_tokens": 168304}
+{"current_steps": 150, "total_steps": 996, "loss": 0.9559, "lr": 4.725364350943492e-05, "epoch": 0.45146726862302483, "percentage": 15.06, "elapsed_time": "0:26:28", "remaining_time": "2:29:18", "throughput": 109.53, "total_tokens": 173984}
+{"current_steps": 155, "total_steps": 996, "loss": 0.9726, "lr": 4.707122131403251e-05, "epoch": 0.46651617757712566, "percentage": 15.56, "elapsed_time": "0:27:21", "remaining_time": "2:28:25", "throughput": 109.6, "total_tokens": 179896}
+{"current_steps": 160, "total_steps": 996, "loss": 0.9344, "lr": 4.6883309547192476e-05, "epoch": 0.4815650865312265, "percentage": 16.06, "elapsed_time": "0:28:12", "remaining_time": "2:27:23", "throughput": 109.48, "total_tokens": 185296}
+{"current_steps": 165, "total_steps": 996, "loss": 0.9497, "lr": 4.668995494647653e-05, "epoch": 0.4966139954853273, "percentage": 16.57, "elapsed_time": "0:29:05", "remaining_time": "2:26:29", "throughput": 109.4, "total_tokens": 190928}
+{"current_steps": 170, "total_steps": 996, "loss": 1.057, "lr": 4.649120560319225e-05, "epoch": 0.5116629044394282, "percentage": 17.07, "elapsed_time": "0:30:00", "remaining_time": "2:25:49", "throughput": 109.59, "total_tokens": 197352}
+{"current_steps": 175, "total_steps": 996, "loss": 0.9847, "lr": 4.6287110950431865e-05, "epoch": 0.526711813393529, "percentage": 17.57, "elapsed_time": "0:30:53", "remaining_time": "2:24:54", "throughput": 109.65, "total_tokens": 203216}
+{"current_steps": 180, "total_steps": 996, "loss": 1.001, "lr": 4.607772175077711e-05, "epoch": 0.5417607223476298, "percentage": 18.07, "elapsed_time": "0:31:44", "remaining_time": "2:23:55", "throughput": 109.52, "total_tokens": 208624}
+{"current_steps": 185, "total_steps": 996, "loss": 0.9384, "lr": 4.586309008367359e-05, "epoch": 0.5568096313017307, "percentage": 18.57, "elapsed_time": "0:32:38", "remaining_time": "2:23:04", "throughput": 109.56, "total_tokens": 214552}
+{"current_steps": 190, "total_steps": 996, "loss": 1.0312, "lr": 4.564326933247752e-05, "epoch": 0.5718585402558315, "percentage": 19.08, "elapsed_time": "0:33:32", "remaining_time": "2:22:16", "throughput": 109.68, "total_tokens": 220704}
+{"current_steps": 195, "total_steps": 996, "loss": 0.9112, "lr": 4.541831417117815e-05, "epoch": 0.5869074492099323, "percentage": 19.58, "elapsed_time": "0:34:24", "remaining_time": "2:21:20", "throughput": 109.7, "total_tokens": 226480}
+{"current_steps": 200, "total_steps": 996, "loss": 0.9967, "lr": 4.518828055079925e-05, "epoch": 0.6019563581640331, "percentage": 20.08, "elapsed_time": "0:35:16", "remaining_time": "2:20:25", "throughput": 109.66, "total_tokens": 232136}
+{"current_steps": 205, "total_steps": 996, "loss": 1.0905, "lr": 4.4953225685482904e-05, "epoch": 0.617005267118134, "percentage": 20.58, "elapsed_time": "0:36:11", "remaining_time": "2:19:38", "throughput": 109.64, "total_tokens": 238072}
+{"current_steps": 210, "total_steps": 996, "loss": 0.9487, "lr": 4.471320803825915e-05, "epoch": 0.6320541760722348, "percentage": 21.08, "elapsed_time": "0:37:04", "remaining_time": "2:18:44", "throughput": 109.56, "total_tokens": 243680}
+{"current_steps": 215, "total_steps": 996, "loss": 0.8675, "lr": 4.4468287306505045e-05, "epoch": 0.6471030850263356, "percentage": 21.59, "elapsed_time": "0:37:56", "remaining_time": "2:17:48", "throughput": 109.56, "total_tokens": 249376}
+{"current_steps": 220, "total_steps": 996, "loss": 0.8624, "lr": 4.421852440709666e-05, "epoch": 0.6621519939804364, "percentage": 22.09, "elapsed_time": "0:38:48", "remaining_time": "2:16:54", "throughput": 109.61, "total_tokens": 255288}
+{"current_steps": 225, "total_steps": 996, "loss": 1.0489, "lr": 4.39639814612578e-05, "epoch": 0.6772009029345373, "percentage": 22.59, "elapsed_time": "0:39:43", "remaining_time": "2:16:08", "throughput": 109.74, "total_tokens": 261592}
+{"current_steps": 230, "total_steps": 996, "loss": 0.9139, "lr": 4.370472177910914e-05, "epoch": 0.6922498118886381, "percentage": 23.09, "elapsed_time": "0:40:36", "remaining_time": "2:15:13", "throughput": 109.68, "total_tokens": 267192}
+{"current_steps": 235, "total_steps": 996, "loss": 0.9905, "lr": 4.3440809843921725e-05, "epoch": 0.7072987208427389, "percentage": 23.59, "elapsed_time": "0:41:27", "remaining_time": "2:14:16", "throughput": 109.62, "total_tokens": 272712}
+{"current_steps": 240, "total_steps": 996, "loss": 0.8974, "lr": 4.3172311296078595e-05, "epoch": 0.7223476297968398, "percentage": 24.1, "elapsed_time": "0:42:21", "remaining_time": "2:13:25", "throughput": 109.66, "total_tokens": 278720}
+{"current_steps": 245, "total_steps": 996, "loss": 0.999, "lr": 4.28992929167487e-05, "epoch": 0.7373965387509406, "percentage": 24.6, "elapsed_time": "0:43:14", "remaining_time": "2:12:33", "throughput": 109.68, "total_tokens": 284584}
+{"current_steps": 250, "total_steps": 996, "loss": 0.9916, "lr": 4.2621822611277e-05, "epoch": 0.7524454477050414, "percentage": 25.1, "elapsed_time": "0:44:08", "remaining_time": "2:11:42", "throughput": 109.66, "total_tokens": 290408}
+{"current_steps": 255, "total_steps": 996, "loss": 0.9242, "lr": 4.233996939229502e-05, "epoch": 0.7674943566591422, "percentage": 25.6, "elapsed_time": "0:45:00", "remaining_time": "2:10:46", "throughput": 109.54, "total_tokens": 295776}
+{"current_steps": 260, "total_steps": 996, "loss": 1.0426, "lr": 4.205380336255594e-05, "epoch": 0.782543265613243, "percentage": 26.1, "elapsed_time": "0:45:54", "remaining_time": "2:09:55", "throughput": 109.56, "total_tokens": 301736}
+{"current_steps": 265, "total_steps": 996, "loss": 0.8625, "lr": 4.176339569749865e-05, "epoch": 0.7975921745673439, "percentage": 26.61, "elapsed_time": "0:46:45", "remaining_time": "2:08:59", "throughput": 109.5, "total_tokens": 307224}
+{"current_steps": 270, "total_steps": 996, "loss": 0.9959, "lr": 4.1468818627544845e-05, "epoch": 0.8126410835214447, "percentage": 27.11, "elapsed_time": "0:47:38", "remaining_time": "2:08:06", "throughput": 109.51, "total_tokens": 313040}
+{"current_steps": 275, "total_steps": 996, "loss": 0.939, "lr": 4.11701454201339e-05, "epoch": 0.8276899924755455, "percentage": 27.61, "elapsed_time": "0:48:32", "remaining_time": "2:07:15", "throughput": 109.57, "total_tokens": 319112}
+{"current_steps": 280, "total_steps": 996, "loss": 0.9741, "lr": 4.08674503614997e-05, "epoch": 0.8427389014296464, "percentage": 28.11, "elapsed_time": "0:49:25", "remaining_time": "2:06:22", "throughput": 109.61, "total_tokens": 325040}
+{"current_steps": 285, "total_steps": 996, "loss": 0.98, "lr": 4.0560808738194114e-05, "epoch": 0.8577878103837472, "percentage": 28.61, "elapsed_time": "0:50:18", "remaining_time": "2:05:30", "throughput": 109.62, "total_tokens": 330904}
+{"current_steps": 290, "total_steps": 996, "loss": 0.8898, "lr": 4.0250296818361647e-05, "epoch": 0.872836719337848, "percentage": 29.12, "elapsed_time": "0:51:10", "remaining_time": "2:04:35", "throughput": 109.54, "total_tokens": 336392}
+{"current_steps": 295, "total_steps": 996, "loss": 0.953, "lr": 3.993599183277001e-05, "epoch": 0.8878856282919488, "percentage": 29.62, "elapsed_time": "0:52:06", "remaining_time": "2:03:48", "throughput": 109.67, "total_tokens": 342832}
+{"current_steps": 300, "total_steps": 996, "loss": 0.9311, "lr": 3.961797195560118e-05, "epoch": 0.9029345372460497, "percentage": 30.12, "elapsed_time": "0:52:59", "remaining_time": "2:02:56", "throughput": 109.75, "total_tokens": 348944}
+{"current_steps": 305, "total_steps": 996, "loss": 0.9114, "lr": 3.9296316285007887e-05, "epoch": 0.9179834462001505, "percentage": 30.62, "elapsed_time": "0:53:52", "remaining_time": "2:02:03", "throughput": 109.73, "total_tokens": 354680}
+{"current_steps": 310, "total_steps": 996, "loss": 0.9674, "lr": 3.897110482344024e-05, "epoch": 0.9330323551542513, "percentage": 31.12, "elapsed_time": "0:54:46", "remaining_time": "2:01:12", "throughput": 109.85, "total_tokens": 361008}
+{"current_steps": 315, "total_steps": 996, "loss": 0.9582, "lr": 3.864241845774746e-05, "epoch": 0.9480812641083521, "percentage": 31.63, "elapsed_time": "0:55:38", "remaining_time": "2:00:17", "throughput": 109.86, "total_tokens": 366760}
+{"current_steps": 320, "total_steps": 996, "loss": 0.9863, "lr": 3.8310338939059644e-05, "epoch": 0.963130173062453, "percentage": 32.13, "elapsed_time": "0:56:30", "remaining_time": "1:59:23", "throughput": 109.84, "total_tokens": 372448}
+{"current_steps": 325, "total_steps": 996, "loss": 0.906, "lr": 3.797494886245456e-05, "epoch": 0.9781790820165538, "percentage": 32.63, "elapsed_time": "0:57:24", "remaining_time": "1:58:31", "throughput": 109.89, "total_tokens": 378520}
+{"current_steps": 330, "total_steps": 996, "loss": 0.8958, "lr": 3.7636331646414524e-05, "epoch": 0.9932279909706546, "percentage": 33.13, "elapsed_time": "0:58:17", "remaining_time": "1:57:38", "throughput": 109.87, "total_tokens": 384272}
+{"current_steps": 335, "total_steps": 996, "loss": 0.8349, "lr": 3.7294571512078506e-05, "epoch": 1.0060195635816402, "percentage": 33.63, "elapsed_time": "0:59:02", "remaining_time": "1:56:30", "throughput": 109.89, "total_tokens": 389280}
+{"current_steps": 340, "total_steps": 996, "loss": 0.8507, "lr": 3.694975346229458e-05, "epoch": 1.021068472535741, "percentage": 34.14, "elapsed_time": "0:59:54", "remaining_time": "1:55:36", "throughput": 109.86, "total_tokens": 394944}
+{"current_steps": 345, "total_steps": 996, "loss": 0.9287, "lr": 3.6601963260477924e-05, "epoch": 1.036117381489842, "percentage": 34.64, "elapsed_time": "1:00:47", "remaining_time": "1:54:42", "throughput": 109.88, "total_tokens": 400800}
+{"current_steps": 350, "total_steps": 996, "loss": 0.9107, "lr": 3.625128740927971e-05, "epoch": 1.0511662904439427, "percentage": 35.14, "elapsed_time": "1:01:40", "remaining_time": "1:53:50", "throughput": 109.91, "total_tokens": 406728}
+{"current_steps": 355, "total_steps": 996, "loss": 0.952, "lr": 3.589781312907207e-05, "epoch": 1.0662151993980435, "percentage": 35.64, "elapsed_time": "1:02:33", "remaining_time": "1:52:57", "throughput": 109.93, "total_tokens": 412656}
+{"current_steps": 360, "total_steps": 996, "loss": 0.9526, "lr": 3.55416283362546e-05, "epoch": 1.0812641083521444, "percentage": 36.14, "elapsed_time": "1:03:27", "remaining_time": "1:52:05", "throughput": 109.92, "total_tokens": 418488}
+{"current_steps": 365, "total_steps": 996, "loss": 0.8775, "lr": 3.518282162138772e-05, "epoch": 1.0963130173062452, "percentage": 36.65, "elapsed_time": "1:04:19", "remaining_time": "1:51:12", "throughput": 109.9, "total_tokens": 424192}
+{"current_steps": 370, "total_steps": 996, "loss": 0.883, "lr": 3.482148222715835e-05, "epoch": 1.111361926260346, "percentage": 37.15, "elapsed_time": "1:05:14", "remaining_time": "1:50:22", "throughput": 109.94, "total_tokens": 430312}
+{"current_steps": 375, "total_steps": 996, "loss": 1.0032, "lr": 3.4457700026183374e-05, "epoch": 1.1264108352144468, "percentage": 37.65, "elapsed_time": "1:06:07", "remaining_time": "1:49:29", "throughput": 109.93, "total_tokens": 436128}
+{"current_steps": 380, "total_steps": 996, "loss": 0.943, "lr": 3.409156549865654e-05, "epoch": 1.141459744168548, "percentage": 38.15, "elapsed_time": "1:06:59", "remaining_time": "1:48:36", "throughput": 109.94, "total_tokens": 441928}
+{"current_steps": 385, "total_steps": 996, "loss": 0.801, "lr": 3.3723169709844026e-05, "epoch": 1.1565086531226485, "percentage": 38.65, "elapsed_time": "1:07:51", "remaining_time": "1:47:42", "throughput": 109.91, "total_tokens": 447560}
+{"current_steps": 390, "total_steps": 996, "loss": 0.9294, "lr": 3.335260428743475e-05, "epoch": 1.1715575620767495, "percentage": 39.16, "elapsed_time": "1:08:44", "remaining_time": "1:46:48", "throughput": 109.91, "total_tokens": 453296}
+{"current_steps": 395, "total_steps": 996, "loss": 0.9528, "lr": 3.297996139875055e-05, "epoch": 1.1866064710308502, "percentage": 39.66, "elapsed_time": "1:09:37", "remaining_time": "1:45:56", "throughput": 109.96, "total_tokens": 459336}
+{"current_steps": 400, "total_steps": 996, "loss": 0.8981, "lr": 3.260533372782234e-05, "epoch": 1.2016553799849512, "percentage": 40.16, "elapsed_time": "1:10:29", "remaining_time": "1:45:01", "throughput": 109.93, "total_tokens": 464944}
+{"current_steps": 405, "total_steps": 996, "loss": 0.9823, "lr": 3.222881445233759e-05, "epoch": 1.2167042889390518, "percentage": 40.66, "elapsed_time": "1:11:24", "remaining_time": "1:44:11", "throughput": 109.94, "total_tokens": 470992}
+{"current_steps": 410, "total_steps": 996, "loss": 0.9047, "lr": 3.185049722046516e-05, "epoch": 1.2317531978931529, "percentage": 41.16, "elapsed_time": "1:12:14", "remaining_time": "1:43:15", "throughput": 109.86, "total_tokens": 476216}
+{"current_steps": 415, "total_steps": 996, "loss": 0.8582, "lr": 3.147047612756302e-05, "epoch": 1.2468021068472535, "percentage": 41.67, "elapsed_time": "1:13:06", "remaining_time": "1:42:21", "throughput": 109.84, "total_tokens": 481824}
+{"current_steps": 420, "total_steps": 996, "loss": 0.8787, "lr": 3.10888456927748e-05, "epoch": 1.2618510158013545, "percentage": 42.17, "elapsed_time": "1:13:58", "remaining_time": "1:41:27", "throughput": 109.85, "total_tokens": 487576}
+{"current_steps": 425, "total_steps": 996, "loss": 0.8729, "lr": 3.0705700835520895e-05, "epoch": 1.276899924755455, "percentage": 42.67, "elapsed_time": "1:14:50", "remaining_time": "1:40:33", "throughput": 109.85, "total_tokens": 493336}
+{"current_steps": 430, "total_steps": 996, "loss": 0.8772, "lr": 3.0321136851890036e-05, "epoch": 1.2919488337095562, "percentage": 43.17, "elapsed_time": "1:15:45", "remaining_time": "1:39:43", "throughput": 109.95, "total_tokens": 499760}
+{"current_steps": 435, "total_steps": 996, "loss": 0.9451, "lr": 2.9935249390937183e-05, "epoch": 1.3069977426636568, "percentage": 43.67, "elapsed_time": "1:16:37", "remaining_time": "1:38:48", "throughput": 109.94, "total_tokens": 505400}
+{"current_steps": 440, "total_steps": 996, "loss": 0.8202, "lr": 2.9548134430893604e-05, "epoch": 1.3220466516177578, "percentage": 44.18, "elapsed_time": "1:17:31", "remaining_time": "1:37:57", "throughput": 110.03, "total_tokens": 511760}
+{"current_steps": 445, "total_steps": 996, "loss": 0.9773, "lr": 2.9159888255295116e-05, "epoch": 1.3370955605718584, "percentage": 44.68, "elapsed_time": "1:18:23", "remaining_time": "1:37:03", "throughput": 110.05, "total_tokens": 517616}
+{"current_steps": 450, "total_steps": 996, "loss": 0.9101, "lr": 2.8770607429034352e-05, "epoch": 1.3521444695259595, "percentage": 45.18, "elapsed_time": "1:19:13", "remaining_time": "1:36:07", "throughput": 109.98, "total_tokens": 522744}
+{"current_steps": 455, "total_steps": 996, "loss": 0.9633, "lr": 2.8380388774343047e-05, "epoch": 1.36719337848006, "percentage": 45.68, "elapsed_time": "1:20:05", "remaining_time": "1:35:13", "throughput": 110.01, "total_tokens": 528648}
+{"current_steps": 460, "total_steps": 996, "loss": 0.8886, "lr": 2.7989329346710375e-05, "epoch": 1.382242287434161, "percentage": 46.18, "elapsed_time": "1:20:56", "remaining_time": "1:34:18", "throughput": 109.96, "total_tokens": 534000}
+{"current_steps": 465, "total_steps": 996, "loss": 0.9258, "lr": 2.759752641074322e-05, "epoch": 1.3972911963882617, "percentage": 46.69, "elapsed_time": "1:21:48", "remaining_time": "1:33:24", "throughput": 109.96, "total_tokens": 539688}
+{"current_steps": 470, "total_steps": 996, "loss": 0.9039, "lr": 2.7205077415974416e-05, "epoch": 1.4123401053423628, "percentage": 47.19, "elapsed_time": "1:22:38", "remaining_time": "1:32:29", "throughput": 109.93, "total_tokens": 545112}
+{"current_steps": 475, "total_steps": 996, "loss": 1.0116, "lr": 2.6812079972625077e-05, "epoch": 1.4273890142964636, "percentage": 47.69, "elapsed_time": "1:23:32", "remaining_time": "1:31:37", "throughput": 109.99, "total_tokens": 551328}
+{"current_steps": 480, "total_steps": 996, "loss": 0.8218, "lr": 2.6418631827326857e-05, "epoch": 1.4424379232505644, "percentage": 48.19, "elapsed_time": "1:24:23", "remaining_time": "1:30:42", "throughput": 109.97, "total_tokens": 556816}
+{"current_steps": 485, "total_steps": 996, "loss": 0.8604, "lr": 2.602483083881035e-05, "epoch": 1.4574868322046652, "percentage": 48.69, "elapsed_time": "1:25:15", "remaining_time": "1:29:50", "throughput": 109.96, "total_tokens": 562552}
+{"current_steps": 490, "total_steps": 996, "loss": 0.8044, "lr": 2.563077495356561e-05, "epoch": 1.472535741158766, "percentage": 49.2, "elapsed_time": "1:26:08", "remaining_time": "1:28:56", "throughput": 110.0, "total_tokens": 568480}
+{"current_steps": 495, "total_steps": 996, "loss": 0.9198, "lr": 2.5236562181480794e-05, "epoch": 1.487584650112867, "percentage": 49.7, "elapsed_time": "1:26:59", "remaining_time": "1:28:03", "throughput": 109.98, "total_tokens": 574072}
+{"current_steps": 500, "total_steps": 996, "loss": 0.9181, "lr": 2.484229057146507e-05, "epoch": 1.5026335590669677, "percentage": 50.2, "elapsed_time": "1:27:53", "remaining_time": "1:27:11", "throughput": 109.99, "total_tokens": 580040}
+{"current_steps": 505, "total_steps": 996, "loss": 0.8644, "lr": 2.4448058187061835e-05, "epoch": 1.5176824680210683, "percentage": 50.7, "elapsed_time": "1:28:48", "remaining_time": "1:26:20", "throughput": 110.01, "total_tokens": 586128}
+{"current_steps": 510, "total_steps": 996, "loss": 1.0127, "lr": 2.4053963082058244e-05, "epoch": 1.5327313769751694, "percentage": 51.2, "elapsed_time": "1:29:41", "remaining_time": "1:25:28", "throughput": 110.05, "total_tokens": 592256}
+{"current_steps": 515, "total_steps": 996, "loss": 0.7937, "lr": 2.3660103276097232e-05, "epoch": 1.54778028592927, "percentage": 51.71, "elapsed_time": "1:30:32", "remaining_time": "1:24:33", "throughput": 110.02, "total_tokens": 597704}
+{"current_steps": 520, "total_steps": 996, "loss": 0.9806, "lr": 2.3266576730297956e-05, "epoch": 1.562829194883371, "percentage": 52.21, "elapsed_time": "1:31:23", "remaining_time": "1:23:39", "throughput": 110.01, "total_tokens": 603240}
+{"current_steps": 525, "total_steps": 996, "loss": 0.934, "lr": 2.2873481322890862e-05, "epoch": 1.5778781038374716, "percentage": 52.71, "elapsed_time": "1:32:18", "remaining_time": "1:22:48", "throughput": 110.08, "total_tokens": 609616}
+{"current_steps": 530, "total_steps": 996, "loss": 0.9288, "lr": 2.2480914824873297e-05, "epoch": 1.5929270127915727, "percentage": 53.21, "elapsed_time": "1:33:11", "remaining_time": "1:21:56", "throughput": 110.09, "total_tokens": 615520}
+{"current_steps": 535, "total_steps": 996, "loss": 0.8597, "lr": 2.2088974875691863e-05, "epoch": 1.6079759217456733, "percentage": 53.71, "elapsed_time": "1:34:03", "remaining_time": "1:21:03", "throughput": 110.07, "total_tokens": 621208}
+{"current_steps": 540, "total_steps": 996, "loss": 0.8817, "lr": 2.1697758958957448e-05, "epoch": 1.6230248306997743, "percentage": 54.22, "elapsed_time": "1:34:56", "remaining_time": "1:20:10", "throughput": 110.1, "total_tokens": 627176}
+{"current_steps": 545, "total_steps": 996, "loss": 0.777, "lr": 2.1307364378199005e-05, "epoch": 1.6380737396538751, "percentage": 54.72, "elapsed_time": "1:35:50", "remaining_time": "1:19:18", "throughput": 110.13, "total_tokens": 633248}
+{"current_steps": 550, "total_steps": 996, "loss": 0.798, "lr": 2.0917888232662196e-05, "epoch": 1.653122648607976, "percentage": 55.22, "elapsed_time": "1:36:43", "remaining_time": "1:18:25", "throughput": 110.11, "total_tokens": 639000}
+{"current_steps": 555, "total_steps": 996, "loss": 0.9104, "lr": 2.0529427393158705e-05, "epoch": 1.6681715575620768, "percentage": 55.72, "elapsed_time": "1:37:37", "remaining_time": "1:17:33", "throughput": 110.17, "total_tokens": 645280}
+{"current_steps": 560, "total_steps": 996, "loss": 0.8293, "lr": 2.014207847797256e-05, "epoch": 1.6832204665161776, "percentage": 56.22, "elapsed_time": "1:38:31", "remaining_time": "1:16:42", "throughput": 110.26, "total_tokens": 651760}
+{"current_steps": 565, "total_steps": 996, "loss": 0.8821, "lr": 1.9755937828829067e-05, "epoch": 1.6982693754702785, "percentage": 56.73, "elapsed_time": "1:39:22", "remaining_time": "1:15:48", "throughput": 110.23, "total_tokens": 657272}
+{"current_steps": 570, "total_steps": 996, "loss": 0.8253, "lr": 1.937110148693265e-05, "epoch": 1.7133182844243793, "percentage": 57.23, "elapsed_time": "1:40:15", "remaining_time": "1:14:56", "throughput": 110.27, "total_tokens": 663336}
+{"current_steps": 575, "total_steps": 996, "loss": 0.9391, "lr": 1.8987665169079454e-05, "epoch": 1.72836719337848, "percentage": 57.73, "elapsed_time": "1:41:07", "remaining_time": "1:14:02", "throughput": 110.25, "total_tokens": 668936}
+{"current_steps": 580, "total_steps": 996, "loss": 0.8711, "lr": 1.8605724243850502e-05, "epoch": 1.743416102332581, "percentage": 58.23, "elapsed_time": "1:42:00", "remaining_time": "1:13:10", "throughput": 110.28, "total_tokens": 675000}
+{"current_steps": 585, "total_steps": 996, "loss": 0.8346, "lr": 1.822537370789163e-05, "epoch": 1.7584650112866818, "percentage": 58.73, "elapsed_time": "1:42:52", "remaining_time": "1:12:16", "throughput": 110.26, "total_tokens": 680584}
+{"current_steps": 590, "total_steps": 996, "loss": 0.8275, "lr": 1.7846708162285785e-05, "epoch": 1.7735139202407826, "percentage": 59.24, "elapsed_time": "1:43:44", "remaining_time": "1:11:23", "throughput": 110.27, "total_tokens": 686416}
+{"current_steps": 595, "total_steps": 996, "loss": 0.9435, "lr": 1.7469821789023815e-05, "epoch": 1.7885628291948834, "percentage": 59.74, "elapsed_time": "1:44:35", "remaining_time": "1:10:29", "throughput": 110.27, "total_tokens": 692016}
+{"current_steps": 600, "total_steps": 996, "loss": 0.8584, "lr": 1.70948083275794e-05, "epoch": 1.8036117381489842, "percentage": 60.24, "elapsed_time": "1:45:28", "remaining_time": "1:09:36", "throughput": 110.29, "total_tokens": 697984}
+{"current_steps": 605, "total_steps": 996, "loss": 0.88, "lr": 1.672176105159417e-05, "epoch": 1.818660647103085, "percentage": 60.74, "elapsed_time": "1:46:23", "remaining_time": "1:08:45", "throughput": 110.3, "total_tokens": 704056}
+{"current_steps": 610, "total_steps": 996, "loss": 0.8825, "lr": 1.635077274567854e-05, "epoch": 1.8337095560571859, "percentage": 61.24, "elapsed_time": "1:47:15", "remaining_time": "1:07:52", "throughput": 110.3, "total_tokens": 709760}
+{"current_steps": 615, "total_steps": 996, "loss": 0.9978, "lr": 1.5981935682334264e-05, "epoch": 1.8487584650112867, "percentage": 61.75, "elapsed_time": "1:48:08", "remaining_time": "1:06:59", "throughput": 110.33, "total_tokens": 715872}
+{"current_steps": 620, "total_steps": 996, "loss": 0.9626, "lr": 1.561534159900441e-05, "epoch": 1.8638073739653875, "percentage": 62.25, "elapsed_time": "1:49:02", "remaining_time": "1:06:07", "throughput": 110.38, "total_tokens": 722184}
+{"current_steps": 625, "total_steps": 996, "loss": 0.9308, "lr": 1.525108167525624e-05, "epoch": 1.8788562829194884, "percentage": 62.75, "elapsed_time": "1:49:54", "remaining_time": "1:05:14", "throughput": 110.37, "total_tokens": 727776}
+{"current_steps": 630, "total_steps": 996, "loss": 0.9757, "lr": 1.4889246510103077e-05, "epoch": 1.8939051918735892, "percentage": 63.25, "elapsed_time": "1:50:47", "remaining_time": "1:04:21", "throughput": 110.38, "total_tokens": 733760}
+{"current_steps": 635, "total_steps": 996, "loss": 0.767, "lr": 1.4529926099470348e-05, "epoch": 1.90895410082769, "percentage": 63.76, "elapsed_time": "1:51:41", "remaining_time": "1:03:29", "throughput": 110.43, "total_tokens": 740024}
+{"current_steps": 640, "total_steps": 996, "loss": 0.9272, "lr": 1.4173209813811788e-05, "epoch": 1.9240030097817908, "percentage": 64.26, "elapsed_time": "1:52:32", "remaining_time": "1:02:36", "throughput": 110.4, "total_tokens": 745480}
+{"current_steps": 645, "total_steps": 996, "loss": 0.7941, "lr": 1.381918637588112e-05, "epoch": 1.9390519187358917, "percentage": 64.76, "elapsed_time": "1:53:25", "remaining_time": "1:01:43", "throughput": 110.41, "total_tokens": 751384}
+{"current_steps": 650, "total_steps": 996, "loss": 0.8408, "lr": 1.3467943838664863e-05, "epoch": 1.9541008276899925, "percentage": 65.26, "elapsed_time": "1:54:17", "remaining_time": "1:00:50", "throughput": 110.38, "total_tokens": 756920}
+{"current_steps": 655, "total_steps": 996, "loss": 0.8459, "lr": 1.311956956348177e-05, "epoch": 1.9691497366440933, "percentage": 65.76, "elapsed_time": "1:55:08", "remaining_time": "0:59:56", "throughput": 110.35, "total_tokens": 762424}
+{"current_steps": 660, "total_steps": 996, "loss": 1.0117, "lr": 1.277415019825417e-05, "epoch": 1.9841986455981941, "percentage": 66.27, "elapsed_time": "1:56:01", "remaining_time": "0:59:03", "throughput": 110.36, "total_tokens": 768224}
+{"current_steps": 665, "total_steps": 996, "loss": 0.9665, "lr": 1.2431771655956925e-05, "epoch": 1.999247554552295, "percentage": 66.77, "elapsed_time": "1:56:52", "remaining_time": "0:58:10", "throughput": 110.32, "total_tokens": 773568}
+{"current_steps": 670, "total_steps": 996, "loss": 0.7625, "lr": 1.2092519093248988e-05, "epoch": 2.0120391271632805, "percentage": 67.27, "elapsed_time": "1:57:37", "remaining_time": "0:57:13", "throughput": 110.34, "total_tokens": 778672}
+{"current_steps": 675, "total_steps": 996, "loss": 0.8667, "lr": 1.1756476889293269e-05, "epoch": 2.0270880361173815, "percentage": 67.77, "elapsed_time": "1:58:30", "remaining_time": "0:56:21", "throughput": 110.33, "total_tokens": 784488}
+{"current_steps": 680, "total_steps": 996, "loss": 0.8297, "lr": 1.1423728624769695e-05, "epoch": 2.042136945071482, "percentage": 68.27, "elapsed_time": "1:59:22", "remaining_time": "0:55:28", "throughput": 110.34, "total_tokens": 790304}
+{"current_steps": 685, "total_steps": 996, "loss": 0.8774, "lr": 1.1094357061087033e-05, "epoch": 2.057185854025583, "percentage": 68.78, "elapsed_time": "2:00:15", "remaining_time": "0:54:35", "throughput": 110.35, "total_tokens": 796192}
+{"current_steps": 690, "total_steps": 996, "loss": 0.8476, "lr": 1.0768444119798357e-05, "epoch": 2.072234762979684, "percentage": 69.28, "elapsed_time": "2:01:07", "remaining_time": "0:53:43", "throughput": 110.37, "total_tokens": 802144}
+{"current_steps": 695, "total_steps": 996, "loss": 0.8641, "lr": 1.0446070862225463e-05, "epoch": 2.087283671933785, "percentage": 69.78, "elapsed_time": "2:02:00", "remaining_time": "0:52:50", "throughput": 110.35, "total_tokens": 807768}
+{"current_steps": 700, "total_steps": 996, "loss": 0.8383, "lr": 1.0127317469297277e-05, "epoch": 2.1023325808878854, "percentage": 70.28, "elapsed_time": "2:02:53", "remaining_time": "0:51:57", "throughput": 110.36, "total_tokens": 813712}
+{"current_steps": 705, "total_steps": 996, "loss": 0.9123, "lr": 9.812263221607112e-06, "epoch": 2.1173814898419865, "percentage": 70.78, "elapsed_time": "2:03:46", "remaining_time": "0:51:05", "throughput": 110.32, "total_tokens": 819360}
+{"current_steps": 710, "total_steps": 996, "loss": 0.9635, "lr": 9.500986479694036e-06, "epoch": 2.132430398796087, "percentage": 71.29, "elapsed_time": "2:04:37", "remaining_time": "0:50:11", "throughput": 110.28, "total_tokens": 824584}
+{"current_steps": 715, "total_steps": 996, "loss": 0.9221, "lr": 9.19356466455287e-06, "epoch": 2.147479307750188, "percentage": 71.79, "elapsed_time": "2:05:30", "remaining_time": "0:49:19", "throughput": 110.3, "total_tokens": 830600}
+{"current_steps": 720, "total_steps": 996, "loss": 0.8757, "lr": 8.890074238378074e-06, "epoch": 2.1625282167042887, "percentage": 72.29, "elapsed_time": "2:06:24", "remaining_time": "0:48:27", "throughput": 110.34, "total_tokens": 836856}
+{"current_steps": 725, "total_steps": 996, "loss": 0.7958, "lr": 8.590590685545946e-06, "epoch": 2.17757712565839, "percentage": 72.79, "elapsed_time": "2:07:17", "remaining_time": "0:47:34", "throughput": 110.36, "total_tokens": 842872}
+{"current_steps": 730, "total_steps": 996, "loss": 0.7993, "lr": 8.295188493840104e-06, "epoch": 2.1926260346124904, "percentage": 73.29, "elapsed_time": "2:08:10", "remaining_time": "0:46:42", "throughput": 110.36, "total_tokens": 848664}
+{"current_steps": 735, "total_steps": 996, "loss": 0.8436, "lr": 8.003941135924858e-06, "epoch": 2.2076749435665914, "percentage": 73.8, "elapsed_time": "2:09:04", "remaining_time": "0:45:49", "throughput": 110.37, "total_tokens": 854712}
+{"current_steps": 740, "total_steps": 996, "loss": 0.896, "lr": 7.71692105107098e-06, "epoch": 2.222723852520692, "percentage": 74.3, "elapsed_time": "2:09:56", "remaining_time": "0:44:57", "throughput": 110.38, "total_tokens": 860648}
+{"current_steps": 745, "total_steps": 996, "loss": 0.8948, "lr": 7.434199627138602e-06, "epoch": 2.237772761474793, "percentage": 74.8, "elapsed_time": "2:10:48", "remaining_time": "0:44:04", "throughput": 110.35, "total_tokens": 866080}
+{"current_steps": 750, "total_steps": 996, "loss": 0.8546, "lr": 7.155847182821523e-06, "epoch": 2.2528216704288937, "percentage": 75.3, "elapsed_time": "2:11:39", "remaining_time": "0:43:11", "throughput": 110.33, "total_tokens": 871560}
+{"current_steps": 755, "total_steps": 996, "loss": 0.8494, "lr": 6.881932950157538e-06, "epoch": 2.2678705793829947, "percentage": 75.8, "elapsed_time": "2:12:32", "remaining_time": "0:42:18", "throughput": 110.35, "total_tokens": 877568}
+{"current_steps": 760, "total_steps": 996, "loss": 0.7723, "lr": 6.612525057308949e-06, "epoch": 2.282919488337096, "percentage": 76.31, "elapsed_time": "2:13:25", "remaining_time": "0:41:26", "throughput": 110.4, "total_tokens": 883808}
+{"current_steps": 765, "total_steps": 996, "loss": 0.9168, "lr": 6.347690511617693e-06, "epoch": 2.2979683972911964, "percentage": 76.81, "elapsed_time": "2:14:17", "remaining_time": "0:40:32", "throughput": 110.37, "total_tokens": 889296}
+{"current_steps": 770, "total_steps": 996, "loss": 0.8831, "lr": 6.0874951829392234e-06, "epoch": 2.313017306245297, "percentage": 77.31, "elapsed_time": "2:15:09", "remaining_time": "0:39:40", "throughput": 110.38, "total_tokens": 895120}
+{"current_steps": 775, "total_steps": 996, "loss": 0.854, "lr": 5.832003787259327e-06, "epoch": 2.328066215199398, "percentage": 77.81, "elapsed_time": "2:16:00", "remaining_time": "0:38:47", "throughput": 110.32, "total_tokens": 900320}
+{"current_steps": 780, "total_steps": 996, "loss": 0.8843, "lr": 5.581279870597867e-06, "epoch": 2.343115124153499, "percentage": 78.31, "elapsed_time": "2:16:52", "remaining_time": "0:37:54", "throughput": 110.32, "total_tokens": 905928}
+{"current_steps": 785, "total_steps": 996, "loss": 0.862, "lr": 5.335385793203604e-06, "epoch": 2.3581640331075997, "percentage": 78.82, "elapsed_time": "2:17:44", "remaining_time": "0:37:01", "throughput": 110.34, "total_tokens": 911976}
+{"current_steps": 790, "total_steps": 996, "loss": 0.985, "lr": 5.094382714043907e-06, "epoch": 2.3732129420617003, "percentage": 79.32, "elapsed_time": "2:18:37", "remaining_time": "0:36:08", "throughput": 110.34, "total_tokens": 917840}
+{"current_steps": 795, "total_steps": 996, "loss": 0.7679, "lr": 4.85833057559322e-06, "epoch": 2.3882618510158014, "percentage": 79.82, "elapsed_time": "2:19:28", "remaining_time": "0:35:15", "throughput": 110.31, "total_tokens": 923168}
+{"current_steps": 800, "total_steps": 996, "loss": 0.8198, "lr": 4.627288088924156e-06, "epoch": 2.4033107599699024, "percentage": 80.32, "elapsed_time": "2:20:20", "remaining_time": "0:34:22", "throughput": 110.3, "total_tokens": 928720}
+{"current_steps": 805, "total_steps": 996, "loss": 0.7773, "lr": 4.401312719104802e-06, "epoch": 2.418359668924003, "percentage": 80.82, "elapsed_time": "2:21:14", "remaining_time": "0:33:30", "throughput": 110.28, "total_tokens": 934568}
+{"current_steps": 810, "total_steps": 996, "loss": 0.9312, "lr": 4.180460670905978e-06, "epoch": 2.4334085778781036, "percentage": 81.33, "elapsed_time": "2:22:06", "remaining_time": "0:32:38", "throughput": 110.27, "total_tokens": 940264}
+{"current_steps": 815, "total_steps": 996, "loss": 0.8497, "lr": 3.964786874821955e-06, "epoch": 2.4484574868322047, "percentage": 81.83, "elapsed_time": "2:22:59", "remaining_time": "0:31:45", "throughput": 110.28, "total_tokens": 946128}
+{"current_steps": 820, "total_steps": 996, "loss": 0.782, "lr": 3.754344973408064e-06, "epoch": 2.4635063957863057, "percentage": 82.33, "elapsed_time": "2:23:52", "remaining_time": "0:30:52", "throughput": 110.29, "total_tokens": 952032}
+{"current_steps": 825, "total_steps": 996, "loss": 0.8937, "lr": 3.5491873079387256e-06, "epoch": 2.4785553047404063, "percentage": 82.83, "elapsed_time": "2:24:44", "remaining_time": "0:30:00", "throughput": 110.31, "total_tokens": 957960}
+{"current_steps": 830, "total_steps": 996, "loss": 0.7039, "lr": 3.3493649053890326e-06, "epoch": 2.493604213694507, "percentage": 83.33, "elapsed_time": "2:25:38", "remaining_time": "0:29:07", "throughput": 110.36, "total_tokens": 964336}
+{"current_steps": 835, "total_steps": 996, "loss": 0.9265, "lr": 3.1549274657433375e-06, "epoch": 2.508653122648608, "percentage": 83.84, "elapsed_time": "2:26:30", "remaining_time": "0:28:15", "throughput": 110.36, "total_tokens": 970168}
+{"current_steps": 840, "total_steps": 996, "loss": 0.8669, "lr": 2.9659233496337786e-06, "epoch": 2.523702031602709, "percentage": 84.34, "elapsed_time": "2:27:21", "remaining_time": "0:27:22", "throughput": 110.36, "total_tokens": 975752}
+{"current_steps": 845, "total_steps": 996, "loss": 0.9174, "lr": 2.7823995663120327e-06, "epoch": 2.5387509405568096, "percentage": 84.84, "elapsed_time": "2:28:14", "remaining_time": "0:26:29", "throughput": 110.37, "total_tokens": 981672}
+{"current_steps": 850, "total_steps": 996, "loss": 0.8718, "lr": 2.6044017619571065e-06, "epoch": 2.55379984951091, "percentage": 85.34, "elapsed_time": "2:29:06", "remaining_time": "0:25:36", "throughput": 110.38, "total_tokens": 987560}
+{"current_steps": 855, "total_steps": 996, "loss": 0.8634, "lr": 2.431974208322191e-06, "epoch": 2.5688487584650113, "percentage": 85.84, "elapsed_time": "2:29:58", "remaining_time": "0:24:44", "throughput": 110.37, "total_tokens": 993200}
+{"current_steps": 860, "total_steps": 996, "loss": 0.845, "lr": 2.265159791723373e-06, "epoch": 2.5838976674191123, "percentage": 86.35, "elapsed_time": "2:30:52", "remaining_time": "0:23:51", "throughput": 110.38, "total_tokens": 999192}
+{"current_steps": 865, "total_steps": 996, "loss": 0.8008, "lr": 2.104000002372886e-06, "epoch": 2.598946576373213, "percentage": 86.85, "elapsed_time": "2:31:42", "remaining_time": "0:22:58", "throughput": 110.36, "total_tokens": 1004576}
+{"current_steps": 870, "total_steps": 996, "loss": 0.8797, "lr": 1.9485349240596613e-06, "epoch": 2.6139954853273135, "percentage": 87.35, "elapsed_time": "2:32:34", "remaining_time": "0:22:05", "throughput": 110.36, "total_tokens": 1010352}
+{"current_steps": 875, "total_steps": 996, "loss": 0.946, "lr": 1.7988032241796376e-06, "epoch": 2.6290443942814146, "percentage": 87.85, "elapsed_time": "2:33:27", "remaining_time": "0:21:13", "throughput": 110.37, "total_tokens": 1016272}
+{"current_steps": 880, "total_steps": 996, "loss": 0.8032, "lr": 1.6548421441183875e-06, "epoch": 2.6440933032355156, "percentage": 88.35, "elapsed_time": "2:34:19", "remaining_time": "0:20:20", "throughput": 110.36, "total_tokens": 1021896}
+{"current_steps": 885, "total_steps": 996, "loss": 0.8892, "lr": 1.5166874899884053e-06, "epoch": 2.659142212189616, "percentage": 88.86, "elapsed_time": "2:35:11", "remaining_time": "0:19:27", "throughput": 110.37, "total_tokens": 1027704}
+{"current_steps": 890, "total_steps": 996, "loss": 0.856, "lr": 1.3843736237233784e-06, "epoch": 2.674191121143717, "percentage": 89.36, "elapsed_time": "2:36:04", "remaining_time": "0:18:35", "throughput": 110.39, "total_tokens": 1033800}
+{"current_steps": 895, "total_steps": 996, "loss": 0.8617, "lr": 1.2579334545316733e-06, "epoch": 2.689240030097818, "percentage": 89.86, "elapsed_time": "2:36:58", "remaining_time": "0:17:42", "throughput": 110.43, "total_tokens": 1040008}
+{"current_steps": 900, "total_steps": 996, "loss": 0.9117, "lr": 1.137398430711123e-06, "epoch": 2.704288939051919, "percentage": 90.36, "elapsed_time": "2:37:52", "remaining_time": "0:16:50", "throughput": 110.46, "total_tokens": 1046272}
+{"current_steps": 905, "total_steps": 996, "loss": 0.7855, "lr": 1.0227985318271682e-06, "epoch": 2.7193378480060195, "percentage": 90.86, "elapsed_time": "2:38:45", "remaining_time": "0:15:57", "throughput": 110.44, "total_tokens": 1052032}
+{"current_steps": 910, "total_steps": 996, "loss": 0.8212, "lr": 9.141622612563571e-07, "epoch": 2.73438675696012, "percentage": 91.37, "elapsed_time": "2:39:37", "remaining_time": "0:15:05", "throughput": 110.42, "total_tokens": 1057584}
+{"current_steps": 915, "total_steps": 996, "loss": 0.8404, "lr": 8.115166390969125e-07, "epoch": 2.749435665914221, "percentage": 91.87, "elapsed_time": "2:40:31", "remaining_time": "0:14:12", "throughput": 110.45, "total_tokens": 1063760}
+{"current_steps": 920, "total_steps": 996, "loss": 0.7782, "lr": 7.148871954483105e-07, "epoch": 2.764484574868322, "percentage": 92.37, "elapsed_time": "2:41:23", "remaining_time": "0:13:19", "throughput": 110.45, "total_tokens": 1069544}
+{"current_steps": 925, "total_steps": 996, "loss": 0.7847, "lr": 6.242979640613933e-07, "epoch": 2.779533483822423, "percentage": 92.87, "elapsed_time": "2:42:16", "remaining_time": "0:12:27", "throughput": 110.45, "total_tokens": 1075472}
+{"current_steps": 930, "total_steps": 996, "loss": 0.8857, "lr": 5.397714763606843e-07, "epoch": 2.7945823927765234, "percentage": 93.37, "elapsed_time": "2:43:10", "remaining_time": "0:11:34", "throughput": 110.46, "total_tokens": 1081464}
+{"current_steps": 935, "total_steps": 996, "loss": 0.8029, "lr": 4.613287558403512e-07, "epoch": 2.8096313017306245, "percentage": 93.88, "elapsed_time": "2:44:03", "remaining_time": "0:10:42", "throughput": 110.48, "total_tokens": 1087464}
+{"current_steps": 940, "total_steps": 996, "loss": 0.8154, "lr": 3.8898931283523344e-07, "epoch": 2.8246802106847255, "percentage": 94.38, "elapsed_time": "2:44:54", "remaining_time": "0:09:49", "throughput": 110.45, "total_tokens": 1092888}
+{"current_steps": 945, "total_steps": 996, "loss": 0.8791, "lr": 3.227711396682015e-07, "epoch": 2.839729119638826, "percentage": 94.88, "elapsed_time": "2:45:48", "remaining_time": "0:08:56", "throughput": 110.45, "total_tokens": 1098808}
+{"current_steps": 950, "total_steps": 996, "loss": 0.787, "lr": 2.626907061751116e-07, "epoch": 2.854778028592927, "percentage": 95.38, "elapsed_time": "2:46:40", "remaining_time": "0:08:04", "throughput": 110.46, "total_tokens": 1104688}
+{"current_steps": 955, "total_steps": 996, "loss": 0.8831, "lr": 2.0876295560839364e-07, "epoch": 2.869826937547028, "percentage": 95.88, "elapsed_time": "2:47:34", "remaining_time": "0:07:11", "throughput": 110.49, "total_tokens": 1110960}
+{"current_steps": 960, "total_steps": 996, "loss": 0.7677, "lr": 1.6100130092037703e-07, "epoch": 2.884875846501129, "percentage": 96.39, "elapsed_time": "2:48:27", "remaining_time": "0:06:19", "throughput": 110.49, "total_tokens": 1116800}
+{"current_steps": 965, "total_steps": 996, "loss": 0.7567, "lr": 1.194176214271897e-07, "epoch": 2.8999247554552294, "percentage": 96.89, "elapsed_time": "2:49:18", "remaining_time": "0:05:26", "throughput": 110.47, "total_tokens": 1122248}
+{"current_steps": 970, "total_steps": 996, "loss": 0.8944, "lr": 8.402225985413848e-08, "epoch": 2.9149736644093305, "percentage": 97.39, "elapsed_time": "2:50:10", "remaining_time": "0:04:33", "throughput": 110.46, "total_tokens": 1127928}
+{"current_steps": 975, "total_steps": 996, "loss": 0.9737, "lr": 5.4824019763252685e-08, "epoch": 2.930022573363431, "percentage": 97.89, "elapsed_time": "2:51:01", "remaining_time": "0:03:41", "throughput": 110.44, "total_tokens": 1133336}
+{"current_steps": 980, "total_steps": 996, "loss": 0.8965, "lr": 3.1830163363655296e-08, "epoch": 2.945071482317532, "percentage": 98.39, "elapsed_time": "2:51:54", "remaining_time": "0:02:48", "throughput": 110.44, "total_tokens": 1139048}
+{"current_steps": 985, "total_steps": 996, "loss": 0.837, "lr": 1.504640970531046e-08, "epoch": 2.9601203912716327, "percentage": 98.9, "elapsed_time": "2:52:45", "remaining_time": "0:01:55", "throughput": 110.41, "total_tokens": 1144456}
+{"current_steps": 990, "total_steps": 996, "loss": 0.7812, "lr": 4.4769332565558485e-09, "epoch": 2.975169300225734, "percentage": 99.4, "elapsed_time": "2:53:37", "remaining_time": "0:01:03", "throughput": 110.4, "total_tokens": 1150160}
+{"current_steps": 995, "total_steps": 996, "loss": 0.8613, "lr": 1.2436286584982527e-10, "epoch": 2.9902182091798344, "percentage": 99.9, "elapsed_time": "2:54:33", "remaining_time": "0:00:10", "throughput": 110.45, "total_tokens": 1156704}
+{"current_steps": 996, "total_steps": 996, "epoch": 2.9932279909706545, "percentage": 100.0, "elapsed_time": "2:54:44", "remaining_time": "0:00:00", "throughput": 110.43, "total_tokens": 1157808}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1636 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.9932279909706545,
+  "eval_steps": 500,
+  "global_step": 996,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.015048908954100828,
+      "grad_norm": 1.2988319396972656,
+      "learning_rate": 4.9996890990217804e-05,
+      "loss": 2.4707,
+      "num_input_tokens_seen": 5864,
+      "step": 5
+    },
+    {
+      "epoch": 0.030097817908201655,
+      "grad_norm": 1.8058427572250366,
+      "learning_rate": 4.9987564734146566e-05,
+      "loss": 2.2509,
+      "num_input_tokens_seen": 11432,
+      "step": 10
+    },
+    {
+      "epoch": 0.045146726862302484,
+      "grad_norm": 0.8231738209724426,
+      "learning_rate": 4.997202355141999e-05,
+      "loss": 1.6895,
+      "num_input_tokens_seen": 17000,
+      "step": 15
+    },
+    {
+      "epoch": 0.06019563581640331,
+      "grad_norm": 0.7266705632209778,
+      "learning_rate": 4.995027130745321e-05,
+      "loss": 1.4876,
+      "num_input_tokens_seen": 22840,
+      "step": 20
+    },
+    {
+      "epoch": 0.07524454477050414,
+      "grad_norm": 1.1722582578659058,
+      "learning_rate": 4.992231341248137e-05,
+      "loss": 1.4812,
+      "num_input_tokens_seen": 28984,
+      "step": 25
+    },
+    {
+      "epoch": 0.09029345372460497,
+      "grad_norm": 0.9262341260910034,
+      "learning_rate": 4.9888156820213974e-05,
+      "loss": 1.3642,
+      "num_input_tokens_seen": 34856,
+      "step": 30
+    },
+    {
+      "epoch": 0.1053423626787058,
+      "grad_norm": 0.8832902908325195,
+      "learning_rate": 4.9847810026105394e-05,
+      "loss": 1.3651,
+      "num_input_tokens_seen": 41216,
+      "step": 35
+    },
+    {
+      "epoch": 0.12039127163280662,
+      "grad_norm": 0.8503655791282654,
+      "learning_rate": 4.980128306524183e-05,
+      "loss": 1.1321,
+      "num_input_tokens_seen": 47304,
+      "step": 40
+    },
+    {
+      "epoch": 0.13544018058690746,
+      "grad_norm": 1.348948359489441,
+      "learning_rate": 4.97485875098454e-05,
+      "loss": 1.3012,
+      "num_input_tokens_seen": 53184,
+      "step": 45
+    },
+    {
+      "epoch": 0.1504890895410083,
+      "grad_norm": 0.7177269458770752,
+      "learning_rate": 4.968973646639589e-05,
+      "loss": 0.9827,
+      "num_input_tokens_seen": 59024,
+      "step": 50
+    },
+    {
+      "epoch": 0.1655379984951091,
+      "grad_norm": 0.6005258560180664,
+      "learning_rate": 4.9624744572370865e-05,
+      "loss": 1.2313,
+      "num_input_tokens_seen": 64816,
+      "step": 55
+    },
+    {
+      "epoch": 0.18058690744920994,
+      "grad_norm": 0.6153081059455872,
+      "learning_rate": 4.9553627992605066e-05,
+      "loss": 1.0347,
+      "num_input_tokens_seen": 70848,
+      "step": 60
+    },
+    {
+      "epoch": 0.19563581640331076,
+      "grad_norm": 0.7796200513839722,
+      "learning_rate": 4.947640441526989e-05,
+      "loss": 1.0422,
+      "num_input_tokens_seen": 76888,
+      "step": 65
+    },
+    {
+      "epoch": 0.2106847253574116,
+      "grad_norm": 0.7273033857345581,
+      "learning_rate": 4.939309304747391e-05,
+      "loss": 0.9996,
+      "num_input_tokens_seen": 82840,
+      "step": 70
+    },
+    {
+      "epoch": 0.22573363431151242,
+      "grad_norm": 0.7943289875984192,
+      "learning_rate": 4.930371461048571e-05,
+      "loss": 1.0755,
+      "num_input_tokens_seen": 88824,
+      "step": 75
+    },
+    {
+      "epoch": 0.24078254326561324,
+      "grad_norm": 0.6128024458885193,
+      "learning_rate": 4.9208291334580104e-05,
+      "loss": 1.026,
+      "num_input_tokens_seen": 94264,
+      "step": 80
+    },
+    {
+      "epoch": 0.2558314522197141,
+      "grad_norm": 0.7087495923042297,
+      "learning_rate": 4.910684695350895e-05,
+      "loss": 1.1307,
+      "num_input_tokens_seen": 99896,
+      "step": 85
+    },
+    {
+      "epoch": 0.2708803611738149,
+      "grad_norm": 0.711476743221283,
+      "learning_rate": 4.8999406698598074e-05,
+      "loss": 1.0221,
+      "num_input_tokens_seen": 105640,
+      "step": 90
+    },
+    {
+      "epoch": 0.28592927012791575,
+      "grad_norm": 0.5772566795349121,
+      "learning_rate": 4.8885997292471774e-05,
+      "loss": 1.012,
+      "num_input_tokens_seen": 111280,
+      "step": 95
+    },
+    {
+      "epoch": 0.3009781790820166,
+      "grad_norm": 0.6769325137138367,
+      "learning_rate": 4.87666469424063e-05,
+      "loss": 1.0151,
+      "num_input_tokens_seen": 116640,
+      "step": 100
+    },
+    {
+      "epoch": 0.3160270880361174,
+      "grad_norm": 0.679373025894165,
+      "learning_rate": 4.86413853333141e-05,
+      "loss": 1.0028,
+      "num_input_tokens_seen": 121864,
+      "step": 105
+    },
+    {
+      "epoch": 0.3310759969902182,
+      "grad_norm": 0.9181504845619202,
+      "learning_rate": 4.851024362036064e-05,
+      "loss": 1.143,
+      "num_input_tokens_seen": 127384,
+      "step": 110
+    },
+    {
+      "epoch": 0.34612490594431905,
+      "grad_norm": 0.7842696905136108,
+      "learning_rate": 4.837325442121538e-05,
+      "loss": 0.9695,
+      "num_input_tokens_seen": 133008,
+      "step": 115
+    },
+    {
+      "epoch": 0.3611738148984199,
+      "grad_norm": 0.6459535360336304,
+      "learning_rate": 4.8230451807939135e-05,
+      "loss": 0.9017,
+      "num_input_tokens_seen": 139144,
+      "step": 120
+    },
+    {
+      "epoch": 0.3762227238525207,
+      "grad_norm": 0.6695935726165771,
+      "learning_rate": 4.808187129850963e-05,
+      "loss": 1.035,
+      "num_input_tokens_seen": 144848,
+      "step": 125
+    },
+    {
+      "epoch": 0.3912716328066215,
+      "grad_norm": 0.9289236664772034,
+      "learning_rate": 4.792754984798745e-05,
+      "loss": 1.0128,
+      "num_input_tokens_seen": 150480,
+      "step": 130
+    },
+    {
+      "epoch": 0.40632054176072235,
+      "grad_norm": 0.6192979216575623,
+      "learning_rate": 4.776752583932454e-05,
+      "loss": 0.9432,
+      "num_input_tokens_seen": 156336,
+      "step": 135
+    },
+    {
+      "epoch": 0.4213694507148232,
+      "grad_norm": 0.7946303486824036,
+      "learning_rate": 4.760183907381757e-05,
+      "loss": 1.0344,
+      "num_input_tokens_seen": 162440,
+      "step": 140
+    },
+    {
+      "epoch": 0.436418359668924,
+      "grad_norm": 0.6548484563827515,
+      "learning_rate": 4.7430530761208494e-05,
+      "loss": 0.9452,
+      "num_input_tokens_seen": 168304,
+      "step": 145
+    },
+    {
+      "epoch": 0.45146726862302483,
+      "grad_norm": 0.9075986742973328,
+      "learning_rate": 4.725364350943492e-05,
+      "loss": 0.9559,
+      "num_input_tokens_seen": 173984,
+      "step": 150
+    },
+    {
+      "epoch": 0.46651617757712566,
+      "grad_norm": 0.8047800660133362,
+      "learning_rate": 4.707122131403251e-05,
+      "loss": 0.9726,
+      "num_input_tokens_seen": 179896,
+      "step": 155
+    },
+    {
+      "epoch": 0.4815650865312265,
+      "grad_norm": 0.6954847574234009,
+      "learning_rate": 4.6883309547192476e-05,
+      "loss": 0.9344,
+      "num_input_tokens_seen": 185296,
+      "step": 160
+    },
+    {
+      "epoch": 0.4966139954853273,
+      "grad_norm": 0.7912609577178955,
+      "learning_rate": 4.668995494647653e-05,
+      "loss": 0.9497,
+      "num_input_tokens_seen": 190928,
+      "step": 165
+    },
+    {
+      "epoch": 0.5116629044394282,
+      "grad_norm": 0.7360678315162659,
+      "learning_rate": 4.649120560319225e-05,
+      "loss": 1.057,
+      "num_input_tokens_seen": 197352,
+      "step": 170
+    },
+    {
+      "epoch": 0.526711813393529,
+      "grad_norm": 0.7325194478034973,
+      "learning_rate": 4.6287110950431865e-05,
+      "loss": 0.9847,
+      "num_input_tokens_seen": 203216,
+      "step": 175
+    },
+    {
+      "epoch": 0.5417607223476298,
+      "grad_norm": 0.7140082120895386,
+      "learning_rate": 4.607772175077711e-05,
+      "loss": 1.001,
+      "num_input_tokens_seen": 208624,
+      "step": 180
+    },
+    {
+      "epoch": 0.5568096313017307,
+      "grad_norm": 0.9454194903373718,
+      "learning_rate": 4.586309008367359e-05,
+      "loss": 0.9384,
+      "num_input_tokens_seen": 214552,
+      "step": 185
+    },
+    {
+      "epoch": 0.5718585402558315,
+      "grad_norm": 0.9370235800743103,
+      "learning_rate": 4.564326933247752e-05,
+      "loss": 1.0312,
+      "num_input_tokens_seen": 220704,
+      "step": 190
+    },
+    {
+      "epoch": 0.5869074492099323,
+      "grad_norm": 0.7274216413497925,
+      "learning_rate": 4.541831417117815e-05,
+      "loss": 0.9112,
+      "num_input_tokens_seen": 226480,
+      "step": 195
+    },
+    {
+      "epoch": 0.6019563581640331,
+      "grad_norm": 0.9026529788970947,
+      "learning_rate": 4.518828055079925e-05,
+      "loss": 0.9967,
+      "num_input_tokens_seen": 232136,
+      "step": 200
+    },
+    {
+      "epoch": 0.617005267118134,
+      "grad_norm": 0.9668667316436768,
+      "learning_rate": 4.4953225685482904e-05,
+      "loss": 1.0905,
+      "num_input_tokens_seen": 238072,
+      "step": 205
+    },
+    {
+      "epoch": 0.6320541760722348,
+      "grad_norm": 0.7728851437568665,
+      "learning_rate": 4.471320803825915e-05,
+      "loss": 0.9487,
+      "num_input_tokens_seen": 243680,
+      "step": 210
+    },
+    {
+      "epoch": 0.6471030850263356,
+      "grad_norm": 0.7141396999359131,
+      "learning_rate": 4.4468287306505045e-05,
+      "loss": 0.8675,
+      "num_input_tokens_seen": 249376,
+      "step": 215
+    },
+    {
+      "epoch": 0.6621519939804364,
+      "grad_norm": 0.7524191737174988,
+      "learning_rate": 4.421852440709666e-05,
+      "loss": 0.8624,
+      "num_input_tokens_seen": 255288,
+      "step": 220
+    },
+    {
+      "epoch": 0.6772009029345373,
+      "grad_norm": 1.1502355337142944,
+      "learning_rate": 4.39639814612578e-05,
+      "loss": 1.0489,
+      "num_input_tokens_seen": 261592,
+      "step": 225
+    },
+    {
+      "epoch": 0.6922498118886381,
+      "grad_norm": 0.7467320561408997,
+      "learning_rate": 4.370472177910914e-05,
+      "loss": 0.9139,
+      "num_input_tokens_seen": 267192,
+      "step": 230
+    },
+    {
+      "epoch": 0.7072987208427389,
+      "grad_norm": 0.6400129795074463,
+      "learning_rate": 4.3440809843921725e-05,
+      "loss": 0.9905,
+      "num_input_tokens_seen": 272712,
+      "step": 235
+    },
+    {
+      "epoch": 0.7223476297968398,
+      "grad_norm": 0.6654481291770935,
+      "learning_rate": 4.3172311296078595e-05,
+      "loss": 0.8974,
+      "num_input_tokens_seen": 278720,
+      "step": 240
+    },
+    {
+      "epoch": 0.7373965387509406,
+      "grad_norm": 0.7487585544586182,
+      "learning_rate": 4.28992929167487e-05,
+      "loss": 0.999,
+      "num_input_tokens_seen": 284584,
+      "step": 245
+    },
+    {
+      "epoch": 0.7524454477050414,
+      "grad_norm": 0.6885581612586975,
+      "learning_rate": 4.2621822611277e-05,
+      "loss": 0.9916,
+      "num_input_tokens_seen": 290408,
+      "step": 250
+    },
+    {
+      "epoch": 0.7674943566591422,
+      "grad_norm": 0.774027407169342,
+      "learning_rate": 4.233996939229502e-05,
+      "loss": 0.9242,
+      "num_input_tokens_seen": 295776,
+      "step": 255
+    },
+    {
+      "epoch": 0.782543265613243,
+      "grad_norm": 0.8608073592185974,
+      "learning_rate": 4.205380336255594e-05,
+      "loss": 1.0426,
+      "num_input_tokens_seen": 301736,
+      "step": 260
+    },
+    {
+      "epoch": 0.7975921745673439,
+      "grad_norm": 0.6539498567581177,
+      "learning_rate": 4.176339569749865e-05,
+      "loss": 0.8625,
+      "num_input_tokens_seen": 307224,
+      "step": 265
+    },
+    {
+      "epoch": 0.8126410835214447,
+      "grad_norm": 0.8432996273040771,
+      "learning_rate": 4.1468818627544845e-05,
+      "loss": 0.9959,
+      "num_input_tokens_seen": 313040,
+      "step": 270
+    },
+    {
+      "epoch": 0.8276899924755455,
+      "grad_norm": 0.877001166343689,
+      "learning_rate": 4.11701454201339e-05,
+      "loss": 0.939,
+      "num_input_tokens_seen": 319112,
+      "step": 275
+    },
+    {
+      "epoch": 0.8427389014296464,
+      "grad_norm": 0.9003238081932068,
+      "learning_rate": 4.08674503614997e-05,
+      "loss": 0.9741,
+      "num_input_tokens_seen": 325040,
+      "step": 280
+    },
+    {
+      "epoch": 0.8577878103837472,
+      "grad_norm": 0.8585950136184692,
+      "learning_rate": 4.0560808738194114e-05,
+      "loss": 0.98,
+      "num_input_tokens_seen": 330904,
+      "step": 285
+    },
+    {
+      "epoch": 0.872836719337848,
+      "grad_norm": 0.8015385270118713,
+      "learning_rate": 4.0250296818361647e-05,
+      "loss": 0.8898,
+      "num_input_tokens_seen": 336392,
+      "step": 290
+    },
+    {
+      "epoch": 0.8878856282919488,
+      "grad_norm": 0.8380082845687866,
+      "learning_rate": 3.993599183277001e-05,
+      "loss": 0.953,
+      "num_input_tokens_seen": 342832,
+      "step": 295
+    },
+    {
+      "epoch": 0.9029345372460497,
+      "grad_norm": 0.8890098929405212,
+      "learning_rate": 3.961797195560118e-05,
+      "loss": 0.9311,
+      "num_input_tokens_seen": 348944,
+      "step": 300
+    },
+    {
+      "epoch": 0.9179834462001505,
+      "grad_norm": 0.9356483221054077,
+      "learning_rate": 3.9296316285007887e-05,
+      "loss": 0.9114,
+      "num_input_tokens_seen": 354680,
+      "step": 305
+    },
+    {
+      "epoch": 0.9330323551542513,
+      "grad_norm": 0.8241044878959656,
+      "learning_rate": 3.897110482344024e-05,
+      "loss": 0.9674,
+      "num_input_tokens_seen": 361008,
+      "step": 310
+    },
+    {
+      "epoch": 0.9480812641083521,
+      "grad_norm": 0.7882922887802124,
+      "learning_rate": 3.864241845774746e-05,
+      "loss": 0.9582,
+      "num_input_tokens_seen": 366760,
+      "step": 315
+    },
+    {
+      "epoch": 0.963130173062453,
+      "grad_norm": 0.7503064274787903,
+      "learning_rate": 3.8310338939059644e-05,
+      "loss": 0.9863,
+      "num_input_tokens_seen": 372448,
+      "step": 320
+    },
+    {
+      "epoch": 0.9781790820165538,
+      "grad_norm": 0.6487952470779419,
+      "learning_rate": 3.797494886245456e-05,
+      "loss": 0.906,
+      "num_input_tokens_seen": 378520,
+      "step": 325
+    },
+    {
+      "epoch": 0.9932279909706546,
+      "grad_norm": 0.8584316968917847,
+      "learning_rate": 3.7636331646414524e-05,
+      "loss": 0.8958,
+      "num_input_tokens_seen": 384272,
+      "step": 330
+    },
+    {
+      "epoch": 1.0060195635816402,
+      "grad_norm": 0.8825767040252686,
+      "learning_rate": 3.7294571512078506e-05,
+      "loss": 0.8349,
+      "num_input_tokens_seen": 389280,
+      "step": 335
+    },
+    {
+      "epoch": 1.021068472535741,
+      "grad_norm": 0.8422874808311462,
+      "learning_rate": 3.694975346229458e-05,
+      "loss": 0.8507,
+      "num_input_tokens_seen": 394944,
+      "step": 340
+    },
+    {
+      "epoch": 1.036117381489842,
+      "grad_norm": 0.8337146639823914,
+      "learning_rate": 3.6601963260477924e-05,
+      "loss": 0.9287,
+      "num_input_tokens_seen": 400800,
+      "step": 345
+    },
+    {
+      "epoch": 1.0511662904439427,
+      "grad_norm": 0.936469316482544,
+      "learning_rate": 3.625128740927971e-05,
+      "loss": 0.9107,
+      "num_input_tokens_seen": 406728,
+      "step": 350
+    },
+    {
+      "epoch": 1.0662151993980435,
+      "grad_norm": 0.8475446105003357,
+      "learning_rate": 3.589781312907207e-05,
+      "loss": 0.952,
+      "num_input_tokens_seen": 412656,
+      "step": 355
+    },
+    {
+      "epoch": 1.0812641083521444,
+      "grad_norm": 0.7245047092437744,
+      "learning_rate": 3.55416283362546e-05,
+      "loss": 0.9526,
+      "num_input_tokens_seen": 418488,
+      "step": 360
+    },
+    {
+      "epoch": 1.0963130173062452,
+      "grad_norm": 1.0173735618591309,
+      "learning_rate": 3.518282162138772e-05,
+      "loss": 0.8775,
+      "num_input_tokens_seen": 424192,
+      "step": 365
+    },
+    {
+      "epoch": 1.111361926260346,
+      "grad_norm": 0.9992531538009644,
+      "learning_rate": 3.482148222715835e-05,
+      "loss": 0.883,
+      "num_input_tokens_seen": 430312,
+      "step": 370
+    },
+    {
+      "epoch": 1.1264108352144468,
+      "grad_norm": 1.0938397645950317,
+      "learning_rate": 3.4457700026183374e-05,
+      "loss": 1.0032,
+      "num_input_tokens_seen": 436128,
+      "step": 375
+    },
+    {
+      "epoch": 1.141459744168548,
+      "grad_norm": 0.8988808989524841,
+      "learning_rate": 3.409156549865654e-05,
+      "loss": 0.943,
+      "num_input_tokens_seen": 441928,
+      "step": 380
+    },
+    {
+      "epoch": 1.1565086531226485,
+      "grad_norm": 0.9952559471130371,
+      "learning_rate": 3.3723169709844026e-05,
+      "loss": 0.801,
+      "num_input_tokens_seen": 447560,
+      "step": 385
+    },
+    {
+      "epoch": 1.1715575620767495,
+      "grad_norm": 0.7556662559509277,
+      "learning_rate": 3.335260428743475e-05,
+      "loss": 0.9294,
+      "num_input_tokens_seen": 453296,
+      "step": 390
+    },
+    {
+      "epoch": 1.1866064710308502,
+      "grad_norm": 0.8362197279930115,
+      "learning_rate": 3.297996139875055e-05,
+      "loss": 0.9528,
+      "num_input_tokens_seen": 459336,
+      "step": 395
+    },
+    {
+      "epoch": 1.2016553799849512,
+      "grad_norm": 0.9389665722846985,
+      "learning_rate": 3.260533372782234e-05,
+      "loss": 0.8981,
+      "num_input_tokens_seen": 464944,
+      "step": 400
+    },
+    {
+      "epoch": 1.2167042889390518,
+      "grad_norm": 1.1821860074996948,
+      "learning_rate": 3.222881445233759e-05,
+      "loss": 0.9823,
+      "num_input_tokens_seen": 470992,
+      "step": 405
+    },
+    {
+      "epoch": 1.2317531978931529,
+      "grad_norm": 1.0015898942947388,
+      "learning_rate": 3.185049722046516e-05,
+      "loss": 0.9047,
+      "num_input_tokens_seen": 476216,
+      "step": 410
+    },
+    {
+      "epoch": 1.2468021068472535,
+      "grad_norm": 0.8765709400177002,
+      "learning_rate": 3.147047612756302e-05,
+      "loss": 0.8582,
+      "num_input_tokens_seen": 481824,
+      "step": 415
+    },
+    {
+      "epoch": 1.2618510158013545,
+      "grad_norm": 0.9712916612625122,
+      "learning_rate": 3.10888456927748e-05,
+      "loss": 0.8787,
+      "num_input_tokens_seen": 487576,
+      "step": 420
+    },
+    {
+      "epoch": 1.276899924755455,
+      "grad_norm": 1.1555066108703613,
+      "learning_rate": 3.0705700835520895e-05,
+      "loss": 0.8729,
+      "num_input_tokens_seen": 493336,
+      "step": 425
+    },
+    {
+      "epoch": 1.2919488337095562,
+      "grad_norm": 1.1198400259017944,
+      "learning_rate": 3.0321136851890036e-05,
+      "loss": 0.8772,
+      "num_input_tokens_seen": 499760,
+      "step": 430
+    },
+    {
+      "epoch": 1.3069977426636568,
+      "grad_norm": 1.1468943357467651,
+      "learning_rate": 2.9935249390937183e-05,
+      "loss": 0.9451,
+      "num_input_tokens_seen": 505400,
+      "step": 435
+    },
+    {
+      "epoch": 1.3220466516177578,
+      "grad_norm": 0.8468641042709351,
+      "learning_rate": 2.9548134430893604e-05,
+      "loss": 0.8202,
+      "num_input_tokens_seen": 511760,
+      "step": 440
+    },
+    {
+      "epoch": 1.3370955605718584,
+      "grad_norm": 1.3206151723861694,
+      "learning_rate": 2.9159888255295116e-05,
+      "loss": 0.9773,
+      "num_input_tokens_seen": 517616,
+      "step": 445
+    },
+    {
+      "epoch": 1.3521444695259595,
+      "grad_norm": 1.1996040344238281,
+      "learning_rate": 2.8770607429034352e-05,
+      "loss": 0.9101,
+      "num_input_tokens_seen": 522744,
+      "step": 450
+    },
+    {
+      "epoch": 1.36719337848006,
+      "grad_norm": 1.1539313793182373,
+      "learning_rate": 2.8380388774343047e-05,
+      "loss": 0.9633,
+      "num_input_tokens_seen": 528648,
+      "step": 455
+    },
+    {
+      "epoch": 1.382242287434161,
+      "grad_norm": 1.021848440170288,
+      "learning_rate": 2.7989329346710375e-05,
+      "loss": 0.8886,
+      "num_input_tokens_seen": 534000,
+      "step": 460
+    },
+    {
+      "epoch": 1.3972911963882617,
+      "grad_norm": 0.8612179160118103,
+      "learning_rate": 2.759752641074322e-05,
+      "loss": 0.9258,
+      "num_input_tokens_seen": 539688,
+      "step": 465
+    },
+    {
+      "epoch": 1.4123401053423628,
+      "grad_norm": 1.0109293460845947,
+      "learning_rate": 2.7205077415974416e-05,
+      "loss": 0.9039,
+      "num_input_tokens_seen": 545112,
+      "step": 470
+    },
+    {
+      "epoch": 1.4273890142964636,
+      "grad_norm": 1.1920832395553589,
+      "learning_rate": 2.6812079972625077e-05,
+      "loss": 1.0116,
+      "num_input_tokens_seen": 551328,
+      "step": 475
+    },
+    {
+      "epoch": 1.4424379232505644,
+      "grad_norm": 1.0512142181396484,
+      "learning_rate": 2.6418631827326857e-05,
+      "loss": 0.8218,
+      "num_input_tokens_seen": 556816,
+      "step": 480
+    },
+    {
+      "epoch": 1.4574868322046652,
+      "grad_norm": 1.146946907043457,
+      "learning_rate": 2.602483083881035e-05,
+      "loss": 0.8604,
+      "num_input_tokens_seen": 562552,
+      "step": 485
+    },
+    {
+      "epoch": 1.472535741158766,
+      "grad_norm": 1.1064790487289429,
+      "learning_rate": 2.563077495356561e-05,
+      "loss": 0.8044,
+      "num_input_tokens_seen": 568480,
+      "step": 490
+    },
+    {
+      "epoch": 1.487584650112867,
+      "grad_norm": 0.9678347110748291,
+      "learning_rate": 2.5236562181480794e-05,
+      "loss": 0.9198,
+      "num_input_tokens_seen": 574072,
+      "step": 495
+    },
+    {
+      "epoch": 1.5026335590669677,
+      "grad_norm": 0.9460956454277039,
+      "learning_rate": 2.484229057146507e-05,
+      "loss": 0.9181,
+      "num_input_tokens_seen": 580040,
+      "step": 500
+    },
+    {
+      "epoch": 1.5176824680210683,
+      "grad_norm": 1.175920844078064,
+      "learning_rate": 2.4448058187061835e-05,
+      "loss": 0.8644,
+      "num_input_tokens_seen": 586128,
+      "step": 505
+    },
+    {
+      "epoch": 1.5327313769751694,
+      "grad_norm": 1.2150397300720215,
+      "learning_rate": 2.4053963082058244e-05,
+      "loss": 1.0127,
+      "num_input_tokens_seen": 592256,
+      "step": 510
+    },
+    {
+      "epoch": 1.54778028592927,
+      "grad_norm": 0.9520708918571472,
+      "learning_rate": 2.3660103276097232e-05,
+      "loss": 0.7937,
+      "num_input_tokens_seen": 597704,
+      "step": 515
+    },
+    {
+      "epoch": 1.562829194883371,
+      "grad_norm": 1.0742231607437134,
+      "learning_rate": 2.3266576730297956e-05,
+      "loss": 0.9806,
+      "num_input_tokens_seen": 603240,
+      "step": 520
+    },
+    {
+      "epoch": 1.5778781038374716,
+      "grad_norm": 1.0484352111816406,
+      "learning_rate": 2.2873481322890862e-05,
+      "loss": 0.934,
+      "num_input_tokens_seen": 609616,
+      "step": 525
+    },
+    {
+      "epoch": 1.5929270127915727,
+      "grad_norm": 0.8829598426818848,
+      "learning_rate": 2.2480914824873297e-05,
+      "loss": 0.9288,
+      "num_input_tokens_seen": 615520,
+      "step": 530
+    },
+    {
+      "epoch": 1.6079759217456733,
+      "grad_norm": 0.9222884178161621,
+      "learning_rate": 2.2088974875691863e-05,
+      "loss": 0.8597,
+      "num_input_tokens_seen": 621208,
+      "step": 535
+    },
+    {
+      "epoch": 1.6230248306997743,
+      "grad_norm": 0.894801914691925,
+      "learning_rate": 2.1697758958957448e-05,
+      "loss": 0.8817,
+      "num_input_tokens_seen": 627176,
+      "step": 540
+    },
+    {
+      "epoch": 1.6380737396538751,
+      "grad_norm": 1.1703195571899414,
+      "learning_rate": 2.1307364378199005e-05,
+      "loss": 0.777,
+      "num_input_tokens_seen": 633248,
+      "step": 545
+    },
+    {
+      "epoch": 1.653122648607976,
+      "grad_norm": 1.0596733093261719,
+      "learning_rate": 2.0917888232662196e-05,
+      "loss": 0.798,
+      "num_input_tokens_seen": 639000,
+      "step": 550
+    },
+    {
+      "epoch": 1.6681715575620768,
+      "grad_norm": 1.0426228046417236,
+      "learning_rate": 2.0529427393158705e-05,
+      "loss": 0.9104,
+      "num_input_tokens_seen": 645280,
+      "step": 555
+    },
+    {
+      "epoch": 1.6832204665161776,
+      "grad_norm": 1.3300392627716064,
+      "learning_rate": 2.014207847797256e-05,
+      "loss": 0.8293,
+      "num_input_tokens_seen": 651760,
+      "step": 560
+    },
+    {
+      "epoch": 1.6982693754702785,
+      "grad_norm": 1.2664028406143188,
+      "learning_rate": 1.9755937828829067e-05,
+      "loss": 0.8821,
+      "num_input_tokens_seen": 657272,
+      "step": 565
+    },
+    {
+      "epoch": 1.7133182844243793,
+      "grad_norm": 0.9889734983444214,
+      "learning_rate": 1.937110148693265e-05,
+      "loss": 0.8253,
+      "num_input_tokens_seen": 663336,
+      "step": 570
+    },
+    {
+      "epoch": 1.72836719337848,
+      "grad_norm": 1.0789241790771484,
+      "learning_rate": 1.8987665169079454e-05,
+      "loss": 0.9391,
+      "num_input_tokens_seen": 668936,
+      "step": 575
+    },
+    {
+      "epoch": 1.743416102332581,
+      "grad_norm": 1.2337504625320435,
+      "learning_rate": 1.8605724243850502e-05,
+      "loss": 0.8711,
+      "num_input_tokens_seen": 675000,
+      "step": 580
+    },
+    {
+      "epoch": 1.7584650112866818,
+      "grad_norm": 0.905838668346405,
+      "learning_rate": 1.822537370789163e-05,
+      "loss": 0.8346,
+      "num_input_tokens_seen": 680584,
+      "step": 585
+    },
+    {
+      "epoch": 1.7735139202407826,
+      "grad_norm": 1.1633321046829224,
+      "learning_rate": 1.7846708162285785e-05,
+      "loss": 0.8275,
+      "num_input_tokens_seen": 686416,
+      "step": 590
+    },
+    {
+      "epoch": 1.7885628291948834,
+      "grad_norm": 0.9946597814559937,
+      "learning_rate": 1.7469821789023815e-05,
+      "loss": 0.9435,
+      "num_input_tokens_seen": 692016,
+      "step": 595
+    },
+    {
+      "epoch": 1.8036117381489842,
+      "grad_norm": 1.0259568691253662,
+      "learning_rate": 1.70948083275794e-05,
+      "loss": 0.8584,
+      "num_input_tokens_seen": 697984,
+      "step": 600
+    },
+    {
+      "epoch": 1.818660647103085,
+      "grad_norm": 1.0644334554672241,
+      "learning_rate": 1.672176105159417e-05,
+      "loss": 0.88,
+      "num_input_tokens_seen": 704056,
+      "step": 605
+    },
+    {
+      "epoch": 1.8337095560571859,
+      "grad_norm": 1.0443474054336548,
+      "learning_rate": 1.635077274567854e-05,
+      "loss": 0.8825,
+      "num_input_tokens_seen": 709760,
+      "step": 610
+    },
+    {
+      "epoch": 1.8487584650112867,
+      "grad_norm": 1.0267105102539062,
+      "learning_rate": 1.5981935682334264e-05,
+      "loss": 0.9978,
+      "num_input_tokens_seen": 715872,
+      "step": 615
+    },
+    {
+      "epoch": 1.8638073739653875,
+      "grad_norm": 1.3127869367599487,
+      "learning_rate": 1.561534159900441e-05,
+      "loss": 0.9626,
+      "num_input_tokens_seen": 722184,
+      "step": 620
+    },
+    {
+      "epoch": 1.8788562829194884,
+      "grad_norm": 1.2093840837478638,
+      "learning_rate": 1.525108167525624e-05,
+      "loss": 0.9308,
+      "num_input_tokens_seen": 727776,
+      "step": 625
+    },
+    {
+      "epoch": 1.8939051918735892,
+      "grad_norm": 0.982764482498169,
+      "learning_rate": 1.4889246510103077e-05,
+      "loss": 0.9757,
+      "num_input_tokens_seen": 733760,
+      "step": 630
+    },
+    {
+      "epoch": 1.90895410082769,
+      "grad_norm": 1.111680507659912,
+      "learning_rate": 1.4529926099470348e-05,
+      "loss": 0.767,
+      "num_input_tokens_seen": 740024,
+      "step": 635
+    },
+    {
+      "epoch": 1.9240030097817908,
+      "grad_norm": 1.218017578125,
+      "learning_rate": 1.4173209813811788e-05,
+      "loss": 0.9272,
+      "num_input_tokens_seen": 745480,
+      "step": 640
+    },
+    {
+      "epoch": 1.9390519187358917,
+      "grad_norm": 1.3443623781204224,
+      "learning_rate": 1.381918637588112e-05,
+      "loss": 0.7941,
+      "num_input_tokens_seen": 751384,
+      "step": 645
+    },
+    {
+      "epoch": 1.9541008276899925,
+      "grad_norm": 0.9702039361000061,
+      "learning_rate": 1.3467943838664863e-05,
+      "loss": 0.8408,
+      "num_input_tokens_seen": 756920,
+      "step": 650
+    },
+    {
+      "epoch": 1.9691497366440933,
+      "grad_norm": 1.1215064525604248,
+      "learning_rate": 1.311956956348177e-05,
+      "loss": 0.8459,
+      "num_input_tokens_seen": 762424,
+      "step": 655
+    },
+    {
+      "epoch": 1.9841986455981941,
+      "grad_norm": 1.3830626010894775,
+      "learning_rate": 1.277415019825417e-05,
+      "loss": 1.0117,
+      "num_input_tokens_seen": 768224,
+      "step": 660
+    },
+    {
+      "epoch": 1.999247554552295,
+      "grad_norm": 1.028895616531372,
+      "learning_rate": 1.2431771655956925e-05,
+      "loss": 0.9665,
+      "num_input_tokens_seen": 773568,
+      "step": 665
+    },
+    {
+      "epoch": 2.0120391271632805,
+      "grad_norm": 1.1555911302566528,
+      "learning_rate": 1.2092519093248988e-05,
+      "loss": 0.7625,
+      "num_input_tokens_seen": 778672,
+      "step": 670
+    },
+    {
+      "epoch": 2.0270880361173815,
+      "grad_norm": 1.037429690361023,
+      "learning_rate": 1.1756476889293269e-05,
+      "loss": 0.8667,
+      "num_input_tokens_seen": 784488,
+      "step": 675
+    },
+    {
+      "epoch": 2.042136945071482,
+      "grad_norm": 1.053051471710205,
+      "learning_rate": 1.1423728624769695e-05,
+      "loss": 0.8297,
+      "num_input_tokens_seen": 790304,
+      "step": 680
+    },
+    {
+      "epoch": 2.057185854025583,
+      "grad_norm": 1.0523649454116821,
+      "learning_rate": 1.1094357061087033e-05,
+      "loss": 0.8774,
+      "num_input_tokens_seen": 796192,
+      "step": 685
+    },
+    {
+      "epoch": 2.072234762979684,
+      "grad_norm": 1.0367976427078247,
+      "learning_rate": 1.0768444119798357e-05,
+      "loss": 0.8476,
+      "num_input_tokens_seen": 802144,
+      "step": 690
+    },
+    {
+      "epoch": 2.087283671933785,
+      "grad_norm": 1.4130756855010986,
+      "learning_rate": 1.0446070862225463e-05,
+      "loss": 0.8641,
+      "num_input_tokens_seen": 807768,
+      "step": 695
+    },
+    {
+      "epoch": 2.1023325808878854,
+      "grad_norm": 1.1584120988845825,
+      "learning_rate": 1.0127317469297277e-05,
+      "loss": 0.8383,
+      "num_input_tokens_seen": 813712,
+      "step": 700
+    },
+    {
+      "epoch": 2.1173814898419865,
+      "grad_norm": 1.2318339347839355,
+      "learning_rate": 9.812263221607112e-06,
+      "loss": 0.9123,
+      "num_input_tokens_seen": 819360,
+      "step": 705
+    },
+    {
+      "epoch": 2.132430398796087,
+      "grad_norm": 1.6237512826919556,
+      "learning_rate": 9.500986479694036e-06,
+      "loss": 0.9635,
+      "num_input_tokens_seen": 824584,
+      "step": 710
+    },
+    {
+      "epoch": 2.147479307750188,
+      "grad_norm": 1.106604814529419,
+      "learning_rate": 9.19356466455287e-06,
+      "loss": 0.9221,
+      "num_input_tokens_seen": 830600,
+      "step": 715
+    },
+    {
+      "epoch": 2.1625282167042887,
+      "grad_norm": 0.8615310788154602,
+      "learning_rate": 8.890074238378074e-06,
+      "loss": 0.8757,
+      "num_input_tokens_seen": 836856,
+      "step": 720
+    },
+    {
+      "epoch": 2.17757712565839,
+      "grad_norm": 0.8537486791610718,
+      "learning_rate": 8.590590685545946e-06,
+      "loss": 0.7958,
+      "num_input_tokens_seen": 842872,
+      "step": 725
+    },
+    {
+      "epoch": 2.1926260346124904,
+      "grad_norm": 0.8556107878684998,
+      "learning_rate": 8.295188493840104e-06,
+      "loss": 0.7993,
+      "num_input_tokens_seen": 848664,
+      "step": 730
+    },
+    {
+      "epoch": 2.2076749435665914,
+      "grad_norm": 1.093944787979126,
+      "learning_rate": 8.003941135924858e-06,
+      "loss": 0.8436,
+      "num_input_tokens_seen": 854712,
+      "step": 735
+    },
+    {
+      "epoch": 2.222723852520692,
+      "grad_norm": 1.2639975547790527,
+      "learning_rate": 7.71692105107098e-06,
+      "loss": 0.896,
+      "num_input_tokens_seen": 860648,
+      "step": 740
+    },
+    {
+      "epoch": 2.237772761474793,
+      "grad_norm": 1.177778720855713,
+      "learning_rate": 7.434199627138602e-06,
+      "loss": 0.8948,
+      "num_input_tokens_seen": 866080,
+      "step": 745
+    },
+    {
+      "epoch": 2.2528216704288937,
+      "grad_norm": 0.9701932668685913,
+      "learning_rate": 7.155847182821523e-06,
+      "loss": 0.8546,
+      "num_input_tokens_seen": 871560,
+      "step": 750
+    },
+    {
+      "epoch": 2.2678705793829947,
+      "grad_norm": 1.0232161283493042,
+      "learning_rate": 6.881932950157538e-06,
+      "loss": 0.8494,
+      "num_input_tokens_seen": 877568,
+      "step": 755
+    },
+    {
+      "epoch": 2.282919488337096,
+      "grad_norm": 1.119441270828247,
+      "learning_rate": 6.612525057308949e-06,
+      "loss": 0.7723,
+      "num_input_tokens_seen": 883808,
+      "step": 760
+    },
+    {
+      "epoch": 2.2979683972911964,
+      "grad_norm": 1.5488731861114502,
+      "learning_rate": 6.347690511617693e-06,
+      "loss": 0.9168,
+      "num_input_tokens_seen": 889296,
+      "step": 765
+    },
+    {
+      "epoch": 2.313017306245297,
+      "grad_norm": 1.2143895626068115,
+      "learning_rate": 6.0874951829392234e-06,
+      "loss": 0.8831,
+      "num_input_tokens_seen": 895120,
+      "step": 770
+    },
+    {
+      "epoch": 2.328066215199398,
+      "grad_norm": 1.157663106918335,
+      "learning_rate": 5.832003787259327e-06,
+      "loss": 0.854,
+      "num_input_tokens_seen": 900320,
+      "step": 775
+    },
+    {
+      "epoch": 2.343115124153499,
+      "grad_norm": 1.4496403932571411,
+      "learning_rate": 5.581279870597867e-06,
+      "loss": 0.8843,
+      "num_input_tokens_seen": 905928,
+      "step": 780
+    },
+    {
+      "epoch": 2.3581640331075997,
+      "grad_norm": 0.8820686936378479,
+      "learning_rate": 5.335385793203604e-06,
+      "loss": 0.862,
+      "num_input_tokens_seen": 911976,
+      "step": 785
+    },
+    {
+      "epoch": 2.3732129420617003,
+      "grad_norm": 1.622916579246521,
+      "learning_rate": 5.094382714043907e-06,
+      "loss": 0.985,
+      "num_input_tokens_seen": 917840,
+      "step": 790
+    },
+    {
+      "epoch": 2.3882618510158014,
+      "grad_norm": 1.0603710412979126,
+      "learning_rate": 4.85833057559322e-06,
+      "loss": 0.7679,
+      "num_input_tokens_seen": 923168,
+      "step": 795
+    },
+    {
+      "epoch": 2.4033107599699024,
+      "grad_norm": 1.0989526510238647,
+      "learning_rate": 4.627288088924156e-06,
+      "loss": 0.8198,
+      "num_input_tokens_seen": 928720,
+      "step": 800
+    },
+    {
+      "epoch": 2.418359668924003,
+      "grad_norm": 0.9745952486991882,
+      "learning_rate": 4.401312719104802e-06,
+      "loss": 0.7773,
+      "num_input_tokens_seen": 934568,
+      "step": 805
+    },
+    {
+      "epoch": 2.4334085778781036,
+      "grad_norm": 1.529707670211792,
+      "learning_rate": 4.180460670905978e-06,
+      "loss": 0.9312,
+      "num_input_tokens_seen": 940264,
+      "step": 810
+    },
+    {
+      "epoch": 2.4484574868322047,
+      "grad_norm": 1.2537649869918823,
+      "learning_rate": 3.964786874821955e-06,
+      "loss": 0.8497,
+      "num_input_tokens_seen": 946128,
+      "step": 815
+    },
+    {
+      "epoch": 2.4635063957863057,
+      "grad_norm": 1.0871232748031616,
+      "learning_rate": 3.754344973408064e-06,
+      "loss": 0.782,
+      "num_input_tokens_seen": 952032,
+      "step": 820
+    },
+    {
+      "epoch": 2.4785553047404063,
+      "grad_norm": 1.2940268516540527,
+      "learning_rate": 3.5491873079387256e-06,
+      "loss": 0.8937,
+      "num_input_tokens_seen": 957960,
+      "step": 825
+    },
+    {
+      "epoch": 2.493604213694507,
+      "grad_norm": 1.2327598333358765,
+      "learning_rate": 3.3493649053890326e-06,
+      "loss": 0.7039,
+      "num_input_tokens_seen": 964336,
+      "step": 830
+    },
+    {
+      "epoch": 2.508653122648608,
+      "grad_norm": 1.516093373298645,
+      "learning_rate": 3.1549274657433375e-06,
+      "loss": 0.9265,
+      "num_input_tokens_seen": 970168,
+      "step": 835
+    },
+    {
+      "epoch": 2.523702031602709,
+      "grad_norm": 1.1418204307556152,
+      "learning_rate": 2.9659233496337786e-06,
+      "loss": 0.8669,
+      "num_input_tokens_seen": 975752,
+      "step": 840
+    },
+    {
+      "epoch": 2.5387509405568096,
+      "grad_norm": 1.3584462404251099,
+      "learning_rate": 2.7823995663120327e-06,
+      "loss": 0.9174,
+      "num_input_tokens_seen": 981672,
+      "step": 845
+    },
+    {
+      "epoch": 2.55379984951091,
+      "grad_norm": 1.1911269426345825,
+      "learning_rate": 2.6044017619571065e-06,
+      "loss": 0.8718,
+      "num_input_tokens_seen": 987560,
+      "step": 850
+    },
+    {
+      "epoch": 2.5688487584650113,
+      "grad_norm": 1.3048710823059082,
+      "learning_rate": 2.431974208322191e-06,
+      "loss": 0.8634,
+      "num_input_tokens_seen": 993200,
+      "step": 855
+    },
+    {
+      "epoch": 2.5838976674191123,
+      "grad_norm": 1.1356749534606934,
+      "learning_rate": 2.265159791723373e-06,
+      "loss": 0.845,
+      "num_input_tokens_seen": 999192,
+      "step": 860
+    },
+    {
+      "epoch": 2.598946576373213,
+      "grad_norm": 1.2655149698257446,
+      "learning_rate": 2.104000002372886e-06,
+      "loss": 0.8008,
+      "num_input_tokens_seen": 1004576,
+      "step": 865
+    },
+    {
+      "epoch": 2.6139954853273135,
+      "grad_norm": 1.354706048965454,
+      "learning_rate": 1.9485349240596613e-06,
+      "loss": 0.8797,
+      "num_input_tokens_seen": 1010352,
+      "step": 870
+    },
+    {
+      "epoch": 2.6290443942814146,
+      "grad_norm": 1.0957777500152588,
+      "learning_rate": 1.7988032241796376e-06,
+      "loss": 0.946,
+      "num_input_tokens_seen": 1016272,
+      "step": 875
+    },
+    {
+      "epoch": 2.6440933032355156,
+      "grad_norm": 1.3322904109954834,
+      "learning_rate": 1.6548421441183875e-06,
+      "loss": 0.8032,
+      "num_input_tokens_seen": 1021896,
+      "step": 880
+    },
+    {
+      "epoch": 2.659142212189616,
+      "grad_norm": 1.1363080739974976,
+      "learning_rate": 1.5166874899884053e-06,
+      "loss": 0.8892,
+      "num_input_tokens_seen": 1027704,
+      "step": 885
+    },
+    {
+      "epoch": 2.674191121143717,
+      "grad_norm": 1.2706754207611084,
+      "learning_rate": 1.3843736237233784e-06,
+      "loss": 0.856,
+      "num_input_tokens_seen": 1033800,
+      "step": 890
+    },
+    {
+      "epoch": 2.689240030097818,
+      "grad_norm": 1.1934438943862915,
+      "learning_rate": 1.2579334545316733e-06,
+      "loss": 0.8617,
+      "num_input_tokens_seen": 1040008,
+      "step": 895
+    },
+    {
+      "epoch": 2.704288939051919,
+      "grad_norm": 1.4581674337387085,
+      "learning_rate": 1.137398430711123e-06,
+      "loss": 0.9117,
+      "num_input_tokens_seen": 1046272,
+      "step": 900
+    },
+    {
+      "epoch": 2.7193378480060195,
+      "grad_norm": 1.080992579460144,
+      "learning_rate": 1.0227985318271682e-06,
+      "loss": 0.7855,
+      "num_input_tokens_seen": 1052032,
+      "step": 905
+    },
+    {
+      "epoch": 2.73438675696012,
+      "grad_norm": 1.0012861490249634,
+      "learning_rate": 9.141622612563571e-07,
+      "loss": 0.8212,
+      "num_input_tokens_seen": 1057584,
+      "step": 910
+    },
+    {
+      "epoch": 2.749435665914221,
+      "grad_norm": 1.1472314596176147,
+      "learning_rate": 8.115166390969125e-07,
+      "loss": 0.8404,
+      "num_input_tokens_seen": 1063760,
+      "step": 915
+    },
+    {
+      "epoch": 2.764484574868322,
+      "grad_norm": 1.2558523416519165,
+      "learning_rate": 7.148871954483105e-07,
+      "loss": 0.7782,
+      "num_input_tokens_seen": 1069544,
+      "step": 920
+    },
+    {
+      "epoch": 2.779533483822423,
+      "grad_norm": 1.1380338668823242,
+      "learning_rate": 6.242979640613933e-07,
+      "loss": 0.7847,
+      "num_input_tokens_seen": 1075472,
+      "step": 925
+    },
+    {
+      "epoch": 2.7945823927765234,
+      "grad_norm": 0.972878098487854,
+      "learning_rate": 5.397714763606843e-07,
+      "loss": 0.8857,
+      "num_input_tokens_seen": 1081464,
+      "step": 930
+    },
+    {
+      "epoch": 2.8096313017306245,
+      "grad_norm": 1.2546579837799072,
+      "learning_rate": 4.613287558403512e-07,
+      "loss": 0.8029,
+      "num_input_tokens_seen": 1087464,
+      "step": 935
+    },
+    {
+      "epoch": 2.8246802106847255,
+      "grad_norm": 1.1165034770965576,
+      "learning_rate": 3.8898931283523344e-07,
+      "loss": 0.8154,
+      "num_input_tokens_seen": 1092888,
+      "step": 940
+    },
+    {
+      "epoch": 2.839729119638826,
+      "grad_norm": 1.3924362659454346,
+      "learning_rate": 3.227711396682015e-07,
+      "loss": 0.8791,
+      "num_input_tokens_seen": 1098808,
+      "step": 945
+    },
+    {
+      "epoch": 2.854778028592927,
+      "grad_norm": 1.021448016166687,
+      "learning_rate": 2.626907061751116e-07,
+      "loss": 0.787,
+      "num_input_tokens_seen": 1104688,
+      "step": 950
+    },
+    {
+      "epoch": 2.869826937547028,
+      "grad_norm": 1.3344382047653198,
+      "learning_rate": 2.0876295560839364e-07,
+      "loss": 0.8831,
+      "num_input_tokens_seen": 1110960,
+      "step": 955
+    },
+    {
+      "epoch": 2.884875846501129,
+      "grad_norm": 1.3956490755081177,
+      "learning_rate": 1.6100130092037703e-07,
+      "loss": 0.7677,
+      "num_input_tokens_seen": 1116800,
+      "step": 960
+    },
+    {
+      "epoch": 2.8999247554552294,
+      "grad_norm": 1.1644206047058105,
+      "learning_rate": 1.194176214271897e-07,
+      "loss": 0.7567,
+      "num_input_tokens_seen": 1122248,
+      "step": 965
+    },
+    {
+      "epoch": 2.9149736644093305,
+      "grad_norm": 1.2540746927261353,
+      "learning_rate": 8.402225985413848e-08,
+      "loss": 0.8944,
+      "num_input_tokens_seen": 1127928,
+      "step": 970
+    },
+    {
+      "epoch": 2.930022573363431,
+      "grad_norm": 1.1684881448745728,
+      "learning_rate": 5.4824019763252685e-08,
+      "loss": 0.9737,
+      "num_input_tokens_seen": 1133336,
+      "step": 975
+    },
+    {
+      "epoch": 2.945071482317532,
+      "grad_norm": 1.072198510169983,
+      "learning_rate": 3.1830163363655296e-08,
+      "loss": 0.8965,
+      "num_input_tokens_seen": 1139048,
+      "step": 980
+    },
+    {
+      "epoch": 2.9601203912716327,
+      "grad_norm": 1.7171086072921753,
+      "learning_rate": 1.504640970531046e-08,
+      "loss": 0.837,
+      "num_input_tokens_seen": 1144456,
+      "step": 985
+    },
+    {
+      "epoch": 2.975169300225734,
+      "grad_norm": 1.4984806776046753,
+      "learning_rate": 4.4769332565558485e-09,
+      "loss": 0.7812,
+      "num_input_tokens_seen": 1150160,
+      "step": 990
+    },
+    {
+      "epoch": 2.9902182091798344,
+      "grad_norm": 1.2322272062301636,
+      "learning_rate": 1.2436286584982527e-10,
+      "loss": 0.8613,
+      "num_input_tokens_seen": 1156704,
+      "step": 995
+    },
+    {
+      "epoch": 2.9932279909706545,
+      "num_input_tokens_seen": 1157808,
+      "step": 996,
+      "total_flos": 1.3788411572404224e+16,
+      "train_loss": 0.939127180590687,
+      "train_runtime": 10484.6402,
+      "train_samples_per_second": 0.761,
+      "train_steps_per_second": 0.095
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 996,
+  "num_input_tokens_seen": 1157808,
+  "num_train_epochs": 3,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.3788411572404224e+16,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:19877188370cf3d74bf7f601a975694ade04d8236ac4f1d0937bf61a4ca990d0
+size 5688

training_args.yaml ADDED Viewed

	@@ -0,0 +1,33 @@

+bf16: true
+cutoff_len: 2048
+dataset: OCR_Finetuning_Dataset
+dataset_dir: /content/drive/MyDrive
+ddp_timeout: 180000000
+do_train: true
+finetuning_type: lora
+flash_attn: auto
+gradient_accumulation_steps: 8
+include_num_input_tokens_seen: true
+learning_rate: 5.0e-05
+logging_steps: 5
+lora_alpha: 16
+lora_dropout: 0
+lora_rank: 8
+lora_target: all
+lr_scheduler_type: cosine
+max_grad_norm: 1.0
+max_samples: 100000
+model_name_or_path: prithivMLmods/Qwen2-VL-OCR-2B-Instruct
+num_train_epochs: 3.0
+optim: adamw_torch
+output_dir: saves/Custom/lora/train_2025-04-01-09-06-36
+packing: false
+per_device_train_batch_size: 1
+plot_loss: true
+preprocessing_num_workers: 16
+report_to: none
+save_steps: 100
+stage: sft
+template: default
+trust_remote_code: true
+warmup_steps: 0

training_loss.png ADDED Viewed

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff