Training in progress, step 5

Browse files

Files changed (13) hide show

config.json +8 -1
model.safetensors +2 -2
training_args.bin +1 -1
wandb/debug.log +20 -38
wandb/run-20250504_135537-fqirr53c/files/output.log +15 -0
wandb/run-20250504_135537-fqirr53c/files/requirements.txt +863 -0
wandb/run-20250504_135537-fqirr53c/files/wandb-metadata.json +42 -0
wandb/run-20250504_135537-fqirr53c/logs/debug-core.log +6 -0
wandb/run-20250504_135537-fqirr53c/logs/debug-internal.log +93 -0
wandb/run-20250504_135537-fqirr53c/logs/debug.log +174 -0
wandb/run-20250504_135537-fqirr53c/run-fqirr53c.wandb +0 -0
wandb/run-20250504_135809-y962z7x6/logs/debug.log +87 -0
wandb/run-20250504_140029-gm7oud70/logs/debug.log +21 -0

config.json CHANGED Viewed

@@ -4,6 +4,8 @@
   ],
   "attention_probs_dropout_prob": 0.1,
   "classifier_dropout": null,
   "hidden_act": "gelu",
   "hidden_dropout_prob": 0.1,
   "hidden_size": 768,
@@ -25,11 +27,16 @@
   "num_attention_heads": 12,
   "num_hidden_layers": 12,
   "pad_token_id": 0,
   "position_embedding_type": "absolute",
   "problem_type": "single_label_classification",
   "torch_dtype": "float32",
   "transformers_version": "4.51.1",
   "type_vocab_size": 2,
   "use_cache": true,
-  "vocab_size": 64000
 }

   ],
   "attention_probs_dropout_prob": 0.1,
   "classifier_dropout": null,
+  "directionality": "bidi",
+  "gradient_checkpointing": false,
   "hidden_act": "gelu",
   "hidden_dropout_prob": 0.1,
   "hidden_size": 768,
   "num_attention_heads": 12,
   "num_hidden_layers": 12,
   "pad_token_id": 0,
+  "pooler_fc_size": 768,
+  "pooler_num_attention_heads": 12,
+  "pooler_num_fc_layers": 3,
+  "pooler_size_per_head": 128,
+  "pooler_type": "first_token_transform",
   "position_embedding_type": "absolute",
   "problem_type": "single_label_classification",
   "torch_dtype": "float32",
   "transformers_version": "4.51.1",
   "type_vocab_size": 2,
   "use_cache": true,
+  "vocab_size": 100000
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bb3ddf86caa21f3019bf06d62cead356d864dd86b7624d3917d1d35ff5472aaa
-size 540806148

 version https://git-lfs.github.com/spec/v1
+oid sha256:1540b5c8d98dbc888bea062c8a98bc90e553852a900aa688729acce6bb2ad191
+size 651398148

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:585afd9a6a00cf30824acdea0fa8c837628db4dea4440a72491245a9256a9676
 size 5304

 version https://git-lfs.github.com/spec/v1
+oid sha256:940da1f61ec8940f29927d22dbc004e07e619075dea48dab349f6d1922bc0386
 size 5304

wandb/debug.log CHANGED Viewed

@@ -1,39 +1,21 @@
-2025-05-03 21:17:45,614 INFO    MainThread:1653 [wandb_setup.py:_flush():68] Current SDK version is 0.19.6
-2025-05-03 21:17:45,614 INFO    MainThread:1653 [wandb_setup.py:_flush():68] Configure stats pid to 1653
-2025-05-03 21:17:45,614 INFO    MainThread:1653 [wandb_setup.py:_flush():68] Loading settings from /root/.config/wandb/settings
-2025-05-03 21:17:45,614 INFO    MainThread:1653 [wandb_setup.py:_flush():68] Loading settings from /kaggle/working/wandb/settings
-2025-05-03 21:17:45,614 INFO    MainThread:1653 [wandb_setup.py:_flush():68] Loading settings from environment variables
-2025-05-03 21:17:45,614 INFO    MainThread:1653 [wandb_init.py:setup_run_log_directory():637] Logging user logs to /kaggle/working/wandb/run-20250503_211745-af8yueej/logs/debug.log
-2025-05-03 21:17:45,614 INFO    MainThread:1653 [wandb_init.py:setup_run_log_directory():638] Logging internal logs to /kaggle/working/wandb/run-20250503_211745-af8yueej/logs/debug-internal.log
-2025-05-03 21:17:45,614 INFO    MainThread:1653 [wandb_init.py:monkeypatch_ipython():589] configuring jupyter hooks <wandb.sdk.wandb_init._WandbInit object at 0x7c4809abe010>
-2025-05-03 21:17:45,615 INFO    MainThread:1653 [wandb_init.py:init():756] calling init triggers
-2025-05-03 21:17:45,615 INFO    MainThread:1653 [wandb_init.py:init():761] wandb.init called with sweep_config: {}
 config: {'_wandb': {}}
-2025-05-03 21:17:45,615 INFO    MainThread:1653 [wandb_init.py:init():789] starting backend
-2025-05-03 21:17:45,825 INFO    MainThread:1653 [wandb_init.py:init():793] sending inform_init request
-2025-05-03 21:17:45,830 INFO    MainThread:1653 [backend.py:_multiprocessing_setup():97] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
-2025-05-03 21:17:45,830 INFO    MainThread:1653 [wandb_init.py:init():808] backend started and connected
-2025-05-03 21:17:45,837 INFO    MainThread:1653 [wandb_run.py:_label_probe_notebook():1196] probe notebook
-2025-05-03 21:17:51,105 INFO    MainThread:1653 [wandb_init.py:init():901] updated telemetry
-2025-05-03 21:17:51,106 INFO    MainThread:1653 [wandb_init.py:init():936] communicating run to backend with 90.0 second timeout
-2025-05-03 21:17:51,217 INFO    MainThread:1653 [wandb_init.py:init():994] starting run threads in backend
-2025-05-03 21:17:51,791 INFO    MainThread:1653 [wandb_run.py:_console_start():2385] atexit reg
-2025-05-03 21:17:51,792 INFO    MainThread:1653 [wandb_run.py:_redirect():2235] redirect: wrap_raw
-2025-05-03 21:17:51,793 INFO    MainThread:1653 [wandb_run.py:_redirect():2300] Wrapping output streams.
-2025-05-03 21:17:51,793 INFO    MainThread:1653 [wandb_run.py:_redirect():2325] Redirects installed.
-2025-05-03 21:17:51,797 INFO    MainThread:1653 [wandb_init.py:init():1036] run started, returning control to user process
-2025-05-03 21:17:51,797 INFO    MainThread:1653 [jupyter.py:save_ipynb():386] not saving jupyter notebook
-2025-05-03 21:17:51,797 INFO    MainThread:1653 [wandb_init.py:_pause_backend():554] pausing backend
-2025-05-03 21:17:51,807 INFO    MainThread:1653 [wandb_init.py:_resume_backend():559] resuming backend
-2025-05-03 21:17:52,024 INFO    MainThread:1653 [jupyter.py:save_ipynb():386] not saving jupyter notebook
-2025-05-03 21:17:52,025 INFO    MainThread:1653 [wandb_init.py:_pause_backend():554] pausing backend
-2025-05-03 21:17:52,029 INFO    MainThread:1653 [wandb_init.py:_resume_backend():559] resuming backend
-2025-05-03 21:17:52,061 INFO    MainThread:1653 [jupyter.py:save_ipynb():386] not saving jupyter notebook
-2025-05-03 21:17:52,061 INFO    MainThread:1653 [wandb_init.py:_pause_backend():554] pausing backend
-2025-05-03 21:17:58,421 INFO    MainThread:1653 [wandb_init.py:_resume_backend():559] resuming backend
-2025-05-03 21:17:58,882 INFO    MainThread:1653 [jupyter.py:save_ipynb():386] not saving jupyter notebook
-2025-05-03 21:17:58,882 INFO    MainThread:1653 [wandb_init.py:_pause_backend():554] pausing backend
-2025-05-03 21:17:58,886 INFO    MainThread:1653 [wandb_init.py:_resume_backend():559] resuming backend
-2025-05-03 21:17:59,283 INFO    MainThread:1653 [wandb_run.py:_config_callback():1253] config_cb None None {'return_dict': True, 'output_hidden_states': False, 'output_attentions': False, 'torchscript': False, 'torch_dtype': 'float32', 'use_bfloat16': False, 'tf_legacy_loss': False, 'pruned_heads': {}, 'tie_word_embeddings': True, 'chunk_size_feed_forward': 0, 'is_encoder_decoder': False, 'is_decoder': False, 'cross_attention_hidden_size': None, 'add_cross_attention': False, 'tie_encoder_decoder': False, 'max_length': 20, 'min_length': 0, 'do_sample': False, 'early_stopping': False, 'num_beams': 1, 'num_beam_groups': 1, 'diversity_penalty': 0.0, 'temperature': 1.0, 'top_k': 50, 'top_p': 1.0, 'typical_p': 1.0, 'repetition_penalty': 1.0, 'length_penalty': 1.0, 'no_repeat_ngram_size': 0, 'encoder_no_repeat_ngram_size': 0, 'bad_words_ids': None, 'num_return_sequences': 1, 'output_scores': False, 'return_dict_in_generate': False, 'forced_bos_token_id': None, 'forced_eos_token_id': None, 'remove_invalid_values': False, 'exponential_decay_length_penalty': None, 'suppress_tokens': None, 'begin_suppress_tokens': None, 'architectures': ['BertForMaskedLM'], 'finetuning_task': None, 'id2label': {0: 'LABEL_0', 1: 'LABEL_1', 2: 'LABEL_2'}, 'label2id': {'LABEL_0': 0, 'LABEL_1': 1, 'LABEL_2': 2}, 'tokenizer_class': None, 'prefix': None, 'bos_token_id': None, 'pad_token_id': 0, 'eos_token_id': None, 'sep_token_id': None, 'decoder_start_token_id': None, 'task_specific_params': None, 'problem_type': None, '_name_or_path': 'aubmindlab/bert-base-arabertv02', '_attn_implementation_autoset': True, 'transformers_version': '4.51.1', 'model_type': 'bert', 'vocab_size': 64000, 'hidden_size': 768, 'num_hidden_layers': 12, 'num_attention_heads': 12, 'hidden_act': 'gelu', 'intermediate_size': 3072, 'hidden_dropout_prob': 0.1, 'attention_probs_dropout_prob': 0.1, 'max_position_embeddings': 512, 'type_vocab_size': 2, 'initializer_range': 0.02, 'layer_norm_eps': 1e-12, 'position_embedding_type': 'absolute', 'use_cache': True, 'classifier_dropout': None, 'output_dir': '/kaggle/working/', 'overwrite_output_dir': False, 'do_train': False, 'do_eval': True, 'do_predict': False, 'eval_strategy': 'steps', 'prediction_loss_only': False, 'per_device_train_batch_size': 8, 'per_device_eval_batch_size': 8, 'per_gpu_train_batch_size': None, 'per_gpu_eval_batch_size': None, 'gradient_accumulation_steps': 2, 'eval_accumulation_steps': None, 'eval_delay': 0, 'torch_empty_cache_steps': None, 'learning_rate': 5e-05, 'weight_decay': 0.0, 'adam_beta1': 0.9, 'adam_beta2': 0.999, 'adam_epsilon': 1e-08, 'max_grad_norm': 1.0, 'num_train_epochs': 5, 'max_steps': -1, 'lr_scheduler_type': 'linear', 'lr_scheduler_kwargs': {}, 'warmup_ratio': 0.2, 'warmup_steps': 0, 'log_level': 'passive', 'log_level_replica': 'warning', 'log_on_each_node': True, 'logging_dir': '/kaggle/working/runs/May03_21-17-52_45a6a5d4a1e9', 'logging_strategy': 'steps', 'logging_first_step': False, 'logging_steps': 500, 'logging_nan_inf_filter': True, 'save_strategy': 'steps', 'save_steps': 5, 'save_total_limit': 1, 'save_safetensors': True, 'save_on_each_node': False, 'save_only_model': False, 'restore_callback_states_from_checkpoint': False, 'no_cuda': False, 'use_cpu': False, 'use_mps_device': False, 'seed': 42, 'data_seed': None, 'jit_mode_eval': False, 'use_ipex': False, 'bf16': False, 'fp16': True, 'fp16_opt_level': 'O1', 'half_precision_backend': 'auto', 'bf16_full_eval': False, 'fp16_full_eval': False, 'tf32': None, 'local_rank': 0, 'ddp_backend': None, 'tpu_num_cores': None, 'tpu_metrics_debug': False, 'debug': [], 'dataloader_drop_last': False, 'eval_steps': 5, 'dataloader_num_workers': 0, 'dataloader_prefetch_factor': None, 'past_index': -1, 'run_name': '/kaggle/working/', 'disable_tqdm': False, 'remove_unused_columns': True, 'label_names': None, 'load_best_model_at_end': True, 'metric_for_best_model': 'macro_f1', 'greater_is_better': True, 'ignore_data_skip': False, 'fsdp': [], 'fsdp_min_num_params': 0, 'fsdp_config': {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, 'tp_size': 0, 'fsdp_transformer_layer_cls_to_wrap': None, 'accelerator_config': {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}, 'deepspeed': None, 'label_smoothing_factor': 0.0, 'optim': 'adamw_torch', 'optim_args': None, 'adafactor': False, 'group_by_length': False, 'length_column_name': 'length', 'report_to': ['wandb'], 'ddp_find_unused_parameters': None, 'ddp_bucket_cap_mb': None, 'ddp_broadcast_buffers': None, 'dataloader_pin_memory': True, 'dataloader_persistent_workers': False, 'skip_memory_metrics': True, 'use_legacy_prediction_loop': False, 'push_to_hub': True, 'resume_from_checkpoint': None, 'hub_model_id': None, 'hub_strategy': 'every_save', 'hub_token': '<HUB_TOKEN>', 'hub_private_repo': None, 'hub_always_push': False, 'gradient_checkpointing': False, 'gradient_checkpointing_kwargs': None, 'include_inputs_for_metrics': False, 'include_for_metrics': [], 'eval_do_concat_batches': True, 'fp16_backend': 'auto', 'push_to_hub_model_id': None, 'push_to_hub_organization': None, 'push_to_hub_token': '<PUSH_TO_HUB_TOKEN>', 'mp_parameters': '', 'auto_find_batch_size': False, 'full_determinism': False, 'torchdynamo': None, 'ray_scope': 'last', 'ddp_timeout': 1800, 'torch_compile': False, 'torch_compile_backend': None, 'torch_compile_mode': None, 'include_tokens_per_second': False, 'include_num_input_tokens_seen': False, 'neftune_noise_alpha': None, 'optim_target_modules': None, 'batch_eval_metrics': False, 'eval_on_start': False, 'use_liger_kernel': False, 'eval_use_gather_object': False, 'average_tokens_across_devices': False}
-2025-05-03 21:17:59,291 INFO    MainThread:1653 [wandb_config.py:__setitem__():154] config set model/num_parameters = 135195651 - <bound method Run._config_callback of <wandb.sdk.wandb_run.Run object at 0x7c4809c1d790>>
-2025-05-03 21:17:59,291 INFO    MainThread:1653 [wandb_run.py:_config_callback():1253] config_cb model/num_parameters 135195651 None

+2025-05-04 14:00:29,421 INFO    MainThread:31 [wandb_init.py:setup_run_log_directory():637] Logging user logs to /kaggle/working/wandb/run-20250504_140029-gm7oud70/logs/debug.log
+2025-05-04 14:00:29,421 INFO    MainThread:31 [wandb_init.py:setup_run_log_directory():638] Logging internal logs to /kaggle/working/wandb/run-20250504_140029-gm7oud70/logs/debug-internal.log
+2025-05-04 14:00:29,421 INFO    MainThread:31 [wandb_init.py:init():756] calling init triggers
+2025-05-04 14:00:29,421 INFO    MainThread:31 [wandb_init.py:init():761] wandb.init called with sweep_config: {}
 config: {'_wandb': {}}
+2025-05-04 14:00:29,422 INFO    MainThread:31 [wandb_init.py:init():781] wandb.init() called when a run is still active
+2025-05-04 14:00:29,422 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 14:00:29,422 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 14:00:30,369 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 14:00:31,453 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 14:00:31,453 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 14:00:31,458 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 14:00:31,490 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 14:00:31,490 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 14:00:32,913 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 14:00:33,197 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 14:00:33,197 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 14:00:33,202 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 14:00:33,664 INFO    MainThread:31 [wandb_run.py:_config_callback():1253] config_cb None None {'return_dict': True, 'output_hidden_states': False, 'output_attentions': False, 'torchscript': False, 'torch_dtype': 'float32', 'use_bfloat16': False, 'tf_legacy_loss': False, 'pruned_heads': {}, 'tie_word_embeddings': True, 'chunk_size_feed_forward': 0, 'is_encoder_decoder': False, 'is_decoder': False, 'cross_attention_hidden_size': None, 'add_cross_attention': False, 'tie_encoder_decoder': False, 'max_length': 20, 'min_length': 0, 'do_sample': False, 'early_stopping': False, 'num_beams': 1, 'num_beam_groups': 1, 'diversity_penalty': 0.0, 'temperature': 1.0, 'top_k': 50, 'top_p': 1.0, 'typical_p': 1.0, 'repetition_penalty': 1.0, 'length_penalty': 1.0, 'no_repeat_ngram_size': 0, 'encoder_no_repeat_ngram_size': 0, 'bad_words_ids': None, 'num_return_sequences': 1, 'output_scores': False, 'return_dict_in_generate': False, 'forced_bos_token_id': None, 'forced_eos_token_id': None, 'remove_invalid_values': False, 'exponential_decay_length_penalty': None, 'suppress_tokens': None, 'begin_suppress_tokens': None, 'architectures': ['BertForMaskedLM'], 'finetuning_task': None, 'id2label': {0: 'LABEL_0', 1: 'LABEL_1', 2: 'LABEL_2'}, 'label2id': {'LABEL_0': 0, 'LABEL_1': 1, 'LABEL_2': 2}, 'tokenizer_class': None, 'prefix': None, 'bos_token_id': None, 'pad_token_id': 0, 'eos_token_id': None, 'sep_token_id': None, 'decoder_start_token_id': None, 'task_specific_params': None, 'problem_type': None, '_name_or_path': 'UBC-NLP/MARBERT', '_attn_implementation_autoset': True, 'transformers_version': '4.51.1', 'directionality': 'bidi', 'gradient_checkpointing': False, 'model_type': 'bert', 'pooler_fc_size': 768, 'pooler_num_attention_heads': 12, 'pooler_num_fc_layers': 3, 'pooler_size_per_head': 128, 'pooler_type': 'first_token_transform', 'vocab_size': 100000, 'hidden_size': 768, 'num_hidden_layers': 12, 'num_attention_heads': 12, 'hidden_act': 'gelu', 'intermediate_size': 3072, 'hidden_dropout_prob': 0.1, 'attention_probs_dropout_prob': 0.1, 'max_position_embeddings': 512, 'type_vocab_size': 2, 'initializer_range': 0.02, 'layer_norm_eps': 1e-12, 'position_embedding_type': 'absolute', 'use_cache': True, 'classifier_dropout': None, 'output_dir': '/kaggle/working/', 'overwrite_output_dir': False, 'do_train': False, 'do_eval': True, 'do_predict': False, 'eval_strategy': 'steps', 'prediction_loss_only': False, 'per_device_train_batch_size': 8, 'per_device_eval_batch_size': 8, 'per_gpu_train_batch_size': None, 'per_gpu_eval_batch_size': None, 'gradient_accumulation_steps': 2, 'eval_accumulation_steps': None, 'eval_delay': 0, 'torch_empty_cache_steps': None, 'learning_rate': 5e-05, 'weight_decay': 0.0, 'adam_beta1': 0.9, 'adam_beta2': 0.999, 'adam_epsilon': 1e-08, 'max_grad_norm': 1.0, 'num_train_epochs': 5, 'max_steps': -1, 'lr_scheduler_type': 'linear', 'lr_scheduler_kwargs': {}, 'warmup_ratio': 0.2, 'warmup_steps': 0, 'log_level': 'passive', 'log_level_replica': 'warning', 'log_on_each_node': True, 'logging_dir': '/kaggle/working/runs/May04_14-00-31_40834be6d3ef', 'logging_strategy': 'steps', 'logging_first_step': False, 'logging_steps': 500, 'logging_nan_inf_filter': True, 'save_strategy': 'steps', 'save_steps': 5, 'save_total_limit': 1, 'save_safetensors': True, 'save_on_each_node': False, 'save_only_model': False, 'restore_callback_states_from_checkpoint': False, 'no_cuda': False, 'use_cpu': False, 'use_mps_device': False, 'seed': 42, 'data_seed': None, 'jit_mode_eval': False, 'use_ipex': False, 'bf16': False, 'fp16': True, 'fp16_opt_level': 'O1', 'half_precision_backend': 'auto', 'bf16_full_eval': False, 'fp16_full_eval': False, 'tf32': None, 'local_rank': 0, 'ddp_backend': None, 'tpu_num_cores': None, 'tpu_metrics_debug': False, 'debug': [], 'dataloader_drop_last': False, 'eval_steps': 5, 'dataloader_num_workers': 0, 'dataloader_prefetch_factor': None, 'past_index': -1, 'run_name': '/kaggle/working/', 'disable_tqdm': False, 'remove_unused_columns': True, 'label_names': None, 'load_best_model_at_end': True, 'metric_for_best_model': 'macro_f1', 'greater_is_better': True, 'ignore_data_skip': False, 'fsdp': [], 'fsdp_min_num_params': 0, 'fsdp_config': {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, 'tp_size': 0, 'fsdp_transformer_layer_cls_to_wrap': None, 'accelerator_config': {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}, 'deepspeed': None, 'label_smoothing_factor': 0.0, 'optim': 'adamw_torch', 'optim_args': None, 'adafactor': False, 'group_by_length': False, 'length_column_name': 'length', 'report_to': ['wandb'], 'ddp_find_unused_parameters': None, 'ddp_bucket_cap_mb': None, 'ddp_broadcast_buffers': None, 'dataloader_pin_memory': True, 'dataloader_persistent_workers': False, 'skip_memory_metrics': True, 'use_legacy_prediction_loop': False, 'push_to_hub': True, 'resume_from_checkpoint': None, 'hub_model_id': None, 'hub_strategy': 'every_save', 'hub_token': '<HUB_TOKEN>', 'hub_private_repo': None, 'hub_always_push': False, 'gradient_checkpointing_kwargs': None, 'include_inputs_for_metrics': False, 'include_for_metrics': [], 'eval_do_concat_batches': True, 'fp16_backend': 'auto', 'push_to_hub_model_id': None, 'push_to_hub_organization': None, 'push_to_hub_token': '<PUSH_TO_HUB_TOKEN>', 'mp_parameters': '', 'auto_find_batch_size': False, 'full_determinism': False, 'torchdynamo': None, 'ray_scope': 'last', 'ddp_timeout': 1800, 'torch_compile': False, 'torch_compile_backend': None, 'torch_compile_mode': None, 'include_tokens_per_second': False, 'include_num_input_tokens_seen': False, 'neftune_noise_alpha': None, 'optim_target_modules': None, 'batch_eval_metrics': False, 'eval_on_start': False, 'use_liger_kernel': False, 'eval_use_gather_object': False, 'average_tokens_across_devices': False}
+2025-05-04 14:00:33,670 INFO    MainThread:31 [wandb_config.py:__setitem__():154] config set model/num_parameters = 162843651 - <bound method Run._config_callback of <wandb.sdk.wandb_run.Run object at 0x7f46cb2f3cd0>>
+2025-05-04 14:00:33,670 INFO    MainThread:31 [wandb_run.py:_config_callback():1253] config_cb model/num_parameters 162843651 None

wandb/run-20250504_135537-fqirr53c/files/output.log ADDED Viewed

	@@ -0,0 +1,15 @@

+Some weights of BertForSequenceClassification were not initialized from the model checkpoint at UBC-NLP/MARBERT and are newly initialized: ['classifier.bias', 'classifier.weight']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+[34m[1mwandb[0m: [33mWARNING[0m The `run_name` is currently set to the same value as `TrainingArguments.output_dir`. If this was not intended, please specify a different run name by setting the `TrainingArguments.run_name` parameter.
+[34m[1mwandb[0m: [33mWARNING[0m Calling wandb.login() after wandb.init() has no effect.
+Some weights of BertForSequenceClassification were not initialized from the model checkpoint at UBC-NLP/MARBERT and are newly initialized: ['classifier.bias', 'classifier.weight']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+[34m[1mwandb[0m: [33mWARNING[0m Calling wandb.login() after wandb.init() has no effect.
+Some weights of BertForSequenceClassification were not initialized from the model checkpoint at UBC-NLP/MARBERT and are newly initialized: ['classifier.bias', 'classifier.weight']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+/usr/local/lib/python3.11/dist-packages/torch/nn/parallel/_functions.py:71: UserWarning: Was asked to gather along dimension 0, but all input tensors were scalars; will instead unsqueeze and return a vector.
+  warnings.warn(
+/usr/local/lib/python3.11/dist-packages/torch/nn/parallel/_functions.py:71: UserWarning: Was asked to gather along dimension 0, but all input tensors were scalars; will instead unsqueeze and return a vector.
+  warnings.warn(
+/usr/local/lib/python3.11/dist-packages/torch/nn/parallel/_functions.py:71: UserWarning: Was asked to gather along dimension 0, but all input tensors were scalars; will instead unsqueeze and return a vector.
+  warnings.warn(

wandb/run-20250504_135537-fqirr53c/files/requirements.txt ADDED Viewed

	@@ -0,0 +1,863 @@

+fsspec==2024.12.0
+bq_helper==0.4.1
+nltk==3.9.1
+regex==2024.11.6
+joblib==1.4.2
+click==8.1.8
+tqdm==4.67.1
+lightgbm==4.6.0
+pytools==2025.1.2
+pycuda==2025.1
+torchtune==0.6.1
+tbb==2022.1.0
+mkl==2025.1.0
+tbb4py==2022.1.0
+shapely==2.1.0
+libpysal==4.9.2
+intel-cmplr-lib-ur==2024.2.0
+intel-cmplr-lib-rt==2024.2.0
+mkl-umath==0.1.1
+mkl-service==2.4.1
+mkl-random==1.2.4
+numpy==1.26.4
+intel-openmp==2024.2.0
+mkl-fft==1.3.8
+pynvjitlink-cu12==0.5.2
+tblib==3.1.0
+tsfresh==0.21.0
+psutil==7.0.0
+raft-dask-cu12==25.2.0
+partd==1.4.2
+treelite==4.4.1
+dask==2024.12.1
+cupy-cuda12x==13.4.1
+pynvml==12.0.0
+nvidia-ml-py==12.570.86
+PyWavelets==1.8.0
+nvidia-cusolver-cu12==11.7.3.90
+ucx-py-cu12==0.42.0
+attrs==25.3.0
+libcudf-cu12==25.2.2
+nvidia-nvcomp-cu12==4.2.0.11
+numba-cuda==0.2.0
+libcuml-cu12==25.2.1
+typing_extensions==4.13.1
+urllib3==2.3.0
+msgpack==1.1.0
+fastrlock==0.8.3
+idna==3.10
+libkvikio-cu12==25.2.1
+libucx-cu12==1.18.0
+distributed==2024.12.1
+libcuvs-cu12==25.2.1
+MarkupSafe==3.0.2
+dask-cudf-cu12==25.2.2
+charset-normalizer==3.4.1
+dask-expr==1.1.21
+nvidia-cusparse-cu12==12.5.8.93
+nvidia-cublas-cu12==12.8.4.1
+rich==14.0.0
+dask-cuda==25.2.0
+zict==3.0.0
+toolz==1.0.0
+nvidia-cudnn-cu12==9.3.0.75
+cuml-cu12==25.2.1
+pylibcudf-cu12==25.2.2
+locket==1.0.0
+scipy==1.15.2
+graphviz==0.20.3
+zipp==3.21.0
+importlib_metadata==8.6.1
+python-dateutil==2.9.0.post0
+certifi==2025.1.31
+markdown-it-py==3.0.0
+tzdata==2025.2
+tabulate==0.9.0
+statsmodels==0.14.4
+mdurl==0.1.2
+patsy==1.0.1
+scikit-learn==1.2.2
+six==1.17.0
+packaging==24.2
+pylibraft-cu12==25.2.0
+rapids-dask-dependency==25.2.0
+numba==0.60.0
+cloudpickle==3.1.1
+nvtx==0.2.11
+threadpoolctl==3.6.0
+cudf-cu12==25.2.2
+cuda-bindings==12.8.0
+llvmlite==0.43.0
+pandas==2.2.3
+requests==2.32.3
+eli5==0.13.0
+Pygments==2.19.1
+pytz==2025.2
+cachetools==5.5.2
+Jinja2==3.1.6
+rmm-cu12==25.2.0
+nvidia-cufft-cu12==11.3.3.83
+cuda-python==12.8.0
+libucxx-cu12==0.42.0
+PyYAML==6.0.2
+tornado==6.4.2
+category_encoders==2.7.0
+stumpy==1.13.0
+nvidia-nvjitlink-cu12==12.8.93
+cuvs-cu12==25.2.1
+nvidia-curand-cu12==10.3.9.90
+libraft-cu12==25.2.0
+ucxx-cu12==0.42.0
+sortedcontainers==2.4.0
+pyarrow==19.0.1
+distributed-ucxx-cu12==0.42.0
+learntools==0.3.5
+protobuf==3.20.3
+google-cloud-storage==2.14.0
+google-cloud-vision==3.10.1
+google-cloud-automl==1.0.1
+grpcio-status==1.48.2
+google-cloud-translate==3.12.1
+keras==3.5.0
+google-cloud-videointelligence==2.16.1
+google-api-core==1.34.1
+pycparser==2.22
+annotated-types==0.7.0
+dnspython==2.7.0
+in-toto-attestation==0.9.3
+typing-inspection==0.4.0
+cryptography==44.0.2
+id==1.5.0
+PyJWT==2.10.1
+pyOpenSSL==25.0.0
+email_validator==2.2.0
+huggingface-hub==0.30.2
+cffi==1.17.1
+platformdirs==4.3.7
+multiprocess==0.70.16
+multidict==6.2.0
+tuf==5.1.0
+aiohappyeyeballs==2.6.1
+pyasn1==0.6.1
+rfc3161-client==0.1.2
+filelock==3.18.0
+model-signing==1.0.0
+pydantic==2.11.3
+hpack==4.1.0
+xxhash==3.5.0
+propcache==0.3.1
+sigstore-protobuf-specs==0.3.2
+grpclib==0.4.8rc2
+kagglehub==0.3.11
+aiosignal==1.3.2
+sigstore==3.6.1
+aiohttp==3.11.16
+betterproto==2.0.0b6
+datasets==3.5.0
+pydantic_core==2.33.1
+securesystemslib==1.2.0
+hyperframe==6.1.0
+rfc8785==0.1.4
+sigstore-rekor-types==0.0.18
+h2==4.2.0
+dill==0.3.8
+frozenlist==1.5.0
+yarl==1.19.0
+ppft==1.7.6.9
+fiona==1.10.1
+urwid_readline==0.15.1
+coverage==7.8.0
+Wand==0.6.13
+qgrid==1.3.1
+jupyter_client==8.6.3
+woodwork==0.31.0
+overrides==7.7.0
+y-py==0.6.2
+ipywidgets==8.1.5
+ydata-profiling==4.16.1
+hep_ml==0.7.3
+scikit-multilearn==0.2.0
+cytoolz==1.0.1
+pytesseract==0.3.13
+click-plugins==1.1.1
+onnx==1.17.0
+odfpy==1.4.1
+mpld3==0.5.10
+Boruta==0.4.3
+fqdn==1.5.1
+torchinfo==1.8.0
+clint==0.5.1
+pybind11==2.13.6
+kaggle==1.7.4.2
+torchao==0.10.0
+transformers==4.51.1
+python-lsp-server==1.12.2
+jupyter_server_terminals==0.5.3
+pox==0.3.5
+keras-core==0.1.7
+pygltflib==1.16.3
+botocore==1.37.29
+pandas-profiling==3.6.6
+asttokens==3.0.0
+scikit-surprise==1.1.4
+vtk==9.3.1
+jupyter-ydoc==0.2.5
+aiofiles==22.1.0
+deap==1.4.2
+isoduration==20.11.0
+featuretools==1.31.0
+plotly-express==0.4.1
+pycryptodomex==3.22.0
+docstring-to-markdown==0.16
+types-python-dateutil==2.9.0.20241206
+easyocr==1.7.2
+kornia==0.8.0
+slicer==0.0.7
+ImageHash==4.3.1
+pyemd==1.0.0
+fuzzywuzzy==0.18.0
+xgboost==2.0.3
+pandasql==0.7.3
+update-checker==0.18.0
+catboost==1.2.7
+pathos==0.3.2
+widgetsnbextension==4.0.13
+jupyter_server_fileid==0.9.3
+urwid==2.6.16
+fasttext==0.9.3
+orderly-set==5.3.1
+stopit==1.1.2
+haversine==2.9.0
+colorlog==6.9.0
+jupyter_server==2.12.5
+pytorch-lightning==2.5.1
+geojson==3.2.0
+uri-template==1.3.0
+notebook==6.5.4
+pytorch-ignite==0.5.2
+fury==0.12.0
+igraph==0.11.8
+puremagic==1.28
+olefile==0.47
+semver==3.0.4
+gymnasium==0.29.0
+nvidia-cuda-cupti-cu12==12.4.127
+TPOT==0.12.1
+tensorflow-cloud==0.1.5
+torchdata==0.11.0
+shap==0.44.1
+rtree==1.4.0
+ghapi==1.0.6
+ninja==1.11.1.4
+torchmetrics==1.7.1
+Cartopy==0.24.1
+nbdev==2.3.36
+jupyter-lsp==1.5.1
+pycryptodome==3.22.0
+gpxpy==1.6.2
+mlcrate==0.2.0
+papermill==2.6.0
+jupyterlab==3.6.8
+args==0.1.0
+typing-inspect==0.9.0
+omegaconf==2.3.0
+PyUpSet==0.1.1.post7
+dacite==1.9.2
+qtconsole==5.6.1
+visions==0.8.1
+trx-python==0.3
+Chessnut==0.4.1
+beartype==0.20.2
+lml==0.2.0
+jmespath==1.0.1
+jupyterlab_server==2.27.3
+ypy-websocket==0.8.4
+ansicolors==1.1.8
+tensorflow_decision_forests==1.11.0
+path.py==12.5.0
+ray==2.44.1
+blobfile==3.0.0
+tensorflow-io==0.37.1
+pymc3==3.11.4
+wavio==0.0.9
+cligj==0.7.2
+pdf2image==1.17.0
+dipy==1.11.0
+pyaml==25.1.0
+pypdf==5.4.0
+line_profiler==4.2.0
+pydub==0.25.1
+pyLDAvis==3.4.1
+antlr4-python3-runtime==4.9.3
+boto3==1.37.29
+Janome==0.5.0
+langid==1.1.6
+pyclipper==1.3.0.post6
+scikit-plot==0.3.7
+pymongo==4.12.0
+pydegensac==0.1.2
+jupyter_server_ydoc==0.8.0
+phik==0.12.4
+keras-tuner==1.4.7
+colorama==0.4.6
+daal==2025.4.0
+json5==0.12.0
+PyArabic==0.6.15
+cesium==0.12.1
+kornia_rs==0.1.8
+optuna==4.2.1
+ydf==0.9.0
+ujson==5.10.0
+alembic==1.15.2
+annoy==1.17.3
+h2o==3.46.0.7
+Pympler==1.1
+s3fs==0.4.2
+geopandas==0.14.4
+nbconvert==6.4.5
+emoji==2.14.1
+SimpleITK==2.4.1
+watchdog==6.0.0
+funcy==2.0
+deepdiff==8.4.2
+testpath==0.6.0
+nilearn==0.11.1
+openslide-python==1.4.1
+rfc3986-validator==0.1.1
+s3transfer==0.11.4
+nvidia-cuda-runtime-cu12==12.4.127
+nbclient==0.5.13
+Theano==1.0.5
+wurlitzer==3.1.1
+python-bidi==0.6.6
+plum-dispatch==2.5.7
+squarify==0.4.4
+comm==0.2.2
+dataclasses-json==0.6.7
+jupyter-events==0.12.0
+pettingzoo==1.24.0
+lightning-utilities==0.14.3
+matplotlib==3.7.5
+segment_anything==1.0
+datashader==0.17.0
+kaggle-environments==1.16.11
+marshmallow==3.26.1
+setuptools-scm==8.2.0
+rgf-python==3.12.0
+xvfbwrapper==0.2.10
+ipympl==0.9.7
+tiktoken==0.9.0
+stable-baselines3==2.1.0
+nvidia-cuda-nvrtc-cu12==12.4.127
+jedi==0.19.2
+jupyterlab-lsp==3.10.2
+python-lsp-jsonrpc==1.1.2
+aiosqlite==0.21.0
+QtPy==2.4.3
+pydicom==3.0.1
+multimethod==1.12
+docker==7.1.0
+mypy-extensions==1.0.0
+arrow==1.3.0
+isoweek==1.3.3
+texttable==1.7.0
+sphinx-rtd-theme==0.2.4
+kt-legacy==1.0.5
+pyct==0.5.0
+seaborn==0.12.2
+pyexcel-io==0.6.7
+Shimmy==1.3.0
+rfc3339-validator==0.1.4
+mamba==0.11.3
+path==17.1.0
+Mako==1.3.9
+pyexcel-ods==0.6.0
+preprocessing==0.1.13
+lime==0.2.0.1
+htmlmin==0.1.12
+python-json-logger==3.3.0
+Theano-PyMC==1.1.2
+bayesian-optimization==2.0.3
+keras-cv==0.9.0
+pudb==2024.1.3
+gatspy==0.3
+hf_transfer==0.1.9
+scikit-learn-intelex==2025.4.0
+scikit-optimize==0.10.2
+mne==1.9.0
+openslide-bin==4.0.0.6
+mistune==0.8.4
+execnb==0.1.14
+google-colab==1.0.0
+astunparse==1.6.3
+ipython==7.34.0
+referencing==0.36.2
+types-pytz==2025.1.0.20250204
+librosa==0.10.2.post1
+soxr==0.5.0.post1
+libclang==18.1.1
+keras-nlp==0.18.1
+imageio==2.37.0
+gensim==4.3.3
+clarabel==0.10.0
+h11==0.14.0
+imagesize==1.4.1
+py-cpuinfo==9.0.0
+geemap==0.35.1
+debugpy==1.8.0
+jupyterlab_pygments==0.3.0
+backcall==0.2.0
+tensorflow-hub==0.16.1
+requests-oauthlib==2.0.0
+scooby==0.10.0
+opencv-python-headless==4.11.0.86
+en-core-web-sm==3.7.1
+dopamine_rl==4.1.2
+langchain-text-splitters==0.3.6
+sklearn-compat==0.1.3
+ipython-genutils==0.2.0
+pyparsing==3.2.1
+catalogue==2.0.10
+sphinxcontrib-devhelp==2.0.0
+sklearn-pandas==2.2.0
+Markdown==3.7
+sphinxcontrib-qthelp==2.0.0
+openai==1.61.1
+google-auth-httplib2==0.2.0
+Flask==3.1.0
+preshed==3.0.9
+albumentations==2.0.4
+marisa-trie==1.2.1
+ipyleaflet==0.19.2
+chardet==5.2.0
+jupyter_core==5.7.2
+simple-parsing==0.1.7
+gin-config==0.5.0
+osqp==0.6.7.post3
+ipython-sql==0.5.0
+toml==0.10.2
+stringzilla==3.11.3
+polars==1.9.0
+jsonpointer==3.0.0
+opentelemetry-semantic-conventions==0.37b0
+ndindex==1.9.2
+h5py==3.12.1
+tensorflow-io-gcs-filesystem==0.37.1
+datascience==0.17.6
+alabaster==1.0.0
+pygit2==1.17.0
+pyshp==2.3.1
+folium==0.19.4
+spacy-legacy==3.0.12
+diffusers==0.32.2
+etils==1.12.0
+fastcore==1.7.29
+requests-toolbelt==1.0.0
+triton==3.1.0
+thinc==8.2.5
+holidays==0.66
+PyDrive==1.3.1
+pytest==8.3.4
+imutils==0.5.4
+sentence-transformers==3.4.1
+opt_einsum==3.4.0
+moviepy==1.0.3
+nbclassic==1.2.0
+importlib_resources==6.5.2
+xarray-einstats==0.8.0
+lazy_loader==0.4
+ipyevents==2.0.2
+immutabledict==4.2.1
+google-cloud-functions==1.19.0
+music21==9.3.0
+tensorflow-metadata==1.16.1
+nx-cugraph-cu12==24.12.0
+linkify-it-py==2.0.3
+accelerate==1.3.0
+language_data==1.3.0
+nvidia-cuda-nvcc-cu12==12.5.82
+google-cloud-iam==2.18.0
+torchsummary==1.5.1
+webencodings==0.5.1
+webcolors==24.11.1
+pydot==3.0.4
+jellyfish==1.1.0
+gym==0.25.2
+tcmlib==1.2.0
+cramjam==2.9.1
+opentelemetry-api==1.16.0
+gdown==5.2.0
+pymystem3==0.2.0
+parso==0.8.4
+py4j==0.10.9.7
+entrypoints==0.4
+proto-plus==1.26.0
+fastprogress==1.0.3
+pyogrio==0.10.0
+oauthlib==3.2.2
+fastjsonschema==2.21.1
+psycopg2==2.9.10
+missingno==0.5.2
+pandas-datareader==0.10.0
+google-spark-connect==0.5.2
+Deprecated==1.2.18
+pooch==1.8.2
+cycler==0.12.1
+cvxpy==1.6.0
+tensorboard==2.18.0
+typeguard==4.4.1
+googleapis-common-protos==1.67.0
+inflect==7.5.0
+argon2-cffi-bindings==21.2.0
+namex==0.0.8
+rpds-py==0.22.3
+scikit-image==0.25.1
+nvidia-nccl-cu12==2.21.5
+arviz==0.20.0
+opentelemetry-sdk==1.16.0
+google-cloud-resource-manager==1.14.0
+pandas-gbq==0.26.1
+argon2-cffi==23.1.0
+opencv-contrib-python==4.11.0.86
+sphinxcontrib-applehelp==2.0.0
+jax-cuda12-pjrt==0.4.33
+bleach==6.2.0
+h5netcdf==1.5.0
+defusedxml==0.7.1
+sphinxcontrib-serializinghtml==2.0.0
+google-cloud-dataproc==5.17.0
+more-itertools==10.6.0
+panel==1.6.0
+python-utils==3.9.1
+fonttools==4.56.0
+websockets==14.2
+Pyomo==6.8.2
+pydotplus==2.0.2
+ml-dtypes==0.4.1
+peewee==3.17.9
+google-pasta==0.2.0
+pyzmq==24.0.1
+cmdstanpy==1.2.5
+ipyparallel==8.8.0
+parsy==2.1
+bqplot==0.12.44
+spacy-loggers==1.0.5
+google-ai-generativelanguage==0.6.15
+prophet==1.1.6
+pydata-google-auth==1.9.1
+absl-py==1.4.0
+openpyxl==3.1.5
+vega-datasets==0.9.0
+mpmath==1.3.0
+frozendict==2.4.6
+gcsfs==2024.10.0
+google-cloud-bigquery==3.25.0
+opencv-python==4.11.0.86
+mdit-py-plugins==0.4.2
+zstandard==0.23.0
+torch==2.5.1+cu124
+langcodes==3.5.0
+blinker==1.9.0
+xyzservices==2025.1.0
+googledrivedownloader==1.1.0
+termcolor==2.5.0
+google-generativeai==0.8.4
+et_xmlfile==2.0.0
+jieba==0.42.1
+pluggy==1.5.0
+grpcio==1.70.0
+hyperopt==0.2.7
+python-louvain==0.16
+bigframes==1.36.0
+orbax-checkpoint==0.6.4
+google-auth-oauthlib==1.2.1
+soupsieve==2.6
+PyDrive2==1.21.3
+simsimd==6.2.1
+pyproj==3.7.0
+peft==0.14.0
+imbalanced-learn==0.13.0
+wandb==0.19.6
+wcwidth==0.2.13
+google-cloud-language==2.16.0
+google-cloud-core==2.4.1
+progressbar2==4.5.0
+pexpect==4.9.0
+ptyprocess==0.7.0
+pygame==2.6.1
+docker-pycreds==0.4.0
+Cython==3.0.12
+shellingham==1.5.4
+setproctitle==1.3.4
+CacheControl==0.14.2
+prometheus_client==0.21.1
+nbformat==5.10.4
+python-snappy==0.7.3
+narwhals==1.26.0
+google-cloud-firestore==2.20.0
+nest-asyncio==1.6.0
+chex==0.1.88
+sentry-sdk==2.21.0
+nibabel==5.3.2
+iniconfig==2.0.0
+multipledispatch==1.0.0
+astropy-iers-data==0.2025.2.10.0.33.26
+tf_keras==2.18.0
+networkx==3.4.2
+safetensors==0.5.2
+sentencepiece==0.2.0
+einops==0.8.1
+plotly==5.24.1
+rpy2==3.4.2
+bokeh==3.6.3
+ipytree==0.2.2
+python-box==7.3.2
+scs==3.2.7.post2
+pillow==11.1.0
+textblob==0.19.0
+PyOpenGL==3.1.9
+google-cloud-spanner==3.51.0
+decorator==4.4.2
+google-cloud-datastore==2.20.2
+docstring_parser==0.16
+pickleshare==0.7.5
+wrapt==1.17.2
+pyspark==3.5.4
+pytensor==2.27.1
+GDAL==3.6.4
+ibis-framework==9.2.0
+holoviews==1.20.0
+wasabi==1.1.3
+anyio==3.7.1
+tensorflow-text==2.18.1
+optax==0.2.4
+gast==0.6.0
+Werkzeug==3.1.3
+colorcet==3.1.0
+tensorstore==0.1.71
+atpublic==4.1.0
+blis==0.7.11
+humanize==4.11.0
+prettytable==3.14.0
+spanner-graph-notebook==1.1.1
+python-slugify==8.0.4
+earthengine-api==1.5.2
+miniKanren==1.0.3
+traitlets==5.7.1
+yfinance==0.2.52
+sqlparse==0.5.3
+terminado==0.18.1
+tensorflow-datasets==4.9.7
+pymc==5.20.1
+sphinxcontrib-htmlhelp==2.1.0
+grpc-interceptor==0.15.4
+geocoder==1.38.1
+langchain==0.3.18
+pyviz_comms==3.0.4
+babel==2.17.0
+proglog==0.1.10
+ply==3.11
+audioread==3.0.1
+google-genai==0.8.0
+docutils==0.21.2
+distro==1.9.0
+tf-slim==1.1.0
+orjson==3.10.15
+google-auth==2.27.0
+cons==0.4.6
+gspread==6.1.4
+geographiclib==2.0
+matplotlib-inline==0.1.7
+editdistance==0.8.1
+httpcore==1.0.7
+spacy==3.7.5
+community==1.0.0b1
+tifffile==2025.1.10
+gym-notices==0.0.8
+notebook_shim==0.2.4
+soundfile==0.13.1
+itsdangerous==2.2.0
+jsonpatch==1.33
+plotnine==0.14.5
+prompt_toolkit==3.0.50
+traittypes==0.2.1
+autograd==1.7.0
+text-unidecode==1.3
+pycocotools==2.0.8
+weasel==0.4.1
+srsly==2.5.1
+wordcloud==1.9.4
+langsmith==0.3.8
+cymem==2.0.11
+smart-open==7.1.0
+dlib==19.24.2
+grpc-google-iam-v1==0.14.0
+tenacity==9.0.0
+beautifulsoup4==4.13.3
+umf==0.9.1
+tables==3.10.2
+cloudpathlib==0.20.0
+torchvision==0.20.1+cu124
+altair==5.5.0
+cufflinks==0.17.3
+cvxopt==1.3.2
+tokenizers==0.21.0
+PySocks==1.7.1
+uc-micro-py==1.0.3
+xlrd==2.0.1
+numexpr==2.10.2
+promise==2.3
+Send2Trash==1.8.3
+array_record==0.6.0
+treescope==0.1.8
+sniffio==1.3.1
+httplib2==0.22.0
+jupyterlab_widgets==3.0.13
+httpimport==1.4.0
+confection==0.1.5
+uritemplate==4.1.1
+stanio==0.5.1
+easydict==1.13
+Sphinx==8.1.3
+future==1.0.0
+tensorflow==2.18.0
+websocket-client==1.8.0
+flatbuffers==25.2.10
+firebase-admin==6.6.0
+imgaug==0.4.0
+cmake==3.31.4
+Bottleneck==1.4.2
+kiwisolver==1.4.8
+ale-py==0.10.1
+fastai==2.7.18
+snowballstemmer==2.2.0
+typer==0.15.1
+colour==0.1.5
+google-crc32c==1.6.0
+sphinxcontrib-jsmath==1.0.1
+google-api-python-client==2.160.0
+google-resumable-media==2.7.2
+murmurhash==1.0.12
+portpicker==1.5.2
+Farama-Notifications==0.0.4
+sympy==1.13.1
+optree==0.14.0
+timm==1.0.14
+ipykernel==6.17.1
+pathlib==1.0.1
+jaxlib==0.4.33
+pandas-stubs==2.2.2.240909
+ratelim==0.1.6
+greenlet==3.1.1
+SQLAlchemy==2.0.38
+multitasking==0.0.11
+astropy==7.0.1
+imageio-ffmpeg==0.6.0
+bigquery-magics==0.5.0
+pyperclip==1.9.0
+jsonschema-specifications==2024.10.1
+jax-cuda12-plugin==0.4.33
+torchaudio==2.5.1+cu124
+eerepr==0.1.0
+tinycss2==1.4.0
+jiter==0.8.2
+jsonpickle==4.0.1
+google-cloud-aiplatform==1.79.0
+cyipopt==1.5.0
+oauth2client==4.1.3
+jax==0.4.33
+lxml==5.3.1
+sqlglot==25.6.1
+flax==0.10.3
+etuples==0.3.9
+gspread-dataframe==4.0.0
+geopy==2.4.1
+logical-unification==0.4.6
+natsort==8.4.0
+GitPython==3.1.44
+pyerfa==2.0.1.5
+param==2.2.0
+qdldl==0.1.7.post5
+keras-hub==0.18.1
+pylibcugraph-cu12==24.12.0
+xarray==2025.1.2
+db-dtypes==1.4.1
+gitdb==4.0.12
+mizani==0.13.1
+google-cloud-bigtable==2.28.1
+httpx==0.28.1
+google-cloud-bigquery-connection==1.17.0
+jsonschema==4.23.0
+nvidia-nvtx-cu12==12.4.127
+albucore==0.0.23
+tweepy==4.15.0
+fastdownload==0.0.7
+highspy==1.9.0
+matplotlib-venn==1.1.1
+jupyter-console==6.1.0
+duckdb==1.1.3
+branca==0.8.1
+pyasn1_modules==0.4.1
+pandocfilters==1.5.1
+yellowbrick==1.5
+contourpy==1.3.1
+tzlocal==5.3
+tensorboard-data-server==0.7.2
+google==2.0.3
+jupyter-leaflet==0.19.2
+mlxtend==0.23.4
+blosc2==3.1.0
+smmap==5.0.2
+langchain-core==0.3.35
+wheel==0.45.1
+glob2==0.7
+tensorflow-probability==0.25.0
+colorlover==0.3.0
+google-cloud-pubsub==2.25.0
+ipyfilechooser==0.6.0
+rsa==4.9
+dm-tree==0.1.9
+html5lib==1.1
+python-apt==0.0.0
+setuptools==75.1.0
+types-setuptools==75.8.0.20250210
+requirements-parser==0.9.0
+pip==24.1.2
+PyGObject==3.42.1
+blinker==1.4
+jeepney==0.7.1
+six==1.16.0
+oauthlib==3.2.0
+wadllib==1.3.6
+launchpadlib==1.10.16
+dbus-python==1.2.18
+PyJWT==2.3.0
+importlib-metadata==4.6.4
+httplib2==0.20.2
+zipp==1.0.0
+pyparsing==2.4.7
+python-apt==2.4.0+ubuntu4
+lazr.restfulclient==0.14.4
+SecretStorage==3.3.1
+distro==1.7.0
+lazr.uri==1.0.6
+more-itertools==8.10.0
+cryptography==3.4.8
+keyring==23.5.0
+packaging==24.1
+inflect==7.3.1
+autocommand==2.2.2
+typeguard==4.3.0
+jaraco.text==3.12.1
+importlib_resources==6.4.0
+wheel==0.43.0
+zipp==3.19.2
+platformdirs==4.2.2
+importlib_metadata==8.0.0
+tomli==2.0.1
+jaraco.collections==5.1.0
+more-itertools==10.3.0
+typing_extensions==4.12.2
+backports.tarfile==1.2.0
+jaraco.functools==4.0.1
+jaraco.context==5.3.0

wandb/run-20250504_135537-fqirr53c/files/wandb-metadata.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "os":  "Linux-6.6.56+-x86_64-with-glibc2.35",
+  "python":  "CPython 3.11.11",
+  "startedAt":  "2025-05-04T13:55:38.193987Z",
+  "program":  "kaggle.ipynb",
+  "email":  "[email protected]",
+  "root":  "/kaggle/working",
+  "host":  "40834be6d3ef",
+  "executable":  "/usr/bin/python3",
+  "cpu_count":  2,
+  "cpu_count_logical":  4,
+  "gpu":  "Tesla T4",
+  "gpu_count":  2,
+  "disk":  {
+    "/":  {
+      "total":  "8656922775552",
+      "used":  "6740762419200"
+    }
+  },
+  "memory":  {
+    "total":  "33662345216"
+  },
+  "cpu":  {
+    "count":  2,
+    "countLogical":  4
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "Tesla T4",
+      "memoryTotal":  "16106127360",
+      "cudaCores":  2560,
+      "architecture":  "Turing"
+    },
+    {
+      "name":  "Tesla T4",
+      "memoryTotal":  "16106127360",
+      "cudaCores":  2560,
+      "architecture":  "Turing"
+    }
+  ],
+  "cudaVersion":  "12.6"
+}

wandb/run-20250504_135537-fqirr53c/logs/debug-core.log ADDED Viewed

	@@ -0,0 +1,6 @@

+{"time":"2025-05-04T13:55:37.999673444Z","level":"INFO","msg":"main: starting server","port-filename":"/tmp/tmpwvy2vmzr/port-31.txt","pid":31,"log-level":0,"disable-analytics":false,"shutdown-on-parent-exit":false}
+{"time":"2025-05-04T13:55:38.016060325Z","level":"INFO","msg":"Will exit if parent process dies.","ppid":31}
+{"time":"2025-05-04T13:55:38.01603677Z","level":"INFO","msg":"server is running","addr":{"IP":"127.0.0.1","Port":36069,"Zone":""}}
+{"time":"2025-05-04T13:55:38.183306705Z","level":"INFO","msg":"connection: ManageConnectionData: new connection created","id":"127.0.0.1:45302"}
+{"time":"2025-05-04T13:55:38.202585815Z","level":"INFO","msg":"handleInformInit: received","streamId":"fqirr53c","id":"127.0.0.1:45302"}
+{"time":"2025-05-04T13:55:38.418929081Z","level":"INFO","msg":"handleInformInit: stream started","streamId":"fqirr53c","id":"127.0.0.1:45302"}

wandb/run-20250504_135537-fqirr53c/logs/debug-internal.log ADDED Viewed

	@@ -0,0 +1,93 @@

+{"time":"2025-05-04T13:55:38.202745569Z","level":"INFO","msg":"stream: starting","core version":"0.19.6","symlink path":"/kaggle/working/wandb/run-20250504_135537-fqirr53c/logs/debug-core.log"}
+{"time":"2025-05-04T13:55:38.418825152Z","level":"INFO","msg":"created new stream","id":"fqirr53c"}
+{"time":"2025-05-04T13:55:38.418912876Z","level":"INFO","msg":"stream: started","id":"fqirr53c"}
+{"time":"2025-05-04T13:55:38.418912275Z","level":"INFO","msg":"handler: started","stream_id":"fqirr53c"}
+{"time":"2025-05-04T13:55:38.418969742Z","level":"INFO","msg":"writer: Do: started","stream_id":"fqirr53c"}
+{"time":"2025-05-04T13:55:38.420841754Z","level":"INFO","msg":"sender: started","stream_id":"fqirr53c"}
+{"time":"2025-05-04T13:55:43.672416585Z","level":"INFO","msg":"Starting system monitor"}
+{"time":"2025-05-04T13:55:44.301310251Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2025-05-04T13:55:44.30364919Z","level":"INFO","msg":"Resuming system monitor"}
+{"time":"2025-05-04T13:55:48.938200586Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2025-05-04T13:55:48.938274693Z","level":"INFO","msg":"Resuming system monitor"}
+{"time":"2025-05-04T13:55:48.949549147Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2025-05-04T13:55:48.955885077Z","level":"INFO","msg":"Resuming system monitor"}
+{"time":"2025-05-04T13:55:49.478116866Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2025-05-04T13:55:49.482861133Z","level":"INFO","msg":"Resuming system monitor"}
+{"time":"2025-05-04T13:55:50.200717672Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2025-05-04T13:56:37.950323685Z","level":"INFO","msg":"Resuming system monitor"}
+{"time":"2025-05-04T13:56:37.99134844Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2025-05-04T13:56:45.174698103Z","level":"INFO","msg":"Resuming system monitor"}
+{"time":"2025-05-04T13:56:45.215072733Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2025-05-04T13:56:48.022788722Z","level":"INFO","msg":"Resuming system monitor"}
+{"time":"2025-05-04T13:56:48.027209579Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2025-05-04T13:56:52.774645063Z","level":"INFO","msg":"Resuming system monitor"}
+{"time":"2025-05-04T13:56:52.778802909Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2025-05-04T13:56:56.16097781Z","level":"INFO","msg":"Resuming system monitor"}
+{"time":"2025-05-04T13:56:56.201124178Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2025-05-04T13:57:14.976202089Z","level":"INFO","msg":"Resuming system monitor"}
+{"time":"2025-05-04T13:57:15.017169337Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2025-05-04T13:57:19.728978475Z","level":"INFO","msg":"Resuming system monitor"}
+{"time":"2025-05-04T13:57:19.731385896Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2025-05-04T13:57:29.106028217Z","level":"INFO","msg":"Resuming system monitor"}
+{"time":"2025-05-04T13:57:29.199488171Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2025-05-04T13:57:45.426330298Z","level":"INFO","msg":"Resuming system monitor"}
+{"time":"2025-05-04T13:57:45.600032002Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2025-05-04T13:57:49.34560494Z","level":"INFO","msg":"Resuming system monitor"}
+{"time":"2025-05-04T13:57:49.369300379Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2025-05-04T13:57:52.874240065Z","level":"INFO","msg":"Resuming system monitor"}
+{"time":"2025-05-04T13:57:53.031347665Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2025-05-04T13:57:54.288349856Z","level":"INFO","msg":"Resuming system monitor"}
+{"time":"2025-05-04T13:57:54.329085476Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2025-05-04T13:57:57.558832771Z","level":"INFO","msg":"Resuming system monitor"}
+{"time":"2025-05-04T13:57:57.562122272Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2025-05-04T13:58:08.678269262Z","level":"INFO","msg":"Resuming system monitor"}
+{"time":"2025-05-04T13:58:08.719108347Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2025-05-04T13:58:08.953078089Z","level":"INFO","msg":"Resuming system monitor"}
+{"time":"2025-05-04T13:58:09.202636924Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2025-05-04T13:58:09.234787853Z","level":"INFO","msg":"Resuming system monitor"}
+{"time":"2025-05-04T13:58:09.248484505Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2025-05-04T13:58:09.455359852Z","level":"INFO","msg":"Resuming system monitor"}
+{"time":"2025-05-04T13:58:10.519452133Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2025-05-04T13:58:10.525098579Z","level":"INFO","msg":"Resuming system monitor"}
+{"time":"2025-05-04T13:58:10.556828598Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2025-05-04T13:58:12.566933352Z","level":"INFO","msg":"Resuming system monitor"}
+{"time":"2025-05-04T13:58:12.598549609Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2025-05-04T13:58:12.696296996Z","level":"INFO","msg":"Resuming system monitor"}
+{"time":"2025-05-04T13:58:12.982256266Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2025-05-04T13:58:13.918108951Z","level":"INFO","msg":"Resuming system monitor"}
+{"time":"2025-05-04T13:58:14.432090582Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2025-05-04T13:58:23.250994046Z","level":"INFO","msg":"Resuming system monitor"}
+{"time":"2025-05-04T13:58:23.254387514Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2025-05-04T13:58:26.529227986Z","level":"INFO","msg":"Resuming system monitor"}
+{"time":"2025-05-04T13:58:26.570194007Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2025-05-04T13:58:28.01875759Z","level":"INFO","msg":"Resuming system monitor"}
+{"time":"2025-05-04T13:58:28.022911581Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2025-05-04T13:58:29.519479289Z","level":"INFO","msg":"Resuming system monitor"}
+{"time":"2025-05-04T13:58:29.560316017Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2025-05-04T13:58:37.473074826Z","level":"INFO","msg":"Resuming system monitor"}
+{"time":"2025-05-04T13:58:37.514171205Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2025-05-04T13:58:39.094035633Z","level":"INFO","msg":"Resuming system monitor"}
+{"time":"2025-05-04T13:58:39.096740272Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2025-05-04T13:58:40.78434538Z","level":"INFO","msg":"Resuming system monitor"}
+{"time":"2025-05-04T13:58:40.786569163Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2025-05-04T13:58:44.495681201Z","level":"INFO","msg":"Resuming system monitor"}
+{"time":"2025-05-04T13:58:44.536237954Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2025-05-04T13:59:50.772551272Z","level":"INFO","msg":"Resuming system monitor"}
+{"time":"2025-05-04T13:59:50.775840849Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2025-05-04T14:00:22.55047425Z","level":"INFO","msg":"Resuming system monitor"}
+{"time":"2025-05-04T14:00:22.755676331Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2025-05-04T14:00:23.635404257Z","level":"INFO","msg":"Resuming system monitor"}
+{"time":"2025-05-04T14:00:23.638459244Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2025-05-04T14:00:27.786577245Z","level":"INFO","msg":"Resuming system monitor"}
+{"time":"2025-05-04T14:00:27.82704493Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2025-05-04T14:00:28.083612564Z","level":"INFO","msg":"Resuming system monitor"}
+{"time":"2025-05-04T14:00:28.307378133Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2025-05-04T14:00:29.410088042Z","level":"INFO","msg":"Resuming system monitor"}
+{"time":"2025-05-04T14:00:29.451245423Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2025-05-04T14:00:30.370540904Z","level":"INFO","msg":"Resuming system monitor"}
+{"time":"2025-05-04T14:00:31.453942197Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2025-05-04T14:00:31.459475789Z","level":"INFO","msg":"Resuming system monitor"}
+{"time":"2025-05-04T14:00:31.491418417Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2025-05-04T14:00:32.913789166Z","level":"INFO","msg":"Resuming system monitor"}
+{"time":"2025-05-04T14:00:33.19791726Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2025-05-04T14:00:33.202887077Z","level":"INFO","msg":"Resuming system monitor"}

wandb/run-20250504_135537-fqirr53c/logs/debug.log ADDED Viewed

	@@ -0,0 +1,174 @@

+2025-05-04 13:55:37,339 INFO    MainThread:31 [wandb_setup.py:_flush():68] Current SDK version is 0.19.6
+2025-05-04 13:55:37,339 INFO    MainThread:31 [wandb_setup.py:_flush():68] Configure stats pid to 31
+2025-05-04 13:55:37,339 INFO    MainThread:31 [wandb_setup.py:_flush():68] Loading settings from /root/.config/wandb/settings
+2025-05-04 13:55:37,339 INFO    MainThread:31 [wandb_setup.py:_flush():68] Loading settings from /kaggle/working/wandb/settings
+2025-05-04 13:55:37,339 INFO    MainThread:31 [wandb_setup.py:_flush():68] Loading settings from environment variables
+2025-05-04 13:55:37,339 INFO    MainThread:31 [wandb_init.py:setup_run_log_directory():637] Logging user logs to /kaggle/working/wandb/run-20250504_135537-fqirr53c/logs/debug.log
+2025-05-04 13:55:37,339 INFO    MainThread:31 [wandb_init.py:setup_run_log_directory():638] Logging internal logs to /kaggle/working/wandb/run-20250504_135537-fqirr53c/logs/debug-internal.log
+2025-05-04 13:55:37,339 INFO    MainThread:31 [wandb_init.py:monkeypatch_ipython():589] configuring jupyter hooks <wandb.sdk.wandb_init._WandbInit object at 0x7f46cb26cd10>
+2025-05-04 13:55:37,340 INFO    MainThread:31 [wandb_init.py:init():756] calling init triggers
+2025-05-04 13:55:37,340 INFO    MainThread:31 [wandb_init.py:init():761] wandb.init called with sweep_config: {}
+config: {'_wandb': {}}
+2025-05-04 13:55:37,340 INFO    MainThread:31 [wandb_init.py:init():789] starting backend
+2025-05-04 13:55:38,179 INFO    MainThread:31 [wandb_init.py:init():793] sending inform_init request
+2025-05-04 13:55:38,193 INFO    MainThread:31 [backend.py:_multiprocessing_setup():97] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2025-05-04 13:55:38,193 INFO    MainThread:31 [wandb_init.py:init():808] backend started and connected
+2025-05-04 13:55:38,201 INFO    MainThread:31 [wandb_run.py:_label_probe_notebook():1196] probe notebook
+2025-05-04 13:55:43,522 INFO    MainThread:31 [wandb_init.py:init():901] updated telemetry
+2025-05-04 13:55:43,523 INFO    MainThread:31 [wandb_init.py:init():936] communicating run to backend with 90.0 second timeout
+2025-05-04 13:55:43,665 INFO    MainThread:31 [wandb_init.py:init():994] starting run threads in backend
+2025-05-04 13:55:44,262 INFO    MainThread:31 [wandb_run.py:_console_start():2385] atexit reg
+2025-05-04 13:55:44,263 INFO    MainThread:31 [wandb_run.py:_redirect():2235] redirect: wrap_raw
+2025-05-04 13:55:44,263 INFO    MainThread:31 [wandb_run.py:_redirect():2300] Wrapping output streams.
+2025-05-04 13:55:44,263 INFO    MainThread:31 [wandb_run.py:_redirect():2325] Redirects installed.
+2025-05-04 13:55:44,273 INFO    MainThread:31 [wandb_init.py:init():1036] run started, returning control to user process
+2025-05-04 13:55:44,273 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 13:55:44,274 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 13:55:44,279 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 13:55:48,899 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 13:55:48,899 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 13:55:48,905 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 13:55:48,948 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 13:55:48,949 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 13:55:48,955 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 13:55:49,477 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 13:55:49,477 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 13:55:49,482 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 13:55:49,977 INFO    MainThread:31 [wandb_run.py:_config_callback():1253] config_cb None None {'return_dict': True, 'output_hidden_states': False, 'output_attentions': False, 'torchscript': False, 'torch_dtype': 'float32', 'use_bfloat16': False, 'tf_legacy_loss': False, 'pruned_heads': {}, 'tie_word_embeddings': True, 'chunk_size_feed_forward': 0, 'is_encoder_decoder': False, 'is_decoder': False, 'cross_attention_hidden_size': None, 'add_cross_attention': False, 'tie_encoder_decoder': False, 'max_length': 20, 'min_length': 0, 'do_sample': False, 'early_stopping': False, 'num_beams': 1, 'num_beam_groups': 1, 'diversity_penalty': 0.0, 'temperature': 1.0, 'top_k': 50, 'top_p': 1.0, 'typical_p': 1.0, 'repetition_penalty': 1.0, 'length_penalty': 1.0, 'no_repeat_ngram_size': 0, 'encoder_no_repeat_ngram_size': 0, 'bad_words_ids': None, 'num_return_sequences': 1, 'output_scores': False, 'return_dict_in_generate': False, 'forced_bos_token_id': None, 'forced_eos_token_id': None, 'remove_invalid_values': False, 'exponential_decay_length_penalty': None, 'suppress_tokens': None, 'begin_suppress_tokens': None, 'architectures': ['BertForMaskedLM'], 'finetuning_task': None, 'id2label': {0: 'LABEL_0', 1: 'LABEL_1', 2: 'LABEL_2'}, 'label2id': {'LABEL_0': 0, 'LABEL_1': 1, 'LABEL_2': 2}, 'tokenizer_class': None, 'prefix': None, 'bos_token_id': None, 'pad_token_id': 0, 'eos_token_id': None, 'sep_token_id': None, 'decoder_start_token_id': None, 'task_specific_params': None, 'problem_type': None, '_name_or_path': 'UBC-NLP/MARBERT', '_attn_implementation_autoset': True, 'transformers_version': '4.51.1', 'directionality': 'bidi', 'gradient_checkpointing': False, 'model_type': 'bert', 'pooler_fc_size': 768, 'pooler_num_attention_heads': 12, 'pooler_num_fc_layers': 3, 'pooler_size_per_head': 128, 'pooler_type': 'first_token_transform', 'vocab_size': 100000, 'hidden_size': 768, 'num_hidden_layers': 12, 'num_attention_heads': 12, 'hidden_act': 'gelu', 'intermediate_size': 3072, 'hidden_dropout_prob': 0.1, 'attention_probs_dropout_prob': 0.1, 'max_position_embeddings': 512, 'type_vocab_size': 2, 'initializer_range': 0.02, 'layer_norm_eps': 1e-12, 'position_embedding_type': 'absolute', 'use_cache': True, 'classifier_dropout': None, 'output_dir': '/kaggle/working/', 'overwrite_output_dir': False, 'do_train': False, 'do_eval': True, 'do_predict': False, 'eval_strategy': 'steps', 'prediction_loss_only': False, 'per_device_train_batch_size': 8, 'per_device_eval_batch_size': 8, 'per_gpu_train_batch_size': None, 'per_gpu_eval_batch_size': None, 'gradient_accumulation_steps': 2, 'eval_accumulation_steps': None, 'eval_delay': 0, 'torch_empty_cache_steps': None, 'learning_rate': 5e-05, 'weight_decay': 0.0, 'adam_beta1': 0.9, 'adam_beta2': 0.999, 'adam_epsilon': 1e-08, 'max_grad_norm': 1.0, 'num_train_epochs': 5, 'max_steps': -1, 'lr_scheduler_type': 'linear', 'lr_scheduler_kwargs': {}, 'warmup_ratio': 0.2, 'warmup_steps': 0, 'log_level': 'passive', 'log_level_replica': 'warning', 'log_on_each_node': True, 'logging_dir': '/kaggle/working/runs/May04_13-55-48_40834be6d3ef', 'logging_strategy': 'steps', 'logging_first_step': False, 'logging_steps': 500, 'logging_nan_inf_filter': True, 'save_strategy': 'steps', 'save_steps': 5, 'save_total_limit': 1, 'save_safetensors': True, 'save_on_each_node': False, 'save_only_model': False, 'restore_callback_states_from_checkpoint': False, 'no_cuda': False, 'use_cpu': False, 'use_mps_device': False, 'seed': 42, 'data_seed': None, 'jit_mode_eval': False, 'use_ipex': False, 'bf16': False, 'fp16': True, 'fp16_opt_level': 'O1', 'half_precision_backend': 'auto', 'bf16_full_eval': False, 'fp16_full_eval': False, 'tf32': None, 'local_rank': 0, 'ddp_backend': None, 'tpu_num_cores': None, 'tpu_metrics_debug': False, 'debug': [], 'dataloader_drop_last': False, 'eval_steps': 5, 'dataloader_num_workers': 0, 'dataloader_prefetch_factor': None, 'past_index': -1, 'run_name': '/kaggle/working/', 'disable_tqdm': False, 'remove_unused_columns': True, 'label_names': None, 'load_best_model_at_end': True, 'metric_for_best_model': 'macro_f1', 'greater_is_better': True, 'ignore_data_skip': False, 'fsdp': [], 'fsdp_min_num_params': 0, 'fsdp_config': {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, 'tp_size': 0, 'fsdp_transformer_layer_cls_to_wrap': None, 'accelerator_config': {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}, 'deepspeed': None, 'label_smoothing_factor': 0.0, 'optim': 'adamw_torch', 'optim_args': None, 'adafactor': False, 'group_by_length': False, 'length_column_name': 'length', 'report_to': ['wandb'], 'ddp_find_unused_parameters': None, 'ddp_bucket_cap_mb': None, 'ddp_broadcast_buffers': None, 'dataloader_pin_memory': True, 'dataloader_persistent_workers': False, 'skip_memory_metrics': True, 'use_legacy_prediction_loop': False, 'push_to_hub': True, 'resume_from_checkpoint': None, 'hub_model_id': None, 'hub_strategy': 'every_save', 'hub_token': '<HUB_TOKEN>', 'hub_private_repo': None, 'hub_always_push': False, 'gradient_checkpointing_kwargs': None, 'include_inputs_for_metrics': False, 'include_for_metrics': [], 'eval_do_concat_batches': True, 'fp16_backend': 'auto', 'push_to_hub_model_id': None, 'push_to_hub_organization': None, 'push_to_hub_token': '<PUSH_TO_HUB_TOKEN>', 'mp_parameters': '', 'auto_find_batch_size': False, 'full_determinism': False, 'torchdynamo': None, 'ray_scope': 'last', 'ddp_timeout': 1800, 'torch_compile': False, 'torch_compile_backend': None, 'torch_compile_mode': None, 'include_tokens_per_second': False, 'include_num_input_tokens_seen': False, 'neftune_noise_alpha': None, 'optim_target_modules': None, 'batch_eval_metrics': False, 'eval_on_start': False, 'use_liger_kernel': False, 'eval_use_gather_object': False, 'average_tokens_across_devices': False}
+2025-05-04 13:55:49,986 INFO    MainThread:31 [wandb_config.py:__setitem__():154] config set model/num_parameters = 162843651 - <bound method Run._config_callback of <wandb.sdk.wandb_run.Run object at 0x7f46cb2f3cd0>>
+2025-05-04 13:55:49,986 INFO    MainThread:31 [wandb_run.py:_config_callback():1253] config_cb model/num_parameters 162843651 None
+2025-05-04 13:55:50,199 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 13:55:50,200 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 13:56:37,949 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 13:56:37,961 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 13:56:37,962 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 13:56:45,173 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 13:56:45,177 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 13:56:45,178 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 13:56:48,022 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 13:56:48,026 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 13:56:48,026 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 13:56:52,773 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 13:56:52,778 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 13:56:52,778 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 13:56:56,160 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 13:56:56,164 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 13:56:56,164 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 13:57:14,975 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 13:57:14,977 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 13:57:14,977 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 13:57:19,728 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 13:57:19,730 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 13:57:19,730 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 13:57:29,105 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 13:57:29,198 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 13:57:29,198 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 13:57:45,425 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 13:57:45,599 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 13:57:45,599 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 13:57:49,345 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 13:57:49,368 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 13:57:49,368 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 13:57:52,873 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 13:57:53,030 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 13:57:53,030 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 13:57:54,287 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 13:57:54,306 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 13:57:54,306 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 13:57:57,558 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 13:57:57,561 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 13:57:57,561 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 13:58:08,677 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 13:58:08,680 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 13:58:08,680 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 13:58:08,952 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 13:58:09,202 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 13:58:09,202 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 13:58:09,233 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 13:58:09,245 INFO    MainThread:31 [wandb_init.py:setup_run_log_directory():637] Logging user logs to /kaggle/working/wandb/run-20250504_135809-y962z7x6/logs/debug.log
+2025-05-04 13:58:09,246 INFO    MainThread:31 [wandb_init.py:setup_run_log_directory():638] Logging internal logs to /kaggle/working/wandb/run-20250504_135809-y962z7x6/logs/debug-internal.log
+2025-05-04 13:58:09,246 INFO    MainThread:31 [wandb_init.py:init():756] calling init triggers
+2025-05-04 13:58:09,246 INFO    MainThread:31 [wandb_init.py:init():761] wandb.init called with sweep_config: {}
+config: {'_wandb': {}}
+2025-05-04 13:58:09,246 INFO    MainThread:31 [wandb_init.py:init():781] wandb.init() called when a run is still active
+2025-05-04 13:58:09,247 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 13:58:09,247 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 13:58:09,454 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 13:58:10,518 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 13:58:10,519 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 13:58:10,524 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 13:58:10,556 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 13:58:10,556 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 13:58:12,566 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 13:58:12,597 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 13:58:12,597 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 13:58:12,695 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 13:58:12,981 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 13:58:12,981 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 13:58:13,917 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 13:58:14,387 INFO    MainThread:31 [wandb_run.py:_config_callback():1253] config_cb None None {'return_dict': True, 'output_hidden_states': False, 'output_attentions': False, 'torchscript': False, 'torch_dtype': 'float32', 'use_bfloat16': False, 'tf_legacy_loss': False, 'pruned_heads': {}, 'tie_word_embeddings': True, 'chunk_size_feed_forward': 0, 'is_encoder_decoder': False, 'is_decoder': False, 'cross_attention_hidden_size': None, 'add_cross_attention': False, 'tie_encoder_decoder': False, 'max_length': 20, 'min_length': 0, 'do_sample': False, 'early_stopping': False, 'num_beams': 1, 'num_beam_groups': 1, 'diversity_penalty': 0.0, 'temperature': 1.0, 'top_k': 50, 'top_p': 1.0, 'typical_p': 1.0, 'repetition_penalty': 1.0, 'length_penalty': 1.0, 'no_repeat_ngram_size': 0, 'encoder_no_repeat_ngram_size': 0, 'bad_words_ids': None, 'num_return_sequences': 1, 'output_scores': False, 'return_dict_in_generate': False, 'forced_bos_token_id': None, 'forced_eos_token_id': None, 'remove_invalid_values': False, 'exponential_decay_length_penalty': None, 'suppress_tokens': None, 'begin_suppress_tokens': None, 'architectures': ['BertForMaskedLM'], 'finetuning_task': None, 'id2label': {0: 'LABEL_0', 1: 'LABEL_1', 2: 'LABEL_2'}, 'label2id': {'LABEL_0': 0, 'LABEL_1': 1, 'LABEL_2': 2}, 'tokenizer_class': None, 'prefix': None, 'bos_token_id': None, 'pad_token_id': 0, 'eos_token_id': None, 'sep_token_id': None, 'decoder_start_token_id': None, 'task_specific_params': None, 'problem_type': None, '_name_or_path': 'UBC-NLP/MARBERT', '_attn_implementation_autoset': True, 'transformers_version': '4.51.1', 'directionality': 'bidi', 'gradient_checkpointing': False, 'model_type': 'bert', 'pooler_fc_size': 768, 'pooler_num_attention_heads': 12, 'pooler_num_fc_layers': 3, 'pooler_size_per_head': 128, 'pooler_type': 'first_token_transform', 'vocab_size': 100000, 'hidden_size': 768, 'num_hidden_layers': 12, 'num_attention_heads': 12, 'hidden_act': 'gelu', 'intermediate_size': 3072, 'hidden_dropout_prob': 0.1, 'attention_probs_dropout_prob': 0.1, 'max_position_embeddings': 512, 'type_vocab_size': 2, 'initializer_range': 0.02, 'layer_norm_eps': 1e-12, 'position_embedding_type': 'absolute', 'use_cache': True, 'classifier_dropout': None, 'output_dir': '/kaggle/working/', 'overwrite_output_dir': False, 'do_train': False, 'do_eval': True, 'do_predict': False, 'eval_strategy': 'steps', 'prediction_loss_only': False, 'per_device_train_batch_size': 8, 'per_device_eval_batch_size': 8, 'per_gpu_train_batch_size': None, 'per_gpu_eval_batch_size': None, 'gradient_accumulation_steps': 2, 'eval_accumulation_steps': None, 'eval_delay': 0, 'torch_empty_cache_steps': None, 'learning_rate': 5e-05, 'weight_decay': 0.0, 'adam_beta1': 0.9, 'adam_beta2': 0.999, 'adam_epsilon': 1e-08, 'max_grad_norm': 1.0, 'num_train_epochs': 5, 'max_steps': -1, 'lr_scheduler_type': 'linear', 'lr_scheduler_kwargs': {}, 'warmup_ratio': 0.2, 'warmup_steps': 0, 'log_level': 'passive', 'log_level_replica': 'warning', 'log_on_each_node': True, 'logging_dir': '/kaggle/working/runs/May04_13-58-12_40834be6d3ef', 'logging_strategy': 'steps', 'logging_first_step': False, 'logging_steps': 500, 'logging_nan_inf_filter': True, 'save_strategy': 'steps', 'save_steps': 5, 'save_total_limit': 1, 'save_safetensors': True, 'save_on_each_node': False, 'save_only_model': False, 'restore_callback_states_from_checkpoint': False, 'no_cuda': False, 'use_cpu': False, 'use_mps_device': False, 'seed': 42, 'data_seed': None, 'jit_mode_eval': False, 'use_ipex': False, 'bf16': False, 'fp16': True, 'fp16_opt_level': 'O1', 'half_precision_backend': 'auto', 'bf16_full_eval': False, 'fp16_full_eval': False, 'tf32': None, 'local_rank': 0, 'ddp_backend': None, 'tpu_num_cores': None, 'tpu_metrics_debug': False, 'debug': [], 'dataloader_drop_last': False, 'eval_steps': 5, 'dataloader_num_workers': 0, 'dataloader_prefetch_factor': None, 'past_index': -1, 'run_name': '/kaggle/working/', 'disable_tqdm': False, 'remove_unused_columns': True, 'label_names': None, 'load_best_model_at_end': True, 'metric_for_best_model': 'macro_f1', 'greater_is_better': True, 'ignore_data_skip': False, 'fsdp': [], 'fsdp_min_num_params': 0, 'fsdp_config': {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, 'tp_size': 0, 'fsdp_transformer_layer_cls_to_wrap': None, 'accelerator_config': {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}, 'deepspeed': None, 'label_smoothing_factor': 0.0, 'optim': 'adamw_torch', 'optim_args': None, 'adafactor': False, 'group_by_length': False, 'length_column_name': 'length', 'report_to': ['wandb'], 'ddp_find_unused_parameters': None, 'ddp_bucket_cap_mb': None, 'ddp_broadcast_buffers': None, 'dataloader_pin_memory': True, 'dataloader_persistent_workers': False, 'skip_memory_metrics': True, 'use_legacy_prediction_loop': False, 'push_to_hub': True, 'resume_from_checkpoint': None, 'hub_model_id': None, 'hub_strategy': 'every_save', 'hub_token': '<HUB_TOKEN>', 'hub_private_repo': None, 'hub_always_push': False, 'gradient_checkpointing_kwargs': None, 'include_inputs_for_metrics': False, 'include_for_metrics': [], 'eval_do_concat_batches': True, 'fp16_backend': 'auto', 'push_to_hub_model_id': None, 'push_to_hub_organization': None, 'push_to_hub_token': '<PUSH_TO_HUB_TOKEN>', 'mp_parameters': '', 'auto_find_batch_size': False, 'full_determinism': False, 'torchdynamo': None, 'ray_scope': 'last', 'ddp_timeout': 1800, 'torch_compile': False, 'torch_compile_backend': None, 'torch_compile_mode': None, 'include_tokens_per_second': False, 'include_num_input_tokens_seen': False, 'neftune_noise_alpha': None, 'optim_target_modules': None, 'batch_eval_metrics': False, 'eval_on_start': False, 'use_liger_kernel': False, 'eval_use_gather_object': False, 'average_tokens_across_devices': False}
+2025-05-04 13:58:14,392 INFO    MainThread:31 [wandb_config.py:__setitem__():154] config set model/num_parameters = 162843651 - <bound method Run._config_callback of <wandb.sdk.wandb_run.Run object at 0x7f46cb2f3cd0>>
+2025-05-04 13:58:14,392 INFO    MainThread:31 [wandb_run.py:_config_callback():1253] config_cb model/num_parameters 162843651 None
+2025-05-04 13:58:14,417 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 13:58:14,417 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 13:58:23,249 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 13:58:23,253 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 13:58:23,253 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 13:58:26,528 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 13:58:26,532 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 13:58:26,532 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 13:58:28,017 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 13:58:28,021 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 13:58:28,022 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 13:58:29,518 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 13:58:29,522 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 13:58:29,523 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 13:58:37,472 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 13:58:37,475 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 13:58:37,475 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 13:58:39,093 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 13:58:39,095 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 13:58:39,096 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 13:58:40,783 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 13:58:40,786 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 13:58:40,786 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 13:58:44,494 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 13:58:44,498 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 13:58:44,498 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 13:59:50,771 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 13:59:50,775 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 13:59:50,775 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 14:00:22,549 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 14:00:22,755 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 14:00:22,755 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 14:00:23,634 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 14:00:23,637 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 14:00:23,637 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 14:00:27,785 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 14:00:27,788 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 14:00:27,788 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 14:00:28,083 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 14:00:28,306 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 14:00:28,306 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 14:00:29,409 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 14:00:29,421 INFO    MainThread:31 [wandb_init.py:setup_run_log_directory():637] Logging user logs to /kaggle/working/wandb/run-20250504_140029-gm7oud70/logs/debug.log
+2025-05-04 14:00:29,421 INFO    MainThread:31 [wandb_init.py:setup_run_log_directory():638] Logging internal logs to /kaggle/working/wandb/run-20250504_140029-gm7oud70/logs/debug-internal.log
+2025-05-04 14:00:29,421 INFO    MainThread:31 [wandb_init.py:init():756] calling init triggers
+2025-05-04 14:00:29,421 INFO    MainThread:31 [wandb_init.py:init():761] wandb.init called with sweep_config: {}
+config: {'_wandb': {}}
+2025-05-04 14:00:29,422 INFO    MainThread:31 [wandb_init.py:init():781] wandb.init() called when a run is still active
+2025-05-04 14:00:29,422 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 14:00:29,422 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 14:00:30,369 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 14:00:31,453 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 14:00:31,453 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 14:00:31,458 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 14:00:31,490 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 14:00:31,490 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 14:00:32,913 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 14:00:33,197 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 14:00:33,197 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 14:00:33,202 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 14:00:33,664 INFO    MainThread:31 [wandb_run.py:_config_callback():1253] config_cb None None {'return_dict': True, 'output_hidden_states': False, 'output_attentions': False, 'torchscript': False, 'torch_dtype': 'float32', 'use_bfloat16': False, 'tf_legacy_loss': False, 'pruned_heads': {}, 'tie_word_embeddings': True, 'chunk_size_feed_forward': 0, 'is_encoder_decoder': False, 'is_decoder': False, 'cross_attention_hidden_size': None, 'add_cross_attention': False, 'tie_encoder_decoder': False, 'max_length': 20, 'min_length': 0, 'do_sample': False, 'early_stopping': False, 'num_beams': 1, 'num_beam_groups': 1, 'diversity_penalty': 0.0, 'temperature': 1.0, 'top_k': 50, 'top_p': 1.0, 'typical_p': 1.0, 'repetition_penalty': 1.0, 'length_penalty': 1.0, 'no_repeat_ngram_size': 0, 'encoder_no_repeat_ngram_size': 0, 'bad_words_ids': None, 'num_return_sequences': 1, 'output_scores': False, 'return_dict_in_generate': False, 'forced_bos_token_id': None, 'forced_eos_token_id': None, 'remove_invalid_values': False, 'exponential_decay_length_penalty': None, 'suppress_tokens': None, 'begin_suppress_tokens': None, 'architectures': ['BertForMaskedLM'], 'finetuning_task': None, 'id2label': {0: 'LABEL_0', 1: 'LABEL_1', 2: 'LABEL_2'}, 'label2id': {'LABEL_0': 0, 'LABEL_1': 1, 'LABEL_2': 2}, 'tokenizer_class': None, 'prefix': None, 'bos_token_id': None, 'pad_token_id': 0, 'eos_token_id': None, 'sep_token_id': None, 'decoder_start_token_id': None, 'task_specific_params': None, 'problem_type': None, '_name_or_path': 'UBC-NLP/MARBERT', '_attn_implementation_autoset': True, 'transformers_version': '4.51.1', 'directionality': 'bidi', 'gradient_checkpointing': False, 'model_type': 'bert', 'pooler_fc_size': 768, 'pooler_num_attention_heads': 12, 'pooler_num_fc_layers': 3, 'pooler_size_per_head': 128, 'pooler_type': 'first_token_transform', 'vocab_size': 100000, 'hidden_size': 768, 'num_hidden_layers': 12, 'num_attention_heads': 12, 'hidden_act': 'gelu', 'intermediate_size': 3072, 'hidden_dropout_prob': 0.1, 'attention_probs_dropout_prob': 0.1, 'max_position_embeddings': 512, 'type_vocab_size': 2, 'initializer_range': 0.02, 'layer_norm_eps': 1e-12, 'position_embedding_type': 'absolute', 'use_cache': True, 'classifier_dropout': None, 'output_dir': '/kaggle/working/', 'overwrite_output_dir': False, 'do_train': False, 'do_eval': True, 'do_predict': False, 'eval_strategy': 'steps', 'prediction_loss_only': False, 'per_device_train_batch_size': 8, 'per_device_eval_batch_size': 8, 'per_gpu_train_batch_size': None, 'per_gpu_eval_batch_size': None, 'gradient_accumulation_steps': 2, 'eval_accumulation_steps': None, 'eval_delay': 0, 'torch_empty_cache_steps': None, 'learning_rate': 5e-05, 'weight_decay': 0.0, 'adam_beta1': 0.9, 'adam_beta2': 0.999, 'adam_epsilon': 1e-08, 'max_grad_norm': 1.0, 'num_train_epochs': 5, 'max_steps': -1, 'lr_scheduler_type': 'linear', 'lr_scheduler_kwargs': {}, 'warmup_ratio': 0.2, 'warmup_steps': 0, 'log_level': 'passive', 'log_level_replica': 'warning', 'log_on_each_node': True, 'logging_dir': '/kaggle/working/runs/May04_14-00-31_40834be6d3ef', 'logging_strategy': 'steps', 'logging_first_step': False, 'logging_steps': 500, 'logging_nan_inf_filter': True, 'save_strategy': 'steps', 'save_steps': 5, 'save_total_limit': 1, 'save_safetensors': True, 'save_on_each_node': False, 'save_only_model': False, 'restore_callback_states_from_checkpoint': False, 'no_cuda': False, 'use_cpu': False, 'use_mps_device': False, 'seed': 42, 'data_seed': None, 'jit_mode_eval': False, 'use_ipex': False, 'bf16': False, 'fp16': True, 'fp16_opt_level': 'O1', 'half_precision_backend': 'auto', 'bf16_full_eval': False, 'fp16_full_eval': False, 'tf32': None, 'local_rank': 0, 'ddp_backend': None, 'tpu_num_cores': None, 'tpu_metrics_debug': False, 'debug': [], 'dataloader_drop_last': False, 'eval_steps': 5, 'dataloader_num_workers': 0, 'dataloader_prefetch_factor': None, 'past_index': -1, 'run_name': '/kaggle/working/', 'disable_tqdm': False, 'remove_unused_columns': True, 'label_names': None, 'load_best_model_at_end': True, 'metric_for_best_model': 'macro_f1', 'greater_is_better': True, 'ignore_data_skip': False, 'fsdp': [], 'fsdp_min_num_params': 0, 'fsdp_config': {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, 'tp_size': 0, 'fsdp_transformer_layer_cls_to_wrap': None, 'accelerator_config': {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}, 'deepspeed': None, 'label_smoothing_factor': 0.0, 'optim': 'adamw_torch', 'optim_args': None, 'adafactor': False, 'group_by_length': False, 'length_column_name': 'length', 'report_to': ['wandb'], 'ddp_find_unused_parameters': None, 'ddp_bucket_cap_mb': None, 'ddp_broadcast_buffers': None, 'dataloader_pin_memory': True, 'dataloader_persistent_workers': False, 'skip_memory_metrics': True, 'use_legacy_prediction_loop': False, 'push_to_hub': True, 'resume_from_checkpoint': None, 'hub_model_id': None, 'hub_strategy': 'every_save', 'hub_token': '<HUB_TOKEN>', 'hub_private_repo': None, 'hub_always_push': False, 'gradient_checkpointing_kwargs': None, 'include_inputs_for_metrics': False, 'include_for_metrics': [], 'eval_do_concat_batches': True, 'fp16_backend': 'auto', 'push_to_hub_model_id': None, 'push_to_hub_organization': None, 'push_to_hub_token': '<PUSH_TO_HUB_TOKEN>', 'mp_parameters': '', 'auto_find_batch_size': False, 'full_determinism': False, 'torchdynamo': None, 'ray_scope': 'last', 'ddp_timeout': 1800, 'torch_compile': False, 'torch_compile_backend': None, 'torch_compile_mode': None, 'include_tokens_per_second': False, 'include_num_input_tokens_seen': False, 'neftune_noise_alpha': None, 'optim_target_modules': None, 'batch_eval_metrics': False, 'eval_on_start': False, 'use_liger_kernel': False, 'eval_use_gather_object': False, 'average_tokens_across_devices': False}
+2025-05-04 14:00:33,670 INFO    MainThread:31 [wandb_config.py:__setitem__():154] config set model/num_parameters = 162843651 - <bound method Run._config_callback of <wandb.sdk.wandb_run.Run object at 0x7f46cb2f3cd0>>
+2025-05-04 14:00:33,670 INFO    MainThread:31 [wandb_run.py:_config_callback():1253] config_cb model/num_parameters 162843651 None

wandb/run-20250504_135537-fqirr53c/run-fqirr53c.wandb ADDED Viewed

File without changes

wandb/run-20250504_135809-y962z7x6/logs/debug.log ADDED Viewed

	@@ -0,0 +1,87 @@

+2025-05-04 13:58:09,245 INFO    MainThread:31 [wandb_init.py:setup_run_log_directory():637] Logging user logs to /kaggle/working/wandb/run-20250504_135809-y962z7x6/logs/debug.log
+2025-05-04 13:58:09,246 INFO    MainThread:31 [wandb_init.py:setup_run_log_directory():638] Logging internal logs to /kaggle/working/wandb/run-20250504_135809-y962z7x6/logs/debug-internal.log
+2025-05-04 13:58:09,246 INFO    MainThread:31 [wandb_init.py:init():756] calling init triggers
+2025-05-04 13:58:09,246 INFO    MainThread:31 [wandb_init.py:init():761] wandb.init called with sweep_config: {}
+config: {'_wandb': {}}
+2025-05-04 13:58:09,246 INFO    MainThread:31 [wandb_init.py:init():781] wandb.init() called when a run is still active
+2025-05-04 13:58:09,247 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 13:58:09,247 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 13:58:09,454 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 13:58:10,518 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 13:58:10,519 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 13:58:10,524 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 13:58:10,556 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 13:58:10,556 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 13:58:12,566 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 13:58:12,597 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 13:58:12,597 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 13:58:12,695 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 13:58:12,981 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 13:58:12,981 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 13:58:13,917 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 13:58:14,387 INFO    MainThread:31 [wandb_run.py:_config_callback():1253] config_cb None None {'return_dict': True, 'output_hidden_states': False, 'output_attentions': False, 'torchscript': False, 'torch_dtype': 'float32', 'use_bfloat16': False, 'tf_legacy_loss': False, 'pruned_heads': {}, 'tie_word_embeddings': True, 'chunk_size_feed_forward': 0, 'is_encoder_decoder': False, 'is_decoder': False, 'cross_attention_hidden_size': None, 'add_cross_attention': False, 'tie_encoder_decoder': False, 'max_length': 20, 'min_length': 0, 'do_sample': False, 'early_stopping': False, 'num_beams': 1, 'num_beam_groups': 1, 'diversity_penalty': 0.0, 'temperature': 1.0, 'top_k': 50, 'top_p': 1.0, 'typical_p': 1.0, 'repetition_penalty': 1.0, 'length_penalty': 1.0, 'no_repeat_ngram_size': 0, 'encoder_no_repeat_ngram_size': 0, 'bad_words_ids': None, 'num_return_sequences': 1, 'output_scores': False, 'return_dict_in_generate': False, 'forced_bos_token_id': None, 'forced_eos_token_id': None, 'remove_invalid_values': False, 'exponential_decay_length_penalty': None, 'suppress_tokens': None, 'begin_suppress_tokens': None, 'architectures': ['BertForMaskedLM'], 'finetuning_task': None, 'id2label': {0: 'LABEL_0', 1: 'LABEL_1', 2: 'LABEL_2'}, 'label2id': {'LABEL_0': 0, 'LABEL_1': 1, 'LABEL_2': 2}, 'tokenizer_class': None, 'prefix': None, 'bos_token_id': None, 'pad_token_id': 0, 'eos_token_id': None, 'sep_token_id': None, 'decoder_start_token_id': None, 'task_specific_params': None, 'problem_type': None, '_name_or_path': 'UBC-NLP/MARBERT', '_attn_implementation_autoset': True, 'transformers_version': '4.51.1', 'directionality': 'bidi', 'gradient_checkpointing': False, 'model_type': 'bert', 'pooler_fc_size': 768, 'pooler_num_attention_heads': 12, 'pooler_num_fc_layers': 3, 'pooler_size_per_head': 128, 'pooler_type': 'first_token_transform', 'vocab_size': 100000, 'hidden_size': 768, 'num_hidden_layers': 12, 'num_attention_heads': 12, 'hidden_act': 'gelu', 'intermediate_size': 3072, 'hidden_dropout_prob': 0.1, 'attention_probs_dropout_prob': 0.1, 'max_position_embeddings': 512, 'type_vocab_size': 2, 'initializer_range': 0.02, 'layer_norm_eps': 1e-12, 'position_embedding_type': 'absolute', 'use_cache': True, 'classifier_dropout': None, 'output_dir': '/kaggle/working/', 'overwrite_output_dir': False, 'do_train': False, 'do_eval': True, 'do_predict': False, 'eval_strategy': 'steps', 'prediction_loss_only': False, 'per_device_train_batch_size': 8, 'per_device_eval_batch_size': 8, 'per_gpu_train_batch_size': None, 'per_gpu_eval_batch_size': None, 'gradient_accumulation_steps': 2, 'eval_accumulation_steps': None, 'eval_delay': 0, 'torch_empty_cache_steps': None, 'learning_rate': 5e-05, 'weight_decay': 0.0, 'adam_beta1': 0.9, 'adam_beta2': 0.999, 'adam_epsilon': 1e-08, 'max_grad_norm': 1.0, 'num_train_epochs': 5, 'max_steps': -1, 'lr_scheduler_type': 'linear', 'lr_scheduler_kwargs': {}, 'warmup_ratio': 0.2, 'warmup_steps': 0, 'log_level': 'passive', 'log_level_replica': 'warning', 'log_on_each_node': True, 'logging_dir': '/kaggle/working/runs/May04_13-58-12_40834be6d3ef', 'logging_strategy': 'steps', 'logging_first_step': False, 'logging_steps': 500, 'logging_nan_inf_filter': True, 'save_strategy': 'steps', 'save_steps': 5, 'save_total_limit': 1, 'save_safetensors': True, 'save_on_each_node': False, 'save_only_model': False, 'restore_callback_states_from_checkpoint': False, 'no_cuda': False, 'use_cpu': False, 'use_mps_device': False, 'seed': 42, 'data_seed': None, 'jit_mode_eval': False, 'use_ipex': False, 'bf16': False, 'fp16': True, 'fp16_opt_level': 'O1', 'half_precision_backend': 'auto', 'bf16_full_eval': False, 'fp16_full_eval': False, 'tf32': None, 'local_rank': 0, 'ddp_backend': None, 'tpu_num_cores': None, 'tpu_metrics_debug': False, 'debug': [], 'dataloader_drop_last': False, 'eval_steps': 5, 'dataloader_num_workers': 0, 'dataloader_prefetch_factor': None, 'past_index': -1, 'run_name': '/kaggle/working/', 'disable_tqdm': False, 'remove_unused_columns': True, 'label_names': None, 'load_best_model_at_end': True, 'metric_for_best_model': 'macro_f1', 'greater_is_better': True, 'ignore_data_skip': False, 'fsdp': [], 'fsdp_min_num_params': 0, 'fsdp_config': {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, 'tp_size': 0, 'fsdp_transformer_layer_cls_to_wrap': None, 'accelerator_config': {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}, 'deepspeed': None, 'label_smoothing_factor': 0.0, 'optim': 'adamw_torch', 'optim_args': None, 'adafactor': False, 'group_by_length': False, 'length_column_name': 'length', 'report_to': ['wandb'], 'ddp_find_unused_parameters': None, 'ddp_bucket_cap_mb': None, 'ddp_broadcast_buffers': None, 'dataloader_pin_memory': True, 'dataloader_persistent_workers': False, 'skip_memory_metrics': True, 'use_legacy_prediction_loop': False, 'push_to_hub': True, 'resume_from_checkpoint': None, 'hub_model_id': None, 'hub_strategy': 'every_save', 'hub_token': '<HUB_TOKEN>', 'hub_private_repo': None, 'hub_always_push': False, 'gradient_checkpointing_kwargs': None, 'include_inputs_for_metrics': False, 'include_for_metrics': [], 'eval_do_concat_batches': True, 'fp16_backend': 'auto', 'push_to_hub_model_id': None, 'push_to_hub_organization': None, 'push_to_hub_token': '<PUSH_TO_HUB_TOKEN>', 'mp_parameters': '', 'auto_find_batch_size': False, 'full_determinism': False, 'torchdynamo': None, 'ray_scope': 'last', 'ddp_timeout': 1800, 'torch_compile': False, 'torch_compile_backend': None, 'torch_compile_mode': None, 'include_tokens_per_second': False, 'include_num_input_tokens_seen': False, 'neftune_noise_alpha': None, 'optim_target_modules': None, 'batch_eval_metrics': False, 'eval_on_start': False, 'use_liger_kernel': False, 'eval_use_gather_object': False, 'average_tokens_across_devices': False}
+2025-05-04 13:58:14,392 INFO    MainThread:31 [wandb_config.py:__setitem__():154] config set model/num_parameters = 162843651 - <bound method Run._config_callback of <wandb.sdk.wandb_run.Run object at 0x7f46cb2f3cd0>>
+2025-05-04 13:58:14,392 INFO    MainThread:31 [wandb_run.py:_config_callback():1253] config_cb model/num_parameters 162843651 None
+2025-05-04 13:58:14,417 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 13:58:14,417 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 13:58:23,249 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 13:58:23,253 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 13:58:23,253 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 13:58:26,528 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 13:58:26,532 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 13:58:26,532 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 13:58:28,017 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 13:58:28,021 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 13:58:28,022 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 13:58:29,518 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 13:58:29,522 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 13:58:29,523 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 13:58:37,472 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 13:58:37,475 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 13:58:37,475 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 13:58:39,093 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 13:58:39,095 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 13:58:39,096 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 13:58:40,783 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 13:58:40,786 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 13:58:40,786 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 13:58:44,494 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 13:58:44,498 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 13:58:44,498 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 13:59:50,771 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 13:59:50,775 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 13:59:50,775 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 14:00:22,549 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 14:00:22,755 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 14:00:22,755 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 14:00:23,634 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 14:00:23,637 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 14:00:23,637 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 14:00:27,785 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 14:00:27,788 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 14:00:27,788 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 14:00:28,083 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 14:00:28,306 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 14:00:28,306 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 14:00:29,409 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 14:00:29,421 INFO    MainThread:31 [wandb_init.py:setup_run_log_directory():637] Logging user logs to /kaggle/working/wandb/run-20250504_140029-gm7oud70/logs/debug.log
+2025-05-04 14:00:29,421 INFO    MainThread:31 [wandb_init.py:setup_run_log_directory():638] Logging internal logs to /kaggle/working/wandb/run-20250504_140029-gm7oud70/logs/debug-internal.log
+2025-05-04 14:00:29,421 INFO    MainThread:31 [wandb_init.py:init():756] calling init triggers
+2025-05-04 14:00:29,421 INFO    MainThread:31 [wandb_init.py:init():761] wandb.init called with sweep_config: {}
+config: {'_wandb': {}}
+2025-05-04 14:00:29,422 INFO    MainThread:31 [wandb_init.py:init():781] wandb.init() called when a run is still active
+2025-05-04 14:00:29,422 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 14:00:29,422 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 14:00:30,369 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 14:00:31,453 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 14:00:31,453 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 14:00:31,458 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 14:00:31,490 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 14:00:31,490 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 14:00:32,913 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 14:00:33,197 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 14:00:33,197 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 14:00:33,202 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 14:00:33,664 INFO    MainThread:31 [wandb_run.py:_config_callback():1253] config_cb None None {'return_dict': True, 'output_hidden_states': False, 'output_attentions': False, 'torchscript': False, 'torch_dtype': 'float32', 'use_bfloat16': False, 'tf_legacy_loss': False, 'pruned_heads': {}, 'tie_word_embeddings': True, 'chunk_size_feed_forward': 0, 'is_encoder_decoder': False, 'is_decoder': False, 'cross_attention_hidden_size': None, 'add_cross_attention': False, 'tie_encoder_decoder': False, 'max_length': 20, 'min_length': 0, 'do_sample': False, 'early_stopping': False, 'num_beams': 1, 'num_beam_groups': 1, 'diversity_penalty': 0.0, 'temperature': 1.0, 'top_k': 50, 'top_p': 1.0, 'typical_p': 1.0, 'repetition_penalty': 1.0, 'length_penalty': 1.0, 'no_repeat_ngram_size': 0, 'encoder_no_repeat_ngram_size': 0, 'bad_words_ids': None, 'num_return_sequences': 1, 'output_scores': False, 'return_dict_in_generate': False, 'forced_bos_token_id': None, 'forced_eos_token_id': None, 'remove_invalid_values': False, 'exponential_decay_length_penalty': None, 'suppress_tokens': None, 'begin_suppress_tokens': None, 'architectures': ['BertForMaskedLM'], 'finetuning_task': None, 'id2label': {0: 'LABEL_0', 1: 'LABEL_1', 2: 'LABEL_2'}, 'label2id': {'LABEL_0': 0, 'LABEL_1': 1, 'LABEL_2': 2}, 'tokenizer_class': None, 'prefix': None, 'bos_token_id': None, 'pad_token_id': 0, 'eos_token_id': None, 'sep_token_id': None, 'decoder_start_token_id': None, 'task_specific_params': None, 'problem_type': None, '_name_or_path': 'UBC-NLP/MARBERT', '_attn_implementation_autoset': True, 'transformers_version': '4.51.1', 'directionality': 'bidi', 'gradient_checkpointing': False, 'model_type': 'bert', 'pooler_fc_size': 768, 'pooler_num_attention_heads': 12, 'pooler_num_fc_layers': 3, 'pooler_size_per_head': 128, 'pooler_type': 'first_token_transform', 'vocab_size': 100000, 'hidden_size': 768, 'num_hidden_layers': 12, 'num_attention_heads': 12, 'hidden_act': 'gelu', 'intermediate_size': 3072, 'hidden_dropout_prob': 0.1, 'attention_probs_dropout_prob': 0.1, 'max_position_embeddings': 512, 'type_vocab_size': 2, 'initializer_range': 0.02, 'layer_norm_eps': 1e-12, 'position_embedding_type': 'absolute', 'use_cache': True, 'classifier_dropout': None, 'output_dir': '/kaggle/working/', 'overwrite_output_dir': False, 'do_train': False, 'do_eval': True, 'do_predict': False, 'eval_strategy': 'steps', 'prediction_loss_only': False, 'per_device_train_batch_size': 8, 'per_device_eval_batch_size': 8, 'per_gpu_train_batch_size': None, 'per_gpu_eval_batch_size': None, 'gradient_accumulation_steps': 2, 'eval_accumulation_steps': None, 'eval_delay': 0, 'torch_empty_cache_steps': None, 'learning_rate': 5e-05, 'weight_decay': 0.0, 'adam_beta1': 0.9, 'adam_beta2': 0.999, 'adam_epsilon': 1e-08, 'max_grad_norm': 1.0, 'num_train_epochs': 5, 'max_steps': -1, 'lr_scheduler_type': 'linear', 'lr_scheduler_kwargs': {}, 'warmup_ratio': 0.2, 'warmup_steps': 0, 'log_level': 'passive', 'log_level_replica': 'warning', 'log_on_each_node': True, 'logging_dir': '/kaggle/working/runs/May04_14-00-31_40834be6d3ef', 'logging_strategy': 'steps', 'logging_first_step': False, 'logging_steps': 500, 'logging_nan_inf_filter': True, 'save_strategy': 'steps', 'save_steps': 5, 'save_total_limit': 1, 'save_safetensors': True, 'save_on_each_node': False, 'save_only_model': False, 'restore_callback_states_from_checkpoint': False, 'no_cuda': False, 'use_cpu': False, 'use_mps_device': False, 'seed': 42, 'data_seed': None, 'jit_mode_eval': False, 'use_ipex': False, 'bf16': False, 'fp16': True, 'fp16_opt_level': 'O1', 'half_precision_backend': 'auto', 'bf16_full_eval': False, 'fp16_full_eval': False, 'tf32': None, 'local_rank': 0, 'ddp_backend': None, 'tpu_num_cores': None, 'tpu_metrics_debug': False, 'debug': [], 'dataloader_drop_last': False, 'eval_steps': 5, 'dataloader_num_workers': 0, 'dataloader_prefetch_factor': None, 'past_index': -1, 'run_name': '/kaggle/working/', 'disable_tqdm': False, 'remove_unused_columns': True, 'label_names': None, 'load_best_model_at_end': True, 'metric_for_best_model': 'macro_f1', 'greater_is_better': True, 'ignore_data_skip': False, 'fsdp': [], 'fsdp_min_num_params': 0, 'fsdp_config': {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, 'tp_size': 0, 'fsdp_transformer_layer_cls_to_wrap': None, 'accelerator_config': {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}, 'deepspeed': None, 'label_smoothing_factor': 0.0, 'optim': 'adamw_torch', 'optim_args': None, 'adafactor': False, 'group_by_length': False, 'length_column_name': 'length', 'report_to': ['wandb'], 'ddp_find_unused_parameters': None, 'ddp_bucket_cap_mb': None, 'ddp_broadcast_buffers': None, 'dataloader_pin_memory': True, 'dataloader_persistent_workers': False, 'skip_memory_metrics': True, 'use_legacy_prediction_loop': False, 'push_to_hub': True, 'resume_from_checkpoint': None, 'hub_model_id': None, 'hub_strategy': 'every_save', 'hub_token': '<HUB_TOKEN>', 'hub_private_repo': None, 'hub_always_push': False, 'gradient_checkpointing_kwargs': None, 'include_inputs_for_metrics': False, 'include_for_metrics': [], 'eval_do_concat_batches': True, 'fp16_backend': 'auto', 'push_to_hub_model_id': None, 'push_to_hub_organization': None, 'push_to_hub_token': '<PUSH_TO_HUB_TOKEN>', 'mp_parameters': '', 'auto_find_batch_size': False, 'full_determinism': False, 'torchdynamo': None, 'ray_scope': 'last', 'ddp_timeout': 1800, 'torch_compile': False, 'torch_compile_backend': None, 'torch_compile_mode': None, 'include_tokens_per_second': False, 'include_num_input_tokens_seen': False, 'neftune_noise_alpha': None, 'optim_target_modules': None, 'batch_eval_metrics': False, 'eval_on_start': False, 'use_liger_kernel': False, 'eval_use_gather_object': False, 'average_tokens_across_devices': False}
+2025-05-04 14:00:33,670 INFO    MainThread:31 [wandb_config.py:__setitem__():154] config set model/num_parameters = 162843651 - <bound method Run._config_callback of <wandb.sdk.wandb_run.Run object at 0x7f46cb2f3cd0>>
+2025-05-04 14:00:33,670 INFO    MainThread:31 [wandb_run.py:_config_callback():1253] config_cb model/num_parameters 162843651 None

wandb/run-20250504_140029-gm7oud70/logs/debug.log ADDED Viewed

	@@ -0,0 +1,21 @@

+2025-05-04 14:00:29,421 INFO    MainThread:31 [wandb_init.py:setup_run_log_directory():637] Logging user logs to /kaggle/working/wandb/run-20250504_140029-gm7oud70/logs/debug.log
+2025-05-04 14:00:29,421 INFO    MainThread:31 [wandb_init.py:setup_run_log_directory():638] Logging internal logs to /kaggle/working/wandb/run-20250504_140029-gm7oud70/logs/debug-internal.log
+2025-05-04 14:00:29,421 INFO    MainThread:31 [wandb_init.py:init():756] calling init triggers
+2025-05-04 14:00:29,421 INFO    MainThread:31 [wandb_init.py:init():761] wandb.init called with sweep_config: {}
+config: {'_wandb': {}}
+2025-05-04 14:00:29,422 INFO    MainThread:31 [wandb_init.py:init():781] wandb.init() called when a run is still active
+2025-05-04 14:00:29,422 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 14:00:29,422 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 14:00:30,369 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 14:00:31,453 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 14:00:31,453 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 14:00:31,458 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 14:00:31,490 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 14:00:31,490 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 14:00:32,913 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 14:00:33,197 INFO    MainThread:31 [jupyter.py:save_ipynb():386] not saving jupyter notebook
+2025-05-04 14:00:33,197 INFO    MainThread:31 [wandb_init.py:_pause_backend():554] pausing backend
+2025-05-04 14:00:33,202 INFO    MainThread:31 [wandb_init.py:_resume_backend():559] resuming backend
+2025-05-04 14:00:33,664 INFO    MainThread:31 [wandb_run.py:_config_callback():1253] config_cb None None {'return_dict': True, 'output_hidden_states': False, 'output_attentions': False, 'torchscript': False, 'torch_dtype': 'float32', 'use_bfloat16': False, 'tf_legacy_loss': False, 'pruned_heads': {}, 'tie_word_embeddings': True, 'chunk_size_feed_forward': 0, 'is_encoder_decoder': False, 'is_decoder': False, 'cross_attention_hidden_size': None, 'add_cross_attention': False, 'tie_encoder_decoder': False, 'max_length': 20, 'min_length': 0, 'do_sample': False, 'early_stopping': False, 'num_beams': 1, 'num_beam_groups': 1, 'diversity_penalty': 0.0, 'temperature': 1.0, 'top_k': 50, 'top_p': 1.0, 'typical_p': 1.0, 'repetition_penalty': 1.0, 'length_penalty': 1.0, 'no_repeat_ngram_size': 0, 'encoder_no_repeat_ngram_size': 0, 'bad_words_ids': None, 'num_return_sequences': 1, 'output_scores': False, 'return_dict_in_generate': False, 'forced_bos_token_id': None, 'forced_eos_token_id': None, 'remove_invalid_values': False, 'exponential_decay_length_penalty': None, 'suppress_tokens': None, 'begin_suppress_tokens': None, 'architectures': ['BertForMaskedLM'], 'finetuning_task': None, 'id2label': {0: 'LABEL_0', 1: 'LABEL_1', 2: 'LABEL_2'}, 'label2id': {'LABEL_0': 0, 'LABEL_1': 1, 'LABEL_2': 2}, 'tokenizer_class': None, 'prefix': None, 'bos_token_id': None, 'pad_token_id': 0, 'eos_token_id': None, 'sep_token_id': None, 'decoder_start_token_id': None, 'task_specific_params': None, 'problem_type': None, '_name_or_path': 'UBC-NLP/MARBERT', '_attn_implementation_autoset': True, 'transformers_version': '4.51.1', 'directionality': 'bidi', 'gradient_checkpointing': False, 'model_type': 'bert', 'pooler_fc_size': 768, 'pooler_num_attention_heads': 12, 'pooler_num_fc_layers': 3, 'pooler_size_per_head': 128, 'pooler_type': 'first_token_transform', 'vocab_size': 100000, 'hidden_size': 768, 'num_hidden_layers': 12, 'num_attention_heads': 12, 'hidden_act': 'gelu', 'intermediate_size': 3072, 'hidden_dropout_prob': 0.1, 'attention_probs_dropout_prob': 0.1, 'max_position_embeddings': 512, 'type_vocab_size': 2, 'initializer_range': 0.02, 'layer_norm_eps': 1e-12, 'position_embedding_type': 'absolute', 'use_cache': True, 'classifier_dropout': None, 'output_dir': '/kaggle/working/', 'overwrite_output_dir': False, 'do_train': False, 'do_eval': True, 'do_predict': False, 'eval_strategy': 'steps', 'prediction_loss_only': False, 'per_device_train_batch_size': 8, 'per_device_eval_batch_size': 8, 'per_gpu_train_batch_size': None, 'per_gpu_eval_batch_size': None, 'gradient_accumulation_steps': 2, 'eval_accumulation_steps': None, 'eval_delay': 0, 'torch_empty_cache_steps': None, 'learning_rate': 5e-05, 'weight_decay': 0.0, 'adam_beta1': 0.9, 'adam_beta2': 0.999, 'adam_epsilon': 1e-08, 'max_grad_norm': 1.0, 'num_train_epochs': 5, 'max_steps': -1, 'lr_scheduler_type': 'linear', 'lr_scheduler_kwargs': {}, 'warmup_ratio': 0.2, 'warmup_steps': 0, 'log_level': 'passive', 'log_level_replica': 'warning', 'log_on_each_node': True, 'logging_dir': '/kaggle/working/runs/May04_14-00-31_40834be6d3ef', 'logging_strategy': 'steps', 'logging_first_step': False, 'logging_steps': 500, 'logging_nan_inf_filter': True, 'save_strategy': 'steps', 'save_steps': 5, 'save_total_limit': 1, 'save_safetensors': True, 'save_on_each_node': False, 'save_only_model': False, 'restore_callback_states_from_checkpoint': False, 'no_cuda': False, 'use_cpu': False, 'use_mps_device': False, 'seed': 42, 'data_seed': None, 'jit_mode_eval': False, 'use_ipex': False, 'bf16': False, 'fp16': True, 'fp16_opt_level': 'O1', 'half_precision_backend': 'auto', 'bf16_full_eval': False, 'fp16_full_eval': False, 'tf32': None, 'local_rank': 0, 'ddp_backend': None, 'tpu_num_cores': None, 'tpu_metrics_debug': False, 'debug': [], 'dataloader_drop_last': False, 'eval_steps': 5, 'dataloader_num_workers': 0, 'dataloader_prefetch_factor': None, 'past_index': -1, 'run_name': '/kaggle/working/', 'disable_tqdm': False, 'remove_unused_columns': True, 'label_names': None, 'load_best_model_at_end': True, 'metric_for_best_model': 'macro_f1', 'greater_is_better': True, 'ignore_data_skip': False, 'fsdp': [], 'fsdp_min_num_params': 0, 'fsdp_config': {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, 'tp_size': 0, 'fsdp_transformer_layer_cls_to_wrap': None, 'accelerator_config': {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}, 'deepspeed': None, 'label_smoothing_factor': 0.0, 'optim': 'adamw_torch', 'optim_args': None, 'adafactor': False, 'group_by_length': False, 'length_column_name': 'length', 'report_to': ['wandb'], 'ddp_find_unused_parameters': None, 'ddp_bucket_cap_mb': None, 'ddp_broadcast_buffers': None, 'dataloader_pin_memory': True, 'dataloader_persistent_workers': False, 'skip_memory_metrics': True, 'use_legacy_prediction_loop': False, 'push_to_hub': True, 'resume_from_checkpoint': None, 'hub_model_id': None, 'hub_strategy': 'every_save', 'hub_token': '<HUB_TOKEN>', 'hub_private_repo': None, 'hub_always_push': False, 'gradient_checkpointing_kwargs': None, 'include_inputs_for_metrics': False, 'include_for_metrics': [], 'eval_do_concat_batches': True, 'fp16_backend': 'auto', 'push_to_hub_model_id': None, 'push_to_hub_organization': None, 'push_to_hub_token': '<PUSH_TO_HUB_TOKEN>', 'mp_parameters': '', 'auto_find_batch_size': False, 'full_determinism': False, 'torchdynamo': None, 'ray_scope': 'last', 'ddp_timeout': 1800, 'torch_compile': False, 'torch_compile_backend': None, 'torch_compile_mode': None, 'include_tokens_per_second': False, 'include_num_input_tokens_seen': False, 'neftune_noise_alpha': None, 'optim_target_modules': None, 'batch_eval_metrics': False, 'eval_on_start': False, 'use_liger_kernel': False, 'eval_use_gather_object': False, 'average_tokens_across_devices': False}
+2025-05-04 14:00:33,670 INFO    MainThread:31 [wandb_config.py:__setitem__():154] config set model/num_parameters = 162843651 - <bound method Run._config_callback of <wandb.sdk.wandb_run.Run object at 0x7f46cb2f3cd0>>
+2025-05-04 14:00:33,670 INFO    MainThread:31 [wandb_run.py:_config_callback():1253] config_cb model/num_parameters 162843651 None