jdorairaj commited on Jun 2, 2024

Commit

3f490c1

1 Parent(s): 29d3117

almost completed la runs,sst2 remains

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/logfile_la.log +846 -0
outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_0/all_results_la_kron_all_homo_mc_corr_1000.json +1 -0
outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_0/eval_res_la_kron_all_homo_mc_corr_1000.json +0 -0
outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_0/gpu_stats_la.json +130 -0
outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_1999/all_results_la_kron_all_homo_mc_corr_1000.json +1 -0
outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_1999/eval_res_la_kron_all_homo_mc_corr_1000.json +0 -0
outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_1999/gpu_stats_la.json +130 -0
outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_3999/all_results_la_kron_all_homo_mc_corr_1000.json +1 -0
outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_3999/eval_res_la_kron_all_homo_mc_corr_1000.json +0 -0
outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_3999/gpu_stats_la.json +130 -0
outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_5999/all_results_la_kron_all_homo_mc_corr_1000.json +1 -0
outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_5999/eval_res_la_kron_all_homo_mc_corr_1000.json +0 -0
outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_5999/gpu_stats_la.json +130 -0
outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_7999/all_results_la_kron_all_homo_mc_corr_1000.json +1 -0
outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_7999/eval_res_la_kron_all_homo_mc_corr_1000.json +0 -0
outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_7999/gpu_stats_la.json +130 -0
outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_9999/all_results_la_kron_all_homo_mc_corr_1000.json +1 -0
outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_9999/eval_res_la_kron_all_homo_mc_corr_1000.json +0 -0
outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_9999/gpu_stats_la.json +130 -0
outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/logfile_la.log +846 -0
outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_0/all_results_la_kron_all_homo_mc_corr_1000.json +1 -0
outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_0/eval_res_la_kron_all_homo_mc_corr_1000.json +0 -0
outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_0/gpu_stats_la.json +130 -0
outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_1999/all_results_la_kron_all_homo_mc_corr_1000.json +1 -0
outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_1999/eval_res_la_kron_all_homo_mc_corr_1000.json +0 -0
outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_1999/gpu_stats_la.json +130 -0
outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_3999/all_results_la_kron_all_homo_mc_corr_1000.json +1 -0
outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_3999/eval_res_la_kron_all_homo_mc_corr_1000.json +0 -0
outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_3999/gpu_stats_la.json +130 -0
outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_5999/all_results_la_kron_all_homo_mc_corr_1000.json +1 -0
outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_5999/eval_res_la_kron_all_homo_mc_corr_1000.json +0 -0
outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_5999/gpu_stats_la.json +130 -0
outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_7999/all_results_la_kron_all_homo_mc_corr_1000.json +1 -0
outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_7999/eval_res_la_kron_all_homo_mc_corr_1000.json +0 -0
outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_7999/gpu_stats_la.json +130 -0
outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_9999/all_results_la_kron_all_homo_mc_corr_1000.json +1 -0
outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_9999/eval_res_la_kron_all_homo_mc_corr_1000.json +0 -0
outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_9999/gpu_stats_la.json +130 -0
outputs/cola/roberta-base_adapterstrain_val_0.0001_12345_8_10000/logfile_la.log +846 -0
outputs/cola/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_0/all_results_la_kron_all_homo_mc_corr_1000.json +1 -0
outputs/cola/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_0/eval_res_la_kron_all_homo_mc_corr_1000.json +0 -0
outputs/cola/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_0/gpu_stats_la.json +130 -0
outputs/cola/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_1999/all_results_la_kron_all_homo_mc_corr_1000.json +1 -0
outputs/cola/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_1999/eval_res_la_kron_all_homo_mc_corr_1000.json +0 -0
outputs/cola/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_1999/gpu_stats_la.json +130 -0
outputs/cola/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_3999/all_results_la_kron_all_homo_mc_corr_1000.json +1 -0
outputs/cola/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_3999/eval_res_la_kron_all_homo_mc_corr_1000.json +0 -0
outputs/cola/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_3999/gpu_stats_la.json +130 -0
outputs/cola/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_5999/all_results_la_kron_all_homo_mc_corr_1000.json +1 -0
outputs/cola/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_5999/eval_res_la_kron_all_homo_mc_corr_1000.json +0 -0

outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/logfile_la.log ADDED Viewed

	@@ -0,0 +1,846 @@

+06/01/2024 23:31:05 - INFO - __main__ -  Number of labels detected = 2
+06/01/2024 23:31:06 - INFO - adapters.heads.model_mixin - Adding head 'default' with config {'head_type': 'masked_lm', 'vocab_size': 30522, 'embedding_size': 768, 'layers': 2, 'activation_function': 'gelu', 'layer_norm': True, 'bias': True, 'shift_labels': False, 'label2id': None}.
+06/01/2024 23:31:07 - INFO - adapters.loading - Loading module configuration from ./outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_0/adapter_config.json
+06/01/2024 23:31:07 - INFO - adapters.configuration.model_adapters_config - Adding adapter 'cola'.
+06/01/2024 23:31:07 - INFO - adapters.loading - Loading module weights from ./outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_0/pytorch_adapter.bin
+06/01/2024 23:31:07 - INFO - adapters.loading - Loading module configuration from ./outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_0/head_config.json
+06/01/2024 23:31:07 - INFO - adapters.heads.model_mixin - Adding head 'cola' with config {'head_type': 'classification', 'num_labels': 2, 'layers': 2, 'activation_function': 'tanh', 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'use_pooler': False, 'bias': True, 'dropout_prob': None}.
+06/01/2024 23:31:07 - INFO - adapters.loading - Loading module weights from ./outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_0/pytorch_model_head.bin
+06/01/2024 23:31:07 - INFO - __main__ - Adapter Name = cola
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.0.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.0.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.0.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.0.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.0.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.0.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.0.output.adapters.cola.adapter_up.weight
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.0.output.adapters.cola.adapter_up.bias
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.1.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.1.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.1.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.1.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.1.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.1.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.1.output.adapters.cola.adapter_up.weight
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.1.output.adapters.cola.adapter_up.bias
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.2.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.2.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.2.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.2.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.2.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.2.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.2.output.adapters.cola.adapter_up.weight
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.2.output.adapters.cola.adapter_up.bias
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.3.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.3.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.3.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.3.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.3.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.3.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.3.output.adapters.cola.adapter_up.weight
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.3.output.adapters.cola.adapter_up.bias
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.4.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.4.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.4.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.4.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.4.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.4.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.4.output.adapters.cola.adapter_up.weight
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.4.output.adapters.cola.adapter_up.bias
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.5.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.5.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.5.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.5.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.5.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.5.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.5.output.adapters.cola.adapter_up.weight
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.5.output.adapters.cola.adapter_up.bias
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.6.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.6.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.6.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.6.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.6.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.6.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.6.output.adapters.cola.adapter_up.weight
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.6.output.adapters.cola.adapter_up.bias
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.7.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.7.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.7.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.7.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.7.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.7.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.7.output.adapters.cola.adapter_up.weight
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.7.output.adapters.cola.adapter_up.bias
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.8.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.8.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.8.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.8.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.8.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.8.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.8.output.adapters.cola.adapter_up.weight
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.8.output.adapters.cola.adapter_up.bias
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.9.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.9.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.9.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.9.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.9.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.9.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.9.output.adapters.cola.adapter_up.weight
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.9.output.adapters.cola.adapter_up.bias
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.10.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.10.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.10.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.10.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.10.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.10.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.10.output.adapters.cola.adapter_up.weight
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.10.output.adapters.cola.adapter_up.bias
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.11.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.11.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.11.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.11.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.11.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.11.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.11.output.adapters.cola.adapter_up.weight
+06/01/2024 23:31:07 - INFO - __main__ - bert.encoder.layer.11.output.adapters.cola.adapter_up.bias
+06/01/2024 23:31:07 - INFO - __main__ - heads.cola.1.weight
+06/01/2024 23:31:07 - INFO - __main__ - heads.cola.1.bias
+06/01/2024 23:31:07 - INFO - __main__ - heads.cola.4.weight
+06/01/2024 23:31:07 - INFO - __main__ - heads.cola.4.bias
+06/01/2024 23:31:07 - INFO - __main__ - Sample 3412 of the training set: {'input_ids': [101, 1045, 12781, 1996, 7427, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1], 'labels': 1}.
+06/01/2024 23:31:07 - INFO - __main__ - Sample 6002 of the training set: {'input_ids': [101, 1045, 2442, 2064, 4521, 22088, 2015, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': 0}.
+06/01/2024 23:31:07 - INFO - __main__ - Sample 83 of the training set: {'input_ids': [101, 1996, 7764, 22257, 2993, 2000, 1996, 2598, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': 0}.
+06/01/2024 23:35:56 - INFO - __main__ - f_mu shape : torch.Size([1043, 2])
+06/01/2024 23:35:56 - INFO - __main__ - f_var shape :  torch.Size([1043, 2, 2])
+06/01/2024 23:35:56 - INFO - __main__ - tensor([[-0.1079,  0.3158],
+        [-0.1277,  0.1944],
+        [-0.1159,  0.2506],
+        ...,
+        [-0.1310,  0.2133],
+        [-0.1701,  0.2358],
+        [-0.1486,  0.1628]], device='cuda:0')
+06/01/2024 23:35:56 - INFO - __main__ - tensor([[[12.4738, 12.2974],
+         [12.2974, 12.4902]],
+        [[11.5270, 11.1531],
+         [11.1531, 11.4932]],
+        [[11.6347, 11.4029],
+         [11.4029, 11.6472]],
+        ...,
+        [[13.0798, 12.7824],
+         [12.7824, 13.1277]],
+        [[11.2542, 11.0789],
+         [11.0788, 11.2619]],
+        [[11.7360, 11.4998],
+         [11.4998, 11.7346]]], device='cuda:0')
+06/01/2024 23:35:56 - INFO - __main__ - ***** Completed training *****
+06/01/2024 23:35:59 - INFO - __main__ -  Number of labels detected = 2
+06/01/2024 23:36:00 - INFO - adapters.heads.model_mixin - Adding head 'default' with config {'head_type': 'masked_lm', 'vocab_size': 30522, 'embedding_size': 768, 'layers': 2, 'activation_function': 'gelu', 'layer_norm': True, 'bias': True, 'shift_labels': False, 'label2id': None}.
+06/01/2024 23:36:00 - INFO - adapters.loading - Loading module configuration from ./outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_1999/adapter_config.json
+06/01/2024 23:36:00 - INFO - adapters.configuration.model_adapters_config - Adding adapter 'cola'.
+06/01/2024 23:36:01 - INFO - adapters.loading - Loading module weights from ./outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_1999/pytorch_adapter.bin
+06/01/2024 23:36:01 - INFO - adapters.loading - Loading module configuration from ./outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_1999/head_config.json
+06/01/2024 23:36:01 - INFO - adapters.heads.model_mixin - Adding head 'cola' with config {'head_type': 'classification', 'num_labels': 2, 'layers': 2, 'activation_function': 'tanh', 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'use_pooler': False, 'bias': True, 'dropout_prob': None}.
+06/01/2024 23:36:01 - INFO - adapters.loading - Loading module weights from ./outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_1999/pytorch_model_head.bin
+06/01/2024 23:36:01 - INFO - __main__ - Adapter Name = cola
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.0.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.0.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.0.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.0.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.0.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.0.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.0.output.adapters.cola.adapter_up.weight
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.0.output.adapters.cola.adapter_up.bias
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.1.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.1.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.1.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.1.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.1.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.1.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.1.output.adapters.cola.adapter_up.weight
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.1.output.adapters.cola.adapter_up.bias
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.2.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.2.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.2.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.2.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.2.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.2.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.2.output.adapters.cola.adapter_up.weight
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.2.output.adapters.cola.adapter_up.bias
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.3.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.3.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.3.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.3.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.3.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.3.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.3.output.adapters.cola.adapter_up.weight
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.3.output.adapters.cola.adapter_up.bias
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.4.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.4.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.4.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.4.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.4.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.4.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.4.output.adapters.cola.adapter_up.weight
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.4.output.adapters.cola.adapter_up.bias
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.5.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.5.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.5.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.5.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.5.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.5.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.5.output.adapters.cola.adapter_up.weight
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.5.output.adapters.cola.adapter_up.bias
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.6.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.6.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.6.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.6.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.6.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.6.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.6.output.adapters.cola.adapter_up.weight
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.6.output.adapters.cola.adapter_up.bias
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.7.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.7.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.7.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.7.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.7.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.7.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.7.output.adapters.cola.adapter_up.weight
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.7.output.adapters.cola.adapter_up.bias
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.8.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.8.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.8.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.8.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.8.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.8.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.8.output.adapters.cola.adapter_up.weight
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.8.output.adapters.cola.adapter_up.bias
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.9.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.9.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.9.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.9.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.9.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.9.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.9.output.adapters.cola.adapter_up.weight
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.9.output.adapters.cola.adapter_up.bias
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.10.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.10.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.10.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.10.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.10.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.10.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.10.output.adapters.cola.adapter_up.weight
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.10.output.adapters.cola.adapter_up.bias
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.11.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.11.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.11.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.11.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.11.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.11.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.11.output.adapters.cola.adapter_up.weight
+06/01/2024 23:36:01 - INFO - __main__ - bert.encoder.layer.11.output.adapters.cola.adapter_up.bias
+06/01/2024 23:36:01 - INFO - __main__ - heads.cola.1.weight
+06/01/2024 23:36:01 - INFO - __main__ - heads.cola.1.bias
+06/01/2024 23:36:01 - INFO - __main__ - heads.cola.4.weight
+06/01/2024 23:36:01 - INFO - __main__ - heads.cola.4.bias
+06/01/2024 23:36:02 - INFO - __main__ - Sample 3412 of the training set: {'input_ids': [101, 1045, 12781, 1996, 7427, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1], 'labels': 1}.
+06/01/2024 23:36:02 - INFO - __main__ - Sample 6002 of the training set: {'input_ids': [101, 1045, 2442, 2064, 4521, 22088, 2015, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': 0}.
+06/01/2024 23:36:02 - INFO - __main__ - Sample 83 of the training set: {'input_ids': [101, 1996, 7764, 22257, 2993, 2000, 1996, 2598, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': 0}.
+06/01/2024 23:40:56 - INFO - __main__ - f_mu shape : torch.Size([1043, 2])
+06/01/2024 23:40:56 - INFO - __main__ - f_var shape :  torch.Size([1043, 2, 2])
+06/01/2024 23:40:56 - INFO - __main__ - tensor([[-2.1297,  2.2213],
+        [-1.8189,  1.7128],
+        [-1.5682,  1.5394],
+        ...,
+        [-2.5910,  2.4892],
+        [-0.3724,  0.3888],
+        [-0.4022,  0.3224]], device='cuda:0')
+06/01/2024 23:40:56 - INFO - __main__ - tensor([[[4.5618, 2.1410],
+         [2.1410, 4.4561]],
+        [[3.3290, 2.0678],
+         [2.0678, 3.3150]],
+        [[3.4761, 1.5668],
+         [1.5668, 3.3424]],
+        ...,
+        [[4.5626, 3.5440],
+         [3.5440, 4.6095]],
+        [[3.2903, 0.2714],
+         [0.2714, 3.0593]],
+        [[3.2947, 0.1413],
+         [0.1413, 2.9931]]], device='cuda:0')
+06/01/2024 23:40:56 - INFO - __main__ - ***** Completed training *****
+06/01/2024 23:40:58 - INFO - __main__ -  Number of labels detected = 2
+06/01/2024 23:40:59 - INFO - adapters.heads.model_mixin - Adding head 'default' with config {'head_type': 'masked_lm', 'vocab_size': 30522, 'embedding_size': 768, 'layers': 2, 'activation_function': 'gelu', 'layer_norm': True, 'bias': True, 'shift_labels': False, 'label2id': None}.
+06/01/2024 23:40:59 - INFO - adapters.loading - Loading module configuration from ./outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_3999/adapter_config.json
+06/01/2024 23:40:59 - INFO - adapters.configuration.model_adapters_config - Adding adapter 'cola'.
+06/01/2024 23:40:59 - INFO - adapters.loading - Loading module weights from ./outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_3999/pytorch_adapter.bin
+06/01/2024 23:40:59 - INFO - adapters.loading - Loading module configuration from ./outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_3999/head_config.json
+06/01/2024 23:40:59 - INFO - adapters.heads.model_mixin - Adding head 'cola' with config {'head_type': 'classification', 'num_labels': 2, 'layers': 2, 'activation_function': 'tanh', 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'use_pooler': False, 'bias': True, 'dropout_prob': None}.
+06/01/2024 23:40:59 - INFO - adapters.loading - Loading module weights from ./outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_3999/pytorch_model_head.bin
+06/01/2024 23:40:59 - INFO - __main__ - Adapter Name = cola
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.0.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.0.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.0.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.0.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.0.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.0.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.0.output.adapters.cola.adapter_up.weight
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.0.output.adapters.cola.adapter_up.bias
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.1.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.1.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.1.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.1.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.1.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.1.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.1.output.adapters.cola.adapter_up.weight
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.1.output.adapters.cola.adapter_up.bias
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.2.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.2.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.2.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.2.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.2.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.2.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.2.output.adapters.cola.adapter_up.weight
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.2.output.adapters.cola.adapter_up.bias
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.3.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.3.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.3.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.3.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.3.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.3.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.3.output.adapters.cola.adapter_up.weight
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.3.output.adapters.cola.adapter_up.bias
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.4.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.4.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.4.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.4.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.4.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.4.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.4.output.adapters.cola.adapter_up.weight
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.4.output.adapters.cola.adapter_up.bias
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.5.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.5.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.5.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.5.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.5.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.5.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.5.output.adapters.cola.adapter_up.weight
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.5.output.adapters.cola.adapter_up.bias
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.6.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.6.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.6.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.6.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.6.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.6.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.6.output.adapters.cola.adapter_up.weight
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.6.output.adapters.cola.adapter_up.bias
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.7.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.7.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.7.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.7.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.7.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.7.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.7.output.adapters.cola.adapter_up.weight
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.7.output.adapters.cola.adapter_up.bias
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.8.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.8.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.8.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.8.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.8.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.8.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.8.output.adapters.cola.adapter_up.weight
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.8.output.adapters.cola.adapter_up.bias
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.9.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.9.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.9.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.9.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.9.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.9.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.9.output.adapters.cola.adapter_up.weight
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.9.output.adapters.cola.adapter_up.bias
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.10.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.10.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.10.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.10.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.10.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.10.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.10.output.adapters.cola.adapter_up.weight
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.10.output.adapters.cola.adapter_up.bias
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.11.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.11.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.11.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.11.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.11.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.11.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.11.output.adapters.cola.adapter_up.weight
+06/01/2024 23:40:59 - INFO - __main__ - bert.encoder.layer.11.output.adapters.cola.adapter_up.bias
+06/01/2024 23:40:59 - INFO - __main__ - heads.cola.1.weight
+06/01/2024 23:40:59 - INFO - __main__ - heads.cola.1.bias
+06/01/2024 23:40:59 - INFO - __main__ - heads.cola.4.weight
+06/01/2024 23:40:59 - INFO - __main__ - heads.cola.4.bias
+06/01/2024 23:41:00 - INFO - __main__ - Sample 3412 of the training set: {'input_ids': [101, 1045, 12781, 1996, 7427, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1], 'labels': 1}.
+06/01/2024 23:41:00 - INFO - __main__ - Sample 6002 of the training set: {'input_ids': [101, 1045, 2442, 2064, 4521, 22088, 2015, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': 0}.
+06/01/2024 23:41:00 - INFO - __main__ - Sample 83 of the training set: {'input_ids': [101, 1996, 7764, 22257, 2993, 2000, 1996, 2598, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': 0}.
+06/01/2024 23:46:03 - INFO - __main__ - f_mu shape : torch.Size([1043, 2])
+06/01/2024 23:46:03 - INFO - __main__ - f_var shape :  torch.Size([1043, 2, 2])
+06/01/2024 23:46:03 - INFO - __main__ - tensor([[-2.6237,  2.6967],
+        [-2.0123,  1.8970],
+        [-1.4105,  1.4059],
+        ...,
+        [-3.3720,  3.2471],
+        [-0.4277,  0.4479],
+        [-0.6115,  0.5214]], device='cuda:0')
+06/01/2024 23:46:03 - INFO - __main__ - tensor([[[ 5.0017,  1.7107],
+         [ 1.7107,  4.7907]],
+        [[ 3.6648,  1.0633],
+         [ 1.0633,  3.5681]],
+        [[ 3.6117,  0.3526],
+         [ 0.3526,  3.3652]],
+        ...,
+        [[ 4.8242,  3.7225],
+         [ 3.7225,  4.8405]],
+        [[ 4.8466, -1.7092],
+         [-1.7092,  4.2847]],
+        [[ 4.6424, -1.6387],
+         [-1.6387,  4.0598]]], device='cuda:0')
+06/01/2024 23:46:03 - INFO - __main__ - ***** Completed training *****
+06/01/2024 23:46:06 - INFO - __main__ -  Number of labels detected = 2
+06/01/2024 23:46:06 - INFO - adapters.heads.model_mixin - Adding head 'default' with config {'head_type': 'masked_lm', 'vocab_size': 30522, 'embedding_size': 768, 'layers': 2, 'activation_function': 'gelu', 'layer_norm': True, 'bias': True, 'shift_labels': False, 'label2id': None}.
+06/01/2024 23:46:07 - INFO - adapters.loading - Loading module configuration from ./outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_5999/adapter_config.json
+06/01/2024 23:46:07 - INFO - adapters.configuration.model_adapters_config - Adding adapter 'cola'.
+06/01/2024 23:46:07 - INFO - adapters.loading - Loading module weights from ./outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_5999/pytorch_adapter.bin
+06/01/2024 23:46:07 - INFO - adapters.loading - Loading module configuration from ./outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_5999/head_config.json
+06/01/2024 23:46:07 - INFO - adapters.heads.model_mixin - Adding head 'cola' with config {'head_type': 'classification', 'num_labels': 2, 'layers': 2, 'activation_function': 'tanh', 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'use_pooler': False, 'bias': True, 'dropout_prob': None}.
+06/01/2024 23:46:07 - INFO - adapters.loading - Loading module weights from ./outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_5999/pytorch_model_head.bin
+06/01/2024 23:46:07 - INFO - __main__ - Adapter Name = cola
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.0.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.0.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.0.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.0.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.0.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.0.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.0.output.adapters.cola.adapter_up.weight
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.0.output.adapters.cola.adapter_up.bias
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.1.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.1.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.1.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.1.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.1.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.1.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.1.output.adapters.cola.adapter_up.weight
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.1.output.adapters.cola.adapter_up.bias
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.2.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.2.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.2.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.2.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.2.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.2.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.2.output.adapters.cola.adapter_up.weight
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.2.output.adapters.cola.adapter_up.bias
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.3.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.3.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.3.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.3.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.3.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.3.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.3.output.adapters.cola.adapter_up.weight
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.3.output.adapters.cola.adapter_up.bias
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.4.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.4.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.4.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.4.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.4.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.4.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.4.output.adapters.cola.adapter_up.weight
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.4.output.adapters.cola.adapter_up.bias
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.5.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.5.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.5.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.5.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.5.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.5.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.5.output.adapters.cola.adapter_up.weight
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.5.output.adapters.cola.adapter_up.bias
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.6.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.6.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.6.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.6.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.6.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.6.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.6.output.adapters.cola.adapter_up.weight
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.6.output.adapters.cola.adapter_up.bias
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.7.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.7.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.7.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.7.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.7.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.7.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.7.output.adapters.cola.adapter_up.weight
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.7.output.adapters.cola.adapter_up.bias
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.8.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.8.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.8.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.8.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.8.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.8.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.8.output.adapters.cola.adapter_up.weight
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.8.output.adapters.cola.adapter_up.bias
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.9.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.9.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.9.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.9.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.9.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.9.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.9.output.adapters.cola.adapter_up.weight
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.9.output.adapters.cola.adapter_up.bias
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.10.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.10.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.10.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.10.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.10.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.10.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.10.output.adapters.cola.adapter_up.weight
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.10.output.adapters.cola.adapter_up.bias
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.11.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.11.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.11.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.11.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.11.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.11.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.11.output.adapters.cola.adapter_up.weight
+06/01/2024 23:46:07 - INFO - __main__ - bert.encoder.layer.11.output.adapters.cola.adapter_up.bias
+06/01/2024 23:46:07 - INFO - __main__ - heads.cola.1.weight
+06/01/2024 23:46:07 - INFO - __main__ - heads.cola.1.bias
+06/01/2024 23:46:07 - INFO - __main__ - heads.cola.4.weight
+06/01/2024 23:46:07 - INFO - __main__ - heads.cola.4.bias
+06/01/2024 23:46:08 - INFO - __main__ - Sample 3412 of the training set: {'input_ids': [101, 1045, 12781, 1996, 7427, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1], 'labels': 1}.
+06/01/2024 23:46:08 - INFO - __main__ - Sample 6002 of the training set: {'input_ids': [101, 1045, 2442, 2064, 4521, 22088, 2015, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': 0}.
+06/01/2024 23:46:08 - INFO - __main__ - Sample 83 of the training set: {'input_ids': [101, 1996, 7764, 22257, 2993, 2000, 1996, 2598, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': 0}.
+06/01/2024 23:51:11 - INFO - __main__ - f_mu shape : torch.Size([1043, 2])
+06/01/2024 23:51:11 - INFO - __main__ - f_var shape :  torch.Size([1043, 2, 2])
+06/01/2024 23:51:11 - INFO - __main__ - tensor([[-2.9662,  2.9773],
+        [-2.7168,  2.5565],
+        [-1.7817,  1.7464],
+        ...,
+        [-3.3487,  3.2080],
+        [-1.8054,  1.7300],
+        [-1.0835,  0.9648]], device='cuda:0')
+06/01/2024 23:51:11 - INFO - __main__ - tensor([[[ 4.7834,  2.8649],
+         [ 2.8649,  4.6725]],
+        [[ 3.9393,  2.2446],
+         [ 2.2446,  3.9447]],
+        [[ 3.9373,  0.4859],
+         [ 0.4859,  3.6285]],
+        ...,
+        [[ 5.0232,  3.7086],
+         [ 3.7086,  5.0201]],
+        [[ 8.5577, -3.8952],
+         [-3.8952,  7.9227]],
+        [[ 5.8607, -2.4746],
+         [-2.4746,  5.3347]]], device='cuda:0')
+06/01/2024 23:51:11 - INFO - __main__ - ***** Completed training *****
+06/01/2024 23:51:14 - INFO - __main__ -  Number of labels detected = 2
+06/01/2024 23:51:15 - INFO - adapters.heads.model_mixin - Adding head 'default' with config {'head_type': 'masked_lm', 'vocab_size': 30522, 'embedding_size': 768, 'layers': 2, 'activation_function': 'gelu', 'layer_norm': True, 'bias': True, 'shift_labels': False, 'label2id': None}.
+06/01/2024 23:51:15 - INFO - adapters.loading - Loading module configuration from ./outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_7999/adapter_config.json
+06/01/2024 23:51:15 - INFO - adapters.configuration.model_adapters_config - Adding adapter 'cola'.
+06/01/2024 23:51:15 - INFO - adapters.loading - Loading module weights from ./outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_7999/pytorch_adapter.bin
+06/01/2024 23:51:15 - INFO - adapters.loading - Loading module configuration from ./outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_7999/head_config.json
+06/01/2024 23:51:15 - INFO - adapters.heads.model_mixin - Adding head 'cola' with config {'head_type': 'classification', 'num_labels': 2, 'layers': 2, 'activation_function': 'tanh', 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'use_pooler': False, 'bias': True, 'dropout_prob': None}.
+06/01/2024 23:51:15 - INFO - adapters.loading - Loading module weights from ./outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_7999/pytorch_model_head.bin
+06/01/2024 23:51:15 - INFO - __main__ - Adapter Name = cola
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.0.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.0.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.0.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.0.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.0.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.0.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.0.output.adapters.cola.adapter_up.weight
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.0.output.adapters.cola.adapter_up.bias
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.1.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.1.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.1.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.1.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.1.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.1.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.1.output.adapters.cola.adapter_up.weight
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.1.output.adapters.cola.adapter_up.bias
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.2.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.2.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.2.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.2.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.2.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.2.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.2.output.adapters.cola.adapter_up.weight
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.2.output.adapters.cola.adapter_up.bias
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.3.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.3.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.3.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.3.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.3.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.3.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.3.output.adapters.cola.adapter_up.weight
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.3.output.adapters.cola.adapter_up.bias
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.4.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.4.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.4.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.4.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.4.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.4.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.4.output.adapters.cola.adapter_up.weight
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.4.output.adapters.cola.adapter_up.bias
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.5.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.5.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.5.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.5.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.5.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.5.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.5.output.adapters.cola.adapter_up.weight
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.5.output.adapters.cola.adapter_up.bias
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.6.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.6.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.6.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.6.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.6.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.6.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.6.output.adapters.cola.adapter_up.weight
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.6.output.adapters.cola.adapter_up.bias
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.7.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.7.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.7.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.7.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.7.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.7.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.7.output.adapters.cola.adapter_up.weight
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.7.output.adapters.cola.adapter_up.bias
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.8.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.8.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.8.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.8.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.8.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.8.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.8.output.adapters.cola.adapter_up.weight
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.8.output.adapters.cola.adapter_up.bias
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.9.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.9.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.9.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.9.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.9.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.9.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.9.output.adapters.cola.adapter_up.weight
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.9.output.adapters.cola.adapter_up.bias
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.10.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.10.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.10.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.10.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.10.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.10.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.10.output.adapters.cola.adapter_up.weight
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.10.output.adapters.cola.adapter_up.bias
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.11.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.11.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.11.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.11.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.11.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.11.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.11.output.adapters.cola.adapter_up.weight
+06/01/2024 23:51:15 - INFO - __main__ - bert.encoder.layer.11.output.adapters.cola.adapter_up.bias
+06/01/2024 23:51:15 - INFO - __main__ - heads.cola.1.weight
+06/01/2024 23:51:15 - INFO - __main__ - heads.cola.1.bias
+06/01/2024 23:51:15 - INFO - __main__ - heads.cola.4.weight
+06/01/2024 23:51:15 - INFO - __main__ - heads.cola.4.bias
+06/01/2024 23:51:16 - INFO - __main__ - Sample 3412 of the training set: {'input_ids': [101, 1045, 12781, 1996, 7427, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1], 'labels': 1}.
+06/01/2024 23:51:16 - INFO - __main__ - Sample 6002 of the training set: {'input_ids': [101, 1045, 2442, 2064, 4521, 22088, 2015, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': 0}.
+06/01/2024 23:51:16 - INFO - __main__ - Sample 83 of the training set: {'input_ids': [101, 1996, 7764, 22257, 2993, 2000, 1996, 2598, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': 0}.
+06/01/2024 23:56:23 - INFO - __main__ - f_mu shape : torch.Size([1043, 2])
+06/01/2024 23:56:23 - INFO - __main__ - f_var shape :  torch.Size([1043, 2, 2])
+06/01/2024 23:56:23 - INFO - __main__ - tensor([[-3.3699,  3.3674],
+        [-3.1780,  3.0025],
+        [-2.2889,  2.2263],
+        ...,
+        [-4.2645,  4.0783],
+        [-2.1805,  2.0611],
+        [-1.5461,  1.3975]], device='cuda:0')
+06/01/2024 23:56:23 - INFO - __main__ - tensor([[[  5.1090,   2.1602],
+         [  2.1602,   4.9487]],
+        [[  4.3270,   1.8304],
+         [  1.8304,   4.3619]],
+        [[  5.2377,  -0.5261],
+         [ -0.5261,   4.6952]],
+        ...,
+        [[  5.2573,   4.1918],
+         [  4.1918,   5.2629]],
+        [[ 17.0288, -12.2766],
+         [-12.2766,  16.0319]],
+        [[ 14.0171, -10.2656],
+         [-10.2656,  12.9278]]], device='cuda:0')
+06/01/2024 23:56:23 - INFO - __main__ - ***** Completed training *****
+06/01/2024 23:56:26 - INFO - __main__ -  Number of labels detected = 2
+06/01/2024 23:56:27 - INFO - adapters.heads.model_mixin - Adding head 'default' with config {'head_type': 'masked_lm', 'vocab_size': 30522, 'embedding_size': 768, 'layers': 2, 'activation_function': 'gelu', 'layer_norm': True, 'bias': True, 'shift_labels': False, 'label2id': None}.
+06/01/2024 23:56:27 - INFO - adapters.loading - Loading module configuration from ./outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_9999/adapter_config.json
+06/01/2024 23:56:27 - INFO - adapters.configuration.model_adapters_config - Adding adapter 'cola'.
+06/01/2024 23:56:27 - INFO - adapters.loading - Loading module weights from ./outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_9999/pytorch_adapter.bin
+06/01/2024 23:56:27 - INFO - adapters.loading - Loading module configuration from ./outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_9999/head_config.json
+06/01/2024 23:56:27 - INFO - adapters.heads.model_mixin - Adding head 'cola' with config {'head_type': 'classification', 'num_labels': 2, 'layers': 2, 'activation_function': 'tanh', 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'use_pooler': False, 'bias': True, 'dropout_prob': None}.
+06/01/2024 23:56:27 - INFO - adapters.loading - Loading module weights from ./outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_9999/pytorch_model_head.bin
+06/01/2024 23:56:27 - INFO - __main__ - Adapter Name = cola
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.0.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.0.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.0.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.0.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.0.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.0.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.0.output.adapters.cola.adapter_up.weight
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.0.output.adapters.cola.adapter_up.bias
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.1.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.1.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.1.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.1.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.1.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.1.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.1.output.adapters.cola.adapter_up.weight
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.1.output.adapters.cola.adapter_up.bias
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.2.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.2.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.2.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.2.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.2.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.2.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.2.output.adapters.cola.adapter_up.weight
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.2.output.adapters.cola.adapter_up.bias
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.3.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.3.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.3.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.3.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.3.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.3.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.3.output.adapters.cola.adapter_up.weight
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.3.output.adapters.cola.adapter_up.bias
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.4.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.4.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.4.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.4.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.4.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.4.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.4.output.adapters.cola.adapter_up.weight
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.4.output.adapters.cola.adapter_up.bias
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.5.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.5.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.5.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.5.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.5.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.5.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.5.output.adapters.cola.adapter_up.weight
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.5.output.adapters.cola.adapter_up.bias
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.6.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.6.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.6.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.6.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.6.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.6.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.6.output.adapters.cola.adapter_up.weight
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.6.output.adapters.cola.adapter_up.bias
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.7.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.7.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.7.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.7.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.7.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.7.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.7.output.adapters.cola.adapter_up.weight
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.7.output.adapters.cola.adapter_up.bias
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.8.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.8.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.8.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.8.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.8.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.8.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.8.output.adapters.cola.adapter_up.weight
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.8.output.adapters.cola.adapter_up.bias
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.9.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.9.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.9.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.9.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.9.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.9.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.9.output.adapters.cola.adapter_up.weight
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.9.output.adapters.cola.adapter_up.bias
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.10.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.10.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.10.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.10.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.10.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.10.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.10.output.adapters.cola.adapter_up.weight
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.10.output.adapters.cola.adapter_up.bias
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.11.attention.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.11.attention.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.11.attention.output.adapters.cola.adapter_up.weight
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.11.attention.output.adapters.cola.adapter_up.bias
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.11.output.adapters.cola.adapter_down.0.weight
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.11.output.adapters.cola.adapter_down.0.bias
+06/01/2024 23:56:27 - INFO - __main__ - bert.encoder.layer.11.output.adapters.cola.adapter_up.weight
+06/01/2024 23:56:28 - INFO - __main__ - bert.encoder.layer.11.output.adapters.cola.adapter_up.bias
+06/01/2024 23:56:28 - INFO - __main__ - heads.cola.1.weight
+06/01/2024 23:56:28 - INFO - __main__ - heads.cola.1.bias
+06/01/2024 23:56:28 - INFO - __main__ - heads.cola.4.weight
+06/01/2024 23:56:28 - INFO - __main__ - heads.cola.4.bias
+06/01/2024 23:56:28 - INFO - __main__ - Sample 3412 of the training set: {'input_ids': [101, 1045, 12781, 1996, 7427, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1], 'labels': 1}.
+06/01/2024 23:56:28 - INFO - __main__ - Sample 6002 of the training set: {'input_ids': [101, 1045, 2442, 2064, 4521, 22088, 2015, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': 0}.
+06/01/2024 23:56:28 - INFO - __main__ - Sample 83 of the training set: {'input_ids': [101, 1996, 7764, 22257, 2993, 2000, 1996, 2598, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': 0}.
+06/02/2024 00:01:37 - INFO - __main__ - f_mu shape : torch.Size([1043, 2])
+06/02/2024 00:01:37 - INFO - __main__ - f_var shape :  torch.Size([1043, 2, 2])
+06/02/2024 00:01:37 - INFO - __main__ - tensor([[-3.2560,  3.2816],
+        [-3.1414,  2.9828],
+        [-2.0300,  2.0107],
+        ...,
+        [-4.2195,  4.0517],
+        [-2.9542,  2.8213],
+        [-1.6776,  1.5290]], device='cuda:0')
+06/02/2024 00:01:37 - INFO - __main__ - tensor([[[  4.9482,   1.9264],
+         [  1.9264,   4.7548]],
+        [[  4.2033,   1.7314],
+         [  1.7314,   4.2234]],
+        [[  5.0032,  -0.7315],
+         [ -0.7315,   4.4748]],
+        ...,
+        [[  5.1036,   3.9530],
+         [  3.9530,   5.1016]],
+        [[ 11.9591,  -6.0827],
+         [ -6.0827,  11.4617]],
+        [[ 14.0977, -10.2441],
+         [-10.2441,  12.9932]]], device='cuda:0')
+06/02/2024 00:01:37 - INFO - __main__ - ***** Completed training *****

outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_0/all_results_la_kron_all_homo_mc_corr_1000.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"eval_matthews_correlation": -0.02929206145132745}

outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_0/eval_res_la_kron_all_homo_mc_corr_1000.json ADDED Viewed

The diff for this file is too large to render. See raw diff

outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_0/gpu_stats_la.json ADDED Viewed

	@@ -0,0 +1,130 @@

+{
+    "memory_allocated": 969647616,
+    "max_memory_allocated": 3324437504,
+    "memory_reserved": 8908701696,
+    "max_memory_reserved": 8908701696,
+    "memory_stats": {
+        "active.all.allocated": 2905439,
+        "active.all.current": 1234,
+        "active.all.freed": 2904205,
+        "active.all.peak": 1487,
+        "active.large_pool.allocated": 360903,
+        "active.large_pool.current": 284,
+        "active.large_pool.freed": 360619,
+        "active.large_pool.peak": 384,
+        "active.small_pool.allocated": 2544536,
+        "active.small_pool.current": 950,
+        "active.small_pool.freed": 2543586,
+        "active.small_pool.peak": 1200,
+        "active_bytes.all.allocated": 2036389039616,
+        "active_bytes.all.current": 969647616,
+        "active_bytes.all.freed": 2035419392000,
+        "active_bytes.all.peak": 3324437504,
+        "active_bytes.large_pool.allocated": 1464350304256,
+        "active_bytes.large_pool.current": 952457216,
+        "active_bytes.large_pool.freed": 1463397847040,
+        "active_bytes.large_pool.peak": 3240482816,
+        "active_bytes.small_pool.allocated": 572038735360,
+        "active_bytes.small_pool.current": 17190400,
+        "active_bytes.small_pool.freed": 572021544960,
+        "active_bytes.small_pool.peak": 114983424,
+        "allocated_bytes.all.allocated": 2036389039616,
+        "allocated_bytes.all.current": 969647616,
+        "allocated_bytes.all.freed": 2035419392000,
+        "allocated_bytes.all.peak": 3324437504,
+        "allocated_bytes.large_pool.allocated": 1464350304256,
+        "allocated_bytes.large_pool.current": 952457216,
+        "allocated_bytes.large_pool.freed": 1463397847040,
+        "allocated_bytes.large_pool.peak": 3240482816,
+        "allocated_bytes.small_pool.allocated": 572038735360,
+        "allocated_bytes.small_pool.current": 17190400,
+        "allocated_bytes.small_pool.freed": 572021544960,
+        "allocated_bytes.small_pool.peak": 114983424,
+        "allocation.all.allocated": 2905439,
+        "allocation.all.current": 1234,
+        "allocation.all.freed": 2904205,
+        "allocation.all.peak": 1487,
+        "allocation.large_pool.allocated": 360903,
+        "allocation.large_pool.current": 284,
+        "allocation.large_pool.freed": 360619,
+        "allocation.large_pool.peak": 384,
+        "allocation.small_pool.allocated": 2544536,
+        "allocation.small_pool.current": 950,
+        "allocation.small_pool.freed": 2543586,
+        "allocation.small_pool.peak": 1200,
+        "inactive_split.all.allocated": 1420248,
+        "inactive_split.all.current": 170,
+        "inactive_split.all.freed": 1420078,
+        "inactive_split.all.peak": 220,
+        "inactive_split.large_pool.allocated": 166957,
+        "inactive_split.large_pool.current": 43,
+        "inactive_split.large_pool.freed": 166914,
+        "inactive_split.large_pool.peak": 96,
+        "inactive_split.small_pool.allocated": 1253291,
+        "inactive_split.small_pool.current": 127,
+        "inactive_split.small_pool.freed": 1253164,
+        "inactive_split.small_pool.peak": 144,
+        "inactive_split_bytes.all.allocated": 2042948382208,
+        "inactive_split_bytes.all.current": 148134400,
+        "inactive_split_bytes.all.freed": 2042800247808,
+        "inactive_split_bytes.all.peak": 896064512,
+        "inactive_split_bytes.large_pool.allocated": 1450380810240,
+        "inactive_split_bytes.large_pool.current": 106604544,
+        "inactive_split_bytes.large_pool.freed": 1450274205696,
+        "inactive_split_bytes.large_pool.peak": 859522048,
+        "inactive_split_bytes.small_pool.allocated": 592567571968,
+        "inactive_split_bytes.small_pool.current": 41529856,
+        "inactive_split_bytes.small_pool.freed": 592526042112,
+        "inactive_split_bytes.small_pool.peak": 77619712,
+        "max_split_size": -1,
+        "num_alloc_retries": 0,
+        "num_device_alloc": 389,
+        "num_device_free": 47,
+        "num_ooms": 0,
+        "num_sync_all_streams": 1,
+        "oversize_allocations.allocated": 0,
+        "oversize_allocations.current": 0,
+        "oversize_allocations.freed": 0,
+        "oversize_allocations.peak": 0,
+        "oversize_segments.allocated": 0,
+        "oversize_segments.current": 0,
+        "oversize_segments.freed": 0,
+        "oversize_segments.peak": 0,
+        "requested_bytes.all.allocated": 1994872523059,
+        "requested_bytes.all.current": 967046712,
+        "requested_bytes.all.freed": 1993905476347,
+        "requested_bytes.all.peak": 3263085376,
+        "requested_bytes.large_pool.allocated": 1423070574288,
+        "requested_bytes.large_pool.current": 950013448,
+        "requested_bytes.large_pool.freed": 1422120560840,
+        "requested_bytes.large_pool.peak": 3179241096,
+        "requested_bytes.small_pool.allocated": 571801948771,
+        "requested_bytes.small_pool.current": 17033264,
+        "requested_bytes.small_pool.freed": 571784915507,
+        "requested_bytes.small_pool.peak": 114852048,
+        "reserved_bytes.all.allocated": 9214885888,
+        "reserved_bytes.all.current": 8908701696,
+        "reserved_bytes.all.freed": 306184192,
+        "reserved_bytes.all.peak": 8908701696,
+        "reserved_bytes.large_pool.allocated": 9003073536,
+        "reserved_bytes.large_pool.current": 8772386816,
+        "reserved_bytes.large_pool.freed": 230686720,
+        "reserved_bytes.large_pool.peak": 8772386816,
+        "reserved_bytes.small_pool.allocated": 211812352,
+        "reserved_bytes.small_pool.current": 136314880,
+        "reserved_bytes.small_pool.freed": 75497472,
+        "reserved_bytes.small_pool.peak": 136314880,
+        "segment.all.allocated": 389,
+        "segment.all.current": 342,
+        "segment.all.freed": 47,
+        "segment.all.peak": 342,
+        "segment.large_pool.allocated": 288,
+        "segment.large_pool.current": 277,
+        "segment.large_pool.freed": 11,
+        "segment.large_pool.peak": 277,
+        "segment.small_pool.allocated": 101,
+        "segment.small_pool.current": 65,
+        "segment.small_pool.freed": 36,
+        "segment.small_pool.peak": 65
+    }
+}

outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_1999/all_results_la_kron_all_homo_mc_corr_1000.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"eval_matthews_correlation": 0.47194522204020767}

outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_1999/eval_res_la_kron_all_homo_mc_corr_1000.json ADDED Viewed

The diff for this file is too large to render. See raw diff

outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_1999/gpu_stats_la.json ADDED Viewed

	@@ -0,0 +1,130 @@

+{
+    "memory_allocated": 968467968,
+    "max_memory_allocated": 3324437504,
+    "memory_reserved": 8910798848,
+    "max_memory_reserved": 8910798848,
+    "memory_stats": {
+        "active.all.allocated": 5810926,
+        "active.all.current": 1234,
+        "active.all.freed": 5809692,
+        "active.all.peak": 1487,
+        "active.large_pool.allocated": 721804,
+        "active.large_pool.current": 284,
+        "active.large_pool.freed": 721520,
+        "active.large_pool.peak": 384,
+        "active.small_pool.allocated": 5089122,
+        "active.small_pool.current": 950,
+        "active.small_pool.freed": 5088172,
+        "active.small_pool.peak": 1200,
+        "active_bytes.all.allocated": 4071282991616,
+        "active_bytes.all.current": 968467968,
+        "active_bytes.all.freed": 4070314523648,
+        "active_bytes.all.peak": 3324437504,
+        "active_bytes.large_pool.allocated": 2927205494272,
+        "active_bytes.large_pool.current": 951277568,
+        "active_bytes.large_pool.freed": 2926254216704,
+        "active_bytes.large_pool.peak": 3240482816,
+        "active_bytes.small_pool.allocated": 1144077497344,
+        "active_bytes.small_pool.current": 17190400,
+        "active_bytes.small_pool.freed": 1144060306944,
+        "active_bytes.small_pool.peak": 114983424,
+        "allocated_bytes.all.allocated": 4071282991616,
+        "allocated_bytes.all.current": 968467968,
+        "allocated_bytes.all.freed": 4070314523648,
+        "allocated_bytes.all.peak": 3324437504,
+        "allocated_bytes.large_pool.allocated": 2927205494272,
+        "allocated_bytes.large_pool.current": 951277568,
+        "allocated_bytes.large_pool.freed": 2926254216704,
+        "allocated_bytes.large_pool.peak": 3240482816,
+        "allocated_bytes.small_pool.allocated": 1144077497344,
+        "allocated_bytes.small_pool.current": 17190400,
+        "allocated_bytes.small_pool.freed": 1144060306944,
+        "allocated_bytes.small_pool.peak": 114983424,
+        "allocation.all.allocated": 5810926,
+        "allocation.all.current": 1234,
+        "allocation.all.freed": 5809692,
+        "allocation.all.peak": 1487,
+        "allocation.large_pool.allocated": 721804,
+        "allocation.large_pool.current": 284,
+        "allocation.large_pool.freed": 721520,
+        "allocation.large_pool.peak": 384,
+        "allocation.small_pool.allocated": 5089122,
+        "allocation.small_pool.current": 950,
+        "allocation.small_pool.freed": 5088172,
+        "allocation.small_pool.peak": 1200,
+        "inactive_split.all.allocated": 2786921,
+        "inactive_split.all.current": 161,
+        "inactive_split.all.freed": 2786760,
+        "inactive_split.all.peak": 228,
+        "inactive_split.large_pool.allocated": 334121,
+        "inactive_split.large_pool.current": 45,
+        "inactive_split.large_pool.freed": 334076,
+        "inactive_split.large_pool.peak": 98,
+        "inactive_split.small_pool.allocated": 2452800,
+        "inactive_split.small_pool.current": 116,
+        "inactive_split.small_pool.freed": 2452684,
+        "inactive_split.small_pool.peak": 193,
+        "inactive_split_bytes.all.allocated": 4080610900992,
+        "inactive_split_bytes.all.current": 147216896,
+        "inactive_split_bytes.all.freed": 4080463684096,
+        "inactive_split_bytes.all.peak": 897244160,
+        "inactive_split_bytes.large_pool.allocated": 2895166959616,
+        "inactive_split_bytes.large_pool.current": 107784192,
+        "inactive_split_bytes.large_pool.freed": 2895059175424,
+        "inactive_split_bytes.large_pool.peak": 860701696,
+        "inactive_split_bytes.small_pool.allocated": 1185443941376,
+        "inactive_split_bytes.small_pool.current": 39432704,
+        "inactive_split_bytes.small_pool.freed": 1185404508672,
+        "inactive_split_bytes.small_pool.peak": 77619712,
+        "max_split_size": -1,
+        "num_alloc_retries": 0,
+        "num_device_alloc": 725,
+        "num_device_free": 382,
+        "num_ooms": 0,
+        "num_sync_all_streams": 3,
+        "oversize_allocations.allocated": 0,
+        "oversize_allocations.current": 0,
+        "oversize_allocations.freed": 0,
+        "oversize_allocations.peak": 0,
+        "oversize_segments.allocated": 0,
+        "oversize_segments.current": 0,
+        "oversize_segments.freed": 0,
+        "oversize_segments.peak": 0,
+        "requested_bytes.all.allocated": 3989728009794,
+        "requested_bytes.all.current": 967046712,
+        "requested_bytes.all.freed": 3988760963082,
+        "requested_bytes.all.peak": 3263085376,
+        "requested_bytes.large_pool.allocated": 2846124109216,
+        "requested_bytes.large_pool.current": 950013448,
+        "requested_bytes.large_pool.freed": 2845174095768,
+        "requested_bytes.large_pool.peak": 3179241096,
+        "requested_bytes.small_pool.allocated": 1143603900578,
+        "requested_bytes.small_pool.current": 17033264,
+        "requested_bytes.small_pool.freed": 1143586867314,
+        "requested_bytes.small_pool.peak": 114852048,
+        "reserved_bytes.all.allocated": 17678991360,
+        "reserved_bytes.all.current": 8910798848,
+        "reserved_bytes.all.freed": 8768192512,
+        "reserved_bytes.all.peak": 8910798848,
+        "reserved_bytes.large_pool.allocated": 17303601152,
+        "reserved_bytes.large_pool.current": 8772386816,
+        "reserved_bytes.large_pool.freed": 8531214336,
+        "reserved_bytes.large_pool.peak": 8772386816,
+        "reserved_bytes.small_pool.allocated": 375390208,
+        "reserved_bytes.small_pool.current": 138412032,
+        "reserved_bytes.small_pool.freed": 236978176,
+        "reserved_bytes.small_pool.peak": 138412032,
+        "segment.all.allocated": 725,
+        "segment.all.current": 343,
+        "segment.all.freed": 382,
+        "segment.all.peak": 343,
+        "segment.large_pool.allocated": 546,
+        "segment.large_pool.current": 277,
+        "segment.large_pool.freed": 269,
+        "segment.large_pool.peak": 277,
+        "segment.small_pool.allocated": 179,
+        "segment.small_pool.current": 66,
+        "segment.small_pool.freed": 113,
+        "segment.small_pool.peak": 66
+    }
+}

outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_3999/all_results_la_kron_all_homo_mc_corr_1000.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"eval_matthews_correlation": 0.5399503104637741}

outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_3999/eval_res_la_kron_all_homo_mc_corr_1000.json ADDED Viewed

The diff for this file is too large to render. See raw diff

outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_3999/gpu_stats_la.json ADDED Viewed

	@@ -0,0 +1,130 @@

+{
+    "memory_allocated": 969647616,
+    "max_memory_allocated": 3324437504,
+    "memory_reserved": 8910798848,
+    "max_memory_reserved": 8910798848,
+    "memory_stats": {
+        "active.all.allocated": 8716463,
+        "active.all.current": 1234,
+        "active.all.freed": 8715229,
+        "active.all.peak": 1487,
+        "active.large_pool.allocated": 1082705,
+        "active.large_pool.current": 284,
+        "active.large_pool.freed": 1082421,
+        "active.large_pool.peak": 482,
+        "active.small_pool.allocated": 7633758,
+        "active.small_pool.current": 950,
+        "active.small_pool.freed": 7632808,
+        "active.small_pool.peak": 1200,
+        "active_bytes.all.allocated": 6107360731136,
+        "active_bytes.all.current": 969647616,
+        "active_bytes.all.freed": 6106391083520,
+        "active_bytes.all.peak": 3324437504,
+        "active_bytes.large_pool.allocated": 4391244445184,
+        "active_bytes.large_pool.current": 952457216,
+        "active_bytes.large_pool.freed": 4390291987968,
+        "active_bytes.large_pool.peak": 3240482816,
+        "active_bytes.small_pool.allocated": 1716116285952,
+        "active_bytes.small_pool.current": 17190400,
+        "active_bytes.small_pool.freed": 1716099095552,
+        "active_bytes.small_pool.peak": 114983424,
+        "allocated_bytes.all.allocated": 6107360731136,
+        "allocated_bytes.all.current": 969647616,
+        "allocated_bytes.all.freed": 6106391083520,
+        "allocated_bytes.all.peak": 3324437504,
+        "allocated_bytes.large_pool.allocated": 4391244445184,
+        "allocated_bytes.large_pool.current": 952457216,
+        "allocated_bytes.large_pool.freed": 4390291987968,
+        "allocated_bytes.large_pool.peak": 3240482816,
+        "allocated_bytes.small_pool.allocated": 1716116285952,
+        "allocated_bytes.small_pool.current": 17190400,
+        "allocated_bytes.small_pool.freed": 1716099095552,
+        "allocated_bytes.small_pool.peak": 114983424,
+        "allocation.all.allocated": 8716463,
+        "allocation.all.current": 1234,
+        "allocation.all.freed": 8715229,
+        "allocation.all.peak": 1487,
+        "allocation.large_pool.allocated": 1082705,
+        "allocation.large_pool.current": 284,
+        "allocation.large_pool.freed": 1082421,
+        "allocation.large_pool.peak": 482,
+        "allocation.small_pool.allocated": 7633758,
+        "allocation.small_pool.current": 950,
+        "allocation.small_pool.freed": 7632808,
+        "allocation.small_pool.peak": 1200,
+        "inactive_split.all.allocated": 4205221,
+        "inactive_split.all.current": 173,
+        "inactive_split.all.freed": 4205048,
+        "inactive_split.all.peak": 228,
+        "inactive_split.large_pool.allocated": 505158,
+        "inactive_split.large_pool.current": 43,
+        "inactive_split.large_pool.freed": 505115,
+        "inactive_split.large_pool.peak": 98,
+        "inactive_split.small_pool.allocated": 3700063,
+        "inactive_split.small_pool.current": 130,
+        "inactive_split.small_pool.freed": 3699933,
+        "inactive_split.small_pool.peak": 193,
+        "inactive_split_bytes.all.allocated": 6091702189568,
+        "inactive_split_bytes.all.current": 150231552,
+        "inactive_split_bytes.all.freed": 6091551958016,
+        "inactive_split_bytes.all.peak": 898161664,
+        "inactive_split_bytes.large_pool.allocated": 4323643853824,
+        "inactive_split_bytes.large_pool.current": 106604544,
+        "inactive_split_bytes.large_pool.freed": 4323537249280,
+        "inactive_split_bytes.large_pool.peak": 860701696,
+        "inactive_split_bytes.small_pool.allocated": 1768058335744,
+        "inactive_split_bytes.small_pool.current": 43627008,
+        "inactive_split_bytes.small_pool.freed": 1768014708736,
+        "inactive_split_bytes.small_pool.peak": 77619712,
+        "max_split_size": -1,
+        "num_alloc_retries": 0,
+        "num_device_alloc": 1087,
+        "num_device_free": 744,
+        "num_ooms": 0,
+        "num_sync_all_streams": 5,
+        "oversize_allocations.allocated": 0,
+        "oversize_allocations.current": 0,
+        "oversize_allocations.freed": 0,
+        "oversize_allocations.peak": 0,
+        "oversize_segments.allocated": 0,
+        "oversize_segments.current": 0,
+        "oversize_segments.freed": 0,
+        "oversize_segments.peak": 0,
+        "requested_bytes.all.allocated": 5984583499565,
+        "requested_bytes.all.current": 967046712,
+        "requested_bytes.all.freed": 5983616452853,
+        "requested_bytes.all.peak": 3263085376,
+        "requested_bytes.large_pool.allocated": 4269177644144,
+        "requested_bytes.large_pool.current": 950013448,
+        "requested_bytes.large_pool.freed": 4268227630696,
+        "requested_bytes.large_pool.peak": 3179241096,
+        "requested_bytes.small_pool.allocated": 1715405855421,
+        "requested_bytes.small_pool.current": 17033264,
+        "requested_bytes.small_pool.freed": 1715388822157,
+        "requested_bytes.small_pool.peak": 114852048,
+        "reserved_bytes.all.allocated": 26742882304,
+        "reserved_bytes.all.current": 8910798848,
+        "reserved_bytes.all.freed": 17832083456,
+        "reserved_bytes.all.peak": 8910798848,
+        "reserved_bytes.large_pool.allocated": 26201817088,
+        "reserved_bytes.large_pool.current": 8772386816,
+        "reserved_bytes.large_pool.freed": 17429430272,
+        "reserved_bytes.large_pool.peak": 8772386816,
+        "reserved_bytes.small_pool.allocated": 541065216,
+        "reserved_bytes.small_pool.current": 138412032,
+        "reserved_bytes.small_pool.freed": 402653184,
+        "reserved_bytes.small_pool.peak": 138412032,
+        "segment.all.allocated": 1087,
+        "segment.all.current": 343,
+        "segment.all.freed": 744,
+        "segment.all.peak": 343,
+        "segment.large_pool.allocated": 829,
+        "segment.large_pool.current": 277,
+        "segment.large_pool.freed": 552,
+        "segment.large_pool.peak": 277,
+        "segment.small_pool.allocated": 258,
+        "segment.small_pool.current": 66,
+        "segment.small_pool.freed": 192,
+        "segment.small_pool.peak": 66
+    }
+}

outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_5999/all_results_la_kron_all_homo_mc_corr_1000.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"eval_matthews_correlation": 0.5127103010689016}

outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_5999/eval_res_la_kron_all_homo_mc_corr_1000.json ADDED Viewed

The diff for this file is too large to render. See raw diff

outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_5999/gpu_stats_la.json ADDED Viewed

	@@ -0,0 +1,130 @@

+{
+    "memory_allocated": 969735680,
+    "max_memory_allocated": 3324437504,
+    "memory_reserved": 8914993152,
+    "max_memory_reserved": 8914993152,
+    "memory_stats": {
+        "active.all.allocated": 11622050,
+        "active.all.current": 1234,
+        "active.all.freed": 11620816,
+        "active.all.peak": 1487,
+        "active.large_pool.allocated": 1443606,
+        "active.large_pool.current": 284,
+        "active.large_pool.freed": 1443322,
+        "active.large_pool.peak": 482,
+        "active.small_pool.allocated": 10178444,
+        "active.small_pool.current": 950,
+        "active.small_pool.freed": 10177494,
+        "active.small_pool.peak": 1200,
+        "active_bytes.all.allocated": 8142390843904,
+        "active_bytes.all.current": 969735680,
+        "active_bytes.all.freed": 8141421108224,
+        "active_bytes.all.peak": 3324437504,
+        "active_bytes.large_pool.allocated": 5854235742720,
+        "active_bytes.large_pool.current": 952545280,
+        "active_bytes.large_pool.freed": 5853283197440,
+        "active_bytes.large_pool.peak": 3240482816,
+        "active_bytes.small_pool.allocated": 2288155101184,
+        "active_bytes.small_pool.current": 17190400,
+        "active_bytes.small_pool.freed": 2288137910784,
+        "active_bytes.small_pool.peak": 114983424,
+        "allocated_bytes.all.allocated": 8142390843904,
+        "allocated_bytes.all.current": 969735680,
+        "allocated_bytes.all.freed": 8141421108224,
+        "allocated_bytes.all.peak": 3324437504,
+        "allocated_bytes.large_pool.allocated": 5854235742720,
+        "allocated_bytes.large_pool.current": 952545280,
+        "allocated_bytes.large_pool.freed": 5853283197440,
+        "allocated_bytes.large_pool.peak": 3240482816,
+        "allocated_bytes.small_pool.allocated": 2288155101184,
+        "allocated_bytes.small_pool.current": 17190400,
+        "allocated_bytes.small_pool.freed": 2288137910784,
+        "allocated_bytes.small_pool.peak": 114983424,
+        "allocation.all.allocated": 11622050,
+        "allocation.all.current": 1234,
+        "allocation.all.freed": 11620816,
+        "allocation.all.peak": 1487,
+        "allocation.large_pool.allocated": 1443606,
+        "allocation.large_pool.current": 284,
+        "allocation.large_pool.freed": 1443322,
+        "allocation.large_pool.peak": 482,
+        "allocation.small_pool.allocated": 10178444,
+        "allocation.small_pool.current": 950,
+        "allocation.small_pool.freed": 10177494,
+        "allocation.small_pool.peak": 1200,
+        "inactive_split.all.allocated": 5657934,
+        "inactive_split.all.current": 179,
+        "inactive_split.all.freed": 5657755,
+        "inactive_split.all.peak": 260,
+        "inactive_split.large_pool.allocated": 678637,
+        "inactive_split.large_pool.current": 43,
+        "inactive_split.large_pool.freed": 678594,
+        "inactive_split.large_pool.peak": 98,
+        "inactive_split.small_pool.allocated": 4979297,
+        "inactive_split.small_pool.current": 136,
+        "inactive_split.small_pool.freed": 4979161,
+        "inactive_split.small_pool.peak": 223,
+        "inactive_split_bytes.all.allocated": 8082423126528,
+        "inactive_split_bytes.all.current": 148046336,
+        "inactive_split_bytes.all.freed": 8082275080192,
+        "inactive_split_bytes.all.peak": 900170752,
+        "inactive_split_bytes.large_pool.allocated": 5729011654656,
+        "inactive_split_bytes.large_pool.current": 106516480,
+        "inactive_split_bytes.large_pool.freed": 5728905138176,
+        "inactive_split_bytes.large_pool.peak": 860701696,
+        "inactive_split_bytes.small_pool.allocated": 2353411471872,
+        "inactive_split_bytes.small_pool.current": 41529856,
+        "inactive_split_bytes.small_pool.freed": 2353369942016,
+        "inactive_split_bytes.small_pool.peak": 77619712,
+        "max_split_size": -1,
+        "num_alloc_retries": 0,
+        "num_device_alloc": 1459,
+        "num_device_free": 1114,
+        "num_ooms": 0,
+        "num_sync_all_streams": 7,
+        "oversize_allocations.allocated": 0,
+        "oversize_allocations.current": 0,
+        "oversize_allocations.freed": 0,
+        "oversize_allocations.peak": 0,
+        "oversize_segments.allocated": 0,
+        "oversize_segments.current": 0,
+        "oversize_segments.freed": 0,
+        "oversize_segments.peak": 0,
+        "requested_bytes.all.allocated": 7979438992372,
+        "requested_bytes.all.current": 967046712,
+        "requested_bytes.all.freed": 7978471945660,
+        "requested_bytes.all.peak": 3263085376,
+        "requested_bytes.large_pool.allocated": 5692231179072,
+        "requested_bytes.large_pool.current": 950013448,
+        "requested_bytes.large_pool.freed": 5691281165624,
+        "requested_bytes.large_pool.peak": 3179241096,
+        "requested_bytes.small_pool.allocated": 2287207813300,
+        "requested_bytes.small_pool.current": 17033264,
+        "requested_bytes.small_pool.freed": 2287190780036,
+        "requested_bytes.small_pool.peak": 114852048,
+        "reserved_bytes.all.allocated": 35846619136,
+        "reserved_bytes.all.current": 8914993152,
+        "reserved_bytes.all.freed": 26931625984,
+        "reserved_bytes.all.peak": 8914993152,
+        "reserved_bytes.large_pool.allocated": 35121004544,
+        "reserved_bytes.large_pool.current": 8772386816,
+        "reserved_bytes.large_pool.freed": 26348617728,
+        "reserved_bytes.large_pool.peak": 8772386816,
+        "reserved_bytes.small_pool.allocated": 725614592,
+        "reserved_bytes.small_pool.current": 142606336,
+        "reserved_bytes.small_pool.freed": 583008256,
+        "reserved_bytes.small_pool.peak": 142606336,
+        "segment.all.allocated": 1459,
+        "segment.all.current": 345,
+        "segment.all.freed": 1114,
+        "segment.all.peak": 345,
+        "segment.large_pool.allocated": 1113,
+        "segment.large_pool.current": 277,
+        "segment.large_pool.freed": 836,
+        "segment.large_pool.peak": 277,
+        "segment.small_pool.allocated": 346,
+        "segment.small_pool.current": 68,
+        "segment.small_pool.freed": 278,
+        "segment.small_pool.peak": 68
+    }
+}

outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_7999/all_results_la_kron_all_homo_mc_corr_1000.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"eval_matthews_correlation": 0.5327637463001902}

outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_7999/eval_res_la_kron_all_homo_mc_corr_1000.json ADDED Viewed

The diff for this file is too large to render. See raw diff

outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_7999/gpu_stats_la.json ADDED Viewed

	@@ -0,0 +1,130 @@

+{
+    "memory_allocated": 968467968,
+    "max_memory_allocated": 3324437504,
+    "memory_reserved": 8910798848,
+    "max_memory_reserved": 8914993152,
+    "memory_stats": {
+        "active.all.allocated": 14527687,
+        "active.all.current": 1234,
+        "active.all.freed": 14526453,
+        "active.all.peak": 1487,
+        "active.large_pool.allocated": 1804507,
+        "active.large_pool.current": 284,
+        "active.large_pool.freed": 1804223,
+        "active.large_pool.peak": 482,
+        "active.small_pool.allocated": 12723180,
+        "active.small_pool.current": 950,
+        "active.small_pool.freed": 12722230,
+        "active.small_pool.peak": 1200,
+        "active_bytes.all.allocated": 10177284875776,
+        "active_bytes.all.current": 968467968,
+        "active_bytes.all.freed": 10176316407808,
+        "active_bytes.all.peak": 3324437504,
+        "active_bytes.large_pool.allocated": 7317090932736,
+        "active_bytes.large_pool.current": 951277568,
+        "active_bytes.large_pool.freed": 7316139655168,
+        "active_bytes.large_pool.peak": 3240482816,
+        "active_bytes.small_pool.allocated": 2860193943040,
+        "active_bytes.small_pool.current": 17190400,
+        "active_bytes.small_pool.freed": 2860176752640,
+        "active_bytes.small_pool.peak": 114983424,
+        "allocated_bytes.all.allocated": 10177284875776,
+        "allocated_bytes.all.current": 968467968,
+        "allocated_bytes.all.freed": 10176316407808,
+        "allocated_bytes.all.peak": 3324437504,
+        "allocated_bytes.large_pool.allocated": 7317090932736,
+        "allocated_bytes.large_pool.current": 951277568,
+        "allocated_bytes.large_pool.freed": 7316139655168,
+        "allocated_bytes.large_pool.peak": 3240482816,
+        "allocated_bytes.small_pool.allocated": 2860193943040,
+        "allocated_bytes.small_pool.current": 17190400,
+        "allocated_bytes.small_pool.freed": 2860176752640,
+        "allocated_bytes.small_pool.peak": 114983424,
+        "allocation.all.allocated": 14527687,
+        "allocation.all.current": 1234,
+        "allocation.all.freed": 14526453,
+        "allocation.all.peak": 1487,
+        "allocation.large_pool.allocated": 1804507,
+        "allocation.large_pool.current": 284,
+        "allocation.large_pool.freed": 1804223,
+        "allocation.large_pool.peak": 482,
+        "allocation.small_pool.allocated": 12723180,
+        "allocation.small_pool.current": 950,
+        "allocation.small_pool.freed": 12722230,
+        "allocation.small_pool.peak": 1200,
+        "inactive_split.all.allocated": 7000582,
+        "inactive_split.all.current": 163,
+        "inactive_split.all.freed": 7000419,
+        "inactive_split.all.peak": 286,
+        "inactive_split.large_pool.allocated": 845816,
+        "inactive_split.large_pool.current": 45,
+        "inactive_split.large_pool.freed": 845771,
+        "inactive_split.large_pool.peak": 98,
+        "inactive_split.small_pool.allocated": 6154766,
+        "inactive_split.small_pool.current": 118,
+        "inactive_split.small_pool.freed": 6154648,
+        "inactive_split.small_pool.peak": 247,
+        "inactive_split_bytes.all.allocated": 10120438529536,
+        "inactive_split_bytes.all.current": 147216896,
+        "inactive_split_bytes.all.freed": 10120291312640,
+        "inactive_split_bytes.all.peak": 900170752,
+        "inactive_split_bytes.large_pool.allocated": 7173797017600,
+        "inactive_split_bytes.large_pool.current": 107784192,
+        "inactive_split_bytes.large_pool.freed": 7173689233408,
+        "inactive_split_bytes.large_pool.peak": 860701696,
+        "inactive_split_bytes.small_pool.allocated": 2946641511936,
+        "inactive_split_bytes.small_pool.current": 39432704,
+        "inactive_split_bytes.small_pool.freed": 2946602079232,
+        "inactive_split_bytes.small_pool.peak": 77619712,
+        "max_split_size": -1,
+        "num_alloc_retries": 0,
+        "num_device_alloc": 1798,
+        "num_device_free": 1455,
+        "num_ooms": 0,
+        "num_sync_all_streams": 9,
+        "oversize_allocations.allocated": 0,
+        "oversize_allocations.current": 0,
+        "oversize_allocations.freed": 0,
+        "oversize_allocations.peak": 0,
+        "oversize_segments.allocated": 0,
+        "oversize_segments.current": 0,
+        "oversize_segments.freed": 0,
+        "oversize_segments.peak": 0,
+        "requested_bytes.all.allocated": 9974294488215,
+        "requested_bytes.all.current": 967046712,
+        "requested_bytes.all.freed": 9973327441503,
+        "requested_bytes.all.peak": 3263085376,
+        "requested_bytes.large_pool.allocated": 7115284714000,
+        "requested_bytes.large_pool.current": 950013448,
+        "requested_bytes.large_pool.freed": 7114334700552,
+        "requested_bytes.large_pool.peak": 3179241096,
+        "requested_bytes.small_pool.allocated": 2859009774215,
+        "requested_bytes.small_pool.current": 17033264,
+        "requested_bytes.small_pool.freed": 2858992740951,
+        "requested_bytes.small_pool.peak": 114852048,
+        "reserved_bytes.all.allocated": 44317016064,
+        "reserved_bytes.all.current": 8910798848,
+        "reserved_bytes.all.freed": 35406217216,
+        "reserved_bytes.all.peak": 8914993152,
+        "reserved_bytes.large_pool.allocated": 43421532160,
+        "reserved_bytes.large_pool.current": 8772386816,
+        "reserved_bytes.large_pool.freed": 34649145344,
+        "reserved_bytes.large_pool.peak": 8772386816,
+        "reserved_bytes.small_pool.allocated": 895483904,
+        "reserved_bytes.small_pool.current": 138412032,
+        "reserved_bytes.small_pool.freed": 757071872,
+        "reserved_bytes.small_pool.peak": 142606336,
+        "segment.all.allocated": 1798,
+        "segment.all.current": 343,
+        "segment.all.freed": 1455,
+        "segment.all.peak": 345,
+        "segment.large_pool.allocated": 1371,
+        "segment.large_pool.current": 277,
+        "segment.large_pool.freed": 1094,
+        "segment.large_pool.peak": 277,
+        "segment.small_pool.allocated": 427,
+        "segment.small_pool.current": 66,
+        "segment.small_pool.freed": 361,
+        "segment.small_pool.peak": 68
+    }
+}

outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_9999/all_results_la_kron_all_homo_mc_corr_1000.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"eval_matthews_correlation": 0.5226700639354173}

outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_9999/eval_res_la_kron_all_homo_mc_corr_1000.json ADDED Viewed

The diff for this file is too large to render. See raw diff

outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_12345_8_10000/step_9999/gpu_stats_la.json ADDED Viewed

	@@ -0,0 +1,130 @@

+{
+    "memory_allocated": 969647616,
+    "max_memory_allocated": 3324437504,
+    "memory_reserved": 8914993152,
+    "max_memory_reserved": 8914993152,
+    "memory_stats": {
+        "active.all.allocated": 17433374,
+        "active.all.current": 1234,
+        "active.all.freed": 17432140,
+        "active.all.peak": 1487,
+        "active.large_pool.allocated": 2165408,
+        "active.large_pool.current": 284,
+        "active.large_pool.freed": 2165124,
+        "active.large_pool.peak": 482,
+        "active.small_pool.allocated": 15267966,
+        "active.small_pool.current": 950,
+        "active.small_pool.freed": 15267016,
+        "active.small_pool.peak": 1200,
+        "active_bytes.all.allocated": 12213042263040,
+        "active_bytes.all.current": 969647616,
+        "active_bytes.all.freed": 12212072615424,
+        "active_bytes.all.peak": 3324437504,
+        "active_bytes.large_pool.allocated": 8780809451520,
+        "active_bytes.large_pool.current": 952457216,
+        "active_bytes.large_pool.freed": 8779856994304,
+        "active_bytes.large_pool.peak": 3240482816,
+        "active_bytes.small_pool.allocated": 3432232811520,
+        "active_bytes.small_pool.current": 17190400,
+        "active_bytes.small_pool.freed": 3432215621120,
+        "active_bytes.small_pool.peak": 114983424,
+        "allocated_bytes.all.allocated": 12213042263040,
+        "allocated_bytes.all.current": 969647616,
+        "allocated_bytes.all.freed": 12212072615424,
+        "allocated_bytes.all.peak": 3324437504,
+        "allocated_bytes.large_pool.allocated": 8780809451520,
+        "allocated_bytes.large_pool.current": 952457216,
+        "allocated_bytes.large_pool.freed": 8779856994304,
+        "allocated_bytes.large_pool.peak": 3240482816,
+        "allocated_bytes.small_pool.allocated": 3432232811520,
+        "allocated_bytes.small_pool.current": 17190400,
+        "allocated_bytes.small_pool.freed": 3432215621120,
+        "allocated_bytes.small_pool.peak": 114983424,
+        "allocation.all.allocated": 17433374,
+        "allocation.all.current": 1234,
+        "allocation.all.freed": 17432140,
+        "allocation.all.peak": 1487,
+        "allocation.large_pool.allocated": 2165408,
+        "allocation.large_pool.current": 284,
+        "allocation.large_pool.freed": 2165124,
+        "allocation.large_pool.peak": 482,
+        "allocation.small_pool.allocated": 15267966,
+        "allocation.small_pool.current": 950,
+        "allocation.small_pool.freed": 15267016,
+        "allocation.small_pool.peak": 1200,
+        "inactive_split.all.allocated": 8443535,
+        "inactive_split.all.current": 173,
+        "inactive_split.all.freed": 8443362,
+        "inactive_split.all.peak": 286,
+        "inactive_split.large_pool.allocated": 1015117,
+        "inactive_split.large_pool.current": 43,
+        "inactive_split.large_pool.freed": 1015074,
+        "inactive_split.large_pool.peak": 102,
+        "inactive_split.small_pool.allocated": 7428418,
+        "inactive_split.small_pool.current": 130,
+        "inactive_split.small_pool.freed": 7428288,
+        "inactive_split.small_pool.peak": 247,
+        "inactive_split_bytes.all.allocated": 12134537098240,
+        "inactive_split_bytes.all.current": 152328704,
+        "inactive_split_bytes.all.freed": 12134384769536,
+        "inactive_split_bytes.all.peak": 900170752,
+        "inactive_split_bytes.large_pool.allocated": 8605136866304,
+        "inactive_split_bytes.large_pool.current": 106604544,
+        "inactive_split_bytes.large_pool.freed": 8605030261760,
+        "inactive_split_bytes.large_pool.peak": 860701696,
+        "inactive_split_bytes.small_pool.allocated": 3529400231936,
+        "inactive_split_bytes.small_pool.current": 45724160,
+        "inactive_split_bytes.small_pool.freed": 3529354507776,
+        "inactive_split_bytes.small_pool.peak": 77619712,
+        "max_split_size": -1,
+        "num_alloc_retries": 0,
+        "num_device_alloc": 2166,
+        "num_device_free": 1821,
+        "num_ooms": 0,
+        "num_sync_all_streams": 11,
+        "oversize_allocations.allocated": 0,
+        "oversize_allocations.current": 0,
+        "oversize_allocations.freed": 0,
+        "oversize_allocations.peak": 0,
+        "oversize_segments.allocated": 0,
+        "oversize_segments.current": 0,
+        "oversize_segments.freed": 0,
+        "oversize_segments.peak": 0,
+        "requested_bytes.all.allocated": 11969149987094,
+        "requested_bytes.all.current": 967046712,
+        "requested_bytes.all.freed": 11968182940382,
+        "requested_bytes.all.peak": 3263085376,
+        "requested_bytes.large_pool.allocated": 8538338248928,
+        "requested_bytes.large_pool.current": 950013448,
+        "requested_bytes.large_pool.freed": 8537388235480,
+        "requested_bytes.large_pool.peak": 3179241096,
+        "requested_bytes.small_pool.allocated": 3430811738166,
+        "requested_bytes.small_pool.current": 17033264,
+        "requested_bytes.small_pool.freed": 3430794704902,
+        "requested_bytes.small_pool.peak": 114852048,
+        "reserved_bytes.all.allocated": 53393489920,
+        "reserved_bytes.all.current": 8914993152,
+        "reserved_bytes.all.freed": 44478496768,
+        "reserved_bytes.all.peak": 8914993152,
+        "reserved_bytes.large_pool.allocated": 52319748096,
+        "reserved_bytes.large_pool.current": 8772386816,
+        "reserved_bytes.large_pool.freed": 43547361280,
+        "reserved_bytes.large_pool.peak": 8772386816,
+        "reserved_bytes.small_pool.allocated": 1073741824,
+        "reserved_bytes.small_pool.current": 142606336,
+        "reserved_bytes.small_pool.freed": 931135488,
+        "reserved_bytes.small_pool.peak": 142606336,
+        "segment.all.allocated": 2166,
+        "segment.all.current": 345,
+        "segment.all.freed": 1821,
+        "segment.all.peak": 345,
+        "segment.large_pool.allocated": 1654,
+        "segment.large_pool.current": 277,
+        "segment.large_pool.freed": 1377,
+        "segment.large_pool.peak": 277,
+        "segment.small_pool.allocated": 512,
+        "segment.small_pool.current": 68,
+        "segment.small_pool.freed": 444,
+        "segment.small_pool.peak": 68
+    }
+}

outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/logfile_la.log ADDED Viewed

	@@ -0,0 +1,846 @@

+06/02/2024 00:01:55 - INFO - __main__ -  Number of labels detected = 2
+06/02/2024 00:01:56 - INFO - adapters.heads.model_mixin - Adding head 'default' with config {'head_type': 'masked_lm', 'vocab_size': 30522, 'embedding_size': 768, 'layers': 2, 'activation_function': 'gelu', 'layer_norm': True, 'bias': True, 'shift_labels': False, 'label2id': None}.
+06/02/2024 00:01:57 - INFO - adapters.loading - Loading module configuration from ./outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_0/adapter_config.json
+06/02/2024 00:01:57 - INFO - adapters.configuration.model_adapters_config - Adding adapter 'cola'.
+06/02/2024 00:01:57 - INFO - adapters.loading - Loading module weights from ./outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_0/pytorch_adapter.bin
+06/02/2024 00:01:57 - INFO - adapters.loading - Loading module configuration from ./outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_0/head_config.json
+06/02/2024 00:01:57 - INFO - adapters.heads.model_mixin - Adding head 'cola' with config {'head_type': 'classification', 'num_labels': 2, 'layers': 2, 'activation_function': 'tanh', 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'use_pooler': False, 'bias': True, 'dropout_prob': None}.
+06/02/2024 00:01:57 - INFO - adapters.loading - Loading module weights from ./outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_0/pytorch_model_head.bin
+06/02/2024 00:01:57 - INFO - __main__ - Adapter Name = cola
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.0.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.0.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.0.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.0.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.0.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.0.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.0.output.adapters.cola.adapter_up.weight
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.0.output.adapters.cola.adapter_up.bias
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.1.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.1.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.1.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.1.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.1.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.1.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.1.output.adapters.cola.adapter_up.weight
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.1.output.adapters.cola.adapter_up.bias
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.2.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.2.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.2.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.2.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.2.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.2.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.2.output.adapters.cola.adapter_up.weight
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.2.output.adapters.cola.adapter_up.bias
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.3.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.3.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.3.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.3.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.3.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.3.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.3.output.adapters.cola.adapter_up.weight
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.3.output.adapters.cola.adapter_up.bias
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.4.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.4.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.4.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.4.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.4.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.4.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.4.output.adapters.cola.adapter_up.weight
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.4.output.adapters.cola.adapter_up.bias
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.5.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.5.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.5.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.5.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.5.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.5.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.5.output.adapters.cola.adapter_up.weight
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.5.output.adapters.cola.adapter_up.bias
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.6.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.6.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.6.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.6.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.6.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.6.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.6.output.adapters.cola.adapter_up.weight
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.6.output.adapters.cola.adapter_up.bias
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.7.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.7.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.7.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.7.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.7.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.7.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.7.output.adapters.cola.adapter_up.weight
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.7.output.adapters.cola.adapter_up.bias
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.8.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.8.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.8.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.8.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.8.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.8.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.8.output.adapters.cola.adapter_up.weight
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.8.output.adapters.cola.adapter_up.bias
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.9.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.9.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.9.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.9.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.9.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.9.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.9.output.adapters.cola.adapter_up.weight
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.9.output.adapters.cola.adapter_up.bias
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.10.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.10.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.10.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.10.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.10.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.10.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.10.output.adapters.cola.adapter_up.weight
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.10.output.adapters.cola.adapter_up.bias
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.11.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.11.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.11.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.11.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.11.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.11.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.11.output.adapters.cola.adapter_up.weight
+06/02/2024 00:01:57 - INFO - __main__ - bert.encoder.layer.11.output.adapters.cola.adapter_up.bias
+06/02/2024 00:01:57 - INFO - __main__ - heads.cola.1.weight
+06/02/2024 00:01:57 - INFO - __main__ - heads.cola.1.bias
+06/02/2024 00:01:57 - INFO - __main__ - heads.cola.4.weight
+06/02/2024 00:01:57 - INFO - __main__ - heads.cola.4.bias
+06/02/2024 00:01:58 - INFO - __main__ - Sample 5238 of the training set: {'input_ids': [101, 2009, 1005, 1055, 2986, 2008, 2002, 3825, 1998, 17806, 1010, 2021, 1045, 2123, 1005, 1056, 2428, 2729, 2055, 2010, 15531, 1010, 2030, 1996, 2769, 1010, 2030, 2505, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': 1}.
+06/02/2024 00:01:58 - INFO - __main__ - Sample 912 of the training set: {'input_ids': [101, 1045, 2113, 2029, 2338, 23848, 3191, 1010, 1998, 2029, 2338, 3960, 2356, 2339, 2017, 2910, 1005, 1056, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': 0}.
+06/02/2024 00:01:58 - INFO - __main__ - Sample 204 of the training set: {'input_ids': [101, 1996, 26108, 2002, 4152, 1010, 1996, 2062, 2198, 6010, 11067, 2229, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': 0}.
+06/02/2024 00:07:01 - INFO - __main__ - f_mu shape : torch.Size([1043, 2])
+06/02/2024 00:07:01 - INFO - __main__ - f_var shape :  torch.Size([1043, 2, 2])
+06/02/2024 00:07:01 - INFO - __main__ - tensor([[ 0.0687,  0.1107],
+        [ 0.1065,  0.1546],
+        [ 0.1252,  0.1252],
+        ...,
+        [ 0.0203,  0.1087],
+        [ 0.0962,  0.1235],
+        [ 0.0511, -0.0174]], device='cuda:0')
+06/02/2024 00:07:01 - INFO - __main__ - tensor([[[12.5866, 12.3973],
+         [12.3973, 12.5533]],
+        [[11.7669, 11.4376],
+         [11.4376, 11.7918]],
+        [[11.8492, 11.6148],
+         [11.6148, 11.8600]],
+        ...,
+        [[13.4014, 13.0880],
+         [13.0880, 13.4134]],
+        [[11.4929, 11.3232],
+         [11.3232, 11.5001]],
+        [[11.7616, 11.5308],
+         [11.5308, 11.7491]]], device='cuda:0')
+06/02/2024 00:07:01 - INFO - __main__ - ***** Completed training *****
+06/02/2024 00:07:05 - INFO - __main__ -  Number of labels detected = 2
+06/02/2024 00:07:05 - INFO - adapters.heads.model_mixin - Adding head 'default' with config {'head_type': 'masked_lm', 'vocab_size': 30522, 'embedding_size': 768, 'layers': 2, 'activation_function': 'gelu', 'layer_norm': True, 'bias': True, 'shift_labels': False, 'label2id': None}.
+06/02/2024 00:07:06 - INFO - adapters.loading - Loading module configuration from ./outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_1999/adapter_config.json
+06/02/2024 00:07:06 - INFO - adapters.configuration.model_adapters_config - Adding adapter 'cola'.
+06/02/2024 00:07:06 - INFO - adapters.loading - Loading module weights from ./outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_1999/pytorch_adapter.bin
+06/02/2024 00:07:06 - INFO - adapters.loading - Loading module configuration from ./outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_1999/head_config.json
+06/02/2024 00:07:06 - INFO - adapters.heads.model_mixin - Adding head 'cola' with config {'head_type': 'classification', 'num_labels': 2, 'layers': 2, 'activation_function': 'tanh', 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'use_pooler': False, 'bias': True, 'dropout_prob': None}.
+06/02/2024 00:07:06 - INFO - adapters.loading - Loading module weights from ./outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_1999/pytorch_model_head.bin
+06/02/2024 00:07:06 - INFO - __main__ - Adapter Name = cola
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.0.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.0.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.0.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.0.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.0.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.0.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.0.output.adapters.cola.adapter_up.weight
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.0.output.adapters.cola.adapter_up.bias
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.1.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.1.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.1.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.1.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.1.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.1.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.1.output.adapters.cola.adapter_up.weight
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.1.output.adapters.cola.adapter_up.bias
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.2.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.2.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.2.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.2.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.2.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.2.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.2.output.adapters.cola.adapter_up.weight
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.2.output.adapters.cola.adapter_up.bias
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.3.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.3.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.3.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.3.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.3.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.3.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.3.output.adapters.cola.adapter_up.weight
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.3.output.adapters.cola.adapter_up.bias
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.4.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.4.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.4.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.4.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.4.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.4.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.4.output.adapters.cola.adapter_up.weight
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.4.output.adapters.cola.adapter_up.bias
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.5.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.5.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.5.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.5.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.5.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.5.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.5.output.adapters.cola.adapter_up.weight
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.5.output.adapters.cola.adapter_up.bias
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.6.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.6.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.6.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.6.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.6.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.6.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.6.output.adapters.cola.adapter_up.weight
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.6.output.adapters.cola.adapter_up.bias
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.7.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.7.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.7.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.7.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.7.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.7.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.7.output.adapters.cola.adapter_up.weight
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.7.output.adapters.cola.adapter_up.bias
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.8.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.8.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.8.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.8.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.8.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.8.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.8.output.adapters.cola.adapter_up.weight
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.8.output.adapters.cola.adapter_up.bias
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.9.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.9.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.9.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.9.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.9.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.9.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.9.output.adapters.cola.adapter_up.weight
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.9.output.adapters.cola.adapter_up.bias
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.10.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.10.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.10.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.10.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.10.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.10.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.10.output.adapters.cola.adapter_up.weight
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.10.output.adapters.cola.adapter_up.bias
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.11.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.11.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.11.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.11.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.11.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.11.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.11.output.adapters.cola.adapter_up.weight
+06/02/2024 00:07:06 - INFO - __main__ - bert.encoder.layer.11.output.adapters.cola.adapter_up.bias
+06/02/2024 00:07:06 - INFO - __main__ - heads.cola.1.weight
+06/02/2024 00:07:06 - INFO - __main__ - heads.cola.1.bias
+06/02/2024 00:07:06 - INFO - __main__ - heads.cola.4.weight
+06/02/2024 00:07:06 - INFO - __main__ - heads.cola.4.bias
+06/02/2024 00:07:07 - INFO - __main__ - Sample 5238 of the training set: {'input_ids': [101, 2009, 1005, 1055, 2986, 2008, 2002, 3825, 1998, 17806, 1010, 2021, 1045, 2123, 1005, 1056, 2428, 2729, 2055, 2010, 15531, 1010, 2030, 1996, 2769, 1010, 2030, 2505, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': 1}.
+06/02/2024 00:07:07 - INFO - __main__ - Sample 912 of the training set: {'input_ids': [101, 1045, 2113, 2029, 2338, 23848, 3191, 1010, 1998, 2029, 2338, 3960, 2356, 2339, 2017, 2910, 1005, 1056, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': 0}.
+06/02/2024 00:07:07 - INFO - __main__ - Sample 204 of the training set: {'input_ids': [101, 1996, 26108, 2002, 4152, 1010, 1996, 2062, 2198, 6010, 11067, 2229, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': 0}.
+06/02/2024 00:12:15 - INFO - __main__ - f_mu shape : torch.Size([1043, 2])
+06/02/2024 00:12:15 - INFO - __main__ - f_var shape :  torch.Size([1043, 2, 2])
+06/02/2024 00:12:15 - INFO - __main__ - tensor([[-1.6485,  2.0073],
+        [-1.4895,  1.9543],
+        [-0.8011,  1.1930],
+        ...,
+        [-2.4070,  2.6930],
+        [ 0.0670,  0.1763],
+        [-0.8631,  1.0701]], device='cuda:0')
+06/02/2024 00:12:15 - INFO - __main__ - tensor([[[ 4.6435,  0.9781],
+         [ 0.9781,  4.6696]],
+        [[ 3.1061,  1.7478],
+         [ 1.7478,  3.1230]],
+        [[ 2.7134,  1.0829],
+         [ 1.0829,  2.8030]],
+        ...,
+        [[ 4.3186,  3.3896],
+         [ 3.3896,  4.2989]],
+        [[ 2.5481,  0.3680],
+         [ 0.3680,  2.8497]],
+        [[ 3.6499, -0.1064],
+         [-0.1064,  3.7341]]], device='cuda:0')
+06/02/2024 00:12:15 - INFO - __main__ - ***** Completed training *****
+06/02/2024 00:12:17 - INFO - __main__ -  Number of labels detected = 2
+06/02/2024 00:12:18 - INFO - adapters.heads.model_mixin - Adding head 'default' with config {'head_type': 'masked_lm', 'vocab_size': 30522, 'embedding_size': 768, 'layers': 2, 'activation_function': 'gelu', 'layer_norm': True, 'bias': True, 'shift_labels': False, 'label2id': None}.
+06/02/2024 00:12:18 - INFO - adapters.loading - Loading module configuration from ./outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_3999/adapter_config.json
+06/02/2024 00:12:18 - INFO - adapters.configuration.model_adapters_config - Adding adapter 'cola'.
+06/02/2024 00:12:18 - INFO - adapters.loading - Loading module weights from ./outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_3999/pytorch_adapter.bin
+06/02/2024 00:12:18 - INFO - adapters.loading - Loading module configuration from ./outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_3999/head_config.json
+06/02/2024 00:12:18 - INFO - adapters.heads.model_mixin - Adding head 'cola' with config {'head_type': 'classification', 'num_labels': 2, 'layers': 2, 'activation_function': 'tanh', 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'use_pooler': False, 'bias': True, 'dropout_prob': None}.
+06/02/2024 00:12:18 - INFO - adapters.loading - Loading module weights from ./outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_3999/pytorch_model_head.bin
+06/02/2024 00:12:18 - INFO - __main__ - Adapter Name = cola
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.0.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.0.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.0.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.0.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.0.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.0.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.0.output.adapters.cola.adapter_up.weight
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.0.output.adapters.cola.adapter_up.bias
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.1.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.1.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.1.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.1.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.1.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.1.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.1.output.adapters.cola.adapter_up.weight
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.1.output.adapters.cola.adapter_up.bias
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.2.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.2.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.2.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.2.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.2.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.2.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.2.output.adapters.cola.adapter_up.weight
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.2.output.adapters.cola.adapter_up.bias
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.3.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.3.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.3.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.3.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.3.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.3.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.3.output.adapters.cola.adapter_up.weight
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.3.output.adapters.cola.adapter_up.bias
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.4.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.4.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.4.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.4.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.4.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.4.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.4.output.adapters.cola.adapter_up.weight
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.4.output.adapters.cola.adapter_up.bias
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.5.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.5.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.5.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.5.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.5.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.5.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.5.output.adapters.cola.adapter_up.weight
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.5.output.adapters.cola.adapter_up.bias
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.6.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.6.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.6.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.6.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.6.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.6.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.6.output.adapters.cola.adapter_up.weight
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.6.output.adapters.cola.adapter_up.bias
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.7.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.7.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.7.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.7.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.7.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.7.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.7.output.adapters.cola.adapter_up.weight
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.7.output.adapters.cola.adapter_up.bias
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.8.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.8.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.8.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.8.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.8.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.8.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.8.output.adapters.cola.adapter_up.weight
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.8.output.adapters.cola.adapter_up.bias
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.9.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.9.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.9.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.9.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.9.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.9.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.9.output.adapters.cola.adapter_up.weight
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.9.output.adapters.cola.adapter_up.bias
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.10.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.10.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.10.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.10.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.10.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.10.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.10.output.adapters.cola.adapter_up.weight
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.10.output.adapters.cola.adapter_up.bias
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.11.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.11.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.11.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.11.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.11.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.11.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.11.output.adapters.cola.adapter_up.weight
+06/02/2024 00:12:18 - INFO - __main__ - bert.encoder.layer.11.output.adapters.cola.adapter_up.bias
+06/02/2024 00:12:18 - INFO - __main__ - heads.cola.1.weight
+06/02/2024 00:12:18 - INFO - __main__ - heads.cola.1.bias
+06/02/2024 00:12:18 - INFO - __main__ - heads.cola.4.weight
+06/02/2024 00:12:18 - INFO - __main__ - heads.cola.4.bias
+06/02/2024 00:12:19 - INFO - __main__ - Sample 5238 of the training set: {'input_ids': [101, 2009, 1005, 1055, 2986, 2008, 2002, 3825, 1998, 17806, 1010, 2021, 1045, 2123, 1005, 1056, 2428, 2729, 2055, 2010, 15531, 1010, 2030, 1996, 2769, 1010, 2030, 2505, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': 1}.
+06/02/2024 00:12:19 - INFO - __main__ - Sample 912 of the training set: {'input_ids': [101, 1045, 2113, 2029, 2338, 23848, 3191, 1010, 1998, 2029, 2338, 3960, 2356, 2339, 2017, 2910, 1005, 1056, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': 0}.
+06/02/2024 00:12:19 - INFO - __main__ - Sample 204 of the training set: {'input_ids': [101, 1996, 26108, 2002, 4152, 1010, 1996, 2062, 2198, 6010, 11067, 2229, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': 0}.
+06/02/2024 00:17:29 - INFO - __main__ - f_mu shape : torch.Size([1043, 2])
+06/02/2024 00:17:29 - INFO - __main__ - f_var shape :  torch.Size([1043, 2, 2])
+06/02/2024 00:17:29 - INFO - __main__ - tensor([[-2.6441,  3.0048],
+        [-2.1385,  2.6015],
+        [-0.8923,  1.2743],
+        ...,
+        [-3.1286,  3.4216],
+        [-1.2865,  1.6362],
+        [-2.3139,  2.5438]], device='cuda:0')
+06/02/2024 00:17:29 - INFO - __main__ - tensor([[[ 4.6644,  2.6618],
+         [ 2.6618,  4.6231]],
+        [[ 3.5755,  1.9887],
+         [ 1.9887,  3.5351]],
+        [[ 2.7346,  0.4514],
+         [ 0.4514,  2.9041]],
+        ...,
+        [[ 4.7327,  3.9928],
+         [ 3.9928,  4.7332]],
+        [[ 5.0674, -1.8297],
+         [-1.8297,  5.7372]],
+        [[ 5.9379, -0.2734],
+         [-0.2734,  5.8899]]], device='cuda:0')
+06/02/2024 00:17:29 - INFO - __main__ - ***** Completed training *****
+06/02/2024 00:17:33 - INFO - __main__ -  Number of labels detected = 2
+06/02/2024 00:17:33 - INFO - adapters.heads.model_mixin - Adding head 'default' with config {'head_type': 'masked_lm', 'vocab_size': 30522, 'embedding_size': 768, 'layers': 2, 'activation_function': 'gelu', 'layer_norm': True, 'bias': True, 'shift_labels': False, 'label2id': None}.
+06/02/2024 00:17:34 - INFO - adapters.loading - Loading module configuration from ./outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_5999/adapter_config.json
+06/02/2024 00:17:34 - INFO - adapters.configuration.model_adapters_config - Adding adapter 'cola'.
+06/02/2024 00:17:34 - INFO - adapters.loading - Loading module weights from ./outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_5999/pytorch_adapter.bin
+06/02/2024 00:17:34 - INFO - adapters.loading - Loading module configuration from ./outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_5999/head_config.json
+06/02/2024 00:17:34 - INFO - adapters.heads.model_mixin - Adding head 'cola' with config {'head_type': 'classification', 'num_labels': 2, 'layers': 2, 'activation_function': 'tanh', 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'use_pooler': False, 'bias': True, 'dropout_prob': None}.
+06/02/2024 00:17:34 - INFO - adapters.loading - Loading module weights from ./outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_5999/pytorch_model_head.bin
+06/02/2024 00:17:34 - INFO - __main__ - Adapter Name = cola
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.0.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.0.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.0.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.0.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.0.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.0.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.0.output.adapters.cola.adapter_up.weight
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.0.output.adapters.cola.adapter_up.bias
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.1.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.1.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.1.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.1.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.1.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.1.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.1.output.adapters.cola.adapter_up.weight
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.1.output.adapters.cola.adapter_up.bias
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.2.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.2.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.2.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.2.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.2.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.2.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.2.output.adapters.cola.adapter_up.weight
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.2.output.adapters.cola.adapter_up.bias
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.3.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.3.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.3.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.3.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.3.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.3.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.3.output.adapters.cola.adapter_up.weight
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.3.output.adapters.cola.adapter_up.bias
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.4.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.4.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.4.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.4.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.4.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.4.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.4.output.adapters.cola.adapter_up.weight
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.4.output.adapters.cola.adapter_up.bias
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.5.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.5.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.5.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.5.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.5.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.5.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.5.output.adapters.cola.adapter_up.weight
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.5.output.adapters.cola.adapter_up.bias
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.6.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.6.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.6.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.6.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.6.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.6.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.6.output.adapters.cola.adapter_up.weight
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.6.output.adapters.cola.adapter_up.bias
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.7.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.7.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.7.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.7.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.7.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.7.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.7.output.adapters.cola.adapter_up.weight
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.7.output.adapters.cola.adapter_up.bias
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.8.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.8.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.8.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.8.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.8.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.8.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.8.output.adapters.cola.adapter_up.weight
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.8.output.adapters.cola.adapter_up.bias
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.9.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.9.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.9.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.9.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.9.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.9.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.9.output.adapters.cola.adapter_up.weight
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.9.output.adapters.cola.adapter_up.bias
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.10.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.10.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.10.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.10.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.10.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.10.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.10.output.adapters.cola.adapter_up.weight
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.10.output.adapters.cola.adapter_up.bias
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.11.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.11.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.11.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.11.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.11.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.11.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.11.output.adapters.cola.adapter_up.weight
+06/02/2024 00:17:34 - INFO - __main__ - bert.encoder.layer.11.output.adapters.cola.adapter_up.bias
+06/02/2024 00:17:34 - INFO - __main__ - heads.cola.1.weight
+06/02/2024 00:17:34 - INFO - __main__ - heads.cola.1.bias
+06/02/2024 00:17:34 - INFO - __main__ - heads.cola.4.weight
+06/02/2024 00:17:34 - INFO - __main__ - heads.cola.4.bias
+06/02/2024 00:17:35 - INFO - __main__ - Sample 5238 of the training set: {'input_ids': [101, 2009, 1005, 1055, 2986, 2008, 2002, 3825, 1998, 17806, 1010, 2021, 1045, 2123, 1005, 1056, 2428, 2729, 2055, 2010, 15531, 1010, 2030, 1996, 2769, 1010, 2030, 2505, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': 1}.
+06/02/2024 00:17:35 - INFO - __main__ - Sample 912 of the training set: {'input_ids': [101, 1045, 2113, 2029, 2338, 23848, 3191, 1010, 1998, 2029, 2338, 3960, 2356, 2339, 2017, 2910, 1005, 1056, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': 0}.
+06/02/2024 00:17:35 - INFO - __main__ - Sample 204 of the training set: {'input_ids': [101, 1996, 26108, 2002, 4152, 1010, 1996, 2062, 2198, 6010, 11067, 2229, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': 0}.
+06/02/2024 00:22:46 - INFO - __main__ - f_mu shape : torch.Size([1043, 2])
+06/02/2024 00:22:46 - INFO - __main__ - f_var shape :  torch.Size([1043, 2, 2])
+06/02/2024 00:22:46 - INFO - __main__ - tensor([[-2.6790,  3.0428],
+        [-1.9493,  2.4252],
+        [-0.6514,  1.0621],
+        ...,
+        [-3.0951,  3.3807],
+        [-1.4203,  1.8088],
+        [-1.5409,  1.7612]], device='cuda:0')
+06/02/2024 00:22:46 - INFO - __main__ - tensor([[[ 4.6626,  2.1988],
+         [ 2.1988,  4.6641]],
+        [[ 3.3556,  1.3597],
+         [ 1.3597,  3.3220]],
+        [[ 2.4772,  0.2199],
+         [ 0.2199,  2.6351]],
+        ...,
+        [[ 4.4411,  3.4198],
+         [ 3.4198,  4.4294]],
+        [[ 5.6441, -2.3624],
+         [-2.3624,  6.0773]],
+        [[ 6.1997, -2.6992],
+         [-2.6992,  6.2934]]], device='cuda:0')
+06/02/2024 00:22:46 - INFO - __main__ - ***** Completed training *****
+06/02/2024 00:22:48 - INFO - __main__ -  Number of labels detected = 2
+06/02/2024 00:22:49 - INFO - adapters.heads.model_mixin - Adding head 'default' with config {'head_type': 'masked_lm', 'vocab_size': 30522, 'embedding_size': 768, 'layers': 2, 'activation_function': 'gelu', 'layer_norm': True, 'bias': True, 'shift_labels': False, 'label2id': None}.
+06/02/2024 00:22:49 - INFO - adapters.loading - Loading module configuration from ./outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_7999/adapter_config.json
+06/02/2024 00:22:49 - INFO - adapters.configuration.model_adapters_config - Adding adapter 'cola'.
+06/02/2024 00:22:49 - INFO - adapters.loading - Loading module weights from ./outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_7999/pytorch_adapter.bin
+06/02/2024 00:22:49 - INFO - adapters.loading - Loading module configuration from ./outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_7999/head_config.json
+06/02/2024 00:22:49 - INFO - adapters.heads.model_mixin - Adding head 'cola' with config {'head_type': 'classification', 'num_labels': 2, 'layers': 2, 'activation_function': 'tanh', 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'use_pooler': False, 'bias': True, 'dropout_prob': None}.
+06/02/2024 00:22:49 - INFO - adapters.loading - Loading module weights from ./outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_7999/pytorch_model_head.bin
+06/02/2024 00:22:49 - INFO - __main__ - Adapter Name = cola
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.0.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.0.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.0.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.0.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.0.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.0.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.0.output.adapters.cola.adapter_up.weight
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.0.output.adapters.cola.adapter_up.bias
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.1.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.1.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.1.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.1.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.1.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.1.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.1.output.adapters.cola.adapter_up.weight
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.1.output.adapters.cola.adapter_up.bias
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.2.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.2.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.2.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.2.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.2.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.2.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.2.output.adapters.cola.adapter_up.weight
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.2.output.adapters.cola.adapter_up.bias
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.3.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.3.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.3.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.3.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.3.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.3.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.3.output.adapters.cola.adapter_up.weight
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.3.output.adapters.cola.adapter_up.bias
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.4.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.4.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.4.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.4.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.4.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.4.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.4.output.adapters.cola.adapter_up.weight
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.4.output.adapters.cola.adapter_up.bias
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.5.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.5.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.5.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.5.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.5.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.5.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.5.output.adapters.cola.adapter_up.weight
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.5.output.adapters.cola.adapter_up.bias
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.6.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.6.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.6.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.6.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.6.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.6.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.6.output.adapters.cola.adapter_up.weight
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.6.output.adapters.cola.adapter_up.bias
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.7.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.7.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.7.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.7.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.7.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.7.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.7.output.adapters.cola.adapter_up.weight
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.7.output.adapters.cola.adapter_up.bias
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.8.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.8.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.8.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.8.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.8.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.8.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.8.output.adapters.cola.adapter_up.weight
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.8.output.adapters.cola.adapter_up.bias
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.9.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.9.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.9.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.9.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.9.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.9.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.9.output.adapters.cola.adapter_up.weight
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.9.output.adapters.cola.adapter_up.bias
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.10.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.10.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.10.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.10.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.10.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.10.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.10.output.adapters.cola.adapter_up.weight
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.10.output.adapters.cola.adapter_up.bias
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.11.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.11.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.11.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.11.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.11.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.11.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.11.output.adapters.cola.adapter_up.weight
+06/02/2024 00:22:49 - INFO - __main__ - bert.encoder.layer.11.output.adapters.cola.adapter_up.bias
+06/02/2024 00:22:49 - INFO - __main__ - heads.cola.1.weight
+06/02/2024 00:22:49 - INFO - __main__ - heads.cola.1.bias
+06/02/2024 00:22:49 - INFO - __main__ - heads.cola.4.weight
+06/02/2024 00:22:49 - INFO - __main__ - heads.cola.4.bias
+06/02/2024 00:22:51 - INFO - __main__ - Sample 5238 of the training set: {'input_ids': [101, 2009, 1005, 1055, 2986, 2008, 2002, 3825, 1998, 17806, 1010, 2021, 1045, 2123, 1005, 1056, 2428, 2729, 2055, 2010, 15531, 1010, 2030, 1996, 2769, 1010, 2030, 2505, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': 1}.
+06/02/2024 00:22:51 - INFO - __main__ - Sample 912 of the training set: {'input_ids': [101, 1045, 2113, 2029, 2338, 23848, 3191, 1010, 1998, 2029, 2338, 3960, 2356, 2339, 2017, 2910, 1005, 1056, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': 0}.
+06/02/2024 00:22:51 - INFO - __main__ - Sample 204 of the training set: {'input_ids': [101, 1996, 26108, 2002, 4152, 1010, 1996, 2062, 2198, 6010, 11067, 2229, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': 0}.
+06/02/2024 00:27:58 - INFO - __main__ - f_mu shape : torch.Size([1043, 2])
+06/02/2024 00:27:58 - INFO - __main__ - f_var shape :  torch.Size([1043, 2, 2])
+06/02/2024 00:27:58 - INFO - __main__ - tensor([[-3.3962,  3.7076],
+        [-2.5677,  2.9764],
+        [-0.9388,  1.3018],
+        ...,
+        [-3.7986,  4.0254],
+        [-2.4808,  2.8059],
+        [-2.0593,  2.2397]], device='cuda:0')
+06/02/2024 00:27:58 - INFO - __main__ - tensor([[[ 5.1139,  2.8399],
+         [ 2.8399,  5.1270]],
+        [[ 4.0497,  1.4560],
+         [ 1.4560,  3.9944]],
+        [[ 3.5599, -0.8490],
+         [-0.8490,  3.7326]],
+        ...,
+        [[ 4.9693,  3.9614],
+         [ 3.9614,  4.9527]],
+        [[ 7.3436, -2.3866],
+         [-2.3866,  7.4845]],
+        [[11.3763, -7.5061],
+         [-7.5062, 11.6565]]], device='cuda:0')
+06/02/2024 00:27:58 - INFO - __main__ - ***** Completed training *****
+06/02/2024 00:28:00 - INFO - __main__ -  Number of labels detected = 2
+06/02/2024 00:28:01 - INFO - adapters.heads.model_mixin - Adding head 'default' with config {'head_type': 'masked_lm', 'vocab_size': 30522, 'embedding_size': 768, 'layers': 2, 'activation_function': 'gelu', 'layer_norm': True, 'bias': True, 'shift_labels': False, 'label2id': None}.
+06/02/2024 00:28:02 - INFO - adapters.loading - Loading module configuration from ./outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_9999/adapter_config.json
+06/02/2024 00:28:02 - INFO - adapters.configuration.model_adapters_config - Adding adapter 'cola'.
+06/02/2024 00:28:02 - INFO - adapters.loading - Loading module weights from ./outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_9999/pytorch_adapter.bin
+06/02/2024 00:28:02 - INFO - adapters.loading - Loading module configuration from ./outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_9999/head_config.json
+06/02/2024 00:28:02 - INFO - adapters.heads.model_mixin - Adding head 'cola' with config {'head_type': 'classification', 'num_labels': 2, 'layers': 2, 'activation_function': 'tanh', 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'use_pooler': False, 'bias': True, 'dropout_prob': None}.
+06/02/2024 00:28:02 - INFO - adapters.loading - Loading module weights from ./outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_9999/pytorch_model_head.bin
+06/02/2024 00:28:02 - INFO - __main__ - Adapter Name = cola
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.0.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.0.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.0.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.0.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.0.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.0.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.0.output.adapters.cola.adapter_up.weight
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.0.output.adapters.cola.adapter_up.bias
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.1.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.1.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.1.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.1.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.1.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.1.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.1.output.adapters.cola.adapter_up.weight
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.1.output.adapters.cola.adapter_up.bias
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.2.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.2.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.2.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.2.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.2.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.2.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.2.output.adapters.cola.adapter_up.weight
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.2.output.adapters.cola.adapter_up.bias
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.3.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.3.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.3.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.3.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.3.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.3.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.3.output.adapters.cola.adapter_up.weight
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.3.output.adapters.cola.adapter_up.bias
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.4.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.4.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.4.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.4.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.4.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.4.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.4.output.adapters.cola.adapter_up.weight
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.4.output.adapters.cola.adapter_up.bias
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.5.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.5.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.5.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.5.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.5.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.5.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.5.output.adapters.cola.adapter_up.weight
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.5.output.adapters.cola.adapter_up.bias
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.6.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.6.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.6.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.6.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.6.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.6.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.6.output.adapters.cola.adapter_up.weight
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.6.output.adapters.cola.adapter_up.bias
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.7.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.7.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.7.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.7.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.7.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.7.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.7.output.adapters.cola.adapter_up.weight
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.7.output.adapters.cola.adapter_up.bias
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.8.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.8.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.8.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.8.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.8.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.8.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.8.output.adapters.cola.adapter_up.weight
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.8.output.adapters.cola.adapter_up.bias
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.9.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.9.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.9.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.9.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.9.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.9.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.9.output.adapters.cola.adapter_up.weight
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.9.output.adapters.cola.adapter_up.bias
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.10.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.10.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.10.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.10.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.10.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.10.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.10.output.adapters.cola.adapter_up.weight
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.10.output.adapters.cola.adapter_up.bias
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.11.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.11.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.11.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.11.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.11.output.adapters.cola.adapter_down.0.weight
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.11.output.adapters.cola.adapter_down.0.bias
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.11.output.adapters.cola.adapter_up.weight
+06/02/2024 00:28:02 - INFO - __main__ - bert.encoder.layer.11.output.adapters.cola.adapter_up.bias
+06/02/2024 00:28:02 - INFO - __main__ - heads.cola.1.weight
+06/02/2024 00:28:02 - INFO - __main__ - heads.cola.1.bias
+06/02/2024 00:28:02 - INFO - __main__ - heads.cola.4.weight
+06/02/2024 00:28:02 - INFO - __main__ - heads.cola.4.bias
+06/02/2024 00:28:03 - INFO - __main__ - Sample 5238 of the training set: {'input_ids': [101, 2009, 1005, 1055, 2986, 2008, 2002, 3825, 1998, 17806, 1010, 2021, 1045, 2123, 1005, 1056, 2428, 2729, 2055, 2010, 15531, 1010, 2030, 1996, 2769, 1010, 2030, 2505, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': 1}.
+06/02/2024 00:28:03 - INFO - __main__ - Sample 912 of the training set: {'input_ids': [101, 1045, 2113, 2029, 2338, 23848, 3191, 1010, 1998, 2029, 2338, 3960, 2356, 2339, 2017, 2910, 1005, 1056, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': 0}.
+06/02/2024 00:28:03 - INFO - __main__ - Sample 204 of the training set: {'input_ids': [101, 1996, 26108, 2002, 4152, 1010, 1996, 2062, 2198, 6010, 11067, 2229, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': 0}.
+06/02/2024 00:33:06 - INFO - __main__ - f_mu shape : torch.Size([1043, 2])
+06/02/2024 00:33:06 - INFO - __main__ - f_var shape :  torch.Size([1043, 2, 2])
+06/02/2024 00:33:06 - INFO - __main__ - tensor([[-3.6432,  3.9375],
+        [-2.6919,  3.0975],
+        [-1.0813,  1.4512],
+        ...,
+        [-3.9697,  4.1863],
+        [-2.6218,  2.9444],
+        [-2.3552,  2.5516]], device='cuda:0')
+06/02/2024 00:33:06 - INFO - __main__ - tensor([[[ 5.2339,  3.0798],
+         [ 3.0798,  5.2397]],
+        [[ 4.3019,  1.2904],
+         [ 1.2904,  4.2205]],
+        [[ 4.0779, -1.2783],
+         [-1.2783,  4.2286]],
+        ...,
+        [[ 5.0681,  3.9858],
+         [ 3.9858,  5.0388]],
+        [[ 7.9208, -2.8210],
+         [-2.8210,  8.0162]],
+        [[12.2069, -7.8169],
+         [-7.8169, 12.2902]]], device='cuda:0')
+06/02/2024 00:33:06 - INFO - __main__ - ***** Completed training *****

outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_0/all_results_la_kron_all_homo_mc_corr_1000.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"eval_matthews_correlation": 0.013232794083812355}

outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_0/eval_res_la_kron_all_homo_mc_corr_1000.json ADDED Viewed

The diff for this file is too large to render. See raw diff

outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_0/gpu_stats_la.json ADDED Viewed

	@@ -0,0 +1,130 @@

+{
+    "memory_allocated": 969647616,
+    "max_memory_allocated": 3324437504,
+    "memory_reserved": 8908701696,
+    "max_memory_reserved": 8908701696,
+    "memory_stats": {
+        "active.all.allocated": 2905439,
+        "active.all.current": 1234,
+        "active.all.freed": 2904205,
+        "active.all.peak": 1487,
+        "active.large_pool.allocated": 360975,
+        "active.large_pool.current": 284,
+        "active.large_pool.freed": 360691,
+        "active.large_pool.peak": 384,
+        "active.small_pool.allocated": 2544464,
+        "active.small_pool.current": 950,
+        "active.small_pool.freed": 2543514,
+        "active.small_pool.peak": 1200,
+        "active_bytes.all.allocated": 2033417876480,
+        "active_bytes.all.current": 969647616,
+        "active_bytes.all.freed": 2032448228864,
+        "active_bytes.all.peak": 3324437504,
+        "active_bytes.large_pool.allocated": 1464489492480,
+        "active_bytes.large_pool.current": 952457216,
+        "active_bytes.large_pool.freed": 1463537035264,
+        "active_bytes.large_pool.peak": 3240482816,
+        "active_bytes.small_pool.allocated": 568928384000,
+        "active_bytes.small_pool.current": 17190400,
+        "active_bytes.small_pool.freed": 568911193600,
+        "active_bytes.small_pool.peak": 114983424,
+        "allocated_bytes.all.allocated": 2033417876480,
+        "allocated_bytes.all.current": 969647616,
+        "allocated_bytes.all.freed": 2032448228864,
+        "allocated_bytes.all.peak": 3324437504,
+        "allocated_bytes.large_pool.allocated": 1464489492480,
+        "allocated_bytes.large_pool.current": 952457216,
+        "allocated_bytes.large_pool.freed": 1463537035264,
+        "allocated_bytes.large_pool.peak": 3240482816,
+        "allocated_bytes.small_pool.allocated": 568928384000,
+        "allocated_bytes.small_pool.current": 17190400,
+        "allocated_bytes.small_pool.freed": 568911193600,
+        "allocated_bytes.small_pool.peak": 114983424,
+        "allocation.all.allocated": 2905439,
+        "allocation.all.current": 1234,
+        "allocation.all.freed": 2904205,
+        "allocation.all.peak": 1487,
+        "allocation.large_pool.allocated": 360975,
+        "allocation.large_pool.current": 284,
+        "allocation.large_pool.freed": 360691,
+        "allocation.large_pool.peak": 384,
+        "allocation.small_pool.allocated": 2544464,
+        "allocation.small_pool.current": 950,
+        "allocation.small_pool.freed": 2543514,
+        "allocation.small_pool.peak": 1200,
+        "inactive_split.all.allocated": 1330181,
+        "inactive_split.all.current": 168,
+        "inactive_split.all.freed": 1330013,
+        "inactive_split.all.peak": 224,
+        "inactive_split.large_pool.allocated": 167153,
+        "inactive_split.large_pool.current": 43,
+        "inactive_split.large_pool.freed": 167110,
+        "inactive_split.large_pool.peak": 96,
+        "inactive_split.small_pool.allocated": 1163028,
+        "inactive_split.small_pool.current": 125,
+        "inactive_split.small_pool.freed": 1162903,
+        "inactive_split.small_pool.peak": 149,
+        "inactive_split_bytes.all.allocated": 2039758622720,
+        "inactive_split_bytes.all.current": 146037248,
+        "inactive_split_bytes.all.freed": 2039612585472,
+        "inactive_split_bytes.all.peak": 893967360,
+        "inactive_split_bytes.large_pool.allocated": 1450436033536,
+        "inactive_split_bytes.large_pool.current": 106604544,
+        "inactive_split_bytes.large_pool.freed": 1450329428992,
+        "inactive_split_bytes.large_pool.peak": 859522048,
+        "inactive_split_bytes.small_pool.allocated": 589322589184,
+        "inactive_split_bytes.small_pool.current": 39432704,
+        "inactive_split_bytes.small_pool.freed": 589283156480,
+        "inactive_split_bytes.small_pool.peak": 78419456,
+        "max_split_size": -1,
+        "num_alloc_retries": 0,
+        "num_device_alloc": 394,
+        "num_device_free": 52,
+        "num_ooms": 0,
+        "num_sync_all_streams": 1,
+        "oversize_allocations.allocated": 0,
+        "oversize_allocations.current": 0,
+        "oversize_allocations.freed": 0,
+        "oversize_allocations.peak": 0,
+        "oversize_segments.allocated": 0,
+        "oversize_segments.current": 0,
+        "oversize_segments.freed": 0,
+        "oversize_segments.peak": 0,
+        "requested_bytes.all.allocated": 1990795460851,
+        "requested_bytes.all.current": 967046712,
+        "requested_bytes.all.freed": 1989828414139,
+        "requested_bytes.all.peak": 3263085376,
+        "requested_bytes.large_pool.allocated": 1422103262928,
+        "requested_bytes.large_pool.current": 950013448,
+        "requested_bytes.large_pool.freed": 1421153249480,
+        "requested_bytes.large_pool.peak": 3179241096,
+        "requested_bytes.small_pool.allocated": 568692197923,
+        "requested_bytes.small_pool.current": 17033264,
+        "requested_bytes.small_pool.freed": 568675164659,
+        "requested_bytes.small_pool.peak": 114852048,
+        "reserved_bytes.all.allocated": 9225371648,
+        "reserved_bytes.all.current": 8908701696,
+        "reserved_bytes.all.freed": 316669952,
+        "reserved_bytes.all.peak": 8908701696,
+        "reserved_bytes.large_pool.allocated": 9003073536,
+        "reserved_bytes.large_pool.current": 8772386816,
+        "reserved_bytes.large_pool.freed": 230686720,
+        "reserved_bytes.large_pool.peak": 8772386816,
+        "reserved_bytes.small_pool.allocated": 222298112,
+        "reserved_bytes.small_pool.current": 136314880,
+        "reserved_bytes.small_pool.freed": 85983232,
+        "reserved_bytes.small_pool.peak": 136314880,
+        "segment.all.allocated": 394,
+        "segment.all.current": 342,
+        "segment.all.freed": 52,
+        "segment.all.peak": 342,
+        "segment.large_pool.allocated": 288,
+        "segment.large_pool.current": 277,
+        "segment.large_pool.freed": 11,
+        "segment.large_pool.peak": 277,
+        "segment.small_pool.allocated": 106,
+        "segment.small_pool.current": 65,
+        "segment.small_pool.freed": 41,
+        "segment.small_pool.peak": 65
+    }
+}

outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_1999/all_results_la_kron_all_homo_mc_corr_1000.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"eval_matthews_correlation": 0.500854588319398}

outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_1999/eval_res_la_kron_all_homo_mc_corr_1000.json ADDED Viewed

The diff for this file is too large to render. See raw diff

outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_1999/gpu_stats_la.json ADDED Viewed

	@@ -0,0 +1,130 @@

+{
+    "memory_allocated": 968467968,
+    "max_memory_allocated": 3324437504,
+    "memory_reserved": 8908701696,
+    "max_memory_reserved": 8908701696,
+    "memory_stats": {
+        "active.all.allocated": 5810926,
+        "active.all.current": 1234,
+        "active.all.freed": 5809692,
+        "active.all.peak": 1487,
+        "active.large_pool.allocated": 721948,
+        "active.large_pool.current": 284,
+        "active.large_pool.freed": 721664,
+        "active.large_pool.peak": 384,
+        "active.small_pool.allocated": 5088978,
+        "active.small_pool.current": 950,
+        "active.small_pool.freed": 5088028,
+        "active.small_pool.peak": 1200,
+        "active_bytes.all.allocated": 4065322237440,
+        "active_bytes.all.current": 968467968,
+        "active_bytes.all.freed": 4064353769472,
+        "active_bytes.all.peak": 3324437504,
+        "active_bytes.large_pool.allocated": 2927465442816,
+        "active_bytes.large_pool.current": 951277568,
+        "active_bytes.large_pool.freed": 2926514165248,
+        "active_bytes.large_pool.peak": 3240482816,
+        "active_bytes.small_pool.allocated": 1137856794624,
+        "active_bytes.small_pool.current": 17190400,
+        "active_bytes.small_pool.freed": 1137839604224,
+        "active_bytes.small_pool.peak": 114983424,
+        "allocated_bytes.all.allocated": 4065322237440,
+        "allocated_bytes.all.current": 968467968,
+        "allocated_bytes.all.freed": 4064353769472,
+        "allocated_bytes.all.peak": 3324437504,
+        "allocated_bytes.large_pool.allocated": 2927465442816,
+        "allocated_bytes.large_pool.current": 951277568,
+        "allocated_bytes.large_pool.freed": 2926514165248,
+        "allocated_bytes.large_pool.peak": 3240482816,
+        "allocated_bytes.small_pool.allocated": 1137856794624,
+        "allocated_bytes.small_pool.current": 17190400,
+        "allocated_bytes.small_pool.freed": 1137839604224,
+        "allocated_bytes.small_pool.peak": 114983424,
+        "allocation.all.allocated": 5810926,
+        "allocation.all.current": 1234,
+        "allocation.all.freed": 5809692,
+        "allocation.all.peak": 1487,
+        "allocation.large_pool.allocated": 721948,
+        "allocation.large_pool.current": 284,
+        "allocation.large_pool.freed": 721664,
+        "allocation.large_pool.peak": 384,
+        "allocation.small_pool.allocated": 5088978,
+        "allocation.small_pool.current": 950,
+        "allocation.small_pool.freed": 5088028,
+        "allocation.small_pool.peak": 1200,
+        "inactive_split.all.allocated": 2713249,
+        "inactive_split.all.current": 170,
+        "inactive_split.all.freed": 2713079,
+        "inactive_split.all.peak": 227,
+        "inactive_split.large_pool.allocated": 334447,
+        "inactive_split.large_pool.current": 45,
+        "inactive_split.large_pool.freed": 334402,
+        "inactive_split.large_pool.peak": 98,
+        "inactive_split.small_pool.allocated": 2378802,
+        "inactive_split.small_pool.current": 125,
+        "inactive_split.small_pool.freed": 2378677,
+        "inactive_split.small_pool.peak": 186,
+        "inactive_split_bytes.all.allocated": 4074440010240,
+        "inactive_split_bytes.all.current": 149314048,
+        "inactive_split_bytes.all.freed": 4074290696192,
+        "inactive_split_bytes.all.peak": 899341312,
+        "inactive_split_bytes.large_pool.allocated": 2895554385920,
+        "inactive_split_bytes.large_pool.current": 107784192,
+        "inactive_split_bytes.large_pool.freed": 2895446601728,
+        "inactive_split_bytes.large_pool.peak": 860701696,
+        "inactive_split_bytes.small_pool.allocated": 1178885624320,
+        "inactive_split_bytes.small_pool.current": 41529856,
+        "inactive_split_bytes.small_pool.freed": 1178844094464,
+        "inactive_split_bytes.small_pool.peak": 79716864,
+        "max_split_size": -1,
+        "num_alloc_retries": 0,
+        "num_device_alloc": 735,
+        "num_device_free": 393,
+        "num_ooms": 0,
+        "num_sync_all_streams": 3,
+        "oversize_allocations.allocated": 0,
+        "oversize_allocations.current": 0,
+        "oversize_allocations.freed": 0,
+        "oversize_allocations.peak": 0,
+        "oversize_segments.allocated": 0,
+        "oversize_segments.current": 0,
+        "oversize_segments.freed": 0,
+        "oversize_segments.peak": 0,
+        "requested_bytes.all.allocated": 3981573885378,
+        "requested_bytes.all.current": 967046712,
+        "requested_bytes.all.freed": 3980606838666,
+        "requested_bytes.all.peak": 3263085376,
+        "requested_bytes.large_pool.allocated": 2844189486496,
+        "requested_bytes.large_pool.current": 950013448,
+        "requested_bytes.large_pool.freed": 2843239473048,
+        "requested_bytes.large_pool.peak": 3179241096,
+        "requested_bytes.small_pool.allocated": 1137384398882,
+        "requested_bytes.small_pool.current": 17033264,
+        "requested_bytes.small_pool.freed": 1137367365618,
+        "requested_bytes.small_pool.peak": 114852048,
+        "reserved_bytes.all.allocated": 17718837248,
+        "reserved_bytes.all.current": 8908701696,
+        "reserved_bytes.all.freed": 8810135552,
+        "reserved_bytes.all.peak": 8908701696,
+        "reserved_bytes.large_pool.allocated": 17324572672,
+        "reserved_bytes.large_pool.current": 8772386816,
+        "reserved_bytes.large_pool.freed": 8552185856,
+        "reserved_bytes.large_pool.peak": 8772386816,
+        "reserved_bytes.small_pool.allocated": 394264576,
+        "reserved_bytes.small_pool.current": 136314880,
+        "reserved_bytes.small_pool.freed": 257949696,
+        "reserved_bytes.small_pool.peak": 136314880,
+        "segment.all.allocated": 735,
+        "segment.all.current": 342,
+        "segment.all.freed": 393,
+        "segment.all.peak": 342,
+        "segment.large_pool.allocated": 547,
+        "segment.large_pool.current": 277,
+        "segment.large_pool.freed": 270,
+        "segment.large_pool.peak": 277,
+        "segment.small_pool.allocated": 188,
+        "segment.small_pool.current": 65,
+        "segment.small_pool.freed": 123,
+        "segment.small_pool.peak": 65
+    }
+}

outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_3999/all_results_la_kron_all_homo_mc_corr_1000.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"eval_matthews_correlation": 0.5186267566332291}

outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_3999/eval_res_la_kron_all_homo_mc_corr_1000.json ADDED Viewed

The diff for this file is too large to render. See raw diff

outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_3999/gpu_stats_la.json ADDED Viewed

	@@ -0,0 +1,130 @@

+{
+    "memory_allocated": 969647616,
+    "max_memory_allocated": 3324437504,
+    "memory_reserved": 8910798848,
+    "max_memory_reserved": 8910798848,
+    "memory_stats": {
+        "active.all.allocated": 8716463,
+        "active.all.current": 1234,
+        "active.all.freed": 8715229,
+        "active.all.peak": 1487,
+        "active.large_pool.allocated": 1082921,
+        "active.large_pool.current": 284,
+        "active.large_pool.freed": 1082637,
+        "active.large_pool.peak": 482,
+        "active.small_pool.allocated": 7633542,
+        "active.small_pool.current": 950,
+        "active.small_pool.freed": 7632592,
+        "active.small_pool.peak": 1200,
+        "active_bytes.all.allocated": 6098303822336,
+        "active_bytes.all.current": 969647616,
+        "active_bytes.all.freed": 6097334174720,
+        "active_bytes.all.peak": 3324437504,
+        "active_bytes.large_pool.allocated": 4391518590464,
+        "active_bytes.large_pool.current": 952457216,
+        "active_bytes.large_pool.freed": 4390566133248,
+        "active_bytes.large_pool.peak": 3240482816,
+        "active_bytes.small_pool.allocated": 1706785231872,
+        "active_bytes.small_pool.current": 17190400,
+        "active_bytes.small_pool.freed": 1706768041472,
+        "active_bytes.small_pool.peak": 114983424,
+        "allocated_bytes.all.allocated": 6098303822336,
+        "allocated_bytes.all.current": 969647616,
+        "allocated_bytes.all.freed": 6097334174720,
+        "allocated_bytes.all.peak": 3324437504,
+        "allocated_bytes.large_pool.allocated": 4391518590464,
+        "allocated_bytes.large_pool.current": 952457216,
+        "allocated_bytes.large_pool.freed": 4390566133248,
+        "allocated_bytes.large_pool.peak": 3240482816,
+        "allocated_bytes.small_pool.allocated": 1706785231872,
+        "allocated_bytes.small_pool.current": 17190400,
+        "allocated_bytes.small_pool.freed": 1706768041472,
+        "allocated_bytes.small_pool.peak": 114983424,
+        "allocation.all.allocated": 8716463,
+        "allocation.all.current": 1234,
+        "allocation.all.freed": 8715229,
+        "allocation.all.peak": 1487,
+        "allocation.large_pool.allocated": 1082921,
+        "allocation.large_pool.current": 284,
+        "allocation.large_pool.freed": 1082637,
+        "allocation.large_pool.peak": 482,
+        "allocation.small_pool.allocated": 7633542,
+        "allocation.small_pool.current": 950,
+        "allocation.small_pool.freed": 7632592,
+        "allocation.small_pool.peak": 1200,
+        "inactive_split.all.allocated": 4132126,
+        "inactive_split.all.current": 181,
+        "inactive_split.all.freed": 4131945,
+        "inactive_split.all.peak": 227,
+        "inactive_split.large_pool.allocated": 500912,
+        "inactive_split.large_pool.current": 43,
+        "inactive_split.large_pool.freed": 500869,
+        "inactive_split.large_pool.peak": 98,
+        "inactive_split.small_pool.allocated": 3631214,
+        "inactive_split.small_pool.current": 138,
+        "inactive_split.small_pool.freed": 3631076,
+        "inactive_split.small_pool.peak": 194,
+        "inactive_split_bytes.all.allocated": 6074756495872,
+        "inactive_split_bytes.all.current": 152328704,
+        "inactive_split_bytes.all.freed": 6074604167168,
+        "inactive_split_bytes.all.peak": 904453120,
+        "inactive_split_bytes.large_pool.allocated": 4316633251840,
+        "inactive_split_bytes.large_pool.current": 106604544,
+        "inactive_split_bytes.large_pool.freed": 4316526647296,
+        "inactive_split_bytes.large_pool.peak": 860701696,
+        "inactive_split_bytes.small_pool.allocated": 1758123244032,
+        "inactive_split_bytes.small_pool.current": 45724160,
+        "inactive_split_bytes.small_pool.freed": 1758077519872,
+        "inactive_split_bytes.small_pool.peak": 79716864,
+        "max_split_size": -1,
+        "num_alloc_retries": 0,
+        "num_device_alloc": 1097,
+        "num_device_free": 754,
+        "num_ooms": 0,
+        "num_sync_all_streams": 5,
+        "oversize_allocations.allocated": 0,
+        "oversize_allocations.current": 0,
+        "oversize_allocations.freed": 0,
+        "oversize_allocations.peak": 0,
+        "oversize_segments.allocated": 0,
+        "oversize_segments.current": 0,
+        "oversize_segments.freed": 0,
+        "oversize_segments.peak": 0,
+        "requested_bytes.all.allocated": 5972352312941,
+        "requested_bytes.all.current": 967046712,
+        "requested_bytes.all.freed": 5971385266229,
+        "requested_bytes.all.peak": 3263085376,
+        "requested_bytes.large_pool.allocated": 4266275710064,
+        "requested_bytes.large_pool.current": 950013448,
+        "requested_bytes.large_pool.freed": 4265325696616,
+        "requested_bytes.large_pool.peak": 3179241096,
+        "requested_bytes.small_pool.allocated": 1706076602877,
+        "requested_bytes.small_pool.current": 17033264,
+        "requested_bytes.small_pool.freed": 1706059569613,
+        "requested_bytes.small_pool.peak": 114852048,
+        "reserved_bytes.all.allocated": 26782728192,
+        "reserved_bytes.all.current": 8910798848,
+        "reserved_bytes.all.freed": 17871929344,
+        "reserved_bytes.all.peak": 8910798848,
+        "reserved_bytes.large_pool.allocated": 26222788608,
+        "reserved_bytes.large_pool.current": 8772386816,
+        "reserved_bytes.large_pool.freed": 17450401792,
+        "reserved_bytes.large_pool.peak": 8772386816,
+        "reserved_bytes.small_pool.allocated": 559939584,
+        "reserved_bytes.small_pool.current": 138412032,
+        "reserved_bytes.small_pool.freed": 421527552,
+        "reserved_bytes.small_pool.peak": 138412032,
+        "segment.all.allocated": 1097,
+        "segment.all.current": 343,
+        "segment.all.freed": 754,
+        "segment.all.peak": 343,
+        "segment.large_pool.allocated": 830,
+        "segment.large_pool.current": 277,
+        "segment.large_pool.freed": 553,
+        "segment.large_pool.peak": 277,
+        "segment.small_pool.allocated": 267,
+        "segment.small_pool.current": 66,
+        "segment.small_pool.freed": 201,
+        "segment.small_pool.peak": 66
+    }
+}

outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_5999/all_results_la_kron_all_homo_mc_corr_1000.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"eval_matthews_correlation": 0.5611975320184954}

outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_5999/eval_res_la_kron_all_homo_mc_corr_1000.json ADDED Viewed

The diff for this file is too large to render. See raw diff

outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_5999/gpu_stats_la.json ADDED Viewed

	@@ -0,0 +1,130 @@

+{
+    "memory_allocated": 969647616,
+    "max_memory_allocated": 3324437504,
+    "memory_reserved": 8917090304,
+    "max_memory_reserved": 8917090304,
+    "memory_stats": {
+        "active.all.allocated": 11622050,
+        "active.all.current": 1234,
+        "active.all.freed": 11620816,
+        "active.all.peak": 1487,
+        "active.large_pool.allocated": 1443894,
+        "active.large_pool.current": 284,
+        "active.large_pool.freed": 1443610,
+        "active.large_pool.peak": 482,
+        "active.small_pool.allocated": 10178156,
+        "active.small_pool.current": 950,
+        "active.small_pool.freed": 10177206,
+        "active.small_pool.peak": 1200,
+        "active_bytes.all.allocated": 8130957157888,
+        "active_bytes.all.current": 969647616,
+        "active_bytes.all.freed": 8129987510272,
+        "active_bytes.all.peak": 3324437504,
+        "active_bytes.large_pool.allocated": 5855243462144,
+        "active_bytes.large_pool.current": 952457216,
+        "active_bytes.large_pool.freed": 5854291004928,
+        "active_bytes.large_pool.peak": 3240482816,
+        "active_bytes.small_pool.allocated": 2275713695744,
+        "active_bytes.small_pool.current": 17190400,
+        "active_bytes.small_pool.freed": 2275696505344,
+        "active_bytes.small_pool.peak": 114983424,
+        "allocated_bytes.all.allocated": 8130957157888,
+        "allocated_bytes.all.current": 969647616,
+        "allocated_bytes.all.freed": 8129987510272,
+        "allocated_bytes.all.peak": 3324437504,
+        "allocated_bytes.large_pool.allocated": 5855243462144,
+        "allocated_bytes.large_pool.current": 952457216,
+        "allocated_bytes.large_pool.freed": 5854291004928,
+        "allocated_bytes.large_pool.peak": 3240482816,
+        "allocated_bytes.small_pool.allocated": 2275713695744,
+        "allocated_bytes.small_pool.current": 17190400,
+        "allocated_bytes.small_pool.freed": 2275696505344,
+        "allocated_bytes.small_pool.peak": 114983424,
+        "allocation.all.allocated": 11622050,
+        "allocation.all.current": 1234,
+        "allocation.all.freed": 11620816,
+        "allocation.all.peak": 1487,
+        "allocation.large_pool.allocated": 1443894,
+        "allocation.large_pool.current": 284,
+        "allocation.large_pool.freed": 1443610,
+        "allocation.large_pool.peak": 482,
+        "allocation.small_pool.allocated": 10178156,
+        "allocation.small_pool.current": 950,
+        "allocation.small_pool.freed": 10177206,
+        "allocation.small_pool.peak": 1200,
+        "inactive_split.all.allocated": 5588000,
+        "inactive_split.all.current": 178,
+        "inactive_split.all.freed": 5587822,
+        "inactive_split.all.peak": 247,
+        "inactive_split.large_pool.allocated": 667566,
+        "inactive_split.large_pool.current": 43,
+        "inactive_split.large_pool.freed": 667523,
+        "inactive_split.large_pool.peak": 98,
+        "inactive_split.small_pool.allocated": 4920434,
+        "inactive_split.small_pool.current": 135,
+        "inactive_split.small_pool.freed": 4920299,
+        "inactive_split.small_pool.peak": 221,
+        "inactive_split_bytes.all.allocated": 8074710071808,
+        "inactive_split_bytes.all.current": 150231552,
+        "inactive_split_bytes.all.freed": 8074559840256,
+        "inactive_split_bytes.all.peak": 906550272,
+        "inactive_split_bytes.large_pool.allocated": 5736156622848,
+        "inactive_split_bytes.large_pool.current": 106604544,
+        "inactive_split_bytes.large_pool.freed": 5736050018304,
+        "inactive_split_bytes.large_pool.peak": 860701696,
+        "inactive_split_bytes.small_pool.allocated": 2338553448960,
+        "inactive_split_bytes.small_pool.current": 43627008,
+        "inactive_split_bytes.small_pool.freed": 2338509821952,
+        "inactive_split_bytes.small_pool.peak": 79716864,
+        "max_split_size": -1,
+        "num_alloc_retries": 0,
+        "num_device_alloc": 1464,
+        "num_device_free": 1118,
+        "num_ooms": 0,
+        "num_sync_all_streams": 7,
+        "oversize_allocations.allocated": 0,
+        "oversize_allocations.current": 0,
+        "oversize_allocations.freed": 0,
+        "oversize_allocations.peak": 0,
+        "oversize_segments.allocated": 0,
+        "oversize_segments.current": 0,
+        "oversize_segments.freed": 0,
+        "oversize_segments.peak": 0,
+        "requested_bytes.all.allocated": 7963130743540,
+        "requested_bytes.all.current": 967046712,
+        "requested_bytes.all.freed": 7962163696828,
+        "requested_bytes.all.peak": 3263085376,
+        "requested_bytes.large_pool.allocated": 5688361933632,
+        "requested_bytes.large_pool.current": 950013448,
+        "requested_bytes.large_pool.freed": 5687411920184,
+        "requested_bytes.large_pool.peak": 3179241096,
+        "requested_bytes.small_pool.allocated": 2274768809908,
+        "requested_bytes.small_pool.current": 17033264,
+        "requested_bytes.small_pool.freed": 2274751776644,
+        "requested_bytes.small_pool.peak": 114852048,
+        "reserved_bytes.all.allocated": 35894853632,
+        "reserved_bytes.all.current": 8917090304,
+        "reserved_bytes.all.freed": 26977763328,
+        "reserved_bytes.all.peak": 8917090304,
+        "reserved_bytes.large_pool.allocated": 35162947584,
+        "reserved_bytes.large_pool.current": 8772386816,
+        "reserved_bytes.large_pool.freed": 26390560768,
+        "reserved_bytes.large_pool.peak": 8772386816,
+        "reserved_bytes.small_pool.allocated": 731906048,
+        "reserved_bytes.small_pool.current": 144703488,
+        "reserved_bytes.small_pool.freed": 587202560,
+        "reserved_bytes.small_pool.peak": 144703488,
+        "segment.all.allocated": 1464,
+        "segment.all.current": 346,
+        "segment.all.freed": 1118,
+        "segment.all.peak": 346,
+        "segment.large_pool.allocated": 1115,
+        "segment.large_pool.current": 277,
+        "segment.large_pool.freed": 838,
+        "segment.large_pool.peak": 277,
+        "segment.small_pool.allocated": 349,
+        "segment.small_pool.current": 69,
+        "segment.small_pool.freed": 280,
+        "segment.small_pool.peak": 69
+    }
+}

outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_7999/all_results_la_kron_all_homo_mc_corr_1000.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"eval_matthews_correlation": 0.5403785768297347}

outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_7999/eval_res_la_kron_all_homo_mc_corr_1000.json ADDED Viewed

The diff for this file is too large to render. See raw diff

outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_7999/gpu_stats_la.json ADDED Viewed

	@@ -0,0 +1,130 @@

+{
+    "memory_allocated": 968467968,
+    "max_memory_allocated": 3324437504,
+    "memory_reserved": 8908701696,
+    "max_memory_reserved": 8917090304,
+    "memory_stats": {
+        "active.all.allocated": 14527687,
+        "active.all.current": 1234,
+        "active.all.freed": 14526453,
+        "active.all.peak": 1487,
+        "active.large_pool.allocated": 1804867,
+        "active.large_pool.current": 284,
+        "active.large_pool.freed": 1804583,
+        "active.large_pool.peak": 482,
+        "active.small_pool.allocated": 12722820,
+        "active.small_pool.current": 950,
+        "active.small_pool.freed": 12721870,
+        "active.small_pool.peak": 1200,
+        "active_bytes.all.allocated": 10162861598720,
+        "active_bytes.all.current": 968467968,
+        "active_bytes.all.freed": 10161893130752,
+        "active_bytes.all.peak": 3324437504,
+        "active_bytes.large_pool.allocated": 7318219412480,
+        "active_bytes.large_pool.current": 951277568,
+        "active_bytes.large_pool.freed": 7317268134912,
+        "active_bytes.large_pool.peak": 3240482816,
+        "active_bytes.small_pool.allocated": 2844642186240,
+        "active_bytes.small_pool.current": 17190400,
+        "active_bytes.small_pool.freed": 2844624995840,
+        "active_bytes.small_pool.peak": 114983424,
+        "allocated_bytes.all.allocated": 10162861598720,
+        "allocated_bytes.all.current": 968467968,
+        "allocated_bytes.all.freed": 10161893130752,
+        "allocated_bytes.all.peak": 3324437504,
+        "allocated_bytes.large_pool.allocated": 7318219412480,
+        "allocated_bytes.large_pool.current": 951277568,
+        "allocated_bytes.large_pool.freed": 7317268134912,
+        "allocated_bytes.large_pool.peak": 3240482816,
+        "allocated_bytes.small_pool.allocated": 2844642186240,
+        "allocated_bytes.small_pool.current": 17190400,
+        "allocated_bytes.small_pool.freed": 2844624995840,
+        "allocated_bytes.small_pool.peak": 114983424,
+        "allocation.all.allocated": 14527687,
+        "allocation.all.current": 1234,
+        "allocation.all.freed": 14526453,
+        "allocation.all.peak": 1487,
+        "allocation.large_pool.allocated": 1804867,
+        "allocation.large_pool.current": 284,
+        "allocation.large_pool.freed": 1804583,
+        "allocation.large_pool.peak": 482,
+        "allocation.small_pool.allocated": 12722820,
+        "allocation.small_pool.current": 950,
+        "allocation.small_pool.freed": 12721870,
+        "allocation.small_pool.peak": 1200,
+        "inactive_split.all.allocated": 6924013,
+        "inactive_split.all.current": 173,
+        "inactive_split.all.freed": 6923840,
+        "inactive_split.all.peak": 268,
+        "inactive_split.large_pool.allocated": 834865,
+        "inactive_split.large_pool.current": 45,
+        "inactive_split.large_pool.freed": 834820,
+        "inactive_split.large_pool.peak": 98,
+        "inactive_split.small_pool.allocated": 6089148,
+        "inactive_split.small_pool.current": 128,
+        "inactive_split.small_pool.freed": 6089020,
+        "inactive_split.small_pool.peak": 242,
+        "inactive_split_bytes.all.allocated": 10110169738752,
+        "inactive_split_bytes.all.current": 147216896,
+        "inactive_split_bytes.all.freed": 10110022521856,
+        "inactive_split_bytes.all.peak": 906550272,
+        "inactive_split_bytes.large_pool.allocated": 7181281266688,
+        "inactive_split_bytes.large_pool.current": 107784192,
+        "inactive_split_bytes.large_pool.freed": 7181173482496,
+        "inactive_split_bytes.large_pool.peak": 860701696,
+        "inactive_split_bytes.small_pool.allocated": 2928888472064,
+        "inactive_split_bytes.small_pool.current": 39432704,
+        "inactive_split_bytes.small_pool.freed": 2928849039360,
+        "inactive_split_bytes.small_pool.peak": 79716864,
+        "max_split_size": -1,
+        "num_alloc_retries": 0,
+        "num_device_alloc": 1806,
+        "num_device_free": 1464,
+        "num_ooms": 0,
+        "num_sync_all_streams": 9,
+        "oversize_allocations.allocated": 0,
+        "oversize_allocations.current": 0,
+        "oversize_allocations.freed": 0,
+        "oversize_allocations.peak": 0,
+        "oversize_segments.allocated": 0,
+        "oversize_segments.current": 0,
+        "oversize_segments.freed": 0,
+        "oversize_segments.peak": 0,
+        "requested_bytes.all.allocated": 9953909177175,
+        "requested_bytes.all.current": 967046712,
+        "requested_bytes.all.freed": 9952942130463,
+        "requested_bytes.all.peak": 3263085376,
+        "requested_bytes.large_pool.allocated": 7110448157200,
+        "requested_bytes.large_pool.current": 950013448,
+        "requested_bytes.large_pool.freed": 7109498143752,
+        "requested_bytes.large_pool.peak": 3179241096,
+        "requested_bytes.small_pool.allocated": 2843461019975,
+        "requested_bytes.small_pool.current": 17033264,
+        "requested_bytes.small_pool.freed": 2843443986711,
+        "requested_bytes.small_pool.peak": 114852048,
+        "reserved_bytes.all.allocated": 44409290752,
+        "reserved_bytes.all.current": 8908701696,
+        "reserved_bytes.all.freed": 35500589056,
+        "reserved_bytes.all.peak": 8917090304,
+        "reserved_bytes.large_pool.allocated": 43505418240,
+        "reserved_bytes.large_pool.current": 8772386816,
+        "reserved_bytes.large_pool.freed": 34733031424,
+        "reserved_bytes.large_pool.peak": 8772386816,
+        "reserved_bytes.small_pool.allocated": 903872512,
+        "reserved_bytes.small_pool.current": 136314880,
+        "reserved_bytes.small_pool.freed": 767557632,
+        "reserved_bytes.small_pool.peak": 144703488,
+        "segment.all.allocated": 1806,
+        "segment.all.current": 342,
+        "segment.all.freed": 1464,
+        "segment.all.peak": 346,
+        "segment.large_pool.allocated": 1375,
+        "segment.large_pool.current": 277,
+        "segment.large_pool.freed": 1098,
+        "segment.large_pool.peak": 277,
+        "segment.small_pool.allocated": 431,
+        "segment.small_pool.current": 65,
+        "segment.small_pool.freed": 366,
+        "segment.small_pool.peak": 69
+    }
+}

outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_9999/all_results_la_kron_all_homo_mc_corr_1000.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"eval_matthews_correlation": 0.5347381322825221}

outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_9999/eval_res_la_kron_all_homo_mc_corr_1000.json ADDED Viewed

The diff for this file is too large to render. See raw diff

outputs/cola/bert-base-uncased_adapterstrain_val_0.0001_42_8_10000/step_9999/gpu_stats_la.json ADDED Viewed

	@@ -0,0 +1,130 @@

+{
+    "memory_allocated": 969647616,
+    "max_memory_allocated": 3324437504,
+    "memory_reserved": 8912896000,
+    "max_memory_reserved": 8917090304,
+    "memory_stats": {
+        "active.all.allocated": 17433374,
+        "active.all.current": 1234,
+        "active.all.freed": 17432140,
+        "active.all.peak": 1487,
+        "active.large_pool.allocated": 2165840,
+        "active.large_pool.current": 284,
+        "active.large_pool.freed": 2165556,
+        "active.large_pool.peak": 482,
+        "active.small_pool.allocated": 15267534,
+        "active.small_pool.current": 950,
+        "active.small_pool.freed": 15266584,
+        "active.small_pool.peak": 1200,
+        "active_bytes.all.allocated": 12195657911296,
+        "active_bytes.all.current": 969647616,
+        "active_bytes.all.freed": 12194688263680,
+        "active_bytes.all.peak": 3324437504,
+        "active_bytes.large_pool.allocated": 8782087207936,
+        "active_bytes.large_pool.current": 952457216,
+        "active_bytes.large_pool.freed": 8781134750720,
+        "active_bytes.large_pool.peak": 3240482816,
+        "active_bytes.small_pool.allocated": 3413570703360,
+        "active_bytes.small_pool.current": 17190400,
+        "active_bytes.small_pool.freed": 3413553512960,
+        "active_bytes.small_pool.peak": 114983424,
+        "allocated_bytes.all.allocated": 12195657911296,
+        "allocated_bytes.all.current": 969647616,
+        "allocated_bytes.all.freed": 12194688263680,
+        "allocated_bytes.all.peak": 3324437504,
+        "allocated_bytes.large_pool.allocated": 8782087207936,
+        "allocated_bytes.large_pool.current": 952457216,
+        "allocated_bytes.large_pool.freed": 8781134750720,
+        "allocated_bytes.large_pool.peak": 3240482816,
+        "allocated_bytes.small_pool.allocated": 3413570703360,
+        "allocated_bytes.small_pool.current": 17190400,
+        "allocated_bytes.small_pool.freed": 3413553512960,
+        "allocated_bytes.small_pool.peak": 114983424,
+        "allocation.all.allocated": 17433374,
+        "allocation.all.current": 1234,
+        "allocation.all.freed": 17432140,
+        "allocation.all.peak": 1487,
+        "allocation.large_pool.allocated": 2165840,
+        "allocation.large_pool.current": 284,
+        "allocation.large_pool.freed": 2165556,
+        "allocation.large_pool.peak": 482,
+        "allocation.small_pool.allocated": 15267534,
+        "allocation.small_pool.current": 950,
+        "allocation.small_pool.freed": 15266584,
+        "allocation.small_pool.peak": 1200,
+        "inactive_split.all.allocated": 8349332,
+        "inactive_split.all.current": 167,
+        "inactive_split.all.freed": 8349165,
+        "inactive_split.all.peak": 268,
+        "inactive_split.large_pool.allocated": 1002355,
+        "inactive_split.large_pool.current": 43,
+        "inactive_split.large_pool.freed": 1002312,
+        "inactive_split.large_pool.peak": 98,
+        "inactive_split.small_pool.allocated": 7346977,
+        "inactive_split.small_pool.current": 124,
+        "inactive_split.small_pool.freed": 7346853,
+        "inactive_split.small_pool.peak": 242,
+        "inactive_split_bytes.all.allocated": 12144424250880,
+        "inactive_split_bytes.all.current": 141842944,
+        "inactive_split_bytes.all.freed": 12144282407936,
+        "inactive_split_bytes.all.peak": 906550272,
+        "inactive_split_bytes.large_pool.allocated": 8631940797440,
+        "inactive_split_bytes.large_pool.current": 106604544,
+        "inactive_split_bytes.large_pool.freed": 8631834192896,
+        "inactive_split_bytes.large_pool.peak": 860701696,
+        "inactive_split_bytes.small_pool.allocated": 3512483453440,
+        "inactive_split_bytes.small_pool.current": 35238400,
+        "inactive_split_bytes.small_pool.freed": 3512448215040,
+        "inactive_split_bytes.small_pool.peak": 79716864,
+        "max_split_size": -1,
+        "num_alloc_retries": 0,
+        "num_device_alloc": 2177,
+        "num_device_free": 1833,
+        "num_ooms": 0,
+        "num_sync_all_streams": 11,
+        "oversize_allocations.allocated": 0,
+        "oversize_allocations.current": 0,
+        "oversize_allocations.freed": 0,
+        "oversize_allocations.peak": 0,
+        "oversize_segments.allocated": 0,
+        "oversize_segments.current": 0,
+        "oversize_segments.freed": 0,
+        "oversize_segments.peak": 0,
+        "requested_bytes.all.allocated": 11944687613846,
+        "requested_bytes.all.current": 967046712,
+        "requested_bytes.all.freed": 11943720567134,
+        "requested_bytes.all.peak": 3263085376,
+        "requested_bytes.large_pool.allocated": 8532534380768,
+        "requested_bytes.large_pool.current": 950013448,
+        "requested_bytes.large_pool.freed": 8531584367320,
+        "requested_bytes.large_pool.peak": 3179241096,
+        "requested_bytes.small_pool.allocated": 3412153233078,
+        "requested_bytes.small_pool.current": 17033264,
+        "requested_bytes.small_pool.freed": 3412136199814,
+        "requested_bytes.small_pool.peak": 114852048,
+        "reserved_bytes.all.allocated": 53510930432,
+        "reserved_bytes.all.current": 8912896000,
+        "reserved_bytes.all.freed": 44598034432,
+        "reserved_bytes.all.peak": 8917090304,
+        "reserved_bytes.large_pool.allocated": 52424605696,
+        "reserved_bytes.large_pool.current": 8772386816,
+        "reserved_bytes.large_pool.freed": 43652218880,
+        "reserved_bytes.large_pool.peak": 8772386816,
+        "reserved_bytes.small_pool.allocated": 1086324736,
+        "reserved_bytes.small_pool.current": 140509184,
+        "reserved_bytes.small_pool.freed": 945815552,
+        "reserved_bytes.small_pool.peak": 144703488,
+        "segment.all.allocated": 2177,
+        "segment.all.current": 344,
+        "segment.all.freed": 1833,
+        "segment.all.peak": 346,
+        "segment.large_pool.allocated": 1659,
+        "segment.large_pool.current": 277,
+        "segment.large_pool.freed": 1382,
+        "segment.large_pool.peak": 277,
+        "segment.small_pool.allocated": 518,
+        "segment.small_pool.current": 67,
+        "segment.small_pool.freed": 451,
+        "segment.small_pool.peak": 69
+    }
+}

outputs/cola/roberta-base_adapterstrain_val_0.0001_12345_8_10000/logfile_la.log ADDED Viewed

	@@ -0,0 +1,846 @@

+06/02/2024 07:57:08 - INFO - __main__ -  Number of labels detected = 2
+06/02/2024 07:57:08 - INFO - adapters.heads.model_mixin - Adding head 'default' with config {'head_type': 'masked_lm', 'vocab_size': 50265, 'embedding_size': 768, 'layers': 2, 'activation_function': 'gelu', 'layer_norm': True, 'bias': True, 'shift_labels': False, 'label2id': None}.
+06/02/2024 07:57:09 - INFO - adapters.loading - Loading module configuration from ./outputs/cola/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_0/adapter_config.json
+06/02/2024 07:57:09 - INFO - adapters.configuration.model_adapters_config - Adding adapter 'cola'.
+06/02/2024 07:57:09 - INFO - adapters.loading - Loading module weights from ./outputs/cola/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_0/pytorch_adapter.bin
+06/02/2024 07:57:09 - INFO - adapters.loading - Loading module configuration from ./outputs/cola/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_0/head_config.json
+06/02/2024 07:57:09 - INFO - adapters.heads.model_mixin - Adding head 'cola' with config {'head_type': 'classification', 'num_labels': 2, 'layers': 2, 'activation_function': 'tanh', 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'use_pooler': False, 'bias': True, 'dropout_prob': None}.
+06/02/2024 07:57:09 - INFO - adapters.loading - Loading module weights from ./outputs/cola/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_0/pytorch_model_head.bin
+06/02/2024 07:57:09 - INFO - __main__ - Adapter Name = cola
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.0.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.0.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.0.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.0.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.0.output.adapters.cola.adapter_down.0.weight
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.0.output.adapters.cola.adapter_down.0.bias
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.0.output.adapters.cola.adapter_up.weight
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.0.output.adapters.cola.adapter_up.bias
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.1.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.1.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.1.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.1.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.1.output.adapters.cola.adapter_down.0.weight
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.1.output.adapters.cola.adapter_down.0.bias
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.1.output.adapters.cola.adapter_up.weight
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.1.output.adapters.cola.adapter_up.bias
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.2.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.2.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.2.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.2.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.2.output.adapters.cola.adapter_down.0.weight
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.2.output.adapters.cola.adapter_down.0.bias
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.2.output.adapters.cola.adapter_up.weight
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.2.output.adapters.cola.adapter_up.bias
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.3.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.3.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.3.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.3.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.3.output.adapters.cola.adapter_down.0.weight
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.3.output.adapters.cola.adapter_down.0.bias
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.3.output.adapters.cola.adapter_up.weight
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.3.output.adapters.cola.adapter_up.bias
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.4.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.4.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.4.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.4.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.4.output.adapters.cola.adapter_down.0.weight
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.4.output.adapters.cola.adapter_down.0.bias
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.4.output.adapters.cola.adapter_up.weight
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.4.output.adapters.cola.adapter_up.bias
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.5.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.5.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.5.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.5.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.5.output.adapters.cola.adapter_down.0.weight
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.5.output.adapters.cola.adapter_down.0.bias
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.5.output.adapters.cola.adapter_up.weight
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.5.output.adapters.cola.adapter_up.bias
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.6.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.6.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.6.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.6.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.6.output.adapters.cola.adapter_down.0.weight
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.6.output.adapters.cola.adapter_down.0.bias
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.6.output.adapters.cola.adapter_up.weight
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.6.output.adapters.cola.adapter_up.bias
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.7.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.7.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.7.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.7.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.7.output.adapters.cola.adapter_down.0.weight
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.7.output.adapters.cola.adapter_down.0.bias
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.7.output.adapters.cola.adapter_up.weight
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.7.output.adapters.cola.adapter_up.bias
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.8.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.8.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.8.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.8.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.8.output.adapters.cola.adapter_down.0.weight
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.8.output.adapters.cola.adapter_down.0.bias
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.8.output.adapters.cola.adapter_up.weight
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.8.output.adapters.cola.adapter_up.bias
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.9.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.9.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.9.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.9.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.9.output.adapters.cola.adapter_down.0.weight
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.9.output.adapters.cola.adapter_down.0.bias
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.9.output.adapters.cola.adapter_up.weight
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.9.output.adapters.cola.adapter_up.bias
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.10.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.10.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.10.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.10.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.10.output.adapters.cola.adapter_down.0.weight
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.10.output.adapters.cola.adapter_down.0.bias
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.10.output.adapters.cola.adapter_up.weight
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.10.output.adapters.cola.adapter_up.bias
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.11.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.11.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.11.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.11.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.11.output.adapters.cola.adapter_down.0.weight
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.11.output.adapters.cola.adapter_down.0.bias
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.11.output.adapters.cola.adapter_up.weight
+06/02/2024 07:57:09 - INFO - __main__ - roberta.encoder.layer.11.output.adapters.cola.adapter_up.bias
+06/02/2024 07:57:09 - INFO - __main__ - heads.cola.1.weight
+06/02/2024 07:57:09 - INFO - __main__ - heads.cola.1.bias
+06/02/2024 07:57:09 - INFO - __main__ - heads.cola.4.weight
+06/02/2024 07:57:09 - INFO - __main__ - heads.cola.4.bias
+06/02/2024 07:57:10 - INFO - __main__ - Sample 3412 of the training set: {'input_ids': [0, 100, 7546, 5, 3737, 4, 2], 'attention_mask': [1, 1, 1, 1, 1, 1, 1], 'labels': 1}.
+06/02/2024 07:57:10 - INFO - __main__ - Sample 6002 of the training set: {'input_ids': [0, 100, 531, 64, 3529, 2968, 8014, 4, 2], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': 0}.
+06/02/2024 07:57:10 - INFO - __main__ - Sample 83 of the training set: {'input_ids': [0, 133, 20276, 910, 10434, 1495, 7, 5, 1255, 4, 2], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': 0}.
+06/02/2024 08:01:59 - INFO - __main__ - f_mu shape : torch.Size([1043, 2])
+06/02/2024 08:01:59 - INFO - __main__ - f_var shape :  torch.Size([1043, 2, 2])
+06/02/2024 08:01:59 - INFO - __main__ - tensor([[0.0461, 0.1350],
+        [0.0575, 0.1638],
+        [0.0505, 0.0935],
+        ...,
+        [0.1243, 0.0734],
+        [0.0638, 0.1309],
+        [0.1254, 0.0759]], device='cuda:0')
+06/02/2024 08:01:59 - INFO - __main__ - tensor([[[ 9.6094,  9.5192],
+         [ 9.5192,  9.6058]],
+        [[ 9.4777,  9.4281],
+         [ 9.4281,  9.4676]],
+        [[ 9.1818,  9.1107],
+         [ 9.1107,  9.1895]],
+        ...,
+        [[10.9495, 10.9250],
+         [10.9249, 10.9505]],
+        [[ 9.3165,  9.2374],
+         [ 9.2374,  9.3122]],
+        [[10.9862, 10.9572],
+         [10.9572, 10.9816]]], device='cuda:0')
+06/02/2024 08:01:59 - INFO - __main__ - ***** Completed training *****
+06/02/2024 08:02:02 - INFO - __main__ -  Number of labels detected = 2
+06/02/2024 08:02:03 - INFO - adapters.heads.model_mixin - Adding head 'default' with config {'head_type': 'masked_lm', 'vocab_size': 50265, 'embedding_size': 768, 'layers': 2, 'activation_function': 'gelu', 'layer_norm': True, 'bias': True, 'shift_labels': False, 'label2id': None}.
+06/02/2024 08:02:04 - INFO - adapters.loading - Loading module configuration from ./outputs/cola/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_1999/adapter_config.json
+06/02/2024 08:02:04 - INFO - adapters.configuration.model_adapters_config - Adding adapter 'cola'.
+06/02/2024 08:02:04 - INFO - adapters.loading - Loading module weights from ./outputs/cola/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_1999/pytorch_adapter.bin
+06/02/2024 08:02:04 - INFO - adapters.loading - Loading module configuration from ./outputs/cola/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_1999/head_config.json
+06/02/2024 08:02:04 - INFO - adapters.heads.model_mixin - Adding head 'cola' with config {'head_type': 'classification', 'num_labels': 2, 'layers': 2, 'activation_function': 'tanh', 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'use_pooler': False, 'bias': True, 'dropout_prob': None}.
+06/02/2024 08:02:04 - INFO - adapters.loading - Loading module weights from ./outputs/cola/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_1999/pytorch_model_head.bin
+06/02/2024 08:02:04 - INFO - __main__ - Adapter Name = cola
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.0.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.0.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.0.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.0.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.0.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.0.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.0.output.adapters.cola.adapter_up.weight
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.0.output.adapters.cola.adapter_up.bias
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.1.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.1.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.1.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.1.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.1.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.1.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.1.output.adapters.cola.adapter_up.weight
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.1.output.adapters.cola.adapter_up.bias
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.2.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.2.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.2.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.2.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.2.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.2.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.2.output.adapters.cola.adapter_up.weight
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.2.output.adapters.cola.adapter_up.bias
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.3.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.3.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.3.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.3.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.3.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.3.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.3.output.adapters.cola.adapter_up.weight
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.3.output.adapters.cola.adapter_up.bias
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.4.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.4.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.4.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.4.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.4.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.4.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.4.output.adapters.cola.adapter_up.weight
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.4.output.adapters.cola.adapter_up.bias
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.5.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.5.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.5.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.5.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.5.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.5.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.5.output.adapters.cola.adapter_up.weight
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.5.output.adapters.cola.adapter_up.bias
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.6.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.6.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.6.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.6.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.6.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.6.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.6.output.adapters.cola.adapter_up.weight
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.6.output.adapters.cola.adapter_up.bias
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.7.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.7.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.7.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.7.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.7.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.7.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.7.output.adapters.cola.adapter_up.weight
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.7.output.adapters.cola.adapter_up.bias
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.8.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.8.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.8.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.8.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.8.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.8.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.8.output.adapters.cola.adapter_up.weight
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.8.output.adapters.cola.adapter_up.bias
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.9.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.9.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.9.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.9.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.9.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.9.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.9.output.adapters.cola.adapter_up.weight
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.9.output.adapters.cola.adapter_up.bias
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.10.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.10.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.10.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.10.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.10.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.10.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.10.output.adapters.cola.adapter_up.weight
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.10.output.adapters.cola.adapter_up.bias
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.11.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.11.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.11.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.11.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.11.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.11.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.11.output.adapters.cola.adapter_up.weight
+06/02/2024 08:02:04 - INFO - __main__ - roberta.encoder.layer.11.output.adapters.cola.adapter_up.bias
+06/02/2024 08:02:04 - INFO - __main__ - heads.cola.1.weight
+06/02/2024 08:02:04 - INFO - __main__ - heads.cola.1.bias
+06/02/2024 08:02:04 - INFO - __main__ - heads.cola.4.weight
+06/02/2024 08:02:04 - INFO - __main__ - heads.cola.4.bias
+06/02/2024 08:02:05 - INFO - __main__ - Sample 3412 of the training set: {'input_ids': [0, 100, 7546, 5, 3737, 4, 2], 'attention_mask': [1, 1, 1, 1, 1, 1, 1], 'labels': 1}.
+06/02/2024 08:02:05 - INFO - __main__ - Sample 6002 of the training set: {'input_ids': [0, 100, 531, 64, 3529, 2968, 8014, 4, 2], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': 0}.
+06/02/2024 08:02:05 - INFO - __main__ - Sample 83 of the training set: {'input_ids': [0, 133, 20276, 910, 10434, 1495, 7, 5, 1255, 4, 2], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': 0}.
+06/02/2024 08:06:58 - INFO - __main__ - f_mu shape : torch.Size([1043, 2])
+06/02/2024 08:06:58 - INFO - __main__ - f_var shape :  torch.Size([1043, 2, 2])
+06/02/2024 08:06:58 - INFO - __main__ - tensor([[-1.3785,  1.5697],
+        [-1.5844,  1.6368],
+        [-1.4067,  1.5115],
+        ...,
+        [-1.6957,  2.0050],
+        [ 0.1387,  0.0336],
+        [ 0.2648, -0.1128]], device='cuda:0')
+06/02/2024 08:06:58 - INFO - __main__ - tensor([[[ 4.2579,  1.3738],
+         [ 1.3738,  4.2773]],
+        [[ 2.6641,  1.8229],
+         [ 1.8229,  2.6801]],
+        [[ 4.7692,  1.4135],
+         [ 1.4135,  4.7653]],
+        ...,
+        [[ 4.3119,  3.3220],
+         [ 3.3220,  4.4150]],
+        [[ 3.6567, -0.2874],
+         [-0.2874,  3.7251]],
+        [[ 3.1754,  0.5567],
+         [ 0.5567,  3.1824]]], device='cuda:0')
+06/02/2024 08:06:58 - INFO - __main__ - ***** Completed training *****
+06/02/2024 08:07:24 - INFO - __main__ -  Number of labels detected = 2
+06/02/2024 08:07:25 - INFO - adapters.heads.model_mixin - Adding head 'default' with config {'head_type': 'masked_lm', 'vocab_size': 50265, 'embedding_size': 768, 'layers': 2, 'activation_function': 'gelu', 'layer_norm': True, 'bias': True, 'shift_labels': False, 'label2id': None}.
+06/02/2024 08:07:25 - INFO - adapters.loading - Loading module configuration from ./outputs/cola/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_3999/adapter_config.json
+06/02/2024 08:07:25 - INFO - adapters.configuration.model_adapters_config - Adding adapter 'cola'.
+06/02/2024 08:07:26 - INFO - adapters.loading - Loading module weights from ./outputs/cola/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_3999/pytorch_adapter.bin
+06/02/2024 08:07:26 - INFO - adapters.loading - Loading module configuration from ./outputs/cola/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_3999/head_config.json
+06/02/2024 08:07:26 - INFO - adapters.heads.model_mixin - Adding head 'cola' with config {'head_type': 'classification', 'num_labels': 2, 'layers': 2, 'activation_function': 'tanh', 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'use_pooler': False, 'bias': True, 'dropout_prob': None}.
+06/02/2024 08:07:26 - INFO - adapters.loading - Loading module weights from ./outputs/cola/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_3999/pytorch_model_head.bin
+06/02/2024 08:07:26 - INFO - __main__ - Adapter Name = cola
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.0.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.0.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.0.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.0.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.0.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.0.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.0.output.adapters.cola.adapter_up.weight
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.0.output.adapters.cola.adapter_up.bias
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.1.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.1.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.1.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.1.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.1.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.1.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.1.output.adapters.cola.adapter_up.weight
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.1.output.adapters.cola.adapter_up.bias
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.2.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.2.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.2.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.2.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.2.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.2.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.2.output.adapters.cola.adapter_up.weight
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.2.output.adapters.cola.adapter_up.bias
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.3.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.3.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.3.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.3.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.3.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.3.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.3.output.adapters.cola.adapter_up.weight
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.3.output.adapters.cola.adapter_up.bias
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.4.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.4.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.4.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.4.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.4.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.4.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.4.output.adapters.cola.adapter_up.weight
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.4.output.adapters.cola.adapter_up.bias
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.5.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.5.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.5.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.5.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.5.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.5.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.5.output.adapters.cola.adapter_up.weight
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.5.output.adapters.cola.adapter_up.bias
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.6.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.6.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.6.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.6.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.6.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.6.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.6.output.adapters.cola.adapter_up.weight
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.6.output.adapters.cola.adapter_up.bias
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.7.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.7.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.7.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.7.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.7.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.7.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.7.output.adapters.cola.adapter_up.weight
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.7.output.adapters.cola.adapter_up.bias
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.8.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.8.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.8.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.8.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.8.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.8.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.8.output.adapters.cola.adapter_up.weight
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.8.output.adapters.cola.adapter_up.bias
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.9.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.9.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.9.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.9.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.9.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.9.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.9.output.adapters.cola.adapter_up.weight
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.9.output.adapters.cola.adapter_up.bias
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.10.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.10.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.10.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.10.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.10.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.10.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.10.output.adapters.cola.adapter_up.weight
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.10.output.adapters.cola.adapter_up.bias
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.11.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.11.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.11.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.11.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.11.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.11.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.11.output.adapters.cola.adapter_up.weight
+06/02/2024 08:07:26 - INFO - __main__ - roberta.encoder.layer.11.output.adapters.cola.adapter_up.bias
+06/02/2024 08:07:26 - INFO - __main__ - heads.cola.1.weight
+06/02/2024 08:07:26 - INFO - __main__ - heads.cola.1.bias
+06/02/2024 08:07:26 - INFO - __main__ - heads.cola.4.weight
+06/02/2024 08:07:26 - INFO - __main__ - heads.cola.4.bias
+06/02/2024 08:07:26 - INFO - __main__ - Sample 3412 of the training set: {'input_ids': [0, 100, 7546, 5, 3737, 4, 2], 'attention_mask': [1, 1, 1, 1, 1, 1, 1], 'labels': 1}.
+06/02/2024 08:07:26 - INFO - __main__ - Sample 6002 of the training set: {'input_ids': [0, 100, 531, 64, 3529, 2968, 8014, 4, 2], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': 0}.
+06/02/2024 08:07:26 - INFO - __main__ - Sample 83 of the training set: {'input_ids': [0, 133, 20276, 910, 10434, 1495, 7, 5, 1255, 4, 2], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': 0}.
+06/02/2024 08:12:24 - INFO - __main__ - f_mu shape : torch.Size([1043, 2])
+06/02/2024 08:12:24 - INFO - __main__ - f_var shape :  torch.Size([1043, 2, 2])
+06/02/2024 08:12:24 - INFO - __main__ - tensor([[-1.8083,  1.9876],
+        [-2.1538,  2.1866],
+        [-1.8847,  1.9186],
+        ...,
+        [-2.4217,  2.7522],
+        [ 0.4212, -0.2226],
+        [ 0.7813, -0.5914]], device='cuda:0')
+06/02/2024 08:12:24 - INFO - __main__ - tensor([[[ 4.8062,  0.8630],
+         [ 0.8630,  4.7482]],
+        [[ 2.8347,  1.9434],
+         [ 1.9434,  2.8418]],
+        [[ 6.4753, -1.0532],
+         [-1.0532,  6.2592]],
+        ...,
+        [[ 4.3534,  3.6074],
+         [ 3.6074,  4.3897]],
+        [[ 4.9381, -1.9654],
+         [-1.9654,  4.7852]],
+        [[ 5.4259, -1.6392],
+         [-1.6392,  5.1288]]], device='cuda:0')
+06/02/2024 08:12:24 - INFO - __main__ - ***** Completed training *****
+06/02/2024 08:12:27 - INFO - __main__ -  Number of labels detected = 2
+06/02/2024 08:12:28 - INFO - adapters.heads.model_mixin - Adding head 'default' with config {'head_type': 'masked_lm', 'vocab_size': 50265, 'embedding_size': 768, 'layers': 2, 'activation_function': 'gelu', 'layer_norm': True, 'bias': True, 'shift_labels': False, 'label2id': None}.
+06/02/2024 08:12:28 - INFO - adapters.loading - Loading module configuration from ./outputs/cola/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_5999/adapter_config.json
+06/02/2024 08:12:28 - INFO - adapters.configuration.model_adapters_config - Adding adapter 'cola'.
+06/02/2024 08:12:28 - INFO - adapters.loading - Loading module weights from ./outputs/cola/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_5999/pytorch_adapter.bin
+06/02/2024 08:12:28 - INFO - adapters.loading - Loading module configuration from ./outputs/cola/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_5999/head_config.json
+06/02/2024 08:12:28 - INFO - adapters.heads.model_mixin - Adding head 'cola' with config {'head_type': 'classification', 'num_labels': 2, 'layers': 2, 'activation_function': 'tanh', 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'use_pooler': False, 'bias': True, 'dropout_prob': None}.
+06/02/2024 08:12:28 - INFO - adapters.loading - Loading module weights from ./outputs/cola/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_5999/pytorch_model_head.bin
+06/02/2024 08:12:28 - INFO - __main__ - Adapter Name = cola
+06/02/2024 08:12:28 - INFO - __main__ - roberta.encoder.layer.0.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:12:28 - INFO - __main__ - roberta.encoder.layer.0.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:12:28 - INFO - __main__ - roberta.encoder.layer.0.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:12:28 - INFO - __main__ - roberta.encoder.layer.0.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:12:28 - INFO - __main__ - roberta.encoder.layer.0.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:12:28 - INFO - __main__ - roberta.encoder.layer.0.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:12:28 - INFO - __main__ - roberta.encoder.layer.0.output.adapters.cola.adapter_up.weight
+06/02/2024 08:12:28 - INFO - __main__ - roberta.encoder.layer.0.output.adapters.cola.adapter_up.bias
+06/02/2024 08:12:28 - INFO - __main__ - roberta.encoder.layer.1.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:12:28 - INFO - __main__ - roberta.encoder.layer.1.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:12:28 - INFO - __main__ - roberta.encoder.layer.1.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:12:28 - INFO - __main__ - roberta.encoder.layer.1.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:12:28 - INFO - __main__ - roberta.encoder.layer.1.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:12:28 - INFO - __main__ - roberta.encoder.layer.1.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:12:28 - INFO - __main__ - roberta.encoder.layer.1.output.adapters.cola.adapter_up.weight
+06/02/2024 08:12:28 - INFO - __main__ - roberta.encoder.layer.1.output.adapters.cola.adapter_up.bias
+06/02/2024 08:12:28 - INFO - __main__ - roberta.encoder.layer.2.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:12:28 - INFO - __main__ - roberta.encoder.layer.2.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:12:28 - INFO - __main__ - roberta.encoder.layer.2.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:12:28 - INFO - __main__ - roberta.encoder.layer.2.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:12:28 - INFO - __main__ - roberta.encoder.layer.2.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:12:28 - INFO - __main__ - roberta.encoder.layer.2.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:12:28 - INFO - __main__ - roberta.encoder.layer.2.output.adapters.cola.adapter_up.weight
+06/02/2024 08:12:28 - INFO - __main__ - roberta.encoder.layer.2.output.adapters.cola.adapter_up.bias
+06/02/2024 08:12:28 - INFO - __main__ - roberta.encoder.layer.3.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:12:28 - INFO - __main__ - roberta.encoder.layer.3.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:12:28 - INFO - __main__ - roberta.encoder.layer.3.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:12:28 - INFO - __main__ - roberta.encoder.layer.3.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:12:28 - INFO - __main__ - roberta.encoder.layer.3.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:12:28 - INFO - __main__ - roberta.encoder.layer.3.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:12:28 - INFO - __main__ - roberta.encoder.layer.3.output.adapters.cola.adapter_up.weight
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.3.output.adapters.cola.adapter_up.bias
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.4.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.4.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.4.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.4.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.4.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.4.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.4.output.adapters.cola.adapter_up.weight
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.4.output.adapters.cola.adapter_up.bias
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.5.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.5.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.5.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.5.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.5.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.5.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.5.output.adapters.cola.adapter_up.weight
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.5.output.adapters.cola.adapter_up.bias
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.6.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.6.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.6.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.6.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.6.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.6.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.6.output.adapters.cola.adapter_up.weight
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.6.output.adapters.cola.adapter_up.bias
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.7.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.7.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.7.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.7.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.7.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.7.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.7.output.adapters.cola.adapter_up.weight
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.7.output.adapters.cola.adapter_up.bias
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.8.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.8.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.8.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.8.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.8.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.8.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.8.output.adapters.cola.adapter_up.weight
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.8.output.adapters.cola.adapter_up.bias
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.9.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.9.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.9.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.9.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.9.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.9.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.9.output.adapters.cola.adapter_up.weight
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.9.output.adapters.cola.adapter_up.bias
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.10.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.10.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.10.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.10.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.10.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.10.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.10.output.adapters.cola.adapter_up.weight
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.10.output.adapters.cola.adapter_up.bias
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.11.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.11.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.11.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.11.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.11.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.11.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.11.output.adapters.cola.adapter_up.weight
+06/02/2024 08:12:29 - INFO - __main__ - roberta.encoder.layer.11.output.adapters.cola.adapter_up.bias
+06/02/2024 08:12:29 - INFO - __main__ - heads.cola.1.weight
+06/02/2024 08:12:29 - INFO - __main__ - heads.cola.1.bias
+06/02/2024 08:12:29 - INFO - __main__ - heads.cola.4.weight
+06/02/2024 08:12:29 - INFO - __main__ - heads.cola.4.bias
+06/02/2024 08:12:30 - INFO - __main__ - Sample 3412 of the training set: {'input_ids': [0, 100, 7546, 5, 3737, 4, 2], 'attention_mask': [1, 1, 1, 1, 1, 1, 1], 'labels': 1}.
+06/02/2024 08:12:30 - INFO - __main__ - Sample 6002 of the training set: {'input_ids': [0, 100, 531, 64, 3529, 2968, 8014, 4, 2], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': 0}.
+06/02/2024 08:12:30 - INFO - __main__ - Sample 83 of the training set: {'input_ids': [0, 133, 20276, 910, 10434, 1495, 7, 5, 1255, 4, 2], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': 0}.
+06/02/2024 08:17:27 - INFO - __main__ - f_mu shape : torch.Size([1043, 2])
+06/02/2024 08:17:27 - INFO - __main__ - f_var shape :  torch.Size([1043, 2, 2])
+06/02/2024 08:17:27 - INFO - __main__ - tensor([[-2.4468,  2.6517],
+        [-2.4047,  2.4407],
+        [-2.1919,  2.2412],
+        ...,
+        [-2.7916,  3.1134],
+        [-0.2845,  0.4917],
+        [ 1.0054, -0.7745]], device='cuda:0')
+06/02/2024 08:17:27 - INFO - __main__ - tensor([[[ 5.8574,  1.0059],
+         [ 1.0059,  5.7621]],
+        [[ 3.2467,  1.8953],
+         [ 1.8953,  3.2247]],
+        [[ 8.0175, -2.0250],
+         [-2.0250,  7.6710]],
+        ...,
+        [[ 5.0837,  4.4143],
+         [ 4.4143,  5.0397]],
+        [[ 6.5210, -3.7889],
+         [-3.7889,  6.3052]],
+        [[ 6.4597, -1.8953],
+         [-1.8953,  5.9696]]], device='cuda:0')
+06/02/2024 08:17:27 - INFO - __main__ - ***** Completed training *****
+06/02/2024 08:17:30 - INFO - __main__ -  Number of labels detected = 2
+06/02/2024 08:17:31 - INFO - adapters.heads.model_mixin - Adding head 'default' with config {'head_type': 'masked_lm', 'vocab_size': 50265, 'embedding_size': 768, 'layers': 2, 'activation_function': 'gelu', 'layer_norm': True, 'bias': True, 'shift_labels': False, 'label2id': None}.
+06/02/2024 08:17:32 - INFO - adapters.loading - Loading module configuration from ./outputs/cola/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_7999/adapter_config.json
+06/02/2024 08:17:32 - INFO - adapters.configuration.model_adapters_config - Adding adapter 'cola'.
+06/02/2024 08:17:32 - INFO - adapters.loading - Loading module weights from ./outputs/cola/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_7999/pytorch_adapter.bin
+06/02/2024 08:17:32 - INFO - adapters.loading - Loading module configuration from ./outputs/cola/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_7999/head_config.json
+06/02/2024 08:17:32 - INFO - adapters.heads.model_mixin - Adding head 'cola' with config {'head_type': 'classification', 'num_labels': 2, 'layers': 2, 'activation_function': 'tanh', 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'use_pooler': False, 'bias': True, 'dropout_prob': None}.
+06/02/2024 08:17:32 - INFO - adapters.loading - Loading module weights from ./outputs/cola/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_7999/pytorch_model_head.bin
+06/02/2024 08:17:32 - INFO - __main__ - Adapter Name = cola
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.0.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.0.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.0.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.0.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.0.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.0.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.0.output.adapters.cola.adapter_up.weight
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.0.output.adapters.cola.adapter_up.bias
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.1.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.1.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.1.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.1.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.1.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.1.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.1.output.adapters.cola.adapter_up.weight
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.1.output.adapters.cola.adapter_up.bias
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.2.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.2.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.2.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.2.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.2.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.2.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.2.output.adapters.cola.adapter_up.weight
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.2.output.adapters.cola.adapter_up.bias
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.3.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.3.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.3.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.3.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.3.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.3.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.3.output.adapters.cola.adapter_up.weight
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.3.output.adapters.cola.adapter_up.bias
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.4.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.4.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.4.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.4.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.4.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.4.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.4.output.adapters.cola.adapter_up.weight
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.4.output.adapters.cola.adapter_up.bias
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.5.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.5.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.5.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.5.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.5.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.5.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.5.output.adapters.cola.adapter_up.weight
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.5.output.adapters.cola.adapter_up.bias
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.6.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.6.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.6.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.6.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.6.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.6.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.6.output.adapters.cola.adapter_up.weight
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.6.output.adapters.cola.adapter_up.bias
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.7.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.7.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.7.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.7.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.7.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.7.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.7.output.adapters.cola.adapter_up.weight
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.7.output.adapters.cola.adapter_up.bias
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.8.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.8.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.8.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.8.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.8.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.8.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.8.output.adapters.cola.adapter_up.weight
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.8.output.adapters.cola.adapter_up.bias
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.9.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.9.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.9.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.9.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.9.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.9.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.9.output.adapters.cola.adapter_up.weight
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.9.output.adapters.cola.adapter_up.bias
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.10.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.10.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.10.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.10.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.10.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.10.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.10.output.adapters.cola.adapter_up.weight
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.10.output.adapters.cola.adapter_up.bias
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.11.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.11.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.11.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.11.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.11.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.11.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.11.output.adapters.cola.adapter_up.weight
+06/02/2024 08:17:32 - INFO - __main__ - roberta.encoder.layer.11.output.adapters.cola.adapter_up.bias
+06/02/2024 08:17:32 - INFO - __main__ - heads.cola.1.weight
+06/02/2024 08:17:32 - INFO - __main__ - heads.cola.1.bias
+06/02/2024 08:17:32 - INFO - __main__ - heads.cola.4.weight
+06/02/2024 08:17:32 - INFO - __main__ - heads.cola.4.bias
+06/02/2024 08:17:32 - INFO - __main__ - Sample 3412 of the training set: {'input_ids': [0, 100, 7546, 5, 3737, 4, 2], 'attention_mask': [1, 1, 1, 1, 1, 1, 1], 'labels': 1}.
+06/02/2024 08:17:32 - INFO - __main__ - Sample 6002 of the training set: {'input_ids': [0, 100, 531, 64, 3529, 2968, 8014, 4, 2], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': 0}.
+06/02/2024 08:17:32 - INFO - __main__ - Sample 83 of the training set: {'input_ids': [0, 133, 20276, 910, 10434, 1495, 7, 5, 1255, 4, 2], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': 0}.
+06/02/2024 08:22:33 - INFO - __main__ - f_mu shape : torch.Size([1043, 2])
+06/02/2024 08:22:33 - INFO - __main__ - f_var shape :  torch.Size([1043, 2, 2])
+06/02/2024 08:22:33 - INFO - __main__ - tensor([[-2.7738,  2.9883],
+        [-2.7051,  2.7341],
+        [-2.7796,  2.7984],
+        ...,
+        [-3.0705,  3.3764],
+        [-0.9860,  1.1826],
+        [-1.1101,  1.2928]], device='cuda:0')
+06/02/2024 08:22:33 - INFO - __main__ - tensor([[[ 4.8272,  1.4823],
+         [ 1.4823,  4.7181]],
+        [[ 2.9251,  1.7708],
+         [ 1.7708,  2.9030]],
+        [[ 7.8872, -2.1296],
+         [-2.1296,  7.5143]],
+        ...,
+        [[ 4.5578,  3.7887],
+         [ 3.7887,  4.5065]],
+        [[ 7.6898, -5.0990],
+         [-5.0990,  7.4951]],
+        [[11.8868, -8.6863],
+         [-8.6863, 11.9500]]], device='cuda:0')
+06/02/2024 08:22:33 - INFO - __main__ - ***** Completed training *****
+06/02/2024 08:22:35 - INFO - __main__ -  Number of labels detected = 2
+06/02/2024 08:22:36 - INFO - adapters.heads.model_mixin - Adding head 'default' with config {'head_type': 'masked_lm', 'vocab_size': 50265, 'embedding_size': 768, 'layers': 2, 'activation_function': 'gelu', 'layer_norm': True, 'bias': True, 'shift_labels': False, 'label2id': None}.
+06/02/2024 08:22:37 - INFO - adapters.loading - Loading module configuration from ./outputs/cola/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_9999/adapter_config.json
+06/02/2024 08:22:37 - INFO - adapters.configuration.model_adapters_config - Adding adapter 'cola'.
+06/02/2024 08:22:37 - INFO - adapters.loading - Loading module weights from ./outputs/cola/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_9999/pytorch_adapter.bin
+06/02/2024 08:22:37 - INFO - adapters.loading - Loading module configuration from ./outputs/cola/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_9999/head_config.json
+06/02/2024 08:22:37 - INFO - adapters.heads.model_mixin - Adding head 'cola' with config {'head_type': 'classification', 'num_labels': 2, 'layers': 2, 'activation_function': 'tanh', 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'use_pooler': False, 'bias': True, 'dropout_prob': None}.
+06/02/2024 08:22:37 - INFO - adapters.loading - Loading module weights from ./outputs/cola/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_9999/pytorch_model_head.bin
+06/02/2024 08:22:37 - INFO - __main__ - Adapter Name = cola
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.0.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.0.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.0.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.0.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.0.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.0.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.0.output.adapters.cola.adapter_up.weight
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.0.output.adapters.cola.adapter_up.bias
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.1.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.1.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.1.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.1.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.1.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.1.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.1.output.adapters.cola.adapter_up.weight
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.1.output.adapters.cola.adapter_up.bias
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.2.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.2.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.2.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.2.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.2.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.2.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.2.output.adapters.cola.adapter_up.weight
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.2.output.adapters.cola.adapter_up.bias
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.3.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.3.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.3.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.3.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.3.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.3.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.3.output.adapters.cola.adapter_up.weight
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.3.output.adapters.cola.adapter_up.bias
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.4.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.4.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.4.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.4.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.4.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.4.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.4.output.adapters.cola.adapter_up.weight
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.4.output.adapters.cola.adapter_up.bias
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.5.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.5.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.5.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.5.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.5.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.5.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.5.output.adapters.cola.adapter_up.weight
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.5.output.adapters.cola.adapter_up.bias
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.6.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.6.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.6.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.6.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.6.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.6.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.6.output.adapters.cola.adapter_up.weight
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.6.output.adapters.cola.adapter_up.bias
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.7.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.7.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.7.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.7.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.7.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.7.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.7.output.adapters.cola.adapter_up.weight
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.7.output.adapters.cola.adapter_up.bias
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.8.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.8.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.8.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.8.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.8.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.8.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.8.output.adapters.cola.adapter_up.weight
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.8.output.adapters.cola.adapter_up.bias
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.9.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.9.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.9.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.9.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.9.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.9.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.9.output.adapters.cola.adapter_up.weight
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.9.output.adapters.cola.adapter_up.bias
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.10.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.10.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.10.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.10.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.10.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.10.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.10.output.adapters.cola.adapter_up.weight
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.10.output.adapters.cola.adapter_up.bias
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.11.attention.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.11.attention.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.11.attention.output.adapters.cola.adapter_up.weight
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.11.attention.output.adapters.cola.adapter_up.bias
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.11.output.adapters.cola.adapter_down.0.weight
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.11.output.adapters.cola.adapter_down.0.bias
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.11.output.adapters.cola.adapter_up.weight
+06/02/2024 08:22:37 - INFO - __main__ - roberta.encoder.layer.11.output.adapters.cola.adapter_up.bias
+06/02/2024 08:22:37 - INFO - __main__ - heads.cola.1.weight
+06/02/2024 08:22:37 - INFO - __main__ - heads.cola.1.bias
+06/02/2024 08:22:37 - INFO - __main__ - heads.cola.4.weight
+06/02/2024 08:22:37 - INFO - __main__ - heads.cola.4.bias
+06/02/2024 08:22:38 - INFO - __main__ - Sample 3412 of the training set: {'input_ids': [0, 100, 7546, 5, 3737, 4, 2], 'attention_mask': [1, 1, 1, 1, 1, 1, 1], 'labels': 1}.
+06/02/2024 08:22:38 - INFO - __main__ - Sample 6002 of the training set: {'input_ids': [0, 100, 531, 64, 3529, 2968, 8014, 4, 2], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': 0}.
+06/02/2024 08:22:38 - INFO - __main__ - Sample 83 of the training set: {'input_ids': [0, 133, 20276, 910, 10434, 1495, 7, 5, 1255, 4, 2], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': 0}.
+06/02/2024 08:27:38 - INFO - __main__ - f_mu shape : torch.Size([1043, 2])
+06/02/2024 08:27:38 - INFO - __main__ - f_var shape :  torch.Size([1043, 2, 2])
+06/02/2024 08:27:38 - INFO - __main__ - tensor([[-2.7968,  3.0246],
+        [-2.7893,  2.8360],
+        [-2.7577,  2.7798],
+        ...,
+        [-3.0549,  3.3754],
+        [-1.0387,  1.2427],
+        [-0.9734,  1.1604]], device='cuda:0')
+06/02/2024 08:27:38 - INFO - __main__ - tensor([[[  5.2688,   1.2654],
+         [  1.2654,   5.1606]],
+        [[  3.1404,   1.7835],
+         [  1.7835,   3.1196]],
+        [[  9.1570,  -3.2938],
+         [ -3.2938,   8.7105]],
+        ...,
+        [[  4.6808,   3.8526],
+         [  3.8526,   4.6242]],
+        [[  9.2852,  -6.5529],
+         [ -6.5529,   9.0689]],
+        [[ 13.4494, -10.2085],
+         [-10.2085,  13.4283]]], device='cuda:0')
+06/02/2024 08:27:38 - INFO - __main__ - ***** Completed training *****

outputs/cola/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_0/all_results_la_kron_all_homo_mc_corr_1000.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"eval_matthews_correlation": -0.040852194988972475}

outputs/cola/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_0/eval_res_la_kron_all_homo_mc_corr_1000.json ADDED Viewed

The diff for this file is too large to render. See raw diff

outputs/cola/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_0/gpu_stats_la.json ADDED Viewed

	@@ -0,0 +1,130 @@

+{
+    "memory_allocated": 1030541312,
+    "max_memory_allocated": 3413011456,
+    "memory_reserved": 10204741632,
+    "max_memory_reserved": 10204741632,
+    "memory_stats": {
+        "active.all.allocated": 2915632,
+        "active.all.current": 1233,
+        "active.all.freed": 2914399,
+        "active.all.peak": 1485,
+        "active.large_pool.allocated": 361096,
+        "active.large_pool.current": 284,
+        "active.large_pool.freed": 360812,
+        "active.large_pool.peak": 384,
+        "active.small_pool.allocated": 2554536,
+        "active.small_pool.current": 949,
+        "active.small_pool.freed": 2553587,
+        "active.small_pool.peak": 1199,
+        "active_bytes.all.allocated": 2022530949632,
+        "active_bytes.all.current": 1030541312,
+        "active_bytes.all.freed": 2021500408320,
+        "active_bytes.all.peak": 3413011456,
+        "active_bytes.large_pool.allocated": 1458420835328,
+        "active_bytes.large_pool.current": 1013274624,
+        "active_bytes.large_pool.freed": 1457407560704,
+        "active_bytes.large_pool.peak": 3327070720,
+        "active_bytes.small_pool.allocated": 564110114304,
+        "active_bytes.small_pool.current": 17266688,
+        "active_bytes.small_pool.freed": 564092847616,
+        "active_bytes.small_pool.peak": 118205440,
+        "allocated_bytes.all.allocated": 2022530949632,
+        "allocated_bytes.all.current": 1030541312,
+        "allocated_bytes.all.freed": 2021500408320,
+        "allocated_bytes.all.peak": 3413011456,
+        "allocated_bytes.large_pool.allocated": 1458420835328,
+        "allocated_bytes.large_pool.current": 1013274624,
+        "allocated_bytes.large_pool.freed": 1457407560704,
+        "allocated_bytes.large_pool.peak": 3327070720,
+        "allocated_bytes.small_pool.allocated": 564110114304,
+        "allocated_bytes.small_pool.current": 17266688,
+        "allocated_bytes.small_pool.freed": 564092847616,
+        "allocated_bytes.small_pool.peak": 118205440,
+        "allocation.all.allocated": 2915632,
+        "allocation.all.current": 1233,
+        "allocation.all.freed": 2914399,
+        "allocation.all.peak": 1485,
+        "allocation.large_pool.allocated": 361096,
+        "allocation.large_pool.current": 284,
+        "allocation.large_pool.freed": 360812,
+        "allocation.large_pool.peak": 384,
+        "allocation.small_pool.allocated": 2554536,
+        "allocation.small_pool.current": 949,
+        "allocation.small_pool.freed": 2553587,
+        "allocation.small_pool.peak": 1199,
+        "inactive_split.all.allocated": 1425838,
+        "inactive_split.all.current": 173,
+        "inactive_split.all.freed": 1425665,
+        "inactive_split.all.peak": 221,
+        "inactive_split.large_pool.allocated": 166568,
+        "inactive_split.large_pool.current": 43,
+        "inactive_split.large_pool.freed": 166525,
+        "inactive_split.large_pool.peak": 96,
+        "inactive_split.small_pool.allocated": 1259270,
+        "inactive_split.small_pool.current": 130,
+        "inactive_split.small_pool.freed": 1259140,
+        "inactive_split.small_pool.peak": 145,
+        "inactive_split_bytes.all.allocated": 2015997287936,
+        "inactive_split_bytes.all.current": 150155264,
+        "inactive_split_bytes.all.freed": 2015847132672,
+        "inactive_split_bytes.all.peak": 926979584,
+        "inactive_split_bytes.large_pool.allocated": 1432195878400,
+        "inactive_split_bytes.large_pool.current": 106604544,
+        "inactive_split_bytes.large_pool.freed": 1432089273856,
+        "inactive_split_bytes.large_pool.peak": 890500608,
+        "inactive_split_bytes.small_pool.allocated": 583801409536,
+        "inactive_split_bytes.small_pool.current": 43550720,
+        "inactive_split_bytes.small_pool.freed": 583757858816,
+        "inactive_split_bytes.small_pool.peak": 80564224,
+        "max_split_size": -1,
+        "num_alloc_retries": 0,
+        "num_device_alloc": 426,
+        "num_device_free": 52,
+        "num_ooms": 0,
+        "num_sync_all_streams": 1,
+        "oversize_allocations.allocated": 0,
+        "oversize_allocations.current": 0,
+        "oversize_allocations.freed": 0,
+        "oversize_allocations.peak": 0,
+        "oversize_segments.allocated": 0,
+        "oversize_segments.current": 0,
+        "oversize_segments.freed": 0,
+        "oversize_segments.peak": 0,
+        "requested_bytes.all.allocated": 1978722581871,
+        "requested_bytes.all.current": 1027778996,
+        "requested_bytes.all.freed": 1977694802875,
+        "requested_bytes.all.peak": 3382342108,
+        "requested_bytes.large_pool.allocated": 1414850593488,
+        "requested_bytes.large_pool.current": 1010670088,
+        "requested_bytes.large_pool.freed": 1413839923400,
+        "requested_bytes.large_pool.peak": 3296520840,
+        "requested_bytes.small_pool.allocated": 563871988383,
+        "requested_bytes.small_pool.current": 17108908,
+        "requested_bytes.small_pool.freed": 563854879475,
+        "requested_bytes.small_pool.peak": 118076684,
+        "reserved_bytes.all.allocated": 10521411584,
+        "reserved_bytes.all.current": 10204741632,
+        "reserved_bytes.all.freed": 316669952,
+        "reserved_bytes.all.peak": 10204741632,
+        "reserved_bytes.large_pool.allocated": 10297016320,
+        "reserved_bytes.large_pool.current": 10066329600,
+        "reserved_bytes.large_pool.freed": 230686720,
+        "reserved_bytes.large_pool.peak": 10066329600,
+        "reserved_bytes.small_pool.allocated": 224395264,
+        "reserved_bytes.small_pool.current": 138412032,
+        "reserved_bytes.small_pool.freed": 85983232,
+        "reserved_bytes.small_pool.peak": 138412032,
+        "segment.all.allocated": 426,
+        "segment.all.current": 374,
+        "segment.all.freed": 52,
+        "segment.all.peak": 374,
+        "segment.large_pool.allocated": 319,
+        "segment.large_pool.current": 308,
+        "segment.large_pool.freed": 11,
+        "segment.large_pool.peak": 308,
+        "segment.small_pool.allocated": 107,
+        "segment.small_pool.current": 66,
+        "segment.small_pool.freed": 41,
+        "segment.small_pool.peak": 66
+    }
+}

outputs/cola/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_1999/all_results_la_kron_all_homo_mc_corr_1000.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"eval_matthews_correlation": 0.529144545456451}

outputs/cola/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_1999/eval_res_la_kron_all_homo_mc_corr_1000.json ADDED Viewed

The diff for this file is too large to render. See raw diff

outputs/cola/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_1999/gpu_stats_la.json ADDED Viewed

	@@ -0,0 +1,130 @@

+{
+    "memory_allocated": 1030541312,
+    "max_memory_allocated": 3413011456,
+    "memory_reserved": 10206838784,
+    "max_memory_reserved": 10206838784,
+    "memory_stats": {
+        "active.all.allocated": 5831312,
+        "active.all.current": 1233,
+        "active.all.freed": 5830079,
+        "active.all.peak": 1485,
+        "active.large_pool.allocated": 722190,
+        "active.large_pool.current": 284,
+        "active.large_pool.freed": 721906,
+        "active.large_pool.peak": 482,
+        "active.small_pool.allocated": 5109122,
+        "active.small_pool.current": 949,
+        "active.small_pool.freed": 5108173,
+        "active.small_pool.peak": 1199,
+        "active_bytes.all.allocated": 4044156840960,
+        "active_bytes.all.current": 1030541312,
+        "active_bytes.all.freed": 4043126299648,
+        "active_bytes.all.peak": 3413011456,
+        "active_bytes.large_pool.allocated": 2915936585728,
+        "active_bytes.large_pool.current": 1013274624,
+        "active_bytes.large_pool.freed": 2914923311104,
+        "active_bytes.large_pool.peak": 3327070720,
+        "active_bytes.small_pool.allocated": 1128220255232,
+        "active_bytes.small_pool.current": 17266688,
+        "active_bytes.small_pool.freed": 1128202988544,
+        "active_bytes.small_pool.peak": 118205440,
+        "allocated_bytes.all.allocated": 4044156840960,
+        "allocated_bytes.all.current": 1030541312,
+        "allocated_bytes.all.freed": 4043126299648,
+        "allocated_bytes.all.peak": 3413011456,
+        "allocated_bytes.large_pool.allocated": 2915936585728,
+        "allocated_bytes.large_pool.current": 1013274624,
+        "allocated_bytes.large_pool.freed": 2914923311104,
+        "allocated_bytes.large_pool.peak": 3327070720,
+        "allocated_bytes.small_pool.allocated": 1128220255232,
+        "allocated_bytes.small_pool.current": 17266688,
+        "allocated_bytes.small_pool.freed": 1128202988544,
+        "allocated_bytes.small_pool.peak": 118205440,
+        "allocation.all.allocated": 5831312,
+        "allocation.all.current": 1233,
+        "allocation.all.freed": 5830079,
+        "allocation.all.peak": 1485,
+        "allocation.large_pool.allocated": 722190,
+        "allocation.large_pool.current": 284,
+        "allocation.large_pool.freed": 721906,
+        "allocation.large_pool.peak": 482,
+        "allocation.small_pool.allocated": 5109122,
+        "allocation.small_pool.current": 949,
+        "allocation.small_pool.freed": 5108173,
+        "allocation.small_pool.peak": 1199,
+        "inactive_split.all.allocated": 2839308,
+        "inactive_split.all.current": 174,
+        "inactive_split.all.freed": 2839134,
+        "inactive_split.all.peak": 229,
+        "inactive_split.large_pool.allocated": 334357,
+        "inactive_split.large_pool.current": 43,
+        "inactive_split.large_pool.freed": 334314,
+        "inactive_split.large_pool.peak": 96,
+        "inactive_split.small_pool.allocated": 2504951,
+        "inactive_split.small_pool.current": 131,
+        "inactive_split.small_pool.freed": 2504820,
+        "inactive_split.small_pool.peak": 183,
+        "inactive_split_bytes.all.allocated": 3999387359232,
+        "inactive_split_bytes.all.current": 150155264,
+        "inactive_split_bytes.all.freed": 3999237203968,
+        "inactive_split_bytes.all.peak": 931173888,
+        "inactive_split_bytes.large_pool.allocated": 2836943942656,
+        "inactive_split_bytes.large_pool.current": 106604544,
+        "inactive_split_bytes.large_pool.freed": 2836837338112,
+        "inactive_split_bytes.large_pool.peak": 890500608,
+        "inactive_split_bytes.small_pool.allocated": 1162443416576,
+        "inactive_split_bytes.small_pool.current": 43550720,
+        "inactive_split_bytes.small_pool.freed": 1162399865856,
+        "inactive_split_bytes.small_pool.peak": 80564224,
+        "max_split_size": -1,
+        "num_alloc_retries": 0,
+        "num_device_alloc": 834,
+        "num_device_free": 459,
+        "num_ooms": 0,
+        "num_sync_all_streams": 3,
+        "oversize_allocations.allocated": 0,
+        "oversize_allocations.current": 0,
+        "oversize_allocations.freed": 0,
+        "oversize_allocations.peak": 0,
+        "oversize_segments.allocated": 0,
+        "oversize_segments.current": 0,
+        "oversize_segments.freed": 0,
+        "oversize_segments.peak": 0,
+        "requested_bytes.all.allocated": 3957428127418,
+        "requested_bytes.all.current": 1027778996,
+        "requested_bytes.all.freed": 3956400348422,
+        "requested_bytes.all.peak": 3382342108,
+        "requested_bytes.large_pool.allocated": 2829684147616,
+        "requested_bytes.large_pool.current": 1010670088,
+        "requested_bytes.large_pool.freed": 2828673477528,
+        "requested_bytes.large_pool.peak": 3296520840,
+        "requested_bytes.small_pool.allocated": 1127743979802,
+        "requested_bytes.small_pool.current": 17108908,
+        "requested_bytes.small_pool.freed": 1127726870894,
+        "requested_bytes.small_pool.peak": 118076684,
+        "reserved_bytes.all.allocated": 20929576960,
+        "reserved_bytes.all.current": 10206838784,
+        "reserved_bytes.all.freed": 10722738176,
+        "reserved_bytes.all.peak": 10206838784,
+        "reserved_bytes.large_pool.allocated": 20510146560,
+        "reserved_bytes.large_pool.current": 10066329600,
+        "reserved_bytes.large_pool.freed": 10443816960,
+        "reserved_bytes.large_pool.peak": 10066329600,
+        "reserved_bytes.small_pool.allocated": 419430400,
+        "reserved_bytes.small_pool.current": 140509184,
+        "reserved_bytes.small_pool.freed": 278921216,
+        "reserved_bytes.small_pool.peak": 140509184,
+        "segment.all.allocated": 834,
+        "segment.all.current": 375,
+        "segment.all.freed": 459,
+        "segment.all.peak": 375,
+        "segment.large_pool.allocated": 634,
+        "segment.large_pool.current": 308,
+        "segment.large_pool.freed": 326,
+        "segment.large_pool.peak": 308,
+        "segment.small_pool.allocated": 200,
+        "segment.small_pool.current": 67,
+        "segment.small_pool.freed": 133,
+        "segment.small_pool.peak": 67
+    }
+}

outputs/cola/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_3999/all_results_la_kron_all_homo_mc_corr_1000.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"eval_matthews_correlation": 0.6015805476045657}

outputs/cola/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_3999/eval_res_la_kron_all_homo_mc_corr_1000.json ADDED Viewed

The diff for this file is too large to render. See raw diff

outputs/cola/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_3999/gpu_stats_la.json ADDED Viewed

	@@ -0,0 +1,130 @@

+{
+    "memory_allocated": 1030541312,
+    "max_memory_allocated": 3413011456,
+    "memory_reserved": 10208935936,
+    "max_memory_reserved": 10208935936,
+    "memory_stats": {
+        "active.all.allocated": 8747042,
+        "active.all.current": 1233,
+        "active.all.freed": 8745809,
+        "active.all.peak": 1485,
+        "active.large_pool.allocated": 1083284,
+        "active.large_pool.current": 284,
+        "active.large_pool.freed": 1083000,
+        "active.large_pool.peak": 482,
+        "active.small_pool.allocated": 7663758,
+        "active.small_pool.current": 949,
+        "active.small_pool.freed": 7662809,
+        "active.small_pool.peak": 1199,
+        "active_bytes.all.allocated": 6065810808320,
+        "active_bytes.all.current": 1030541312,
+        "active_bytes.all.freed": 6064780267008,
+        "active_bytes.all.peak": 3413011456,
+        "active_bytes.large_pool.allocated": 4373480385536,
+        "active_bytes.large_pool.current": 1013274624,
+        "active_bytes.large_pool.freed": 4372467110912,
+        "active_bytes.large_pool.peak": 3327070720,
+        "active_bytes.small_pool.allocated": 1692330422784,
+        "active_bytes.small_pool.current": 17266688,
+        "active_bytes.small_pool.freed": 1692313156096,
+        "active_bytes.small_pool.peak": 118205440,
+        "allocated_bytes.all.allocated": 6065810808320,
+        "allocated_bytes.all.current": 1030541312,
+        "allocated_bytes.all.freed": 6064780267008,
+        "allocated_bytes.all.peak": 3413011456,
+        "allocated_bytes.large_pool.allocated": 4373480385536,
+        "allocated_bytes.large_pool.current": 1013274624,
+        "allocated_bytes.large_pool.freed": 4372467110912,
+        "allocated_bytes.large_pool.peak": 3327070720,
+        "allocated_bytes.small_pool.allocated": 1692330422784,
+        "allocated_bytes.small_pool.current": 17266688,
+        "allocated_bytes.small_pool.freed": 1692313156096,
+        "allocated_bytes.small_pool.peak": 118205440,
+        "allocation.all.allocated": 8747042,
+        "allocation.all.current": 1233,
+        "allocation.all.freed": 8745809,
+        "allocation.all.peak": 1485,
+        "allocation.large_pool.allocated": 1083284,
+        "allocation.large_pool.current": 284,
+        "allocation.large_pool.freed": 1083000,
+        "allocation.large_pool.peak": 482,
+        "allocation.small_pool.allocated": 7663758,
+        "allocation.small_pool.current": 949,
+        "allocation.small_pool.freed": 7662809,
+        "allocation.small_pool.peak": 1199,
+        "inactive_split.all.allocated": 4301545,
+        "inactive_split.all.current": 182,
+        "inactive_split.all.freed": 4301363,
+        "inactive_split.all.peak": 246,
+        "inactive_split.large_pool.allocated": 499623,
+        "inactive_split.large_pool.current": 43,
+        "inactive_split.large_pool.freed": 499580,
+        "inactive_split.large_pool.peak": 96,
+        "inactive_split.small_pool.allocated": 3801922,
+        "inactive_split.small_pool.current": 139,
+        "inactive_split.small_pool.freed": 3801783,
+        "inactive_split.small_pool.peak": 220,
+        "inactive_split_bytes.all.allocated": 5982721435648,
+        "inactive_split_bytes.all.current": 150155264,
+        "inactive_split_bytes.all.freed": 5982571280384,
+        "inactive_split_bytes.all.peak": 935368192,
+        "inactive_split_bytes.large_pool.allocated": 4242779976192,
+        "inactive_split_bytes.large_pool.current": 106604544,
+        "inactive_split_bytes.large_pool.freed": 4242673371648,
+        "inactive_split_bytes.large_pool.peak": 890500608,
+        "inactive_split_bytes.small_pool.allocated": 1739941459456,
+        "inactive_split_bytes.small_pool.current": 43550720,
+        "inactive_split_bytes.small_pool.freed": 1739897908736,
+        "inactive_split_bytes.small_pool.peak": 80564224,
+        "max_split_size": -1,
+        "num_alloc_retries": 0,
+        "num_device_alloc": 1238,
+        "num_device_free": 862,
+        "num_ooms": 0,
+        "num_sync_all_streams": 5,
+        "oversize_allocations.allocated": 0,
+        "oversize_allocations.current": 0,
+        "oversize_allocations.freed": 0,
+        "oversize_allocations.peak": 0,
+        "oversize_segments.allocated": 0,
+        "oversize_segments.current": 0,
+        "oversize_segments.freed": 0,
+        "oversize_segments.peak": 0,
+        "requested_bytes.all.allocated": 5936133676001,
+        "requested_bytes.all.current": 1027778996,
+        "requested_bytes.all.freed": 5935105897005,
+        "requested_bytes.all.peak": 3382342108,
+        "requested_bytes.large_pool.allocated": 4244517701744,
+        "requested_bytes.large_pool.current": 1010670088,
+        "requested_bytes.large_pool.freed": 4243507031656,
+        "requested_bytes.large_pool.peak": 3296520840,
+        "requested_bytes.small_pool.allocated": 1691615974257,
+        "requested_bytes.small_pool.current": 17108908,
+        "requested_bytes.small_pool.freed": 1691598865349,
+        "requested_bytes.small_pool.peak": 118076684,
+        "reserved_bytes.all.allocated": 31348228096,
+        "reserved_bytes.all.current": 10208935936,
+        "reserved_bytes.all.freed": 21139292160,
+        "reserved_bytes.all.peak": 10208935936,
+        "reserved_bytes.large_pool.allocated": 30744248320,
+        "reserved_bytes.large_pool.current": 10066329600,
+        "reserved_bytes.large_pool.freed": 20677918720,
+        "reserved_bytes.large_pool.peak": 10066329600,
+        "reserved_bytes.small_pool.allocated": 603979776,
+        "reserved_bytes.small_pool.current": 142606336,
+        "reserved_bytes.small_pool.freed": 461373440,
+        "reserved_bytes.small_pool.peak": 142606336,
+        "segment.all.allocated": 1238,
+        "segment.all.current": 376,
+        "segment.all.freed": 862,
+        "segment.all.peak": 376,
+        "segment.large_pool.allocated": 950,
+        "segment.large_pool.current": 308,
+        "segment.large_pool.freed": 642,
+        "segment.large_pool.peak": 308,
+        "segment.small_pool.allocated": 288,
+        "segment.small_pool.current": 68,
+        "segment.small_pool.freed": 220,
+        "segment.small_pool.peak": 68
+    }
+}

outputs/cola/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_5999/all_results_la_kron_all_homo_mc_corr_1000.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"eval_matthews_correlation": 0.5933072676560336}

outputs/cola/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_5999/eval_res_la_kron_all_homo_mc_corr_1000.json ADDED Viewed

The diff for this file is too large to render. See raw diff