Model files.

Browse files

Files changed (9) hide show

.gitattributes +1 -0
README.md +6 -0
best.th +3 -0
config.json +233 -0
log/train/events.out.tfevents +3 -0
log/validation/events.out.tfevents +3 -0
metrics.json +35 -0
vocabulary/.lock +0 -0
vocabulary/non_padded_namespaces.txt +2 -0

.gitattributes CHANGED Viewed

@@ -25,3 +25,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zstandard filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zstandard filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+*.th filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,6 @@

+---
+tags:
+- allennlp
+---
+# TODO: Fill this model card

best.th ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:00963fc2cb35f01730934d9d8a119e4d7849a7803bc68a217fc7fea6b2b2a82e
+size 504043215

config.json ADDED Viewed

	@@ -0,0 +1,233 @@

+{
+    "dataset_reader": {
+        "type": "multitask",
+        "readers": {
+            "sentiment": {
+                "type": "sentiment_analysis",
+                "token_indexers": {
+                    "transformer": {
+                        "type": "pretrained_transformer_mismatched",
+                        "max_length": 512,
+                        "model_name": "MLRS/BERTu"
+                    }
+                }
+            }
+        }
+    },
+    "model": {
+        "type": "multitask",
+        "arg_name_mapping": {
+            "backbone": {
+                "tokens": "text",
+                "words": "text"
+            }
+        },
+        "backbone": {
+            "type": "embedder_and_mask",
+            "text_field_embedder": {
+                "token_embedders": {
+                    "transformer": {
+                        "type": "pretrained_transformer_mismatched_with_dropout",
+                        "last_layer_only": false,
+                        "layer_dropout": 0.1,
+                        "max_length": 512,
+                        "model_name": "MLRS/BERTu",
+                        "tokenizer_kwargs": {},
+                        "train_parameters": true
+                    }
+                }
+            }
+        },
+        "heads": {
+            "sentiment": {
+                "type": "linear_classifier",
+                "dropout": 0.5,
+                "encoder": {
+                    "type": "pass_through",
+                    "input_dim": 768
+                },
+                "initializer": {
+                    "regexes": [
+                        [
+                            ".*projection.*weight",
+                            {
+                                "type": "xavier_uniform"
+                            }
+                        ],
+                        [
+                            ".*projection.*bias",
+                            {
+                                "type": "zero"
+                            }
+                        ],
+                        [
+                            ".*tag_bilinear.*weight",
+                            {
+                                "type": "xavier_uniform"
+                            }
+                        ],
+                        [
+                            ".*tag_bilinear.*bias",
+                            {
+                                "type": "zero"
+                            }
+                        ],
+                        [
+                            ".*weight_ih.*",
+                            {
+                                "type": "xavier_uniform"
+                            }
+                        ],
+                        [
+                            ".*weight_hh.*",
+                            {
+                                "type": "orthogonal"
+                            }
+                        ],
+                        [
+                            ".*bias_ih.*",
+                            {
+                                "type": "zero"
+                            }
+                        ],
+                        [
+                            ".*bias_hh.*",
+                            {
+                                "type": "lstm_hidden_bias"
+                            }
+                        ]
+                    ]
+                }
+            }
+        }
+    },
+    "train_data_path": {
+        "sentiment": "sentiment/mt/train.csv"
+    },
+    "validation_data_path": {
+        "sentiment": "sentiment/mt/dev.csv"
+    },
+    "trainer": {
+        "callbacks": [
+            {
+                "tensorboard_writer": {
+                    "should_log_learning_rate": true,
+                    "should_log_parameter_statistics": true
+                },
+                "type": "tensorboard"
+            }
+        ],
+        "cuda_device": 0,
+        "grad_norm": 5,
+        "learning_rate_scheduler": {
+            "type": "ulmfit_sqrt",
+            "affected_group_count": 2,
+            "decay_factor": 0.05,
+            "discriminative_fine_tuning": true,
+            "factor": 5,
+            "gradual_unfreezing": true,
+            "model_size": 1,
+            "start_step": 19,
+            "warmup_steps": 19
+        },
+        "num_epochs": 200,
+        "optimizer": {
+            "type": "huggingface_adamw",
+            "betas": [
+                0.9,
+                0.999
+            ],
+            "correct_bias": false,
+            "lr": 0.0001,
+            "parameter_groups": [
+                [
+                    [
+                        "text_field_embedder.*transformer_model.embeddings.*_embeddings.*",
+                        "text_field_embedder.*transformer_model.encoder.*.(key|query|value|dense).weight"
+                    ],
+                    {}
+                ],
+                [
+                    [
+                        "text_field_embedder.*transformer_model.embeddings.LayerNorm.*",
+                        "text_field_embedder.*transformer_model.encoder.*.output.LayerNorm.*",
+                        "text_field_embedder.*transformer_model.encoder.*.(key|query|value|dense).bias",
+                        "text_field_embedder.*transformer_model.pooler.dense.bias"
+                    ],
+                    {
+                        "weight_decay": 0
+                    }
+                ],
+                [
+                    [
+                        "text_field_embedder.*._scalar_mix.*",
+                        "text_field_embedder.*transformer_model.pooler.dense.weight",
+                        "_head_sentinel",
+                        "head_arc_feedforward._linear_layers.*.weight",
+                        "child_arc_feedforward._linear_layers.*.weight",
+                        "head_tag_feedforward._linear_layers.*.weight",
+                        "child_tag_feedforward._linear_layers.*.weight",
+                        "arc_attention._weight_matrix",
+                        "tag_bilinear.weight",
+                        "tag_projection_layer._module.weight",
+                        "crf",
+                        "linear.weight",
+                        "tagger_linear.weight"
+                    ],
+                    {}
+                ],
+                [
+                    [
+                        "head_arc_feedforward._linear_layers.*.bias",
+                        "child_arc_feedforward._linear_layers.*.bias",
+                        "head_tag_feedforward._linear_layers.*.bias",
+                        "child_tag_feedforward._linear_layers.*.bias",
+                        "arc_attention._bias",
+                        "tag_bilinear.bias",
+                        "tag_projection_layer._module.bias",
+                        "linear.bias",
+                        "tagger_linear.bias"
+                    ],
+                    {
+                        "weight_decay": 0
+                    }
+                ]
+            ],
+            "weight_decay": 0.01
+        },
+        "patience": 20,
+        "validation_metric": [
+            "+sentiment_fscore"
+        ]
+    },
+    "data_loader": {
+        "type": "multitask",
+        "scheduler": {
+            "type": "unbalanced_homogeneous_roundrobin",
+            "batch_size": 8,
+            "dataset_sizes": {
+                "sentiment": 595
+            }
+        },
+        "shuffle": true
+    },
+    "distributed": {
+        "cuda_devices": [
+            0,
+            1,
+            2,
+            3
+        ]
+    },
+    "numpy_seed": 1537,
+    "pytorch_seed": 153,
+    "random_seed": 15370,
+    "validation_data_loader": {
+        "type": "multitask",
+        "scheduler": {
+            "type": "homogeneous_roundrobin",
+            "batch_size": 8
+        },
+        "shuffle": true
+    }
+}

log/train/events.out.tfevents ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:10d2d2aea4e0e0e377895d855a49d7a520bdbe2ccc6f93620a3f388607596a77
+size 1086229

log/validation/events.out.tfevents ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:991af68639bfd44bac316bb77fa3d318334efb87cb11818701f87a658b8f1e0c
+size 4801

metrics.json ADDED Viewed

	@@ -0,0 +1,35 @@

+{
+  "best_epoch": 3,
+  "peak_worker_0_memory_MB": 4755.15625,
+  "peak_worker_1_memory_MB": 4183.89453125,
+  "peak_worker_2_memory_MB": 4178.01171875,
+  "peak_worker_3_memory_MB": 4177.8125,
+  "peak_gpu_0_memory_MB": 5976.16162109375,
+  "peak_gpu_1_memory_MB": 2261.0439453125,
+  "peak_gpu_2_memory_MB": 2281.87451171875,
+  "peak_gpu_3_memory_MB": 2118.19384765625,
+  "training_duration": "0:01:56.202622",
+  "training_start_epoch": 0,
+  "training_epochs": 22,
+  "epoch": 22,
+  "training_sentiment_precision": 1.0,
+  "training_sentiment_recall": 1.0,
+  "training_sentiment_fscore": 1.0,
+  "training_loss": 0.00010353123108966668,
+  "training_worker_0_memory_MB": 4755.15625,
+  "training_worker_1_memory_MB": 4183.875,
+  "training_worker_2_memory_MB": 4177.984375,
+  "training_worker_3_memory_MB": 4177.7890625,
+  "training_gpu_0_memory_MB": 5976.16162109375,
+  "training_gpu_1_memory_MB": 2261.0439453125,
+  "training_gpu_2_memory_MB": 2281.87451171875,
+  "training_gpu_3_memory_MB": 2118.19384765625,
+  "validation_sentiment_precision": 0.9013409614562988,
+  "validation_sentiment_recall": 0.8870074152946472,
+  "validation_sentiment_fscore": 0.8934837579727173,
+  "validation_loss": 0.32014626264572144,
+  "best_validation_sentiment_precision": 0.9113408327102661,
+  "best_validation_sentiment_recall": 0.9042487740516663,
+  "best_validation_sentiment_fscore": 0.9076230525970459,
+  "best_validation_loss": 0.22802153353889784
+}

vocabulary/.lock ADDED Viewed

File without changes

vocabulary/non_padded_namespaces.txt ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ *labels
2	+ *tags