huynguyen251 commited on Jun 1

Commit

b35b71a

verified ·

1 Parent(s): 00f0258

Fine-tuned PhoBERT for Vietnamese Legal QA - Updated Dataset

Browse files

Files changed (47) hide show

README.md +114 -0
added_tokens.json +3 -0
bpe.codes +0 -0
checkpoint-1800/added_tokens.json +3 -0
checkpoint-1800/bpe.codes +0 -0
checkpoint-1800/config.json +29 -0
checkpoint-1800/model.safetensors +3 -0
checkpoint-1800/optimizer.pt +3 -0
checkpoint-1800/rng_state.pth +3 -0
checkpoint-1800/scheduler.pt +3 -0
checkpoint-1800/special_tokens_map.json +9 -0
checkpoint-1800/tokenizer_config.json +54 -0
checkpoint-1800/trainer_state.json +420 -0
checkpoint-1800/training_args.bin +3 -0
checkpoint-1800/vocab.txt +0 -0
checkpoint-2200/added_tokens.json +3 -0
checkpoint-2200/bpe.codes +0 -0
checkpoint-2200/config.json +29 -0
checkpoint-2200/model.safetensors +3 -0
checkpoint-2200/optimizer.pt +3 -0
checkpoint-2200/rng_state.pth +3 -0
checkpoint-2200/scheduler.pt +3 -0
checkpoint-2200/special_tokens_map.json +9 -0
checkpoint-2200/tokenizer_config.json +54 -0
checkpoint-2200/trainer_state.json +504 -0
checkpoint-2200/training_args.bin +3 -0
checkpoint-2200/vocab.txt +0 -0
checkpoint-2400/added_tokens.json +3 -0
checkpoint-2400/bpe.codes +0 -0
checkpoint-2400/config.json +29 -0
checkpoint-2400/model.safetensors +3 -0
checkpoint-2400/optimizer.pt +3 -0
checkpoint-2400/rng_state.pth +3 -0
checkpoint-2400/scheduler.pt +3 -0
checkpoint-2400/special_tokens_map.json +9 -0
checkpoint-2400/tokenizer_config.json +54 -0
checkpoint-2400/trainer_state.json +546 -0
checkpoint-2400/training_args.bin +3 -0
checkpoint-2400/vocab.txt +0 -0
config.json +29 -0
eval_metrics.json +13 -0
model.safetensors +3 -0
special_tokens_map.json +9 -0
tokenizer_config.json +54 -0
training_args.bin +3 -0
training_info.json +49 -0
vocab.txt +0 -0

README.md ADDED Viewed

	@@ -0,0 +1,114 @@

+---
+language: vi
+tags:
+- phobert
+- question-answering
+- vietnamese
+- legal-qa
+- pytorch
+- transformers
+license: apache-2.0
+datasets:
+- custom-legal-qa
+metrics:
+- f1
+- accuracy
+model-index:
+- name: phobert-legal-qa-v2
+  results:
+  - task:
+      type: question-answering
+      name: Question Answering
+    metrics:
+    - type: f1
+      value: 0.602910749664121
+      name: F1 Score
+    - type: accuracy
+      value: 0.9795007342143907
+      name: Accuracy
+---
+# PhoBERT Fine-tuned for Vietnamese Legal QA
+## Model Description
+This model is a fine-tuned version of [vinai/phobert-base](https://huggingface.co/vinai/phobert-base) for Vietnamese legal question answering.
+## Training Details
+### Training Data
+- **Dataset**: Custom Vietnamese Legal QA dataset
+- **Total QA pairs**: 156349
+- **Training samples**: 96472
+- **Validation samples**: 17025
+- **Categories**: Công nghiệp, Thuế, phí, lệ phí, các khoản thu khác, Đất đai, Dân số, gia đình, trẻ em, bình đẳng giới, Quốc phòng, Hành chính tư pháp, Tài nguyên, Văn hóa, thể thao, du lịch, Giao thông, vận tải, Thông tin, báo chí, xuất bản, Tổ chức chính trị - xã hội, hội, Y tế, dược, Dân tộc, Thống kê, Khoa học, công nghệ, An ninh quốc gia, Tổ chức bộ máy nhà nước, Ngoại giao, điều ước quốc tế, Bổ trợ tư pháp, Tài sản công, nợ công, dự trữ nhà nước, Tố tụng và các phương thức giải quyết tranh chấp, Doanh nghiệp, hợp tác xã, Trật tự, an toàn xã hội
+### Training Configuration
+- **Base model**: vinai/phobert-base
+- **Learning rate**: 2e-05
+- **Training epochs**: 3
+- **Batch size**: 4
+- **Max sequence length**: 256
+### Training Results
+- **Training Loss**: 0.6344684727986654
+- **Validation F1**: 0.602910749664121
+- **Validation Accuracy**: 0.9795007342143907
+## Usage
+```python
+from transformers import AutoTokenizer, AutoModelForQuestionAnswering
+import torch
+tokenizer = AutoTokenizer.from_pretrained("huynguyen251/phobert-legal-qa-v2")
+model = AutoModelForQuestionAnswering.from_pretrained("huynguyen251/phobert-legal-qa-v2")
+question = "Quy định này áp dụng cho ai?"
+context = "Thanh niên là công dân Việt Nam từ đủ 16 tuổi đến 30 tuổi."
+inputs = tokenizer(question, context, return_tensors="pt", max_length=512, truncation=True)
+with torch.no_grad():
+    outputs = model(**inputs)
+start_idx = torch.argmax(outputs.start_logits)
+end_idx = torch.argmax(outputs.end_logits)
+answer = tokenizer.decode(inputs["input_ids"][0][start_idx:end_idx+1])
+print(f"Answer: {answer}")
+```
+## Categories
+- Công nghiệp
+- Thuế, phí, lệ phí, các khoản thu khác
+- Đất đai
+- Dân số, gia đình, trẻ em, bình đẳng giới
+- Quốc phòng
+- Hành chính tư pháp
+- Tài nguyên
+- Văn hóa, thể thao, du lịch
+- Giao thông, vận tải
+- Thông tin, báo chí, xuất bản
+- Tổ chức chính trị - xã hội, hội
+- Y tế, dược
+- Dân tộc
+- Thống kê
+- Khoa học, công nghệ
+- An ninh quốc gia
+- Tổ chức bộ máy nhà nước
+- Ngoại giao, điều ước quốc tế
+- Bổ trợ tư pháp
+- Tài sản công, nợ công, dự trữ nhà nước
+- Tố tụng và các phương thức giải quyết tranh chấp
+- Doanh nghiệp, hợp tác xã
+- Trật tự, an toàn xã hội
+## Limitations
+This model is trained on Vietnamese legal documents and may not generalize to other domains or languages.
+## Training Framework
+- Framework: Transformers 4.44.2
+- Language: Vietnamese
+- License: Apache 2.0

added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "<mask>": 64000
+}

bpe.codes ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1800/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "<mask>": 64000
+}

checkpoint-1800/bpe.codes ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1800/config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "_name_or_path": "vinai/phobert-base",
+  "architectures": [
+    "RobertaForQuestionAnswering"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 258,
+  "model_type": "roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "tokenizer_class": "PhobertTokenizer",
+  "torch_dtype": "float32",
+  "transformers_version": "4.44.2",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 64001
+}

checkpoint-1800/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:389e7b032149cdbe860f7307cb2dcd4781aef2ac7567a748a409a876678315f4
+size 537660792

checkpoint-1800/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:abe7fb5f8c884934c8b8ac9631142c7e8d103542f4a3f52801e3061828296a6f
+size 1075440186

checkpoint-1800/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c12cf28c5b9a556304cc9f06fbdbe004de036b71c6baf556677bc0e5c28d0efb
+size 14244

checkpoint-1800/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ad59ffa41114700072f13d95d885dec7d70c959b1cba63fac9667f20ef5f079b
+size 1064

checkpoint-1800/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": "<mask>",
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "unk_token": "<unk>"
+}

checkpoint-1800/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,54 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "64000": {
+      "content": "<mask>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": "<mask>",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "tokenizer_class": "PhobertTokenizer",
+  "unk_token": "<unk>"
+}

checkpoint-1800/trainer_state.json ADDED Viewed

	@@ -0,0 +1,420 @@

+{
+  "best_metric": 0.602910749664121,
+  "best_model_checkpoint": "phobert-legal-qa-finetuned\\checkpoint-1800",
+  "epoch": 0.29853221660170826,
+  "eval_steps": 200,
+  "global_step": 1800,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.008292561572269675,
+      "grad_norm": 8.954318046569824,
+      "learning_rate": 5.417357656163627e-07,
+      "loss": 5.4244,
+      "step": 50
+    },
+    {
+      "epoch": 0.01658512314453935,
+      "grad_norm": 6.557638168334961,
+      "learning_rate": 1.0834715312327253e-06,
+      "loss": 5.1885,
+      "step": 100
+    },
+    {
+      "epoch": 0.024877684716809022,
+      "grad_norm": 6.624057769775391,
+      "learning_rate": 1.6141514648977336e-06,
+      "loss": 4.6824,
+      "step": 150
+    },
+    {
+      "epoch": 0.0331702462890787,
+      "grad_norm": 6.447659015655518,
+      "learning_rate": 2.1669430624654506e-06,
+      "loss": 3.9743,
+      "step": 200
+    },
+    {
+      "epoch": 0.0331702462890787,
+      "eval_accuracy": 0.5348311306901615,
+      "eval_end_accuracy": 0.29080763582966224,
+      "eval_end_f1": 0.20537819782547337,
+      "eval_f1": 0.10898462727065836,
+      "eval_loss": 3.2860655784606934,
+      "eval_runtime": 127.3249,
+      "eval_samples_per_second": 133.713,
+      "eval_start_accuracy": 0.7788546255506608,
+      "eval_start_f1": 0.012591056715843358,
+      "eval_steps_per_second": 16.721,
+      "step": 200
+    },
+    {
+      "epoch": 0.04146280786134837,
+      "grad_norm": 5.946743965148926,
+      "learning_rate": 2.7197346600331676e-06,
+      "loss": 3.0621,
+      "step": 250
+    },
+    {
+      "epoch": 0.049755369433618045,
+      "grad_norm": 7.603392601013184,
+      "learning_rate": 3.272526257600885e-06,
+      "loss": 1.9122,
+      "step": 300
+    },
+    {
+      "epoch": 0.05804793100588772,
+      "grad_norm": 4.718493461608887,
+      "learning_rate": 3.825317855168602e-06,
+      "loss": 0.8663,
+      "step": 350
+    },
+    {
+      "epoch": 0.0663404925781574,
+      "grad_norm": 1.8805421590805054,
+      "learning_rate": 4.367053620784965e-06,
+      "loss": 0.4477,
+      "step": 400
+    },
+    {
+      "epoch": 0.0663404925781574,
+      "eval_accuracy": 0.9048458149779737,
+      "eval_end_accuracy": 0.9175917767988253,
+      "eval_end_f1": 0.8303333971515077,
+      "eval_f1": 0.424233749861785,
+      "eval_loss": 0.23289425671100616,
+      "eval_runtime": 129.7527,
+      "eval_samples_per_second": 131.211,
+      "eval_start_accuracy": 0.8920998531571219,
+      "eval_start_f1": 0.018134102572062404,
+      "eval_steps_per_second": 16.408,
+      "step": 400
+    },
+    {
+      "epoch": 0.07463305415042706,
+      "grad_norm": 1.6680586338043213,
+      "learning_rate": 4.919845218352681e-06,
+      "loss": 0.2926,
+      "step": 450
+    },
+    {
+      "epoch": 0.08292561572269674,
+      "grad_norm": 1.3913531303405762,
+      "learning_rate": 5.472636815920398e-06,
+      "loss": 0.2317,
+      "step": 500
+    },
+    {
+      "epoch": 0.09121817729496641,
+      "grad_norm": 0.8732656836509705,
+      "learning_rate": 6.025428413488116e-06,
+      "loss": 0.2013,
+      "step": 550
+    },
+    {
+      "epoch": 0.09951073886723609,
+      "grad_norm": 0.4801824986934662,
+      "learning_rate": 6.578220011055833e-06,
+      "loss": 0.1501,
+      "step": 600
+    },
+    {
+      "epoch": 0.09951073886723609,
+      "eval_accuracy": 0.9687224669603525,
+      "eval_end_accuracy": 0.9620558002936858,
+      "eval_end_f1": 0.9029114827270522,
+      "eval_f1": 0.47707631709814124,
+      "eval_loss": 0.10375536233186722,
+      "eval_runtime": 115.3633,
+      "eval_samples_per_second": 147.577,
+      "eval_start_accuracy": 0.9753891336270191,
+      "eval_start_f1": 0.051241151469230285,
+      "eval_steps_per_second": 18.455,
+      "step": 600
+    },
+    {
+      "epoch": 0.10780330043950577,
+      "grad_norm": 3.085040807723999,
+      "learning_rate": 7.131011608623549e-06,
+      "loss": 0.147,
+      "step": 650
+    },
+    {
+      "epoch": 0.11609586201177544,
+      "grad_norm": 2.0271573066711426,
+      "learning_rate": 7.672747374239912e-06,
+      "loss": 0.1356,
+      "step": 700
+    },
+    {
+      "epoch": 0.12438842358404512,
+      "grad_norm": 0.833656370639801,
+      "learning_rate": 8.22553897180763e-06,
+      "loss": 0.1604,
+      "step": 750
+    },
+    {
+      "epoch": 0.1326809851563148,
+      "grad_norm": 4.890761375427246,
+      "learning_rate": 8.778330569375346e-06,
+      "loss": 0.2731,
+      "step": 800
+    },
+    {
+      "epoch": 0.1326809851563148,
+      "eval_accuracy": 0.9534801762114538,
+      "eval_end_accuracy": 0.9742143906020558,
+      "eval_end_f1": 0.9321589248479495,
+      "eval_f1": 0.49608082825261623,
+      "eval_loss": 0.1122935563325882,
+      "eval_runtime": 133.8336,
+      "eval_samples_per_second": 127.21,
+      "eval_start_accuracy": 0.9327459618208517,
+      "eval_start_f1": 0.06000273165728297,
+      "eval_steps_per_second": 15.908,
+      "step": 800
+    },
+    {
+      "epoch": 0.14097354672858445,
+      "grad_norm": 1.1853266954421997,
+      "learning_rate": 9.331122166943063e-06,
+      "loss": 0.1276,
+      "step": 850
+    },
+    {
+      "epoch": 0.14926610830085413,
+      "grad_norm": 7.255343437194824,
+      "learning_rate": 9.88391376451078e-06,
+      "loss": 0.0954,
+      "step": 900
+    },
+    {
+      "epoch": 0.1575586698731238,
+      "grad_norm": 0.5000291466712952,
+      "learning_rate": 1.0436705362078497e-05,
+      "loss": 0.1081,
+      "step": 950
+    },
+    {
+      "epoch": 0.1658512314453935,
+      "grad_norm": 0.3002016544342041,
+      "learning_rate": 1.0989496959646216e-05,
+      "loss": 0.1257,
+      "step": 1000
+    },
+    {
+      "epoch": 0.1658512314453935,
+      "eval_accuracy": 0.9772980910425844,
+      "eval_end_accuracy": 0.9769750367107195,
+      "eval_end_f1": 0.9421694663520186,
+      "eval_f1": 0.5088194880993329,
+      "eval_loss": 0.08298086374998093,
+      "eval_runtime": 127.1174,
+      "eval_samples_per_second": 133.931,
+      "eval_start_accuracy": 0.9776211453744493,
+      "eval_start_f1": 0.07546950984664719,
+      "eval_steps_per_second": 16.748,
+      "step": 1000
+    },
+    {
+      "epoch": 0.17414379301766317,
+      "grad_norm": 1.4803558588027954,
+      "learning_rate": 1.1542288557213931e-05,
+      "loss": 0.0988,
+      "step": 1050
+    },
+    {
+      "epoch": 0.18243635458993282,
+      "grad_norm": 5.256414413452148,
+      "learning_rate": 1.2095080154781648e-05,
+      "loss": 0.1159,
+      "step": 1100
+    },
+    {
+      "epoch": 0.1907289161622025,
+      "grad_norm": 2.2532193660736084,
+      "learning_rate": 1.2647871752349365e-05,
+      "loss": 0.1119,
+      "step": 1150
+    },
+    {
+      "epoch": 0.19902147773447218,
+      "grad_norm": 1.1581368446350098,
+      "learning_rate": 1.3200663349917082e-05,
+      "loss": 0.0801,
+      "step": 1200
+    },
+    {
+      "epoch": 0.19902147773447218,
+      "eval_accuracy": 0.9774743024963289,
+      "eval_end_accuracy": 0.9773274596182085,
+      "eval_end_f1": 0.9522660725045008,
+      "eval_f1": 0.5138705881207118,
+      "eval_loss": 0.06253915280103683,
+      "eval_runtime": 129.6143,
+      "eval_samples_per_second": 131.351,
+      "eval_start_accuracy": 0.9776211453744493,
+      "eval_start_f1": 0.0754751037369228,
+      "eval_steps_per_second": 16.426,
+      "step": 1200
+    },
+    {
+      "epoch": 0.20731403930674186,
+      "grad_norm": 3.3523240089416504,
+      "learning_rate": 1.3742399115533445e-05,
+      "loss": 0.1058,
+      "step": 1250
+    },
+    {
+      "epoch": 0.21560660087901154,
+      "grad_norm": 0.09368986636400223,
+      "learning_rate": 1.429519071310116e-05,
+      "loss": 0.1002,
+      "step": 1300
+    },
+    {
+      "epoch": 0.2238991624512812,
+      "grad_norm": 2.6880834102630615,
+      "learning_rate": 1.4847982310668878e-05,
+      "loss": 0.0563,
+      "step": 1350
+    },
+    {
+      "epoch": 0.23219172402355087,
+      "grad_norm": 10.309085845947266,
+      "learning_rate": 1.5400773908236596e-05,
+      "loss": 0.0973,
+      "step": 1400
+    },
+    {
+      "epoch": 0.23219172402355087,
+      "eval_accuracy": 0.9787371512481644,
+      "eval_end_accuracy": 0.978208516886931,
+      "eval_end_f1": 0.9484799222981063,
+      "eval_f1": 0.5438896216202269,
+      "eval_loss": 0.0639370009303093,
+      "eval_runtime": 128.1258,
+      "eval_samples_per_second": 132.877,
+      "eval_start_accuracy": 0.9792657856093979,
+      "eval_start_f1": 0.13929932094234762,
+      "eval_steps_per_second": 16.616,
+      "step": 1400
+    },
+    {
+      "epoch": 0.24048428559582055,
+      "grad_norm": 0.07747649401426315,
+      "learning_rate": 1.5953565505804315e-05,
+      "loss": 0.0724,
+      "step": 1450
+    },
+    {
+      "epoch": 0.24877684716809023,
+      "grad_norm": 0.076473668217659,
+      "learning_rate": 1.650635710337203e-05,
+      "loss": 0.0928,
+      "step": 1500
+    },
+    {
+      "epoch": 0.2570694087403599,
+      "grad_norm": 0.18258516490459442,
+      "learning_rate": 1.7059148700939746e-05,
+      "loss": 0.085,
+      "step": 1550
+    },
+    {
+      "epoch": 0.2653619703126296,
+      "grad_norm": 2.0234451293945312,
+      "learning_rate": 1.7611940298507464e-05,
+      "loss": 0.1107,
+      "step": 1600
+    },
+    {
+      "epoch": 0.2653619703126296,
+      "eval_accuracy": 0.9774449339207049,
+      "eval_end_accuracy": 0.9773274596182085,
+      "eval_end_f1": 0.9548822846052203,
+      "eval_f1": 0.5144663543275407,
+      "eval_loss": 0.06893135607242584,
+      "eval_runtime": 137.3173,
+      "eval_samples_per_second": 123.983,
+      "eval_start_accuracy": 0.9775624082232012,
+      "eval_start_f1": 0.07405042404986113,
+      "eval_steps_per_second": 15.504,
+      "step": 1600
+    },
+    {
+      "epoch": 0.27365453188489924,
+      "grad_norm": 2.9243485927581787,
+      "learning_rate": 1.816473189607518e-05,
+      "loss": 0.069,
+      "step": 1650
+    },
+    {
+      "epoch": 0.2819470934571689,
+      "grad_norm": 0.05162263661623001,
+      "learning_rate": 1.87175234936429e-05,
+      "loss": 0.0815,
+      "step": 1700
+    },
+    {
+      "epoch": 0.2902396550294386,
+      "grad_norm": 0.12183202058076859,
+      "learning_rate": 1.9270315091210617e-05,
+      "loss": 0.0741,
+      "step": 1750
+    },
+    {
+      "epoch": 0.29853221660170826,
+      "grad_norm": 3.247403621673584,
+      "learning_rate": 1.9823106688778332e-05,
+      "loss": 0.0819,
+      "step": 1800
+    },
+    {
+      "epoch": 0.29853221660170826,
+      "eval_accuracy": 0.9795007342143907,
+      "eval_end_accuracy": 0.9793832599118942,
+      "eval_end_f1": 0.9547976694500852,
+      "eval_f1": 0.602910749664121,
+      "eval_loss": 0.07215487957000732,
+      "eval_runtime": 135.7664,
+      "eval_samples_per_second": 125.399,
+      "eval_start_accuracy": 0.979618208516887,
+      "eval_start_f1": 0.25102382987815675,
+      "eval_steps_per_second": 15.681,
+      "step": 1800
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 18087,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 200,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 3,
+        "early_stopping_threshold": 0.001
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3762673296998400.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1800/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a43dfd650d40278c5424b1ba5b0067a9c7fba4f97e85ccc8fcc46c3360e49acd
+size 5240

checkpoint-1800/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-2200/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "<mask>": 64000
+}

checkpoint-2200/bpe.codes ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-2200/config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "_name_or_path": "vinai/phobert-base",
+  "architectures": [
+    "RobertaForQuestionAnswering"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 258,
+  "model_type": "roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "tokenizer_class": "PhobertTokenizer",
+  "torch_dtype": "float32",
+  "transformers_version": "4.44.2",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 64001
+}

checkpoint-2200/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:27affbf41e4d22257bdeff00abfccf2888e85e109c98a4893cd8e095c4d5ac30
+size 537660792

checkpoint-2200/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:67593cec92610ed243120384db0c577e1dc84e0cfd62d7ff066ce8771f9b581c
+size 1075440186

checkpoint-2200/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d5c11fc4dbfa4e1a34a025e1421a3a50c85f0305e8ef2bdacbf6d591cb6cc493
+size 14244

checkpoint-2200/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d48585b464483c510957b80617f6db4dad41376ea6783669555094835842bf72
+size 1064

checkpoint-2200/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": "<mask>",
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "unk_token": "<unk>"
+}

checkpoint-2200/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,54 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "64000": {
+      "content": "<mask>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": "<mask>",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "tokenizer_class": "PhobertTokenizer",
+  "unk_token": "<unk>"
+}

checkpoint-2200/trainer_state.json ADDED Viewed

	@@ -0,0 +1,504 @@

+{
+  "best_metric": 0.602910749664121,
+  "best_model_checkpoint": "phobert-legal-qa-finetuned\\checkpoint-1800",
+  "epoch": 0.36487270917986564,
+  "eval_steps": 200,
+  "global_step": 2200,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.008292561572269675,
+      "grad_norm": 8.954318046569824,
+      "learning_rate": 5.417357656163627e-07,
+      "loss": 5.4244,
+      "step": 50
+    },
+    {
+      "epoch": 0.01658512314453935,
+      "grad_norm": 6.557638168334961,
+      "learning_rate": 1.0834715312327253e-06,
+      "loss": 5.1885,
+      "step": 100
+    },
+    {
+      "epoch": 0.024877684716809022,
+      "grad_norm": 6.624057769775391,
+      "learning_rate": 1.6141514648977336e-06,
+      "loss": 4.6824,
+      "step": 150
+    },
+    {
+      "epoch": 0.0331702462890787,
+      "grad_norm": 6.447659015655518,
+      "learning_rate": 2.1669430624654506e-06,
+      "loss": 3.9743,
+      "step": 200
+    },
+    {
+      "epoch": 0.0331702462890787,
+      "eval_accuracy": 0.5348311306901615,
+      "eval_end_accuracy": 0.29080763582966224,
+      "eval_end_f1": 0.20537819782547337,
+      "eval_f1": 0.10898462727065836,
+      "eval_loss": 3.2860655784606934,
+      "eval_runtime": 127.3249,
+      "eval_samples_per_second": 133.713,
+      "eval_start_accuracy": 0.7788546255506608,
+      "eval_start_f1": 0.012591056715843358,
+      "eval_steps_per_second": 16.721,
+      "step": 200
+    },
+    {
+      "epoch": 0.04146280786134837,
+      "grad_norm": 5.946743965148926,
+      "learning_rate": 2.7197346600331676e-06,
+      "loss": 3.0621,
+      "step": 250
+    },
+    {
+      "epoch": 0.049755369433618045,
+      "grad_norm": 7.603392601013184,
+      "learning_rate": 3.272526257600885e-06,
+      "loss": 1.9122,
+      "step": 300
+    },
+    {
+      "epoch": 0.05804793100588772,
+      "grad_norm": 4.718493461608887,
+      "learning_rate": 3.825317855168602e-06,
+      "loss": 0.8663,
+      "step": 350
+    },
+    {
+      "epoch": 0.0663404925781574,
+      "grad_norm": 1.8805421590805054,
+      "learning_rate": 4.367053620784965e-06,
+      "loss": 0.4477,
+      "step": 400
+    },
+    {
+      "epoch": 0.0663404925781574,
+      "eval_accuracy": 0.9048458149779737,
+      "eval_end_accuracy": 0.9175917767988253,
+      "eval_end_f1": 0.8303333971515077,
+      "eval_f1": 0.424233749861785,
+      "eval_loss": 0.23289425671100616,
+      "eval_runtime": 129.7527,
+      "eval_samples_per_second": 131.211,
+      "eval_start_accuracy": 0.8920998531571219,
+      "eval_start_f1": 0.018134102572062404,
+      "eval_steps_per_second": 16.408,
+      "step": 400
+    },
+    {
+      "epoch": 0.07463305415042706,
+      "grad_norm": 1.6680586338043213,
+      "learning_rate": 4.919845218352681e-06,
+      "loss": 0.2926,
+      "step": 450
+    },
+    {
+      "epoch": 0.08292561572269674,
+      "grad_norm": 1.3913531303405762,
+      "learning_rate": 5.472636815920398e-06,
+      "loss": 0.2317,
+      "step": 500
+    },
+    {
+      "epoch": 0.09121817729496641,
+      "grad_norm": 0.8732656836509705,
+      "learning_rate": 6.025428413488116e-06,
+      "loss": 0.2013,
+      "step": 550
+    },
+    {
+      "epoch": 0.09951073886723609,
+      "grad_norm": 0.4801824986934662,
+      "learning_rate": 6.578220011055833e-06,
+      "loss": 0.1501,
+      "step": 600
+    },
+    {
+      "epoch": 0.09951073886723609,
+      "eval_accuracy": 0.9687224669603525,
+      "eval_end_accuracy": 0.9620558002936858,
+      "eval_end_f1": 0.9029114827270522,
+      "eval_f1": 0.47707631709814124,
+      "eval_loss": 0.10375536233186722,
+      "eval_runtime": 115.3633,
+      "eval_samples_per_second": 147.577,
+      "eval_start_accuracy": 0.9753891336270191,
+      "eval_start_f1": 0.051241151469230285,
+      "eval_steps_per_second": 18.455,
+      "step": 600
+    },
+    {
+      "epoch": 0.10780330043950577,
+      "grad_norm": 3.085040807723999,
+      "learning_rate": 7.131011608623549e-06,
+      "loss": 0.147,
+      "step": 650
+    },
+    {
+      "epoch": 0.11609586201177544,
+      "grad_norm": 2.0271573066711426,
+      "learning_rate": 7.672747374239912e-06,
+      "loss": 0.1356,
+      "step": 700
+    },
+    {
+      "epoch": 0.12438842358404512,
+      "grad_norm": 0.833656370639801,
+      "learning_rate": 8.22553897180763e-06,
+      "loss": 0.1604,
+      "step": 750
+    },
+    {
+      "epoch": 0.1326809851563148,
+      "grad_norm": 4.890761375427246,
+      "learning_rate": 8.778330569375346e-06,
+      "loss": 0.2731,
+      "step": 800
+    },
+    {
+      "epoch": 0.1326809851563148,
+      "eval_accuracy": 0.9534801762114538,
+      "eval_end_accuracy": 0.9742143906020558,
+      "eval_end_f1": 0.9321589248479495,
+      "eval_f1": 0.49608082825261623,
+      "eval_loss": 0.1122935563325882,
+      "eval_runtime": 133.8336,
+      "eval_samples_per_second": 127.21,
+      "eval_start_accuracy": 0.9327459618208517,
+      "eval_start_f1": 0.06000273165728297,
+      "eval_steps_per_second": 15.908,
+      "step": 800
+    },
+    {
+      "epoch": 0.14097354672858445,
+      "grad_norm": 1.1853266954421997,
+      "learning_rate": 9.331122166943063e-06,
+      "loss": 0.1276,
+      "step": 850
+    },
+    {
+      "epoch": 0.14926610830085413,
+      "grad_norm": 7.255343437194824,
+      "learning_rate": 9.88391376451078e-06,
+      "loss": 0.0954,
+      "step": 900
+    },
+    {
+      "epoch": 0.1575586698731238,
+      "grad_norm": 0.5000291466712952,
+      "learning_rate": 1.0436705362078497e-05,
+      "loss": 0.1081,
+      "step": 950
+    },
+    {
+      "epoch": 0.1658512314453935,
+      "grad_norm": 0.3002016544342041,
+      "learning_rate": 1.0989496959646216e-05,
+      "loss": 0.1257,
+      "step": 1000
+    },
+    {
+      "epoch": 0.1658512314453935,
+      "eval_accuracy": 0.9772980910425844,
+      "eval_end_accuracy": 0.9769750367107195,
+      "eval_end_f1": 0.9421694663520186,
+      "eval_f1": 0.5088194880993329,
+      "eval_loss": 0.08298086374998093,
+      "eval_runtime": 127.1174,
+      "eval_samples_per_second": 133.931,
+      "eval_start_accuracy": 0.9776211453744493,
+      "eval_start_f1": 0.07546950984664719,
+      "eval_steps_per_second": 16.748,
+      "step": 1000
+    },
+    {
+      "epoch": 0.17414379301766317,
+      "grad_norm": 1.4803558588027954,
+      "learning_rate": 1.1542288557213931e-05,
+      "loss": 0.0988,
+      "step": 1050
+    },
+    {
+      "epoch": 0.18243635458993282,
+      "grad_norm": 5.256414413452148,
+      "learning_rate": 1.2095080154781648e-05,
+      "loss": 0.1159,
+      "step": 1100
+    },
+    {
+      "epoch": 0.1907289161622025,
+      "grad_norm": 2.2532193660736084,
+      "learning_rate": 1.2647871752349365e-05,
+      "loss": 0.1119,
+      "step": 1150
+    },
+    {
+      "epoch": 0.19902147773447218,
+      "grad_norm": 1.1581368446350098,
+      "learning_rate": 1.3200663349917082e-05,
+      "loss": 0.0801,
+      "step": 1200
+    },
+    {
+      "epoch": 0.19902147773447218,
+      "eval_accuracy": 0.9774743024963289,
+      "eval_end_accuracy": 0.9773274596182085,
+      "eval_end_f1": 0.9522660725045008,
+      "eval_f1": 0.5138705881207118,
+      "eval_loss": 0.06253915280103683,
+      "eval_runtime": 129.6143,
+      "eval_samples_per_second": 131.351,
+      "eval_start_accuracy": 0.9776211453744493,
+      "eval_start_f1": 0.0754751037369228,
+      "eval_steps_per_second": 16.426,
+      "step": 1200
+    },
+    {
+      "epoch": 0.20731403930674186,
+      "grad_norm": 3.3523240089416504,
+      "learning_rate": 1.3742399115533445e-05,
+      "loss": 0.1058,
+      "step": 1250
+    },
+    {
+      "epoch": 0.21560660087901154,
+      "grad_norm": 0.09368986636400223,
+      "learning_rate": 1.429519071310116e-05,
+      "loss": 0.1002,
+      "step": 1300
+    },
+    {
+      "epoch": 0.2238991624512812,
+      "grad_norm": 2.6880834102630615,
+      "learning_rate": 1.4847982310668878e-05,
+      "loss": 0.0563,
+      "step": 1350
+    },
+    {
+      "epoch": 0.23219172402355087,
+      "grad_norm": 10.309085845947266,
+      "learning_rate": 1.5400773908236596e-05,
+      "loss": 0.0973,
+      "step": 1400
+    },
+    {
+      "epoch": 0.23219172402355087,
+      "eval_accuracy": 0.9787371512481644,
+      "eval_end_accuracy": 0.978208516886931,
+      "eval_end_f1": 0.9484799222981063,
+      "eval_f1": 0.5438896216202269,
+      "eval_loss": 0.0639370009303093,
+      "eval_runtime": 128.1258,
+      "eval_samples_per_second": 132.877,
+      "eval_start_accuracy": 0.9792657856093979,
+      "eval_start_f1": 0.13929932094234762,
+      "eval_steps_per_second": 16.616,
+      "step": 1400
+    },
+    {
+      "epoch": 0.24048428559582055,
+      "grad_norm": 0.07747649401426315,
+      "learning_rate": 1.5953565505804315e-05,
+      "loss": 0.0724,
+      "step": 1450
+    },
+    {
+      "epoch": 0.24877684716809023,
+      "grad_norm": 0.076473668217659,
+      "learning_rate": 1.650635710337203e-05,
+      "loss": 0.0928,
+      "step": 1500
+    },
+    {
+      "epoch": 0.2570694087403599,
+      "grad_norm": 0.18258516490459442,
+      "learning_rate": 1.7059148700939746e-05,
+      "loss": 0.085,
+      "step": 1550
+    },
+    {
+      "epoch": 0.2653619703126296,
+      "grad_norm": 2.0234451293945312,
+      "learning_rate": 1.7611940298507464e-05,
+      "loss": 0.1107,
+      "step": 1600
+    },
+    {
+      "epoch": 0.2653619703126296,
+      "eval_accuracy": 0.9774449339207049,
+      "eval_end_accuracy": 0.9773274596182085,
+      "eval_end_f1": 0.9548822846052203,
+      "eval_f1": 0.5144663543275407,
+      "eval_loss": 0.06893135607242584,
+      "eval_runtime": 137.3173,
+      "eval_samples_per_second": 123.983,
+      "eval_start_accuracy": 0.9775624082232012,
+      "eval_start_f1": 0.07405042404986113,
+      "eval_steps_per_second": 15.504,
+      "step": 1600
+    },
+    {
+      "epoch": 0.27365453188489924,
+      "grad_norm": 2.9243485927581787,
+      "learning_rate": 1.816473189607518e-05,
+      "loss": 0.069,
+      "step": 1650
+    },
+    {
+      "epoch": 0.2819470934571689,
+      "grad_norm": 0.05162263661623001,
+      "learning_rate": 1.87175234936429e-05,
+      "loss": 0.0815,
+      "step": 1700
+    },
+    {
+      "epoch": 0.2902396550294386,
+      "grad_norm": 0.12183202058076859,
+      "learning_rate": 1.9270315091210617e-05,
+      "loss": 0.0741,
+      "step": 1750
+    },
+    {
+      "epoch": 0.29853221660170826,
+      "grad_norm": 3.247403621673584,
+      "learning_rate": 1.9823106688778332e-05,
+      "loss": 0.0819,
+      "step": 1800
+    },
+    {
+      "epoch": 0.29853221660170826,
+      "eval_accuracy": 0.9795007342143907,
+      "eval_end_accuracy": 0.9793832599118942,
+      "eval_end_f1": 0.9547976694500852,
+      "eval_f1": 0.602910749664121,
+      "eval_loss": 0.07215487957000732,
+      "eval_runtime": 135.7664,
+      "eval_samples_per_second": 125.399,
+      "eval_start_accuracy": 0.979618208516887,
+      "eval_start_f1": 0.25102382987815675,
+      "eval_steps_per_second": 15.681,
+      "step": 1800
+    },
+    {
+      "epoch": 0.30682477817397796,
+      "grad_norm": 0.042116910219192505,
+      "learning_rate": 1.9958225826268585e-05,
+      "loss": 0.0641,
+      "step": 1850
+    },
+    {
+      "epoch": 0.3151173397462476,
+      "grad_norm": 0.36534908413887024,
+      "learning_rate": 1.989679321784003e-05,
+      "loss": 0.1036,
+      "step": 1900
+    },
+    {
+      "epoch": 0.32340990131851727,
+      "grad_norm": 0.2260214239358902,
+      "learning_rate": 1.9835360609411478e-05,
+      "loss": 0.0751,
+      "step": 1950
+    },
+    {
+      "epoch": 0.331702462890787,
+      "grad_norm": 0.03621504455804825,
+      "learning_rate": 1.977392800098292e-05,
+      "loss": 0.0632,
+      "step": 2000
+    },
+    {
+      "epoch": 0.331702462890787,
+      "eval_accuracy": 0.9779148311306902,
+      "eval_end_accuracy": 0.9779735682819384,
+      "eval_end_f1": 0.9323578270443484,
+      "eval_f1": 0.5095598212540562,
+      "eval_loss": 0.058555059134960175,
+      "eval_runtime": 136.5016,
+      "eval_samples_per_second": 124.724,
+      "eval_start_accuracy": 0.977856093979442,
+      "eval_start_f1": 0.08676181546376394,
+      "eval_steps_per_second": 15.597,
+      "step": 2000
+    },
+    {
+      "epoch": 0.3399950244630566,
+      "grad_norm": 0.4064314365386963,
+      "learning_rate": 1.9712495392554368e-05,
+      "loss": 0.0833,
+      "step": 2050
+    },
+    {
+      "epoch": 0.34828758603532634,
+      "grad_norm": 1.703637957572937,
+      "learning_rate": 1.9651062784125818e-05,
+      "loss": 0.1415,
+      "step": 2100
+    },
+    {
+      "epoch": 0.356580147607596,
+      "grad_norm": 0.7372889518737793,
+      "learning_rate": 1.958963017569726e-05,
+      "loss": 0.2726,
+      "step": 2150
+    },
+    {
+      "epoch": 0.36487270917986564,
+      "grad_norm": 0.28392699360847473,
+      "learning_rate": 1.9528197567268707e-05,
+      "loss": 0.137,
+      "step": 2200
+    },
+    {
+      "epoch": 0.36487270917986564,
+      "eval_accuracy": 0.9787958883994126,
+      "eval_end_accuracy": 0.9785609397944199,
+      "eval_end_f1": 0.9504899506887509,
+      "eval_f1": 0.5319231158110048,
+      "eval_loss": 0.05977020785212517,
+      "eval_runtime": 136.9823,
+      "eval_samples_per_second": 124.286,
+      "eval_start_accuracy": 0.9790308370044053,
+      "eval_start_f1": 0.11335628093325875,
+      "eval_steps_per_second": 15.542,
+      "step": 2200
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 18087,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 200,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 3,
+        "early_stopping_threshold": 0.001
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4598822918553600.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-2200/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a43dfd650d40278c5424b1ba5b0067a9c7fba4f97e85ccc8fcc46c3360e49acd
+size 5240

checkpoint-2200/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-2400/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "<mask>": 64000
+}

checkpoint-2400/bpe.codes ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-2400/config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "_name_or_path": "vinai/phobert-base",
+  "architectures": [
+    "RobertaForQuestionAnswering"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 258,
+  "model_type": "roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "tokenizer_class": "PhobertTokenizer",
+  "torch_dtype": "float32",
+  "transformers_version": "4.44.2",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 64001
+}

checkpoint-2400/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bebdfbdf8f482d9df4152263e696a0415902a0f9b5e53cabfae528db8f65ab9c
+size 537660792

checkpoint-2400/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:071d7bd19c95b93c7cba4b58c861a75913e1a15de8e29daca1628ea9aabf835c
+size 1075440186

checkpoint-2400/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9379fc8d7818ceea32e0fde72dd7e513cd0638c7a951ed627e29f637bf682caf
+size 14244

checkpoint-2400/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c7a41f82caddd7b5a852a550750ee43ffbd480d65c06fd0e4a1ab9ebe609c746
+size 1064

checkpoint-2400/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": "<mask>",
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "unk_token": "<unk>"
+}

checkpoint-2400/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,54 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "64000": {
+      "content": "<mask>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": "<mask>",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "tokenizer_class": "PhobertTokenizer",
+  "unk_token": "<unk>"
+}

checkpoint-2400/trainer_state.json ADDED Viewed

	@@ -0,0 +1,546 @@

+{
+  "best_metric": 0.602910749664121,
+  "best_model_checkpoint": "phobert-legal-qa-finetuned\\checkpoint-1800",
+  "epoch": 0.39804295546894436,
+  "eval_steps": 200,
+  "global_step": 2400,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.008292561572269675,
+      "grad_norm": 8.954318046569824,
+      "learning_rate": 5.417357656163627e-07,
+      "loss": 5.4244,
+      "step": 50
+    },
+    {
+      "epoch": 0.01658512314453935,
+      "grad_norm": 6.557638168334961,
+      "learning_rate": 1.0834715312327253e-06,
+      "loss": 5.1885,
+      "step": 100
+    },
+    {
+      "epoch": 0.024877684716809022,
+      "grad_norm": 6.624057769775391,
+      "learning_rate": 1.6141514648977336e-06,
+      "loss": 4.6824,
+      "step": 150
+    },
+    {
+      "epoch": 0.0331702462890787,
+      "grad_norm": 6.447659015655518,
+      "learning_rate": 2.1669430624654506e-06,
+      "loss": 3.9743,
+      "step": 200
+    },
+    {
+      "epoch": 0.0331702462890787,
+      "eval_accuracy": 0.5348311306901615,
+      "eval_end_accuracy": 0.29080763582966224,
+      "eval_end_f1": 0.20537819782547337,
+      "eval_f1": 0.10898462727065836,
+      "eval_loss": 3.2860655784606934,
+      "eval_runtime": 127.3249,
+      "eval_samples_per_second": 133.713,
+      "eval_start_accuracy": 0.7788546255506608,
+      "eval_start_f1": 0.012591056715843358,
+      "eval_steps_per_second": 16.721,
+      "step": 200
+    },
+    {
+      "epoch": 0.04146280786134837,
+      "grad_norm": 5.946743965148926,
+      "learning_rate": 2.7197346600331676e-06,
+      "loss": 3.0621,
+      "step": 250
+    },
+    {
+      "epoch": 0.049755369433618045,
+      "grad_norm": 7.603392601013184,
+      "learning_rate": 3.272526257600885e-06,
+      "loss": 1.9122,
+      "step": 300
+    },
+    {
+      "epoch": 0.05804793100588772,
+      "grad_norm": 4.718493461608887,
+      "learning_rate": 3.825317855168602e-06,
+      "loss": 0.8663,
+      "step": 350
+    },
+    {
+      "epoch": 0.0663404925781574,
+      "grad_norm": 1.8805421590805054,
+      "learning_rate": 4.367053620784965e-06,
+      "loss": 0.4477,
+      "step": 400
+    },
+    {
+      "epoch": 0.0663404925781574,
+      "eval_accuracy": 0.9048458149779737,
+      "eval_end_accuracy": 0.9175917767988253,
+      "eval_end_f1": 0.8303333971515077,
+      "eval_f1": 0.424233749861785,
+      "eval_loss": 0.23289425671100616,
+      "eval_runtime": 129.7527,
+      "eval_samples_per_second": 131.211,
+      "eval_start_accuracy": 0.8920998531571219,
+      "eval_start_f1": 0.018134102572062404,
+      "eval_steps_per_second": 16.408,
+      "step": 400
+    },
+    {
+      "epoch": 0.07463305415042706,
+      "grad_norm": 1.6680586338043213,
+      "learning_rate": 4.919845218352681e-06,
+      "loss": 0.2926,
+      "step": 450
+    },
+    {
+      "epoch": 0.08292561572269674,
+      "grad_norm": 1.3913531303405762,
+      "learning_rate": 5.472636815920398e-06,
+      "loss": 0.2317,
+      "step": 500
+    },
+    {
+      "epoch": 0.09121817729496641,
+      "grad_norm": 0.8732656836509705,
+      "learning_rate": 6.025428413488116e-06,
+      "loss": 0.2013,
+      "step": 550
+    },
+    {
+      "epoch": 0.09951073886723609,
+      "grad_norm": 0.4801824986934662,
+      "learning_rate": 6.578220011055833e-06,
+      "loss": 0.1501,
+      "step": 600
+    },
+    {
+      "epoch": 0.09951073886723609,
+      "eval_accuracy": 0.9687224669603525,
+      "eval_end_accuracy": 0.9620558002936858,
+      "eval_end_f1": 0.9029114827270522,
+      "eval_f1": 0.47707631709814124,
+      "eval_loss": 0.10375536233186722,
+      "eval_runtime": 115.3633,
+      "eval_samples_per_second": 147.577,
+      "eval_start_accuracy": 0.9753891336270191,
+      "eval_start_f1": 0.051241151469230285,
+      "eval_steps_per_second": 18.455,
+      "step": 600
+    },
+    {
+      "epoch": 0.10780330043950577,
+      "grad_norm": 3.085040807723999,
+      "learning_rate": 7.131011608623549e-06,
+      "loss": 0.147,
+      "step": 650
+    },
+    {
+      "epoch": 0.11609586201177544,
+      "grad_norm": 2.0271573066711426,
+      "learning_rate": 7.672747374239912e-06,
+      "loss": 0.1356,
+      "step": 700
+    },
+    {
+      "epoch": 0.12438842358404512,
+      "grad_norm": 0.833656370639801,
+      "learning_rate": 8.22553897180763e-06,
+      "loss": 0.1604,
+      "step": 750
+    },
+    {
+      "epoch": 0.1326809851563148,
+      "grad_norm": 4.890761375427246,
+      "learning_rate": 8.778330569375346e-06,
+      "loss": 0.2731,
+      "step": 800
+    },
+    {
+      "epoch": 0.1326809851563148,
+      "eval_accuracy": 0.9534801762114538,
+      "eval_end_accuracy": 0.9742143906020558,
+      "eval_end_f1": 0.9321589248479495,
+      "eval_f1": 0.49608082825261623,
+      "eval_loss": 0.1122935563325882,
+      "eval_runtime": 133.8336,
+      "eval_samples_per_second": 127.21,
+      "eval_start_accuracy": 0.9327459618208517,
+      "eval_start_f1": 0.06000273165728297,
+      "eval_steps_per_second": 15.908,
+      "step": 800
+    },
+    {
+      "epoch": 0.14097354672858445,
+      "grad_norm": 1.1853266954421997,
+      "learning_rate": 9.331122166943063e-06,
+      "loss": 0.1276,
+      "step": 850
+    },
+    {
+      "epoch": 0.14926610830085413,
+      "grad_norm": 7.255343437194824,
+      "learning_rate": 9.88391376451078e-06,
+      "loss": 0.0954,
+      "step": 900
+    },
+    {
+      "epoch": 0.1575586698731238,
+      "grad_norm": 0.5000291466712952,
+      "learning_rate": 1.0436705362078497e-05,
+      "loss": 0.1081,
+      "step": 950
+    },
+    {
+      "epoch": 0.1658512314453935,
+      "grad_norm": 0.3002016544342041,
+      "learning_rate": 1.0989496959646216e-05,
+      "loss": 0.1257,
+      "step": 1000
+    },
+    {
+      "epoch": 0.1658512314453935,
+      "eval_accuracy": 0.9772980910425844,
+      "eval_end_accuracy": 0.9769750367107195,
+      "eval_end_f1": 0.9421694663520186,
+      "eval_f1": 0.5088194880993329,
+      "eval_loss": 0.08298086374998093,
+      "eval_runtime": 127.1174,
+      "eval_samples_per_second": 133.931,
+      "eval_start_accuracy": 0.9776211453744493,
+      "eval_start_f1": 0.07546950984664719,
+      "eval_steps_per_second": 16.748,
+      "step": 1000
+    },
+    {
+      "epoch": 0.17414379301766317,
+      "grad_norm": 1.4803558588027954,
+      "learning_rate": 1.1542288557213931e-05,
+      "loss": 0.0988,
+      "step": 1050
+    },
+    {
+      "epoch": 0.18243635458993282,
+      "grad_norm": 5.256414413452148,
+      "learning_rate": 1.2095080154781648e-05,
+      "loss": 0.1159,
+      "step": 1100
+    },
+    {
+      "epoch": 0.1907289161622025,
+      "grad_norm": 2.2532193660736084,
+      "learning_rate": 1.2647871752349365e-05,
+      "loss": 0.1119,
+      "step": 1150
+    },
+    {
+      "epoch": 0.19902147773447218,
+      "grad_norm": 1.1581368446350098,
+      "learning_rate": 1.3200663349917082e-05,
+      "loss": 0.0801,
+      "step": 1200
+    },
+    {
+      "epoch": 0.19902147773447218,
+      "eval_accuracy": 0.9774743024963289,
+      "eval_end_accuracy": 0.9773274596182085,
+      "eval_end_f1": 0.9522660725045008,
+      "eval_f1": 0.5138705881207118,
+      "eval_loss": 0.06253915280103683,
+      "eval_runtime": 129.6143,
+      "eval_samples_per_second": 131.351,
+      "eval_start_accuracy": 0.9776211453744493,
+      "eval_start_f1": 0.0754751037369228,
+      "eval_steps_per_second": 16.426,
+      "step": 1200
+    },
+    {
+      "epoch": 0.20731403930674186,
+      "grad_norm": 3.3523240089416504,
+      "learning_rate": 1.3742399115533445e-05,
+      "loss": 0.1058,
+      "step": 1250
+    },
+    {
+      "epoch": 0.21560660087901154,
+      "grad_norm": 0.09368986636400223,
+      "learning_rate": 1.429519071310116e-05,
+      "loss": 0.1002,
+      "step": 1300
+    },
+    {
+      "epoch": 0.2238991624512812,
+      "grad_norm": 2.6880834102630615,
+      "learning_rate": 1.4847982310668878e-05,
+      "loss": 0.0563,
+      "step": 1350
+    },
+    {
+      "epoch": 0.23219172402355087,
+      "grad_norm": 10.309085845947266,
+      "learning_rate": 1.5400773908236596e-05,
+      "loss": 0.0973,
+      "step": 1400
+    },
+    {
+      "epoch": 0.23219172402355087,
+      "eval_accuracy": 0.9787371512481644,
+      "eval_end_accuracy": 0.978208516886931,
+      "eval_end_f1": 0.9484799222981063,
+      "eval_f1": 0.5438896216202269,
+      "eval_loss": 0.0639370009303093,
+      "eval_runtime": 128.1258,
+      "eval_samples_per_second": 132.877,
+      "eval_start_accuracy": 0.9792657856093979,
+      "eval_start_f1": 0.13929932094234762,
+      "eval_steps_per_second": 16.616,
+      "step": 1400
+    },
+    {
+      "epoch": 0.24048428559582055,
+      "grad_norm": 0.07747649401426315,
+      "learning_rate": 1.5953565505804315e-05,
+      "loss": 0.0724,
+      "step": 1450
+    },
+    {
+      "epoch": 0.24877684716809023,
+      "grad_norm": 0.076473668217659,
+      "learning_rate": 1.650635710337203e-05,
+      "loss": 0.0928,
+      "step": 1500
+    },
+    {
+      "epoch": 0.2570694087403599,
+      "grad_norm": 0.18258516490459442,
+      "learning_rate": 1.7059148700939746e-05,
+      "loss": 0.085,
+      "step": 1550
+    },
+    {
+      "epoch": 0.2653619703126296,
+      "grad_norm": 2.0234451293945312,
+      "learning_rate": 1.7611940298507464e-05,
+      "loss": 0.1107,
+      "step": 1600
+    },
+    {
+      "epoch": 0.2653619703126296,
+      "eval_accuracy": 0.9774449339207049,
+      "eval_end_accuracy": 0.9773274596182085,
+      "eval_end_f1": 0.9548822846052203,
+      "eval_f1": 0.5144663543275407,
+      "eval_loss": 0.06893135607242584,
+      "eval_runtime": 137.3173,
+      "eval_samples_per_second": 123.983,
+      "eval_start_accuracy": 0.9775624082232012,
+      "eval_start_f1": 0.07405042404986113,
+      "eval_steps_per_second": 15.504,
+      "step": 1600
+    },
+    {
+      "epoch": 0.27365453188489924,
+      "grad_norm": 2.9243485927581787,
+      "learning_rate": 1.816473189607518e-05,
+      "loss": 0.069,
+      "step": 1650
+    },
+    {
+      "epoch": 0.2819470934571689,
+      "grad_norm": 0.05162263661623001,
+      "learning_rate": 1.87175234936429e-05,
+      "loss": 0.0815,
+      "step": 1700
+    },
+    {
+      "epoch": 0.2902396550294386,
+      "grad_norm": 0.12183202058076859,
+      "learning_rate": 1.9270315091210617e-05,
+      "loss": 0.0741,
+      "step": 1750
+    },
+    {
+      "epoch": 0.29853221660170826,
+      "grad_norm": 3.247403621673584,
+      "learning_rate": 1.9823106688778332e-05,
+      "loss": 0.0819,
+      "step": 1800
+    },
+    {
+      "epoch": 0.29853221660170826,
+      "eval_accuracy": 0.9795007342143907,
+      "eval_end_accuracy": 0.9793832599118942,
+      "eval_end_f1": 0.9547976694500852,
+      "eval_f1": 0.602910749664121,
+      "eval_loss": 0.07215487957000732,
+      "eval_runtime": 135.7664,
+      "eval_samples_per_second": 125.399,
+      "eval_start_accuracy": 0.979618208516887,
+      "eval_start_f1": 0.25102382987815675,
+      "eval_steps_per_second": 15.681,
+      "step": 1800
+    },
+    {
+      "epoch": 0.30682477817397796,
+      "grad_norm": 0.042116910219192505,
+      "learning_rate": 1.9958225826268585e-05,
+      "loss": 0.0641,
+      "step": 1850
+    },
+    {
+      "epoch": 0.3151173397462476,
+      "grad_norm": 0.36534908413887024,
+      "learning_rate": 1.989679321784003e-05,
+      "loss": 0.1036,
+      "step": 1900
+    },
+    {
+      "epoch": 0.32340990131851727,
+      "grad_norm": 0.2260214239358902,
+      "learning_rate": 1.9835360609411478e-05,
+      "loss": 0.0751,
+      "step": 1950
+    },
+    {
+      "epoch": 0.331702462890787,
+      "grad_norm": 0.03621504455804825,
+      "learning_rate": 1.977392800098292e-05,
+      "loss": 0.0632,
+      "step": 2000
+    },
+    {
+      "epoch": 0.331702462890787,
+      "eval_accuracy": 0.9779148311306902,
+      "eval_end_accuracy": 0.9779735682819384,
+      "eval_end_f1": 0.9323578270443484,
+      "eval_f1": 0.5095598212540562,
+      "eval_loss": 0.058555059134960175,
+      "eval_runtime": 136.5016,
+      "eval_samples_per_second": 124.724,
+      "eval_start_accuracy": 0.977856093979442,
+      "eval_start_f1": 0.08676181546376394,
+      "eval_steps_per_second": 15.597,
+      "step": 2000
+    },
+    {
+      "epoch": 0.3399950244630566,
+      "grad_norm": 0.4064314365386963,
+      "learning_rate": 1.9712495392554368e-05,
+      "loss": 0.0833,
+      "step": 2050
+    },
+    {
+      "epoch": 0.34828758603532634,
+      "grad_norm": 1.703637957572937,
+      "learning_rate": 1.9651062784125818e-05,
+      "loss": 0.1415,
+      "step": 2100
+    },
+    {
+      "epoch": 0.356580147607596,
+      "grad_norm": 0.7372889518737793,
+      "learning_rate": 1.958963017569726e-05,
+      "loss": 0.2726,
+      "step": 2150
+    },
+    {
+      "epoch": 0.36487270917986564,
+      "grad_norm": 0.28392699360847473,
+      "learning_rate": 1.9528197567268707e-05,
+      "loss": 0.137,
+      "step": 2200
+    },
+    {
+      "epoch": 0.36487270917986564,
+      "eval_accuracy": 0.9787958883994126,
+      "eval_end_accuracy": 0.9785609397944199,
+      "eval_end_f1": 0.9504899506887509,
+      "eval_f1": 0.5319231158110048,
+      "eval_loss": 0.05977020785212517,
+      "eval_runtime": 136.9823,
+      "eval_samples_per_second": 124.286,
+      "eval_start_accuracy": 0.9790308370044053,
+      "eval_start_f1": 0.11335628093325875,
+      "eval_steps_per_second": 15.542,
+      "step": 2200
+    },
+    {
+      "epoch": 0.37316527075213535,
+      "grad_norm": 1.4994114637374878,
+      "learning_rate": 1.9466764958840154e-05,
+      "loss": 0.1661,
+      "step": 2250
+    },
+    {
+      "epoch": 0.381457832324405,
+      "grad_norm": 0.035565998405218124,
+      "learning_rate": 1.94053323504116e-05,
+      "loss": 0.1175,
+      "step": 2300
+    },
+    {
+      "epoch": 0.3897503938966747,
+      "grad_norm": 0.5697016716003418,
+      "learning_rate": 1.9343899741983044e-05,
+      "loss": 0.0934,
+      "step": 2350
+    },
+    {
+      "epoch": 0.39804295546894436,
+      "grad_norm": 5.968558311462402,
+      "learning_rate": 1.9282467133554494e-05,
+      "loss": 0.0968,
+      "step": 2400
+    },
+    {
+      "epoch": 0.39804295546894436,
+      "eval_accuracy": 0.9804698972099853,
+      "eval_end_accuracy": 0.9802643171806168,
+      "eval_end_f1": 0.9588187076188823,
+      "eval_f1": 0.5888859332600402,
+      "eval_loss": 0.06477497518062592,
+      "eval_runtime": 140.1122,
+      "eval_samples_per_second": 121.51,
+      "eval_start_accuracy": 0.9806754772393539,
+      "eval_start_f1": 0.21895315890119804,
+      "eval_steps_per_second": 15.195,
+      "step": 2400
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 18087,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 200,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 3,
+        "early_stopping_threshold": 0.001
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 5016897729331200.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-2400/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a43dfd650d40278c5424b1ba5b0067a9c7fba4f97e85ccc8fcc46c3360e49acd
+size 5240

checkpoint-2400/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "_name_or_path": "vinai/phobert-base",
+  "architectures": [
+    "RobertaForQuestionAnswering"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 258,
+  "model_type": "roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "tokenizer_class": "PhobertTokenizer",
+  "torch_dtype": "float32",
+  "transformers_version": "4.44.2",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 64001
+}

eval_metrics.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "eval_loss": 0.07215487957000732,
+  "eval_accuracy": 0.9795007342143907,
+  "eval_f1": 0.602910749664121,
+  "eval_start_accuracy": 0.979618208516887,
+  "eval_end_accuracy": 0.9793832599118942,
+  "eval_start_f1": 0.25102382987815675,
+  "eval_end_f1": 0.9547976694500852,
+  "eval_runtime": 132.7064,
+  "eval_samples_per_second": 128.291,
+  "eval_steps_per_second": 16.043,
+  "epoch": 0.39804295546894436
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:389e7b032149cdbe860f7307cb2dcd4781aef2ac7567a748a409a876678315f4
+size 537660792

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": "<mask>",
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "unk_token": "<unk>"
+}

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,54 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "64000": {
+      "content": "<mask>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": "<mask>",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "tokenizer_class": "PhobertTokenizer",
+  "unk_token": "<unk>"
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a43dfd650d40278c5424b1ba5b0067a9c7fba4f97e85ccc8fcc46c3360e49acd
+size 5240

training_info.json ADDED Viewed

	@@ -0,0 +1,49 @@

+{
+  "eval_result": {
+    "eval_loss": 0.07215487957000732,
+    "eval_accuracy": 0.9795007342143907,
+    "eval_f1": 0.602910749664121,
+    "eval_start_accuracy": 0.979618208516887,
+    "eval_end_accuracy": 0.9793832599118942,
+    "eval_start_f1": 0.25102382987815675,
+    "eval_end_f1": 0.9547976694500852,
+    "eval_runtime": 132.7064,
+    "eval_samples_per_second": 128.291,
+    "eval_steps_per_second": 16.043,
+    "epoch": 0.39804295546894436
+  },
+  "train_result": {
+    "training_loss": 0.6344684727986654
+  },
+  "dataset_info": {
+    "total_qa_pairs": 156349,
+    "train_size": 96472,
+    "validation_size": 17025,
+    "categories": [
+      "Công nghiệp",
+      "Thuế, phí, lệ phí, các khoản thu khác",
+      "Đất đai",
+      "Dân số, gia đình, trẻ em, bình đẳng giới",
+      "Quốc phòng",
+      "Hành chính tư pháp",
+      "Tài nguyên",
+      "Văn hóa, thể thao, du lịch",
+      "Giao thông, vận tải",
+      "Thông tin, báo chí, xuất bản",
+      "Tổ chức chính trị - xã hội, hội",
+      "Y tế, dược",
+      "Dân tộc",
+      "Thống kê",
+      "Khoa học, công nghệ",
+      "An ninh quốc gia",
+      "Tổ chức bộ máy nhà nước",
+      "Ngoại giao, điều ước quốc tế",
+      "Bổ trợ tư pháp",
+      "Tài sản công, nợ công, dự trữ nhà nước",
+      "Tố tụng và các phương thức giải quyết tranh chấp",
+      "Doanh nghiệp, hợp tác xã",
+      "Trật tự, an toàn xã hội"
+    ]
+  },
+  "transformers_version": "4.44.2"
+}

vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff