Update README.md
Browse files
README.md
CHANGED
|
@@ -17,8 +17,8 @@ This is a encoder model: It can encodes sentences or paragraphs (maximum 768 tok
|
|
| 17 |
Datasets:
|
| 18 |
- MS Macro (translated into Vietnamese)
|
| 19 |
- SQuAD v2 (translated into Vietnamese)
|
| 20 |
-
- ViQuad2.0
|
| 21 |
-
- ZaloQA
|
| 22 |
|
| 23 |
Roberta-base architecture is used as backbone (Training from scratch).
|
| 24 |
|
|
@@ -43,7 +43,7 @@ sentences = ["Mỗi hiệp bóng đá kéo dài bao lâu",
|
|
| 43 |
"Một trận đấu bóng đá thông thường có hai hiệp , mỗi hiệp 45 phút với khoảng thời gian 15 phút nghỉ giữa hai hiệp .",
|
| 44 |
"Cũng trong thập niên 1850 , các đội bóng nghiệp dư bắt đầu được thành lập và thường mỗi đội xây dựng cho riêng họ những luật chơi mới của môn bóng đá , trong đó đáng chú ý có câu lạc bộ Sheffield F.C .. Việc mỗi đội bóng có luật chơi khác nhau khiến việc điều hành mỗi trận đấu giữa họ diễn ra rất khó khăn ."]
|
| 45 |
|
| 46 |
-
model = SentenceTransformer('thehosy/roberta-base-qa-
|
| 47 |
model.eval()
|
| 48 |
|
| 49 |
embeddings = model.encode(sentences, convert_to_tensor=True)
|
|
@@ -76,8 +76,8 @@ sentences = ["Mỗi hiệp bóng đá kéo dài bao lâu",
|
|
| 76 |
"Cũng trong thập niên 1850 , các đội bóng nghiệp dư bắt đầu được thành lập và thường mỗi đội xây dựng cho riêng họ những luật chơi mới của môn bóng đá , trong đó đáng chú ý có câu lạc bộ Sheffield F.C .. Việc mỗi đội bóng có luật chơi khác nhau khiến việc điều hành mỗi trận đấu giữa họ diễn ra rất khó khăn ."]
|
| 77 |
|
| 78 |
# Load model from HuggingFace Hub
|
| 79 |
-
tokenizer = AutoTokenizer.from_pretrained('thehosy/roberta-base-qa-
|
| 80 |
-
model = AutoModel.from_pretrained('thehosy/roberta-base-qa-
|
| 81 |
model.eval()
|
| 82 |
|
| 83 |
# Tokenize sentences
|
|
@@ -96,19 +96,20 @@ print(sim_scores)
|
|
| 96 |
|
| 97 |
## Training
|
| 98 |
|
|
|
|
| 99 |
The model was trained with the parameters:
|
| 100 |
|
| 101 |
**DataLoader**:
|
| 102 |
|
| 103 |
-
`torch.utils.data.dataloader.DataLoader` of length
|
| 104 |
|
| 105 |
```json
|
| 106 |
-
{'batch_size':
|
| 107 |
```
|
| 108 |
|
| 109 |
**Loss**:
|
| 110 |
|
| 111 |
-
`
|
| 112 |
|
| 113 |
**Training Parameters**
|
| 114 |
- epochs: 6
|
|
@@ -118,6 +119,10 @@ The model was trained with the parameters:
|
|
| 118 |
- warmup_steps: 10000
|
| 119 |
- weight_decay": 0.001
|
| 120 |
|
|
|
|
|
|
|
|
|
|
|
|
|
| 121 |
|
| 122 |
## Full Model Architecture
|
| 123 |
|
|
|
|
| 17 |
Datasets:
|
| 18 |
- MS Macro (translated into Vietnamese)
|
| 19 |
- SQuAD v2 (translated into Vietnamese)
|
| 20 |
+
- UIT ViQuad2.0
|
| 21 |
+
- ZaloQA 2021
|
| 22 |
|
| 23 |
Roberta-base architecture is used as backbone (Training from scratch).
|
| 24 |
|
|
|
|
| 43 |
"Một trận đấu bóng đá thông thường có hai hiệp , mỗi hiệp 45 phút với khoảng thời gian 15 phút nghỉ giữa hai hiệp .",
|
| 44 |
"Cũng trong thập niên 1850 , các đội bóng nghiệp dư bắt đầu được thành lập và thường mỗi đội xây dựng cho riêng họ những luật chơi mới của môn bóng đá , trong đó đáng chú ý có câu lạc bộ Sheffield F.C .. Việc mỗi đội bóng có luật chơi khác nhau khiến việc điều hành mỗi trận đấu giữa họ diễn ra rất khó khăn ."]
|
| 45 |
|
| 46 |
+
model = SentenceTransformer('thehosy/vi-roberta-base-qa-embedding')
|
| 47 |
model.eval()
|
| 48 |
|
| 49 |
embeddings = model.encode(sentences, convert_to_tensor=True)
|
|
|
|
| 76 |
"Cũng trong thập niên 1850 , các đội bóng nghiệp dư bắt đầu được thành lập và thường mỗi đội xây dựng cho riêng họ những luật chơi mới của môn bóng đá , trong đó đáng chú ý có câu lạc bộ Sheffield F.C .. Việc mỗi đội bóng có luật chơi khác nhau khiến việc điều hành mỗi trận đấu giữa họ diễn ra rất khó khăn ."]
|
| 77 |
|
| 78 |
# Load model from HuggingFace Hub
|
| 79 |
+
tokenizer = AutoTokenizer.from_pretrained('thehosy/vi-roberta-base-qa-embedding')
|
| 80 |
+
model = AutoModel.from_pretrained('thehosy/vi-roberta-base-qa-embedding')
|
| 81 |
model.eval()
|
| 82 |
|
| 83 |
# Tokenize sentences
|
|
|
|
| 96 |
|
| 97 |
## Training
|
| 98 |
|
| 99 |
+
### Pretraining
|
| 100 |
The model was trained with the parameters:
|
| 101 |
|
| 102 |
**DataLoader**:
|
| 103 |
|
| 104 |
+
MSMACRO: `torch.utils.data.dataloader.DataLoader` of length 2621440 with parameters:
|
| 105 |
|
| 106 |
```json
|
| 107 |
+
{'batch_size': 32, 'sampler': None, 'batch_sampler': None, 'shuffle': true}
|
| 108 |
```
|
| 109 |
|
| 110 |
**Loss**:
|
| 111 |
|
| 112 |
+
`Triplet loss`
|
| 113 |
|
| 114 |
**Training Parameters**
|
| 115 |
- epochs: 6
|
|
|
|
| 119 |
- warmup_steps: 10000
|
| 120 |
- weight_decay": 0.001
|
| 121 |
|
| 122 |
+
### Finetuning
|
| 123 |
+
|
| 124 |
+
|
| 125 |
+
|
| 126 |
|
| 127 |
## Full Model Architecture
|
| 128 |
|