Add new SentenceTransformer model
Browse files- .gitattributes +1 -0
- 1_Pooling/config.json +10 -0
- README.md +493 -0
- config.json +28 -0
- config_sentence_transformers.json +10 -0
- model.safetensors +3 -0
- modules.json +20 -0
- sentence_bert_config.json +4 -0
- sentencepiece.bpe.model +3 -0
- special_tokens_map.json +51 -0
- tokenizer.json +3 -0
- tokenizer_config.json +56 -0
.gitattributes
CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
|
|
33 |
*.zip filter=lfs diff=lfs merge=lfs -text
|
34 |
*.zst filter=lfs diff=lfs merge=lfs -text
|
35 |
*tfevents* filter=lfs diff=lfs merge=lfs -text
|
|
|
|
33 |
*.zip filter=lfs diff=lfs merge=lfs -text
|
34 |
*.zst filter=lfs diff=lfs merge=lfs -text
|
35 |
*tfevents* filter=lfs diff=lfs merge=lfs -text
|
36 |
+
tokenizer.json filter=lfs diff=lfs merge=lfs -text
|
1_Pooling/config.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"word_embedding_dimension": 1024,
|
3 |
+
"pooling_mode_cls_token": true,
|
4 |
+
"pooling_mode_mean_tokens": false,
|
5 |
+
"pooling_mode_max_tokens": false,
|
6 |
+
"pooling_mode_mean_sqrt_len_tokens": false,
|
7 |
+
"pooling_mode_weightedmean_tokens": false,
|
8 |
+
"pooling_mode_lasttoken": false,
|
9 |
+
"include_prompt": true
|
10 |
+
}
|
README.md
ADDED
@@ -0,0 +1,493 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
tags:
|
3 |
+
- sentence-transformers
|
4 |
+
- sentence-similarity
|
5 |
+
- feature-extraction
|
6 |
+
- generated_from_trainer
|
7 |
+
- dataset_size:37059
|
8 |
+
- loss:MultipleNegativesRankingLoss
|
9 |
+
base_model: AITeamVN/Vietnamese_Embedding
|
10 |
+
widget:
|
11 |
+
- source_sentence: Quản lý và sử dụng phí bảo vệ môi trường đối với nước thải công
|
12 |
+
nghiệp được quy định ra sao?
|
13 |
+
sentences:
|
14 |
+
- 'Điều 16. Trách nhiệm của Uỷ ban nhân dân cấp huyện, cấp xã nơi có đê. điểm c)
|
15 |
+
trang bị và hướng dẫn việc quản lý sử dụng các dụng cụ, sổ sách cho các đội tuần
|
16 |
+
tra, canh gác đê theo quy định tại khoản 2 điều 6 của thông tư này. '
|
17 |
+
- Điều 33. Quản lý tài khoản, tài sản ký quỹ của thành viên bù trừ. khoản 6. loại
|
18 |
+
ký quỹ, phương pháp xác định mức ký quỹ, phương thức ký quỹ, thời hạn ký quỹ,
|
19 |
+
bổ sung ký quỹ, chuyển giao tài sản ký quỹ, phương thức định giá tài sản ký quỹ,
|
20 |
+
xác định lãi lỗ vị thế, hoạt động quản lý tài khoản và tài sản ký quỹ của thành
|
21 |
+
viên bù trừ thực hiện theo quy định của bộ trưởng bộ tài chính và quy chế của
|
22 |
+
tổng công ty lưu ký và bù trừ chứng khoán việt nam.
|
23 |
+
- Điều 4. Nguyên tắc quản lý và sử dụng phí. khoản 3. phí thu từ các hoạt động
|
24 |
+
dịch vụ do tổ chức được cơ quan nhà nước có thẩm quyền giao thực hiện được để
|
25 |
+
lại một phần hoặc toàn bộ số tiền phí thu được để trang trải chi phí hoạt động
|
26 |
+
cung cấp dịch vụ, thu phí được xác định theo quy định tại điều 5 nghị định này;
|
27 |
+
phần còn lại (nếu có) nộp ngân sách nhà nước, trừ trường hợp chính phủ có quy
|
28 |
+
định khác thì thực hiện theo quy định của chính phủ. số tiền phí được để lại là
|
29 |
+
doanh thu của tổ chức thu phí.
|
30 |
+
- source_sentence: Ngày bầu cử đại biểu Quốc Hội có phải là ngày chủ nhật?
|
31 |
+
sentences:
|
32 |
+
- 'Điều 16. Cử quốc thiều nước Cộng hòa xã hội chủ nghĩa Việt Nam. khoản 1. quốc
|
33 |
+
thiều việt nam được cử trong các cuộc mít tinh, chiêu đãi chào mừng quốc khánh,
|
34 |
+
ngày lễ lớn của việt nam hoặc kỷ niệm sự kiện quan trọng trong quan hệ giữa việt
|
35 |
+
nam với quốc gia hay tổ chức quốc tế tiếp nhận phù hợp với quy định, thông lệ
|
36 |
+
lễ tân của quốc gia, tổ chức quốc tế tiếp nhận. '
|
37 |
+
- 'Điều 4. Giải thích từ ngữ. khoản 36. quản lý quỹ đầu tư chứng khoán là hoạt
|
38 |
+
động quản lý trong việc mua, bán, nắm giữ chứng khoán và các tài sản khác của
|
39 |
+
quỹ đầu tư chứng khoán. '
|
40 |
+
- 'Điều 52. Giới thiệu người của cơ quan, tổ chức, đơn vị ứng cử đại biểu Hội đồng
|
41 |
+
nhân dân. khoản 4. ban công tác mặt trận ở thôn, tổ dân phố dự kiến người của
|
42 |
+
thôn, tổ dân phố để giới thiệu ứng cử đại biểu hội đồng nhân dân cấp xã và phối
|
43 |
+
hợp với trưởng thôn, tổ trưởng tổ dân phố tổ chức hội nghị cử tri để thảo luận,
|
44 |
+
giới thiệu người ứng cử đại biểu hội đồng nhân dân cấp xã. việc giới thiệu người
|
45 |
+
ứng cử đại biểu hội đồng nhân dân cấp xã ở thôn, tổ dân phố do ủy ban thường vụ
|
46 |
+
quốc hội hướng dẫn; '
|
47 |
+
- source_sentence: Nghiên cứu y sinh học đa trung tâm là gì?
|
48 |
+
sentences:
|
49 |
+
- 'Điều 64. Vi phạm quy định về cung cấp, sử dụng thiết bị vô tuyến điện được miễn
|
50 |
+
Giấy phép sử dụng tần số vô tuyến điện. khoản 2. phạt tiền từ < mức phạt tiền
|
51 |
+
> đến < mức phạt tiền > đối với hành vi sản xuất hoặc nhập khẩu thiết bị vô tuyến
|
52 |
+
điện thuộc danh mục thiết bị vô tuyến điện được miễn giấy phép sử dụng tần số
|
53 |
+
vô tuyến điện nhưng không thực hiện chứng nhận và công bố hợp quy trước khi đưa
|
54 |
+
vào lưu thông trên thị trường. '
|
55 |
+
- 'Điều 3. Giải thích từ ngữ. khoản 19. nguy cơ (risk) là xác suất mà một sự kiện
|
56 |
+
hoặc kết quả thuận lợi hay bất lợi xảy ra trong một khoảng thời gian xác định
|
57 |
+
của nghiên cứu theo tiếp cận của dịch tễ. '
|
58 |
+
- 'Điều 9. Nội dung tuần tra, canh gác đê. điểm d) mỗi kíp tuần tra phải kiểm tra
|
59 |
+
vượt quá phạm vi phụ trách về hai phía, mỗi phía 50m. đối với những khu vực đã
|
60 |
+
từng xảy ra sự cố hư hỏng, phải kiểm tra quan sát rộng hơn để phát hiện sự cố. '
|
61 |
+
- source_sentence: Không treo biển thông báo không bán thuốc lá cho người dưới 18
|
62 |
+
tuổi phạt 1 triệu được quy định như thế nào?
|
63 |
+
sentences:
|
64 |
+
- 'Điều 49. Hành vi vi phạm về đăng ký hợp đồng theo mẫu, điều kiện giao dịch chung. điểm
|
65 |
+
c) không áp dụng đúng hợp đồng theo mẫu, điều kiện giao dịch chung đã đăng ký
|
66 |
+
với cơ quan quản lý nhà nước có thẩm quyền về bảo vệ quyền lợi người tiêu dùng
|
67 |
+
theo quy định. '
|
68 |
+
- Điều 15. Khen thưởng, kỷ Luật. khoản 2. những đơn vị và cá nhân vi phạm quy định
|
69 |
+
tại thông tư này tuỳ theo lỗi nặng nhẹ sẽ bị thi hành kỷ luật từ cảnh cáo đến
|
70 |
+
truy tố trước pháp luật của nhà nước.
|
71 |
+
- 'Điều 81. Tước quyền sử dụng giấy phép, chứng chỉ hành nghề có thời hạn hoặc đình
|
72 |
+
chỉ hoạt động có thời hạn trong lĩnh vực giao thông đường bộ, đường sắt. khoản
|
73 |
+
5. trường hợp người có hành vi vi phạm bị áp dụng hình thức xử phạt tước quyền
|
74 |
+
sử dụng giấy phép, chứng chỉ hành nghề nhưng thời hạn sử dụng còn lại của giấy
|
75 |
+
phép, chứng chỉ hành nghề đó ít hơn thời hạn bị tước thì người có thẩm quyền vẫn
|
76 |
+
ra quyết định xử phạt có áp dụng hình thức tước quyền sử dụng giấy phép, chứng
|
77 |
+
chỉ hành nghề theo quy định đối với hành vi vi phạm. trong thời gian bị tước quyền
|
78 |
+
sử dụng giấy phép, chứng chỉ hành nghề, cá nhân, tổ chức không được làm thủ tục
|
79 |
+
cấp đổi, cấp mới giấy phép, chứng chỉ hành nghề. '
|
80 |
+
- source_sentence: Quy định về trao đổi dữ liệu thi hành án hình sự được quy định
|
81 |
+
như thế nào?
|
82 |
+
sentences:
|
83 |
+
- Điều 13. Quy định về bàn giao giữa các kíp trực. sau mỗi đợt kiểm tra, các kíp
|
84 |
+
tuần tra, canh gác đê phải ghi chép đầy đủ tình hình diễn biến và hư hỏng đê điều
|
85 |
+
vào sổ nhật ký tuần tra, canh gác theo mẫu quy định và bàn giao đầy đủ cho kíp
|
86 |
+
sau. người thay mặt kíp giao và nhận phải ký và ghi rõ họ tên, ngày giờ vào sổ.
|
87 |
+
sau mỗi ngày đội trưởng và cán bộ chuyên trách quản lý đê điều ký xác nhận tình
|
88 |
+
hình trong ngày để theo dõi và làm cơ sở cho việc chi trả thù lao theo quy định.
|
89 |
+
- 'Điều 33. Báo cáo của tổ chức tư vấn hồ sơ chào bán trái phiếu, tổ chức đấu thầu,
|
90 |
+
bảo lãnh, đại lý phát hành, tổ chức đăng ký, lưu ký trái phiếu và Sở giao dịch
|
91 |
+
chứng khoán. điểm b) ngoài chế độ báo cáo định kỳ theo quy định tại điểm a khoản
|
92 |
+
này, sở giao dịch chứng khoán báo cáo đột xuất cho ủy ban chứng khoán nhà nước
|
93 |
+
và bộ tài chính theo yêu cầu của cơ quan quản lý. '
|
94 |
+
- 'Điều 12. Trao đổi dữ liệu giữa cơ sở dữ liệu về thi hành án hình sự và các cơ
|
95 |
+
sở dữ liệu khác liên quan. khoản 1. việc trao đổi dữ liệu giữa cơ sở dữ liệu
|
96 |
+
về thi hành án hình sự và các cơ sở dữ liệu khác liên quan phải thực hiện theo
|
97 |
+
quy định của pháp luật và quy định của bộ công an, bộ quốc phòng. '
|
98 |
+
datasets:
|
99 |
+
- batmangiaicuuthegioi/zalo-legal-triplets
|
100 |
+
pipeline_tag: sentence-similarity
|
101 |
+
library_name: sentence-transformers
|
102 |
+
metrics:
|
103 |
+
- cosine_accuracy
|
104 |
+
model-index:
|
105 |
+
- name: SentenceTransformer based on AITeamVN/Vietnamese_Embedding
|
106 |
+
results:
|
107 |
+
- task:
|
108 |
+
type: triplet
|
109 |
+
name: Triplet
|
110 |
+
dataset:
|
111 |
+
name: zalo legal
|
112 |
+
type: zalo_legal
|
113 |
+
metrics:
|
114 |
+
- type: cosine_accuracy
|
115 |
+
value: 1.0
|
116 |
+
name: Cosine Accuracy
|
117 |
+
- type: cosine_accuracy
|
118 |
+
value: 1.0
|
119 |
+
name: Cosine Accuracy
|
120 |
+
---
|
121 |
+
|
122 |
+
# SentenceTransformer based on AITeamVN/Vietnamese_Embedding
|
123 |
+
|
124 |
+
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [AITeamVN/Vietnamese_Embedding](https://huggingface.co/AITeamVN/Vietnamese_Embedding) on the [zalo-legal-triplets](https://huggingface.co/datasets/batmangiaicuuthegioi/zalo-legal-triplets) dataset. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
|
125 |
+
|
126 |
+
## Model Details
|
127 |
+
|
128 |
+
### Model Description
|
129 |
+
- **Model Type:** Sentence Transformer
|
130 |
+
- **Base model:** [AITeamVN/Vietnamese_Embedding](https://huggingface.co/AITeamVN/Vietnamese_Embedding) <!-- at revision 9f671cc30908f1d851787efcc05b7d15bad8b615 -->
|
131 |
+
- **Maximum Sequence Length:** 8192 tokens
|
132 |
+
- **Output Dimensionality:** 1024 dimensions
|
133 |
+
- **Similarity Function:** Cosine Similarity
|
134 |
+
- **Training Dataset:**
|
135 |
+
- [zalo-legal-triplets](https://huggingface.co/datasets/batmangiaicuuthegioi/zalo-legal-triplets)
|
136 |
+
<!-- - **Language:** Unknown -->
|
137 |
+
<!-- - **License:** Unknown -->
|
138 |
+
|
139 |
+
### Model Sources
|
140 |
+
|
141 |
+
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
|
142 |
+
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
|
143 |
+
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
|
144 |
+
|
145 |
+
### Full Model Architecture
|
146 |
+
|
147 |
+
```
|
148 |
+
SentenceTransformer(
|
149 |
+
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
|
150 |
+
(1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
|
151 |
+
(2): Normalize()
|
152 |
+
)
|
153 |
+
```
|
154 |
+
|
155 |
+
## Usage
|
156 |
+
|
157 |
+
### Direct Usage (Sentence Transformers)
|
158 |
+
|
159 |
+
First install the Sentence Transformers library:
|
160 |
+
|
161 |
+
```bash
|
162 |
+
pip install -U sentence-transformers
|
163 |
+
```
|
164 |
+
|
165 |
+
Then you can load this model and run inference.
|
166 |
+
```python
|
167 |
+
from sentence_transformers import SentenceTransformer
|
168 |
+
|
169 |
+
# Download from the 🤗 Hub
|
170 |
+
model = SentenceTransformer("batmangiaicuuthegioi/bi-encoders-embeddings")
|
171 |
+
# Run inference
|
172 |
+
sentences = [
|
173 |
+
'Quy định về trao đổi dữ liệu thi hành án hình sự được quy định như thế nào?',
|
174 |
+
'Điều 12. Trao đổi dữ liệu giữa cơ sở dữ liệu về thi hành án hình sự và các cơ sở dữ liệu khác liên quan. khoản 1. việc trao đổi dữ liệu giữa cơ sở dữ liệu về thi hành án hình sự và các cơ sở dữ liệu khác liên quan phải thực hiện theo quy định của pháp luật và quy định của bộ công an, bộ quốc phòng. ',
|
175 |
+
'Điều 13. Quy định về bàn giao giữa các kíp trực. sau mỗi đợt kiểm tra, các kíp tuần tra, canh gác đê phải ghi chép đầy đủ tình hình diễn biến và hư hỏng đê điều vào sổ nhật ký tuần tra, canh gác theo mẫu quy định và bàn giao đầy đủ cho kíp sau. người thay mặt kíp giao và nhận phải ký và ghi rõ họ tên, ngày giờ vào sổ. sau mỗi ngày đội trưởng và cán bộ chuyên trách quản lý đê điều ký xác nhận tình hình trong ngày để theo dõi và làm cơ sở cho việc chi trả thù lao theo quy định.',
|
176 |
+
]
|
177 |
+
embeddings = model.encode(sentences)
|
178 |
+
print(embeddings.shape)
|
179 |
+
# [3, 1024]
|
180 |
+
|
181 |
+
# Get the similarity scores for the embeddings
|
182 |
+
similarities = model.similarity(embeddings, embeddings)
|
183 |
+
print(similarities.shape)
|
184 |
+
# [3, 3]
|
185 |
+
```
|
186 |
+
|
187 |
+
<!--
|
188 |
+
### Direct Usage (Transformers)
|
189 |
+
|
190 |
+
<details><summary>Click to see the direct usage in Transformers</summary>
|
191 |
+
|
192 |
+
</details>
|
193 |
+
-->
|
194 |
+
|
195 |
+
<!--
|
196 |
+
### Downstream Usage (Sentence Transformers)
|
197 |
+
|
198 |
+
You can finetune this model on your own dataset.
|
199 |
+
|
200 |
+
<details><summary>Click to expand</summary>
|
201 |
+
|
202 |
+
</details>
|
203 |
+
-->
|
204 |
+
|
205 |
+
<!--
|
206 |
+
### Out-of-Scope Use
|
207 |
+
|
208 |
+
*List how the model may foreseeably be misused and address what users ought not to do with the model.*
|
209 |
+
-->
|
210 |
+
|
211 |
+
## Evaluation
|
212 |
+
|
213 |
+
### Metrics
|
214 |
+
|
215 |
+
#### Triplet
|
216 |
+
|
217 |
+
* Dataset: `zalo_legal`
|
218 |
+
* Evaluated with [<code>TripletEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.TripletEvaluator)
|
219 |
+
|
220 |
+
| Metric | Value |
|
221 |
+
|:--------------------|:--------|
|
222 |
+
| **cosine_accuracy** | **1.0** |
|
223 |
+
|
224 |
+
#### Triplet
|
225 |
+
|
226 |
+
* Dataset: `zalo_legal`
|
227 |
+
* Evaluated with [<code>TripletEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.TripletEvaluator)
|
228 |
+
|
229 |
+
| Metric | Value |
|
230 |
+
|:--------------------|:--------|
|
231 |
+
| **cosine_accuracy** | **1.0** |
|
232 |
+
|
233 |
+
<!--
|
234 |
+
## Bias, Risks and Limitations
|
235 |
+
|
236 |
+
*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
|
237 |
+
-->
|
238 |
+
|
239 |
+
<!--
|
240 |
+
### Recommendations
|
241 |
+
|
242 |
+
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
|
243 |
+
-->
|
244 |
+
|
245 |
+
## Training Details
|
246 |
+
|
247 |
+
### Training Dataset
|
248 |
+
|
249 |
+
#### zalo-legal-triplets
|
250 |
+
|
251 |
+
* Dataset: [zalo-legal-triplets](https://huggingface.co/datasets/batmangiaicuuthegioi/zalo-legal-triplets) at [15e0566](https://huggingface.co/datasets/batmangiaicuuthegioi/zalo-legal-triplets/tree/15e0566d390f73b5574a3d928cb8353cb6656fba)
|
252 |
+
* Size: 37,059 training samples
|
253 |
+
* Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
|
254 |
+
* Approximate statistics based on the first 1000 samples:
|
255 |
+
| | anchor | positive | negative |
|
256 |
+
|:--------|:----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
|
257 |
+
| type | string | string | string |
|
258 |
+
| details | <ul><li>min: 7 tokens</li><li>mean: 22.08 tokens</li><li>max: 47 tokens</li></ul> | <ul><li>min: 13 tokens</li><li>mean: 82.98 tokens</li><li>max: 344 tokens</li></ul> | <ul><li>min: 25 tokens</li><li>mean: 76.65 tokens</li><li>max: 220 tokens</li></ul> |
|
259 |
+
* Samples:
|
260 |
+
| anchor | positive | negative |
|
261 |
+
|:------------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|
262 |
+
| <code>Mức phạt đối với hành vi điều khiển xe máy dẫn, dắt theo súc vật ?</code> | <code>Điều 63. Xử phạt nhân viên đường sắt trực tiếp phục vụ chạy tàu (trừ lái tàu và phụ lái tàu) vi phạm quy định về nồng độ cồn hoặc sử dụng các chất kích thích khác mà pháp luật cấm sử dụng. điểm c) khi làm nhiệm vụ mà trong cơ thể có chất kích thích khác mà pháp luật cấm sử dụng.</code> | <code>Điều 4. Nhiệm vụ của lực lượng tuần tra, canh gác đê. khoản 5. đeo phù hiệu khi làm nhiệm vụ.</code> |
|
263 |
+
| <code>Theo quy định pháp luật, dẫn xuất của các loài động vật, thực vật là gì?</code> | <code>Điều 3. Giải thích từ ngữ. khoản 26. mẫu vật săn bắt là mẫu vật có được từ các hoạt động săn bắt hợp pháp. </code> | <code>Điều 17. Trách nhiệm của Sở Nông nghiệp và Phát triển nông thôn. khoản 3. khi có báo động lũ từ cấp i trở lên, sở nông nghiệp và phát triển nông thôn phải chỉ đạo, tổ chức kiểm tra, đôn đốc công tác tuần tra, canh gác ở các tuyến đê.</code> |
|
264 |
+
| <code>Mục tiêu của giáo dục nghề nghiệp từ tháng 7/2020 được quy định như thế nào?</code> | <code>Điều 36. Mục tiêu của giáo dục nghề nghiệp. giáo dục nghề nghiệp nhằm đào tạo nhân lực trực tiếp cho sản xuất, kinh doanh và dịch vụ, có năng lực hành nghề tương ứng với trình độ đào tạo; có đạo đức, sức khỏe; có trách nhiệm nghề nghiệp; có khả năng sáng tạo, thích ứng với môi trường hội nhập quốc tế; bảo đảm nâng cao năng suất, chất lượng lao động; tạo điều kiện cho người học sau khi hoàn thành khóa học có khả năng tìm việc làm, tự tạo việc làm hoặc học trình độ cao hơn.</code> | <code>Điều 3. Tiêu chuẩn của các thành viên thu���c lực lượng tuần tra, canh gác đê. khoản 2. có tinh thần trách nhiệm, chịu đựng gian khổ, khắc phục khó khăn, quen sông nước và biết bơi, có kiến thức, kinh nghiệm hộ đê, phòng, chống lụt, bão.</code> |
|
265 |
+
* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
|
266 |
+
```json
|
267 |
+
{
|
268 |
+
"scale": 20.0,
|
269 |
+
"similarity_fct": "cos_sim"
|
270 |
+
}
|
271 |
+
```
|
272 |
+
|
273 |
+
### Evaluation Dataset
|
274 |
+
|
275 |
+
#### zalo-legal-triplets
|
276 |
+
|
277 |
+
* Dataset: [zalo-legal-triplets](https://huggingface.co/datasets/batmangiaicuuthegioi/zalo-legal-triplets) at [15e0566](https://huggingface.co/datasets/batmangiaicuuthegioi/zalo-legal-triplets/tree/15e0566d390f73b5574a3d928cb8353cb6656fba)
|
278 |
+
* Size: 37,059 evaluation samples
|
279 |
+
* Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
|
280 |
+
* Approximate statistics based on the first 1000 samples:
|
281 |
+
| | anchor | positive | negative |
|
282 |
+
|:--------|:---------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
|
283 |
+
| type | string | string | string |
|
284 |
+
| details | <ul><li>min: 7 tokens</li><li>mean: 21.7 tokens</li><li>max: 47 tokens</li></ul> | <ul><li>min: 17 tokens</li><li>mean: 79.22 tokens</li><li>max: 327 tokens</li></ul> | <ul><li>min: 25 tokens</li><li>mean: 74.1 tokens</li><li>max: 220 tokens</li></ul> |
|
285 |
+
* Samples:
|
286 |
+
| anchor | positive | negative |
|
287 |
+
|:------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|
288 |
+
| <code>Nghiên cứu y sinh học liên quan đến con người là gì?</code> | <code>Điều 31. Thẩm định nghiên cứu theo quy trình rút gọn. khoản 4. ngoại trừ trường hợp họp khẩn cấp, tất cả tài liệu đề nghị xem xét phải được gửi tới thành viên hội đồng đạo đức được phân công nhận xét trước ít nhất 05 ngày làm việc so với ngày yêu cầu gửi lại phiếu nhận xét, đánh giá nghiên cứu. </code> | <code>Điều 10. Nội dung tuần tra canh gác cống qua đê. khoản 2. người tuần tra, canh gác phải kiểm tra kỹ phần tiếp giáp giữa thân cống, tường cánh gà của cống với đê; cánh cống, bộ phận đóng mở cánh cống, cửa cống, thân cống và khu vực thượng, hạ lưu cống để phát hiện kịp thời những sự cố xảy ra. </code> |
|
289 |
+
| <code>Hồ sơ cấp lại Giấy chứng nhận đủ điều kiện hoạt động dịch vụ giám định công nghệ bao gồm những giấy tờ gì?</code> | <code>Điều 38. Hồ sơ cấp Giấy chứng nhận đủ điều kiện hoạt động dịch vụ giám định công nghệ. điểm e) mẫu chứng thư giám định của tổ chức. </code> | <code>Điều 6. Trang bị dụng cụ, sổ sách. khoản 7. việc giao nhận các dụng cụ và sổ sách trên đây phải được lập biên bản để quản lý, theo dõi.</code> |
|
290 |
+
| <code>Chạy quá tốc độ bao nhiêu km thì xe ô tô sẽ bị giam bằng?</code> | <code>Điều 55. Xử phạt các hành vi vi phạm quy định quản lý, bảo trì kết cấu hạ tầng đường sắt. điểm b) thực hiện hành vi quy định tại điểm c khoản 3 điều này buộc phải tổ chức sửa chữa, bổ sung, gia cố, thay thế các hư hỏng kết cấu hạ tầng đường sắt để bảo đảm chất lượng theo công lệnh tốc độ, công lệnh tải trọng đã công bố.</code> | <code>Điều 9. Nội dung tuần tra, canh gác đê. điểm d) mỗi kíp tuần tra phải kiểm tra vượt quá phạm vi phụ trách về hai phía, mỗi phía 50m. đối với những khu vực đã từng xảy ra sự cố hư hỏng, phải kiểm tra quan sát rộng hơn để phát hiện sự cố. </code> |
|
291 |
+
* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
|
292 |
+
```json
|
293 |
+
{
|
294 |
+
"scale": 20.0,
|
295 |
+
"similarity_fct": "cos_sim"
|
296 |
+
}
|
297 |
+
```
|
298 |
+
|
299 |
+
### Training Hyperparameters
|
300 |
+
#### Non-Default Hyperparameters
|
301 |
+
|
302 |
+
- `eval_strategy`: steps
|
303 |
+
- `per_device_train_batch_size`: 4
|
304 |
+
- `per_device_eval_batch_size`: 2
|
305 |
+
- `num_train_epochs`: 1
|
306 |
+
- `warmup_ratio`: 0.1
|
307 |
+
- `fp16`: True
|
308 |
+
|
309 |
+
#### All Hyperparameters
|
310 |
+
<details><summary>Click to expand</summary>
|
311 |
+
|
312 |
+
- `overwrite_output_dir`: False
|
313 |
+
- `do_predict`: False
|
314 |
+
- `eval_strategy`: steps
|
315 |
+
- `prediction_loss_only`: True
|
316 |
+
- `per_device_train_batch_size`: 4
|
317 |
+
- `per_device_eval_batch_size`: 2
|
318 |
+
- `per_gpu_train_batch_size`: None
|
319 |
+
- `per_gpu_eval_batch_size`: None
|
320 |
+
- `gradient_accumulation_steps`: 1
|
321 |
+
- `eval_accumulation_steps`: None
|
322 |
+
- `torch_empty_cache_steps`: None
|
323 |
+
- `learning_rate`: 5e-05
|
324 |
+
- `weight_decay`: 0.0
|
325 |
+
- `adam_beta1`: 0.9
|
326 |
+
- `adam_beta2`: 0.999
|
327 |
+
- `adam_epsilon`: 1e-08
|
328 |
+
- `max_grad_norm`: 1.0
|
329 |
+
- `num_train_epochs`: 1
|
330 |
+
- `max_steps`: -1
|
331 |
+
- `lr_scheduler_type`: linear
|
332 |
+
- `lr_scheduler_kwargs`: {}
|
333 |
+
- `warmup_ratio`: 0.1
|
334 |
+
- `warmup_steps`: 0
|
335 |
+
- `log_level`: passive
|
336 |
+
- `log_level_replica`: warning
|
337 |
+
- `log_on_each_node`: True
|
338 |
+
- `logging_nan_inf_filter`: True
|
339 |
+
- `save_safetensors`: True
|
340 |
+
- `save_on_each_node`: False
|
341 |
+
- `save_only_model`: False
|
342 |
+
- `restore_callback_states_from_checkpoint`: False
|
343 |
+
- `no_cuda`: False
|
344 |
+
- `use_cpu`: False
|
345 |
+
- `use_mps_device`: False
|
346 |
+
- `seed`: 42
|
347 |
+
- `data_seed`: None
|
348 |
+
- `jit_mode_eval`: False
|
349 |
+
- `use_ipex`: False
|
350 |
+
- `bf16`: False
|
351 |
+
- `fp16`: True
|
352 |
+
- `fp16_opt_level`: O1
|
353 |
+
- `half_precision_backend`: auto
|
354 |
+
- `bf16_full_eval`: False
|
355 |
+
- `fp16_full_eval`: False
|
356 |
+
- `tf32`: None
|
357 |
+
- `local_rank`: 0
|
358 |
+
- `ddp_backend`: None
|
359 |
+
- `tpu_num_cores`: None
|
360 |
+
- `tpu_metrics_debug`: False
|
361 |
+
- `debug`: []
|
362 |
+
- `dataloader_drop_last`: False
|
363 |
+
- `dataloader_num_workers`: 0
|
364 |
+
- `dataloader_prefetch_factor`: None
|
365 |
+
- `past_index`: -1
|
366 |
+
- `disable_tqdm`: False
|
367 |
+
- `remove_unused_columns`: True
|
368 |
+
- `label_names`: None
|
369 |
+
- `load_best_model_at_end`: False
|
370 |
+
- `ignore_data_skip`: False
|
371 |
+
- `fsdp`: []
|
372 |
+
- `fsdp_min_num_params`: 0
|
373 |
+
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
|
374 |
+
- `fsdp_transformer_layer_cls_to_wrap`: None
|
375 |
+
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
|
376 |
+
- `deepspeed`: None
|
377 |
+
- `label_smoothing_factor`: 0.0
|
378 |
+
- `optim`: adamw_torch
|
379 |
+
- `optim_args`: None
|
380 |
+
- `adafactor`: False
|
381 |
+
- `group_by_length`: False
|
382 |
+
- `length_column_name`: length
|
383 |
+
- `ddp_find_unused_parameters`: None
|
384 |
+
- `ddp_bucket_cap_mb`: None
|
385 |
+
- `ddp_broadcast_buffers`: False
|
386 |
+
- `dataloader_pin_memory`: True
|
387 |
+
- `dataloader_persistent_workers`: False
|
388 |
+
- `skip_memory_metrics`: True
|
389 |
+
- `use_legacy_prediction_loop`: False
|
390 |
+
- `push_to_hub`: False
|
391 |
+
- `resume_from_checkpoint`: None
|
392 |
+
- `hub_model_id`: None
|
393 |
+
- `hub_strategy`: every_save
|
394 |
+
- `hub_private_repo`: None
|
395 |
+
- `hub_always_push`: False
|
396 |
+
- `gradient_checkpointing`: False
|
397 |
+
- `gradient_checkpointing_kwargs`: None
|
398 |
+
- `include_inputs_for_metrics`: False
|
399 |
+
- `include_for_metrics`: []
|
400 |
+
- `eval_do_concat_batches`: True
|
401 |
+
- `fp16_backend`: auto
|
402 |
+
- `push_to_hub_model_id`: None
|
403 |
+
- `push_to_hub_organization`: None
|
404 |
+
- `mp_parameters`:
|
405 |
+
- `auto_find_batch_size`: False
|
406 |
+
- `full_determinism`: False
|
407 |
+
- `torchdynamo`: None
|
408 |
+
- `ray_scope`: last
|
409 |
+
- `ddp_timeout`: 1800
|
410 |
+
- `torch_compile`: False
|
411 |
+
- `torch_compile_backend`: None
|
412 |
+
- `torch_compile_mode`: None
|
413 |
+
- `dispatch_batches`: None
|
414 |
+
- `split_batches`: None
|
415 |
+
- `include_tokens_per_second`: False
|
416 |
+
- `include_num_input_tokens_seen`: False
|
417 |
+
- `neftune_noise_alpha`: None
|
418 |
+
- `optim_target_modules`: None
|
419 |
+
- `batch_eval_metrics`: False
|
420 |
+
- `eval_on_start`: False
|
421 |
+
- `use_liger_kernel`: False
|
422 |
+
- `eval_use_gather_object`: False
|
423 |
+
- `average_tokens_across_devices`: False
|
424 |
+
- `prompts`: None
|
425 |
+
- `batch_sampler`: batch_sampler
|
426 |
+
- `multi_dataset_batch_sampler`: proportional
|
427 |
+
|
428 |
+
</details>
|
429 |
+
|
430 |
+
### Training Logs
|
431 |
+
| Epoch | Step | Training Loss | Validation Loss | zalo_legal_cosine_accuracy |
|
432 |
+
|:------:|:----:|:-------------:|:---------------:|:--------------------------:|
|
433 |
+
| 0.3084 | 2000 | 0.2978 | 0.0778 | 0.9996 |
|
434 |
+
| 0.6167 | 4000 | 0.1735 | 0.0522 | 1.0 |
|
435 |
+
| 0.9251 | 6000 | 0.1148 | 0.0330 | 1.0 |
|
436 |
+
| 1.0 | 6486 | - | - | 1.0 |
|
437 |
+
|
438 |
+
|
439 |
+
### Framework Versions
|
440 |
+
- Python: 3.10.12
|
441 |
+
- Sentence Transformers: 3.3.1
|
442 |
+
- Transformers: 4.47.0
|
443 |
+
- PyTorch: 2.5.1+cu121
|
444 |
+
- Accelerate: 1.2.1
|
445 |
+
- Datasets: 3.3.1
|
446 |
+
- Tokenizers: 0.21.0
|
447 |
+
|
448 |
+
## Citation
|
449 |
+
|
450 |
+
### BibTeX
|
451 |
+
|
452 |
+
#### Sentence Transformers
|
453 |
+
```bibtex
|
454 |
+
@inproceedings{reimers-2019-sentence-bert,
|
455 |
+
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
|
456 |
+
author = "Reimers, Nils and Gurevych, Iryna",
|
457 |
+
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
|
458 |
+
month = "11",
|
459 |
+
year = "2019",
|
460 |
+
publisher = "Association for Computational Linguistics",
|
461 |
+
url = "https://arxiv.org/abs/1908.10084",
|
462 |
+
}
|
463 |
+
```
|
464 |
+
|
465 |
+
#### MultipleNegativesRankingLoss
|
466 |
+
```bibtex
|
467 |
+
@misc{henderson2017efficient,
|
468 |
+
title={Efficient Natural Language Response Suggestion for Smart Reply},
|
469 |
+
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
|
470 |
+
year={2017},
|
471 |
+
eprint={1705.00652},
|
472 |
+
archivePrefix={arXiv},
|
473 |
+
primaryClass={cs.CL}
|
474 |
+
}
|
475 |
+
```
|
476 |
+
|
477 |
+
<!--
|
478 |
+
## Glossary
|
479 |
+
|
480 |
+
*Clearly define terms in order to be accessible across audiences.*
|
481 |
+
-->
|
482 |
+
|
483 |
+
<!--
|
484 |
+
## Model Card Authors
|
485 |
+
|
486 |
+
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
|
487 |
+
-->
|
488 |
+
|
489 |
+
<!--
|
490 |
+
## Model Card Contact
|
491 |
+
|
492 |
+
*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
|
493 |
+
-->
|
config.json
ADDED
@@ -0,0 +1,28 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"_name_or_path": "AITeamVN/Vietnamese_Embedding",
|
3 |
+
"architectures": [
|
4 |
+
"XLMRobertaModel"
|
5 |
+
],
|
6 |
+
"attention_probs_dropout_prob": 0.1,
|
7 |
+
"bos_token_id": 0,
|
8 |
+
"classifier_dropout": null,
|
9 |
+
"eos_token_id": 2,
|
10 |
+
"hidden_act": "gelu",
|
11 |
+
"hidden_dropout_prob": 0.1,
|
12 |
+
"hidden_size": 1024,
|
13 |
+
"initializer_range": 0.02,
|
14 |
+
"intermediate_size": 4096,
|
15 |
+
"layer_norm_eps": 1e-05,
|
16 |
+
"max_position_embeddings": 8194,
|
17 |
+
"model_type": "xlm-roberta",
|
18 |
+
"num_attention_heads": 16,
|
19 |
+
"num_hidden_layers": 24,
|
20 |
+
"output_past": true,
|
21 |
+
"pad_token_id": 1,
|
22 |
+
"position_embedding_type": "absolute",
|
23 |
+
"torch_dtype": "float32",
|
24 |
+
"transformers_version": "4.47.0",
|
25 |
+
"type_vocab_size": 1,
|
26 |
+
"use_cache": true,
|
27 |
+
"vocab_size": 250002
|
28 |
+
}
|
config_sentence_transformers.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"__version__": {
|
3 |
+
"sentence_transformers": "3.3.1",
|
4 |
+
"transformers": "4.47.0",
|
5 |
+
"pytorch": "2.5.1+cu121"
|
6 |
+
},
|
7 |
+
"prompts": {},
|
8 |
+
"default_prompt_name": null,
|
9 |
+
"similarity_fn_name": "cosine"
|
10 |
+
}
|
model.safetensors
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:c0270f5f13e501d5c40bf735a97a4578351c0e4be903b8c8e80c043eb581d70e
|
3 |
+
size 2271064456
|
modules.json
ADDED
@@ -0,0 +1,20 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"idx": 0,
|
4 |
+
"name": "0",
|
5 |
+
"path": "",
|
6 |
+
"type": "sentence_transformers.models.Transformer"
|
7 |
+
},
|
8 |
+
{
|
9 |
+
"idx": 1,
|
10 |
+
"name": "1",
|
11 |
+
"path": "1_Pooling",
|
12 |
+
"type": "sentence_transformers.models.Pooling"
|
13 |
+
},
|
14 |
+
{
|
15 |
+
"idx": 2,
|
16 |
+
"name": "2",
|
17 |
+
"path": "2_Normalize",
|
18 |
+
"type": "sentence_transformers.models.Normalize"
|
19 |
+
}
|
20 |
+
]
|
sentence_bert_config.json
ADDED
@@ -0,0 +1,4 @@
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"max_seq_length": 8192,
|
3 |
+
"do_lower_case": false
|
4 |
+
}
|
sentencepiece.bpe.model
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
|
3 |
+
size 5069051
|
special_tokens_map.json
ADDED
@@ -0,0 +1,51 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"bos_token": {
|
3 |
+
"content": "<s>",
|
4 |
+
"lstrip": false,
|
5 |
+
"normalized": false,
|
6 |
+
"rstrip": false,
|
7 |
+
"single_word": false
|
8 |
+
},
|
9 |
+
"cls_token": {
|
10 |
+
"content": "<s>",
|
11 |
+
"lstrip": false,
|
12 |
+
"normalized": false,
|
13 |
+
"rstrip": false,
|
14 |
+
"single_word": false
|
15 |
+
},
|
16 |
+
"eos_token": {
|
17 |
+
"content": "</s>",
|
18 |
+
"lstrip": false,
|
19 |
+
"normalized": false,
|
20 |
+
"rstrip": false,
|
21 |
+
"single_word": false
|
22 |
+
},
|
23 |
+
"mask_token": {
|
24 |
+
"content": "<mask>",
|
25 |
+
"lstrip": true,
|
26 |
+
"normalized": false,
|
27 |
+
"rstrip": false,
|
28 |
+
"single_word": false
|
29 |
+
},
|
30 |
+
"pad_token": {
|
31 |
+
"content": "<pad>",
|
32 |
+
"lstrip": false,
|
33 |
+
"normalized": false,
|
34 |
+
"rstrip": false,
|
35 |
+
"single_word": false
|
36 |
+
},
|
37 |
+
"sep_token": {
|
38 |
+
"content": "</s>",
|
39 |
+
"lstrip": false,
|
40 |
+
"normalized": false,
|
41 |
+
"rstrip": false,
|
42 |
+
"single_word": false
|
43 |
+
},
|
44 |
+
"unk_token": {
|
45 |
+
"content": "<unk>",
|
46 |
+
"lstrip": false,
|
47 |
+
"normalized": false,
|
48 |
+
"rstrip": false,
|
49 |
+
"single_word": false
|
50 |
+
}
|
51 |
+
}
|
tokenizer.json
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:222975faa02f5257c6e8c734e85973e48c8d42d7d37d90b894c73efa1841d76a
|
3 |
+
size 17083154
|
tokenizer_config.json
ADDED
@@ -0,0 +1,56 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"added_tokens_decoder": {
|
3 |
+
"0": {
|
4 |
+
"content": "<s>",
|
5 |
+
"lstrip": false,
|
6 |
+
"normalized": false,
|
7 |
+
"rstrip": false,
|
8 |
+
"single_word": false,
|
9 |
+
"special": true
|
10 |
+
},
|
11 |
+
"1": {
|
12 |
+
"content": "<pad>",
|
13 |
+
"lstrip": false,
|
14 |
+
"normalized": false,
|
15 |
+
"rstrip": false,
|
16 |
+
"single_word": false,
|
17 |
+
"special": true
|
18 |
+
},
|
19 |
+
"2": {
|
20 |
+
"content": "</s>",
|
21 |
+
"lstrip": false,
|
22 |
+
"normalized": false,
|
23 |
+
"rstrip": false,
|
24 |
+
"single_word": false,
|
25 |
+
"special": true
|
26 |
+
},
|
27 |
+
"3": {
|
28 |
+
"content": "<unk>",
|
29 |
+
"lstrip": false,
|
30 |
+
"normalized": false,
|
31 |
+
"rstrip": false,
|
32 |
+
"single_word": false,
|
33 |
+
"special": true
|
34 |
+
},
|
35 |
+
"250001": {
|
36 |
+
"content": "<mask>",
|
37 |
+
"lstrip": true,
|
38 |
+
"normalized": false,
|
39 |
+
"rstrip": false,
|
40 |
+
"single_word": false,
|
41 |
+
"special": true
|
42 |
+
}
|
43 |
+
},
|
44 |
+
"bos_token": "<s>",
|
45 |
+
"clean_up_tokenization_spaces": true,
|
46 |
+
"cls_token": "<s>",
|
47 |
+
"eos_token": "</s>",
|
48 |
+
"extra_special_tokens": {},
|
49 |
+
"mask_token": "<mask>",
|
50 |
+
"model_max_length": 8192,
|
51 |
+
"pad_token": "<pad>",
|
52 |
+
"sep_token": "</s>",
|
53 |
+
"sp_model_kwargs": {},
|
54 |
+
"tokenizer_class": "XLMRobertaTokenizer",
|
55 |
+
"unk_token": "<unk>"
|
56 |
+
}
|