batmangiaicuuthegioi commited on
Commit
ab1a0d1
·
verified ·
1 Parent(s): bbf9f27

Add new SentenceTransformer model

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 1024,
3
+ "pooling_mode_cls_token": true,
4
+ "pooling_mode_mean_tokens": false,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,493 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - sentence-similarity
5
+ - feature-extraction
6
+ - generated_from_trainer
7
+ - dataset_size:37059
8
+ - loss:MultipleNegativesRankingLoss
9
+ base_model: AITeamVN/Vietnamese_Embedding
10
+ widget:
11
+ - source_sentence: Quản lý và sử dụng phí bảo vệ môi trường đối với nước thải công
12
+ nghiệp được quy định ra sao?
13
+ sentences:
14
+ - 'Điều 16. Trách nhiệm của Uỷ ban nhân dân cấp huyện, cấp xã nơi có đê. điểm c)
15
+ trang bị và hướng dẫn việc quản lý sử dụng các dụng cụ, sổ sách cho các đội tuần
16
+ tra, canh gác đê theo quy định tại khoản 2 điều 6 của thông tư này. '
17
+ - Điều 33. Quản lý tài khoản, tài sản ký quỹ của thành viên bù trừ. khoản 6. loại
18
+ ký quỹ, phương pháp xác định mức ký quỹ, phương thức ký quỹ, thời hạn ký quỹ,
19
+ bổ sung ký quỹ, chuyển giao tài sản ký quỹ, phương thức định giá tài sản ký quỹ,
20
+ xác định lãi lỗ vị thế, hoạt động quản lý tài khoản và tài sản ký quỹ của thành
21
+ viên bù trừ thực hiện theo quy định của bộ trưởng bộ tài chính và quy chế của
22
+ tổng công ty lưu ký và bù trừ chứng khoán việt nam.
23
+ - Điều 4. Nguyên tắc quản lý và sử dụng phí. khoản 3. phí thu từ các hoạt động
24
+ dịch vụ do tổ chức được cơ quan nhà nước có thẩm quyền giao thực hiện được để
25
+ lại một phần hoặc toàn bộ số tiền phí thu được để trang trải chi phí hoạt động
26
+ cung cấp dịch vụ, thu phí được xác định theo quy định tại điều 5 nghị định này;
27
+ phần còn lại (nếu có) nộp ngân sách nhà nước, trừ trường hợp chính phủ có quy
28
+ định khác thì thực hiện theo quy định của chính phủ. số tiền phí được để lại là
29
+ doanh thu của tổ chức thu phí.
30
+ - source_sentence: Ngày bầu cử đại biểu Quốc Hội có phải là ngày chủ nhật?
31
+ sentences:
32
+ - 'Điều 16. Cử quốc thiều nước Cộng hòa xã hội chủ nghĩa Việt Nam. khoản 1. quốc
33
+ thiều việt nam được cử trong các cuộc mít tinh, chiêu đãi chào mừng quốc khánh,
34
+ ngày lễ lớn của việt nam hoặc kỷ niệm sự kiện quan trọng trong quan hệ giữa việt
35
+ nam với quốc gia hay tổ chức quốc tế tiếp nhận phù hợp với quy định, thông lệ
36
+ lễ tân của quốc gia, tổ chức quốc tế tiếp nhận. '
37
+ - 'Điều 4. Giải thích từ ngữ. khoản 36. quản lý quỹ đầu tư chứng khoán là hoạt
38
+ động quản lý trong việc mua, bán, nắm giữ chứng khoán và các tài sản khác của
39
+ quỹ đầu tư chứng khoán. '
40
+ - 'Điều 52. Giới thiệu người của cơ quan, tổ chức, đơn vị ứng cử đại biểu Hội đồng
41
+ nhân dân. khoản 4. ban công tác mặt trận ở thôn, tổ dân phố dự kiến người của
42
+ thôn, tổ dân phố để giới thiệu ứng cử đại biểu hội đồng nhân dân cấp xã và phối
43
+ hợp với trưởng thôn, tổ trưởng tổ dân phố tổ chức hội nghị cử tri để thảo luận,
44
+ giới thiệu người ứng cử đại biểu hội đồng nhân dân cấp xã. việc giới thiệu người
45
+ ứng cử đại biểu hội đồng nhân dân cấp xã ở thôn, tổ dân phố do ủy ban thường vụ
46
+ quốc hội hướng dẫn; '
47
+ - source_sentence: Nghiên cứu y sinh học đa trung tâm là gì?
48
+ sentences:
49
+ - 'Điều 64. Vi phạm quy định về cung cấp, sử dụng thiết bị vô tuyến điện được miễn
50
+ Giấy phép sử dụng tần số vô tuyến điện. khoản 2. phạt tiền từ < mức phạt tiền
51
+ > đến < mức phạt tiền > đối với hành vi sản xuất hoặc nhập khẩu thiết bị vô tuyến
52
+ điện thuộc danh mục thiết bị vô tuyến điện được miễn giấy phép sử dụng tần số
53
+ vô tuyến điện nhưng không thực hiện chứng nhận và công bố hợp quy trước khi đưa
54
+ vào lưu thông trên thị trường. '
55
+ - 'Điều 3. Giải thích từ ngữ. khoản 19. nguy cơ (risk) là xác suất mà một sự kiện
56
+ hoặc kết quả thuận lợi hay bất lợi xảy ra trong một khoảng thời gian xác định
57
+ của nghiên cứu theo tiếp cận của dịch tễ. '
58
+ - 'Điều 9. Nội dung tuần tra, canh gác đê. điểm d) mỗi kíp tuần tra phải kiểm tra
59
+ vượt quá phạm vi phụ trách về hai phía, mỗi phía 50m. đối với những khu vực đã
60
+ từng xảy ra sự cố hư hỏng, phải kiểm tra quan sát rộng hơn để phát hiện sự cố. '
61
+ - source_sentence: Không treo biển thông báo không bán thuốc lá cho người dưới 18
62
+ tuổi phạt 1 triệu được quy định như thế nào?
63
+ sentences:
64
+ - 'Điều 49. Hành vi vi phạm về đăng ký hợp đồng theo mẫu, điều kiện giao dịch chung. điểm
65
+ c) không áp dụng đúng hợp đồng theo mẫu, điều kiện giao dịch chung đã đăng ký
66
+ với cơ quan quản lý nhà nước có thẩm quyền về bảo vệ quyền lợi người tiêu dùng
67
+ theo quy định. '
68
+ - Điều 15. Khen thưởng, kỷ Luật. khoản 2. những đơn vị và cá nhân vi phạm quy định
69
+ tại thông tư này tuỳ theo lỗi nặng nhẹ sẽ bị thi hành kỷ luật từ cảnh cáo đến
70
+ truy tố trước pháp luật của nhà nước.
71
+ - 'Điều 81. Tước quyền sử dụng giấy phép, chứng chỉ hành nghề có thời hạn hoặc đình
72
+ chỉ hoạt động có thời hạn trong lĩnh vực giao thông đường bộ, đường sắt. khoản
73
+ 5. trường hợp người có hành vi vi phạm bị áp dụng hình thức xử phạt tước quyền
74
+ sử dụng giấy phép, chứng chỉ hành nghề nhưng thời hạn sử dụng còn lại của giấy
75
+ phép, chứng chỉ hành nghề đó ít hơn thời hạn bị tước thì người có thẩm quyền vẫn
76
+ ra quyết định xử phạt có áp dụng hình thức tước quyền sử dụng giấy phép, chứng
77
+ chỉ hành nghề theo quy định đối với hành vi vi phạm. trong thời gian bị tước quyền
78
+ sử dụng giấy phép, chứng chỉ hành nghề, cá nhân, tổ chức không được làm thủ tục
79
+ cấp đổi, cấp mới giấy phép, chứng chỉ hành nghề. '
80
+ - source_sentence: Quy định về trao đổi dữ liệu thi hành án hình sự được quy định
81
+ như thế nào?
82
+ sentences:
83
+ - Điều 13. Quy định về bàn giao giữa các kíp trực. sau mỗi đợt kiểm tra, các kíp
84
+ tuần tra, canh gác đê phải ghi chép đầy đủ tình hình diễn biến và hư hỏng đê điều
85
+ vào sổ nhật ký tuần tra, canh gác theo mẫu quy định và bàn giao đầy đủ cho kíp
86
+ sau. người thay mặt kíp giao và nhận phải ký và ghi rõ họ tên, ngày giờ vào sổ.
87
+ sau mỗi ngày đội trưởng và cán bộ chuyên trách quản lý đê điều ký xác nhận tình
88
+ hình trong ngày để theo dõi và làm cơ sở cho việc chi trả thù lao theo quy định.
89
+ - 'Điều 33. Báo cáo của tổ chức tư vấn hồ sơ chào bán trái phiếu, tổ chức đấu thầu,
90
+ bảo lãnh, đại lý phát hành, tổ chức đăng ký, lưu ký trái phiếu và Sở giao dịch
91
+ chứng khoán. điểm b) ngoài chế độ báo cáo định kỳ theo quy định tại điểm a khoản
92
+ này, sở giao dịch chứng khoán báo cáo đột xuất cho ủy ban chứng khoán nhà nước
93
+ và bộ tài chính theo yêu cầu của cơ quan quản lý. '
94
+ - 'Điều 12. Trao đổi dữ liệu giữa cơ sở dữ liệu về thi hành án hình sự và các cơ
95
+ sở dữ liệu khác liên quan. khoản 1. việc trao đổi dữ liệu giữa cơ sở dữ liệu
96
+ về thi hành án hình sự và các cơ sở dữ liệu khác liên quan phải thực hiện theo
97
+ quy định của pháp luật và quy định của bộ công an, bộ quốc phòng. '
98
+ datasets:
99
+ - batmangiaicuuthegioi/zalo-legal-triplets
100
+ pipeline_tag: sentence-similarity
101
+ library_name: sentence-transformers
102
+ metrics:
103
+ - cosine_accuracy
104
+ model-index:
105
+ - name: SentenceTransformer based on AITeamVN/Vietnamese_Embedding
106
+ results:
107
+ - task:
108
+ type: triplet
109
+ name: Triplet
110
+ dataset:
111
+ name: zalo legal
112
+ type: zalo_legal
113
+ metrics:
114
+ - type: cosine_accuracy
115
+ value: 1.0
116
+ name: Cosine Accuracy
117
+ - type: cosine_accuracy
118
+ value: 1.0
119
+ name: Cosine Accuracy
120
+ ---
121
+
122
+ # SentenceTransformer based on AITeamVN/Vietnamese_Embedding
123
+
124
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [AITeamVN/Vietnamese_Embedding](https://huggingface.co/AITeamVN/Vietnamese_Embedding) on the [zalo-legal-triplets](https://huggingface.co/datasets/batmangiaicuuthegioi/zalo-legal-triplets) dataset. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
125
+
126
+ ## Model Details
127
+
128
+ ### Model Description
129
+ - **Model Type:** Sentence Transformer
130
+ - **Base model:** [AITeamVN/Vietnamese_Embedding](https://huggingface.co/AITeamVN/Vietnamese_Embedding) <!-- at revision 9f671cc30908f1d851787efcc05b7d15bad8b615 -->
131
+ - **Maximum Sequence Length:** 8192 tokens
132
+ - **Output Dimensionality:** 1024 dimensions
133
+ - **Similarity Function:** Cosine Similarity
134
+ - **Training Dataset:**
135
+ - [zalo-legal-triplets](https://huggingface.co/datasets/batmangiaicuuthegioi/zalo-legal-triplets)
136
+ <!-- - **Language:** Unknown -->
137
+ <!-- - **License:** Unknown -->
138
+
139
+ ### Model Sources
140
+
141
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
142
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
143
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
144
+
145
+ ### Full Model Architecture
146
+
147
+ ```
148
+ SentenceTransformer(
149
+ (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
150
+ (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
151
+ (2): Normalize()
152
+ )
153
+ ```
154
+
155
+ ## Usage
156
+
157
+ ### Direct Usage (Sentence Transformers)
158
+
159
+ First install the Sentence Transformers library:
160
+
161
+ ```bash
162
+ pip install -U sentence-transformers
163
+ ```
164
+
165
+ Then you can load this model and run inference.
166
+ ```python
167
+ from sentence_transformers import SentenceTransformer
168
+
169
+ # Download from the 🤗 Hub
170
+ model = SentenceTransformer("batmangiaicuuthegioi/bi-encoders-embeddings")
171
+ # Run inference
172
+ sentences = [
173
+ 'Quy định về trao đổi dữ liệu thi hành án hình sự được quy định như thế nào?',
174
+ 'Điều 12. Trao đổi dữ liệu giữa cơ sở dữ liệu về thi hành án hình sự và các cơ sở dữ liệu khác liên quan. khoản 1. việc trao đổi dữ liệu giữa cơ sở dữ liệu về thi hành án hình sự và các cơ sở dữ liệu khác liên quan phải thực hiện theo quy định của pháp luật và quy định của bộ công an, bộ quốc phòng. ',
175
+ 'Điều 13. Quy định về bàn giao giữa các kíp trực. sau mỗi đợt kiểm tra, các kíp tuần tra, canh gác đê phải ghi chép đầy đủ tình hình diễn biến và hư hỏng đê điều vào sổ nhật ký tuần tra, canh gác theo mẫu quy định và bàn giao đầy đủ cho kíp sau. người thay mặt kíp giao và nhận phải ký và ghi rõ họ tên, ngày giờ vào sổ. sau mỗi ngày đội trưởng và cán bộ chuyên trách quản lý đê điều ký xác nhận tình hình trong ngày để theo dõi và làm cơ sở cho việc chi trả thù lao theo quy định.',
176
+ ]
177
+ embeddings = model.encode(sentences)
178
+ print(embeddings.shape)
179
+ # [3, 1024]
180
+
181
+ # Get the similarity scores for the embeddings
182
+ similarities = model.similarity(embeddings, embeddings)
183
+ print(similarities.shape)
184
+ # [3, 3]
185
+ ```
186
+
187
+ <!--
188
+ ### Direct Usage (Transformers)
189
+
190
+ <details><summary>Click to see the direct usage in Transformers</summary>
191
+
192
+ </details>
193
+ -->
194
+
195
+ <!--
196
+ ### Downstream Usage (Sentence Transformers)
197
+
198
+ You can finetune this model on your own dataset.
199
+
200
+ <details><summary>Click to expand</summary>
201
+
202
+ </details>
203
+ -->
204
+
205
+ <!--
206
+ ### Out-of-Scope Use
207
+
208
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
209
+ -->
210
+
211
+ ## Evaluation
212
+
213
+ ### Metrics
214
+
215
+ #### Triplet
216
+
217
+ * Dataset: `zalo_legal`
218
+ * Evaluated with [<code>TripletEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.TripletEvaluator)
219
+
220
+ | Metric | Value |
221
+ |:--------------------|:--------|
222
+ | **cosine_accuracy** | **1.0** |
223
+
224
+ #### Triplet
225
+
226
+ * Dataset: `zalo_legal`
227
+ * Evaluated with [<code>TripletEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.TripletEvaluator)
228
+
229
+ | Metric | Value |
230
+ |:--------------------|:--------|
231
+ | **cosine_accuracy** | **1.0** |
232
+
233
+ <!--
234
+ ## Bias, Risks and Limitations
235
+
236
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
237
+ -->
238
+
239
+ <!--
240
+ ### Recommendations
241
+
242
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
243
+ -->
244
+
245
+ ## Training Details
246
+
247
+ ### Training Dataset
248
+
249
+ #### zalo-legal-triplets
250
+
251
+ * Dataset: [zalo-legal-triplets](https://huggingface.co/datasets/batmangiaicuuthegioi/zalo-legal-triplets) at [15e0566](https://huggingface.co/datasets/batmangiaicuuthegioi/zalo-legal-triplets/tree/15e0566d390f73b5574a3d928cb8353cb6656fba)
252
+ * Size: 37,059 training samples
253
+ * Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
254
+ * Approximate statistics based on the first 1000 samples:
255
+ | | anchor | positive | negative |
256
+ |:--------|:----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
257
+ | type | string | string | string |
258
+ | details | <ul><li>min: 7 tokens</li><li>mean: 22.08 tokens</li><li>max: 47 tokens</li></ul> | <ul><li>min: 13 tokens</li><li>mean: 82.98 tokens</li><li>max: 344 tokens</li></ul> | <ul><li>min: 25 tokens</li><li>mean: 76.65 tokens</li><li>max: 220 tokens</li></ul> |
259
+ * Samples:
260
+ | anchor | positive | negative |
261
+ |:------------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
262
+ | <code>Mức phạt đối với hành vi điều khiển xe máy dẫn, dắt theo súc vật ?</code> | <code>Điều 63. Xử phạt nhân viên đường sắt trực tiếp phục vụ chạy tàu (trừ lái tàu và phụ lái tàu) vi phạm quy định về nồng độ cồn hoặc sử dụng các chất kích thích khác mà pháp luật cấm sử dụng. điểm c) khi làm nhiệm vụ mà trong cơ thể có chất kích thích khác mà pháp luật cấm sử dụng.</code> | <code>Điều 4. Nhiệm vụ của lực lượng tuần tra, canh gác đê. khoản 5. đeo phù hiệu khi làm nhiệm vụ.</code> |
263
+ | <code>Theo quy định pháp luật, dẫn xuất của các loài động vật, thực vật là gì?</code> | <code>Điều 3. Giải thích từ ngữ. khoản 26. mẫu vật săn bắt là mẫu vật có được từ các hoạt động săn bắt hợp pháp. </code> | <code>Điều 17. Trách nhiệm của Sở Nông nghiệp và Phát triển nông thôn. khoản 3. khi có báo động lũ từ cấp i trở lên, sở nông nghiệp và phát triển nông thôn phải chỉ đạo, tổ chức kiểm tra, đôn đốc công tác tuần tra, canh gác ở các tuyến đê.</code> |
264
+ | <code>Mục tiêu của giáo dục nghề nghiệp từ tháng 7/2020 được quy định như thế nào?</code> | <code>Điều 36. Mục tiêu của giáo dục nghề nghiệp. giáo dục nghề nghiệp nhằm đào tạo nhân lực trực tiếp cho sản xuất, kinh doanh và dịch vụ, có năng lực hành nghề tương ứng với trình độ đào tạo; có đạo đức, sức khỏe; có trách nhiệm nghề nghiệp; có khả năng sáng tạo, thích ứng với môi trường hội nhập quốc tế; bảo đảm nâng cao năng suất, chất lượng lao động; tạo điều kiện cho người học sau khi hoàn thành khóa học có khả năng tìm việc làm, tự tạo việc làm hoặc học trình độ cao hơn.</code> | <code>Điều 3. Tiêu chuẩn của các thành viên thu���c lực lượng tuần tra, canh gác đê. khoản 2. có tinh thần trách nhiệm, chịu đựng gian khổ, khắc phục khó khăn, quen sông nước và biết bơi, có kiến thức, kinh nghiệm hộ đê, phòng, chống lụt, bão.</code> |
265
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
266
+ ```json
267
+ {
268
+ "scale": 20.0,
269
+ "similarity_fct": "cos_sim"
270
+ }
271
+ ```
272
+
273
+ ### Evaluation Dataset
274
+
275
+ #### zalo-legal-triplets
276
+
277
+ * Dataset: [zalo-legal-triplets](https://huggingface.co/datasets/batmangiaicuuthegioi/zalo-legal-triplets) at [15e0566](https://huggingface.co/datasets/batmangiaicuuthegioi/zalo-legal-triplets/tree/15e0566d390f73b5574a3d928cb8353cb6656fba)
278
+ * Size: 37,059 evaluation samples
279
+ * Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
280
+ * Approximate statistics based on the first 1000 samples:
281
+ | | anchor | positive | negative |
282
+ |:--------|:---------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
283
+ | type | string | string | string |
284
+ | details | <ul><li>min: 7 tokens</li><li>mean: 21.7 tokens</li><li>max: 47 tokens</li></ul> | <ul><li>min: 17 tokens</li><li>mean: 79.22 tokens</li><li>max: 327 tokens</li></ul> | <ul><li>min: 25 tokens</li><li>mean: 74.1 tokens</li><li>max: 220 tokens</li></ul> |
285
+ * Samples:
286
+ | anchor | positive | negative |
287
+ |:------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
288
+ | <code>Nghiên cứu y sinh học liên quan đến con người là gì?</code> | <code>Điều 31. Thẩm định nghiên cứu theo quy trình rút gọn. khoản 4. ngoại trừ trường hợp họp khẩn cấp, tất cả tài liệu đề nghị xem xét phải được gửi tới thành viên hội đồng đạo đức được phân công nhận xét trước ít nhất 05 ngày làm việc so với ngày yêu cầu gửi lại phiếu nhận xét, đánh giá nghiên cứu. </code> | <code>Điều 10. Nội dung tuần tra canh gác cống qua đê. khoản 2. người tuần tra, canh gác phải kiểm tra kỹ phần tiếp giáp giữa thân cống, tường cánh gà của cống với đê; cánh cống, bộ phận đóng mở cánh cống, cửa cống, thân cống và khu vực thượng, hạ lưu cống để phát hiện kịp thời những sự cố xảy ra. </code> |
289
+ | <code>Hồ sơ cấp lại Giấy chứng nhận đủ điều kiện hoạt động dịch vụ giám định công nghệ bao gồm những giấy tờ gì?</code> | <code>Điều 38. Hồ sơ cấp Giấy chứng nhận đủ điều kiện hoạt động dịch vụ giám định công nghệ. điểm e) mẫu chứng thư giám định của tổ chức. </code> | <code>Điều 6. Trang bị dụng cụ, sổ sách. khoản 7. việc giao nhận các dụng cụ và sổ sách trên đây phải được lập biên bản để quản lý, theo dõi.</code> |
290
+ | <code>Chạy quá tốc độ bao nhiêu km thì xe ô tô sẽ bị giam bằng?</code> | <code>Điều 55. Xử phạt các hành vi vi phạm quy định quản lý, bảo trì kết cấu hạ tầng đường sắt. điểm b) thực hiện hành vi quy định tại điểm c khoản 3 điều này buộc phải tổ chức sửa chữa, bổ sung, gia cố, thay thế các hư hỏng kết cấu hạ tầng đường sắt để bảo đảm chất lượng theo công lệnh tốc độ, công lệnh tải trọng đã công bố.</code> | <code>Điều 9. Nội dung tuần tra, canh gác đê. điểm d) mỗi kíp tuần tra phải kiểm tra vượt quá phạm vi phụ trách về hai phía, mỗi phía 50m. đối với những khu vực đã từng xảy ra sự cố hư hỏng, phải kiểm tra quan sát rộng hơn để phát hiện sự cố. </code> |
291
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
292
+ ```json
293
+ {
294
+ "scale": 20.0,
295
+ "similarity_fct": "cos_sim"
296
+ }
297
+ ```
298
+
299
+ ### Training Hyperparameters
300
+ #### Non-Default Hyperparameters
301
+
302
+ - `eval_strategy`: steps
303
+ - `per_device_train_batch_size`: 4
304
+ - `per_device_eval_batch_size`: 2
305
+ - `num_train_epochs`: 1
306
+ - `warmup_ratio`: 0.1
307
+ - `fp16`: True
308
+
309
+ #### All Hyperparameters
310
+ <details><summary>Click to expand</summary>
311
+
312
+ - `overwrite_output_dir`: False
313
+ - `do_predict`: False
314
+ - `eval_strategy`: steps
315
+ - `prediction_loss_only`: True
316
+ - `per_device_train_batch_size`: 4
317
+ - `per_device_eval_batch_size`: 2
318
+ - `per_gpu_train_batch_size`: None
319
+ - `per_gpu_eval_batch_size`: None
320
+ - `gradient_accumulation_steps`: 1
321
+ - `eval_accumulation_steps`: None
322
+ - `torch_empty_cache_steps`: None
323
+ - `learning_rate`: 5e-05
324
+ - `weight_decay`: 0.0
325
+ - `adam_beta1`: 0.9
326
+ - `adam_beta2`: 0.999
327
+ - `adam_epsilon`: 1e-08
328
+ - `max_grad_norm`: 1.0
329
+ - `num_train_epochs`: 1
330
+ - `max_steps`: -1
331
+ - `lr_scheduler_type`: linear
332
+ - `lr_scheduler_kwargs`: {}
333
+ - `warmup_ratio`: 0.1
334
+ - `warmup_steps`: 0
335
+ - `log_level`: passive
336
+ - `log_level_replica`: warning
337
+ - `log_on_each_node`: True
338
+ - `logging_nan_inf_filter`: True
339
+ - `save_safetensors`: True
340
+ - `save_on_each_node`: False
341
+ - `save_only_model`: False
342
+ - `restore_callback_states_from_checkpoint`: False
343
+ - `no_cuda`: False
344
+ - `use_cpu`: False
345
+ - `use_mps_device`: False
346
+ - `seed`: 42
347
+ - `data_seed`: None
348
+ - `jit_mode_eval`: False
349
+ - `use_ipex`: False
350
+ - `bf16`: False
351
+ - `fp16`: True
352
+ - `fp16_opt_level`: O1
353
+ - `half_precision_backend`: auto
354
+ - `bf16_full_eval`: False
355
+ - `fp16_full_eval`: False
356
+ - `tf32`: None
357
+ - `local_rank`: 0
358
+ - `ddp_backend`: None
359
+ - `tpu_num_cores`: None
360
+ - `tpu_metrics_debug`: False
361
+ - `debug`: []
362
+ - `dataloader_drop_last`: False
363
+ - `dataloader_num_workers`: 0
364
+ - `dataloader_prefetch_factor`: None
365
+ - `past_index`: -1
366
+ - `disable_tqdm`: False
367
+ - `remove_unused_columns`: True
368
+ - `label_names`: None
369
+ - `load_best_model_at_end`: False
370
+ - `ignore_data_skip`: False
371
+ - `fsdp`: []
372
+ - `fsdp_min_num_params`: 0
373
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
374
+ - `fsdp_transformer_layer_cls_to_wrap`: None
375
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
376
+ - `deepspeed`: None
377
+ - `label_smoothing_factor`: 0.0
378
+ - `optim`: adamw_torch
379
+ - `optim_args`: None
380
+ - `adafactor`: False
381
+ - `group_by_length`: False
382
+ - `length_column_name`: length
383
+ - `ddp_find_unused_parameters`: None
384
+ - `ddp_bucket_cap_mb`: None
385
+ - `ddp_broadcast_buffers`: False
386
+ - `dataloader_pin_memory`: True
387
+ - `dataloader_persistent_workers`: False
388
+ - `skip_memory_metrics`: True
389
+ - `use_legacy_prediction_loop`: False
390
+ - `push_to_hub`: False
391
+ - `resume_from_checkpoint`: None
392
+ - `hub_model_id`: None
393
+ - `hub_strategy`: every_save
394
+ - `hub_private_repo`: None
395
+ - `hub_always_push`: False
396
+ - `gradient_checkpointing`: False
397
+ - `gradient_checkpointing_kwargs`: None
398
+ - `include_inputs_for_metrics`: False
399
+ - `include_for_metrics`: []
400
+ - `eval_do_concat_batches`: True
401
+ - `fp16_backend`: auto
402
+ - `push_to_hub_model_id`: None
403
+ - `push_to_hub_organization`: None
404
+ - `mp_parameters`:
405
+ - `auto_find_batch_size`: False
406
+ - `full_determinism`: False
407
+ - `torchdynamo`: None
408
+ - `ray_scope`: last
409
+ - `ddp_timeout`: 1800
410
+ - `torch_compile`: False
411
+ - `torch_compile_backend`: None
412
+ - `torch_compile_mode`: None
413
+ - `dispatch_batches`: None
414
+ - `split_batches`: None
415
+ - `include_tokens_per_second`: False
416
+ - `include_num_input_tokens_seen`: False
417
+ - `neftune_noise_alpha`: None
418
+ - `optim_target_modules`: None
419
+ - `batch_eval_metrics`: False
420
+ - `eval_on_start`: False
421
+ - `use_liger_kernel`: False
422
+ - `eval_use_gather_object`: False
423
+ - `average_tokens_across_devices`: False
424
+ - `prompts`: None
425
+ - `batch_sampler`: batch_sampler
426
+ - `multi_dataset_batch_sampler`: proportional
427
+
428
+ </details>
429
+
430
+ ### Training Logs
431
+ | Epoch | Step | Training Loss | Validation Loss | zalo_legal_cosine_accuracy |
432
+ |:------:|:----:|:-------------:|:---------------:|:--------------------------:|
433
+ | 0.3084 | 2000 | 0.2978 | 0.0778 | 0.9996 |
434
+ | 0.6167 | 4000 | 0.1735 | 0.0522 | 1.0 |
435
+ | 0.9251 | 6000 | 0.1148 | 0.0330 | 1.0 |
436
+ | 1.0 | 6486 | - | - | 1.0 |
437
+
438
+
439
+ ### Framework Versions
440
+ - Python: 3.10.12
441
+ - Sentence Transformers: 3.3.1
442
+ - Transformers: 4.47.0
443
+ - PyTorch: 2.5.1+cu121
444
+ - Accelerate: 1.2.1
445
+ - Datasets: 3.3.1
446
+ - Tokenizers: 0.21.0
447
+
448
+ ## Citation
449
+
450
+ ### BibTeX
451
+
452
+ #### Sentence Transformers
453
+ ```bibtex
454
+ @inproceedings{reimers-2019-sentence-bert,
455
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
456
+ author = "Reimers, Nils and Gurevych, Iryna",
457
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
458
+ month = "11",
459
+ year = "2019",
460
+ publisher = "Association for Computational Linguistics",
461
+ url = "https://arxiv.org/abs/1908.10084",
462
+ }
463
+ ```
464
+
465
+ #### MultipleNegativesRankingLoss
466
+ ```bibtex
467
+ @misc{henderson2017efficient,
468
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
469
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
470
+ year={2017},
471
+ eprint={1705.00652},
472
+ archivePrefix={arXiv},
473
+ primaryClass={cs.CL}
474
+ }
475
+ ```
476
+
477
+ <!--
478
+ ## Glossary
479
+
480
+ *Clearly define terms in order to be accessible across audiences.*
481
+ -->
482
+
483
+ <!--
484
+ ## Model Card Authors
485
+
486
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
487
+ -->
488
+
489
+ <!--
490
+ ## Model Card Contact
491
+
492
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
493
+ -->
config.json ADDED
@@ -0,0 +1,28 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "AITeamVN/Vietnamese_Embedding",
3
+ "architectures": [
4
+ "XLMRobertaModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "bos_token_id": 0,
8
+ "classifier_dropout": null,
9
+ "eos_token_id": 2,
10
+ "hidden_act": "gelu",
11
+ "hidden_dropout_prob": 0.1,
12
+ "hidden_size": 1024,
13
+ "initializer_range": 0.02,
14
+ "intermediate_size": 4096,
15
+ "layer_norm_eps": 1e-05,
16
+ "max_position_embeddings": 8194,
17
+ "model_type": "xlm-roberta",
18
+ "num_attention_heads": 16,
19
+ "num_hidden_layers": 24,
20
+ "output_past": true,
21
+ "pad_token_id": 1,
22
+ "position_embedding_type": "absolute",
23
+ "torch_dtype": "float32",
24
+ "transformers_version": "4.47.0",
25
+ "type_vocab_size": 1,
26
+ "use_cache": true,
27
+ "vocab_size": 250002
28
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.3.1",
4
+ "transformers": "4.47.0",
5
+ "pytorch": "2.5.1+cu121"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": "cosine"
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c0270f5f13e501d5c40bf735a97a4578351c0e4be903b8c8e80c043eb581d70e
3
+ size 2271064456
modules.json ADDED
@@ -0,0 +1,20 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ },
14
+ {
15
+ "idx": 2,
16
+ "name": "2",
17
+ "path": "2_Normalize",
18
+ "type": "sentence_transformers.models.Normalize"
19
+ }
20
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 8192,
3
+ "do_lower_case": false
4
+ }
sentencepiece.bpe.model ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
3
+ size 5069051
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:222975faa02f5257c6e8c734e85973e48c8d42d7d37d90b894c73efa1841d76a
3
+ size 17083154
tokenizer_config.json ADDED
@@ -0,0 +1,56 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "250001": {
36
+ "content": "<mask>",
37
+ "lstrip": true,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": true,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "extra_special_tokens": {},
49
+ "mask_token": "<mask>",
50
+ "model_max_length": 8192,
51
+ "pad_token": "<pad>",
52
+ "sep_token": "</s>",
53
+ "sp_model_kwargs": {},
54
+ "tokenizer_class": "XLMRobertaTokenizer",
55
+ "unk_token": "<unk>"
56
+ }