File size: 32,731 Bytes
ab1a0d1
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
---
tags:
- sentence-transformers
- sentence-similarity
- feature-extraction
- generated_from_trainer
- dataset_size:37059
- loss:MultipleNegativesRankingLoss
base_model: AITeamVN/Vietnamese_Embedding
widget:
- source_sentence: Quản   sử dụng phí bảo vệ môi trường đối với nước thải công
    nghiệp được quy định ra sao?
  sentences:
  - 'Điều 16. Trách nhiệm của Uỷ ban nhân dân cấp huyện, cấp xã nơi có đê.  điểm c)
    trang bị và hướng dẫn việc quản lý sử dụng các dụng cụ, sổ sách cho các đội tuần
    tra, canh gác đê theo quy định tại khoản 2 điều 6 của thông tư này. '
  - Điều 33. Quản  tài khoản, tài sản  quỹ của thành viên  trừ.  khoản 6. loại
     quỹ, phương pháp xác định mức  quỹ, phương thức  quỹ, thời hạn  quỹ,
    bổ sung  quỹ, chuyển giao tài sản  quỹ, phương thức định giá tài sản  quỹ,
    xác định lãi lỗ vị thế, hoạt động quản  tài khoản  tài sản  quỹ của thành
    viên  trừ thực hiện theo quy định của bộ trưởng bộ tài chính  quy chế của
    tổng công ty lưu    trừ chứng khoán việt nam.
  - Điều 4. Nguyên tắc quản   sử dụng phí.  khoản 3. phí thu từ các hoạt động
    dịch vụ do tổ chức được  quan nhà nước  thẩm quyền giao thực hiện được để
    lại một phần hoặc toàn bộ số tiền phí thu được để trang trải chi phí hoạt động
    cung cấp dịch vụ, thu phí được xác định theo quy định tại điều 5 nghị định này;
    phần còn lại (nếu có) nộp ngân sách nhà nước, trừ trường hợp chính phủ  quy
    định khác thì thực hiện theo quy định của chính phủ. số tiền phí được để lại 
    doanh thu của tổ chức thu phí.
- source_sentence: Ngày bầu cử đại biểu Quốc Hội  phải  ngày chủ nhật?
  sentences:
  - 'Điều 16. Cử quốc thiều nước Cộng hòa xã hội chủ nghĩa Việt Nam.  khoản 1. quốc
    thiều việt nam được cử trong các cuộc mít tinh, chiêu đãi chào mừng quốc khánh,
    ngày lễ lớn của việt nam hoặc kỷ niệm sự kiện quan trọng trong quan hệ giữa việt
    nam với quốc gia hay tổ chức quốc tế tiếp nhận phù hợp với quy định, thông lệ
    lễ tân của quốc gia, tổ chức quốc tế tiếp nhận. '
  - 'Điều 4. Giải thích từ ngữ.  khoản 36. quản lý quỹ đầu tư chứng khoán là hoạt
    động quản lý trong việc mua, bán, nắm giữ chứng khoán và các tài sản khác của
    quỹ đầu tư chứng khoán. '
  - 'Điều 52. Giới thiệu người của cơ quan, tổ chức, đơn vị ứng cử đại biểu Hội đồng
    nhân dân.  khoản 4. ban công tác mặt trận ở thôn, tổ dân phố dự kiến người của
    thôn, tổ dân phố để giới thiệu ứng cử đại biểu hội đồng nhân dân cấp xã và phối
    hợp với trưởng thôn, tổ trưởng tổ dân phố tổ chức hội nghị cử tri để thảo luận,
    giới thiệu người ứng cử đại biểu hội đồng nhân dân cấp xã. việc giới thiệu người
    ứng cử đại biểu hội đồng nhân dân cấp xã ở thôn, tổ dân phố do ủy ban thường vụ
    quốc hội hướng dẫn; '
- source_sentence: Nghiên cứu y sinh học đa trung tâm  gì?
  sentences:
  - 'Điều 64. Vi phạm quy định về cung cấp, sử dụng thiết bị vô tuyến điện được miễn
    Giấy phép sử dụng tần số vô tuyến điện.  khoản 2. phạt tiền từ < mức phạt tiền
    > đến < mức phạt tiền > đối với hành vi sản xuất hoặc nhập khẩu thiết bị vô tuyến
    điện thuộc danh mục thiết bị vô tuyến điện được miễn giấy phép sử dụng tần số
    vô tuyến điện nhưng không thực hiện chứng nhận và công bố hợp quy trước khi đưa
    vào lưu thông trên thị trường. '
  - 'Điều 3. Giải thích từ ngữ.  khoản 19. nguy cơ (risk) là xác suất mà một sự kiện
    hoặc kết quả thuận lợi hay bất lợi xảy ra trong một khoảng thời gian xác định
    của nghiên cứu theo tiếp cận của dịch tễ. '
  - 'Điều 9. Nội dung tuần tra, canh gác đê.  điểm d) mỗi kíp tuần tra phải kiểm tra
    vượt quá phạm vi phụ trách về hai phía, mỗi phía 50m. đối với những khu vực đã
    từng xảy ra sự cố hư hỏng, phải kiểm tra quan sát rộng hơn để phát hiện sự cố. '
- source_sentence: Không treo biển thông báo không bán thuốc  cho người dưới 18
    tuổi phạt 1 triệu được quy định như thế nào?
  sentences:
  - 'Điều 49. Hành vi vi phạm về đăng ký hợp đồng theo mẫu, điều kiện giao dịch chung.  điểm
    c) không áp dụng đúng hợp đồng theo mẫu, điều kiện giao dịch chung đã đăng ký
    với cơ quan quản lý nhà nước có thẩm quyền về bảo vệ quyền lợi người tiêu dùng
    theo quy định. '
  - Điều 15. Khen thưởng, kỷ Luật.  khoản 2. những đơn vị   nhân vi phạm quy định
    tại thông  này tuỳ theo lỗi nặng nhẹ sẽ bị thi hành kỷ luật từ cảnh cáo đến
    truy tố trước pháp luật của nhà nước.
  - 'Điều 81. Tước quyền sử dụng giấy phép, chứng chỉ hành nghề có thời hạn hoặc đình
    chỉ hoạt động có thời hạn trong lĩnh vực giao thông đường bộ, đường sắt.  khoản
    5. trường hợp người có hành vi vi phạm bị áp dụng hình thức xử phạt tước quyền
    sử dụng giấy phép, chứng chỉ hành nghề nhưng thời hạn sử dụng còn lại của giấy
    phép, chứng chỉ hành nghề đó ít hơn thời hạn bị tước thì người có thẩm quyền vẫn
    ra quyết định xử phạt có áp dụng hình thức tước quyền sử dụng giấy phép, chứng
    chỉ hành nghề theo quy định đối với hành vi vi phạm. trong thời gian bị tước quyền
    sử dụng giấy phép, chứng chỉ hành nghề, cá nhân, tổ chức không được làm thủ tục
    cấp đổi, cấp mới giấy phép, chứng chỉ hành nghề. '
- source_sentence: Quy định về trao đổi dữ liệu thi hành án hình sự được quy định
    như thế nào?
  sentences:
  - Điều 13. Quy định về bàn giao giữa các kíp trực. sau mỗi đợt kiểm tra, các kíp
    tuần tra, canh gác đê phải ghi chép đầy đủ tình hình diễn biến   hỏng đê điều
    vào sổ nhật  tuần tra, canh gác theo mẫu quy định  bàn giao đầy đủ cho kíp
    sau. người thay mặt kíp giao  nhận phải   ghi  họ tên, ngày giờ vào sổ.
    sau mỗi ngày đội trưởng  cán bộ chuyên trách quản  đê điều  xác nhận tình
    hình trong ngày để theo dõi  làm  sở cho việc chi trả thù lao theo quy định.
  - 'Điều 33. Báo cáo của tổ chức tư vấn hồ sơ chào bán trái phiếu, tổ chức đấu thầu,
    bảo lãnh, đại lý phát hành, tổ chức đăng ký, lưu ký trái phiếu và Sở giao dịch
    chứng khoán.  điểm b) ngoài chế độ báo cáo định kỳ theo quy định tại điểm a khoản
    này, sở giao dịch chứng khoán báo cáo đột xuất cho ủy ban chứng khoán nhà nước
    và bộ tài chính theo yêu cầu của cơ quan quản lý. '
  - 'Điều 12. Trao đổi dữ liệu giữa cơ sở dữ liệu về thi hành án hình sự và các cơ
    sở dữ liệu khác liên quan.  khoản 1. việc trao đổi dữ liệu giữa cơ sở dữ liệu
    về thi hành án hình sự và các cơ sở dữ liệu khác liên quan phải thực hiện theo
    quy định của pháp luật và quy định của bộ công an, bộ quốc phòng. '
datasets:
- batmangiaicuuthegioi/zalo-legal-triplets
pipeline_tag: sentence-similarity
library_name: sentence-transformers
metrics:
- cosine_accuracy
model-index:
- name: SentenceTransformer based on AITeamVN/Vietnamese_Embedding
  results:
  - task:
      type: triplet
      name: Triplet
    dataset:
      name: zalo legal
      type: zalo_legal
    metrics:
    - type: cosine_accuracy
      value: 1.0
      name: Cosine Accuracy
    - type: cosine_accuracy
      value: 1.0
      name: Cosine Accuracy
---

# SentenceTransformer based on AITeamVN/Vietnamese_Embedding

This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [AITeamVN/Vietnamese_Embedding](https://huggingface.co/AITeamVN/Vietnamese_Embedding) on the [zalo-legal-triplets](https://huggingface.co/datasets/batmangiaicuuthegioi/zalo-legal-triplets) dataset. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

## Model Details

### Model Description
- **Model Type:** Sentence Transformer
- **Base model:** [AITeamVN/Vietnamese_Embedding](https://huggingface.co/AITeamVN/Vietnamese_Embedding) <!-- at revision 9f671cc30908f1d851787efcc05b7d15bad8b615 -->
- **Maximum Sequence Length:** 8192 tokens
- **Output Dimensionality:** 1024 dimensions
- **Similarity Function:** Cosine Similarity
- **Training Dataset:**
    - [zalo-legal-triplets](https://huggingface.co/datasets/batmangiaicuuthegioi/zalo-legal-triplets)
<!-- - **Language:** Unknown -->
<!-- - **License:** Unknown -->

### Model Sources

- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)

### Full Model Architecture

```
SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)
```

## Usage

### Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

```bash
pip install -U sentence-transformers
```

Then you can load this model and run inference.
```python
from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("batmangiaicuuthegioi/bi-encoders-embeddings")
# Run inference
sentences = [
    'Quy định về trao đổi dữ liệu thi hành án hình sự được quy định như thế nào?',
    'Điều 12. Trao đổi dữ liệu giữa cơ sở dữ liệu về thi hành án hình sự và các cơ sở dữ liệu khác liên quan.  khoản 1. việc trao đổi dữ liệu giữa cơ sở dữ liệu về thi hành án hình sự và các cơ sở dữ liệu khác liên quan phải thực hiện theo quy định của pháp luật và quy định của bộ công an, bộ quốc phòng. ',
    'Điều 13. Quy định về bàn giao giữa các kíp trực. sau mỗi đợt kiểm tra, các kíp tuần tra, canh gác đê phải ghi chép đầy đủ tình hình diễn biến và hư hỏng đê điều vào sổ nhật ký tuần tra, canh gác theo mẫu quy định và bàn giao đầy đủ cho kíp sau. người thay mặt kíp giao và nhận phải ký và ghi rõ họ tên, ngày giờ vào sổ. sau mỗi ngày đội trưởng và cán bộ chuyên trách quản lý đê điều ký xác nhận tình hình trong ngày để theo dõi và làm cơ sở cho việc chi trả thù lao theo quy định.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
```

<!--
### Direct Usage (Transformers)

<details><summary>Click to see the direct usage in Transformers</summary>

</details>
-->

<!--
### Downstream Usage (Sentence Transformers)

You can finetune this model on your own dataset.

<details><summary>Click to expand</summary>

</details>
-->

<!--
### Out-of-Scope Use

*List how the model may foreseeably be misused and address what users ought not to do with the model.*
-->

## Evaluation

### Metrics

#### Triplet

* Dataset: `zalo_legal`
* Evaluated with [<code>TripletEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.TripletEvaluator)

| Metric              | Value   |
|:--------------------|:--------|
| **cosine_accuracy** | **1.0** |

#### Triplet

* Dataset: `zalo_legal`
* Evaluated with [<code>TripletEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.TripletEvaluator)

| Metric              | Value   |
|:--------------------|:--------|
| **cosine_accuracy** | **1.0** |

<!--
## Bias, Risks and Limitations

*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
-->

<!--
### Recommendations

*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
-->

## Training Details

### Training Dataset

#### zalo-legal-triplets

* Dataset: [zalo-legal-triplets](https://huggingface.co/datasets/batmangiaicuuthegioi/zalo-legal-triplets) at [15e0566](https://huggingface.co/datasets/batmangiaicuuthegioi/zalo-legal-triplets/tree/15e0566d390f73b5574a3d928cb8353cb6656fba)
* Size: 37,059 training samples
* Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
* Approximate statistics based on the first 1000 samples:
  |         | anchor                                                                            | positive                                                                            | negative                                                                            |
  |:--------|:----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
  | type    | string                                                                            | string                                                                              | string                                                                              |
  | details | <ul><li>min: 7 tokens</li><li>mean: 22.08 tokens</li><li>max: 47 tokens</li></ul> | <ul><li>min: 13 tokens</li><li>mean: 82.98 tokens</li><li>max: 344 tokens</li></ul> | <ul><li>min: 25 tokens</li><li>mean: 76.65 tokens</li><li>max: 220 tokens</li></ul> |
* Samples:
  | anchor                                                                                    | positive                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                  | negative                                                                                                                                                                                                                                                  |
  |:------------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
  | <code>Mức phạt đối với hành vi điều khiển xe máy dẫn, dắt theo súc vật ?</code>           | <code>Điều 63. Xử phạt nhân viên đường sắt trực tiếp phục vụ chạy tàu (trừ lái tàu và phụ lái tàu) vi phạm quy định về nồng độ cồn hoặc sử dụng các chất kích thích khác mà pháp luật cấm sử dụng.  điểm c) khi làm nhiệm vụ mà trong cơ thể có chất kích thích khác mà pháp luật cấm sử dụng.</code>                                                                                                                                                                                                     | <code>Điều 4. Nhiệm vụ của lực lượng tuần tra, canh gác đê.  khoản 5. đeo phù hiệu khi làm nhiệm vụ.</code>                                                                                                                                               |
  | <code>Theo quy định pháp luật, dẫn xuất của các loài động vật, thực vật là gì?</code>     | <code>Điều 3. Giải thích từ ngữ.  khoản 26. mẫu vật săn bắt là mẫu vật có được từ các hoạt động săn bắt hợp pháp. </code>                                                                                                                                                                                                                                                                                                                                                                                 | <code>Điều 17. Trách nhiệm của Sở Nông nghiệp và Phát triển nông thôn.  khoản 3. khi có báo động lũ từ cấp i trở lên, sở nông nghiệp và phát triển nông thôn phải chỉ đạo, tổ chức kiểm tra, đôn đốc công tác tuần tra, canh gác ở các tuyến đê.</code>   |
  | <code>Mục tiêu của giáo dục nghề nghiệp từ tháng 7/2020 được quy định như thế nào?</code> | <code>Điều 36. Mục tiêu của giáo dục nghề nghiệp. giáo dục nghề nghiệp nhằm đào tạo nhân lực trực tiếp cho sản xuất, kinh doanh và dịch vụ, có năng lực hành nghề tương ứng với trình độ đào tạo; có đạo đức, sức khỏe; có trách nhiệm nghề nghiệp; có khả năng sáng tạo, thích ứng với môi trường hội nhập quốc tế; bảo đảm nâng cao năng suất, chất lượng lao động; tạo điều kiện cho người học sau khi hoàn thành khóa học có khả năng tìm việc làm, tự tạo việc làm hoặc học trình độ cao hơn.</code> | <code>Điều 3. Tiêu chuẩn của các thành viên thuộc lực lượng tuần tra, canh gác đê.  khoản 2. có tinh thần trách nhiệm, chịu đựng gian khổ, khắc phục khó khăn, quen sông nước và biết bơi, có kiến thức, kinh nghiệm hộ đê, phòng, chống lụt, bão.</code> |
* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
  ```json
  {
      "scale": 20.0,
      "similarity_fct": "cos_sim"
  }
  ```

### Evaluation Dataset

#### zalo-legal-triplets

* Dataset: [zalo-legal-triplets](https://huggingface.co/datasets/batmangiaicuuthegioi/zalo-legal-triplets) at [15e0566](https://huggingface.co/datasets/batmangiaicuuthegioi/zalo-legal-triplets/tree/15e0566d390f73b5574a3d928cb8353cb6656fba)
* Size: 37,059 evaluation samples
* Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
* Approximate statistics based on the first 1000 samples:
  |         | anchor                                                                           | positive                                                                            | negative                                                                           |
  |:--------|:---------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
  | type    | string                                                                           | string                                                                              | string                                                                             |
  | details | <ul><li>min: 7 tokens</li><li>mean: 21.7 tokens</li><li>max: 47 tokens</li></ul> | <ul><li>min: 17 tokens</li><li>mean: 79.22 tokens</li><li>max: 327 tokens</li></ul> | <ul><li>min: 25 tokens</li><li>mean: 74.1 tokens</li><li>max: 220 tokens</li></ul> |
* Samples:
  | anchor                                                                                                                  | positive                                                                                                                                                                                                                                                                                                                                        | negative                                                                                                                                                                                                                                                                                                            |
  |:------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
  | <code>Nghiên cứu y sinh học liên quan đến con người là gì?</code>                                                       | <code>Điều 31. Thẩm định nghiên cứu theo quy trình rút gọn.  khoản 4. ngoại trừ trường hợp họp khẩn cấp, tất cả tài liệu đề nghị xem xét phải được gửi tới thành viên hội đồng đạo đức được phân công nhận xét trước ít nhất 05 ngày làm việc so với ngày yêu cầu gửi lại phiếu nhận xét, đánh giá nghiên cứu. </code>                          | <code>Điều 10. Nội dung tuần tra canh gác cống qua đê.  khoản 2. người tuần tra, canh gác phải kiểm tra kỹ phần tiếp giáp giữa thân cống, tường cánh gà của cống với đê; cánh cống, bộ phận đóng mở cánh cống, cửa cống, thân cống và khu vực thượng, hạ lưu cống để phát hiện kịp thời những sự cố xảy ra. </code> |
  | <code>Hồ sơ cấp lại Giấy chứng nhận đủ điều kiện hoạt động dịch vụ giám định công nghệ bao gồm những giấy tờ gì?</code> | <code>Điều 38. Hồ sơ cấp Giấy chứng nhận đủ điều kiện hoạt động dịch vụ giám định công nghệ.  điểm e) mẫu chứng thư giám định của tổ chức. </code>                                                                                                                                                                                              | <code>Điều 6. Trang bị dụng cụ, sổ sách.  khoản 7. việc giao nhận các dụng cụ và sổ sách trên đây phải được lập biên bản để quản lý, theo dõi.</code>                                                                                                                                                               |
  | <code>Chạy quá tốc độ bao nhiêu km thì xe ô tô sẽ bị giam bằng?</code>                                                  | <code>Điều 55. Xử phạt các hành vi vi phạm quy định quản lý, bảo trì kết cấu hạ tầng đường sắt.  điểm b) thực hiện hành vi quy định tại điểm c khoản 3 điều này buộc phải tổ chức sửa chữa, bổ sung, gia cố, thay thế các hư hỏng kết cấu hạ tầng đường sắt để bảo đảm chất lượng theo công lệnh tốc độ, công lệnh tải trọng đã công bố.</code> | <code>Điều 9. Nội dung tuần tra, canh gác đê.  điểm d) mỗi kíp tuần tra phải kiểm tra vượt quá phạm vi phụ trách về hai phía, mỗi phía 50m. đối với những khu vực đã từng xảy ra sự cố hư hỏng, phải kiểm tra quan sát rộng hơn để phát hiện sự cố. </code>                                                         |
* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
  ```json
  {
      "scale": 20.0,
      "similarity_fct": "cos_sim"
  }
  ```

### Training Hyperparameters
#### Non-Default Hyperparameters

- `eval_strategy`: steps
- `per_device_train_batch_size`: 4
- `per_device_eval_batch_size`: 2
- `num_train_epochs`: 1
- `warmup_ratio`: 0.1
- `fp16`: True

#### All Hyperparameters
<details><summary>Click to expand</summary>

- `overwrite_output_dir`: False
- `do_predict`: False
- `eval_strategy`: steps
- `prediction_loss_only`: True
- `per_device_train_batch_size`: 4
- `per_device_eval_batch_size`: 2
- `per_gpu_train_batch_size`: None
- `per_gpu_eval_batch_size`: None
- `gradient_accumulation_steps`: 1
- `eval_accumulation_steps`: None
- `torch_empty_cache_steps`: None
- `learning_rate`: 5e-05
- `weight_decay`: 0.0
- `adam_beta1`: 0.9
- `adam_beta2`: 0.999
- `adam_epsilon`: 1e-08
- `max_grad_norm`: 1.0
- `num_train_epochs`: 1
- `max_steps`: -1
- `lr_scheduler_type`: linear
- `lr_scheduler_kwargs`: {}
- `warmup_ratio`: 0.1
- `warmup_steps`: 0
- `log_level`: passive
- `log_level_replica`: warning
- `log_on_each_node`: True
- `logging_nan_inf_filter`: True
- `save_safetensors`: True
- `save_on_each_node`: False
- `save_only_model`: False
- `restore_callback_states_from_checkpoint`: False
- `no_cuda`: False
- `use_cpu`: False
- `use_mps_device`: False
- `seed`: 42
- `data_seed`: None
- `jit_mode_eval`: False
- `use_ipex`: False
- `bf16`: False
- `fp16`: True
- `fp16_opt_level`: O1
- `half_precision_backend`: auto
- `bf16_full_eval`: False
- `fp16_full_eval`: False
- `tf32`: None
- `local_rank`: 0
- `ddp_backend`: None
- `tpu_num_cores`: None
- `tpu_metrics_debug`: False
- `debug`: []
- `dataloader_drop_last`: False
- `dataloader_num_workers`: 0
- `dataloader_prefetch_factor`: None
- `past_index`: -1
- `disable_tqdm`: False
- `remove_unused_columns`: True
- `label_names`: None
- `load_best_model_at_end`: False
- `ignore_data_skip`: False
- `fsdp`: []
- `fsdp_min_num_params`: 0
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
- `fsdp_transformer_layer_cls_to_wrap`: None
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
- `deepspeed`: None
- `label_smoothing_factor`: 0.0
- `optim`: adamw_torch
- `optim_args`: None
- `adafactor`: False
- `group_by_length`: False
- `length_column_name`: length
- `ddp_find_unused_parameters`: None
- `ddp_bucket_cap_mb`: None
- `ddp_broadcast_buffers`: False
- `dataloader_pin_memory`: True
- `dataloader_persistent_workers`: False
- `skip_memory_metrics`: True
- `use_legacy_prediction_loop`: False
- `push_to_hub`: False
- `resume_from_checkpoint`: None
- `hub_model_id`: None
- `hub_strategy`: every_save
- `hub_private_repo`: None
- `hub_always_push`: False
- `gradient_checkpointing`: False
- `gradient_checkpointing_kwargs`: None
- `include_inputs_for_metrics`: False
- `include_for_metrics`: []
- `eval_do_concat_batches`: True
- `fp16_backend`: auto
- `push_to_hub_model_id`: None
- `push_to_hub_organization`: None
- `mp_parameters`: 
- `auto_find_batch_size`: False
- `full_determinism`: False
- `torchdynamo`: None
- `ray_scope`: last
- `ddp_timeout`: 1800
- `torch_compile`: False
- `torch_compile_backend`: None
- `torch_compile_mode`: None
- `dispatch_batches`: None
- `split_batches`: None
- `include_tokens_per_second`: False
- `include_num_input_tokens_seen`: False
- `neftune_noise_alpha`: None
- `optim_target_modules`: None
- `batch_eval_metrics`: False
- `eval_on_start`: False
- `use_liger_kernel`: False
- `eval_use_gather_object`: False
- `average_tokens_across_devices`: False
- `prompts`: None
- `batch_sampler`: batch_sampler
- `multi_dataset_batch_sampler`: proportional

</details>

### Training Logs
| Epoch  | Step | Training Loss | Validation Loss | zalo_legal_cosine_accuracy |
|:------:|:----:|:-------------:|:---------------:|:--------------------------:|
| 0.3084 | 2000 | 0.2978        | 0.0778          | 0.9996                     |
| 0.6167 | 4000 | 0.1735        | 0.0522          | 1.0                        |
| 0.9251 | 6000 | 0.1148        | 0.0330          | 1.0                        |
| 1.0    | 6486 | -             | -               | 1.0                        |


### Framework Versions
- Python: 3.10.12
- Sentence Transformers: 3.3.1
- Transformers: 4.47.0
- PyTorch: 2.5.1+cu121
- Accelerate: 1.2.1
- Datasets: 3.3.1
- Tokenizers: 0.21.0

## Citation

### BibTeX

#### Sentence Transformers
```bibtex
@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}
```

#### MultipleNegativesRankingLoss
```bibtex
@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
```

<!--
## Glossary

*Clearly define terms in order to be accessible across audiences.*
-->

<!--
## Model Card Authors

*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
-->

<!--
## Model Card Contact

*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
-->