khanglt0004 commited on
Commit
f4d64f3
·
verified ·
1 Parent(s): 264ee93

Add new SentenceTransformer model

Browse files
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,1084 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - sentence-similarity
5
+ - feature-extraction
6
+ - generated_from_trainer
7
+ - dataset_size:2459
8
+ - loss:MatryoshkaLoss
9
+ - loss:MultipleNegativesRankingLoss
10
+ base_model: bkai-foundation-models/vietnamese-bi-encoder
11
+ widget:
12
+ - source_sentence: Khi lấy ý kiến của những người liên quan, công chức tư pháp – hộ
13
+ tịch phải tư vấn điều gì để đảm bảo trẻ em tiếp tục được chăm sóc phù hợp?
14
+ sentences:
15
+ - 'Điều 28. Hành vi vi phạm quy định về đăng ký kết hôn và môi giới kết hôn
16
+
17
+
18
+ 1. Cảnh cáo hoặc phạt tiền từ 300.000 đồng đến 500.000 đồng đối với hành vi sửa
19
+ chữa, tẩy xóa, làm sai lệch nội dung giấy tờ do cơ quan có thẩm quyền cấp để làm
20
+ thủ tục đăng ký kết hôn.
21
+
22
+
23
+ 2. Phạt tiền từ 1.000.000 đồng đến 3.000.000 đồng đối với một trong các hành vi
24
+ sau:
25
+
26
+
27
+ a) Cho người khác mượn giấy tờ để làm thủ tục đăng ký kết hôn; sử dụng giấy tờ
28
+ của người khác để làm thủ tục đăng ký kết hôn;
29
+
30
+
31
+ b) Sử dụng giấy tờ giả để làm thủ tục đăng ký kết hôn;
32
+
33
+
34
+ c) Cam đoan không đúng về tình trạng hôn nhân để làm thủ tục đăng ký kết hôn.
35
+
36
+
37
+ 3. Phạt tiền từ 3.000.000 đồng đến 5.000.000 đồng đối với hành vi làm giả giấy
38
+ tờ để làm thủ tục đăng ký kết hôn.
39
+
40
+
41
+ 4.'
42
+ - 'Điều 5. Lệ phí
43
+
44
+
45
+ 1. Người yêu cầu đăng ký kết hôn, nhận cha, mẹ, con, cấp Giấy xác nhận tình trạng
46
+ hôn nhân, công nhận việc kết hôn, ghi vào sổ hộ tịch việc nhận cha, mẹ, con của
47
+ công dân Việt Nam đã giải quyết tại cơ quan có thẩm quyền của nước ngoài theo
48
+ quy định tại Nghị định này phải nộp lệ phí theo quy định của pháp luật.
49
+
50
+
51
+ 2. Miễn lệ phí đăng ký kết hôn, nhận cha, mẹ, con có yếu tố nước ngoài ở khu vực
52
+ biên giới.
53
+
54
+
55
+ Chương 2.
56
+
57
+
58
+ KẾT HÔN
59
+
60
+
61
+
62
+
63
+ MỤC 1. ĐĂNG KÝ KẾT HÔN'
64
+ - "Điều 9. Yêu cầu về kiểm tra hồ sơ và lấy ý kiến của những người liên quan \n\n\
65
+ 1. Khi kiểm tra hồ sơ, công chức tư pháp – hộ tịch phải nghiên cứu, tìm hiểu tâm\
66
+ \ tư, nguyện vọng và hoàn cảnh của những người liên quan. Trường hợp người được\
67
+ \ nhận làm con nuôi có cha mẹ đẻ, thì công chức tư pháp – hộ tịch kiểm tra việc\
68
+ \ cha mẹ đẻ có thỏa thuận với cha mẹ nuôi để giữ lại quyền, nghĩa vụ đối với con\
69
+ \ và cách thức thực hiện quyền, nghĩa vụ đó sau khi đã cho làm con nuôi.\n\n2.\
70
+ \ Khi lấy ý kiến của những người liên quan theo quy định tại Điều 20 và Điều 21\
71
+ \ của Luật Nuôi con nuôi, công chức tư pháp – hộ tịch phải tư vấn để trẻ em tiếp\
72
+ \ tục được chăm sóc, nuôi dưỡng, giáo dục phù hợp với điều kiện và khả năng thực\
73
+ \ tế của gia đình."
74
+ - source_sentence: Những cơ quan, tổ chức nào không thuộc đối tượng áp dụng của quyết
75
+ định về dân số và kế hoạch hóa gia đình tại TP.HCM?
76
+ sentences:
77
+ - '2. Đối tượng áp dụng của quyết định này là cá nhân, là người Việt Nam, cư trú
78
+ thực tế trên địa bàn thành phố Hồ Chí Minh ổn định từ 06 tháng trở lên (bao gồm
79
+ những người thường trú và tạm trú); cơ quan, tổ chức trú đóng trên địa bàn thành
80
+ phố Hồ Chí Minh là các cơ quan: hành chính, sự nghiệp, kinh tế, các đoàn thể,
81
+ các tổ chức chính trị, tổ chức chính trị xã hội, tổ chức xã hội nghề nghiệp (bao
82
+ gồm các cơ quan, tổ chức của thành phố, của các tỉnh, thành phố khác và của Trung
83
+ ương trú đóng trên địa bàn thành phố Hồ Chí Minh, áp dụng và thực hiện tốt công
84
+ tác dân số và kế hoạch hóa gia đình.
85
+
86
+
87
+ 3. Riêng các doanh trại quân đội, công an, trại giam và các cơ quan ngoại giao
88
+ không thuộc đối tượng áp dụng quyết định này.
89
+
90
+
91
+ Điều 2. Chính sách và nơi cung cấp dịch vụ đối với người áp dụng biện pháp tránh
92
+ thai
93
+
94
+
95
+ 1. Chính sách đối với người áp dụng biện pháp tránh thai:
96
+
97
+
98
+ a) Người áp dụng biện pháp đặt dụng cụ tử cung, được cấp thuốc theo quy định của
99
+ Bộ Y tế; được miễn phí hoàn toàn khi thực hiện việc đặt, tái khám và tháo dụng
100
+ cụ tử cung.'
101
+ - 'Điều 65. Thẩm quyền lập biên bản vi phạm hành chính
102
+
103
+
104
+ 1. Người có thẩm quyền lập biên bản quy định tại Điều này chỉ được lập biên bản
105
+ vi phạm hành chính đối với những vi phạm hành chính thuộc phạm vi thi hành công
106
+ vụ, nhiệm vụ được giao theo mẫu quy định và chịu trách nhiệm về việc lập biên
107
+ bản.
108
+
109
+
110
+ 2. Những người sau đây đang thi hành công vụ, nhiệm vụ có thẩm quyền lập biên
111
+ bản vi phạm hành chính:
112
+
113
+
114
+ a) Người có thẩm quyền xử phạt vi phạm hành chính quy định tại các Điều 66, 67,
115
+ 68, 69 và 70 của Nghị định này lập biên bản vi phạm hành chính đối với các hành
116
+ vi trong lĩnh vực thuộc thẩm quyền xử phạt của mình;
117
+
118
+
119
+ b) Công chức tư pháp - hộ tịch cấp xã lập biên bản vi phạm hành chính đối với
120
+ các hành vi quy định tại các Điều 24, 25, 27, 28, 30, 31, 32, 33, 34, 35, 36,
121
+ 47, 48, 49 và 50 của Nghị định này;
122
+
123
+
124
+ c) Công chức Phòng Tư pháp cấp huyện lập biên bản vi phạm hành chính đối với các
125
+ hành vi quy định tại Mục 1 Chương III, các Điều 27, 28, 30, 31, 32, 33, 34, 35,
126
+ 36, 39 và 40,'
127
+ - 'Điều 33. Trình tự cấp giấy phép cho tổ chức con nuôi nước ngoài hoạt động tại
128
+ Việt Nam
129
+
130
+
131
+ 1. Trong thời hạn 60 ngày, kể từ ngày nhận đủ hồ sơ hợp lệ, Cục Con nuôi kiểm
132
+ tra, thẩm định hồ sơ; phỏng vấn để kiểm tra, đánh giá về tiêu chuẩn của người
133
+ dự kiến đứng đầu Văn phòng con nuôi nước ngoài tại Việt Nam; kiểm tra, đánh giá
134
+ về điều kiện, năng lực chuyên môn của tổ chức và đội ngũ nhân viên của tổ chức
135
+ con nuôi nước ngoài; báo cáo Bộ trưởng Bộ Tư pháp đề nghị Bộ Công an cho ý kiến.
136
+
137
+
138
+ 2. Trong thời hạn 30 ngày, kể từ ngày nhận được đề nghị của Bộ Tư pháp, Bộ Công
139
+ an trả lời bằng văn bản cho Bộ Tư pháp.
140
+
141
+
142
+ 3.'
143
+ - source_sentence: Hành vi ép buộc người khác nhận cha, mẹ, con sẽ bị phạt tiền ở
144
+ mức nào?
145
+ sentences:
146
+ - 'Trong trường hợp từ chối đăng ký kết hôn, cơ quan đại diện có văn bản thông báo
147
+ cho hai bên nam, nữ, trong đó nêu rõ lý do từ chối.
148
+
149
+
150
+ 2. Trường hợp xét thấy có vấn đề cần xác minh thuộc chức năng của cơ quan hữu
151
+ quan ở trong nước, cơ quan đại diện có công văn nêu rõ vấn đề cần xác minh, gửi
152
+ Bộ Ngoại giao để yêu cầu cơ quan hữu quan xác minh theo chức năng chuyên ngành.
153
+
154
+
155
+ Trong thời hạn 10 ngày làm việc, kể từ ngày nhận được công văn của Bộ Ngoại giao,
156
+ cơ quan hữu quan ở trong nước thực hiện xác minh vấn đề được yêu cầu và trả lời
157
+ bằng văn bản gửi Bộ Ngoại giao để chuyển cho cơ quan đại diện.
158
+
159
+
160
+ 3. Lễ đăng ký kết hôn được tổ chức trong thời hạn 05 ngày làm việc, kể từ ngày
161
+ người đứng đầu cơ quan đại diện ký Giấy chứng nhận kết hôn.
162
+
163
+
164
+ 4. Lễ đăng ký kết hôn được tổ chức trang trọng tại trụ sở cơ quan đại diện. Khi
165
+ tổ chức lễ đăng ký kết hôn phải có mặt hai bên nam, nữ. Đại diện cơ quan đại diện
166
+ chủ trì hôn lễ, yêu cầu hai bên cho biết ý định lần cuối về sự tự nguyện kết hôn.'
167
+ - 'Điều 33. Hành vi vi phạm quy định về đăng ký việc nhận cha, mẹ, con
168
+
169
+
170
+ 1. Cảnh cáo hoặc phạt tiền từ 300.000 đồng đến 500.000 đồng đối với hành vi sửa
171
+ chữa, tẩy xóa, làm sai lệch nội dung giấy tờ do cơ quan có thẩm quyền cấp để làm
172
+ thủ tục đăng ký nhận cha, mẹ, con.
173
+
174
+
175
+ 2. Phạt tiền từ 1.000.000 đồng đến 3.000.000 đồng đối với một trong các hành vi
176
+ sau:
177
+
178
+
179
+ a) Sử dụng giấy tờ của người khác để làm thủ tục đăng ký nhận cha, mẹ, con;
180
+
181
+
182
+ b) Sử dụng giấy tờ giả để làm thủ tục đăng ký nhận cha, mẹ, con;
183
+
184
+
185
+ c) Ép buộc người khác nhận cha, mẹ, con.
186
+
187
+
188
+ 3. Phạt tiền từ 3.000.000 đồng đến 5.000.000 đồng đối với hành vi làm giả giấy
189
+ tờ để làm thủ tục đăng ký nhận cha, mẹ, con.
190
+
191
+
192
+ 4. Biện pháp khắc phục hậu quả:
193
+
194
+
195
+ Hủy bỏ giấy tờ giả đối với hành vi quy định tại Điểm b Khoản 2, Khoản 3 Điều này.'
196
+ - 'Trường hợp cần phải xác minh, thì thời hạn xác minh không quá 05 ngày.”
197
+
198
+
199
+ 13. Khoản 1 và khoản 2 Điều 48 được sửa đổi, bổ sung như sau:
200
+
201
+
202
+ “1. Người có yêu cầu đăng ký lại việc sinh, tử, kết hôn phải nộp Tờ khai (theo
203
+ mẫu quy định) và xuất trình bản sao giấy tờ hộ tịch đã cấp hợp lệ trước đây (nếu
204
+ có); trong trường hợp không có bản sao giấy tờ hộ tịch, thì đương sự phải tự cam
205
+ đoan về việc đã đăng ký, nhưng sổ hộ tịch không còn lưu được và chịu trách nhiệm
206
+ về nội dung cam đoan.
207
+
208
+
209
+ 2. Sau khi nhận đủ giấy tờ hợp lệ, cán bộ Tư pháp hộ tịch ghi vào sổ hộ tịch theo
210
+ từng loại việc và bản chính Giấy khai sinh, Giấy chứng tử, Giấy chứng nhận kết
211
+ hôn. Chủ tịch Ủy ban nhân dân cấp xã ký và cấp cho người đi đăng ký một bản chính
212
+ giấy tờ hộ tịch theo từng loại việc. Các giấy tờ hộ tịch cũ liên quan đến sự kiện
213
+ hộ tịch đăng ký lại (nếu có) được thu hồi và lưu hồ sơ.
214
+
215
+
216
+ Trường hợp cần phải xác minh, thì thời hạn được kéo dài không quá 03 ngày.”
217
+
218
+
219
+ 14. Khoản 2 Điều 50 được sửa đổi như sau:
220
+
221
+
222
+ “2.'
223
+ - source_sentence: Nếu giấy xác nhận tình trạng hôn nhân được cấp tại tỉnh khác, Sở
224
+ Tư pháp cần làm gì trước khi ghi vào sổ việc kết hôn?
225
+ sentences:
226
+ - "Đơn vị chủ trì: Tổng cục Dân số.\n\nĐơn vị phối hợp: Vụ Truyền thông và Thi đua,\
227
+ \ khen thưởng; Sở Y tế các tỉnh/thành phố và các đơn vị liên quan.\n\n\tb) Đa\
228
+ \ dạng hóa các loại hình truyền thông, chú trọng kênh thông tin đại chúng; các\
229
+ \ sản phẩm truyền thông phù hợp với từng vùng miền, địa phương. Tăng cường áp\
230
+ \ dụng công nghệ hiện đại, internet, mạng xã hội trong tuyên truyền, vận động\
231
+ \ về kế hoạch hóa gia đình; lồng ghép với các hoạt động truyền thông của các Chương\
232
+ \ trình, Đề án khác."
233
+ - 'Trường hợp công dân Việt Nam được cấp Giấy xác nhận tình trạng hôn nhân tại địa
234
+ bàn tỉnh khác, Sở Tư pháp có văn bản gửi Sở Tư pháp nơi đã cho ý kiến về việc
235
+ cấp Giấy xác nhận tình trạng hôn nhân đề nghị kiểm tra, đối chiếu; nếu việc cấp
236
+ Giấy xác nhận tình trạng hôn nhân bảo đảm đúng trình tự, thủ tục, việc kết hôn
237
+ bảo đảm điều kiện theo quy định tại khoản 1 Điều 16 của Nghị định số 24/2013/NĐ-CP,
238
+ thì ghi vào sổ việc kết hôn.
239
+
240
+
241
+ 2. Trường hợp việc cấp Giấy xác nhận tình trạng hôn nhân không đúng trình tự,
242
+ thủ tục, Sở Tư pháp tiến hành xác minh làm rõ. Nếu kết quả xác minh cho thấy đương
243
+ sự có đủ điều kiện kết hôn (vào thời điểm yêu cầu cấp Giấy xác nhận tình trạng
244
+ hôn nhân), tình trạng hôn nhân của công dân Việt Nam được xác nhận là đúng, Sở
245
+ Tư pháp vẫn tiến hành ghi vào sổ việc kết hôn và cấp Giấy xác nhận cho đương sự.
246
+
247
+
248
+ Sau khi ghi vào sổ việc kết hôn, Sở Tư pháp có văn bản gửi Ủy ban nhân dân cấp
249
+ xã, nơi đã cấp Giấy xác nhận tình trạng hôn nhân để chấn chỉnh, xử lý theo quy
250
+ định.'
251
+ - "6. Phạt tiền từ 20.000.000 đồng đến 30.000.000 đồng đối với một trong các hành\
252
+ \ vi sau:\n\na) Không chấp hành quyết định của người có thẩm quyền thi hành án\
253
+ \ về việc khấu trừ tài khoản, thu hồi giấy tờ có giá của người phải thi hành án;\n\
254
+ \nb) Không chấp hành quyết định của người có thẩm quyền thi hành án về việc thu\
255
+ \ tiền từ hoạt động kinh doanh của người phải thi hành án; về việc thu tiền của\
256
+ \ người phải thi hành án đang giữ.\n\n7. Phạt tiền từ 30.000.000 đồng đến 40.000.000\
257
+ \ đồng đối với hành vi không thực hiện việc phong tỏa tài khoản của người phải\
258
+ \ thi hành án theo quyết định của người có thẩm quyền thi hành án.\n\n8. Biện\
259
+ \ pháp khắc phục hậu quả:\n\nBuộc khôi phục lại tình trạng ban đầu đã bị thay\
260
+ \ đổi đối với hành vi quy định tại Điểm a Khoản 4, Điểm a và Điểm b Khoản 5 Điều\
261
+ \ này.\n\n\n\nChương 6.\n\nHÀNH VI VI PHẠM HÀNH CHÍNH, HÌNH THỨC XỬ PHẠT VÀ BIỆN\
262
+ \ PHÁP \n\nKHẮC PHỤC HẬU QUẢ TRONG LĨNH VỰC PHÁ SẢN DOANH NGHIỆP, HỢP TÁC XÃ"
263
+ - source_sentence: Ai phải nộp lệ phí đăng ký nuôi con nuôi nước ngoài khi nộp hồ
264
+ sơ xin nhận con nuôi tại Cục Con nuôi?
265
+ sentences:
266
+ - "Các hoạt động:\n\n\t- Xây dựng bộ công cụ giám sát chất lượng sau đào tạo đối\
267
+ \ với người cung cấp dịch vụ; các quy định về cơ sở thực hiện dịch vụ kế hoạch\
268
+ \ hóa gia đình có chất lượng;\n\n\t- Hướng dẫn tổ chức thực hiện việc giám sát\
269
+ \ chất lượng đối với cơ sở và người cung cấp dịch vụ kế hoạch hóa gia đình;\n\n\
270
+ \t- Kiểm định chất lượng phương tiện tránh thai và hàng hóa sức khỏe sinh sản.\n\
271
+ \nĐơn vị chủ trì: Tổng cục Dân số.\n\nĐơn vị phối hợp: Vụ Sức khỏe Bà mẹ - Trẻ\
272
+ \ em; Sở Y tế các tỉnh/thành phố và các đơn vị liên quan.\n\n\t4. Đẩy mạnh xã\
273
+ \ hội hóa, huy động nguồn lực thực hiện Chương trình\n\nĐẩy mạnh xã hội hóa dịch\
274
+ \ vụ kế hoạch hóa gia đình, tạo điều kiện thuận lợi cho các tổ chức, cá nhân tham\
275
+ \ gia Chương trình; huy động toàn bộ hệ thống y tế, dân số tham gia thực hiện\
276
+ \ Chương trình theo chức năng, nhiệm vụ được giao, ưu tiên bảo đảm hoạt động ở\
277
+ \ tuyến cơ sở, vùng khó khăn có mức sinh cao."
278
+ - 'tranh chấp giữa các thành viên gia đình, xử lý hành vi bạo lực gia đình;
279
+
280
+
281
+ g) Khiếu nại, tố cáo, khởi kiện đối với hành vi vi phạm pháp luật về phòng, chống
282
+ bạo lực gia đình;
283
+
284
+
285
+ h) Quyền khác theo quy định của pháp luật có liên quan đến phòng, chống bạo lực
286
+ gia đình.
287
+
288
+
289
+ 2. Người bị bạo lực gia đình, người giám hộ hoặc người đại diện theo pháp luật
290
+ của người bị bạo lực gia đình có trách nhiệm cung cấp đầy đủ, chính xác, kịp thời
291
+ thông tin liên quan đến hành vi bạo lực gia đình khi có yêu cầu của cơ quan, tổ
292
+ chức, cá nhân có thẩm quyền.'
293
+ - "Điều 42. Đối tượng phải nộp lệ phí đăng ký nuôi con nuôi \n\n1. Công dân Việt\
294
+ \ Nam thường trú tại Việt Nam phải nộp lệ phí đăng ký nuôi con nuôi trong nước\
295
+ \ theo quy định tại khoản 1 Điều 40 của Nghị định này khi nộp hồ sơ đăng ký nuôi\
296
+ \ con nuôi tại Ủy ban nhân dân cấp xã.    \n\n2. Người Việt Nam định cư ở nước\
297
+ \ ngoài, người nước ngoài không thường trú tại Việt Nam phải nộp lệ phí đăng ký\
298
+ \ nuôi con nuôi nước ngoài theo quy định tại khoản 2 Điều 40 của Nghị định này\
299
+ \ khi nộp hồ sơ xin nhận con nuôi tại Cục Con nuôi.\n\n3. Công dân Việt Nam tạm\
300
+ \ trú ở nước ngoài phải nộp lệ phí đăng ký nuôi con nuôi theo quy định tại khoản\
301
+ \ 3 Điều 40 của Nghị định này khi nộp hồ sơ xin nhận con nuôi tại Cơ quan đại\
302
+ \ diện."
303
+ pipeline_tag: sentence-similarity
304
+ library_name: sentence-transformers
305
+ metrics:
306
+ - cosine_accuracy@1
307
+ - cosine_accuracy@3
308
+ - cosine_accuracy@5
309
+ - cosine_accuracy@10
310
+ - cosine_precision@1
311
+ - cosine_precision@3
312
+ - cosine_precision@5
313
+ - cosine_precision@10
314
+ - cosine_recall@1
315
+ - cosine_recall@3
316
+ - cosine_recall@5
317
+ - cosine_recall@10
318
+ - cosine_ndcg@10
319
+ - cosine_mrr@10
320
+ - cosine_map@100
321
+ model-index:
322
+ - name: SentenceTransformer based on bkai-foundation-models/vietnamese-bi-encoder
323
+ results:
324
+ - task:
325
+ type: information-retrieval
326
+ name: Information Retrieval
327
+ dataset:
328
+ name: dim 768
329
+ type: dim_768
330
+ metrics:
331
+ - type: cosine_accuracy@1
332
+ value: 0.483529890199268
333
+ name: Cosine Accuracy@1
334
+ - type: cosine_accuracy@3
335
+ value: 0.7157381049206994
336
+ name: Cosine Accuracy@3
337
+ - type: cosine_accuracy@5
338
+ value: 0.7897519316795445
339
+ name: Cosine Accuracy@5
340
+ - type: cosine_accuracy@10
341
+ value: 0.8592923952826352
342
+ name: Cosine Accuracy@10
343
+ - type: cosine_precision@1
344
+ value: 0.483529890199268
345
+ name: Cosine Precision@1
346
+ - type: cosine_precision@3
347
+ value: 0.2385793683068998
348
+ name: Cosine Precision@3
349
+ - type: cosine_precision@5
350
+ value: 0.1579503863359089
351
+ name: Cosine Precision@5
352
+ - type: cosine_precision@10
353
+ value: 0.08592923952826352
354
+ name: Cosine Precision@10
355
+ - type: cosine_recall@1
356
+ value: 0.483529890199268
357
+ name: Cosine Recall@1
358
+ - type: cosine_recall@3
359
+ value: 0.7157381049206994
360
+ name: Cosine Recall@3
361
+ - type: cosine_recall@5
362
+ value: 0.7897519316795445
363
+ name: Cosine Recall@5
364
+ - type: cosine_recall@10
365
+ value: 0.8592923952826352
366
+ name: Cosine Recall@10
367
+ - type: cosine_ndcg@10
368
+ value: 0.6739315776091506
369
+ name: Cosine Ndcg@10
370
+ - type: cosine_mrr@10
371
+ value: 0.6141480599288642
372
+ name: Cosine Mrr@10
373
+ - type: cosine_map@100
374
+ value: 0.6195040501807831
375
+ name: Cosine Map@100
376
+ - task:
377
+ type: information-retrieval
378
+ name: Information Retrieval
379
+ dataset:
380
+ name: dim 512
381
+ type: dim_512
382
+ metrics:
383
+ - type: cosine_accuracy@1
384
+ value: 0.4827165514436763
385
+ name: Cosine Accuracy@1
386
+ - type: cosine_accuracy@3
387
+ value: 0.7104514030093534
388
+ name: Cosine Accuracy@3
389
+ - type: cosine_accuracy@5
390
+ value: 0.7873119154127695
391
+ name: Cosine Accuracy@5
392
+ - type: cosine_accuracy@10
393
+ value: 0.8613257421716145
394
+ name: Cosine Accuracy@10
395
+ - type: cosine_precision@1
396
+ value: 0.4827165514436763
397
+ name: Cosine Precision@1
398
+ - type: cosine_precision@3
399
+ value: 0.2368171343364511
400
+ name: Cosine Precision@3
401
+ - type: cosine_precision@5
402
+ value: 0.15746238308255386
403
+ name: Cosine Precision@5
404
+ - type: cosine_precision@10
405
+ value: 0.08613257421716145
406
+ name: Cosine Precision@10
407
+ - type: cosine_recall@1
408
+ value: 0.4827165514436763
409
+ name: Cosine Recall@1
410
+ - type: cosine_recall@3
411
+ value: 0.7104514030093534
412
+ name: Cosine Recall@3
413
+ - type: cosine_recall@5
414
+ value: 0.7873119154127695
415
+ name: Cosine Recall@5
416
+ - type: cosine_recall@10
417
+ value: 0.8613257421716145
418
+ name: Cosine Recall@10
419
+ - type: cosine_ndcg@10
420
+ value: 0.6723537916655246
421
+ name: Cosine Ndcg@10
422
+ - type: cosine_mrr@10
423
+ value: 0.6116990065648049
424
+ name: Cosine Mrr@10
425
+ - type: cosine_map@100
426
+ value: 0.6168201481483597
427
+ name: Cosine Map@100
428
+ - task:
429
+ type: information-retrieval
430
+ name: Information Retrieval
431
+ dataset:
432
+ name: dim 256
433
+ type: dim_256
434
+ metrics:
435
+ - type: cosine_accuracy@1
436
+ value: 0.46156974379829196
437
+ name: Cosine Accuracy@1
438
+ - type: cosine_accuracy@3
439
+ value: 0.6901179341195608
440
+ name: Cosine Accuracy@3
441
+ - type: cosine_accuracy@5
442
+ value: 0.777551850345669
443
+ name: Cosine Accuracy@5
444
+ - type: cosine_accuracy@10
445
+ value: 0.8487189914599431
446
+ name: Cosine Accuracy@10
447
+ - type: cosine_precision@1
448
+ value: 0.46156974379829196
449
+ name: Cosine Precision@1
450
+ - type: cosine_precision@3
451
+ value: 0.23003931137318692
452
+ name: Cosine Precision@3
453
+ - type: cosine_precision@5
454
+ value: 0.1555103700691338
455
+ name: Cosine Precision@5
456
+ - type: cosine_precision@10
457
+ value: 0.0848718991459943
458
+ name: Cosine Precision@10
459
+ - type: cosine_recall@1
460
+ value: 0.46156974379829196
461
+ name: Cosine Recall@1
462
+ - type: cosine_recall@3
463
+ value: 0.6901179341195608
464
+ name: Cosine Recall@3
465
+ - type: cosine_recall@5
466
+ value: 0.777551850345669
467
+ name: Cosine Recall@5
468
+ - type: cosine_recall@10
469
+ value: 0.8487189914599431
470
+ name: Cosine Recall@10
471
+ - type: cosine_ndcg@10
472
+ value: 0.6552643834357492
473
+ name: Cosine Ndcg@10
474
+ - type: cosine_mrr@10
475
+ value: 0.5931471368539272
476
+ name: Cosine Mrr@10
477
+ - type: cosine_map@100
478
+ value: 0.5986420157639187
479
+ name: Cosine Map@100
480
+ - task:
481
+ type: information-retrieval
482
+ name: Information Retrieval
483
+ dataset:
484
+ name: dim 128
485
+ type: dim_128
486
+ metrics:
487
+ - type: cosine_accuracy@1
488
+ value: 0.439609597397316
489
+ name: Cosine Accuracy@1
490
+ - type: cosine_accuracy@3
491
+ value: 0.6588043920292802
492
+ name: Cosine Accuracy@3
493
+ - type: cosine_accuracy@5
494
+ value: 0.7429849532330216
495
+ name: Cosine Accuracy@5
496
+ - type: cosine_accuracy@10
497
+ value: 0.8251321675477836
498
+ name: Cosine Accuracy@10
499
+ - type: cosine_precision@1
500
+ value: 0.439609597397316
501
+ name: Cosine Precision@1
502
+ - type: cosine_precision@3
503
+ value: 0.21960146400976008
504
+ name: Cosine Precision@3
505
+ - type: cosine_precision@5
506
+ value: 0.1485969906466043
507
+ name: Cosine Precision@5
508
+ - type: cosine_precision@10
509
+ value: 0.08251321675477835
510
+ name: Cosine Precision@10
511
+ - type: cosine_recall@1
512
+ value: 0.439609597397316
513
+ name: Cosine Recall@1
514
+ - type: cosine_recall@3
515
+ value: 0.6588043920292802
516
+ name: Cosine Recall@3
517
+ - type: cosine_recall@5
518
+ value: 0.7429849532330216
519
+ name: Cosine Recall@5
520
+ - type: cosine_recall@10
521
+ value: 0.8251321675477836
522
+ name: Cosine Recall@10
523
+ - type: cosine_ndcg@10
524
+ value: 0.6297155370556367
525
+ name: Cosine Ndcg@10
526
+ - type: cosine_mrr@10
527
+ value: 0.5673880206820422
528
+ name: Cosine Mrr@10
529
+ - type: cosine_map@100
530
+ value: 0.5736251203666848
531
+ name: Cosine Map@100
532
+ - task:
533
+ type: information-retrieval
534
+ name: Information Retrieval
535
+ dataset:
536
+ name: dim 64
537
+ type: dim_64
538
+ metrics:
539
+ - type: cosine_accuracy@1
540
+ value: 0.3904026026840179
541
+ name: Cosine Accuracy@1
542
+ - type: cosine_accuracy@3
543
+ value: 0.5957706384709232
544
+ name: Cosine Accuracy@3
545
+ - type: cosine_accuracy@5
546
+ value: 0.6766978446522977
547
+ name: Cosine Accuracy@5
548
+ - type: cosine_accuracy@10
549
+ value: 0.7726718178121188
550
+ name: Cosine Accuracy@10
551
+ - type: cosine_precision@1
552
+ value: 0.3904026026840179
553
+ name: Cosine Precision@1
554
+ - type: cosine_precision@3
555
+ value: 0.19859021282364103
556
+ name: Cosine Precision@3
557
+ - type: cosine_precision@5
558
+ value: 0.1353395689304595
559
+ name: Cosine Precision@5
560
+ - type: cosine_precision@10
561
+ value: 0.07726718178121188
562
+ name: Cosine Precision@10
563
+ - type: cosine_recall@1
564
+ value: 0.3904026026840179
565
+ name: Cosine Recall@1
566
+ - type: cosine_recall@3
567
+ value: 0.5957706384709232
568
+ name: Cosine Recall@3
569
+ - type: cosine_recall@5
570
+ value: 0.6766978446522977
571
+ name: Cosine Recall@5
572
+ - type: cosine_recall@10
573
+ value: 0.7726718178121188
574
+ name: Cosine Recall@10
575
+ - type: cosine_ndcg@10
576
+ value: 0.5745062884302428
577
+ name: Cosine Ndcg@10
578
+ - type: cosine_mrr@10
579
+ value: 0.5119518839120302
580
+ name: Cosine Mrr@10
581
+ - type: cosine_map@100
582
+ value: 0.5199027870677515
583
+ name: Cosine Map@100
584
+ ---
585
+
586
+ # SentenceTransformer based on bkai-foundation-models/vietnamese-bi-encoder
587
+
588
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [bkai-foundation-models/vietnamese-bi-encoder](https://huggingface.co/bkai-foundation-models/vietnamese-bi-encoder). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
589
+
590
+ ## Model Details
591
+
592
+ ### Model Description
593
+ - **Model Type:** Sentence Transformer
594
+ - **Base model:** [bkai-foundation-models/vietnamese-bi-encoder](https://huggingface.co/bkai-foundation-models/vietnamese-bi-encoder) <!-- at revision 84f9d9ada0d1a3c37557398b9ae9fcedcdf40be0 -->
595
+ - **Maximum Sequence Length:** 256 tokens
596
+ - **Output Dimensionality:** 768 dimensions
597
+ - **Similarity Function:** Cosine Similarity
598
+ <!-- - **Training Dataset:** Unknown -->
599
+ <!-- - **Language:** Unknown -->
600
+ <!-- - **License:** Unknown -->
601
+
602
+ ### Model Sources
603
+
604
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
605
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
606
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
607
+
608
+ ### Full Model Architecture
609
+
610
+ ```
611
+ SentenceTransformer(
612
+ (0): Transformer({'max_seq_length': 256, 'do_lower_case': False}) with Transformer model: RobertaModel
613
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
614
+ )
615
+ ```
616
+
617
+ ## Usage
618
+
619
+ ### Direct Usage (Sentence Transformers)
620
+
621
+ First install the Sentence Transformers library:
622
+
623
+ ```bash
624
+ pip install -U sentence-transformers
625
+ ```
626
+
627
+ Then you can load this model and run inference.
628
+ ```python
629
+ from sentence_transformers import SentenceTransformer
630
+
631
+ # Download from the 🤗 Hub
632
+ model = SentenceTransformer("khanglt0004/ltk_embedding")
633
+ # Run inference
634
+ sentences = [
635
+ 'Ai phải nộp lệ phí đăng ký nuôi con nuôi nước ngoài khi nộp hồ sơ xin nhận con nuôi tại Cục Con nuôi?',
636
+ 'Điều 42. Đối tượng phải nộp lệ phí đăng ký nuôi con nuôi \n\n1. Công dân Việt Nam thường trú tại Việt Nam phải nộp lệ phí đăng ký nuôi con nuôi trong nước theo quy định tại khoản 1 Điều 40 của Nghị định này khi nộp hồ sơ đăng ký nuôi con nuôi tại Ủy ban nhân dân cấp xã. \xa0\xa0\xa0\n\n2. Người Việt Nam định cư ở nước ngoài, người nước ngoài không thường trú tại Việt Nam phải nộp lệ phí đăng ký nuôi con nuôi nước ngoài theo quy định tại khoản 2 Điều 40 của Nghị định này khi nộp hồ sơ xin nhận con nuôi tại Cục Con nuôi.\n\n3. Công dân Việt Nam tạm trú ở nước ngoài phải nộp lệ phí đăng ký nuôi con nuôi theo quy định tại khoản 3 Điều 40 của Nghị định này khi nộp hồ sơ xin nhận con nuôi tại Cơ quan đại diện.',
637
+ 'Các hoạt động:\n\n\t- Xây dựng bộ công cụ giám sát chất lượng sau đào tạo đối với người cung cấp dịch vụ; các quy định về cơ sở thực hiện dịch vụ kế hoạch hóa gia đình có chất lượng;\n\n\t- Hướng dẫn tổ chức thực hiện việc giám sát chất lượng đối với cơ sở và người cung cấp dịch vụ kế hoạch hóa gia đình;\n\n\t- Kiểm định chất lượng phương tiện tránh thai và hàng hóa sức khỏe sinh sản.\n\nĐơn vị chủ trì: Tổng cục Dân số.\n\nĐơn vị phối hợp: Vụ Sức khỏe Bà mẹ - Trẻ em; Sở Y tế các tỉnh/thành phố và các đơn vị liên quan.\n\n\t4. Đẩy mạnh xã hội hóa, huy động nguồn lực thực hiện Chương trình\n\nĐẩy mạnh xã hội hóa dịch vụ kế hoạch hóa gia đình, tạo điều kiện thuận lợi cho các tổ chức, cá nhân tham gia Chương trình; huy động toàn bộ hệ thống y tế, dân số tham gia thực hiện Chương trình theo chức năng, nhiệm vụ được giao, ưu tiên bảo đảm hoạt động ở tuyến cơ sở, vùng khó khăn có mức sinh cao.',
638
+ ]
639
+ embeddings = model.encode(sentences)
640
+ print(embeddings.shape)
641
+ # [3, 768]
642
+
643
+ # Get the similarity scores for the embeddings
644
+ similarities = model.similarity(embeddings, embeddings)
645
+ print(similarities.shape)
646
+ # [3, 3]
647
+ ```
648
+
649
+ <!--
650
+ ### Direct Usage (Transformers)
651
+
652
+ <details><summary>Click to see the direct usage in Transformers</summary>
653
+
654
+ </details>
655
+ -->
656
+
657
+ <!--
658
+ ### Downstream Usage (Sentence Transformers)
659
+
660
+ You can finetune this model on your own dataset.
661
+
662
+ <details><summary>Click to expand</summary>
663
+
664
+ </details>
665
+ -->
666
+
667
+ <!--
668
+ ### Out-of-Scope Use
669
+
670
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
671
+ -->
672
+
673
+ ## Evaluation
674
+
675
+ ### Metrics
676
+
677
+ #### Information Retrieval
678
+
679
+ * Dataset: `dim_768`
680
+ * Evaluated with [<code>InformationRetrievalEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator) with these parameters:
681
+ ```json
682
+ {
683
+ "truncate_dim": 768
684
+ }
685
+ ```
686
+
687
+ | Metric | Value |
688
+ |:--------------------|:-----------|
689
+ | cosine_accuracy@1 | 0.4835 |
690
+ | cosine_accuracy@3 | 0.7157 |
691
+ | cosine_accuracy@5 | 0.7898 |
692
+ | cosine_accuracy@10 | 0.8593 |
693
+ | cosine_precision@1 | 0.4835 |
694
+ | cosine_precision@3 | 0.2386 |
695
+ | cosine_precision@5 | 0.158 |
696
+ | cosine_precision@10 | 0.0859 |
697
+ | cosine_recall@1 | 0.4835 |
698
+ | cosine_recall@3 | 0.7157 |
699
+ | cosine_recall@5 | 0.7898 |
700
+ | cosine_recall@10 | 0.8593 |
701
+ | **cosine_ndcg@10** | **0.6739** |
702
+ | cosine_mrr@10 | 0.6141 |
703
+ | cosine_map@100 | 0.6195 |
704
+
705
+ #### Information Retrieval
706
+
707
+ * Dataset: `dim_512`
708
+ * Evaluated with [<code>InformationRetrievalEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator) with these parameters:
709
+ ```json
710
+ {
711
+ "truncate_dim": 512
712
+ }
713
+ ```
714
+
715
+ | Metric | Value |
716
+ |:--------------------|:-----------|
717
+ | cosine_accuracy@1 | 0.4827 |
718
+ | cosine_accuracy@3 | 0.7105 |
719
+ | cosine_accuracy@5 | 0.7873 |
720
+ | cosine_accuracy@10 | 0.8613 |
721
+ | cosine_precision@1 | 0.4827 |
722
+ | cosine_precision@3 | 0.2368 |
723
+ | cosine_precision@5 | 0.1575 |
724
+ | cosine_precision@10 | 0.0861 |
725
+ | cosine_recall@1 | 0.4827 |
726
+ | cosine_recall@3 | 0.7105 |
727
+ | cosine_recall@5 | 0.7873 |
728
+ | cosine_recall@10 | 0.8613 |
729
+ | **cosine_ndcg@10** | **0.6724** |
730
+ | cosine_mrr@10 | 0.6117 |
731
+ | cosine_map@100 | 0.6168 |
732
+
733
+ #### Information Retrieval
734
+
735
+ * Dataset: `dim_256`
736
+ * Evaluated with [<code>InformationRetrievalEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator) with these parameters:
737
+ ```json
738
+ {
739
+ "truncate_dim": 256
740
+ }
741
+ ```
742
+
743
+ | Metric | Value |
744
+ |:--------------------|:-----------|
745
+ | cosine_accuracy@1 | 0.4616 |
746
+ | cosine_accuracy@3 | 0.6901 |
747
+ | cosine_accuracy@5 | 0.7776 |
748
+ | cosine_accuracy@10 | 0.8487 |
749
+ | cosine_precision@1 | 0.4616 |
750
+ | cosine_precision@3 | 0.23 |
751
+ | cosine_precision@5 | 0.1555 |
752
+ | cosine_precision@10 | 0.0849 |
753
+ | cosine_recall@1 | 0.4616 |
754
+ | cosine_recall@3 | 0.6901 |
755
+ | cosine_recall@5 | 0.7776 |
756
+ | cosine_recall@10 | 0.8487 |
757
+ | **cosine_ndcg@10** | **0.6553** |
758
+ | cosine_mrr@10 | 0.5931 |
759
+ | cosine_map@100 | 0.5986 |
760
+
761
+ #### Information Retrieval
762
+
763
+ * Dataset: `dim_128`
764
+ * Evaluated with [<code>InformationRetrievalEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator) with these parameters:
765
+ ```json
766
+ {
767
+ "truncate_dim": 128
768
+ }
769
+ ```
770
+
771
+ | Metric | Value |
772
+ |:--------------------|:-----------|
773
+ | cosine_accuracy@1 | 0.4396 |
774
+ | cosine_accuracy@3 | 0.6588 |
775
+ | cosine_accuracy@5 | 0.743 |
776
+ | cosine_accuracy@10 | 0.8251 |
777
+ | cosine_precision@1 | 0.4396 |
778
+ | cosine_precision@3 | 0.2196 |
779
+ | cosine_precision@5 | 0.1486 |
780
+ | cosine_precision@10 | 0.0825 |
781
+ | cosine_recall@1 | 0.4396 |
782
+ | cosine_recall@3 | 0.6588 |
783
+ | cosine_recall@5 | 0.743 |
784
+ | cosine_recall@10 | 0.8251 |
785
+ | **cosine_ndcg@10** | **0.6297** |
786
+ | cosine_mrr@10 | 0.5674 |
787
+ | cosine_map@100 | 0.5736 |
788
+
789
+ #### Information Retrieval
790
+
791
+ * Dataset: `dim_64`
792
+ * Evaluated with [<code>InformationRetrievalEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator) with these parameters:
793
+ ```json
794
+ {
795
+ "truncate_dim": 64
796
+ }
797
+ ```
798
+
799
+ | Metric | Value |
800
+ |:--------------------|:-----------|
801
+ | cosine_accuracy@1 | 0.3904 |
802
+ | cosine_accuracy@3 | 0.5958 |
803
+ | cosine_accuracy@5 | 0.6767 |
804
+ | cosine_accuracy@10 | 0.7727 |
805
+ | cosine_precision@1 | 0.3904 |
806
+ | cosine_precision@3 | 0.1986 |
807
+ | cosine_precision@5 | 0.1353 |
808
+ | cosine_precision@10 | 0.0773 |
809
+ | cosine_recall@1 | 0.3904 |
810
+ | cosine_recall@3 | 0.5958 |
811
+ | cosine_recall@5 | 0.6767 |
812
+ | cosine_recall@10 | 0.7727 |
813
+ | **cosine_ndcg@10** | **0.5745** |
814
+ | cosine_mrr@10 | 0.512 |
815
+ | cosine_map@100 | 0.5199 |
816
+
817
+ <!--
818
+ ## Bias, Risks and Limitations
819
+
820
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
821
+ -->
822
+
823
+ <!--
824
+ ### Recommendations
825
+
826
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
827
+ -->
828
+
829
+ ## Training Details
830
+
831
+ ### Training Dataset
832
+
833
+ #### Unnamed Dataset
834
+
835
+ * Size: 2,459 training samples
836
+ * Columns: <code>anchor</code> and <code>positive</code>
837
+ * Approximate statistics based on the first 1000 samples:
838
+ | | anchor | positive |
839
+ |:--------|:-----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|
840
+ | type | string | string |
841
+ | details | <ul><li>min: 13 tokens</li><li>mean: 29.47 tokens</li><li>max: 57 tokens</li></ul> | <ul><li>min: 18 tokens</li><li>mean: 207.63 tokens</li><li>max: 256 tokens</li></ul> |
842
+ * Samples:
843
+ | anchor | positive |
844
+ |:-------------------------------------------------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
845
+ | <code>Quy định này áp dụng cho những đối tượng nào liên quan đến chính sách dân số và kế hoạch hóa gia đình?</code> | <code>Đối tượng áp dụng<br><br>Quy định này quy định tiêu chuẩn, điều kiện, thẩm quyền xem xét kết nạp lại vào Đảng đối với đảng viên đã bị đưa ra khỏi Đảng do vi phạm chính sách dân số và kế hoạch hoá gia đình, kết nạp quần chúng vi phạm chính sách dân số và kế hoạch hoá gia đình có nguyện vọng phấn đấu vào Đảng.<br><br>Điều 2. Những trường hợp sinh con không bị coi là vi phạm chính sách dân số và kế hoạch hoá gia đình<br><br>1. Cặp vợ chồng sinh con th��� ba, nếu cả hai hoặc một trong hai người thuộc dân tộc có số dân dưới 10.000 người hoặc thuộc dân tộc có nguy cơ suy giảm số dân (tỉ lệ nhỏ hơn hoặc bằng tỉ lệ chết) theo công bố chính thức của Bộ Kế hoạch và Đầu tư.<br><br>2. Cặp vợ chồng sinh lần thứ nhất mà sinh ba con trở lên.<br><br>3. Cặp vợ chồng đã có một con đẻ, sinh lần thứ hai mà sinh hai con trở lên.<br><br>4. Cặp vợ chồng sinh lần thứ ba trở lên, nếu tại thời điểm sinh chỉ có một con đẻ còn sống, kể cả con đẻ đã cho làm con nuôi.<br><br>5.</code> |
846
+ | <code>Trong trường hợp nào cặp vợ chồng sinh con thứ ba nhưng không bị coi là vi phạm chính sách dân số nếu thuộc dân tộc thiểu số?</code> | <code>Đối tượng áp dụng<br><br>Quy định này quy định tiêu chuẩn, điều kiện, thẩm quyền xem xét kết nạp lại vào Đảng đối với đảng viên đã bị đưa ra khỏi Đảng do vi phạm chính sách dân số và kế hoạch hoá gia đình, kết nạp quần chúng vi phạm chính sách dân số và kế hoạch hoá gia đình có nguyện vọng phấn đấu vào Đảng.<br><br>Điều 2. Những trường hợp sinh con không bị coi là vi phạm chính sách dân số và kế hoạch hoá gia đình<br><br>1. Cặp vợ chồng sinh con thứ ba, nếu cả hai hoặc một trong hai người thuộc dân tộc có số dân dưới 10.000 người hoặc thuộc dân tộc có nguy cơ suy giảm số dân (tỉ lệ nhỏ hơn hoặc bằng tỉ lệ chết) theo công bố chính thức của Bộ Kế hoạch và Đầu tư.<br><br>2. Cặp vợ chồng sinh lần thứ nhất mà sinh ba con trở lên.<br><br>3. Cặp vợ chồng đã có một con đẻ, sinh lần thứ hai mà sinh hai con trở lên.<br><br>4. Cặp vợ chồng sinh lần thứ ba trở lên, nếu tại thời điểm sinh chỉ có một con đẻ còn sống, kể cả con đẻ đã cho làm con nuôi.<br><br>5.</code> |
847
+ | <code>Cặp vợ chồng sinh lần thứ hai mà sinh hai con trở lên thì có bị xem là vi phạm chính sách dân số không?</code> | <code>Đối tượng áp dụng<br><br>Quy định này quy định tiêu chuẩn, điều kiện, thẩm quyền xem xét kết nạp lại vào Đảng đối với đảng viên đã bị đưa ra khỏi Đảng do vi phạm chính sách dân số và kế hoạch hoá gia đình, kết nạp quần chúng vi phạm chính sách dân số và kế hoạch hoá gia đình có nguyện vọng phấn đấu vào Đảng.<br><br>Điều 2. Những trường hợp sinh con không bị coi là vi phạm chính sách dân số và kế hoạch hoá gia đình<br><br>1. Cặp vợ chồng sinh con thứ ba, nếu cả hai hoặc một trong hai người thuộc dân tộc có số dân dưới 10.000 người hoặc thuộc dân tộc có nguy cơ suy giảm số dân (tỉ lệ nhỏ hơn hoặc bằng tỉ lệ chết) theo công bố chính thức của Bộ Kế hoạch và Đầu tư.<br><br>2. Cặp vợ chồng sinh lần thứ nhất mà sinh ba con trở lên.<br><br>3. Cặp vợ chồng đã có một con đẻ, sinh lần thứ hai mà sinh hai con trở lên.<br><br>4. Cặp vợ chồng sinh lần thứ ba trở lên, nếu tại thời điểm sinh chỉ có một con đẻ còn sống, kể cả con đẻ đã cho làm con nuôi.<br><br>5.</code> |
848
+ * Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
849
+ ```json
850
+ {
851
+ "loss": "MultipleNegativesRankingLoss",
852
+ "matryoshka_dims": [
853
+ 768,
854
+ 512,
855
+ 256,
856
+ 128,
857
+ 64
858
+ ],
859
+ "matryoshka_weights": [
860
+ 1,
861
+ 1,
862
+ 1,
863
+ 1,
864
+ 1
865
+ ],
866
+ "n_dims_per_step": -1
867
+ }
868
+ ```
869
+
870
+ ### Training Hyperparameters
871
+ #### Non-Default Hyperparameters
872
+
873
+ - `eval_strategy`: steps
874
+ - `per_device_eval_batch_size`: 4
875
+ - `gradient_accumulation_steps`: 4
876
+ - `learning_rate`: 2e-05
877
+ - `num_train_epochs`: 1
878
+ - `lr_scheduler_type`: cosine
879
+ - `warmup_ratio`: 0.1
880
+ - `bf16`: True
881
+ - `load_best_model_at_end`: True
882
+ - `optim`: adamw_torch_fused
883
+ - `batch_sampler`: no_duplicates
884
+
885
+ #### All Hyperparameters
886
+ <details><summary>Click to expand</summary>
887
+
888
+ - `overwrite_output_dir`: False
889
+ - `do_predict`: False
890
+ - `eval_strategy`: steps
891
+ - `prediction_loss_only`: True
892
+ - `per_device_train_batch_size`: 8
893
+ - `per_device_eval_batch_size`: 4
894
+ - `per_gpu_train_batch_size`: None
895
+ - `per_gpu_eval_batch_size`: None
896
+ - `gradient_accumulation_steps`: 4
897
+ - `eval_accumulation_steps`: None
898
+ - `torch_empty_cache_steps`: None
899
+ - `learning_rate`: 2e-05
900
+ - `weight_decay`: 0.0
901
+ - `adam_beta1`: 0.9
902
+ - `adam_beta2`: 0.999
903
+ - `adam_epsilon`: 1e-08
904
+ - `max_grad_norm`: 1.0
905
+ - `num_train_epochs`: 1
906
+ - `max_steps`: -1
907
+ - `lr_scheduler_type`: cosine
908
+ - `lr_scheduler_kwargs`: {}
909
+ - `warmup_ratio`: 0.1
910
+ - `warmup_steps`: 0
911
+ - `log_level`: passive
912
+ - `log_level_replica`: warning
913
+ - `log_on_each_node`: True
914
+ - `logging_nan_inf_filter`: True
915
+ - `save_safetensors`: True
916
+ - `save_on_each_node`: False
917
+ - `save_only_model`: False
918
+ - `restore_callback_states_from_checkpoint`: False
919
+ - `no_cuda`: False
920
+ - `use_cpu`: False
921
+ - `use_mps_device`: False
922
+ - `seed`: 42
923
+ - `data_seed`: None
924
+ - `jit_mode_eval`: False
925
+ - `use_ipex`: False
926
+ - `bf16`: True
927
+ - `fp16`: False
928
+ - `fp16_opt_level`: O1
929
+ - `half_precision_backend`: auto
930
+ - `bf16_full_eval`: False
931
+ - `fp16_full_eval`: False
932
+ - `tf32`: None
933
+ - `local_rank`: 0
934
+ - `ddp_backend`: None
935
+ - `tpu_num_cores`: None
936
+ - `tpu_metrics_debug`: False
937
+ - `debug`: []
938
+ - `dataloader_drop_last`: False
939
+ - `dataloader_num_workers`: 0
940
+ - `dataloader_prefetch_factor`: None
941
+ - `past_index`: -1
942
+ - `disable_tqdm`: False
943
+ - `remove_unused_columns`: True
944
+ - `label_names`: None
945
+ - `load_best_model_at_end`: True
946
+ - `ignore_data_skip`: False
947
+ - `fsdp`: []
948
+ - `fsdp_min_num_params`: 0
949
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
950
+ - `tp_size`: 0
951
+ - `fsdp_transformer_layer_cls_to_wrap`: None
952
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
953
+ - `deepspeed`: None
954
+ - `label_smoothing_factor`: 0.0
955
+ - `optim`: adamw_torch_fused
956
+ - `optim_args`: None
957
+ - `adafactor`: False
958
+ - `group_by_length`: False
959
+ - `length_column_name`: length
960
+ - `ddp_find_unused_parameters`: None
961
+ - `ddp_bucket_cap_mb`: None
962
+ - `ddp_broadcast_buffers`: False
963
+ - `dataloader_pin_memory`: True
964
+ - `dataloader_persistent_workers`: False
965
+ - `skip_memory_metrics`: True
966
+ - `use_legacy_prediction_loop`: False
967
+ - `push_to_hub`: False
968
+ - `resume_from_checkpoint`: None
969
+ - `hub_model_id`: None
970
+ - `hub_strategy`: every_save
971
+ - `hub_private_repo`: None
972
+ - `hub_always_push`: False
973
+ - `gradient_checkpointing`: False
974
+ - `gradient_checkpointing_kwargs`: None
975
+ - `include_inputs_for_metrics`: False
976
+ - `include_for_metrics`: []
977
+ - `eval_do_concat_batches`: True
978
+ - `fp16_backend`: auto
979
+ - `push_to_hub_model_id`: None
980
+ - `push_to_hub_organization`: None
981
+ - `mp_parameters`:
982
+ - `auto_find_batch_size`: False
983
+ - `full_determinism`: False
984
+ - `torchdynamo`: None
985
+ - `ray_scope`: last
986
+ - `ddp_timeout`: 1800
987
+ - `torch_compile`: False
988
+ - `torch_compile_backend`: None
989
+ - `torch_compile_mode`: None
990
+ - `include_tokens_per_second`: False
991
+ - `include_num_input_tokens_seen`: False
992
+ - `neftune_noise_alpha`: None
993
+ - `optim_target_modules`: None
994
+ - `batch_eval_metrics`: False
995
+ - `eval_on_start`: False
996
+ - `use_liger_kernel`: False
997
+ - `eval_use_gather_object`: False
998
+ - `average_tokens_across_devices`: False
999
+ - `prompts`: None
1000
+ - `batch_sampler`: no_duplicates
1001
+ - `multi_dataset_batch_sampler`: proportional
1002
+
1003
+ </details>
1004
+
1005
+ ### Training Logs
1006
+ | Epoch | Step | Training Loss | dim_768_cosine_ndcg@10 | dim_512_cosine_ndcg@10 | dim_256_cosine_ndcg@10 | dim_128_cosine_ndcg@10 | dim_64_cosine_ndcg@10 |
1007
+ |:------:|:----:|:-------------:|:----------------------:|:----------------------:|:----------------------:|:----------------------:|:---------------------:|
1008
+ | -1 | -1 | - | 0.5846 | 0.5778 | 0.5510 | 0.5090 | 0.4283 |
1009
+ | 0.1299 | 10 | 5.2058 | 0.6314 | 0.6244 | 0.6004 | 0.5712 | 0.4874 |
1010
+ | 0.2597 | 20 | 3.3976 | 0.6559 | 0.6534 | 0.6295 | 0.5986 | 0.5251 |
1011
+ | 0.3896 | 30 | 3.4291 | 0.6574 | 0.6577 | 0.6355 | 0.6084 | 0.5438 |
1012
+ | 0.5195 | 40 | 3.4904 | 0.6668 | 0.6642 | 0.6464 | 0.6225 | 0.5595 |
1013
+ | 0.6494 | 50 | 3.379 | 0.6702 | 0.6672 | 0.6515 | 0.6237 | 0.5667 |
1014
+ | 0.7792 | 60 | 2.5151 | 0.6732 | 0.6710 | 0.6536 | 0.6279 | 0.5720 |
1015
+ | 0.9091 | 70 | 2.8592 | 0.6739 | 0.6724 | 0.6553 | 0.6297 | 0.5745 |
1016
+
1017
+
1018
+ ### Framework Versions
1019
+ - Python: 3.11.12
1020
+ - Sentence Transformers: 4.1.0
1021
+ - Transformers: 4.51.3
1022
+ - PyTorch: 2.6.0+cu124
1023
+ - Accelerate: 1.6.0
1024
+ - Datasets: 3.6.0
1025
+ - Tokenizers: 0.21.1
1026
+
1027
+ ## Citation
1028
+
1029
+ ### BibTeX
1030
+
1031
+ #### Sentence Transformers
1032
+ ```bibtex
1033
+ @inproceedings{reimers-2019-sentence-bert,
1034
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
1035
+ author = "Reimers, Nils and Gurevych, Iryna",
1036
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
1037
+ month = "11",
1038
+ year = "2019",
1039
+ publisher = "Association for Computational Linguistics",
1040
+ url = "https://arxiv.org/abs/1908.10084",
1041
+ }
1042
+ ```
1043
+
1044
+ #### MatryoshkaLoss
1045
+ ```bibtex
1046
+ @misc{kusupati2024matryoshka,
1047
+ title={Matryoshka Representation Learning},
1048
+ author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
1049
+ year={2024},
1050
+ eprint={2205.13147},
1051
+ archivePrefix={arXiv},
1052
+ primaryClass={cs.LG}
1053
+ }
1054
+ ```
1055
+
1056
+ #### MultipleNegativesRankingLoss
1057
+ ```bibtex
1058
+ @misc{henderson2017efficient,
1059
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
1060
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
1061
+ year={2017},
1062
+ eprint={1705.00652},
1063
+ archivePrefix={arXiv},
1064
+ primaryClass={cs.CL}
1065
+ }
1066
+ ```
1067
+
1068
+ <!--
1069
+ ## Glossary
1070
+
1071
+ *Clearly define terms in order to be accessible across audiences.*
1072
+ -->
1073
+
1074
+ <!--
1075
+ ## Model Card Authors
1076
+
1077
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
1078
+ -->
1079
+
1080
+ <!--
1081
+ ## Model Card Contact
1082
+
1083
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
1084
+ -->
added_tokens.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ {
2
+ "<mask>": 64000
3
+ }
bpe.codes ADDED
The diff for this file is too large to render. See raw diff
 
config.json ADDED
@@ -0,0 +1,27 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "RobertaModel"
4
+ ],
5
+ "attention_probs_dropout_prob": 0.1,
6
+ "bos_token_id": 0,
7
+ "classifier_dropout": null,
8
+ "eos_token_id": 2,
9
+ "hidden_act": "gelu",
10
+ "hidden_dropout_prob": 0.1,
11
+ "hidden_size": 768,
12
+ "initializer_range": 0.02,
13
+ "intermediate_size": 3072,
14
+ "layer_norm_eps": 1e-05,
15
+ "max_position_embeddings": 258,
16
+ "model_type": "roberta",
17
+ "num_attention_heads": 12,
18
+ "num_hidden_layers": 12,
19
+ "pad_token_id": 1,
20
+ "position_embedding_type": "absolute",
21
+ "tokenizer_class": "PhobertTokenizer",
22
+ "torch_dtype": "float32",
23
+ "transformers_version": "4.51.3",
24
+ "type_vocab_size": 1,
25
+ "use_cache": true,
26
+ "vocab_size": 64001
27
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "4.1.0",
4
+ "transformers": "4.51.3",
5
+ "pytorch": "2.6.0+cu124"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": "cosine"
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9766fb10cd1b968e87428cfa30498500990b36f6b97d89bb37fff58b4ad78fe5
3
+ size 540015464
modules.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ }
14
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 256,
3
+ "do_lower_case": false
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": false,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer_config.json ADDED
@@ -0,0 +1,55 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "64000": {
36
+ "content": "<mask>",
37
+ "lstrip": false,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": true,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "extra_special_tokens": {},
49
+ "mask_token": "<mask>",
50
+ "model_max_length": 256,
51
+ "pad_token": "<pad>",
52
+ "sep_token": "</s>",
53
+ "tokenizer_class": "PhobertTokenizer",
54
+ "unk_token": "<unk>"
55
+ }
vocab.txt ADDED
The diff for this file is too large to render. See raw diff