tintnguyen commited on
Commit
841e98a
·
verified ·
1 Parent(s): 2f9a5e9

Add new SentenceTransformer model

Browse files
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,479 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - sentence-similarity
5
+ - feature-extraction
6
+ - generated_from_trainer
7
+ - dataset_size:1673974
8
+ - loss:MultipleNegativesRankingLoss
9
+ base_model: tintnguyen/vietnamese-bi-encoder-ft
10
+ widget:
11
+ - source_sentence: chim ưng finist là gì
12
+ sentences:
13
+ - 'Nam tinh hoa chuông ::: Arisaema franchetianum, tên gọi phổ thông nam tinh hoa
14
+ chuông, là một loài thực vật có hoa trong họ Ráy (Araceae). Loài này được Engl.
15
+ mô tả khoa học đầu tiên năm 1881.'
16
+ - 'Focke-Wulf Fw 58 ::: Focke-Wulf Fw 58 Weihe ("chim ưng") là một loại máy bay
17
+ của Đức, trang bị cho Luftwaffe làm máy bay huấn luyện.'
18
+ - 'Chiếc lông Chim Ưng Finist ::: Chiếc lông Chim Ưng Finist (tiếng Nga: Финнст
19
+ - Ясный сокол, Finist - Chim Ưng thông thái) là một câu chuyện cổ tích do nhà
20
+ nghiên cứu văn hóa dân gian Aleksandr Afanasyev thu thập và in trong tập sách
21
+ Những câu chuyện cổ tích Nga.'
22
+ - source_sentence: biến cố đảo song tử tây là gì
23
+ sentences:
24
+ - 'Biến cố đảo Song Tử Tây ::: Biến cố đảo Song Tử Tây là chuỗi sự kiện thay cờ
25
+ đổi chủ trên đảo Song Tử Tây thuộc quần đảo Trường Sa giữa Hải quân Việt Nam Cộng
26
+ hòa, Hải quân Philippines và Hải quân Việt Nam Dân chủ Cộng hòa.'
27
+ - 'Đảo chính Zimbabwe 2017 ::: Lỗi Lua trong Mô_đun:Location_map tại dòng 481: Giá
28
+ trị tọa độ dạng sai.'
29
+ - 'Vira, Pyrénées-Orientales ::: Vira là một xã thuộc tỉnh Pyrénées-Orientales trong
30
+ vùng Occitanie phía nam Pháp. Xã này nằm ở khu vực có độ cao trung bình 668 mét
31
+ trên mực nước biển.'
32
+ - source_sentence: iobenguane là gì
33
+ sentences:
34
+ - 'Eguenigue ::: Eguenigue là một làng và xã tại tỉnh Territoire de Belfort, vùng
35
+ Bourgogne-Franche-Comté.'
36
+ - 'Iobenguane ::: Iobenguane, hay MIBG, là một chất tương tự aralkylguanidine của
37
+ chất dẫn truyền thần kinh adrenergic norepinephrine và một dược phẩm phóng xạ.
38
+ Nó hoạt động như một tác nhân ngăn chặn các tế bào thần kinh adrenergic. Khi được
39
+ dán nhãn phóng xạ, nó có thể được sử dụng trong các kỹ thuật chẩn đoán y học hạt
40
+ nhân cũng như trong các phương pháp điều trị chống ung thư thần kinh. Nó định
41
+ vị vào mô adrenergic và do đó có thể được sử dụng để xác định vị trí của các khối
42
+ u như pheochromocytomas và neuroblastomas. Với I-131, nó cũng có thể được sử dụng
43
+ để loại bỏ các tế bào khối u chiếm và chuyển hóa norepinephrine.'
44
+ - 'Don Cheadle ::: Donald Frank Cheadle Jr. (/ˈtʃiːdəl/; sinh ngày 29 tháng 11 năm
45
+ 1964) là một diễn viên, biên kịch, đạo diễn và nhà sản xuất phim người Mỹ.'
46
+ - source_sentence: chu kì quỹ đạo của 23128 dorminy
47
+ sentences:
48
+ - '23128 Dorminy ::: 23128 Dorminy là một tiểu hành tinh vành đai chính với chu
49
+ kỳ quỹ đạo là 1265.7380462 ngày (3.47 năm).'
50
+ - 'Theo luật thời chiến ::: Theo luật thời chiến (tiếng Nga: По законам военного
51
+ времени, Po zakonam voennogo vremeni) là một bộ phim truyền hình nhiều tập thuộc
52
+ thể loại hình sự, hành động trong bối cảnh cuộc Chiến tranh Vệ quốc vĩ đại, do
53
+ hãng phim truyền hình StarMedia (Nga) sản xuất.'
54
+ - '23734 Kimgyehyun ::: 23734 Kimgyehyun là một tiểu hành tinh vành đai chính với
55
+ chu kỳ quỹ đạo là 1203.4259933 ngày (3.29 năm).'
56
+ - source_sentence: nabartha là loài gì
57
+ sentences:
58
+ - 'Nabartha ::: Simplicia là một chi bướm đêm thuộc họ Noctuidae, bản địa của Nam
59
+ và Đông Nam Á.'
60
+ - 'Vịt ép hạnh nhân ::: Vịt ép hạnh nhân hay còn được gọi là vịt ép Quan Thoại (tiếng
61
+ Trung: 窩燒鴨; bính âm: wōshāoyā; Việt bính: wo1 siu1 ngaap3), là một món ăn Quảng
62
+ Đông phổ biến trong các nhà hàng Trung Quốc và Polynesia ở Hoa Kỳ vào giữa thế
63
+ kỷ 20. Món ăn được chiên ngập trong dầu và phục vụ ở dạng miếng vừa phải hoặc
64
+ nguyên con. Nó thường được phục vụ với nước sốt được tưới lên trên, có màu nâu
65
+ và vị chua ngọt. Hạnh nhân nghiền hoặc hạnh nhân bột thường được rắc lên món ăn
66
+ ngay trước khi phục vụ, và đó cũng chính là nguồn góc tên gọi của món ăn này.
67
+ Việc chuẩn bị nguyên liệu có thể là một quá trình dài bao gồm một số bước trong
68
+ khoảng thời gian vài ngày, khiến món ăn có vẻ ngoài tương đối đơn giản này lại
69
+ trở thành một quá trình tốn nhiều công sức. Điều này giải thích cho sự biến mất
70
+ ảo của nó khỏi các nhà hàng Trung Quốc ngày nay: ngày nay chỉ một số ít nhà hàng
71
+ có món này trong thực đơn thông thường của họ.'
72
+ - 'Nalanda ::: Nālandā (Bản mẫu:IAST3; /naːlən̪d̪aː/, phiên âm Hán-Việt: Na Lan
73
+ Đà) là một trung tâm học tập bậc cao thời cổ đại, một tu viện Phật giáo lớn nằm
74
+ ở vương quốc cổ Magadha, ngày nay thuộc tiểu bang Bihar, Ấn Độ. Địa điểm này nằm
75
+ cách Patna chừng 95 kilômét (59 dặm) về phía đông nam, gần thành phố Bihar Sharif
76
+ và là một trung tâm học thuật quan trọng từ thế kỷ thứ 5 đến phát triển rực rỡ
77
+ trong giai đoạn từ thời vua Śakrāditya (danh tánh của người này chưa được chắc
78
+ chắn, có thể là triều vua Kumara Gupta I hoặc Kumara Gupta II) đến năm 1197. Ngày
79
+ nay, Nalanda là một Di sản thế giới được UNESCO công nhận từ năm 2016.'
80
+ datasets:
81
+ - tintnguyen/generated-viwiki-questions-negs
82
+ pipeline_tag: sentence-similarity
83
+ library_name: sentence-transformers
84
+ ---
85
+
86
+ # SentenceTransformer based on tintnguyen/vietnamese-bi-encoder-ft
87
+
88
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [tintnguyen/vietnamese-bi-encoder-ft](https://huggingface.co/tintnguyen/vietnamese-bi-encoder-ft) on the [train](https://huggingface.co/datasets/tintnguyen/generated-viwiki-questions-negs) dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
89
+
90
+ ## Model Details
91
+
92
+ ### Model Description
93
+ - **Model Type:** Sentence Transformer
94
+ - **Base model:** [tintnguyen/vietnamese-bi-encoder-ft](https://huggingface.co/tintnguyen/vietnamese-bi-encoder-ft) <!-- at revision 12ac3cef289bc0c24b09aa2e3125ed29c0e22a15 -->
95
+ - **Maximum Sequence Length:** 256 tokens
96
+ - **Output Dimensionality:** 768 dimensions
97
+ - **Similarity Function:** Cosine Similarity
98
+ - **Training Dataset:**
99
+ - [train](https://huggingface.co/datasets/tintnguyen/generated-viwiki-questions-negs)
100
+ <!-- - **Language:** Unknown -->
101
+ <!-- - **License:** Unknown -->
102
+
103
+ ### Model Sources
104
+
105
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
106
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
107
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
108
+
109
+ ### Full Model Architecture
110
+
111
+ ```
112
+ SentenceTransformer(
113
+ (0): Transformer({'max_seq_length': 256, 'do_lower_case': False}) with Transformer model: RobertaModel
114
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
115
+ )
116
+ ```
117
+
118
+ ## Usage
119
+
120
+ ### Direct Usage (Sentence Transformers)
121
+
122
+ First install the Sentence Transformers library:
123
+
124
+ ```bash
125
+ pip install -U sentence-transformers
126
+ ```
127
+
128
+ Then you can load this model and run inference.
129
+ ```python
130
+ from sentence_transformers import SentenceTransformer
131
+
132
+ # Download from the 🤗 Hub
133
+ model = SentenceTransformer("tintnguyen/vietnamese-bi-encoder-ft-2")
134
+ # Run inference
135
+ sentences = [
136
+ 'nabartha là loài gì',
137
+ 'Nabartha ::: Simplicia là một chi bướm đêm thuộc họ Noctuidae, bản địa của Nam và Đông Nam Á.',
138
+ 'Nalanda ::: Nālandā (Bản mẫu:IAST3; /naːlən̪d̪aː/, phiên âm Hán-Việt: Na Lan Đà) là một trung tâm học tập bậc cao thời cổ đại, một tu viện Phật giáo lớn nằm ở vương quốc cổ Magadha, ngày nay thuộc tiểu bang Bihar, Ấn Độ. Địa điểm này nằm cách Patna chừng 95 kilômét (59 dặm) về phía đông nam, gần thành phố Bihar Sharif và là một trung tâm học thuật quan trọng từ thế kỷ thứ 5 đến phát triển rực rỡ trong giai đoạn từ thời vua Śakrāditya (danh tánh của người này chưa được chắc chắn, có thể là triều vua Kumara Gupta I hoặc Kumara Gupta II) đến năm 1197. Ngày nay, Nalanda là một Di sản thế giới được UNESCO công nhận từ năm 2016.',
139
+ ]
140
+ embeddings = model.encode(sentences)
141
+ print(embeddings.shape)
142
+ # [3, 768]
143
+
144
+ # Get the similarity scores for the embeddings
145
+ similarities = model.similarity(embeddings, embeddings)
146
+ print(similarities.shape)
147
+ # [3, 3]
148
+ ```
149
+
150
+ <!--
151
+ ### Direct Usage (Transformers)
152
+
153
+ <details><summary>Click to see the direct usage in Transformers</summary>
154
+
155
+ </details>
156
+ -->
157
+
158
+ <!--
159
+ ### Downstream Usage (Sentence Transformers)
160
+
161
+ You can finetune this model on your own dataset.
162
+
163
+ <details><summary>Click to expand</summary>
164
+
165
+ </details>
166
+ -->
167
+
168
+ <!--
169
+ ### Out-of-Scope Use
170
+
171
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
172
+ -->
173
+
174
+ <!--
175
+ ## Bias, Risks and Limitations
176
+
177
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
178
+ -->
179
+
180
+ <!--
181
+ ### Recommendations
182
+
183
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
184
+ -->
185
+
186
+ ## Training Details
187
+
188
+ ### Training Dataset
189
+
190
+ #### train
191
+
192
+ * Dataset: [train](https://huggingface.co/datasets/tintnguyen/generated-viwiki-questions-negs) at [905c0bb](https://huggingface.co/datasets/tintnguyen/generated-viwiki-questions-negs/tree/905c0bbdffc3ec5cc38e4f556749b5c630eae395)
193
+ * Size: 1,673,974 training samples
194
+ * Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
195
+ * Approximate statistics based on the first 1000 samples:
196
+ | | anchor | positive | negative |
197
+ |:--------|:----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
198
+ | type | string | string | string |
199
+ | details | <ul><li>min: 6 tokens</li><li>mean: 11.02 tokens</li><li>max: 32 tokens</li></ul> | <ul><li>min: 24 tokens</li><li>mean: 99.38 tokens</li><li>max: 256 tokens</li></ul> | <ul><li>min: 22 tokens</li><li>mean: 98.11 tokens</li><li>max: 256 tokens</li></ul> |
200
+ * Samples:
201
+ | anchor | positive | negative |
202
+ |:--------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
203
+ | <code>đại học nghiên cứu chiến tranh là gì</code> | <code>Đại học Nghiên cứu Chiến tranh ::: Đại học Nghiên cứu Chiến tranh (tiếng Ba Lan: Akademia Sztuki Wojennej; ASzWoj ) là tổ chức học thuật quân sự cao nhất ở Ba Lan. Nó được thành lập bởi Bộ Quốc phòng vào năm 2016 thay cho Học viện Đại học Quốc phòng cũ (Akademia Obrony Narodowej, AON) được thành lập vào năm 1990. Bộ trưởng Bộ Quốc phòng Wojciech Fałkowski giải thích rằng việc tổ chức lại học viện được lấy cảm hứng từ sự cần thiết phải cải thiện tỷ lệ sinh viên quân sự trong hồ sơ tổng thể của trường đại học.</code> | <code>Hội Nghiên cứu Xã hội Khoa học ::: Hội Nghiên cứu Xã hội Khoa học viết tắt là 4S (Society for Social Studies of Science) là một tổ chức phi chính phủ quốc tế hoạt động trong lĩnh vực nghiên cứu các vấn đề khoa học và công nghệ.</code> |
204
+ | <code>đại học nghiên cứu chiến tranh là gì</code> | <code>Đại học Nghiên cứu Chiến tranh ::: Đại học Nghiên cứu Chiến tranh (tiếng Ba Lan: Akademia Sztuki Wojennej; ASzWoj ) là tổ chức học thuật quân sự cao nhất ở Ba Lan. Nó được thành lập bởi Bộ Quốc phòng vào năm 2016 thay cho Học viện Đại học Quốc phòng cũ (Akademia Obrony Narodowej, AON) được thành lập vào năm 1990. Bộ trưởng Bộ Quốc phòng Wojciech Fałkowski giải thích rằng việc tổ chức lại học viện được lấy cảm hứng từ sự cần thiết phải cải thiện tỷ lệ sinh viên quân sự trong hồ sơ tổng thể của trường đại học.</code> | <code>Viện Nghiên cứu Cao cấp Princeton ::: Viện Nghiên cứu Cao cấp Princeton (tiếng Anh: Institute for Advanced Study, viết tắt là IAS) là một trung tâm nghiên cứu lý thuyết cao cấp có trụ sở tại Princeton, New Jersey, Hoa Kỳ. Được thành lập năm 1930, IAS được biết tới như là viện nghiên cứu lý thuyết nổi tiếng thế giới, nơi làm việc của nhiều nhà khoa học châu Âu lánh nạn Chiến tranh thế giới thứ hai như Albert Einstein, John von Neumann và Kurt Gödel. Là trung tâm nghiên cứu chuyên sâu về toán học và vật lý lý thuyết, IAS cũng từng là nơi nghiên cứu của nhiều nhà toán học và vật lý nổi tiếng như J. Robert Oppenheimer, Freeman Dyson, Erwin Panofsky, Homer A. Thompson, George Kennan, Hermann Weyl và Michael Walzer.</code> |
205
+ | <code>đại học nghiên cứu chiến tranh là gì</code> | <code>Đại học Nghiên cứu Chiến tranh ::: Đại học Nghiên cứu Chiến tranh (tiếng Ba Lan: Akademia Sztuki Wojennej; ASzWoj ) là tổ chức học thuật quân sự cao nhất ở Ba Lan. Nó được thành lập bởi Bộ Quốc phòng vào năm 2016 thay cho Học viện Đại học Quốc phòng cũ (Akademia Obrony Narodowej, AON) được thành lập vào năm 1990. Bộ trưởng Bộ Quốc phòng Wojciech Fałkowski giải thích rằng việc tổ chức lại học viện được lấy cảm hứng từ sự cần thiết phải cải thiện tỷ lệ sinh viên quân sự trong hồ sơ tổng thể của trường đại học.</code> | <code>Học viện Quốc phòng Úc ::: Học viện Quốc phòng Úc, dịch đầy đủ là Học viện Lực lượng Quốc phòng Úc (tiếng Anh: Australian Defence Force Academy, viết tắt: ADFA) là một học viện quân sự tam quân (lục quân, không quân, hải quân) chuyên cung cấp các chương trình đào tạo quân sự và sau trung học cho các sĩ quan trẻ của Lực lượng Quốc phòng Úc trong Không lực Hoàng gia Úc, Lục quân Úc và Hải quân Hoàng gia Úc.</code> |
206
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
207
+ ```json
208
+ {
209
+ "scale": 20.0,
210
+ "similarity_fct": "cos_sim"
211
+ }
212
+ ```
213
+
214
+ ### Training Hyperparameters
215
+ #### Non-Default Hyperparameters
216
+
217
+ - `per_device_train_batch_size`: 64
218
+ - `per_device_eval_batch_size`: 32
219
+ - `learning_rate`: 2e-05
220
+ - `num_train_epochs`: 2
221
+ - `warmup_ratio`: 0.1
222
+ - `fp16`: True
223
+ - `batch_sampler`: no_duplicates
224
+
225
+ #### All Hyperparameters
226
+ <details><summary>Click to expand</summary>
227
+
228
+ - `overwrite_output_dir`: False
229
+ - `do_predict`: False
230
+ - `eval_strategy`: no
231
+ - `prediction_loss_only`: True
232
+ - `per_device_train_batch_size`: 64
233
+ - `per_device_eval_batch_size`: 32
234
+ - `per_gpu_train_batch_size`: None
235
+ - `per_gpu_eval_batch_size`: None
236
+ - `gradient_accumulation_steps`: 1
237
+ - `eval_accumulation_steps`: None
238
+ - `torch_empty_cache_steps`: None
239
+ - `learning_rate`: 2e-05
240
+ - `weight_decay`: 0.0
241
+ - `adam_beta1`: 0.9
242
+ - `adam_beta2`: 0.999
243
+ - `adam_epsilon`: 1e-08
244
+ - `max_grad_norm`: 1.0
245
+ - `num_train_epochs`: 2
246
+ - `max_steps`: -1
247
+ - `lr_scheduler_type`: linear
248
+ - `lr_scheduler_kwargs`: {}
249
+ - `warmup_ratio`: 0.1
250
+ - `warmup_steps`: 0
251
+ - `log_level`: passive
252
+ - `log_level_replica`: warning
253
+ - `log_on_each_node`: True
254
+ - `logging_nan_inf_filter`: True
255
+ - `save_safetensors`: True
256
+ - `save_on_each_node`: False
257
+ - `save_only_model`: False
258
+ - `restore_callback_states_from_checkpoint`: False
259
+ - `no_cuda`: False
260
+ - `use_cpu`: False
261
+ - `use_mps_device`: False
262
+ - `seed`: 42
263
+ - `data_seed`: None
264
+ - `jit_mode_eval`: False
265
+ - `use_ipex`: False
266
+ - `bf16`: False
267
+ - `fp16`: True
268
+ - `fp16_opt_level`: O1
269
+ - `half_precision_backend`: auto
270
+ - `bf16_full_eval`: False
271
+ - `fp16_full_eval`: False
272
+ - `tf32`: None
273
+ - `local_rank`: 0
274
+ - `ddp_backend`: None
275
+ - `tpu_num_cores`: None
276
+ - `tpu_metrics_debug`: False
277
+ - `debug`: []
278
+ - `dataloader_drop_last`: False
279
+ - `dataloader_num_workers`: 0
280
+ - `dataloader_prefetch_factor`: None
281
+ - `past_index`: -1
282
+ - `disable_tqdm`: False
283
+ - `remove_unused_columns`: True
284
+ - `label_names`: None
285
+ - `load_best_model_at_end`: False
286
+ - `ignore_data_skip`: False
287
+ - `fsdp`: []
288
+ - `fsdp_min_num_params`: 0
289
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
290
+ - `fsdp_transformer_layer_cls_to_wrap`: None
291
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
292
+ - `deepspeed`: None
293
+ - `label_smoothing_factor`: 0.0
294
+ - `optim`: adamw_torch
295
+ - `optim_args`: None
296
+ - `adafactor`: False
297
+ - `group_by_length`: False
298
+ - `length_column_name`: length
299
+ - `ddp_find_unused_parameters`: None
300
+ - `ddp_bucket_cap_mb`: None
301
+ - `ddp_broadcast_buffers`: False
302
+ - `dataloader_pin_memory`: True
303
+ - `dataloader_persistent_workers`: False
304
+ - `skip_memory_metrics`: True
305
+ - `use_legacy_prediction_loop`: False
306
+ - `push_to_hub`: False
307
+ - `resume_from_checkpoint`: None
308
+ - `hub_model_id`: None
309
+ - `hub_strategy`: every_save
310
+ - `hub_private_repo`: False
311
+ - `hub_always_push`: False
312
+ - `gradient_checkpointing`: False
313
+ - `gradient_checkpointing_kwargs`: None
314
+ - `include_inputs_for_metrics`: False
315
+ - `include_for_metrics`: []
316
+ - `eval_do_concat_batches`: True
317
+ - `fp16_backend`: auto
318
+ - `push_to_hub_model_id`: None
319
+ - `push_to_hub_organization`: None
320
+ - `mp_parameters`:
321
+ - `auto_find_batch_size`: False
322
+ - `full_determinism`: False
323
+ - `torchdynamo`: None
324
+ - `ray_scope`: last
325
+ - `ddp_timeout`: 1800
326
+ - `torch_compile`: False
327
+ - `torch_compile_backend`: None
328
+ - `torch_compile_mode`: None
329
+ - `dispatch_batches`: None
330
+ - `split_batches`: None
331
+ - `include_tokens_per_second`: False
332
+ - `include_num_input_tokens_seen`: False
333
+ - `neftune_noise_alpha`: None
334
+ - `optim_target_modules`: None
335
+ - `batch_eval_metrics`: False
336
+ - `eval_on_start`: False
337
+ - `use_liger_kernel`: False
338
+ - `eval_use_gather_object`: False
339
+ - `average_tokens_across_devices`: False
340
+ - `prompts`: None
341
+ - `batch_sampler`: no_duplicates
342
+ - `multi_dataset_batch_sampler`: proportional
343
+
344
+ </details>
345
+
346
+ ### Training Logs
347
+ | Epoch | Step | Training Loss |
348
+ |:------:|:-----:|:-------------:|
349
+ | 0.0191 | 500 | 0.0418 |
350
+ | 0.0382 | 1000 | 0.0348 |
351
+ | 0.0573 | 1500 | 0.0345 |
352
+ | 0.0765 | 2000 | 0.0297 |
353
+ | 0.0956 | 2500 | 0.0291 |
354
+ | 0.1147 | 3000 | 0.0311 |
355
+ | 0.1338 | 3500 | 0.0322 |
356
+ | 0.1529 | 4000 | 0.0298 |
357
+ | 0.1720 | 4500 | 0.0328 |
358
+ | 0.1912 | 5000 | 0.0309 |
359
+ | 0.2103 | 5500 | 0.0283 |
360
+ | 0.2294 | 6000 | 0.0336 |
361
+ | 0.2485 | 6500 | 0.0339 |
362
+ | 0.2676 | 7000 | 0.0307 |
363
+ | 0.2867 | 7500 | 0.0292 |
364
+ | 0.3059 | 8000 | 0.0326 |
365
+ | 0.3250 | 8500 | 0.0305 |
366
+ | 0.3441 | 9000 | 0.0284 |
367
+ | 0.3632 | 9500 | 0.0285 |
368
+ | 0.3823 | 10000 | 0.0273 |
369
+ | 0.4014 | 10500 | 0.0295 |
370
+ | 0.4206 | 11000 | 0.032 |
371
+ | 0.4397 | 11500 | 0.0253 |
372
+ | 0.4588 | 12000 | 0.0309 |
373
+ | 0.4779 | 12500 | 0.0264 |
374
+ | 0.4970 | 13000 | 0.0266 |
375
+ | 0.5161 | 13500 | 0.0268 |
376
+ | 0.5353 | 14000 | 0.0251 |
377
+ | 0.5544 | 14500 | 0.0249 |
378
+ | 0.5735 | 15000 | 0.0277 |
379
+ | 0.5926 | 15500 | 0.0281 |
380
+ | 0.6117 | 16000 | 0.0256 |
381
+ | 0.6308 | 16500 | 0.0236 |
382
+ | 0.6499 | 17000 | 0.0268 |
383
+ | 0.6691 | 17500 | 0.023 |
384
+ | 0.6882 | 18000 | 0.026 |
385
+ | 0.7073 | 18500 | 0.0245 |
386
+ | 0.7264 | 19000 | 0.0236 |
387
+ | 0.7455 | 19500 | 0.0245 |
388
+ | 0.7646 | 20000 | 0.0234 |
389
+ | 0.7838 | 20500 | 0.0279 |
390
+ | 0.8029 | 21000 | 0.0223 |
391
+ | 0.8220 | 21500 | 0.0233 |
392
+ | 0.8411 | 22000 | 0.0232 |
393
+ | 0.8602 | 22500 | 0.0223 |
394
+ | 0.8793 | 23000 | 0.0219 |
395
+ | 0.8985 | 23500 | 0.0234 |
396
+ | 0.9176 | 24000 | 0.0189 |
397
+ | 0.9367 | 24500 | 0.0229 |
398
+ | 0.9558 | 25000 | 0.0225 |
399
+ | 0.9749 | 25500 | 0.0238 |
400
+ | 0.9940 | 26000 | 0.0231 |
401
+ | 1.0132 | 26500 | 0.0201 |
402
+ | 1.0323 | 27000 | 0.0183 |
403
+ | 1.0514 | 27500 | 0.0158 |
404
+ | 1.0705 | 28000 | 0.013 |
405
+ | 1.0896 | 28500 | 0.0115 |
406
+ | 1.1087 | 29000 | 0.0091 |
407
+ | 1.1278 | 29500 | 0.0095 |
408
+ | 1.1470 | 30000 | 0.0075 |
409
+ | 1.1661 | 30500 | 0.0074 |
410
+ | 1.1852 | 31000 | 0.0067 |
411
+ | 1.2043 | 31500 | 0.0052 |
412
+ | 1.2234 | 32000 | 0.0048 |
413
+ | 1.2425 | 32500 | 0.0058 |
414
+ | 1.2617 | 33000 | 0.0051 |
415
+ | 1.2808 | 33500 | 0.0045 |
416
+ | 1.2999 | 34000 | 0.0057 |
417
+ | 1.3190 | 34500 | 0.0051 |
418
+ | 1.3381 | 35000 | 0.0048 |
419
+ | 1.3572 | 35500 | 0.0043 |
420
+ | 1.3764 | 36000 | 0.0047 |
421
+ | 1.3955 | 36500 | 0.0046 |
422
+ | 1.4146 | 37000 | 0.0048 |
423
+
424
+
425
+ ### Framework Versions
426
+ - Python: 3.11.10
427
+ - Sentence Transformers: 3.3.1
428
+ - Transformers: 4.46.3
429
+ - PyTorch: 2.5.1+cu124
430
+ - Accelerate: 1.1.1
431
+ - Datasets: 3.1.0
432
+ - Tokenizers: 0.20.4
433
+
434
+ ## Citation
435
+
436
+ ### BibTeX
437
+
438
+ #### Sentence Transformers
439
+ ```bibtex
440
+ @inproceedings{reimers-2019-sentence-bert,
441
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
442
+ author = "Reimers, Nils and Gurevych, Iryna",
443
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
444
+ month = "11",
445
+ year = "2019",
446
+ publisher = "Association for Computational Linguistics",
447
+ url = "https://arxiv.org/abs/1908.10084",
448
+ }
449
+ ```
450
+
451
+ #### MultipleNegativesRankingLoss
452
+ ```bibtex
453
+ @misc{henderson2017efficient,
454
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
455
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
456
+ year={2017},
457
+ eprint={1705.00652},
458
+ archivePrefix={arXiv},
459
+ primaryClass={cs.CL}
460
+ }
461
+ ```
462
+
463
+ <!--
464
+ ## Glossary
465
+
466
+ *Clearly define terms in order to be accessible across audiences.*
467
+ -->
468
+
469
+ <!--
470
+ ## Model Card Authors
471
+
472
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
473
+ -->
474
+
475
+ <!--
476
+ ## Model Card Contact
477
+
478
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
479
+ -->
added_tokens.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ {
2
+ "<mask>": 64000
3
+ }
bpe.codes ADDED
The diff for this file is too large to render. See raw diff
 
config.json ADDED
@@ -0,0 +1,28 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "models/vietnamese-bi-encoder-ft/checkpoint-37000/",
3
+ "architectures": [
4
+ "RobertaModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "bos_token_id": 0,
8
+ "classifier_dropout": null,
9
+ "eos_token_id": 2,
10
+ "hidden_act": "gelu",
11
+ "hidden_dropout_prob": 0.1,
12
+ "hidden_size": 768,
13
+ "initializer_range": 0.02,
14
+ "intermediate_size": 3072,
15
+ "layer_norm_eps": 1e-05,
16
+ "max_position_embeddings": 258,
17
+ "model_type": "roberta",
18
+ "num_attention_heads": 12,
19
+ "num_hidden_layers": 12,
20
+ "pad_token_id": 1,
21
+ "position_embedding_type": "absolute",
22
+ "tokenizer_class": "PhobertTokenizer",
23
+ "torch_dtype": "float32",
24
+ "transformers_version": "4.46.3",
25
+ "type_vocab_size": 1,
26
+ "use_cache": true,
27
+ "vocab_size": 64001
28
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.3.1",
4
+ "transformers": "4.46.3",
5
+ "pytorch": "2.5.1+cu124"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": "cosine"
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e2bea75bb9f8243ce0937f952905c04907be44083c3e4635d842acfb29481a81
3
+ size 540015464
modules.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ }
14
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 256,
3
+ "do_lower_case": false
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": false,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer_config.json ADDED
@@ -0,0 +1,54 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "64000": {
36
+ "content": "<mask>",
37
+ "lstrip": false,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": true,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "mask_token": "<mask>",
49
+ "model_max_length": 256,
50
+ "pad_token": "<pad>",
51
+ "sep_token": "</s>",
52
+ "tokenizer_class": "PhobertTokenizer",
53
+ "unk_token": "<unk>"
54
+ }
vocab.txt ADDED
The diff for this file is too large to render. See raw diff