metadata

tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - generated_from_trainer
  - dataset_size:1673974
  - loss:MultipleNegativesRankingLoss
base_model: tintnguyen/bert-base-vi-uncased-st-2
widget:
  - source_sentence: chim ưng finist là gì
    sentences:
      - >-
        Nam tinh hoa chuông ::: Arisaema franchetianum, tên gọi phổ thông nam
        tinh hoa chuông, là một loài thực vật có hoa trong họ Ráy (Araceae).
        Loài này được Engl. mô tả khoa học đầu tiên năm 1881.
      - >-
        Focke-Wulf Fw 58 ::: Focke-Wulf Fw 58 Weihe ("chim ưng") là một loại máy
        bay của Đức, trang bị cho Luftwaffe làm máy bay huấn luyện.
      - >-
        Chiếc lông Chim Ưng Finist ::: Chiếc lông Chim Ưng Finist (tiếng Nga:
        Финнст - Ясный сокол, Finist - Chim Ưng thông thái) là một câu chuyện cổ
        tích do nhà nghiên cứu văn hóa dân gian Aleksandr Afanasyev thu thập và
        in trong tập sách Những câu chuyện cổ tích Nga.
  - source_sentence: biến cố đảo song tử tây là gì
    sentences:
      - >-
        Biến cố đảo Song Tử Tây ::: Biến cố đảo Song Tử Tây là chuỗi sự kiện
        thay cờ đổi chủ trên đảo Song Tử Tây thuộc quần đảo Trường Sa giữa Hải
        quân Việt Nam Cộng hòa, Hải quân Philippines và Hải quân Việt Nam Dân
        chủ Cộng hòa.
      - >-
        Đảo chính Zimbabwe 2017 ::: Lỗi Lua trong Mô_đun:Location_map tại dòng
        481: Giá trị tọa độ dạng sai.
      - >-
        Vira, Pyrénées-Orientales ::: Vira là một xã thuộc tỉnh
        Pyrénées-Orientales trong vùng Occitanie phía nam Pháp. Xã này nằm ở khu
        vực có độ cao trung bình 668 mét trên mực nước biển.
  - source_sentence: iobenguane là gì
    sentences:
      - >-
        Eguenigue ::: Eguenigue là một làng và xã tại tỉnh Territoire de
        Belfort, vùng Bourgogne-Franche-Comté.
      - >-
        Iobenguane ::: Iobenguane, hay MIBG, là một chất tương tự
        aralkylguanidine của chất dẫn truyền thần kinh adrenergic norepinephrine
        và một dược phẩm phóng xạ. Nó hoạt động như một tác nhân ngăn chặn các
        tế bào thần kinh adrenergic. Khi được dán nhãn phóng xạ, nó có thể được
        sử dụng trong các kỹ thuật chẩn đoán y học hạt nhân cũng như trong các
        phương pháp điều trị chống ung thư thần kinh. Nó định vị vào mô
        adrenergic và do đó có thể được sử dụng để xác định vị trí của các khối
        u như pheochromocytomas và neuroblastomas. Với I-131, nó cũng có thể
        được sử dụng để loại bỏ các tế bào khối u chiếm và chuyển hóa
        norepinephrine.
      - >-
        Don Cheadle ::: Donald Frank Cheadle Jr. (/ˈtʃiːdəl/; sinh ngày 29 tháng
        11 năm 1964) là một diễn viên, biên kịch, đạo diễn và nhà sản xuất phim
        người Mỹ.
  - source_sentence: chu kì quỹ đạo của 23128 dorminy
    sentences:
      - >-
        23128 Dorminy ::: 23128 Dorminy là một tiểu hành tinh vành đai chính với
        chu kỳ quỹ đạo là 1265.7380462 ngày (3.47 năm).
      - >-
        Theo luật thời chiến ::: Theo luật thời chiến (tiếng Nga: По законам
        военного времени, Po zakonam voennogo vremeni) là một bộ phim truyền
        hình nhiều tập thuộc thể loại hình sự, hành động trong bối cảnh cuộc
        Chiến tranh Vệ quốc vĩ đại, do hãng phim truyền hình StarMedia (Nga) sản
        xuất.
      - >-
        23734 Kimgyehyun ::: 23734 Kimgyehyun là một tiểu hành tinh vành đai
        chính với chu kỳ quỹ đạo là 1203.4259933 ngày (3.29 năm).
  - source_sentence: nabartha là loài gì
    sentences:
      - >-
        Nabartha ::: Simplicia là một chi bướm đêm thuộc họ Noctuidae, bản địa
        của Nam và Đông Nam Á.
      - >-
        Vịt ép hạnh nhân ::: Vịt ép hạnh nhân hay còn được gọi là vịt ép Quan
        Thoại (tiếng Trung: 窩燒鴨; bính âm: wōshāoyā; Việt bính: wo1 siu1 ngaap3),
        là một món ăn Quảng Đông phổ biến trong các nhà hàng Trung Quốc và
        Polynesia ở Hoa Kỳ vào giữa thế kỷ 20. Món ăn được chiên ngập trong dầu
        và phục vụ ở dạng miếng vừa phải hoặc nguyên con. Nó thường được phục vụ
        với nước sốt được tưới lên trên, có màu nâu và vị chua ngọt. Hạnh nhân
        nghiền hoặc hạnh nhân bột thường được rắc lên món ăn ngay trước khi phục
        vụ, và đó cũng chính là nguồn góc tên gọi của món ăn này. Việc chuẩn bị
        nguyên liệu có thể là một quá trình dài bao gồm một số bước trong khoảng
        thời gian vài ngày, khiến món ăn có vẻ ngoài tương đối đơn giản này lại
        trở thành một quá trình tốn nhiều công sức. Điều này giải thích cho sự
        biến mất ảo của nó khỏi các nhà hàng Trung Quốc ngày nay: ngày nay chỉ
        một số ít nhà hàng có món này trong thực đơn thông thường của họ.
      - >-
        Nalanda ::: Nālandā (Bản mẫu:IAST3; /naːlən̪d̪aː/, phiên âm Hán-Việt: Na
        Lan Đà) là một trung tâm học tập bậc cao thời cổ đại, một tu viện Phật
        giáo lớn nằm ở vương quốc cổ Magadha, ngày nay thuộc tiểu bang Bihar, Ấn
        Độ. Địa điểm này nằm cách Patna chừng 95 kilômét (59 dặm) về phía đông
        nam, gần thành phố Bihar Sharif và là một trung tâm học thuật quan trọng
        từ thế kỷ thứ 5 đến phát triển rực rỡ trong giai đoạn từ thời vua
        Śakrāditya (danh tánh của người này chưa được chắc chắn, có thể là triều
        vua Kumara Gupta I hoặc Kumara Gupta II) đến năm 1197. Ngày nay, Nalanda
        là một Di sản thế giới được UNESCO công nhận từ năm 2016.
datasets:
  - tintnguyen/generated-viwiki-questions-negs
pipeline_tag: sentence-similarity
library_name: sentence-transformers

SentenceTransformer based on tintnguyen/bert-base-vi-uncased-st-2

This is a sentence-transformers model finetuned from tintnguyen/bert-base-vi-uncased-st-2 on the train dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Type: Sentence Transformer
Base model: tintnguyen/bert-base-vi-uncased-st-2
Maximum Sequence Length: 512 tokens
Output Dimensionality: 768 dimensions
Similarity Function: Cosine Similarity
Training Dataset:
- train

Model Sources

Documentation: Sentence Transformers Documentation
Repository: Sentence Transformers on GitHub
Hugging Face: Sentence Transformers on Hugging Face

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("tintnguyen/bert-base-vi-uncased-st-3")
# Run inference
sentences = [
    'nabartha là loài gì',
    'Nabartha ::: Simplicia là một chi bướm đêm thuộc họ Noctuidae, bản địa của Nam và Đông Nam Á.',
    'Nalanda ::: Nālandā (Bản mẫu:IAST3; /naːlən̪d̪aː/, phiên âm Hán-Việt: Na Lan Đà) là một trung tâm học tập bậc cao thời cổ đại, một tu viện Phật giáo lớn nằm ở vương quốc cổ Magadha, ngày nay thuộc tiểu bang Bihar, Ấn Độ. Địa điểm này nằm cách Patna chừng 95 kilômét (59 dặm) về phía đông nam, gần thành phố Bihar Sharif và là một trung tâm học thuật quan trọng từ thế kỷ thứ 5 đến phát triển rực rỡ trong giai đoạn từ thời vua Śakrāditya (danh tánh của người này chưa được chắc chắn, có thể là triều vua Kumara Gupta I hoặc Kumara Gupta II) đến năm 1197. Ngày nay, Nalanda là một Di sản thế giới được UNESCO công nhận từ năm 2016.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Information Retrieval

Evaluated with InformationRetrievalEvaluator on ir-eval

{'aaa_cosine_accuracy@1': 0.6465,
 'aaa_cosine_accuracy@3': 0.8083,
 'aaa_cosine_accuracy@5': 0.8598,
 'aaa_cosine_accuracy@10': 0.9207,
 'aaa_cosine_precision@1': 0.6465,
 'aaa_cosine_precision@3': 0.4838,
 'aaa_cosine_precision@5': 0.4153200000000001,
 'aaa_cosine_precision@10': 0.33329000000000003,
 'aaa_cosine_recall@1': 0.1383275111412705,
 'aaa_cosine_recall@3': 0.24971930213626684,
 'aaa_cosine_recall@5': 0.315993377810083,
 'aaa_cosine_recall@10': 0.42927605009627184,
 'aaa_cosine_ndcg@10': 0.5298122781447128,
 'aaa_cosine_mrr@10': 0.7379566269841226,
 'aaa_cosine_map@100': 0.4812504287090463}

Training Details

Training Dataset

train

Dataset: train at 905c0bb
Size: 1,673,974 training samples
Columns: anchor, positive, and negative

Approximate statistics based on the first 1000 samples:

	anchor	positive	negative
type	string	string	string
details	min: 5 tokens mean: 10.21 tokens max: 19 tokens	min: 22 tokens mean: 92.78 tokens max: 436 tokens	min: 19 tokens mean: 90.44 tokens max: 407 tokens

Samples:

anchor	positive	negative
`đại học nghiên cứu chiến tranh là gì`	Đại học Nghiên cứu Chiến tranh ::: Đại học Nghiên cứu Chiến tranh (tiếng Ba Lan: Akademia Sztuki Wojennej; ASzWoj ) là tổ chức học thuật quân sự cao nhất ở Ba Lan. Nó được thành lập bởi Bộ Quốc phòng vào năm 2016 thay cho Học viện Đại học Quốc phòng cũ (Akademia Obrony Narodowej, AON) được thành lập vào năm 1990. Bộ trưởng Bộ Quốc phòng Wojciech Fałkowski giải thích rằng việc tổ chức lại học viện được lấy cảm hứng từ sự cần thiết phải cải thiện tỷ lệ sinh viên quân sự trong hồ sơ tổng thể của trường đại học.	`Hội Nghiên cứu Xã hội Khoa học ::: Hội Nghiên cứu Xã hội Khoa học viết tắt là 4S (Society for Social Studies of Science) là một tổ chức phi chính phủ quốc tế hoạt động trong lĩnh vực nghiên cứu các vấn đề khoa học và công nghệ.`
`đại học nghiên cứu chiến tranh là gì`	Đại học Nghiên cứu Chiến tranh ::: Đại học Nghiên cứu Chiến tranh (tiếng Ba Lan: Akademia Sztuki Wojennej; ASzWoj ) là tổ chức học thuật quân sự cao nhất ở Ba Lan. Nó được thành lập bởi Bộ Quốc phòng vào năm 2016 thay cho Học viện Đại học Quốc phòng cũ (Akademia Obrony Narodowej, AON) được thành lập vào năm 1990. Bộ trưởng Bộ Quốc phòng Wojciech Fałkowski giải thích rằng việc tổ chức lại học viện được lấy cảm hứng từ sự cần thiết phải cải thiện tỷ lệ sinh viên quân sự trong hồ sơ tổng thể của trường đại học.	Viện Nghiên cứu Cao cấp Princeton ::: Viện Nghiên cứu Cao cấp Princeton (tiếng Anh: Institute for Advanced Study, viết tắt là IAS) là một trung tâm nghiên cứu lý thuyết cao cấp có trụ sở tại Princeton, New Jersey, Hoa Kỳ. Được thành lập năm 1930, IAS được biết tới như là viện nghiên cứu lý thuyết nổi tiếng thế giới, nơi làm việc của nhiều nhà khoa học châu Âu lánh nạn Chiến tranh thế giới thứ hai như Albert Einstein, John von Neumann và Kurt Gödel. Là trung tâm nghiên cứu chuyên sâu về toán học và vật lý lý thuyết, IAS cũng từng là nơi nghiên cứu của nhiều nhà toán học và vật lý nổi tiếng như J. Robert Oppenheimer, Freeman Dyson, Erwin Panofsky, Homer A. Thompson, George Kennan, Hermann Weyl và Michael Walzer.
`đại học nghiên cứu chiến tranh là gì`	Đại học Nghiên cứu Chiến tranh ::: Đại học Nghiên cứu Chiến tranh (tiếng Ba Lan: Akademia Sztuki Wojennej; ASzWoj ) là tổ chức học thuật quân sự cao nhất ở Ba Lan. Nó được thành lập bởi Bộ Quốc phòng vào năm 2016 thay cho Học viện Đại học Quốc phòng cũ (Akademia Obrony Narodowej, AON) được thành lập vào năm 1990. Bộ trưởng Bộ Quốc phòng Wojciech Fałkowski giải thích rằng việc tổ chức lại học viện được lấy cảm hứng từ sự cần thiết phải cải thiện tỷ lệ sinh viên quân sự trong hồ sơ tổng thể của trường đại học.	Học viện Quốc phòng Úc ::: Học viện Quốc phòng Úc, dịch đầy đủ là Học viện Lực lượng Quốc phòng Úc (tiếng Anh: Australian Defence Force Academy, viết tắt: ADFA) là một học viện quân sự tam quân (lục quân, không quân, hải quân) chuyên cung cấp các chương trình đào tạo quân sự và sau trung học cho các sĩ quan trẻ của Lực lượng Quốc phòng Úc trong Không lực Hoàng gia Úc, Lục quân Úc và Hải quân Hoàng gia Úc.

Loss: MultipleNegativesRankingLoss with these parameters:

{
    "scale": 20.0,
    "similarity_fct": "cos_sim"
}

Training Hyperparameters

Non-Default Hyperparameters

per_device_train_batch_size: 40
per_device_eval_batch_size: 32
learning_rate: 2e-05
num_train_epochs: 2
warmup_ratio: 0.1
fp16: True
batch_sampler: no_duplicates

All Hyperparameters

Click to expand

overwrite_output_dir: False
do_predict: False
eval_strategy: no
prediction_loss_only: True
per_device_train_batch_size: 40
per_device_eval_batch_size: 32
per_gpu_train_batch_size: None
per_gpu_eval_batch_size: None
gradient_accumulation_steps: 1
eval_accumulation_steps: None
torch_empty_cache_steps: None
learning_rate: 2e-05
weight_decay: 0.0
adam_beta1: 0.9
adam_beta2: 0.999
adam_epsilon: 1e-08
max_grad_norm: 1.0
num_train_epochs: 2
max_steps: -1
lr_scheduler_type: linear
lr_scheduler_kwargs: {}
warmup_ratio: 0.1
warmup_steps: 0
log_level: passive
log_level_replica: warning
log_on_each_node: True
logging_nan_inf_filter: True
save_safetensors: True
save_on_each_node: False
save_only_model: False
restore_callback_states_from_checkpoint: False
no_cuda: False
use_cpu: False
use_mps_device: False
seed: 42
data_seed: None
jit_mode_eval: False
use_ipex: False
bf16: False
fp16: True
fp16_opt_level: O1
half_precision_backend: auto
bf16_full_eval: False
fp16_full_eval: False
tf32: None
local_rank: 0
ddp_backend: None
tpu_num_cores: None
tpu_metrics_debug: False
debug: []
dataloader_drop_last: False
dataloader_num_workers: 0
dataloader_prefetch_factor: None
past_index: -1
disable_tqdm: False
remove_unused_columns: True
label_names: None
load_best_model_at_end: False
ignore_data_skip: False
fsdp: []
fsdp_min_num_params: 0
fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
fsdp_transformer_layer_cls_to_wrap: None
accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
deepspeed: None
label_smoothing_factor: 0.0
optim: adamw_torch
optim_args: None
adafactor: False
group_by_length: False
length_column_name: length
ddp_find_unused_parameters: None
ddp_bucket_cap_mb: None
ddp_broadcast_buffers: False
dataloader_pin_memory: True
dataloader_persistent_workers: False
skip_memory_metrics: True
use_legacy_prediction_loop: False
push_to_hub: False
resume_from_checkpoint: None
hub_model_id: None
hub_strategy: every_save
hub_private_repo: False
hub_always_push: False
gradient_checkpointing: False
gradient_checkpointing_kwargs: None
include_inputs_for_metrics: False
include_for_metrics: []
eval_do_concat_batches: True
fp16_backend: auto
push_to_hub_model_id: None
push_to_hub_organization: None
mp_parameters:
auto_find_batch_size: False
full_determinism: False
torchdynamo: None
ray_scope: last
ddp_timeout: 1800
torch_compile: False
torch_compile_backend: None
torch_compile_mode: None
dispatch_batches: None
split_batches: None
include_tokens_per_second: False
include_num_input_tokens_seen: False
neftune_noise_alpha: None
optim_target_modules: None
batch_eval_metrics: False
eval_on_start: False
use_liger_kernel: False
eval_use_gather_object: False
average_tokens_across_devices: False
prompts: None
batch_sampler: no_duplicates
multi_dataset_batch_sampler: proportional

Training Logs

Click to expand

Epoch	Step	Training Loss
0.0119	500	0.0274
0.0239	1000	0.0209
0.0358	1500	0.0194
0.0478	2000	0.0195
0.0597	2500	0.0174
0.0717	3000	0.0163
0.0836	3500	0.0153
0.0956	4000	0.0148
0.1075	4500	0.0156
0.1195	5000	0.0194
0.1314	5500	0.0214
0.1434	6000	0.0181
0.1553	6500	0.0165
0.1673	7000	0.0197
0.1792	7500	0.0179
0.1912	8000	0.0181
0.2031	8500	0.0169
0.2151	9000	0.0182
0.2270	9500	0.0189
0.2389	10000	0.0176
0.2509	10500	0.0189
0.2628	11000	0.0184
0.2748	11500	0.0172
0.2867	12000	0.018
0.2987	12500	0.0183
0.3106	13000	0.0174
0.3226	13500	0.0185
0.3345	14000	0.018
0.3465	14500	0.0172
0.3584	15000	0.0157
0.3704	15500	0.0192
0.3823	16000	0.0151
0.3943	16500	0.0166
0.4062	17000	0.0181
0.4182	17500	0.0184
0.4301	18000	0.0178
0.4421	18500	0.017
0.4540	19000	0.0179
0.4659	19500	0.0167
0.4779	20000	0.0173
0.4898	20500	0.0161
0.5018	21000	0.016
0.5137	21500	0.0156
0.5257	22000	0.0168
0.5376	22500	0.0148
0.5496	23000	0.0147
0.5615	23500	0.0155
0.5735	24000	0.015
0.5854	24500	0.0136
0.5974	25000	0.0148
0.6093	25500	0.0152
0.6213	26000	0.0172
0.6332	26500	0.0138
0.6452	27000	0.0161
0.6571	27500	0.0143
0.6691	28000	0.0157
0.6810	28500	0.0172
0.6930	29000	0.0131
0.7049	29500	0.0157
0.7168	30000	0.0121
0.7288	30500	0.0152
0.7407	31000	0.0147
0.7527	31500	0.0128
0.7646	32000	0.0135
0.7766	32500	0.0181
0.7885	33000	0.0163
0.8005	33500	0.0153
0.8124	34000	0.0151
0.8244	34500	0.014
0.8363	35000	0.0162
0.8483	35500	0.0146
0.8602	36000	0.0124
0.8722	36500	0.014
0.8841	37000	0.0129
0.8961	37500	0.0167
0.9080	38000	0.0115
0.9200	38500	0.0125
0.9319	39000	0.015
0.9438	39500	0.0124
0.9558	40000	0.0132
0.9677	40500	0.0147
0.9797	41000	0.0138
0.9916	41500	0.0151
1.0036	42000	0.0123
1.0155	42500	0.0117
1.0275	43000	0.0117
1.0394	43500	0.0082
1.0514	44000	0.0096
1.0633	44500	0.0074
1.0753	45000	0.0068
1.0872	45500	0.0063
1.0992	46000	0.0051
1.1111	46500	0.0055
1.1231	47000	0.0055
1.1350	47500	0.0048
1.1470	48000	0.0038
1.1589	48500	0.0037
1.1708	49000	0.0034
1.1828	49500	0.0031
1.1947	50000	0.0029
1.2067	50500	0.0025
1.2186	51000	0.0024
1.2306	51500	0.0028
1.2425	52000	0.0025
1.2545	52500	0.0023
1.2664	53000	0.0027
1.2784	53500	0.0024
1.2903	54000	0.0023
1.3023	54500	0.0022
1.3142	55000	0.0025
1.3262	55500	0.0022
1.3381	56000	0.0022
1.3501	56500	0.0023
1.3620	57000	0.002
1.3740	57500	0.0022
1.3859	58000	0.0018
1.3978	58500	0.0021
1.4098	59000	0.002
1.4217	59500	0.0021
1.4337	60000	0.002
1.4456	60500	0.0021
1.4576	61000	0.0026
1.4695	61500	0.0017
1.4815	62000	0.0018
1.4934	62500	0.0021
1.5054	63000	0.0021
1.5173	63500	0.002
1.5293	64000	0.0021
1.5412	64500	0.0018
1.5532	65000	0.002
1.5651	65500	0.0018
1.5771	66000	0.0018
1.5890	66500	0.0018
1.6010	67000	0.0019
1.6129	67500	0.002
1.6249	68000	0.0017
1.6368	68500	0.0018
1.6487	69000	0.0019
1.6607	69500	0.0017
1.6726	70000	0.0023
1.6846	70500	0.002
1.6965	71000	0.0017
1.7085	71500	0.0019
1.7204	72000	0.0016
1.7324	72500	0.0016
1.7443	73000	0.0017
1.7563	73500	0.0017
1.7682	74000	0.0016
1.7802	74500	0.0019
1.7921	75000	0.0019
1.8041	75500	0.0018
1.8160	76000	0.0018
1.8280	76500	0.0016
1.8399	77000	0.002
1.8519	77500	0.0017
1.8638	78000	0.0018
1.8757	78500	0.0016
1.8877	79000	0.0022
1.8996	79500	0.0017
1.9116	80000	0.0016
1.9235	80500	0.0016
1.9355	81000	0.0017
1.9474	81500	0.0018
1.9594	82000	0.0017
1.9713	82500	0.0018
1.9833	83000	0.0018
1.9952	83500	0.0016

Framework Versions

Python: 3.11.10
Sentence Transformers: 3.3.1
Transformers: 4.46.3
PyTorch: 2.5.1+cu124
Accelerate: 1.1.1
Datasets: 3.1.0
Tokenizers: 0.20.3

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}