SentenceTransformer based on intfloat/multilingual-e5-large-instruct
This is a sentence-transformers model finetuned from intfloat/multilingual-e5-large-instruct. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: intfloat/multilingual-e5-large-instruct
- Maximum Sequence Length: 512 tokens
- Output Dimensionality: 1024 dimensions
- Similarity Function: Cosine Similarity
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'XLMRobertaModel'})
(1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
'Instruct: Với một truy vấn về luật Việt Nam, truy xuất các đoạn văn liên quan có chứa câu trả lời cho truy vấn đó.\nQuery: Doanh nghiệp kết hợp kinh tế với quốc phòng, an ninh có những quyền và nghĩa vụ gì?',
"['1. Doanh nghiệp trực tiếp phục vụ quốc phòng, an ninh có các quyền và nghĩa vụ quy định tại Điều 9 Luật Doanh nghiệp và các quy định sau:\\t\\ta) Được Bộ Quốc phòng, Bộ Công an bảo đảm đủ nguồn lực, đầu tư đủ vốn điều lệ để thực hiện các nhiệm vụ quốc phòng, an ninh được giao.\\t\\tb) Được sử dụng các nguồn lực được giao để hoạt động sản xuất kinh doanh (ngoài thực hiện nhiệm vụ quốc phòng, an ninh) khi bảo đảm các điều kiện sau:Bộ Quốc phòng, Bộ Công an chấp thuận, phê duyệt bằng văn bản;Hoạt động kinh doanh bổ sung có mục đích để kết hợp hỗ trợ nhiệm vụ quốc phòng, an ninh hoặc để phát huy công suất và hiệu quả sử dụng tài sản;Không làm giảm năng lực và ảnh hưởng tới việc thực hiện nhiệm vụ quốc phòng, an ninh được giao;Thực hiện nghĩa vụ nộp thuế theo quy định của pháp luật.\\t\\tc) Quản lý nguồn lực được giao để thực hiện nhiệm vụ quốc phòng, an ninh theo các quy định hiện hành.\\t\\td) Chấp hành các quy định pháp luật, quy định của Bộ Quốc phòng, Bộ Công an về hợp tác quốc tế khi thực hiện các hoạt động liên kết với tổ chức, cá nhân nước ngoài để thực hiện nhiệm vụ quốc phòng, an ninh.\\t\\tđ) Chấp hành quyết định của Bộ Quốc phòng, Bộ Công an về việc chuyển giao phần vốn hoặc tài sản phục vụ nhiệm vụ quốc phòng, an ninh của doanh nghiệp để thực hiện nhiệm vụ quốc phòng, an ninh ở doanh nghiệp khác trong trường hợp cần thiết theo quy định pháp luật hiện hành.\\n\\n2. Doanh nghiệp kết hợp kinh tế với quốc phòng, an ninh có quyền và nghĩa vụ quy định tại Điều 9 Luật Doanh nghiệp và các quy định sau:\\t\\ta) Quản lý nguồn lực được giao để thực hiện nhiệm vụ kết hợp kinh tế với quốc phòng, an ninh theo các quy định hiện hành.\\t\\tb) Chấp hành các quy định pháp luật, quy định của Bộ Quốc phòng, Bộ Công an về hợp tác quốc tế khi thực hiện các hoạt động liên kết với tổ chức, cá nhân nước ngoài để thực hiện nhiệm vụ kết hợp kinh tế với quốc phòng, an ninh.', '1. Các quyền và nghĩa vụ quy định tại Điều 7, Điều 8 và quy định khác có liên quan của Luật này.\\n\\n2. Được hạch toán và bù đắp chi phí theo giá do pháp luật về đấu thầu quy định hoặc thu phí sử dụng dịch vụ theo quy định của cơ quan nhà nước có thẩm quyền.\\n\\n3. Được bảo đảm thời hạn cung ứng sản phẩm, dịch vụ thích hợp để thu hồi vốn đầu tư và có lãi hợp lý.\\n\\n4. Cung ứng sản phẩm, dịch vụ đủ số lượng, đúng chất lượng và thời hạn đã cam kết theo giá hoặc phí do cơ quan nhà nước có thẩm quyền quy định.\\n\\n5. Bảo đảm các điều kiện công bằng và thuận lợi như nhau cho các khách hàng.\\n\\n6. Chịu trách nhiệm trước pháp luật và khách hàng về số lượng, chất lượng, điều kiện cung ứng và giá, phí sản phẩm, dịch vụ cung ứng.']",
"['2. Điều 4 được sửa đổi, bổ sung như sau:\\t\\ta) Bổ sung điểm d khoản 2 Điều 4 như sau:“\\t\\td) Doanh thu để làm căn cứ xác định mức thu lệ phí môn bài đối với cá nhân, nhóm cá nhân, hộ gia đình theo hướng dẫn của Bộ Tài chính.”\\t\\tb) Khoản 3 Điều 4 được sửa đổi, bổ sung như sau:“3. Doanh nghiệp nhỏ và vừa chuyển đổi từ hộ kinh doanh (bao gồm cả chi nhánh, văn phòng đại diện, địa điểm kinh doanh) khi hết thời gian được miễn lệ phí môn bài (năm thứ tư kể từ năm thành lập doanh nghiệp): trường hợp kết thúc trong thời gian 6 tháng đầu năm nộp mức lệ phí môn bài cả năm, trường hợp kết thúc trong thời gian 6 tháng cuối năm nộp 50% mức lệ phí môn bài cả năm.Hộ gia đình, cá nhân, nhóm cá nhân sản xuất, kinh doanh đã giải thể có hoạt động sản xuất, kinh doanh trở lại trong thời gian 6 tháng đầu năm nộp mức lệ phí môn bài cả năm, trong thời gian 6 tháng cuối năm nộp 50% mức lệ phí môn bài cả năm.”\\t\\tc) Khoản 5 Điều 4 được sửa đổi, bổ sung như sau:“5. Người nộp lệ phí đang hoạt động có văn bản gửi cơ quan thuế quản lý trực tiếp về việc tạm ngừng hoạt động sản xuất, kinh doanh trong năm dương lịch không phải nộp lệ phí môn bài năm tạm ngừng kinh doanh với điêu kiện: văn bản xin tạm ngừng hoạt động sản xuất, kinh doanh gửi cơ quan thuế trước thời hạn phải nộp lệ phí theo quy định (ngày 30 tháng 01 hàng năm) và chưa nộp lệ phí môn bài của năm xin tạm ngừng hoạt động sản xuất, kinh doanh.Trường hợp tạm ngừng hoạt động sản xuất, kinh doanh không đảm bảo điều kiện nêu trên thì nộp mức lệ phí môn bài cả năm.”3. Khoản 1 Điều 5 được sửa đổi, bổ sung như sau: “1. Khai lệ phí môn bài một lần khi người nộp lệ phí mới ra hoạt động sản xuất, kinh doanh hoặc mới thành lập.\\t\\ta) Người nộp lệ phí mới ra hoạt động sản xuất, kinh doanh hoặc mới thành lập; doanh nghiệp nhỏ và vừa chuyển từ hộ kinh doanh thực hiện khai lệ phí môn bài và nộp Tờ khai cho cơ quan thuế quản lý trực tiếp trước ngày 30 tháng 01 năm sau năm mới ra hoạt động sản xuất, kinh doanh hoặc mới thành lập.\\t\\tb) Hộ gia đình, cá nhân, nhóm cá nhân nộp thuế theo phương pháp khoán không phải khai lệ phí môn bài. Cơ quan thuế căn cứ tờ khai thuế, cơ sở dữ liệu ngành thuế để xác định doanh thu kinh doanh làm căn cứ tính mức lệ phí môn bài phải nộp của hộ gia đình, cá nhân, nhóm cá nhân nộp thuế theo phương pháp khoán.”4. Khoản 4 Điều 5 được sửa đổi, bổ sung như sau:“4. Thời hạn nộp lệ phí môn bài chậm nhất là ngày 30 tháng 01 hàng năm.\\t\\ta) Doanh nghiệp nhỏ và vừa chuyển đổi từ hộ kinh doanh (bao gồm cả chi nhánh, văn phòng đại diện, địa điểm kinh doanh) kết thúc thời gian được miễn lệ phí môn bài (năm thứ tư kể từ năm thành lập doanh nghiệp) nộp lệ phí môn bài như sau:- Trường hợp kết thúc thời gian miễn lệ phí môn bài trong thời gian 6 tháng đầu năm thì thời hạn nộp lệ phí môn bài chậm nhất là ngày 30 tháng 7 năm kết thúc thời gian miễn.- Trường hợp kết thúc thời gian miễn lệ phí môn bài trong thời gian 6 tháng cuối năm thì thời hạn nộp lệ phí môn bài chậm nhất là ngày 30 tháng 01 năm liền kề năm kết thúc thời gian miễn.\\t\\tb) Hộ gia đình, cá nhân, nhóm cá nhân sản xuất, kinh doanh đã giải thể, ra hoạt động sản xuất, kinh doanh trở lại nộp lệ phí môn bài như sau:- Trường hợp ra hoạt động trong 6 tháng đầu năm thì thời hạn nộp lệ phí môn bài chậm nhất là ngày 30 tháng 7 năm ra hoạt động.- Trường hợp ra hoạt động trong thời gian 6 tháng cuối năm thì thời hạn nộp lệ phí môn bài chậm nhất là ngày 30 tháng 01 năm liền kề năm ra hoạt động.”']",
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[1.0000, 0.9273, 0.0594],
# [0.9273, 1.0000, 0.0610],
# [0.0594, 0.0610, 1.0000]])
Training Details
Training Dataset
Unnamed Dataset
- Size: 2,190 training samples
- Columns:
sentence_0
,sentence_1
, andlabel
- Approximate statistics based on the first 1000 samples:
sentence_0 sentence_1 label type string string float details - min: 46 tokens
- mean: 55.77 tokens
- max: 87 tokens
- min: 52 tokens
- mean: 349.02 tokens
- max: 512 tokens
- min: 1.0
- mean: 1.0
- max: 1.0
- Samples:
sentence_0 sentence_1 label Instruct: Với một truy vấn về luật Việt Nam, truy xuất các đoạn văn liên quan có chứa câu trả lời cho truy vấn đó.
Query: Viên chức có được cấp Chứng chỉ hành nghề đấu giá không?['Đấu giá viên phải có đủ các tiêu chuẩn sau đây:\n\n1. Công dân Việt Nam thường trú tại Việt Nam, tuân thủ Hiến pháp và pháp luật, có phẩm chất đạo đức tốt;\n\n2. Có bằng tốt nghiệp đại học hoặc trên đại học thuộc một trong các chuyên ngành luật, kinh tế, kế toán, tài chính, ngân hàng;\n\n3. Tốt nghiệp khóa đào tạo nghề đấu giá quy định tại Điều 11 của Luật này, trừ trường hợp được miễn đào tạo nghề đấu giá quy định tại Điều 12 của Luật này;\n\n4. Đạt yêu cầu kiểm tra kết quả tập sự hành nghề đấu giá.', '1. Không đủ tiêu chuẩn quy định tại Điều 10 của Luật này.\n\n2. Đang là sĩ quan, quân nhân chuyên nghiệp, công nhân, viên chức quốc phòng trong cơ quan, đơn vị thuộc Quân đội nhân dân; sĩ quan, hạ sĩ quan nghiệp vụ, sĩ quan, hạ sĩ quan chuyên môn kỹ thuật trong cơ quan, đơn vị thuộc Công an nhân dân; cán bộ, công chức, viên chức, trừ trường hợp là công chức, viên chức được đề nghị cấp Chứng chỉ hành nghề đấu giá để làm việc cho Trung tâm dịch vụ đấu giá tài sản.\n\n3. Bị mất hoặc bị h...
1.0
Instruct: Với một truy vấn về luật Việt Nam, truy xuất các đoạn văn liên quan có chứa câu trả lời cho truy vấn đó.
Query: Hoàn thành thanh toán hối phiếu nhận nợ được quy định như thế nào?['1. Người ký phát có nghĩa vụ thanh toán số tiền ghi trên hối phiếu đòi nợ cho người thụ hưởng khi hối phiếu đòi nợ bị từ chối chấp nhận hoặc bị từ chối thanh toán.\n\n2. Trường hợp người chuyển nhượng hoặc người bảo lãnh đã thanh toán hối phiếu đòi nợ cho người thụ hưởng sau khi hối phiếu đòi nợ bị từ chối chấp nhận hoặc bị từ chối thanh toán thì người ký phát có nghĩa vụ thanh toán cho người chuyển nhượng hoặc người bảo lãnh số tiền ghi trên hối phiếu đó.', 'Việc thanh toán hối phiếu nhận nợ được coi là hoàn thành trong các trường hợp sau đây: \n\n1. Khi người phát hành trở thành người thụ hưởng của hối phiếu nhận nợ vào ngày đến hạn thanh toán hoặc sau ngày đó;\n\n2. Người phát hành đã thanh toán toàn bộ số tiền ghi trên hối phiếu nhận nợ cho người thụ hưởng; \n\n3. Người thụ hưởng huỷ bỏ hối phiếu nhận nợ.']
1.0
Instruct: Với một truy vấn về luật Việt Nam, truy xuất các đoạn văn liên quan có chứa câu trả lời cho truy vấn đó.
Query: Cho em hỏi khi mình vay tín dụng khi đến hạn thanh toán mà không có khả năng thanh toán đúng hạn, trả trễ vài ngày có bị xử hành chính không?['Hợp đồng vay tài sản là sự thỏa thuận giữa các bên, theo đó bên cho vay giao tài sản cho bên vay; khi đến hạn trả, bên vay phải hoàn trả cho bên cho vay tài sản cùng loại theo đúng số lượng, chất lượng và chỉ phải trả lãi nếu có thỏa thuận hoặc pháp luật có quy định.', 'Bên vay trở thành chủ sở hữu tài sản vay kể từ thời điểm nhận tài sản đó.']
1.0
- Loss:
MultipleNegativesRankingLoss
with these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim" }
Training Hyperparameters
Non-Default Hyperparameters
per_device_train_batch_size
: 36per_device_eval_batch_size
: 36num_train_epochs
: 30fp16
: Truemulti_dataset_batch_sampler
: round_robin
All Hyperparameters
Click to expand
overwrite_output_dir
: Falsedo_predict
: Falseeval_strategy
: noprediction_loss_only
: Trueper_device_train_batch_size
: 36per_device_eval_batch_size
: 36per_gpu_train_batch_size
: Noneper_gpu_eval_batch_size
: Nonegradient_accumulation_steps
: 1eval_accumulation_steps
: Nonetorch_empty_cache_steps
: Nonelearning_rate
: 5e-05weight_decay
: 0.0adam_beta1
: 0.9adam_beta2
: 0.999adam_epsilon
: 1e-08max_grad_norm
: 1num_train_epochs
: 30max_steps
: -1lr_scheduler_type
: linearlr_scheduler_kwargs
: {}warmup_ratio
: 0.0warmup_steps
: 0log_level
: passivelog_level_replica
: warninglog_on_each_node
: Truelogging_nan_inf_filter
: Truesave_safetensors
: Truesave_on_each_node
: Falsesave_only_model
: Falserestore_callback_states_from_checkpoint
: Falseno_cuda
: Falseuse_cpu
: Falseuse_mps_device
: Falseseed
: 42data_seed
: Nonejit_mode_eval
: Falseuse_ipex
: Falsebf16
: Falsefp16
: Truefp16_opt_level
: O1half_precision_backend
: autobf16_full_eval
: Falsefp16_full_eval
: Falsetf32
: Nonelocal_rank
: 0ddp_backend
: Nonetpu_num_cores
: Nonetpu_metrics_debug
: Falsedebug
: []dataloader_drop_last
: Falsedataloader_num_workers
: 0dataloader_prefetch_factor
: Nonepast_index
: -1disable_tqdm
: Falseremove_unused_columns
: Truelabel_names
: Noneload_best_model_at_end
: Falseignore_data_skip
: Falsefsdp
: []fsdp_min_num_params
: 0fsdp_config
: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap
: Noneaccelerator_config
: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed
: Nonelabel_smoothing_factor
: 0.0optim
: adamw_torchoptim_args
: Noneadafactor
: Falsegroup_by_length
: Falselength_column_name
: lengthddp_find_unused_parameters
: Noneddp_bucket_cap_mb
: Noneddp_broadcast_buffers
: Falsedataloader_pin_memory
: Truedataloader_persistent_workers
: Falseskip_memory_metrics
: Trueuse_legacy_prediction_loop
: Falsepush_to_hub
: Falseresume_from_checkpoint
: Nonehub_model_id
: Nonehub_strategy
: every_savehub_private_repo
: Nonehub_always_push
: Falsehub_revision
: Nonegradient_checkpointing
: Falsegradient_checkpointing_kwargs
: Noneinclude_inputs_for_metrics
: Falseinclude_for_metrics
: []eval_do_concat_batches
: Truefp16_backend
: autopush_to_hub_model_id
: Nonepush_to_hub_organization
: Nonemp_parameters
:auto_find_batch_size
: Falsefull_determinism
: Falsetorchdynamo
: Noneray_scope
: lastddp_timeout
: 1800torch_compile
: Falsetorch_compile_backend
: Nonetorch_compile_mode
: Noneinclude_tokens_per_second
: Falseinclude_num_input_tokens_seen
: Falseneftune_noise_alpha
: Noneoptim_target_modules
: Nonebatch_eval_metrics
: Falseeval_on_start
: Falseuse_liger_kernel
: Falseliger_kernel_config
: Noneeval_use_gather_object
: Falseaverage_tokens_across_devices
: Falseprompts
: Nonebatch_sampler
: batch_samplermulti_dataset_batch_sampler
: round_robinrouter_mapping
: {}learning_rate_mapping
: {}
Training Logs
Epoch | Step | Training Loss |
---|---|---|
16.1290 | 500 | 0.0621 |
Framework Versions
- Python: 3.10.12
- Sentence Transformers: 5.0.0
- Transformers: 4.54.1
- PyTorch: 2.7.1+cu126
- Accelerate: 1.9.0
- Datasets: 4.0.0
- Tokenizers: 0.21.2
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MultipleNegativesRankingLoss
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
- Downloads last month
- 5
Model tree for xuandin/e5-instruct-450
Base model
intfloat/multilingual-e5-large-instruct