SentenceTransformer based on intfloat/multilingual-e5-large-instruct
This is a sentence-transformers model finetuned from intfloat/multilingual-e5-large-instruct. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: intfloat/multilingual-e5-large-instruct
- Maximum Sequence Length: 512 tokens
- Output Dimensionality: 1024 dimensions
- Similarity Function: Cosine Similarity
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
(1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("tugskh/multilingual-e5-large-instruct-1k")
# Run inference
sentences = [
'Авлигын эсрэг хуулийн Эдийн засгийн баталгаа зүйл нь Авлигатай тэмцэх газрыг юугаар хангахыг зааж өгсөн бөгөөд энэ нь хуулийн хэрэгжилтийг хэрхэн дэмжих вэ?',
'Авлигын эсрэг хуулийн Эдийн засгийн баталгаа зүйл нь Авлигатай тэмцэх газрыг ажлын байр, шаардлагатай тоног төхөөрөмж, тээврийн болон техник хэрэгсэл, албан хаагчийг орон сууцаар хангахыг зааж өгсөн. Энэ нь Авлигатай тэмцэх газрын үйл ажиллагааг хангалттай нөөцөөр бүжгүүлэх замаар хуулийн хэрэгжилтийг дэмждэг.',
'Авлигын эсрэг хуулийн 4.1-д заасан этгээдийн хөрөнгө, орлогын сүүлийн 5 жилийн мэдүүлэг Авлигатай тэмцэх газрын цахим мэдээллийн сүлжээнд тавигдах ба иргэд мэдээлэл авах боломжийг хангана.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Evaluation
Metrics
Information Retrieval
- Dataset:
e5-eval
- Evaluated with
InformationRetrievalEvaluator
Metric | Value |
---|---|
cosine_accuracy@1 | 0.8074 |
cosine_accuracy@3 | 0.9556 |
cosine_accuracy@5 | 0.9704 |
cosine_accuracy@10 | 1.0 |
cosine_precision@1 | 0.8074 |
cosine_precision@3 | 0.3185 |
cosine_precision@5 | 0.1941 |
cosine_precision@10 | 0.1 |
cosine_recall@1 | 0.8074 |
cosine_recall@3 | 0.9556 |
cosine_recall@5 | 0.9704 |
cosine_recall@10 | 1.0 |
cosine_ndcg@10 | 0.9144 |
cosine_mrr@10 | 0.8861 |
cosine_map@100 | 0.8861 |
Information Retrieval
- Dataset:
e5-eval
- Evaluated with
InformationRetrievalEvaluator
Metric | Value |
---|---|
cosine_accuracy@1 | 0.8074 |
cosine_accuracy@3 | 0.9556 |
cosine_accuracy@5 | 0.9704 |
cosine_accuracy@10 | 1.0 |
cosine_precision@1 | 0.8074 |
cosine_precision@3 | 0.3185 |
cosine_precision@5 | 0.1941 |
cosine_precision@10 | 0.1 |
cosine_recall@1 | 0.8074 |
cosine_recall@3 | 0.9556 |
cosine_recall@5 | 0.9704 |
cosine_recall@10 | 1.0 |
cosine_ndcg@10 | 0.9144 |
cosine_mrr@10 | 0.8861 |
cosine_map@100 | 0.8861 |
Information Retrieval
- Dataset:
e5-eval
- Evaluated with
InformationRetrievalEvaluator
Metric | Value |
---|---|
cosine_accuracy@1 | 0.8603 |
cosine_accuracy@3 | 0.9779 |
cosine_accuracy@5 | 0.9926 |
cosine_accuracy@10 | 1.0 |
cosine_precision@1 | 0.8603 |
cosine_precision@3 | 0.326 |
cosine_precision@5 | 0.1985 |
cosine_precision@10 | 0.1 |
cosine_recall@1 | 0.8603 |
cosine_recall@3 | 0.9779 |
cosine_recall@5 | 0.9926 |
cosine_recall@10 | 1.0 |
cosine_ndcg@10 | 0.9382 |
cosine_mrr@10 | 0.9173 |
cosine_map@100 | 0.9173 |
Training Details
Training Dataset
Unnamed Dataset
- Size: 1,081 training samples
- Columns:
query
andpassage
- Approximate statistics based on the first 1000 samples:
query passage type string string details - min: 12 tokens
- mean: 27.23 tokens
- max: 46 tokens
- min: 29 tokens
- mean: 62.96 tokens
- max: 114 tokens
- Samples:
query passage Автотээврийн тухай хуульд заасан тээврийн хэрэгслийн бүртгэлийн хугацааг зөрчсөн тохиолдолд ямар хариуцлага хүлээх вэ?
Автотээврийн тухай хуулийн зүйл 2-ын дагуу Монгол Улсад бүртгэлтэй аж ахуйн нэгж, байгууллага, хувь хүн тээврийн хэрэгсэл өмчилж авснаас хойш 72 цагийн дотор, ашиглалтаас хассанаас хойш нэг сарын дотор аймаг, нийслэл дэх автотээврийн асуудал эрхэлсэн төрийн захиргааны төв байгууллагын харьяа байгууллагад бүртгүүлнэ. Хуулийн зөрчлөөс үүсэх хариуцлагын талаар хуульд дэлгэрэнгүй заасан байх бөгөөд тухайн зөрчлийн ноцтой байдлаас шалтгаалан торгууль, захиргааны шийтгэл оногдуулах боломжтой.
Авлигын эсрэг хуулийн дагуу Авлигатай тэмцэх газрын үйл ажиллагаанд хэн нөлөөлөх, хөндлөнгөөс оролцохыг хориглоно?
Авлигын эсрэг хуулийн Авлигатай тэмцэх газрын үйл ажиллагааны үндсэн зарчимд зааснаар аливаа албан тушаалтан, хувь хүн, хуулийн этгээд Авлигатай тэмцэх газрын үйл ажиллагаанд нөлөөлөх, хөндлөнгөөс оролцохыг хориглоно.
Авлигатай тэмцэх газрын зохион байгуулалтын бүтэц, орон тоог батлах эрх хэмжээ Улсын Их Хуралд хэрхэн хуваарилагдана?
Авлигын эсрэг хуулийн Авлигатай тэмцэх газрын бүтэц зүйл нь Авлигатай тэмцэх газрын зохион байгуулалтын бүтэц, орон тоог Улсын Их Хурал батлах бөгөөд энэ нь Авлигатай тэмцэх газрын үйл ажиллагааг хуульчлан зохицуулах, хяналт тавих Улсын Их Хурлын эрхийг тодорхойлж байна.
- Loss:
MultipleNegativesRankingLoss
with these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim" }
Evaluation Dataset
Unnamed Dataset
- Size: 135 evaluation samples
- Columns:
query
andpassage
- Approximate statistics based on the first 135 samples:
query passage type string string details - min: 14 tokens
- mean: 27.6 tokens
- max: 50 tokens
- min: 35 tokens
- mean: 62.6 tokens
- max: 95 tokens
- Samples:
query passage Автотээврийн тухай хуулийн дагуу автотээврийн хэрэгслийн бүртгэл, улсын дугаар олгох журмын батлагдсан хувилбарыг хаана хадгалах ёстой?
Автотээврийн тухай хуулийн Автотээврийн хэрэгслийн улсын бүртгэл зүйл нь автотээврийн хэрэгслийн бүртгэл хөтлөх, улсын дугаар олгох журмыг автотээврийн асуудал эрхэлсэн Засгийн газрын гишүүн батална гэж заасан бөгөөд журмын батлагдсан хувилбарыг хадгалах тухай заалт хуульд байхгүй.
Автотээврийн тухай хуулийн зөрчлийн талаарх энэхүү заалтыг хэн баталсан бэ?
Автотээврийн тухай хуулийн зөрчлийн талаарх энэхүү заалтыг Монгол Улсын Их Хурлын дарга Р.Гончигдорж баталсан. Энэ нь хуулийн батлагдсан байдлыг баталгаажуулж, хуулийн дээд байдлыг хангахад чухал үүрэгтэй.
Авлигын эсрэг хуульд хөрөнгө, орлогын мэдүүлгийг шалгах эрх хэнэд хүлээлгэгдсэн бөгөөд энэ эрх хэзээ ажиллана?
Авлигын эсрэг хуулийн Хөрөнгө, орлогын мэдүүлгийг хянан шалгах, хариуцлага хүлээлгэх үндэслэлийн заалт нь Монгол Улсын Их Хурлын гишүүн, Засгийн газрын гишүүний албан тушаалыг хавсарч байгаа тохиолдолд Авлигатай тэмцэх газарт хөрөнгө, орлогын мэдүүлгийг шалгах эрхийг хүлээлгэж өгсөн бөгөөд энэ эрх албан тушаал хавсардаг үед ажиллана.
- Loss:
MultipleNegativesRankingLoss
with these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim" }
Training Hyperparameters
Non-Default Hyperparameters
eval_strategy
: stepsper_device_train_batch_size
: 16per_device_eval_batch_size
: 16num_train_epochs
: 1warmup_ratio
: 0.1fp16
: Truebatch_sampler
: no_duplicates
All Hyperparameters
Click to expand
overwrite_output_dir
: Falsedo_predict
: Falseeval_strategy
: stepsprediction_loss_only
: Trueper_device_train_batch_size
: 16per_device_eval_batch_size
: 16per_gpu_train_batch_size
: Noneper_gpu_eval_batch_size
: Nonegradient_accumulation_steps
: 1eval_accumulation_steps
: Nonetorch_empty_cache_steps
: Nonelearning_rate
: 5e-05weight_decay
: 0.0adam_beta1
: 0.9adam_beta2
: 0.999adam_epsilon
: 1e-08max_grad_norm
: 1.0num_train_epochs
: 1max_steps
: -1lr_scheduler_type
: linearlr_scheduler_kwargs
: {}warmup_ratio
: 0.1warmup_steps
: 0log_level
: passivelog_level_replica
: warninglog_on_each_node
: Truelogging_nan_inf_filter
: Truesave_safetensors
: Truesave_on_each_node
: Falsesave_only_model
: Falserestore_callback_states_from_checkpoint
: Falseno_cuda
: Falseuse_cpu
: Falseuse_mps_device
: Falseseed
: 42data_seed
: Nonejit_mode_eval
: Falseuse_ipex
: Falsebf16
: Falsefp16
: Truefp16_opt_level
: O1half_precision_backend
: autobf16_full_eval
: Falsefp16_full_eval
: Falsetf32
: Nonelocal_rank
: 0ddp_backend
: Nonetpu_num_cores
: Nonetpu_metrics_debug
: Falsedebug
: []dataloader_drop_last
: Falsedataloader_num_workers
: 0dataloader_prefetch_factor
: Nonepast_index
: -1disable_tqdm
: Falseremove_unused_columns
: Truelabel_names
: Noneload_best_model_at_end
: Falseignore_data_skip
: Falsefsdp
: []fsdp_min_num_params
: 0fsdp_config
: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap
: Noneaccelerator_config
: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed
: Nonelabel_smoothing_factor
: 0.0optim
: adamw_torchoptim_args
: Noneadafactor
: Falsegroup_by_length
: Falselength_column_name
: lengthddp_find_unused_parameters
: Noneddp_bucket_cap_mb
: Noneddp_broadcast_buffers
: Falsedataloader_pin_memory
: Truedataloader_persistent_workers
: Falseskip_memory_metrics
: Trueuse_legacy_prediction_loop
: Falsepush_to_hub
: Falseresume_from_checkpoint
: Nonehub_model_id
: Nonehub_strategy
: every_savehub_private_repo
: Nonehub_always_push
: Falsegradient_checkpointing
: Falsegradient_checkpointing_kwargs
: Noneinclude_inputs_for_metrics
: Falseinclude_for_metrics
: []eval_do_concat_batches
: Truefp16_backend
: autopush_to_hub_model_id
: Nonepush_to_hub_organization
: Nonemp_parameters
:auto_find_batch_size
: Falsefull_determinism
: Falsetorchdynamo
: Noneray_scope
: lastddp_timeout
: 1800torch_compile
: Falsetorch_compile_backend
: Nonetorch_compile_mode
: Noneinclude_tokens_per_second
: Falseinclude_num_input_tokens_seen
: Falseneftune_noise_alpha
: Noneoptim_target_modules
: Nonebatch_eval_metrics
: Falseeval_on_start
: Falseuse_liger_kernel
: Falseeval_use_gather_object
: Falseaverage_tokens_across_devices
: Falseprompts
: Nonebatch_sampler
: no_duplicatesmulti_dataset_batch_sampler
: proportional
Training Logs
Epoch | Step | e5-eval_cosine_ndcg@10 |
---|---|---|
-1 | -1 | 0.9382 |
Framework Versions
- Python: 3.11.13
- Sentence Transformers: 4.1.0
- Transformers: 4.52.3
- PyTorch: 2.6.0+cu124
- Accelerate: 1.7.0
- Datasets: 2.14.4
- Tokenizers: 0.21.1
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MultipleNegativesRankingLoss
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
- Downloads last month
- 3
Model tree for tugskh/multilingual-e5-large-instruct-1k
Base model
intfloat/multilingual-e5-large-instructEvaluation results
- Cosine Accuracy@1 on e5 evalself-reported0.807
- Cosine Accuracy@3 on e5 evalself-reported0.956
- Cosine Accuracy@5 on e5 evalself-reported0.970
- Cosine Accuracy@10 on e5 evalself-reported1.000
- Cosine Precision@1 on e5 evalself-reported0.807
- Cosine Precision@3 on e5 evalself-reported0.319
- Cosine Precision@5 on e5 evalself-reported0.194
- Cosine Precision@10 on e5 evalself-reported0.100
- Cosine Recall@1 on e5 evalself-reported0.807
- Cosine Recall@3 on e5 evalself-reported0.956