SentenceTransformer based on intfloat/multilingual-e5-large-instruct

This is a sentence-transformers model finetuned from intfloat/multilingual-e5-large-instruct. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: intfloat/multilingual-e5-large-instruct
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 1024 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("tugskh/multilingual-e5-large-instruct-1k")
# Run inference
sentences = [
    'Авлигын эсрэг хуулийн Эдийн засгийн баталгаа зүйл нь Авлигатай тэмцэх газрыг юугаар хангахыг зааж өгсөн бөгөөд энэ нь хуулийн хэрэгжилтийг хэрхэн дэмжих вэ?',
    'Авлигын эсрэг хуулийн Эдийн засгийн баталгаа зүйл нь Авлигатай тэмцэх газрыг ажлын байр, шаардлагатай тоног төхөөрөмж, тээврийн болон техник хэрэгсэл, албан хаагчийг орон сууцаар хангахыг зааж өгсөн. Энэ нь Авлигатай тэмцэх газрын үйл ажиллагааг хангалттай нөөцөөр бүжгүүлэх замаар хуулийн хэрэгжилтийг дэмждэг.',
    'Авлигын эсрэг хуулийн 4.1-д заасан этгээдийн хөрөнгө, орлогын сүүлийн 5 жилийн мэдүүлэг Авлигатай тэмцэх газрын цахим мэдээллийн сүлжээнд тавигдах ба иргэд мэдээлэл авах боломжийг хангана.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Information Retrieval

Metric Value
cosine_accuracy@1 0.8074
cosine_accuracy@3 0.9556
cosine_accuracy@5 0.9704
cosine_accuracy@10 1.0
cosine_precision@1 0.8074
cosine_precision@3 0.3185
cosine_precision@5 0.1941
cosine_precision@10 0.1
cosine_recall@1 0.8074
cosine_recall@3 0.9556
cosine_recall@5 0.9704
cosine_recall@10 1.0
cosine_ndcg@10 0.9144
cosine_mrr@10 0.8861
cosine_map@100 0.8861

Information Retrieval

Metric Value
cosine_accuracy@1 0.8074
cosine_accuracy@3 0.9556
cosine_accuracy@5 0.9704
cosine_accuracy@10 1.0
cosine_precision@1 0.8074
cosine_precision@3 0.3185
cosine_precision@5 0.1941
cosine_precision@10 0.1
cosine_recall@1 0.8074
cosine_recall@3 0.9556
cosine_recall@5 0.9704
cosine_recall@10 1.0
cosine_ndcg@10 0.9144
cosine_mrr@10 0.8861
cosine_map@100 0.8861

Information Retrieval

Metric Value
cosine_accuracy@1 0.8603
cosine_accuracy@3 0.9779
cosine_accuracy@5 0.9926
cosine_accuracy@10 1.0
cosine_precision@1 0.8603
cosine_precision@3 0.326
cosine_precision@5 0.1985
cosine_precision@10 0.1
cosine_recall@1 0.8603
cosine_recall@3 0.9779
cosine_recall@5 0.9926
cosine_recall@10 1.0
cosine_ndcg@10 0.9382
cosine_mrr@10 0.9173
cosine_map@100 0.9173

Training Details

Training Dataset

Unnamed Dataset

  • Size: 1,081 training samples
  • Columns: query and passage
  • Approximate statistics based on the first 1000 samples:
    query passage
    type string string
    details
    • min: 12 tokens
    • mean: 27.23 tokens
    • max: 46 tokens
    • min: 29 tokens
    • mean: 62.96 tokens
    • max: 114 tokens
  • Samples:
    query passage
    Автотээврийн тухай хуульд заасан тээврийн хэрэгслийн бүртгэлийн хугацааг зөрчсөн тохиолдолд ямар хариуцлага хүлээх вэ? Автотээврийн тухай хуулийн зүйл 2-ын дагуу Монгол Улсад бүртгэлтэй аж ахуйн нэгж, байгууллага, хувь хүн тээврийн хэрэгсэл өмчилж авснаас хойш 72 цагийн дотор, ашиглалтаас хассанаас хойш нэг сарын дотор аймаг, нийслэл дэх автотээврийн асуудал эрхэлсэн төрийн захиргааны төв байгууллагын харьяа байгууллагад бүртгүүлнэ. Хуулийн зөрчлөөс үүсэх хариуцлагын талаар хуульд дэлгэрэнгүй заасан байх бөгөөд тухайн зөрчлийн ноцтой байдлаас шалтгаалан торгууль, захиргааны шийтгэл оногдуулах боломжтой.
    Авлигын эсрэг хуулийн дагуу Авлигатай тэмцэх газрын үйл ажиллагаанд хэн нөлөөлөх, хөндлөнгөөс оролцохыг хориглоно? Авлигын эсрэг хуулийн Авлигатай тэмцэх газрын үйл ажиллагааны үндсэн зарчимд зааснаар аливаа албан тушаалтан, хувь хүн, хуулийн этгээд Авлигатай тэмцэх газрын үйл ажиллагаанд нөлөөлөх, хөндлөнгөөс оролцохыг хориглоно.
    Авлигатай тэмцэх газрын зохион байгуулалтын бүтэц, орон тоог батлах эрх хэмжээ Улсын Их Хуралд хэрхэн хуваарилагдана? Авлигын эсрэг хуулийн Авлигатай тэмцэх газрын бүтэц зүйл нь Авлигатай тэмцэх газрын зохион байгуулалтын бүтэц, орон тоог Улсын Их Хурал батлах бөгөөд энэ нь Авлигатай тэмцэх газрын үйл ажиллагааг хуульчлан зохицуулах, хяналт тавих Улсын Их Хурлын эрхийг тодорхойлж байна.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Evaluation Dataset

Unnamed Dataset

  • Size: 135 evaluation samples
  • Columns: query and passage
  • Approximate statistics based on the first 135 samples:
    query passage
    type string string
    details
    • min: 14 tokens
    • mean: 27.6 tokens
    • max: 50 tokens
    • min: 35 tokens
    • mean: 62.6 tokens
    • max: 95 tokens
  • Samples:
    query passage
    Автотээврийн тухай хуулийн дагуу автотээврийн хэрэгслийн бүртгэл, улсын дугаар олгох журмын батлагдсан хувилбарыг хаана хадгалах ёстой? Автотээврийн тухай хуулийн Автотээврийн хэрэгслийн улсын бүртгэл зүйл нь автотээврийн хэрэгслийн бүртгэл хөтлөх, улсын дугаар олгох журмыг автотээврийн асуудал эрхэлсэн Засгийн газрын гишүүн батална гэж заасан бөгөөд журмын батлагдсан хувилбарыг хадгалах тухай заалт хуульд байхгүй.
    Автотээврийн тухай хуулийн зөрчлийн талаарх энэхүү заалтыг хэн баталсан бэ? Автотээврийн тухай хуулийн зөрчлийн талаарх энэхүү заалтыг Монгол Улсын Их Хурлын дарга Р.Гончигдорж баталсан. Энэ нь хуулийн батлагдсан байдлыг баталгаажуулж, хуулийн дээд байдлыг хангахад чухал үүрэгтэй.
    Авлигын эсрэг хуульд хөрөнгө, орлогын мэдүүлгийг шалгах эрх хэнэд хүлээлгэгдсэн бөгөөд энэ эрх хэзээ ажиллана? Авлигын эсрэг хуулийн Хөрөнгө, орлогын мэдүүлгийг хянан шалгах, хариуцлага хүлээлгэх үндэслэлийн заалт нь Монгол Улсын Их Хурлын гишүүн, Засгийн газрын гишүүний албан тушаалыг хавсарч байгаа тохиолдолд Авлигатай тэмцэх газарт хөрөнгө, орлогын мэдүүлгийг шалгах эрхийг хүлээлгэж өгсөн бөгөөд энэ эрх албан тушаал хавсардаг үед ажиллана.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • num_train_epochs: 1
  • warmup_ratio: 0.1
  • fp16: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step e5-eval_cosine_ndcg@10
-1 -1 0.9382

Framework Versions

  • Python: 3.11.13
  • Sentence Transformers: 4.1.0
  • Transformers: 4.52.3
  • PyTorch: 2.6.0+cu124
  • Accelerate: 1.7.0
  • Datasets: 2.14.4
  • Tokenizers: 0.21.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
3
Safetensors
Model size
560M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for tugskh/multilingual-e5-large-instruct-1k

Finetuned
(159)
this model

Evaluation results