SentenceTransformer based on intfloat/multilingual-e5-large
This is a sentence-transformers model finetuned from intfloat/multilingual-e5-large on the q2q_data and q2p_data datasets. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: intfloat/multilingual-e5-large
- Maximum Sequence Length: 512 tokens
- Output Dimensionality: 1024 dimensions
- Similarity Function: Cosine Similarity
- Training Datasets:
- q2q_data
- q2p_data
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
(1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("George2002/sledopyt_embedder")
# Run inference
sentences = [
'query: Кто отвечает за подтверждение замены владельца номинального счета?',
'query: Кто должен дать согласие на смену владельца номинального счета?',
'query: Какой документ требуется для подтверждения личности клиента при смене владельца номинального счета?',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Training Details
Training Datasets
q2q_data
- Dataset: q2q_data
- Size: 33,406 training samples
- Columns:
query_1
,query_2
, andnegative
- Approximate statistics based on the first 1000 samples:
query_1 query_2 negative type string string string details - min: 12 tokens
- mean: 22.08 tokens
- max: 42 tokens
- min: 11 tokens
- mean: 21.77 tokens
- max: 43 tokens
- min: 11 tokens
- mean: 21.45 tokens
- max: 39 tokens
- Samples:
query_1 query_2 negative query: Какой телефон для отключения дневного расходного лимита для ребенка?
query: На какой номер нужно позвонить, чтобы снять лимит расходов на день для ребенка?
query: Как отключить лимиты по детской карте через мобильное приложение, если родитель хочет это сделать?
query: При каком условии можно выбрать возраст ребенка представительством?
query: При каких обстоятельствах можно определить возраст ребенка в представительстве?
query: Какой статус должен быть у представителя для определения возраста ребенка?
query: Какие бумаги нужны при обращении, если счет не удается найти?
query: Что требуется приложить к запросу, если счет отсутствует?
query: Что нужно предоставить для регистрации обращения, если счёт не обнаружен?
- Loss:
TripletLoss
with these parameters:{ "distance_metric": "TripletDistanceMetric.EUCLIDEAN", "triplet_margin": 5 }
q2p_data
- Dataset: q2p_data
- Size: 7,709 training samples
- Columns:
query
,chunk
, andnegative
- Approximate statistics based on the first 1000 samples:
query chunk negative type string string string details - min: 13 tokens
- mean: 22.14 tokens
- max: 40 tokens
- min: 12 tokens
- mean: 162.33 tokens
- max: 512 tokens
- min: 12 tokens
- mean: 129.72 tokens
- max: 512 tokens
- Samples:
query chunk negative query: Что такое ДУЛ законного представителя и зачем он нужен?
passage: Документы, необходимые для прикрепления законного представителя к подопечному (несовершеннолетнему от 14 до 18 лет):
Приемный родитель
ДУЛ законного представителя
Документ из органа опеки и попечительства о передаче ребенка в приемную семьюpassage: Документы, необходимые для прикрепления законного представителя к подопечному (несовершеннолетнему от 14 до 18 лет):
Попечитель (физ. лицо)
ДУЛ законного представителя
Решение органа опеки и попечительства о назначении попечителяquery: Что требуется для получения выписки по счету вкладчика с ограниченной дееспособностью?
passage: Выписка по счету (вкладу) может быть выдана:
- Ограниченно дееспособный в силу пристрастия
-Доверенное лицо ограниченно дееспособногоpassage: Кто обратился?
Вкладчик/Представитель вкладчика (полномочия подтверждены)
Выберите причину розыска?query: Какие учредительные документы необходимы для государственного социального учреждения?
passage: Документ (распоряжение/приказ/акт/путевка) органа опеки и попечительства о помещении (передаче под надзор) несовершеннолетнего в государственную социальную организацию
Учредительные документы государственного социального учреждения (далее –учреждение)
Свидетельство о постановке на учет в налоговом органе учреждения
Выписка из Единого государственного реестра юридических лиц
Свидетельство о государственной регистрации учреждения
Документ (как правило, приказ) о назначении (избрании) единоличного исполнительного органа (директора) социального учрежденияpassage: Документ (распоряжение/приказ/акт/путевка) органа опеки и попечительства о помещении (передаче под надзор) ограниченно дееспособного гражданина в государственную социальную организацию
Учредительные документы государственного социального учреждения (далее –учреждение)
Свидетельство о постановке на учет в налоговом органе учреждения
Выписка из Единого государственного реестра юридических лиц
Свидетельство о государственной регистрации учреждения
Документы об избрании (назначении) единоличного исполнительного органа - Loss:
TripletLoss
with these parameters:{ "distance_metric": "TripletDistanceMetric.EUCLIDEAN", "triplet_margin": 5 }
Evaluation Datasets
q2q_data
- Dataset: q2q_data
- Size: 1,759 evaluation samples
- Columns:
query_1
,query_2
, andnegative
- Approximate statistics based on the first 1000 samples:
query_1 query_2 negative type string string string details - min: 11 tokens
- mean: 22.02 tokens
- max: 40 tokens
- min: 11 tokens
- mean: 21.69 tokens
- max: 39 tokens
- min: 12 tokens
- mean: 21.38 tokens
- max: 37 tokens
- Samples:
query_1 query_2 negative query: Что необходимо сделать при получении отрицательного заключения?
query: Какие действия нужно предпринять после получения отрицательного ответа?
query: Какие шаги следует предпринять при получении негативного ответа после открытия счета?
query: Нужно ли согласовывать операцию с комплаенсом при переводе в СБОЛ.Про?
query: Обязательно ли получить согласие комплаенса для операции перевода в СБОЛ.Про?
query: Необходимо ли согласовывать перевод с комплаенсом в СБОЛ.Про?
query: Что появляется на экране после нажатия кнопки «Ребенок до 14 лет» или «Ребенок от 14 до 18 лет»?
query: Какой экран показывается после нажатия на кнопки «Ребенок до 14 лет» и «Ребенок от 14 до 18 лет»?
query: Каким лицам доступна выписка по счету несовершеннолетнего в возрасте от 14 до 18 лет?
- Loss:
TripletLoss
with these parameters:{ "distance_metric": "TripletDistanceMetric.EUCLIDEAN", "triplet_margin": 5 }
q2p_data
- Dataset: q2p_data
- Size: 406 evaluation samples
- Columns:
query
,chunk
, andnegative
- Approximate statistics based on the first 406 samples:
query chunk negative type string string string details - min: 13 tokens
- mean: 22.26 tokens
- max: 40 tokens
- min: 12 tokens
- mean: 163.57 tokens
- max: 512 tokens
- min: 12 tokens
- mean: 126.02 tokens
- max: 512 tokens
- Samples:
query chunk negative query: Куда следует направить информацию, полученную для розыска?
passage: Выберите причину розыска?
Информация нужна для предоставления в Суд/в органы опеки/ др. гос органы
Зарегистрируй обращение в СРМ «Розничный». Приложи (при наличии) документы, подтверждающие .....passage: Заполните информацию о подопечном
query: Кто может обратиться за открытием карты МИР без согласия Финансового управляющего?
passage: С каким вопросом обратился банкрот?
06. Открытие счета/вклада (отличного от Специального счета банкрота)
Банкрот в любой стадии банкротства может открыть самостоятельно в стандартном режиме без согласия Финансового управляющего следующие виды счетов:
- Номинальный счет для получения пособий на подопечного/ алиментов на ребенка без согласия своего финансового управляющего.
Любой другой счет может открыть только банкрот в стадии реструктуризация долгов, предоставив разрешение Финансового управляющего
!!!!!! при обращении МОБИЛИЗОВАННОГО (участник СВО) банкрота (в стадии РИ) для открытия и получения карты МИР для зачисления военного довольствия, открываем и выдаем карту МИР БЕЗ РАЗРЕШЕНИЯ ФУpassage: Банкрот в любой стадии банкротства может открыть самостоятельно в стандартном режиме без согласия Финансового управляющего следующие виды счетов:
- Номинальный счет для получения пособий на подопечного/ алиментов на ребенка без согласия своего финансового управляющего.
Любой другой счет может открыть только банкрот в стадии реструктуризация долгов, предоставив разрешение Финансового управляющего
!!!!!! при обращении МОБИЛИЗОВАННОГО (участник СВО) банкрота (в стадии РИ) для открытия и получения карты МИР для зачисления военного довольствия, открываем и выдаем карту МИР БЕЗ РАЗРЕШЕНИЯ ФУ
Процедура банкротства Реструктуризация долгов
Клиент, признанный банкротом в стадии реструктуризация долгов имеет право без согласия Финансового управляющего открыть счета:
- Специальный счет банкрота с ежемесячным лимитом в 50 000.00
- Счет ГЖС (Счет ГЖС открывается в стандартном режиме, арест/ блокировка на счет ГЖС не накладывается).
При открытии любого другого счёта банкрот должен п...query: Что должно быть на свидетельстве о рождении Украины для оформления Детской СберКарты?
passage: ВНИМАНИЕ !
С 23 октября 2023г. в МП СБОЛ станет доступным заказ Детской СберКарты по свидетельству о рождении Украины со штампом о гражданстве РФ.
Для получения Детской СберКарты в офисе банка необходимо будет предоставить нотариально заверенное удостоверение перевода на русский язык свидетельства о рождении Украины со штампом о гражданстве РФ.
Типичные вопросы по Детской СберКарте и ответы на них
18. Сколько изготавливается Детская СберКарта ?
Актуальные сроки выпуска карты размещены на сайте Банка: Детская СберКарт -> Тарифы -> Документы и ссылкиpassage: ВНИМАНИЕ !
С 23 октября 2023г. в МП СБОЛ станет доступным заказ Детской СберКарты по свидетельству о рождении Украины со штампом о гражданстве РФ.
Для получения Детской СберКарты в офисе банка необходимо будет предоставить нотариально заверенное удостоверение перевода на русский язык свидетельства о рождении Украины со штампом о гражданстве РФ.
Типичные вопросы по Детской СберКарте и ответы на них
05. Бонусы Спасибо по Детской СберКарте
Выберите интересующий вопрос - Loss:
TripletLoss
with these parameters:{ "distance_metric": "TripletDistanceMetric.EUCLIDEAN", "triplet_margin": 5 }
Training Hyperparameters
Non-Default Hyperparameters
eval_strategy
: stepsper_device_train_batch_size
: 36learning_rate
: 1e-05weight_decay
: 0.01num_train_epochs
: 2warmup_ratio
: 0.1load_best_model_at_end
: Truepush_to_hub
: Truehub_model_id
: George2002/sledopyt_embedderhub_strategy
: end
All Hyperparameters
Click to expand
overwrite_output_dir
: Falsedo_predict
: Falseeval_strategy
: stepsprediction_loss_only
: Trueper_device_train_batch_size
: 36per_device_eval_batch_size
: 8per_gpu_train_batch_size
: Noneper_gpu_eval_batch_size
: Nonegradient_accumulation_steps
: 1eval_accumulation_steps
: Nonetorch_empty_cache_steps
: Nonelearning_rate
: 1e-05weight_decay
: 0.01adam_beta1
: 0.9adam_beta2
: 0.999adam_epsilon
: 1e-08max_grad_norm
: 1.0num_train_epochs
: 2max_steps
: -1lr_scheduler_type
: linearlr_scheduler_kwargs
: {}warmup_ratio
: 0.1warmup_steps
: 0log_level
: passivelog_level_replica
: warninglog_on_each_node
: Truelogging_nan_inf_filter
: Truesave_safetensors
: Truesave_on_each_node
: Falsesave_only_model
: Falserestore_callback_states_from_checkpoint
: Falseno_cuda
: Falseuse_cpu
: Falseuse_mps_device
: Falseseed
: 42data_seed
: Nonejit_mode_eval
: Falseuse_ipex
: Falsebf16
: Falsefp16
: Falsefp16_opt_level
: O1half_precision_backend
: autobf16_full_eval
: Falsefp16_full_eval
: Falsetf32
: Nonelocal_rank
: 0ddp_backend
: Nonetpu_num_cores
: Nonetpu_metrics_debug
: Falsedebug
: []dataloader_drop_last
: Truedataloader_num_workers
: 0dataloader_prefetch_factor
: Nonepast_index
: -1disable_tqdm
: Falseremove_unused_columns
: Truelabel_names
: Noneload_best_model_at_end
: Trueignore_data_skip
: Falsefsdp
: []fsdp_min_num_params
: 0fsdp_config
: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}tp_size
: 0fsdp_transformer_layer_cls_to_wrap
: Noneaccelerator_config
: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed
: Nonelabel_smoothing_factor
: 0.0optim
: adamw_torchoptim_args
: Noneadafactor
: Falsegroup_by_length
: Falselength_column_name
: lengthddp_find_unused_parameters
: Noneddp_bucket_cap_mb
: Noneddp_broadcast_buffers
: Falsedataloader_pin_memory
: Truedataloader_persistent_workers
: Falseskip_memory_metrics
: Trueuse_legacy_prediction_loop
: Falsepush_to_hub
: Trueresume_from_checkpoint
: Nonehub_model_id
: George2002/sledopyt_embedderhub_strategy
: endhub_private_repo
: Nonehub_always_push
: Falsegradient_checkpointing
: Falsegradient_checkpointing_kwargs
: Noneinclude_inputs_for_metrics
: Falseinclude_for_metrics
: []eval_do_concat_batches
: Truefp16_backend
: autopush_to_hub_model_id
: Nonepush_to_hub_organization
: Nonemp_parameters
:auto_find_batch_size
: Falsefull_determinism
: Falsetorchdynamo
: Noneray_scope
: lastddp_timeout
: 1800torch_compile
: Falsetorch_compile_backend
: Nonetorch_compile_mode
: Noneinclude_tokens_per_second
: Falseinclude_num_input_tokens_seen
: Falseneftune_noise_alpha
: Noneoptim_target_modules
: Nonebatch_eval_metrics
: Falseeval_on_start
: Falseuse_liger_kernel
: Falseeval_use_gather_object
: Falseaverage_tokens_across_devices
: Falseprompts
: Nonebatch_sampler
: batch_samplermulti_dataset_batch_sampler
: proportional
Training Logs
Click to expand
Epoch | Step | Training Loss | q2q data loss | q2p data loss |
---|---|---|---|---|
0.0175 | 10 | 4.957 | - | - |
0.0351 | 20 | 4.9467 | - | - |
0.0526 | 30 | 4.9452 | - | - |
0.0702 | 40 | 4.9325 | - | - |
0.0877 | 50 | 4.9056 | 4.8804 | 4.9222 |
0.1053 | 60 | 4.9041 | - | - |
0.1228 | 70 | 4.8866 | - | - |
0.1404 | 80 | 4.844 | - | - |
0.1579 | 90 | 4.8064 | - | - |
0.1754 | 100 | 4.8182 | 4.7243 | 4.8660 |
0.1930 | 110 | 4.7791 | - | - |
0.2105 | 120 | 4.7659 | - | - |
0.2281 | 130 | 4.7572 | - | - |
0.2456 | 140 | 4.7234 | - | - |
0.2632 | 150 | 4.726 | 4.6268 | 4.8712 |
0.2807 | 160 | 4.6932 | - | - |
0.2982 | 170 | 4.6654 | - | - |
0.3158 | 180 | 4.6776 | - | - |
0.3333 | 190 | 4.6617 | - | - |
0.3509 | 200 | 4.6928 | 4.5581 | 4.8814 |
0.3684 | 210 | 4.6497 | - | - |
0.3860 | 220 | 4.677 | - | - |
0.4035 | 230 | 4.6344 | - | - |
0.4211 | 240 | 4.6612 | - | - |
0.4386 | 250 | 4.6274 | 4.5154 | 4.8396 |
0.4561 | 260 | 4.6556 | - | - |
0.4737 | 270 | 4.6382 | - | - |
0.4912 | 280 | 4.6053 | - | - |
0.5088 | 290 | 4.6131 | - | - |
0.5263 | 300 | 4.6453 | 4.4957 | 4.8314 |
0.5439 | 310 | 4.5819 | - | - |
0.5614 | 320 | 4.5948 | - | - |
0.5789 | 330 | 4.5288 | - | - |
0.5965 | 340 | 4.6152 | - | - |
0.6140 | 350 | 4.5831 | 4.4657 | 4.7953 |
0.6316 | 360 | 4.5507 | - | - |
0.6491 | 370 | 4.5718 | - | - |
0.6667 | 380 | 4.6269 | - | - |
0.6842 | 390 | 4.6017 | - | - |
0.7018 | 400 | 4.5155 | 4.4396 | 4.7694 |
0.7193 | 410 | 4.5055 | - | - |
0.7368 | 420 | 4.534 | - | - |
0.7544 | 430 | 4.5358 | - | - |
0.7719 | 440 | 4.5443 | - | - |
0.7895 | 450 | 4.5309 | 4.4183 | 4.7751 |
0.8070 | 460 | 4.5952 | - | - |
0.8246 | 470 | 4.5561 | - | - |
0.8421 | 480 | 4.5191 | - | - |
0.8596 | 490 | 4.5066 | - | - |
0.8772 | 500 | 4.4875 | 4.4138 | 4.8195 |
0.8947 | 510 | 4.5051 | - | - |
0.9123 | 520 | 4.4872 | - | - |
0.9298 | 530 | 4.4918 | - | - |
0.9474 | 540 | 4.5357 | - | - |
0.9649 | 550 | 4.4898 | 4.3754 | 4.7799 |
0.9825 | 560 | 4.5742 | - | - |
1.0 | 570 | 4.5461 | - | - |
1.0175 | 580 | 4.5505 | - | - |
1.0351 | 590 | 4.5027 | - | - |
1.0526 | 600 | 4.5747 | 4.4060 | 4.7915 |
1.0702 | 610 | 4.5296 | - | - |
1.0877 | 620 | 4.4262 | - | - |
1.1053 | 630 | 4.5415 | - | - |
1.1228 | 640 | 4.5386 | - | - |
1.1404 | 650 | 4.4552 | 4.3632 | 4.8105 |
1.1579 | 660 | 4.4473 | - | - |
1.1754 | 670 | 4.5069 | - | - |
1.1930 | 680 | 4.5129 | - | - |
1.2105 | 690 | 4.4611 | - | - |
1.2281 | 700 | 4.5104 | 4.3530 | 4.7875 |
1.2456 | 710 | 4.4742 | - | - |
1.2632 | 720 | 4.4887 | - | - |
1.2807 | 730 | 4.406 | - | - |
1.2982 | 740 | 4.4049 | - | - |
1.3158 | 750 | 4.4165 | 4.3484 | 4.7866 |
1.3333 | 760 | 4.4274 | - | - |
1.3509 | 770 | 4.4855 | - | - |
1.3684 | 780 | 4.4571 | - | - |
1.3860 | 790 | 4.4307 | - | - |
1.4035 | 800 | 4.4387 | 4.3450 | 4.7628 |
1.4211 | 810 | 4.4592 | - | - |
1.4386 | 820 | 4.4368 | - | - |
1.4561 | 830 | 4.4863 | - | - |
1.4737 | 840 | 4.463 | - | - |
1.4912 | 850 | 4.4113 | 4.3252 | 4.7610 |
1.5088 | 860 | 4.4368 | - | - |
1.5263 | 870 | 4.4738 | - | - |
1.5439 | 880 | 4.4195 | - | - |
1.5614 | 890 | 4.4478 | - | - |
1.5789 | 900 | 4.3849 | 4.3140 | 4.7519 |
1.5965 | 910 | 4.4896 | - | - |
1.6140 | 920 | 4.4301 | - | - |
1.6316 | 930 | 4.4142 | - | - |
1.6491 | 940 | 4.4582 | - | - |
1.6667 | 950 | 4.5075 | 4.3189 | 4.7259 |
1.6842 | 960 | 4.4454 | - | - |
1.7018 | 970 | 4.3547 | - | - |
1.7193 | 980 | 4.4016 | - | - |
1.7368 | 990 | 4.4064 | - | - |
1.7544 | 1000 | 4.4356 | 4.3151 | 4.7276 |
1.7719 | 1010 | 4.4105 | - | - |
1.7895 | 1020 | 4.4067 | - | - |
1.8070 | 1030 | 4.4296 | - | - |
1.8246 | 1040 | 4.4147 | - | - |
1.8421 | 1050 | 4.3743 | 4.3136 | 4.7182 |
1.8596 | 1060 | 4.4065 | - | - |
1.8772 | 1070 | 4.4025 | - | - |
1.8947 | 1080 | 4.3912 | - | - |
1.9123 | 1090 | 4.3731 | - | - |
1.9298 | 1100 | 4.3817 | 4.3120 | 4.7357 |
1.9474 | 1110 | 4.4305 | - | - |
1.9649 | 1120 | 4.3914 | - | - |
1.9825 | 1130 | 4.4753 | - | - |
2.0 | 1140 | 4.4536 | - | - |
Framework Versions
- Python: 3.10.12
- Sentence Transformers: 4.1.0
- Transformers: 4.51.3
- PyTorch: 2.6.0+cu124
- Accelerate: 1.6.0
- Datasets: 3.5.0
- Tokenizers: 0.21.1
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
TripletLoss
@misc{hermans2017defense,
title={In Defense of the Triplet Loss for Person Re-Identification},
author={Alexander Hermans and Lucas Beyer and Bastian Leibe},
year={2017},
eprint={1703.07737},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
- Downloads last month
- 8
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support
Model tree for George2002/sledopyt_embedder_v4
Base model
intfloat/multilingual-e5-large