SentenceTransformer based on dbmdz/bert-base-turkish-uncased

This is a sentence-transformers model finetuned from dbmdz/bert-base-turkish-uncased. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Type: Sentence Transformer
Base model: dbmdz/bert-base-turkish-uncased
Maximum Sequence Length: 512 tokens
Output Dimensionality: 768 dimensions
Similarity Function: Cosine Similarity

Model Sources

Documentation: Sentence Transformers Documentation
Repository: Sentence Transformers on GitHub
Hugging Face: Sentence Transformers on Hugging Face

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("selmanbaysan/berturk_base_contrastive_loss_training")
# Run inference
sentences = [
    'Rusya Devlet Başkanı Vladimir Putin, "Türk yönetimi, uçağımızı düşürdü ve büyük bir hata yaptı. Dahası, korudukları kişiler de karadan pilotumuza ateş açtı. Bu askeri suç karşısında verdiğimiz yanıt, ihtiyatlı olmaktan da öteydi" dedi.',
    '\' Rusya Halk Cephesi 1. Bölgelerarası Forumu\'nda konuşan Rus lider, Türkiye\'ye yönelik önlemlerin inşaat alanında yürürlükte olan anlaşmaları etkilemeyeceğini belirterek, Türkiye\'ye inşaat sektöründe getirilen yaptırımların ardından Rusya\'da 87 bin kişilik istihdam kontenjanının açılacağını kaydetti. Putin, şöyle konuştu: "Şu anda 300 Türk şirketinin Rusya\'da sözleşmeleri bulunuyor. Bunların toplam tutarı yaklaşık 50 milyar dolar. Mevcut sözleşmeleri feshetmeme kararı aldık. Çünkü bu sadece Türk iktidarının eylemine verilmiş bir yanıt olmayacak, biz de bundan zarar görebiliriz. Ancak bundan sonra Türk şirketleriyle yeni anlaşma imzalamayacağız." Rusya Devlet Başkanı\'nın gündeminde Suriye\'deki terörle mücadele çalışmaları da vardı. Putin, "Terörle mücadelede dikkatli ancak güçlü bir şekilde hareket edeceğiz. Verdiğiniz destek için sizlere ve gösterdikleri çabalar için Rus askerlerine teşekkür ediyorum" dedi.',
    'Bordo-mavili takımın başkanı Muharrem Usta, Galatasaray\'dan Çin ekibi Pekin Guoan\'a transfer olan Burak Yılmaz\'a teşekkür mesajı yayınladı. Usta mesajında, "Burak Yılmaz... Yolun açık olsun, dönmek istersen Trabzonspor\'un kapısı sana her zaman açık olacak. Her şey için teşekkürler" dedi. 8 milyon Euro karşılığında Çin\'e giden Burak sözleşmesindeki yüzde 25\'lik opsiyon sayesinde bu transferle Trabzonspor\'a da 2 milyon Euro daha kazandırmıştı.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Binary Classification

Dataset: dev
Evaluated with BinaryClassificationEvaluator

Metric	Value
cosine_accuracy	0.8431
cosine_accuracy_threshold	0.6934
cosine_f1	0.848
cosine_f1_threshold	0.6683
cosine_precision	0.8126
cosine_recall	0.8865
cosine_ap	0.9018
cosine_mcc	0.6834

Binary Classification

Dataset: dev
Evaluated with BinaryClassificationEvaluator

Metric	Value
cosine_accuracy	0.8446
cosine_accuracy_threshold	0.691
cosine_f1	0.8483
cosine_f1_threshold	0.6674
cosine_precision	0.8106
cosine_recall	0.8897
cosine_ap	0.8959
cosine_mcc	0.6866

Training Details

Training Dataset

Unnamed Dataset

Size: 2,038,410 training samples
Columns: anchor and positive
Approximate statistics based on the first 1000 samples:
anchor positive
type string string
details
min: 3 tokens
mean: 7.12 tokens
max: 18 tokens

min: 7 tokens
mean: 57.75 tokens
max: 512 tokens

	anchor	positive
type	string	string
details	min: 3 tokens mean: 7.12 tokens max: 18 tokens	min: 7 tokens mean: 57.75 tokens max: 512 tokens

Samples:

anchor	positive
`Malafa`	`, Hakan Günday'ın kuyumcular (ve halıcılar) üzerinden satış dünyası ile yaşam arasında paralellikler kurarak pazarlama ve satış dünyasını anlattığı, okuyucuya değişik bir dünyanın kapılarını açan romanı. Çoğunlukla Ermenice kelimelerden oluşan kuyumcu argosunun ağırlıklı olarak kullanıldığı romanda, büyük bir kuyumcu mağazasında çalışan "tezgahtar"ların ve alışverişe ge(tiri)len "turist"lerin bir günlük macerası anlatılır.`
`Sarıyatak, Elbistan`	`Sarıyatak, Kahramanmaraş ilinin Elbistan ilçesine bağlı bir mahalledir.`
`Åsane`	`, Norveç'in Bergen şehrinin bir kasabasıdır. Şehrin kuzeyindeki bu kasaba 1972'ye kadar ayrı bir şehir idi.`

Loss: MultipleNegativesRankingLoss with these parameters:

{
    "scale": 20.0,
    "similarity_fct": "cos_sim"
}

Evaluation Dataset

Unnamed Dataset

Size: 30,724 evaluation samples
Columns: sentence1, sentence2, and label
Approximate statistics based on the first 1000 samples:
sentence1 sentence2 label
type string string int
details
min: 8 tokens
mean: 41.58 tokens
max: 175 tokens

min: 7 tokens
mean: 310.79 tokens
max: 512 tokens

0: ~49.40%
1: ~50.60%

	sentence1	sentence2	label
type	string	string	int
details	min: 8 tokens mean: 41.58 tokens max: 175 tokens	min: 7 tokens mean: 310.79 tokens max: 512 tokens	0: ~49.40% 1: ~50.60%

Samples:

sentence1	sentence2	label
`Kriz tüm dünyayı sarsarken futbol kulüpleri değerlerini yüzde 8 artırdı. En değerli kulüp yine Manchester United oldu.`	Fenerbahçe, derbideki galibiyetinin ardından, İMKB'deki artışıyla da yatırımcısının yüzünü güldürdü. Galatasaray-Fenerbahçe derbisinin ardından, bugün İMKB'de işlem gören Fenerbahçe hisselerinde yüzde 8 oranında artış yaşandı. Hisse değeri 55,25 TL'ye kadar yükseldi. Kulübün piyasa değeri 1 milyar 381 milyon 250 bin lira değerinde bulunuyor. Derbide kaybeden Galatasaray ise en çok değer kaybeden beşinci hisse konumunda. Galatasaray hisseleri yüzde 4.9 düşüşle 213,50 TL'ye geriledi.	`0`
`İstanbul Sarıyer’de ormanda bulunan yakılmış cesedin 50 yaşındaki Yusuf Işık’a ait olduğu öne sürülüyor. Işık, eş bulmak için Hatay’a giden gençleri anlaşmalı olduğu Suriyeli kadınlarla buluşturup onlarca kişiyi dolandırmakla suçlanıyor.`	Zonguldak'ta ormanlık alanda cesedi yırtıcı hayvanlarca parçalanmış halde bulunan şahıs hakkındaki gerçek otopsi sonucu ortaya çıktı. Av tüfeğiyle öldürüldüğü tespit edilen adamın katili köyündeki komşusu çıktı. İHA'nın haberine göre olay, 10 gün önce Çaycuma ilçesine bağlı Perşembe beldesi Koramanlar köyünde yaşandı. 55 yaşındaki Sezai Karaca'nın cesedi ormanlık alanda yabani hayvanlarca parçalanmış halde bulundu. Jandarma ekiplerince yapılan incelemenin ardından Karaca'nın cesedi otopsi için hastane morguna kaldırıldı. Otopside Sezai Karaca'nın av tüfeği ile öldürüldüğü tespit edilerek vücudundan silahtan çıktığı belirlenen saçmalara rastlandı. Soruşturmayı derinleştiren jandarma ekipleri olayla ilgili Sezai Karaca'nın komşusu Veli B.'yi gözaltına aldı. İlçe Jandarma Komutanlığı'ndaki sorgusunda uzun süre konuşmayan Veli B. bir süre sonra cinayeti itiraf etti. Veli B.'ye, çelik yelek giydirilerek olay yerinde keşif yaptırıldı. Sağlık kontrolünden geçirilen zanlı, işlemlerinin ardın...	`0`
`İdlib'de merkezindeki bombalı saldırıda ilk belirlemelere göre 7 kişi hayatını kaybetti.`	Suriye'nin kuzeyindeki İdlib il merkezinde düzenlenen bombalı saldırıda ilk belirlemelere göre 7 kişinin öldüğü, 30 kişinin yaralandığı bildirildi. İdlib Sivil Savunma (Beyaz Baretliler) Müdürü Mustafa Hac Yusuf, öğle saatlerinde kent merkezindeki "Saat Kavşağı" bölgesine yerleştirilen bombanın patlatılması sonucu en az 7 sivilin hayatını kaybettiği ve 30 sivilin yaralandığını ifade etti. Olayı henüz üstlenen üstlenmedi. Türkiye sınırında bulunan İdlib, Kazakistan'ın başkenti Astana'da 4-5 Mayıs 2017'deki toplantıda, Türkiye, Rusya ve İran tarafından "gerginliği azaltma bölgesi" ilan edilmişti.	`1`

Loss: MultipleNegativesRankingLoss with these parameters:

{
    "scale": 20.0,
    "similarity_fct": "cos_sim"
}

Training Hyperparameters

Non-Default Hyperparameters

eval_strategy: steps
per_device_train_batch_size: 64
per_device_eval_batch_size: 64
learning_rate: 2e-05
num_train_epochs: 1
warmup_ratio: 0.1
fp16: True
batch_sampler: no_duplicates

All Hyperparameters

Click to expand

overwrite_output_dir: False
do_predict: False
eval_strategy: steps
prediction_loss_only: True
per_device_train_batch_size: 64
per_device_eval_batch_size: 64
per_gpu_train_batch_size: None
per_gpu_eval_batch_size: None
gradient_accumulation_steps: 1
eval_accumulation_steps: None
torch_empty_cache_steps: None
learning_rate: 2e-05
weight_decay: 0.0
adam_beta1: 0.9
adam_beta2: 0.999
adam_epsilon: 1e-08
max_grad_norm: 1.0
num_train_epochs: 1
max_steps: -1
lr_scheduler_type: linear
lr_scheduler_kwargs: {}
warmup_ratio: 0.1
warmup_steps: 0
log_level: passive
log_level_replica: warning
log_on_each_node: True
logging_nan_inf_filter: True
save_safetensors: True
save_on_each_node: False
save_only_model: False
restore_callback_states_from_checkpoint: False
no_cuda: False
use_cpu: False
use_mps_device: False
seed: 42
data_seed: None
jit_mode_eval: False
use_ipex: False
bf16: False
fp16: True
fp16_opt_level: O1
half_precision_backend: auto
bf16_full_eval: False
fp16_full_eval: False
tf32: None
local_rank: 0
ddp_backend: None
tpu_num_cores: None
tpu_metrics_debug: False
debug: []
dataloader_drop_last: False
dataloader_num_workers: 0
dataloader_prefetch_factor: None
past_index: -1
disable_tqdm: False
remove_unused_columns: True
label_names: None
load_best_model_at_end: False
ignore_data_skip: False
fsdp: []
fsdp_min_num_params: 0
fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
fsdp_transformer_layer_cls_to_wrap: None
accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
deepspeed: None
label_smoothing_factor: 0.0
optim: adamw_torch
optim_args: None
adafactor: False
group_by_length: False
length_column_name: length
ddp_find_unused_parameters: None
ddp_bucket_cap_mb: None
ddp_broadcast_buffers: False
dataloader_pin_memory: True
dataloader_persistent_workers: False
skip_memory_metrics: True
use_legacy_prediction_loop: False
push_to_hub: False
resume_from_checkpoint: None
hub_model_id: None
hub_strategy: every_save
hub_private_repo: None
hub_always_push: False
gradient_checkpointing: False
gradient_checkpointing_kwargs: None
include_inputs_for_metrics: False
include_for_metrics: []
eval_do_concat_batches: True
fp16_backend: auto
push_to_hub_model_id: None
push_to_hub_organization: None
mp_parameters:
auto_find_batch_size: False
full_determinism: False
torchdynamo: None
ray_scope: last
ddp_timeout: 1800
torch_compile: False
torch_compile_backend: None
torch_compile_mode: None
dispatch_batches: None
split_batches: None
include_tokens_per_second: False
include_num_input_tokens_seen: False
neftune_noise_alpha: None
optim_target_modules: None
batch_eval_metrics: False
eval_on_start: False
use_liger_kernel: False
eval_use_gather_object: False
average_tokens_across_devices: False
prompts: None
batch_sampler: no_duplicates
multi_dataset_batch_sampler: proportional

Training Logs

Epoch	Step	Training Loss	Validation Loss	dev_cosine_ap
0.0157	500	1.1169	0.3316	0.7691
0.0314	1000	0.3555	0.2539	0.8148
0.0471	1500	0.2604	0.2423	0.8388
0.0628	2000	0.2298	0.2470	0.8547
0.0785	2500	0.2006	0.2637	0.8589
0.0942	3000	0.1892	0.2421	0.8544
0.1099	3500	0.1867	0.2499	0.8626
0.1256	4000	0.1816	0.2435	0.8648
0.1413	4500	0.1666	0.2422	0.8719
0.1570	5000	0.1636	0.2445	0.8668
0.1727	5500	0.1613	0.2485	0.8732
0.1884	6000	0.1543	0.2434	0.8782
0.2041	6500	0.1519	0.2490	0.8827
0.2198	7000	0.1469	0.2358	0.8841
0.2355	7500	0.1493	0.2418	0.8862
0.2512	8000	0.1417	0.2456	0.8821
0.2669	8500	0.1415	0.2409	0.8834
0.2826	9000	0.1375	0.2463	0.8817
0.2983	9500	0.1339	0.2423	0.8872
0.3140	10000	0.1338	0.2432	0.8832
0.3297	10500	0.133	0.2428	0.8842
0.3454	11000	0.127	0.2361	0.8860
0.3611	11500	0.1285	0.2531	0.8835
0.3768	12000	0.1278	0.2400	0.8844
0.3925	12500	0.1243	0.2391	0.8846
0.4082	13000	0.121	0.2413	0.8873
0.4238	13500	0.1166	0.2470	0.8861
0.4395	14000	0.121	0.2386	0.8866
0.4552	14500	0.1243	0.2474	0.8871
0.4709	15000	0.1272	0.2439	0.8894
0.4866	15500	0.1181	0.2511	0.8930
0.5023	16000	0.1115	0.2387	0.8924
0.5180	16500	0.1143	0.2400	0.8942
0.5337	17000	0.1154	0.2362	0.8927
0.5494	17500	0.1142	0.2480	0.8926
0.5651	18000	0.1144	0.2424	0.8957
0.5808	18500	0.1121	0.2326	0.8920
0.5965	19000	0.1157	0.2423	0.8900
0.6122	19500	0.1129	0.2339	0.8969
0.6279	20000	0.1099	0.2367	0.8982
0.6436	20500	0.1127	0.2402	0.8964
0.6593	21000	0.1092	0.2490	0.8994
0.6750	21500	0.109	0.2466	0.8967
0.6907	22000	0.1071	0.2481	0.8978
0.7064	22500	0.1048	0.2353	0.8962
0.7221	23000	0.107	0.2361	0.8965
0.7378	23500	0.1043	0.2471	0.8997
0.7535	24000	0.1078	0.2411	0.8983
0.7692	24500	0.1045	0.2289	0.8982
0.7849	25000	0.1013	0.2269	0.8999
0.8006	25500	0.1017	0.2349	0.9011
0.8163	26000	0.0996	0.2349	0.9009
0.8320	26500	0.1015	0.2328	0.9012
0.8477	27000	0.104	0.2356	0.9013
0.8634	27500	0.1046	0.2357	0.8998
0.8791	28000	0.0994	0.2345	0.9002
0.8948	28500	0.1015	0.2308	0.8998
0.9105	29000	0.0973	0.2322	0.9010
0.9262	29500	0.0966	0.2340	0.9019
0.9419	30000	0.0958	0.2335	0.9018
0.9576	30500	0.1001	0.2334	0.9010
0.9733	31000	0.0969	0.2333	0.9018
0.9890	31500	0.0967	0.2349	0.9018
-1	-1	-	-	0.8959

Framework Versions

Python: 3.11.11
Sentence Transformers: 3.4.1
Transformers: 4.48.3
PyTorch: 2.6.0+cu124
Accelerate: 1.3.0
Datasets: 3.4.0
Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

selmanbaysan
/

berturk_base_contrastive_loss_training

SentenceTransformer based on dbmdz/bert-base-turkish-uncased

Model Details

Model Description

Model Sources

Full Model Architecture

Usage

Direct Usage (Sentence Transformers)

Evaluation

Metrics

Binary Classification

Binary Classification

Training Details

Training Dataset

Unnamed Dataset

Evaluation Dataset

Unnamed Dataset

Training Hyperparameters

Non-Default Hyperparameters

All Hyperparameters

Training Logs

Framework Versions

Citation

BibTeX

Sentence Transformers

MultipleNegativesRankingLoss

Model tree for selmanbaysan/berturk_base_contrastive_loss_training

Evaluation results