SentenceTransformer based on dbmdz/bert-base-turkish-uncased

This is a sentence-transformers model finetuned from dbmdz/bert-base-turkish-uncased. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: dbmdz/bert-base-turkish-uncased
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("selmanbaysan/berturk_base_contrastive_loss_training")
# Run inference
sentences = [
    'Rusya Devlet Başkanı Vladimir Putin, "Türk yönetimi, uçağımızı düşürdü ve büyük bir hata yaptı. Dahası, korudukları kişiler de karadan pilotumuza ateş açtı. Bu askeri suç karşısında verdiğimiz yanıt, ihtiyatlı olmaktan da öteydi" dedi.',
    '\' Rusya Halk Cephesi 1. Bölgelerarası Forumu\'nda konuşan Rus lider, Türkiye\'ye yönelik önlemlerin inşaat alanında yürürlükte olan anlaşmaları etkilemeyeceğini belirterek, Türkiye\'ye inşaat sektöründe getirilen yaptırımların ardından Rusya\'da 87 bin kişilik istihdam kontenjanının açılacağını kaydetti. Putin, şöyle konuştu: "Şu anda 300 Türk şirketinin Rusya\'da sözleşmeleri bulunuyor. Bunların toplam tutarı yaklaşık 50 milyar dolar. Mevcut sözleşmeleri feshetmeme kararı aldık. Çünkü bu sadece Türk iktidarının eylemine verilmiş bir yanıt olmayacak, biz de bundan zarar görebiliriz. Ancak bundan sonra Türk şirketleriyle yeni anlaşma imzalamayacağız." Rusya Devlet Başkanı\'nın gündeminde Suriye\'deki terörle mücadele çalışmaları da vardı. Putin, "Terörle mücadelede dikkatli ancak güçlü bir şekilde hareket edeceğiz. Verdiğiniz destek için sizlere ve gösterdikleri çabalar için Rus askerlerine teşekkür ediyorum" dedi.',
    'Bordo-mavili takımın başkanı Muharrem Usta, Galatasaray\'dan Çin ekibi Pekin Guoan\'a transfer olan Burak Yılmaz\'a teşekkür mesajı yayınladı. Usta mesajında, "Burak Yılmaz... Yolun açık olsun, dönmek istersen Trabzonspor\'un kapısı sana her zaman açık olacak. Her şey için teşekkürler" dedi. 8 milyon Euro karşılığında Çin\'e giden Burak sözleşmesindeki yüzde 25\'lik opsiyon sayesinde bu transferle Trabzonspor\'a da 2 milyon Euro daha kazandırmıştı.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Binary Classification

Metric Value
cosine_accuracy 0.8431
cosine_accuracy_threshold 0.6934
cosine_f1 0.848
cosine_f1_threshold 0.6683
cosine_precision 0.8126
cosine_recall 0.8865
cosine_ap 0.9018
cosine_mcc 0.6834

Binary Classification

Metric Value
cosine_accuracy 0.8446
cosine_accuracy_threshold 0.691
cosine_f1 0.8483
cosine_f1_threshold 0.6674
cosine_precision 0.8106
cosine_recall 0.8897
cosine_ap 0.8959
cosine_mcc 0.6866

Training Details

Training Dataset

Unnamed Dataset

  • Size: 2,038,410 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 3 tokens
    • mean: 7.12 tokens
    • max: 18 tokens
    • min: 7 tokens
    • mean: 57.75 tokens
    • max: 512 tokens
  • Samples:
    anchor positive
    Malafa , Hakan Günday'ın kuyumcular (ve halıcılar) üzerinden satış dünyası ile yaşam arasında paralellikler kurarak pazarlama ve satış dünyasını anlattığı, okuyucuya değişik bir dünyanın kapılarını açan romanı. Çoğunlukla Ermenice kelimelerden oluşan kuyumcu argosunun ağırlıklı olarak kullanıldığı romanda, büyük bir kuyumcu mağazasında çalışan "tezgahtar"ların ve alışverişe ge(tiri)len "turist"lerin bir günlük macerası anlatılır.
    Sarıyatak, Elbistan Sarıyatak, Kahramanmaraş ilinin Elbistan ilçesine bağlı bir mahalledir.
    Åsane , Norveç'in Bergen şehrinin bir kasabasıdır. Şehrin kuzeyindeki bu kasaba 1972'ye kadar ayrı bir şehir idi.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Evaluation Dataset

Unnamed Dataset

  • Size: 30,724 evaluation samples
  • Columns: sentence1, sentence2, and label
  • Approximate statistics based on the first 1000 samples:
    sentence1 sentence2 label
    type string string int
    details
    • min: 8 tokens
    • mean: 41.58 tokens
    • max: 175 tokens
    • min: 7 tokens
    • mean: 310.79 tokens
    • max: 512 tokens
    • 0: ~49.40%
    • 1: ~50.60%
  • Samples:
    sentence1 sentence2 label
    Kriz tüm dünyayı sarsarken futbol kulüpleri değerlerini yüzde 8 artırdı. En değerli kulüp yine Manchester United oldu. Fenerbahçe, derbideki galibiyetinin ardından, İMKB'deki artışıyla da yatırımcısının yüzünü güldürdü. Galatasaray-Fenerbahçe derbisinin ardından, bugün İMKB'de işlem gören Fenerbahçe hisselerinde yüzde 8 oranında artış yaşandı. Hisse değeri 55,25 TL'ye kadar yükseldi. Kulübün piyasa değeri 1 milyar 381 milyon 250 bin lira değerinde bulunuyor. Derbide kaybeden Galatasaray ise en çok değer kaybeden beşinci hisse konumunda. Galatasaray hisseleri yüzde 4.9 düşüşle 213,50 TL'ye geriledi. 0
    İstanbul Sarıyer’de ormanda bulunan yakılmış cesedin 50 yaşındaki Yusuf Işık’a ait olduğu öne sürülüyor. Işık, eş bulmak için Hatay’a giden gençleri anlaşmalı olduğu Suriyeli kadınlarla buluşturup onlarca kişiyi dolandırmakla suçlanıyor. Zonguldak'ta ormanlık alanda cesedi yırtıcı hayvanlarca parçalanmış halde bulunan şahıs hakkındaki gerçek otopsi sonucu ortaya çıktı. Av tüfeğiyle öldürüldüğü tespit edilen adamın katili köyündeki komşusu çıktı.   İHA'nın haberine göre olay, 10 gün önce Çaycuma ilçesine bağlı Perşembe beldesi Koramanlar köyünde yaşandı. 55 yaşındaki Sezai Karaca'nın cesedi ormanlık alanda yabani hayvanlarca parçalanmış halde bulundu. Jandarma ekiplerince yapılan incelemenin ardından Karaca'nın cesedi otopsi için hastane morguna kaldırıldı. Otopside Sezai Karaca'nın av tüfeği ile öldürüldüğü tespit edilerek vücudundan silahtan çıktığı belirlenen saçmalara rastlandı. Soruşturmayı derinleştiren jandarma ekipleri olayla ilgili Sezai Karaca'nın komşusu Veli B.'yi gözaltına aldı. İlçe Jandarma Komutanlığı'ndaki sorgusunda uzun süre konuşmayan Veli B. bir süre sonra cinayeti itiraf etti. Veli B.'ye, çelik yelek giydirilerek olay yerinde keşif yaptırıldı. Sağlık kontrolünden geçirilen zanlı, işlemlerinin ardın... 0
    İdlib'de merkezindeki bombalı saldırıda ilk belirlemelere göre 7 kişi hayatını kaybetti. Suriye'nin kuzeyindeki İdlib il merkezinde düzenlenen bombalı saldırıda ilk belirlemelere göre 7 kişinin öldüğü, 30 kişinin yaralandığı bildirildi.  İdlib Sivil Savunma (Beyaz Baretliler) Müdürü Mustafa Hac Yusuf, öğle saatlerinde kent merkezindeki "Saat Kavşağı" bölgesine yerleştirilen bombanın patlatılması sonucu en az 7 sivilin hayatını kaybettiği ve 30 sivilin yaralandığını ifade etti. Olayı henüz üstlenen üstlenmedi. Türkiye sınırında bulunan İdlib, Kazakistan'ın başkenti Astana'da 4-5 Mayıs 2017'deki toplantıda, Türkiye, Rusya ve İran tarafından "gerginliği azaltma bölgesi" ilan edilmişti. 1
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 64
  • per_device_eval_batch_size: 64
  • learning_rate: 2e-05
  • num_train_epochs: 1
  • warmup_ratio: 0.1
  • fp16: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 64
  • per_device_eval_batch_size: 64
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss Validation Loss dev_cosine_ap
0.0157 500 1.1169 0.3316 0.7691
0.0314 1000 0.3555 0.2539 0.8148
0.0471 1500 0.2604 0.2423 0.8388
0.0628 2000 0.2298 0.2470 0.8547
0.0785 2500 0.2006 0.2637 0.8589
0.0942 3000 0.1892 0.2421 0.8544
0.1099 3500 0.1867 0.2499 0.8626
0.1256 4000 0.1816 0.2435 0.8648
0.1413 4500 0.1666 0.2422 0.8719
0.1570 5000 0.1636 0.2445 0.8668
0.1727 5500 0.1613 0.2485 0.8732
0.1884 6000 0.1543 0.2434 0.8782
0.2041 6500 0.1519 0.2490 0.8827
0.2198 7000 0.1469 0.2358 0.8841
0.2355 7500 0.1493 0.2418 0.8862
0.2512 8000 0.1417 0.2456 0.8821
0.2669 8500 0.1415 0.2409 0.8834
0.2826 9000 0.1375 0.2463 0.8817
0.2983 9500 0.1339 0.2423 0.8872
0.3140 10000 0.1338 0.2432 0.8832
0.3297 10500 0.133 0.2428 0.8842
0.3454 11000 0.127 0.2361 0.8860
0.3611 11500 0.1285 0.2531 0.8835
0.3768 12000 0.1278 0.2400 0.8844
0.3925 12500 0.1243 0.2391 0.8846
0.4082 13000 0.121 0.2413 0.8873
0.4238 13500 0.1166 0.2470 0.8861
0.4395 14000 0.121 0.2386 0.8866
0.4552 14500 0.1243 0.2474 0.8871
0.4709 15000 0.1272 0.2439 0.8894
0.4866 15500 0.1181 0.2511 0.8930
0.5023 16000 0.1115 0.2387 0.8924
0.5180 16500 0.1143 0.2400 0.8942
0.5337 17000 0.1154 0.2362 0.8927
0.5494 17500 0.1142 0.2480 0.8926
0.5651 18000 0.1144 0.2424 0.8957
0.5808 18500 0.1121 0.2326 0.8920
0.5965 19000 0.1157 0.2423 0.8900
0.6122 19500 0.1129 0.2339 0.8969
0.6279 20000 0.1099 0.2367 0.8982
0.6436 20500 0.1127 0.2402 0.8964
0.6593 21000 0.1092 0.2490 0.8994
0.6750 21500 0.109 0.2466 0.8967
0.6907 22000 0.1071 0.2481 0.8978
0.7064 22500 0.1048 0.2353 0.8962
0.7221 23000 0.107 0.2361 0.8965
0.7378 23500 0.1043 0.2471 0.8997
0.7535 24000 0.1078 0.2411 0.8983
0.7692 24500 0.1045 0.2289 0.8982
0.7849 25000 0.1013 0.2269 0.8999
0.8006 25500 0.1017 0.2349 0.9011
0.8163 26000 0.0996 0.2349 0.9009
0.8320 26500 0.1015 0.2328 0.9012
0.8477 27000 0.104 0.2356 0.9013
0.8634 27500 0.1046 0.2357 0.8998
0.8791 28000 0.0994 0.2345 0.9002
0.8948 28500 0.1015 0.2308 0.8998
0.9105 29000 0.0973 0.2322 0.9010
0.9262 29500 0.0966 0.2340 0.9019
0.9419 30000 0.0958 0.2335 0.9018
0.9576 30500 0.1001 0.2334 0.9010
0.9733 31000 0.0969 0.2333 0.9018
0.9890 31500 0.0967 0.2349 0.9018
-1 -1 - - 0.8959

Framework Versions

  • Python: 3.11.11
  • Sentence Transformers: 3.4.1
  • Transformers: 4.48.3
  • PyTorch: 2.6.0+cu124
  • Accelerate: 1.3.0
  • Datasets: 3.4.0
  • Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
10
Safetensors
Model size
111M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for selmanbaysan/berturk_base_contrastive_loss_training

Finetuned
(42)
this model
Finetunes
1 model

Evaluation results