ModernBERT-base trained on GooAQ

This is a Cross Encoder model finetuned from Alibaba-NLP/gte-modernbert-base using the sentence-transformers library. It computes scores for pairs of texts, which can be used for text reranking and semantic search.

Model Details

Model Description

  • Model Type: Cross Encoder
  • Base model: Alibaba-NLP/gte-modernbert-base
  • Maximum Sequence Length: 8192 tokens
  • Number of Output Labels: 1 label
  • Language: en
  • License: apache-2.0

Model Sources

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import CrossEncoder

# Download from the 🤗 Hub
model = CrossEncoder("SMARTICT/reranker-gte-modernbert-base-tr-wiki-25964-train-sample")
# Get scores for pairs of texts
pairs = [
    ['poodle saldırısının ssl 3.0 mekanizmasının nasıl bir avantajından faydalandığını açıklayabilir misiniz?', "poodle saldırısı, ssl 3.0'ın şifreleme bloklarının boyutunu tahmin etme imkanı sunan bir zayıflıktan yararlanır. saldırganlar, şifreli mesajları küçük parçalara bölerek ve her parçanın şifresini çözmeye çalışarak, hangi bloğun doğru olduğunu belirleyebilirler."],
    ['poodle saldırısının ssl 3.0 mekanizmasının nasıl bir avantajından faydalandığını açıklayabilir misiniz?', 'moodle, php dilinde yazılmış bir yazılımdır ve mysql ile postgresql veri tabanı sistemlerini destekler.'],
    ['poodle saldırısının ssl 3.0 mekanizmasının nasıl bir avantajından faydalandığını açıklayabilir misiniz?', 'pozole çorbası; sinaloa, michoacán, guerrero, zacatecas, jalisco, morelos, meksika eyaleti ve meksiko gibi bölgelerde tipik sunulan bir yemektir.'],
    ['poodle saldırısının ssl 3.0 mekanizmasının nasıl bir avantajından faydalandığını açıklayabilir misiniz?', "metinde pozolun hem fermente mısır hamuru hem de ondan yapılan içeceğin adı olduğu belirtilmiştir. ayrıca, amerika'nın yerli halkları tarafından ormandaki uzun yolculuklarında geçim kaynağı olarak kullanıldığı da yazmaktadır. bu da pozolun sadece içecek olarak değil, besin kaynağı olarak da kullanıldığını gösteriyor."],
    ['poodle saldırısının ssl 3.0 mekanizmasının nasıl bir avantajından faydalandığını açıklayabilir misiniz?', "hayır, pgp sadece metin belgelerini, e-postaları ve dosyaları değil, aynı zamanda klasörleri ve disk bölümlerini de şifrelemek için kullanılabilir. yani, bilgisayarınızdaki çeşitli veri türlerini korumak için pgp'yi kullanabilirsiniz."],
]
scores = model.predict(pairs)
print(scores.shape)
# (5,)

# Or rank different texts based on similarity to a single text
ranks = model.rank(
    'poodle saldırısının ssl 3.0 mekanizmasının nasıl bir avantajından faydalandığını açıklayabilir misiniz?',
    [
        "poodle saldırısı, ssl 3.0'ın şifreleme bloklarının boyutunu tahmin etme imkanı sunan bir zayıflıktan yararlanır. saldırganlar, şifreli mesajları küçük parçalara bölerek ve her parçanın şifresini çözmeye çalışarak, hangi bloğun doğru olduğunu belirleyebilirler.",
        'moodle, php dilinde yazılmış bir yazılımdır ve mysql ile postgresql veri tabanı sistemlerini destekler.',
        'pozole çorbası; sinaloa, michoacán, guerrero, zacatecas, jalisco, morelos, meksika eyaleti ve meksiko gibi bölgelerde tipik sunulan bir yemektir.',
        "metinde pozolun hem fermente mısır hamuru hem de ondan yapılan içeceğin adı olduğu belirtilmiştir. ayrıca, amerika'nın yerli halkları tarafından ormandaki uzun yolculuklarında geçim kaynağı olarak kullanıldığı da yazmaktadır. bu da pozolun sadece içecek olarak değil, besin kaynağı olarak da kullanıldığını gösteriyor.",
        "hayır, pgp sadece metin belgelerini, e-postaları ve dosyaları değil, aynı zamanda klasörleri ve disk bölümlerini de şifrelemek için kullanılabilir. yani, bilgisayarınızdaki çeşitli veri türlerini korumak için pgp'yi kullanabilirsiniz.",
    ]
)
# [{'corpus_id': ..., 'score': ...}, {'corpus_id': ..., 'score': ...}, ...]

Training Details

Training Dataset

Unnamed Dataset

  • Size: 25,974 training samples
  • Columns: question, answer, and label
  • Approximate statistics based on the first 1000 samples:
    question answer label
    type string string int
    details
    • min: 21 characters
    • mean: 74.02 characters
    • max: 179 characters
    • min: 35 characters
    • mean: 247.03 characters
    • max: 747 characters
    • 0: ~81.20%
    • 1: ~18.80%
  • Samples:
    question answer label
    poodle saldırısının ssl 3.0 mekanizmasının nasıl bir avantajından faydalandığını açıklayabilir misiniz? poodle saldırısı, ssl 3.0'ın şifreleme bloklarının boyutunu tahmin etme imkanı sunan bir zayıflıktan yararlanır. saldırganlar, şifreli mesajları küçük parçalara bölerek ve her parçanın şifresini çözmeye çalışarak, hangi bloğun doğru olduğunu belirleyebilirler. 1
    poodle saldırısının ssl 3.0 mekanizmasının nasıl bir avantajından faydalandığını açıklayabilir misiniz? moodle, php dilinde yazılmış bir yazılımdır ve mysql ile postgresql veri tabanı sistemlerini destekler. 0
    poodle saldırısının ssl 3.0 mekanizmasının nasıl bir avantajından faydalandığını açıklayabilir misiniz? pozole çorbası; sinaloa, michoacán, guerrero, zacatecas, jalisco, morelos, meksika eyaleti ve meksiko gibi bölgelerde tipik sunulan bir yemektir. 0
  • Loss: BinaryCrossEntropyLoss with these parameters:
    {
        "activation_fn": "torch.nn.modules.linear.Identity",
        "pos_weight": 5
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • learning_rate: 2e-05
  • num_train_epochs: 2
  • warmup_ratio: 0.1
  • seed: 12
  • bf16: True
  • dataloader_num_workers: 4
  • load_best_model_at_end: True

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 2
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 12
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: True
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 4
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss
0.0006 1 3.0927
0.6158 1000 0.3722
1.2315 2000 0.1146
1.8473 3000 0.0476

Framework Versions

  • Python: 3.11.13
  • Sentence Transformers: 4.0.2
  • Transformers: 4.48.2
  • PyTorch: 2.6.0+cu124
  • Accelerate: 1.8.1
  • Datasets: 3.6.0
  • Tokenizers: 0.21.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}
Downloads last month
5
Safetensors
Model size
150M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for SMARTICT/reranker-gte-modernbert-base-tr-wiki-25964-train-sample

Finetuned
(12)
this model

Collection including SMARTICT/reranker-gte-modernbert-base-tr-wiki-25964-train-sample