🚀 Restarg Tokenizer

Restarg Tokenizer, Türkçe metinleri işlemek için optimize edilmiş bir BPE (Byte-Pair Encoding) tabanlı tokenizer'dır. Hızlı, esnek ve büyük dil modelleriyle uyumlu çalışacak şekilde tasarlanmıştır.


🔥 Özellikler

  • Türkçeye Özel: Türkçe metinlerde en iyi performansı almak için özel olarak tasarlanmıştır.
  • BPE (Byte-Pair Encoding): Sık kullanılan kelime parçalarını verimli bir şekilde birleştirerek etkili bir tokenizasyon sağlar.
  • Özel Tokenlar: [PAD], [UNK], [CLS], [SEP], [MASK] gibi özel tokenları destekler.
  • Hugging Face Uyumluluğu: transformers ve tokenizers kütüphaneleriyle kolayca entegre edilir.

📥 Kurulum

Tokenizer'ı kullanmak için öncelikle gerekli kütüphaneleri yükleyin:

pip install transformers huggingface_hub

🚀 Kullanım

Aşağıdaki Python kodu ile tokenizer'ı indirebilir ve kullanabilirsiniz:

from transformers import PreTrainedTokenizerFast

tokenizer = PreTrainedTokenizerFast.from_pretrained("lakechs/restarg")

text = "Bu bir test cümlesidir."
tokens = tokenizer.tokenize(text)
input_ids = tokenizer.encode(text)

print("Tokens:", tokens)
print("Input IDs:", input_ids)

🎯 Örnek Çıktı

Tokens: ['Bu', 'bir', 'test', 'cümlesidir', '.']
Input IDs: [101, 1253, 2134, 4352, 8734, 102]

🔗 Bağlantılar


Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support