🚀 Restarg Tokenizer

Restarg Tokenizer, Türkçe metinleri işlemek için optimize edilmiş bir BPE (Byte-Pair Encoding) tabanlı tokenizer'dır. Hızlı, esnek ve büyük dil modelleriyle uyumlu çalışacak şekilde tasarlanmıştır.

🔥 Özellikler

Türkçeye Özel: Türkçe metinlerde en iyi performansı almak için özel olarak tasarlanmıştır.
BPE (Byte-Pair Encoding): Sık kullanılan kelime parçalarını verimli bir şekilde birleştirerek etkili bir tokenizasyon sağlar.
Özel Tokenlar: [PAD], [UNK], [CLS], [SEP], [MASK] gibi özel tokenları destekler.
Hugging Face Uyumluluğu: transformers ve tokenizers kütüphaneleriyle kolayca entegre edilir.

📥 Kurulum

Tokenizer'ı kullanmak için öncelikle gerekli kütüphaneleri yükleyin:

pip install transformers huggingface_hub

🚀 Kullanım

Aşağıdaki Python kodu ile tokenizer'ı indirebilir ve kullanabilirsiniz:

from transformers import PreTrainedTokenizerFast

tokenizer = PreTrainedTokenizerFast.from_pretrained("lakechs/restarg")

text = "Bu bir test cümlesidir."
tokens = tokenizer.tokenize(text)
input_ids = tokenizer.encode(text)

print("Tokens:", tokens)
print("Input IDs:", input_ids)

🎯 Örnek Çıktı

Tokens: ['Bu', 'bir', 'test', 'cümlesidir', '.']
Input IDs: [101, 1253, 2134, 4352, 8734, 102]

🔗 Bağlantılar

🤗 Hugging Face Model Sayfası: lakechs/restarg
📜 Lisans: MIT