🚀 Restarg Tokenizer
Restarg Tokenizer, Türkçe metinleri işlemek için optimize edilmiş bir BPE (Byte-Pair Encoding) tabanlı tokenizer'dır. Hızlı, esnek ve büyük dil modelleriyle uyumlu çalışacak şekilde tasarlanmıştır.
🔥 Özellikler
- Türkçeye Özel: Türkçe metinlerde en iyi performansı almak için özel olarak tasarlanmıştır.
- BPE (Byte-Pair Encoding): Sık kullanılan kelime parçalarını verimli bir şekilde birleştirerek etkili bir tokenizasyon sağlar.
- Özel Tokenlar:
[PAD]
,[UNK]
,[CLS]
,[SEP]
,[MASK]
gibi özel tokenları destekler. - Hugging Face Uyumluluğu:
transformers
vetokenizers
kütüphaneleriyle kolayca entegre edilir.
📥 Kurulum
Tokenizer'ı kullanmak için öncelikle gerekli kütüphaneleri yükleyin:
pip install transformers huggingface_hub
🚀 Kullanım
Aşağıdaki Python kodu ile tokenizer'ı indirebilir ve kullanabilirsiniz:
from transformers import PreTrainedTokenizerFast
tokenizer = PreTrainedTokenizerFast.from_pretrained("lakechs/restarg")
text = "Bu bir test cümlesidir."
tokens = tokenizer.tokenize(text)
input_ids = tokenizer.encode(text)
print("Tokens:", tokens)
print("Input IDs:", input_ids)
🎯 Örnek Çıktı
Tokens: ['Bu', 'bir', 'test', 'cümlesidir', '.']
Input IDs: [101, 1253, 2134, 4352, 8734, 102]
🔗 Bağlantılar
- 🤗 Hugging Face Model Sayfası: lakechs/restarg
- 📜 Lisans: MIT
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support