📋 İçindekiler
Genel Açıklama • Yetenekler • Hızlı Başlangıç • Örnek Kullanım • Model Detayları • Ekibimiz • Kısıtlamalar • Lisans
📚 Genel Açıklama
Qwen2.5-VL-7B-Turkish-VLM-Mix-Merged, Alibaba Cloud’un unsloth/Qwen2.5-VL-7B-Instruct-bnb-4bit tabanlı görsel-dil (VLM) modelinin, Turkish-VLM-Mix Benchmark alt kümeleri (coco_qa_tr, docci_tr, vs.) üzerinde LoRA yöntemiyle Türkçe odaklı olarak ince ayarlanmış ve 4-bit NF4 kuantalama ile tek dosyada çalışacak şekilde birleştirilmiş sürümüdür.
Türkçe görsel soru-cevap (VQA), görsel açıklama (captioning) ve temel resim anlama görevlerinde düşük gecikmeli ve düşük bellekli bir çözüm sunar.
✨ Yetenekler
- Türkçe görsel soru-cevap ve görsel açıklama üretimi
- Çoklu mod (metin + görsel girdi) destekli chat şablonu
- 4-bit NF4 kuantalama sayesinde ≤ 13 GB VRAM’de çalışır
- LoRA merged → Ek adaptör gerektirmez; tek klasörden yüklenir
- İngilizce sorulara sınırlı da olsa yanıt verebilir
🚀 Hızlı Başlangıç
from unsloth import FastVisionModel
device = "cuda" # veya "cpu"
model, tokenizer = FastVisionModel.from_pretrained(
"OrionCAF/qwen2_5_turkish_vlm",
load_in_4bit = False, # fp16 yüklüyorsanız False yapın
trust_remote_code = True,
)
FastVisionModel.for_inference(model)
from PIL import Image
img = Image.open("örnek.jpg")
messages = [{
"role": "user",
"content": [
{"type": "text", "text": "Bu fotoğrafta neler görüyorsun?"},
{"type": "image", "image": img},
],
}]
chat = tokenizer.apply_chat_template(messages, add_generation_prompt=True)
inputs = tokenizer(img, chat, add_special_tokens=False,
return_tensors="pt").to(model.device)
out = model.generate(**inputs, max_new_tokens=128,
temperature=0.8, top_p=0.9)
print(tokenizer.decode(out[0], skip_special_tokens=True))
🧠 Model Detayları
Özellik | Değer |
---|---|
Temel Model | unsloth/Qwen2.5-VL-7B-Instruct-bnb-4bit |
Eğitim Yöntemi | LoRA (rank = 32) + merge_and_unload() |
Veri Seti | ucsahin/Turkish-VLM-Mix-Benchmark( özel olarak teşekkür ederim ) (coco_qa_tr, docci_tr, ist_plq_tr, …) |
Maks. Sekans | 2048 token (metin), 224×224 görsel yaması |
Dil Desteği | Türkçe (birincil), İngilizce (ek) |
Lisans | Apache-2.0 |
👥 Ekibimiz
👥 Ekibimiz
- Ferhat Kürkçüoğlu – LinkedIn
- Cengizhan Bayram – LinkedIn
- Cevdet Ahmet Turan – LinkedIn
- Volkan Altıntaş – LinkedIn
Ekibe katılmak veya geri bildirim vermek için GitHub issues veya Hugging Face Discussions bölümünü kullanabilirsiniz.
⚠️ Kısıtlamalar
- Tıp, hukuk vb. alanlara dair görsellerde doğruluk garanti edilmez.
- Düşük çözünürlüklü veya çok karmaşık sahnelerde performans düşebilir.
- 4-bit kuantalama, fp16 modele göre hafif kalite kaybı yaratabilir.
📄 Lisans
Bu model ve ağırlıkları Apache License 2.0 kapsamındadır. Uygun atıfla ticari ve akademik projelerde serbestçe kullanabilirsiniz.
- Downloads last month
- 116