OrionCAF/qwen2_5_turkish_vlm

📋 İçindekiler
Genel Açıklama • Yetenekler • Hızlı Başlangıç • Örnek Kullanım • Model Detayları • Ekibimiz • Kısıtlamalar • Lisans

📚 Genel Açıklama

Qwen2.5-VL-7B-Turkish-VLM-Mix-Merged, Alibaba Cloud’un unsloth/Qwen2.5-VL-7B-Instruct-bnb-4bit tabanlı görsel-dil (VLM) modelinin, Turkish-VLM-Mix Benchmark alt kümeleri (coco_qa_tr, docci_tr, vs.) üzerinde LoRA yöntemiyle Türkçe odaklı olarak ince ayarlanmış ve 4-bit NF4 kuantalama ile tek dosyada çalışacak şekilde birleştirilmiş sürümüdür.
Türkçe görsel soru-cevap (VQA), görsel açıklama (captioning) ve temel resim anlama görevlerinde düşük gecikmeli ve düşük bellekli bir çözüm sunar.

✨ Yetenekler

Türkçe görsel soru-cevap ve görsel açıklama üretimi
Çoklu mod (metin + görsel girdi) destekli chat şablonu
4-bit NF4 kuantalama sayesinde ≤ 13 GB VRAM’de çalışır
LoRA merged → Ek adaptör gerektirmez; tek klasörden yüklenir
İngilizce sorulara sınırlı da olsa yanıt verebilir

🚀 Hızlı Başlangıç

from unsloth import FastVisionModel
device = "cuda"           # veya "cpu"
model, tokenizer = FastVisionModel.from_pretrained(
    "OrionCAF/qwen2_5_turkish_vlm",
    load_in_4bit = False,  # fp16 yüklüyorsanız False yapın
    trust_remote_code = True,
)

FastVisionModel.for_inference(model)

from PIL import Image
img = Image.open("örnek.jpg")

messages = [{
    "role": "user",
    "content": [
        {"type": "text",  "text": "Bu fotoğrafta neler görüyorsun?"},
        {"type": "image", "image": img},
    ],
}]
chat = tokenizer.apply_chat_template(messages, add_generation_prompt=True)
inputs = tokenizer(img, chat, add_special_tokens=False,
                   return_tensors="pt").to(model.device)

out = model.generate(**inputs, max_new_tokens=128,
                     temperature=0.8, top_p=0.9)
print(tokenizer.decode(out[0], skip_special_tokens=True))

🧠 Model Detayları

Özellik	Değer
Temel Model	unsloth/Qwen2.5-VL-7B-Instruct-bnb-4bit
Eğitim Yöntemi	LoRA (rank = 32) + `merge_and_unload()`
Veri Seti	ucsahin/Turkish-VLM-Mix-Benchmark( özel olarak teşekkür ederim ) (coco_qa_tr, docci_tr, ist_plq_tr, …)
Maks. Sekans	2048 token (metin), 224×224 görsel yaması
Dil Desteği	Türkçe (birincil), İngilizce (ek)
Lisans	Apache-2.0

👥 Ekibimiz

Ferhat Kürkçüoğlu – LinkedIn
Cengizhan Bayram – LinkedIn
Cevdet Ahmet Turan – LinkedIn
Volkan Altıntaş – LinkedIn

Ekibe katılmak veya geri bildirim vermek için GitHub issues veya Hugging Face Discussions bölümünü kullanabilirsiniz.

⚠️ Kısıtlamalar

Tıp, hukuk vb. alanlara dair görsellerde doğruluk garanti edilmez.
Düşük çözünürlüklü veya çok karmaşık sahnelerde performans düşebilir.
4-bit kuantalama, fp16 modele göre hafif kalite kaybı yaratabilir.

📄 Lisans

Bu model ve ağırlıkları Apache License 2.0 kapsamındadır. Uygun atıfla ticari ve akademik projelerde serbestçe kullanabilirsiniz.