|
|
|
|
|
|
|
📋 **İçindekiler** |
|
Genel Açıklama • Yetenekler • Hızlı Başlangıç • Örnek Kullanım • Model Detayları • Ekibimiz • Kısıtlamalar • Lisans |
|
|
|
--- |
|
|
|
## 📚 Genel Açıklama |
|
|
|
**Qwen2.5-VL-7B-Turkish-VLM-Mix-Merged**, Alibaba Cloud’un unsloth/Qwen2.5-VL-7B-Instruct-bnb-4bit tabanlı görsel-dil (VLM) modelinin, **Turkish-VLM-Mix Benchmark** alt kümeleri (coco_qa_tr, docci_tr, vs.) üzerinde **LoRA** yöntemiyle Türkçe odaklı olarak ince ayarlanmış ve **4-bit NF4** kuantalama ile tek dosyada çalışacak şekilde birleştirilmiş sürümüdür. |
|
Türkçe görsel soru-cevap (VQA), görsel açıklama (captioning) ve temel resim anlama görevlerinde düşük gecikmeli ve düşük bellekli bir çözüm sunar. |
|
|
|
|
|
|
|
--- |
|
|
|
## ✨ Yetenekler |
|
|
|
* Türkçe görsel soru-cevap ve görsel açıklama üretimi |
|
* Çoklu mod (metin + görsel girdi) destekli chat şablonu |
|
* 4-bit NF4 kuantalama sayesinde ≤ 13 GB VRAM’de çalışır |
|
* **LoRA merged** → Ek adaptör gerektirmez; tek klasörden yüklenir |
|
* İngilizce sorulara sınırlı da olsa yanıt verebilir |
|
|
|
--- |
|
|
|
## 🚀 Hızlı Başlangıç |
|
|
|
```python |
|
from unsloth import FastVisionModel |
|
device = "cuda" # veya "cpu" |
|
model, tokenizer = FastVisionModel.from_pretrained( |
|
"OrionCAF/qwen2_5_turkish_vlm", |
|
load_in_4bit = False, # fp16 yüklüyorsanız False yapın |
|
trust_remote_code = True, |
|
) |
|
|
|
FastVisionModel.for_inference(model) |
|
|
|
from PIL import Image |
|
img = Image.open("örnek.jpg") |
|
|
|
messages = [{ |
|
"role": "user", |
|
"content": [ |
|
{"type": "text", "text": "Bu fotoğrafta neler görüyorsun?"}, |
|
{"type": "image", "image": img}, |
|
], |
|
}] |
|
chat = tokenizer.apply_chat_template(messages, add_generation_prompt=True) |
|
inputs = tokenizer(img, chat, add_special_tokens=False, |
|
return_tensors="pt").to(model.device) |
|
|
|
out = model.generate(**inputs, max_new_tokens=128, |
|
temperature=0.8, top_p=0.9) |
|
print(tokenizer.decode(out[0], skip_special_tokens=True)) |
|
```` |
|
|
|
--- |
|
|
|
## 🧠 Model Detayları |
|
|
|
| Özellik | Değer | |
|
| ------------------ | ----------------------------------------------------------------------- | |
|
| **Temel Model** | unsloth/Qwen2.5-VL-7B-Instruct-bnb-4bit | |
|
| **Eğitim Yöntemi** | LoRA (rank = 32) + `merge_and_unload()` | |
|
| **Veri Seti** | ucsahin/Turkish-VLM-Mix-Benchmark( özel olarak teşekkür ederim ) (coco\_qa\_tr, docci\_tr, ist\_plq\_tr, …) | |
|
| **Maks. Sekans** | 2048 token (metin), 224×224 görsel yaması | |
|
| **Dil Desteği** | Türkçe (birincil), İngilizce (ek) | |
|
| **Lisans** | Apache-2.0 | |
|
|
|
--- |
|
|
|
## 👥 Ekibimiz |
|
|
|
|
|
## 👥 Ekibimiz |
|
|
|
* **Ferhat Kürkçüoğlu** – [LinkedIn](https://www.linkedin.com/in/ferhatkurkcuoglu/) |
|
* **Cengizhan Bayram** – [LinkedIn](https://www.linkedin.com/in/cengizhan-bayram-a66009223/) |
|
* **Cevdet Ahmet Turan** – [LinkedIn](https://www.linkedin.com/in/cevdet-ahmet-turan/) |
|
* **Volkan Altıntaş** – [LinkedIn](https://www.linkedin.com/in/volkanaltintas/) |
|
|
|
> Ekibe katılmak veya geri bildirim vermek için GitHub issues veya Hugging Face Discussions bölümünü kullanabilirsiniz. |
|
|
|
--- |
|
|
|
## ⚠️ Kısıtlamalar |
|
|
|
|
|
2. Tıp, hukuk vb. alanlara dair görsellerde doğruluk garanti edilmez. |
|
3. Düşük çözünürlüklü veya çok karmaşık sahnelerde performans düşebilir. |
|
4. 4-bit kuantalama, fp16 modele göre hafif kalite kaybı yaratabilir. |
|
|
|
--- |
|
|
|
## 📄 Lisans |
|
|
|
Bu model ve ağırlıkları **Apache License 2.0** kapsamındadır. |
|
Uygun atıfla ticari ve akademik projelerde serbestçe kullanabilirsiniz. |
|
|
|
``` |