File size: 3,867 Bytes
ee58947
 
aa86019
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
4e91b80
f8afce6
 
aa86019
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
6adf6d3
aa86019
 
 
 
 
 
 
43c750a
aa86019
 
43c750a
aa86019
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103



📋 **İçindekiler**  
Genel Açıklama • Yetenekler • Hızlı Başlangıç • Örnek Kullanım • Model Detayları • Ekibimiz • Kısıtlamalar • Lisans

---

## 📚 Genel Açıklama

**Qwen2.5-VL-7B-Turkish-VLM-Mix-Merged**, Alibaba Cloud’un unsloth/Qwen2.5-VL-7B-Instruct-bnb-4bit tabanlı görsel-dil (VLM) modelinin, **Turkish-VLM-Mix Benchmark** alt kümeleri (coco_qa_tr, docci_tr, vs.) üzerinde **LoRA** yöntemiyle Türkçe odaklı olarak ince ayarlanmış ve **4-bit NF4** kuantalama ile tek dosyada çalışacak şekilde birleştirilmiş sürümüdür.  
Türkçe görsel soru-cevap (VQA), görsel açıklama (captioning) ve temel resim anlama görevlerinde düşük gecikmeli ve düşük bellekli bir çözüm sunar.



---

## ✨ Yetenekler

* Türkçe görsel soru-cevap ve görsel açıklama üretimi  
* Çoklu mod (metin + görsel girdi) destekli chat şablonu  
* 4-bit NF4 kuantalama sayesinde ≤ 13 GB VRAM’de çalışır  
* **LoRA merged** → Ek adaptör gerektirmez; tek klasörden yüklenir  
* İngilizce sorulara sınırlı da olsa yanıt verebilir

---

## 🚀 Hızlı Başlangıç

```python
from unsloth import FastVisionModel
device = "cuda"           # veya "cpu"
model, tokenizer = FastVisionModel.from_pretrained(
    "OrionCAF/qwen2_5_turkish_vlm",
    load_in_4bit = False,  # fp16 yüklüyorsanız False yapın
    trust_remote_code = True,
)

FastVisionModel.for_inference(model)

from PIL import Image
img = Image.open("örnek.jpg")

messages = [{
    "role": "user",
    "content": [
        {"type": "text",  "text": "Bu fotoğrafta neler görüyorsun?"},
        {"type": "image", "image": img},
    ],
}]
chat = tokenizer.apply_chat_template(messages, add_generation_prompt=True)
inputs = tokenizer(img, chat, add_special_tokens=False,
                   return_tensors="pt").to(model.device)

out = model.generate(**inputs, max_new_tokens=128,
                     temperature=0.8, top_p=0.9)
print(tokenizer.decode(out[0], skip_special_tokens=True))
````

---

## 🧠 Model Detayları

| Özellik            | Değer                                                                   |
| ------------------ | ----------------------------------------------------------------------- |
| **Temel Model**    | unsloth/Qwen2.5-VL-7B-Instruct-bnb-4bit                                                      |
| **Eğitim Yöntemi** | LoRA (rank = 32) + `merge_and_unload()`                                 |
| **Veri Seti**      | ucsahin/Turkish-VLM-Mix-Benchmark( özel olarak teşekkür ederim ) (coco\_qa\_tr, docci\_tr, ist\_plq\_tr, …) |
| **Maks. Sekans**   | 2048 token (metin), 224×224 görsel yaması                               |
| **Dil Desteği**    | Türkçe (birincil), İngilizce (ek)                                       |
| **Lisans**         | Apache-2.0                                                              |

---

## 👥 Ekibimiz


## 👥 Ekibimiz

* **Ferhat Kürkçüoğlu** – [LinkedIn](https://www.linkedin.com/in/ferhatkurkcuoglu/)
* **Cengizhan Bayram** – [LinkedIn](https://www.linkedin.com/in/cengizhan-bayram-a66009223/)
* **Cevdet Ahmet Turan** – [LinkedIn](https://www.linkedin.com/in/cevdet-ahmet-turan/)
* **Volkan Altıntaş** – [LinkedIn](https://www.linkedin.com/in/volkanaltintas/)

> Ekibe katılmak veya geri bildirim vermek için GitHub issues veya Hugging Face Discussions bölümünü kullanabilirsiniz.

---

## ⚠️ Kısıtlamalar


2. Tıp, hukuk vb. alanlara dair görsellerde doğruluk garanti edilmez.
3. Düşük çözünürlüklü veya çok karmaşık sahnelerde performans düşebilir.
4. 4-bit kuantalama, fp16 modele göre hafif kalite kaybı yaratabilir.

---

## 📄 Lisans

Bu model ve ağırlıkları **Apache License 2.0** kapsamındadır.
Uygun atıfla ticari ve akademik projelerde serbestçe kullanabilirsiniz.

```