qwen2_5_turkish_vlm / README.md
Cosmobillian's picture
Update README.md
e9bd5ee verified
|
raw
history blame
3.87 kB
📋 **İçindekiler**
Genel Açıklama • Yetenekler • Hızlı Başlangıç • Örnek Kullanım • Model Detayları • Ekibimiz • Kısıtlamalar • Lisans
---
## 📚 Genel Açıklama
**Qwen2.5-VL-7B-Turkish-VLM-Mix-Merged**, Alibaba Cloud’un unsloth/Qwen2.5-VL-7B-Instruct-bnb-4bit tabanlı görsel-dil (VLM) modelinin, **Turkish-VLM-Mix Benchmark** alt kümeleri (coco_qa_tr, docci_tr, vs.) üzerinde **LoRA** yöntemiyle Türkçe odaklı olarak ince ayarlanmış ve **4-bit NF4** kuantalama ile tek dosyada çalışacak şekilde birleştirilmiş sürümüdür.
Türkçe görsel soru-cevap (VQA), görsel açıklama (captioning) ve temel resim anlama görevlerinde düşük gecikmeli ve düşük bellekli bir çözüm sunar.
---
## ✨ Yetenekler
* Türkçe görsel soru-cevap ve görsel açıklama üretimi
* Çoklu mod (metin + görsel girdi) destekli chat şablonu
* 4-bit NF4 kuantalama sayesinde ≤ 13 GB VRAM’de çalışır
* **LoRA merged** → Ek adaptör gerektirmez; tek klasörden yüklenir
* İngilizce sorulara sınırlı da olsa yanıt verebilir
---
## 🚀 Hızlı Başlangıç
```python
from unsloth import FastVisionModel
device = "cuda" # veya "cpu"
model, tokenizer = FastVisionModel.from_pretrained(
"OrionCAF/qwen2_5_turkish_vlm",
load_in_4bit = False, # fp16 yüklüyorsanız False yapın
trust_remote_code = True,
)
FastVisionModel.for_inference(model)
from PIL import Image
img = Image.open("örnek.jpg")
messages = [{
"role": "user",
"content": [
{"type": "text", "text": "Bu fotoğrafta neler görüyorsun?"},
{"type": "image", "image": img},
],
}]
chat = tokenizer.apply_chat_template(messages, add_generation_prompt=True)
inputs = tokenizer(img, chat, add_special_tokens=False,
return_tensors="pt").to(model.device)
out = model.generate(**inputs, max_new_tokens=128,
temperature=0.8, top_p=0.9)
print(tokenizer.decode(out[0], skip_special_tokens=True))
````
---
## 🧠 Model Detayları
| Özellik | Değer |
| ------------------ | ----------------------------------------------------------------------- |
| **Temel Model** | unsloth/Qwen2.5-VL-7B-Instruct-bnb-4bit |
| **Eğitim Yöntemi** | LoRA (rank = 32) + `merge_and_unload()` |
| **Veri Seti** | ucsahin/Turkish-VLM-Mix-Benchmark( özel olarak teşekkür ederim ) (coco\_qa\_tr, docci\_tr, ist\_plq\_tr, …) |
| **Maks. Sekans** | 2048 token (metin), 224×224 görsel yaması |
| **Dil Desteği** | Türkçe (birincil), İngilizce (ek) |
| **Lisans** | Apache-2.0 |
---
## 👥 Ekibimiz
## 👥 Ekibimiz
* **Ferhat Kürkçüoğlu** – [LinkedIn](https://www.linkedin.com/in/ferhatkurkcuoglu/)
* **Cengizhan Bayram** – [LinkedIn](https://www.linkedin.com/in/cengizhan-bayram-a66009223/)
* **Cevdet Ahmet Turan** – [LinkedIn](https://www.linkedin.com/in/cevdet-ahmet-turan/)
* **Volkan Altıntaş** – [LinkedIn](https://www.linkedin.com/in/volkanaltintas/)
> Ekibe katılmak veya geri bildirim vermek için GitHub issues veya Hugging Face Discussions bölümünü kullanabilirsiniz.
---
## ⚠️ Kısıtlamalar
2. Tıp, hukuk vb. alanlara dair görsellerde doğruluk garanti edilmez.
3. Düşük çözünürlüklü veya çok karmaşık sahnelerde performans düşebilir.
4. 4-bit kuantalama, fp16 modele göre hafif kalite kaybı yaratabilir.
---
## 📄 Lisans
Bu model ve ağırlıkları **Apache License 2.0** kapsamındadır.
Uygun atıfla ticari ve akademik projelerde serbestçe kullanabilirsiniz.
```