OrionCAF
/

qwen2_5_turkish_vlm

8-bit precision

Model card Files Files and versions Community

qwen2_5_turkish_vlm / README.md

Cosmobillian's picture

Update README.md

e9bd5ee verified about 1 month ago

|

3.87 kB




	📋 İçindekiler
	Genel Açıklama • Yetenekler • Hızlı Başlangıç • Örnek Kullanım • Model Detayları • Ekibimiz • Kısıtlamalar • Lisans

	---

	## 📚 Genel Açıklama

	Qwen2.5-VL-7B-Turkish-VLM-Mix-Merged, Alibaba Cloud’un unsloth/Qwen2.5-VL-7B-Instruct-bnb-4bit tabanlı görsel-dil (VLM) modelinin, Turkish-VLM-Mix Benchmark alt kümeleri (coco_qa_tr, docci_tr, vs.) üzerinde LoRA yöntemiyle Türkçe odaklı olarak ince ayarlanmış ve 4-bit NF4 kuantalama ile tek dosyada çalışacak şekilde birleştirilmiş sürümüdür.
	Türkçe görsel soru-cevap (VQA), görsel açıklama (captioning) ve temel resim anlama görevlerinde düşük gecikmeli ve düşük bellekli bir çözüm sunar.



	---

	## ✨ Yetenekler

	* Türkçe görsel soru-cevap ve görsel açıklama üretimi
	* Çoklu mod (metin + görsel girdi) destekli chat şablonu
	* 4-bit NF4 kuantalama sayesinde ≤ 13 GB VRAM’de çalışır
	* LoRA merged → Ek adaptör gerektirmez; tek klasörden yüklenir
	* İngilizce sorulara sınırlı da olsa yanıt verebilir

	---

	## 🚀 Hızlı Başlangıç

	```python
	from unsloth import FastVisionModel
	device = "cuda" # veya "cpu"
	model, tokenizer = FastVisionModel.from_pretrained(
	"OrionCAF/qwen2_5_turkish_vlm",
	load_in_4bit = False, # fp16 yüklüyorsanız False yapın
	trust_remote_code = True,
	)

	FastVisionModel.for_inference(model)

	from PIL import Image
	img = Image.open("örnek.jpg")

	messages = [{
	"role": "user",
	"content": [
	{"type": "text", "text": "Bu fotoğrafta neler görüyorsun?"},
	{"type": "image", "image": img},
	],
	}]
	chat = tokenizer.apply_chat_template(messages, add_generation_prompt=True)
	inputs = tokenizer(img, chat, add_special_tokens=False,
	return_tensors="pt").to(model.device)

	out = model.generate(**inputs, max_new_tokens=128,
	temperature=0.8, top_p=0.9)
	print(tokenizer.decode(out[0], skip_special_tokens=True))
	````

	---

	## 🧠 Model Detayları

	\| Özellik \| Değer \|
	\| ------------------ \| ----------------------------------------------------------------------- \|
	\| Temel Model \| unsloth/Qwen2.5-VL-7B-Instruct-bnb-4bit \|
	\| Eğitim Yöntemi \| LoRA (rank = 32) + `merge_and_unload()` \|
	\| Veri Seti \| ucsahin/Turkish-VLM-Mix-Benchmark( özel olarak teşekkür ederim ) (coco\_qa\_tr, docci\_tr, ist\_plq\_tr, …) \|
	\| Maks. Sekans \| 2048 token (metin), 224×224 görsel yaması \|
	\| Dil Desteği \| Türkçe (birincil), İngilizce (ek) \|
	\| Lisans \| Apache-2.0 \|

	---

	## 👥 Ekibimiz


	## 👥 Ekibimiz

	* Ferhat Kürkçüoğlu – [LinkedIn](https://www.linkedin.com/in/ferhatkurkcuoglu/)
	* Cengizhan Bayram – [LinkedIn](https://www.linkedin.com/in/cengizhan-bayram-a66009223/)
	* Cevdet Ahmet Turan – [LinkedIn](https://www.linkedin.com/in/cevdet-ahmet-turan/)
	* Volkan Altıntaş – [LinkedIn](https://www.linkedin.com/in/volkanaltintas/)

	> Ekibe katılmak veya geri bildirim vermek için GitHub issues veya Hugging Face Discussions bölümünü kullanabilirsiniz.

	---

	## ⚠️ Kısıtlamalar


	2. Tıp, hukuk vb. alanlara dair görsellerde doğruluk garanti edilmez.
	3. Düşük çözünürlüklü veya çok karmaşık sahnelerde performans düşebilir.
	4. 4-bit kuantalama, fp16 modele göre hafif kalite kaybı yaratabilir.

	---

	## 📄 Lisans

	Bu model ve ağırlıkları Apache License 2.0 kapsamındadır.
	Uygun atıfla ticari ve akademik projelerde serbestçe kullanabilirsiniz.

	```