emirhan-denizyol
/

llama-3.2-3b-tr-dapt-qlora

Text Generation

Model card Files Files and versions

llama-3.2-3b-tr-dapt-qlora / README.md

emirhan-denizyol's picture

emirhan-denizyol

Update README.md

846124b verified 16 days ago

|

history blame contribute delete

2.42 kB

	---
	license: llama3.2
	base_model:
	- meta-llama/Llama-3.2-3B
	pipeline_tag: text-generation
	---

	# 🇹🇷 LLaMA 3.2 - 3B Türkçe DAPT (LoRA Merge)

	Bu model, Meta'nın [Llama 3.2 3B](https://huggingface.co/meta-llama/Llama-3.2-3B) modeli üzerine Türkçe haber ve metin verileriyle domain-adaptive pretraining (DAPT) uygulanarak eğitilmiştir. Eğitim, [LoRA](https://arxiv.org/abs/2106.09685) yöntemiyle gerçekleştirilmiş olup bu sürüm, tam birleştirilmiş (merged) modeldir.

	---

	## 📌 Temel Bilgiler

	🔗 Base Model: meta-llama/Llama-3.2-3B

	🧠 DAPT: Türkçe haber ve genel metinlerle domain-adaptive pretraining (DAPT)

	🧪 Eğitim Yöntemi:

	✅ 4-bit QLoRA (Quantized Low-Rank Adaptation)

	✅ LoRA adaptörleri şu katmanlara entegre edildi:
	q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj

	✅ SFTTrainer ile Supervised Fine-Tuning

	🔁 Merge: LoRA ağırlıkları merge_and_unload() yöntemiyle ana modele entegre edilerek tam model oluşturuldu.

	📏 Max sequence length: 4096

	🖥️ Cihaz: A100 40GB / T4 16GB (donanıma göre batch size ayarlandı)

	⚖️ Lisans: Meta Llama 3 Community License Agreement

	---


	---

	## 📂 Kullanılan Veri Setleri

	\| Veri Kaynağı \| Açıklama \| Örnek Sayısı \|
	\|-------------------------\|---------------------------------------------------------------------------\|-------------\|
	\| Türkçe Wikipedia \| Türkçe Wikipedia'nın en güncel sürümü kullanılarak temizlenmiş ve ön işlenmiş metinler. \| ~700.000 \|
	\| Türkçe Haber Makaleleri \| Çeşitli makale, yorum ve analiz haberleri. \| ~150.000 \|
	\| Türkçe Haberler \| Çeşitli haber portallarından derlenen politika, ekonomi, spor, teknoloji ve kültür içerikleri. \| ~50.000 \|

	---


	## 💡 Kullanım Örneği

	```python
	from transformers import AutoTokenizer, AutoModelForCausalLM

	model = AutoModelForCausalLM.from_pretrained("emirhan-denizyol/llama-3.2-3b-tr-dapt-full")
	tokenizer = AutoTokenizer.from_pretrained("emirhan-denizyol/llama-3.2-3b-tr-dapt-full")

	prompt = "Türkiye’de yapay zekâ çalışmaları hangi alanlarda yoğunlaşmaktadır?"
	inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
	outputs = model.generate(**inputs, max_new_tokens=200)
	print(tokenizer.decode(outputs[0], skip_special_tokens=True))