🇹🇷 LLaMA 3.2 - 3B Türkçe DAPT (LoRA Merge)

Bu model, Meta'nın Llama 3.2 3B modeli üzerine Türkçe haber ve metin verileriyle domain-adaptive pretraining (DAPT) uygulanarak eğitilmiştir. Eğitim, LoRA yöntemiyle gerçekleştirilmiş olup bu sürüm, tam birleştirilmiş (merged) modeldir.

📌 Temel Bilgiler

🔗 Base Model: meta-llama/Llama-3.2-3B

🧠 DAPT: Türkçe haber ve genel metinlerle domain-adaptive pretraining (DAPT)

🧪 Eğitim Yöntemi:

✅ 4-bit QLoRA (Quantized Low-Rank Adaptation)

✅ LoRA adaptörleri şu katmanlara entegre edildi: q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj

✅ SFTTrainer ile Supervised Fine-Tuning

🔁 Merge: LoRA ağırlıkları merge_and_unload() yöntemiyle ana modele entegre edilerek tam model oluşturuldu.

📏 Max sequence length: 4096

🖥️ Cihaz: A100 40GB / T4 16GB (donanıma göre batch size ayarlandı)

⚖️ Lisans: Meta Llama 3 Community License Agreement

📂 Kullanılan Veri Setleri

Veri Kaynağı	Açıklama	Örnek Sayısı
Türkçe Wikipedia	Türkçe Wikipedia'nın en güncel sürümü kullanılarak temizlenmiş ve ön işlenmiş metinler.	~700.000
Türkçe Haber Makaleleri	Çeşitli makale, yorum ve analiz haberleri.	~150.000
Türkçe Haberler	Çeşitli haber portallarından derlenen politika, ekonomi, spor, teknoloji ve kültür içerikleri.	~50.000

💡 Kullanım Örneği

from transformers import AutoTokenizer, AutoModelForCausalLM

model = AutoModelForCausalLM.from_pretrained("emirhan-denizyol/llama-3.2-3b-tr-dapt-full")
tokenizer = AutoTokenizer.from_pretrained("emirhan-denizyol/llama-3.2-3b-tr-dapt-full")

prompt = "Türkiye’de yapay zekâ çalışmaları hangi alanlarda yoğunlaşmaktadır?"
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=200)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

emirhan-denizyol
/

llama-3.2-3b-tr-dapt-qlora

You need to agree to share your contact information to access this model

🇹🇷 LLaMA 3.2 - 3B Türkçe DAPT (LoRA Merge)

📌 Temel Bilgiler

📂 Kullanılan Veri Setleri

💡 Kullanım Örneği

Model tree for emirhan-denizyol/llama-3.2-3b-tr-dapt-qlora