|
--- |
|
license: llama3.2 |
|
base_model: |
|
- meta-llama/Llama-3.2-3B |
|
pipeline_tag: text-generation |
|
--- |
|
|
|
# 🇹🇷 LLaMA 3.2 - 3B Türkçe DAPT (LoRA Merge) |
|
|
|
Bu model, Meta'nın [Llama 3.2 3B](https://huggingface.co/meta-llama/Llama-3.2-3B) modeli üzerine Türkçe haber ve metin verileriyle **domain-adaptive pretraining (DAPT)** uygulanarak eğitilmiştir. Eğitim, [LoRA](https://arxiv.org/abs/2106.09685) yöntemiyle gerçekleştirilmiş olup bu sürüm, tam birleştirilmiş (merged) modeldir. |
|
|
|
--- |
|
|
|
## 📌 Temel Bilgiler |
|
|
|
🔗 Base Model: meta-llama/Llama-3.2-3B |
|
|
|
🧠 DAPT: Türkçe haber ve genel metinlerle domain-adaptive pretraining (DAPT) |
|
|
|
🧪 Eğitim Yöntemi: |
|
|
|
✅ 4-bit QLoRA (Quantized Low-Rank Adaptation) |
|
|
|
✅ LoRA adaptörleri şu katmanlara entegre edildi: |
|
q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj |
|
|
|
✅ SFTTrainer ile Supervised Fine-Tuning |
|
|
|
🔁 Merge: LoRA ağırlıkları merge_and_unload() yöntemiyle ana modele entegre edilerek tam model oluşturuldu. |
|
|
|
📏 Max sequence length: 4096 |
|
|
|
🖥️ Cihaz: A100 40GB / T4 16GB (donanıma göre batch size ayarlandı) |
|
|
|
⚖️ Lisans: Meta Llama 3 Community License Agreement |
|
|
|
--- |
|
|
|
|
|
--- |
|
|
|
## 📂 Kullanılan Veri Setleri |
|
|
|
| Veri Kaynağı | Açıklama | Örnek Sayısı | |
|
|-------------------------|---------------------------------------------------------------------------|-------------| |
|
| **Türkçe Wikipedia** | Türkçe Wikipedia'nın en güncel sürümü kullanılarak temizlenmiş ve ön işlenmiş metinler. | ~700.000 | |
|
| **Türkçe Haber Makaleleri** | Çeşitli makale, yorum ve analiz haberleri. | ~150.000 | |
|
| **Türkçe Haberler** | Çeşitli haber portallarından derlenen politika, ekonomi, spor, teknoloji ve kültür içerikleri. | ~50.000 | |
|
|
|
--- |
|
|
|
|
|
## 💡 Kullanım Örneği |
|
|
|
```python |
|
from transformers import AutoTokenizer, AutoModelForCausalLM |
|
|
|
model = AutoModelForCausalLM.from_pretrained("emirhan-denizyol/llama-3.2-3b-tr-dapt-full") |
|
tokenizer = AutoTokenizer.from_pretrained("emirhan-denizyol/llama-3.2-3b-tr-dapt-full") |
|
|
|
prompt = "Türkiye’de yapay zekâ çalışmaları hangi alanlarda yoğunlaşmaktadır?" |
|
inputs = tokenizer(prompt, return_tensors="pt").to("cuda") |
|
outputs = model.generate(**inputs, max_new_tokens=200) |
|
print(tokenizer.decode(outputs[0], skip_special_tokens=True)) |
|
|