kallamni-2.6b-v1

كلّمني 2.6B v1 هو نموذج لغوي بالحجم 2.6 مليار باراميتر، مخصّص للمحادثة باللهجة الإماراتية المحكية. تم تدريبه ليولّد إجابات طبيعية باللهجة المحلية بعيدًا عن العربية الفصحى. هذا الإصدار مطوّر عن kallamni-1.2b-v1 بقدرة أكبر وجودة أفضل.
ملخص النموذج
- نوع النموذج: نموذج مولّد للنصوص (Causal LM) مدرّب للتعليمات والمحادثة
- اللغة: اللهجة الإماراتية المحكية فقط
- النموذج الأساسي:
LiquidAI/LFM2-2.6B
- التدريب: Fine-tuning باستخدام LoRA، لمدّة ~3 عصور تدريبية (epochs)
- الأدوات: Unsloth + TRL (SFTTrainer)
- البيانات: 35 ألف مثال محادثة مصطنع (Synthetic Dataset)
البيانات
الحجم: حوالي 35,000 مثال سؤال/جواب
المصدر: بيانات اصطناعية تم توليدها خصيصًا باللهجة الإماراتية
المجالات المغطاة:
- الحياة اليومية (التسوق، الطقس، التحية، العائلة، المواصلات)
- المناسبات الاجتماعية (الأعياد، الأعراس، المجالس)
- الروتين المنزلي والأنشطة البسيطة
صيغة البيانات: محادثات chat بين user و assistant، مثلاً:
<|startoftext|><|im_start|>user
وين تحب تتقهوى الصبح؟
<|im_end|><|im_start|>assistant
أحب آخذ كرك من الكوفي اللي جنب البيت، دوم طعمه مضبوط.
<|im_end|>
⚙️ التدريب
الأدوات:
- Unsloth (تدريب سريع وفعّال بالذاكرة)
- TRL / SFTTrainer
النموذج الأساسي:
LiquidAI/LFM2-2.6B
الإستراتيجية:
- LoRA على طبقات الانتباه والـ MLP
- قوالب محادثة ثابتة (System/User/Assistant)
- تعليمات للنظام باللهجة الإماراتية لتفادي الفصحى
الاستخدام
from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer
import torch
model_id = "yasserrmd/kallamni-2.6b-v1"
# تحميل النموذج والمفاتيح
tokenizer = AutoTokenizer.from_pretrained(model_id, use_fast=True)
model = AutoModelForCausalLM.from_pretrained(
model_id,
device_map="auto",
torch_dtype=torch.bfloat16
)
# تعليمات النظام (System prompt)
system_instruction = {
"role": "system",
"content": "انت مساعد إماراتي. لازم تجاوب باللهجة الإماراتية المحكية فقط وما تستخدم العربية الفصحى."
}
# مثال محادثة
messages = [
system_instruction,
{"role": "user", "content": "شو مسوي اليوم؟"}
]
inputs = tokenizer.apply_chat_template(
messages,
add_generation_prompt=True,
return_tensors="pt"
).to(model.device)
streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
_ = model.generate(
**inputs,
max_new_tokens=120,
temperature=0.7,
top_p=0.9,
repetition_penalty=1.05,
streamer=streamer
)
الأداء (غير رسمي)
- يعطي ردود طبيعية باللهجة الإماراتية مع مفردات محلية
- يحافظ على الأسلوب الودي في المحادثة متعددة الأدوار
- أحيانًا يميل لاستخدام كلمات فصحى → يُنصح باستخدام system prompt قوي
الاستخدامات المقصودة
- روبوتات محادثة باللهجة الإماراتية
- مساعدات صوتية مخصصة
- أدوات تعليمية لتعلّم اللهجة الإماراتية
- أبحاث الذكاء الاصطناعي في اللهجات العربية
القيود
- قد يظهر بعض الانزلاق للفصحى إذا لم يُوجَّه جيدًا
- غير مخصص للاستشارات المتخصصة (طب، قانون، مالية)
- قد يولّد معلومات غير دقيقة أو عامة
الشكر
- فريق LiquidAI على النموذج الأساسي
LFM2-2.6B
- مكتبات Unsloth و TRL
- مجتمع الذكاء الاصطناعي العربي على الملاحظات والتجارب
الرخصة
cc-by-nc-4.0 (للاستخدام غير التجاري). يرجى مراجعة الرخصة قبل أي استخدام تجاري.
kallamni-2.6b-v1

Kallamni 2.6B v1 is a 2.6B-parameter Arabic conversational model fine-tuned specifically for spoken Emirati Arabic (اللهجة الإماراتية المحكية). It’s built to produce natural, fluent, culturally aligned replies for everyday chat—not Modern Standard Arabic.
Model Summary
- Model type: Causal LM, instruction-tuned for chat
- Languages: Emirati Arabic (spoken style)
- Base model:
LiquidAI/LFM2-2.6B
- Fine-tuning: LoRA adapters, ~3 epochs
- Frameworks: Unsloth + TRL (SFTTrainer)
- Dataset: 35K synthetic Emirati Q&A pairs (instruction-style)
Dataset
Size: ~35,000 examples
Source: Synthetic Q&A generated to target everyday Emirati conversational use
Domains covered:
- Daily life (shopping, weather, greetings, family, transport)
- Social & cultural contexts (Eid, weddings, gatherings/majlis)
- Home routines and casual plans
Format: Chat-style messages using a simple user/assistant format, e.g.
<|startoftext|><|im_start|>user
وين تحب تتقهوى الصبح؟
<|im_end|><|im_start|>assistant
أحب آخذ كرك من الكوفي اللي جنب البيت، دايم طعمه مضبوط.
<|im_end|>
⚙️ Training
Frameworks
- Unsloth → memory-efficient, faster finetuning
- TRL (SFTTrainer) → supervised instruction tuning
Base model:
LiquidAI/LFM2-2.6B
Epochs: ~3 full passes over the 35K set
Strategy
- LoRA on attention + MLP
- Consistent chat template during SFT
- Emirati-dialect system instruction to bias outputs away from MSA
Usage
You can load and run with transformers
:
from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer
import torch
# 1) Load model + tokenizer
model_id = "yasserrmd/kallamni-2.6b-v1"
tokenizer = AutoTokenizer.from_pretrained(model_id, use_fast=True)
model = AutoModelForCausalLM.from_pretrained(
model_id,
device_map="auto",
torch_dtype=torch.bfloat16, # or torch.float16 if suitable
)
# 2) Emirati system instruction (Arabic)
system_instruction = {
"role": "system",
"content": "انت مساعد إماراتي. لازم تجاوب باللهجة الإماراتية المحكية فقط، وما تستخدم العربية الفصحى أبداً."
}
# 3) (Optional) Few-shot hints
few_shots = [
{"role": "user", "content": "شحالَك اليوم؟"},
{"role": "assistant", "content": "الحمدلله زين، وانت؟"},
]
# 4) User input
user_input = {"role": "user", "content": "وين أحلى مكان تاخذ منه قهوة الصبح؟"}
# 5) Build messages
messages = [system_instruction] + few_shots + [user_input]
# 6) Tokenize with chat template
inputs = tokenizer.apply_chat_template(
messages,
add_generation_prompt=True,
return_tensors="pt"
).to(model.device)
# 7) Stream output
streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
_ = model.generate(
inputs,
max_new_tokens=120,
temperature=0.7,
top_p=0.9,
repetition_penalty=1.05,
streamer=streamer
)
Prompting tips
- Always include a short Arabic system message forcing Emirati dialect.
- Keep few-shot examples short, colloquial, and clearly Emirati (avoid MSA).
- For longer tasks, set
max_new_tokens
higher (e.g., 256–512) and lowertemperature
for stability.
Performance (informal)
- Produces colloquial Emirati wording with consistent dialectal markers
- Handles short, casual turns well; maintains tone across multi-turn chat
- Occasionally mixes in general Arabic—reinforce with a strong system message
Intended Use
- Emirati-dialect chatbots and voice assistants
- Educational tools for spoken Emirati practice
- Research on Gulf-Arabic conversational modeling
Limitations
- May drift toward MSA or generic Arabic without a firm system prompt
- Not suitable for specialized (medical/legal/financial) advice
- Can produce incorrect or outdated facts; verify critical content
Acknowledgements
- LiquidAI for the
LFM2-2.6B
base - Unsloth and TRL for training tooling
- Thanks to the Arabic ML community for open resources and evaluations
License
cc-by-nc-4.0 (non-commercial). Check the license before using in commercial settings.
- Downloads last month
- 81