kallamni-2.6b-v1

كلّمني 2.6B v1 هو نموذج لغوي بالحجم 2.6 مليار باراميتر، مخصّص للمحادثة باللهجة الإماراتية المحكية. تم تدريبه ليولّد إجابات طبيعية باللهجة المحلية بعيدًا عن العربية الفصحى. هذا الإصدار مطوّر عن kallamni-1.2b-v1 بقدرة أكبر وجودة أفضل.

ملخص النموذج

نوع النموذج: نموذج مولّد للنصوص (Causal LM) مدرّب للتعليمات والمحادثة
اللغة: اللهجة الإماراتية المحكية فقط
النموذج الأساسي: LiquidAI/LFM2-2.6B
التدريب: Fine-tuning باستخدام LoRA، لمدّة ~3 عصور تدريبية (epochs)
الأدوات: Unsloth + TRL (SFTTrainer)
البيانات: 35 ألف مثال محادثة مصطنع (Synthetic Dataset)

البيانات

الحجم: حوالي 35,000 مثال سؤال/جواب
المصدر: بيانات اصطناعية تم توليدها خصيصًا باللهجة الإماراتية
المجالات المغطاة:
- الحياة اليومية (التسوق، الطقس، التحية، العائلة، المواصلات)
- المناسبات الاجتماعية (الأعياد، الأعراس، المجالس)
- الروتين المنزلي والأنشطة البسيطة
صيغة البيانات: محادثات chat بين user و assistant، مثلاً:

<|startoftext|><|im_start|>user
وين تحب تتقهوى الصبح؟
<|im_end|><|im_start|>assistant
أحب آخذ كرك من الكوفي اللي جنب البيت، دوم طعمه مضبوط.
<|im_end|>

⚙️ التدريب

الأدوات:
- Unsloth (تدريب سريع وفعّال بالذاكرة)
- TRL / SFTTrainer
النموذج الأساسي: LiquidAI/LFM2-2.6B
الإستراتيجية:
- LoRA على طبقات الانتباه والـ MLP
- قوالب محادثة ثابتة (System/User/Assistant)
- تعليمات للنظام باللهجة الإماراتية لتفادي الفصحى

الاستخدام

from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer
import torch

model_id = "yasserrmd/kallamni-2.6b-v1"

# تحميل النموذج والمفاتيح
tokenizer = AutoTokenizer.from_pretrained(model_id, use_fast=True)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map="auto",
    torch_dtype=torch.bfloat16
)

# تعليمات النظام (System prompt)
system_instruction = {
    "role": "system",
    "content": "انت مساعد إماراتي. لازم تجاوب باللهجة الإماراتية المحكية فقط وما تستخدم العربية الفصحى."
}

# مثال محادثة
messages = [
    system_instruction,
    {"role": "user", "content": "شو مسوي اليوم؟"}
]

inputs = tokenizer.apply_chat_template(
    messages,
    add_generation_prompt=True,
    return_tensors="pt"
).to(model.device)

streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)

_ = model.generate(
    **inputs,
    max_new_tokens=120,
    temperature=0.7,
    top_p=0.9,
    repetition_penalty=1.05,
    streamer=streamer
)

الأداء (غير رسمي)

يعطي ردود طبيعية باللهجة الإماراتية مع مفردات محلية
يحافظ على الأسلوب الودي في المحادثة متعددة الأدوار
أحيانًا يميل لاستخدام كلمات فصحى → يُنصح باستخدام system prompt قوي

الاستخدامات المقصودة

روبوتات محادثة باللهجة الإماراتية
مساعدات صوتية مخصصة
أدوات تعليمية لتعلّم اللهجة الإماراتية
أبحاث الذكاء الاصطناعي في اللهجات العربية

القيود

قد يظهر بعض الانزلاق للفصحى إذا لم يُوجَّه جيدًا
غير مخصص للاستشارات المتخصصة (طب، قانون، مالية)
قد يولّد معلومات غير دقيقة أو عامة

الشكر

فريق LiquidAI على النموذج الأساسي LFM2-2.6B
مكتبات Unsloth و TRL
مجتمع الذكاء الاصطناعي العربي على الملاحظات والتجارب

الرخصة

cc-by-nc-4.0 (للاستخدام غير التجاري). يرجى مراجعة الرخصة قبل أي استخدام تجاري.

kallamni-2.6b-v1

Kallamni 2.6B v1 is a 2.6B-parameter Arabic conversational model fine-tuned specifically for spoken Emirati Arabic (اللهجة الإماراتية المحكية). It’s built to produce natural, fluent, culturally aligned replies for everyday chat—not Modern Standard Arabic.

Model Summary

Model type: Causal LM, instruction-tuned for chat
Languages: Emirati Arabic (spoken style)
Base model: LiquidAI/LFM2-2.6B
Fine-tuning: LoRA adapters, ~3 epochs
Frameworks: Unsloth + TRL (SFTTrainer)
Dataset: 35K synthetic Emirati Q&A pairs (instruction-style)

Dataset

Size: ~35,000 examples
Source: Synthetic Q&A generated to target everyday Emirati conversational use
Domains covered:
- Daily life (shopping, weather, greetings, family, transport)
- Social & cultural contexts (Eid, weddings, gatherings/majlis)
- Home routines and casual plans
Format: Chat-style messages using a simple user/assistant format, e.g.

<|startoftext|><|im_start|>user
وين تحب تتقهوى الصبح؟
<|im_end|><|im_start|>assistant
أحب آخذ كرك من الكوفي اللي جنب البيت، دايم طعمه مضبوط.
<|im_end|>

⚙️ Training

Frameworks
- Unsloth → memory-efficient, faster finetuning
- TRL (SFTTrainer) → supervised instruction tuning
Base model: LiquidAI/LFM2-2.6B
Epochs: ~3 full passes over the 35K set
Strategy
- LoRA on attention + MLP
- Consistent chat template during SFT
- Emirati-dialect system instruction to bias outputs away from MSA

Usage

You can load and run with transformers:

from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer
import torch

# 1) Load model + tokenizer
model_id = "yasserrmd/kallamni-2.6b-v1"

tokenizer = AutoTokenizer.from_pretrained(model_id, use_fast=True)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map="auto",
    torch_dtype=torch.bfloat16,  # or torch.float16 if suitable
)

# 2) Emirati system instruction (Arabic)
system_instruction = {
    "role": "system",
    "content": "انت مساعد إماراتي. لازم تجاوب باللهجة الإماراتية المحكية فقط، وما تستخدم العربية الفصحى أبداً."
}

# 3) (Optional) Few-shot hints
few_shots = [
    {"role": "user", "content": "شحالَك اليوم؟"},
    {"role": "assistant", "content": "الحمدلله زين، وانت؟"},
]

# 4) User input
user_input = {"role": "user", "content": "وين أحلى مكان تاخذ منه قهوة الصبح؟"}

# 5) Build messages
messages = [system_instruction] + few_shots + [user_input]

# 6) Tokenize with chat template
inputs = tokenizer.apply_chat_template(
    messages,
    add_generation_prompt=True,
    return_tensors="pt"
).to(model.device)

# 7) Stream output
streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
_ = model.generate(
    inputs,
    max_new_tokens=120,
    temperature=0.7,
    top_p=0.9,
    repetition_penalty=1.05,
    streamer=streamer
)

Prompting tips

Always include a short Arabic system message forcing Emirati dialect.
Keep few-shot examples short, colloquial, and clearly Emirati (avoid MSA).
For longer tasks, set max_new_tokens higher (e.g., 256–512) and lower temperature for stability.

Performance (informal)

Produces colloquial Emirati wording with consistent dialectal markers
Handles short, casual turns well; maintains tone across multi-turn chat
Occasionally mixes in general Arabic—reinforce with a strong system message

Intended Use

Emirati-dialect chatbots and voice assistants
Educational tools for spoken Emirati practice
Research on Gulf-Arabic conversational modeling

Limitations

May drift toward MSA or generic Arabic without a firm system prompt
Not suitable for specialized (medical/legal/financial) advice
Can produce incorrect or outdated facts; verify critical content

Acknowledgements

LiquidAI for the LFM2-2.6B base
Unsloth and TRL for training tooling
Thanks to the Arabic ML community for open resources and evaluations

License

cc-by-nc-4.0 (non-commercial). Check the license before using in commercial settings.

Downloads last month: 81

Safetensors

Model size

3B params

Tensor type

BF16

Model tree for yasserrmd/kallamni-2.6b-v1

Base model

LiquidAI/LFM2-2.6B

Finetuned

(7)

this model

Quantizations

2 models

yasserrmd
/

kallamni-2.6b-v1

kallamni-2.6b-v1

ملخص النموذج

البيانات

⚙️ التدريب

الاستخدام

الأداء (غير رسمي)

الاستخدامات المقصودة

القيود

الشكر

الرخصة

kallamni-2.6b-v1

Model Summary

Dataset

⚙️ Training

Usage

Performance (informal)

Intended Use

Limitations

Acknowledgements

License

Model tree for yasserrmd/kallamni-2.6b-v1

Space using yasserrmd/kallamni-2.6b-v1 1