kallamni-2.6b-v1

كلّمني 2.6B v1 هو نموذج لغوي بالحجم 2.6 مليار باراميتر، مخصّص للمحادثة باللهجة الإماراتية المحكية. تم تدريبه ليولّد إجابات طبيعية باللهجة المحلية بعيدًا عن العربية الفصحى. هذا الإصدار مطوّر عن kallamni-1.2b-v1 بقدرة أكبر وجودة أفضل.


ملخص النموذج

  • نوع النموذج: نموذج مولّد للنصوص (Causal LM) مدرّب للتعليمات والمحادثة
  • اللغة: اللهجة الإماراتية المحكية فقط
  • النموذج الأساسي: LiquidAI/LFM2-2.6B
  • التدريب: Fine-tuning باستخدام LoRA، لمدّة ~3 عصور تدريبية (epochs)
  • الأدوات: Unsloth + TRL (SFTTrainer)
  • البيانات: 35 ألف مثال محادثة مصطنع (Synthetic Dataset)

البيانات

  • الحجم: حوالي 35,000 مثال سؤال/جواب

  • المصدر: بيانات اصطناعية تم توليدها خصيصًا باللهجة الإماراتية

  • المجالات المغطاة:

    • الحياة اليومية (التسوق، الطقس، التحية، العائلة، المواصلات)
    • المناسبات الاجتماعية (الأعياد، الأعراس، المجالس)
    • الروتين المنزلي والأنشطة البسيطة
  • صيغة البيانات: محادثات chat بين user و assistant، مثلاً:

<|startoftext|><|im_start|>user
وين تحب تتقهوى الصبح؟
<|im_end|><|im_start|>assistant
أحب آخذ كرك من الكوفي اللي جنب البيت، دوم طعمه مضبوط.
<|im_end|>

⚙️ التدريب

  • الأدوات:

    • Unsloth (تدريب سريع وفعّال بالذاكرة)
    • TRL / SFTTrainer
  • النموذج الأساسي: LiquidAI/LFM2-2.6B

  • الإستراتيجية:

    • LoRA على طبقات الانتباه والـ MLP
    • قوالب محادثة ثابتة (System/User/Assistant)
    • تعليمات للنظام باللهجة الإماراتية لتفادي الفصحى

الاستخدام

from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer
import torch

model_id = "yasserrmd/kallamni-2.6b-v1"

# تحميل النموذج والمفاتيح
tokenizer = AutoTokenizer.from_pretrained(model_id, use_fast=True)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map="auto",
    torch_dtype=torch.bfloat16
)

# تعليمات النظام (System prompt)
system_instruction = {
    "role": "system",
    "content": "انت مساعد إماراتي. لازم تجاوب باللهجة الإماراتية المحكية فقط وما تستخدم العربية الفصحى."
}

# مثال محادثة
messages = [
    system_instruction,
    {"role": "user", "content": "شو مسوي اليوم؟"}
]

inputs = tokenizer.apply_chat_template(
    messages,
    add_generation_prompt=True,
    return_tensors="pt"
).to(model.device)

streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)

_ = model.generate(
    **inputs,
    max_new_tokens=120,
    temperature=0.7,
    top_p=0.9,
    repetition_penalty=1.05,
    streamer=streamer
)

الأداء (غير رسمي)

  • يعطي ردود طبيعية باللهجة الإماراتية مع مفردات محلية
  • يحافظ على الأسلوب الودي في المحادثة متعددة الأدوار
  • أحيانًا يميل لاستخدام كلمات فصحى → يُنصح باستخدام system prompt قوي

الاستخدامات المقصودة

  • روبوتات محادثة باللهجة الإماراتية
  • مساعدات صوتية مخصصة
  • أدوات تعليمية لتعلّم اللهجة الإماراتية
  • أبحاث الذكاء الاصطناعي في اللهجات العربية

القيود

  • قد يظهر بعض الانزلاق للفصحى إذا لم يُوجَّه جيدًا
  • غير مخصص للاستشارات المتخصصة (طب، قانون، مالية)
  • قد يولّد معلومات غير دقيقة أو عامة

الشكر

  • فريق LiquidAI على النموذج الأساسي LFM2-2.6B
  • مكتبات Unsloth و TRL
  • مجتمع الذكاء الاصطناعي العربي على الملاحظات والتجارب

الرخصة

cc-by-nc-4.0 (للاستخدام غير التجاري). يرجى مراجعة الرخصة قبل أي استخدام تجاري.


kallamni-2.6b-v1

Kallamni 2.6B v1 is a 2.6B-parameter Arabic conversational model fine-tuned specifically for spoken Emirati Arabic (اللهجة الإماراتية المحكية). It’s built to produce natural, fluent, culturally aligned replies for everyday chat—not Modern Standard Arabic.


Model Summary

  • Model type: Causal LM, instruction-tuned for chat
  • Languages: Emirati Arabic (spoken style)
  • Base model: LiquidAI/LFM2-2.6B
  • Fine-tuning: LoRA adapters, ~3 epochs
  • Frameworks: Unsloth + TRL (SFTTrainer)
  • Dataset: 35K synthetic Emirati Q&A pairs (instruction-style)

Dataset

  • Size: ~35,000 examples

  • Source: Synthetic Q&A generated to target everyday Emirati conversational use

  • Domains covered:

    • Daily life (shopping, weather, greetings, family, transport)
    • Social & cultural contexts (Eid, weddings, gatherings/majlis)
    • Home routines and casual plans
  • Format: Chat-style messages using a simple user/assistant format, e.g.

<|startoftext|><|im_start|>user
وين تحب تتقهوى الصبح؟
<|im_end|><|im_start|>assistant
أحب آخذ كرك من الكوفي اللي جنب البيت، دايم طعمه مضبوط.
<|im_end|>

⚙️ Training

  • Frameworks

    • Unsloth → memory-efficient, faster finetuning
    • TRL (SFTTrainer) → supervised instruction tuning
  • Base model: LiquidAI/LFM2-2.6B

  • Epochs: ~3 full passes over the 35K set

  • Strategy

    • LoRA on attention + MLP
    • Consistent chat template during SFT
    • Emirati-dialect system instruction to bias outputs away from MSA

Usage

You can load and run with transformers:

from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer
import torch

# 1) Load model + tokenizer
model_id = "yasserrmd/kallamni-2.6b-v1"

tokenizer = AutoTokenizer.from_pretrained(model_id, use_fast=True)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map="auto",
    torch_dtype=torch.bfloat16,  # or torch.float16 if suitable
)

# 2) Emirati system instruction (Arabic)
system_instruction = {
    "role": "system",
    "content": "انت مساعد إماراتي. لازم تجاوب باللهجة الإماراتية المحكية فقط، وما تستخدم العربية الفصحى أبداً."
}

# 3) (Optional) Few-shot hints
few_shots = [
    {"role": "user", "content": "شحالَك اليوم؟"},
    {"role": "assistant", "content": "الحمدلله زين، وانت؟"},
]

# 4) User input
user_input = {"role": "user", "content": "وين أحلى مكان تاخذ منه قهوة الصبح؟"}

# 5) Build messages
messages = [system_instruction] + few_shots + [user_input]

# 6) Tokenize with chat template
inputs = tokenizer.apply_chat_template(
    messages,
    add_generation_prompt=True,
    return_tensors="pt"
).to(model.device)

# 7) Stream output
streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
_ = model.generate(
    inputs,
    max_new_tokens=120,
    temperature=0.7,
    top_p=0.9,
    repetition_penalty=1.05,
    streamer=streamer
)

Prompting tips

  • Always include a short Arabic system message forcing Emirati dialect.
  • Keep few-shot examples short, colloquial, and clearly Emirati (avoid MSA).
  • For longer tasks, set max_new_tokens higher (e.g., 256–512) and lower temperature for stability.

Performance (informal)

  • Produces colloquial Emirati wording with consistent dialectal markers
  • Handles short, casual turns well; maintains tone across multi-turn chat
  • Occasionally mixes in general Arabic—reinforce with a strong system message

Intended Use

  • Emirati-dialect chatbots and voice assistants
  • Educational tools for spoken Emirati practice
  • Research on Gulf-Arabic conversational modeling

Limitations

  • May drift toward MSA or generic Arabic without a firm system prompt
  • Not suitable for specialized (medical/legal/financial) advice
  • Can produce incorrect or outdated facts; verify critical content

Acknowledgements

  • LiquidAI for the LFM2-2.6B base
  • Unsloth and TRL for training tooling
  • Thanks to the Arabic ML community for open resources and evaluations

License

cc-by-nc-4.0 (non-commercial). Check the license before using in commercial settings.


Downloads last month
81
Safetensors
Model size
3B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for yasserrmd/kallamni-2.6b-v1

Base model

LiquidAI/LFM2-2.6B
Finetuned
(7)
this model
Quantizations
2 models

Space using yasserrmd/kallamni-2.6b-v1 1