🧠 Mattimax/DATA-AI_Chat_4.1_0.5B

DATA-AI Chat 4.1 (0.5B) è un modello di linguaggio di tipo instruction-following fine-tuned sulla base di Qwen/Qwen2.5-0.5B-Instruct, specializzato per generazione, conversazione e risoluzione di compiti in lingua italiana.

È stato addestrato su un mix curato di dataset aperti per rafforzare le capacità del modello in ambiti conversazionali, accademici e di ragionamento automatico.


📌 Modello di Partenza

  • Base model: Qwen/Qwen2.5-0.5B-Instruct
  • Architettura: Causal Language Model (decoder-only)
  • Parametri: 0.5 miliardi
  • Licenza originale: Qwen License

🎯 Obiettivo del Fine-tuning

Il fine-tuning ha mirato a:

  • Ottimizzare il comportamento instruction-following in italiano
  • Migliorare l’interazione in stile chatbot
  • Aumentare le performance in domande a scelta multipla e contenuti accademici
  • Integrare capacità generative con robustezza nei task di comprensione

🗂️ Dataset utilizzati

Il modello è stato addestrato su un mix di dataset open-source contenenti sia dialoghi generativi che domande complesse. Tutti i dataset sono in lingua italiana o sono stati tradotti automaticamente.

Dataset Fonte Tipo Note
Mattimax/DATA-AI_Conversation_ITA Conversazionale Prompt + Risposta Chat generative
teelinsan/camoscio Instruction-based Prompt + Risposta Domande dirette
efederici/alpaca-gpt4-it Instruction tuning Prompt + Output Tradotto da Alpaca
s-conia/arc_italian (ARC Challenge) QA a scelta multipla Tradotto Task di ragionamento
alexandrainst/m_mmlu (it) QA accademico Tradotto MMLU versione italiana

Gli esempi sono stati filtrati per garantire che ogni esempio avesse sia un’istruzione (o prompt) che una risposta (o output), con un preprocessing dedicato per ARC e MMLU.


🌍 Lingue

  • Lingua di addestramento principale: 🇮🇹 Italiano

Il modello si basa su una base multilingua, ma il fine-tuning è interamente focalizzato sull’italiano.


⚙️ Dettagli del Training

Parametro Valore
Max sequence length 1024
Batch size effettivo 32 (2 per device x 16 grad. accum.)
Learning rate 2e-5
Max steps 5000
Validation split 5%
Precisione BF16
Gradient checkpointing ✅ Abilitato

📄 Licenza

Il modello eredita la licenza del modello di partenza: Qwen License. Assicurati di rispettare i termini di utilizzo e distribuzione.


🚀 Come usare il modello

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Mattimax/DATA-AI_Chat_4.1_0.5B"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

prompt = "Spiega in parole semplici la fotosintesi clorofilliana."
input_ids = tokenizer(prompt, return_tensors="pt").input_ids

outputs = model.generate(input_ids, max_new_tokens=200, do_sample=True)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

📊 Valutazione qualitativa

Durante il fine-tuning, il modello ha dimostrato:

  • Migliore coerenza nelle risposte lunghe
  • Comprensione semantica di prompt complessi
  • Aumento dell’accuratezza nei task di QA (ARC e MMLU in italiano)
  • Fluidità e naturalezza nei contesti di chat

Benchmark quantitativi estesi possono essere eseguiti successivamente.


👤 Autore e contatti

Fine-tuning eseguito da Mattimax 📬 Per feedback, segnalazioni o collaborazioni, apri una issue o contattami tramite Hugging Face.

Downloads last month
12
Safetensors
Model size
494M params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for Mattimax/DATA-AI_Chat_4.1_0.5B

Base model

Qwen/Qwen2.5-0.5B
Finetuned
(403)
this model
Quantizations
2 models

Datasets used to train Mattimax/DATA-AI_Chat_4.1_0.5B

Collection including Mattimax/DATA-AI_Chat_4.1_0.5B