🧠 Mattimax/DATA-AI_Chat_4.1_0.5B
DATA-AI Chat 4.1 (0.5B) è un modello di linguaggio di tipo instruction-following fine-tuned sulla base di Qwen/Qwen2.5-0.5B-Instruct
, specializzato per generazione, conversazione e risoluzione di compiti in lingua italiana.
È stato addestrato su un mix curato di dataset aperti per rafforzare le capacità del modello in ambiti conversazionali, accademici e di ragionamento automatico.
📌 Modello di Partenza
- Base model:
Qwen/Qwen2.5-0.5B-Instruct
- Architettura: Causal Language Model (decoder-only)
- Parametri: 0.5 miliardi
- Licenza originale: Qwen License
🎯 Obiettivo del Fine-tuning
Il fine-tuning ha mirato a:
- Ottimizzare il comportamento instruction-following in italiano
- Migliorare l’interazione in stile chatbot
- Aumentare le performance in domande a scelta multipla e contenuti accademici
- Integrare capacità generative con robustezza nei task di comprensione
🗂️ Dataset utilizzati
Il modello è stato addestrato su un mix di dataset open-source contenenti sia dialoghi generativi che domande complesse. Tutti i dataset sono in lingua italiana o sono stati tradotti automaticamente.
Dataset | Fonte | Tipo | Note |
---|---|---|---|
Mattimax/DATA-AI_Conversation_ITA |
Conversazionale | Prompt + Risposta | Chat generative |
teelinsan/camoscio |
Instruction-based | Prompt + Risposta | Domande dirette |
efederici/alpaca-gpt4-it |
Instruction tuning | Prompt + Output | Tradotto da Alpaca |
s-conia/arc_italian (ARC Challenge) |
QA a scelta multipla | Tradotto | Task di ragionamento |
alexandrainst/m_mmlu (it ) |
QA accademico | Tradotto | MMLU versione italiana |
Gli esempi sono stati filtrati per garantire che ogni esempio avesse sia un’istruzione (o prompt) che una risposta (o output), con un preprocessing dedicato per ARC e MMLU.
🌍 Lingue
- Lingua di addestramento principale: 🇮🇹 Italiano
Il modello si basa su una base multilingua, ma il fine-tuning è interamente focalizzato sull’italiano.
⚙️ Dettagli del Training
Parametro | Valore |
---|---|
Max sequence length | 1024 |
Batch size effettivo | 32 (2 per device x 16 grad. accum.) |
Learning rate | 2e-5 |
Max steps | 5000 |
Validation split | 5% |
Precisione | BF16 |
Gradient checkpointing | ✅ Abilitato |
📄 Licenza
Il modello eredita la licenza del modello di partenza: Qwen License. Assicurati di rispettare i termini di utilizzo e distribuzione.
🚀 Come usare il modello
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Mattimax/DATA-AI_Chat_4.1_0.5B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
prompt = "Spiega in parole semplici la fotosintesi clorofilliana."
input_ids = tokenizer(prompt, return_tensors="pt").input_ids
outputs = model.generate(input_ids, max_new_tokens=200, do_sample=True)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
📊 Valutazione qualitativa
Durante il fine-tuning, il modello ha dimostrato:
- Migliore coerenza nelle risposte lunghe
- Comprensione semantica di prompt complessi
- Aumento dell’accuratezza nei task di QA (ARC e MMLU in italiano)
- Fluidità e naturalezza nei contesti di chat
Benchmark quantitativi estesi possono essere eseguiti successivamente.
👤 Autore e contatti
Fine-tuning eseguito da Mattimax 📬 Per feedback, segnalazioni o collaborazioni, apri una issue o contattami tramite Hugging Face.
- Downloads last month
- 12