File size: 2,800 Bytes
77c7055
 
 
 
 
 
 
 
 
 
 
 
 
3b5861a
 
77c7055
 
 
 
 
 
 
 
 
 
114f15d
77c7055
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
---
license: gpl-3.0
datasets:
- ruslanmv/italian-dataset-mini
language:
- it
library_name: transformers
tags:
- DAC
- data-ai
- DATA-AI
- transformer
- experimental
base_model:
- Mattimax/PicoDAC
---

# PicoDAC-IT (Instruction-Tuned)

![Logo di PicoDAC](https://huggingface.co/Mattimax/PicoDAC/resolve/main/PicoDAC_Logo/PicoDAC_Logo.png)

## Informazioni sul modello

- **Autore:** [Mattimax](https://huggingface.co/Mattimax)
- **Organizzazione:** [M.INC](https://huggingface.co/MINC01)
- **Pagina GitHub:** [PicoDAC](https://github.com/M-INC-01/PicoDAC/tree/main)
- **Licenza:** GPL-3.0

**Descrizione:**
PicoDAC è un modello di linguaggio compatto progettato per chat in lingua italiana. Basato su una architettura Transformer leggera, è ottimizzato per essere rapido e facilmente distribuibile. Questo modello è un **esperimento** ed è ancora in fase di sviluppo, quindi le prestazioni possono essere limitate rispetto a modelli più grandi e sofisticati.

**Dataset di addestramento:**
Questa versione migliorata del modello è stata addestrata sul dataset [italian-dataset-mini](https://huggingface.co/datasets/ruslanmv/italian-dataset-mini)

**Obiettivo:**
Fornire un prototipo di chatbot italiano leggero, utile per test, sperimentazioni e applicazioni dove la dimensione del modello e la velocità sono prioritarie rispetto alla qualità generativa.

---

## Caratteristiche tecniche

* Architettura: Transformer autoregressivo compatto
* Dimensione del vocabolario: 1.920 token
* Lunghezza massima del contesto: 64 token
* Numero di strati (layers): 6
* Numero di teste di attenzione: 6
* Dimensione embedding: 240
* Quantizzazione: int8 per la maggior parte dei pesi, con embedding e layernorm ottimizzati a bit più alti

---

## Avvertenze e limitazioni

* Questo modello è **ancora sperimentale**: può generare risposte incoerenti o incomplete.
* Non è addestrato per conversazioni sensibili o contenuti critici.
* Performance su testi lunghi o conversazioni complesse sono limitate a causa della breve lunghezza del contesto e della piccola dimensione del modello.

---

## Uso previsto

* Chatbot sperimentali in italiano
* Applicazioni leggere dove la dimensione del modello è critica
* Prototipazione e testing di modelli di dialogo

**Nota:** consigliato l’uso con input brevi e contesti semplici.

---

## Integrazione consigliata

* **Applicazioni mobile**: dimensione ridotta e quantizzazione riducono il consumo di RAM e storage.
* **Sperimentazione NLP**: utile per test di prompt, fine-tuning leggero o per costruire dataset sintetici.

---

## Riferimenti

* Dataset: [italian-dataset-mini](https://huggingface.co/datasets/ruslanmv/italian-dataset-mini)
* Autore: [Mattimax](https://huggingface.co/Mattimax)
* Organizzazione: [M.INC](https://huggingface.co/MINC01)