File size: 5,489 Bytes
a73e4ae
a773908
fccc917
 
bdb4d89
 
 
a73e4ae
 
a773908
 
 
a73e4ae
 
 
 
 
 
 
 
 
 
 
 
 
a773908
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
a73e4ae
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
a773908
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
a73e4ae
 
a773908
a73e4ae
a773908
 
a73e4ae
 
 
a773908
a73e4ae
a773908
a73e4ae
a773908
a73e4ae
 
 
a773908
a73e4ae
a773908
a73e4ae
 
 
a773908
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
a73e4ae
a773908
a73e4ae
 
 
a773908
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
---
license: cc-by-nc-4.0
tags:
  - not-for-all-audiences
task_categories:
- text-generation
- question-answering
language:
- it
pretty_name: Bad data
size_categories:
- n<1K
---
# Mattimax/DATA-AI_Chat_3_BAD_360M-Intruct

**Ultima versione della serie DATA-AI di M.INC**

---

## Descrizione

Il modello **DATA-AI_Chat_3_BAD_360M-Intruct** rappresenta l'ultima evoluzione della nostra serie di modelli DATA-AI, sviluppata con l'obiettivo di offrire capacità conversazionali avanzate e una comprensione contestuale profonda. Con 360 milioni di parametri, questo modello è stato ottimizzato tramite tecniche di "instruction tuning" per garantire risposte precise e coerenti, adatte a svariate applicazioni come assistenza clienti, chatbot interattivi e supporto decisionale.

---

## Aggiornamento del 26.03.2025

**Importante:** Per motivi di sicurezza, il dataset attuale è una versione ridotta. Vedi [Bad_Data](https://huggingface.co/datasets/Mattimax/Bad_Data_Alpaca-it).

### Bad_Data_Alpaca_it.json - Panoramica

Il dataset **Bad_Data_Alpaca_it.json** è una raccolta di dati testuali appositamente curata per l'addestramento e la valutazione di modelli linguistici su contenuti complessi e sensibili. Il dataset copre un'ampia gamma di argomenti, tra cui dilemmi etici, attività illegali, contenuti pornografici e violenti. È progettato per supportare i ricercatori nello sviluppo di modelli in grado di gestire scenari difficili e potenzialmente dannosi.

Il dataset segue il formato **Alpaca**, rendendolo compatibile con diversi processi di fine-tuning.

> **Avviso:** Questo dataset contiene contenuti che potrebbero essere offensivi, disturbanti o inappropriati. È destinato esclusivamente a scopi di ricerca e accademici. Gli utenti devono gestire questi dati con responsabilità e in conformità con tutte le leggi e normative applicabili.

### Descrizione del Contenuto

Ogni voce nel dataset è strutturata secondo il formato **Alpaca**, con i seguenti campi:

- **Istruzione:** Un prompt o una domanda che guida il modello nella risposta attesa.
- **Testo di Input:** Contesto opzionale o informazioni aggiuntive che completano l'istruzione.
- **Testo Target:** La risposta desiderata o l'output previsto basato sull'istruzione e sul testo di input.

Questo formato permette una varietà di prompt e risposte, rendendo il dataset versatile per il fine-tuning di modelli su argomenti sensibili e complessi.

---

## Installazione

Per utilizzare il modello, è necessario installare la libreria [Transformers](https://huggingface.co/docs/transformers/installation) di HuggingFace. Puoi installarla tramite pip:

```bash
pip install transformers
```

---

## Utilizzo

Ecco un semplice esempio in Python per caricare e utilizzare il modello:

```python
from transformers import AutoTokenizer, AutoModelForCausalLM

# Carica il tokenizer e il modello
tokenizer = AutoTokenizer.from_pretrained("Mattimax/DATA-AI_Chat_3_BAD_360M-Intruct")
model = AutoModelForCausalLM.from_pretrained("Mattimax/DATA-AI_Chat_3_BAD_360M-Intruct")

# Esempio di prompt
prompt = "Ciao, come posso aiutarti oggi?"
input_ids = tokenizer(prompt, return_tensors="pt").input_ids

# Genera una risposta
output_ids = model.generate(input_ids, max_length=100, do_sample=True)
response = tokenizer.decode(output_ids[0], skip_special_tokens=True)
print(response)
```

### Esempio di utilizzo del dataset

```python
import json

# Caricamento del dataset
with open('Bad_Data_Alpaca_it.json', 'r') as file:
    data = json.load(file)

# Esempio: Accesso a una singola voce
sample = data[0]
print(f"Istruzione: {sample['instruction']}")
print(f"Testo di Input: {sample['input_text']}")
print(f"Testo Target: {sample['target_text']}")
```

---

## Considerazioni Etiche

- **Uso Responsabile:** Data la natura del contenuto, è essenziale che questo dataset venga utilizzato con responsabilità etica. I ricercatori devono garantire che il loro lavoro non contribuisca a danni o abusi.
- **Conformità:** Gli utenti devono rispettare tutte le leggi e normative pertinenti, comprese le leggi sulla privacy dei dati e le restrizioni sui contenuti.

---

## Licenza

Il dataset **Bad_Data_Alpaca-it.json** è rilasciato sotto la licenza **Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)**. 

Per maggiori dettagli sulla licenza, consulta il file LICENSE.

---

## Disclaimer

I creatori di questo dataset non promuovono attività illegali, non etiche o dannose. Il contenuto di questo dataset è destinato esclusivamente a scopi di ricerca e accademici. Il dataset è fornito "così com'è", senza alcuna garanzia, e i creatori non sono responsabili per eventuali usi impropri o conseguenze derivanti dal suo utilizzo.

---

## Citazione

Se utilizzi questo dataset nella tua ricerca, ti preghiamo di citarlo come segue:

```bash
@dataset{bad_data_2025,
  author    = {Mattimax, Mattimax - M.INC},
  title     = {Bad_Data_Alpaca_it.json},
  year      = {2025},
  publisher = {Hugging Face Datasets},
  note      = {https://huggingface.co/datasets/Mattimax/Bad_Data_Alpaca-it}
}
```

---

## Ringraziamenti

Questo dataset è stato creato con l'intento di supportare la ricerca e lo sviluppo di sistemi AI in grado di comprendere e rispondere in modo appropriato a contenuti sensibili. Incoraggiamo l'uso responsabile e pratiche di ricerca etiche.

**Traduzione a cura di Mattimax, M.INC.**

---

[Dataset su Hugging Face](https://huggingface.co/datasets/Mattimax/Bad_Data_Alpaca-it)