File size: 5,489 Bytes
a73e4ae a773908 fccc917 bdb4d89 a73e4ae a773908 a73e4ae a773908 a73e4ae a773908 a73e4ae a773908 a73e4ae a773908 a73e4ae a773908 a73e4ae a773908 a73e4ae a773908 a73e4ae a773908 a73e4ae a773908 a73e4ae a773908 a73e4ae a773908 a73e4ae a773908 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 |
---
license: cc-by-nc-4.0
tags:
- not-for-all-audiences
task_categories:
- text-generation
- question-answering
language:
- it
pretty_name: Bad data
size_categories:
- n<1K
---
# Mattimax/DATA-AI_Chat_3_BAD_360M-Intruct
**Ultima versione della serie DATA-AI di M.INC**
---
## Descrizione
Il modello **DATA-AI_Chat_3_BAD_360M-Intruct** rappresenta l'ultima evoluzione della nostra serie di modelli DATA-AI, sviluppata con l'obiettivo di offrire capacità conversazionali avanzate e una comprensione contestuale profonda. Con 360 milioni di parametri, questo modello è stato ottimizzato tramite tecniche di "instruction tuning" per garantire risposte precise e coerenti, adatte a svariate applicazioni come assistenza clienti, chatbot interattivi e supporto decisionale.
---
## Aggiornamento del 26.03.2025
**Importante:** Per motivi di sicurezza, il dataset attuale è una versione ridotta. Vedi [Bad_Data](https://huggingface.co/datasets/Mattimax/Bad_Data_Alpaca-it).
### Bad_Data_Alpaca_it.json - Panoramica
Il dataset **Bad_Data_Alpaca_it.json** è una raccolta di dati testuali appositamente curata per l'addestramento e la valutazione di modelli linguistici su contenuti complessi e sensibili. Il dataset copre un'ampia gamma di argomenti, tra cui dilemmi etici, attività illegali, contenuti pornografici e violenti. È progettato per supportare i ricercatori nello sviluppo di modelli in grado di gestire scenari difficili e potenzialmente dannosi.
Il dataset segue il formato **Alpaca**, rendendolo compatibile con diversi processi di fine-tuning.
> **Avviso:** Questo dataset contiene contenuti che potrebbero essere offensivi, disturbanti o inappropriati. È destinato esclusivamente a scopi di ricerca e accademici. Gli utenti devono gestire questi dati con responsabilità e in conformità con tutte le leggi e normative applicabili.
### Descrizione del Contenuto
Ogni voce nel dataset è strutturata secondo il formato **Alpaca**, con i seguenti campi:
- **Istruzione:** Un prompt o una domanda che guida il modello nella risposta attesa.
- **Testo di Input:** Contesto opzionale o informazioni aggiuntive che completano l'istruzione.
- **Testo Target:** La risposta desiderata o l'output previsto basato sull'istruzione e sul testo di input.
Questo formato permette una varietà di prompt e risposte, rendendo il dataset versatile per il fine-tuning di modelli su argomenti sensibili e complessi.
---
## Installazione
Per utilizzare il modello, è necessario installare la libreria [Transformers](https://huggingface.co/docs/transformers/installation) di HuggingFace. Puoi installarla tramite pip:
```bash
pip install transformers
```
---
## Utilizzo
Ecco un semplice esempio in Python per caricare e utilizzare il modello:
```python
from transformers import AutoTokenizer, AutoModelForCausalLM
# Carica il tokenizer e il modello
tokenizer = AutoTokenizer.from_pretrained("Mattimax/DATA-AI_Chat_3_BAD_360M-Intruct")
model = AutoModelForCausalLM.from_pretrained("Mattimax/DATA-AI_Chat_3_BAD_360M-Intruct")
# Esempio di prompt
prompt = "Ciao, come posso aiutarti oggi?"
input_ids = tokenizer(prompt, return_tensors="pt").input_ids
# Genera una risposta
output_ids = model.generate(input_ids, max_length=100, do_sample=True)
response = tokenizer.decode(output_ids[0], skip_special_tokens=True)
print(response)
```
### Esempio di utilizzo del dataset
```python
import json
# Caricamento del dataset
with open('Bad_Data_Alpaca_it.json', 'r') as file:
data = json.load(file)
# Esempio: Accesso a una singola voce
sample = data[0]
print(f"Istruzione: {sample['instruction']}")
print(f"Testo di Input: {sample['input_text']}")
print(f"Testo Target: {sample['target_text']}")
```
---
## Considerazioni Etiche
- **Uso Responsabile:** Data la natura del contenuto, è essenziale che questo dataset venga utilizzato con responsabilità etica. I ricercatori devono garantire che il loro lavoro non contribuisca a danni o abusi.
- **Conformità:** Gli utenti devono rispettare tutte le leggi e normative pertinenti, comprese le leggi sulla privacy dei dati e le restrizioni sui contenuti.
---
## Licenza
Il dataset **Bad_Data_Alpaca-it.json** è rilasciato sotto la licenza **Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)**.
Per maggiori dettagli sulla licenza, consulta il file LICENSE.
---
## Disclaimer
I creatori di questo dataset non promuovono attività illegali, non etiche o dannose. Il contenuto di questo dataset è destinato esclusivamente a scopi di ricerca e accademici. Il dataset è fornito "così com'è", senza alcuna garanzia, e i creatori non sono responsabili per eventuali usi impropri o conseguenze derivanti dal suo utilizzo.
---
## Citazione
Se utilizzi questo dataset nella tua ricerca, ti preghiamo di citarlo come segue:
```bash
@dataset{bad_data_2025,
author = {Mattimax, Mattimax - M.INC},
title = {Bad_Data_Alpaca_it.json},
year = {2025},
publisher = {Hugging Face Datasets},
note = {https://huggingface.co/datasets/Mattimax/Bad_Data_Alpaca-it}
}
```
---
## Ringraziamenti
Questo dataset è stato creato con l'intento di supportare la ricerca e lo sviluppo di sistemi AI in grado di comprendere e rispondere in modo appropriato a contenuti sensibili. Incoraggiamo l'uso responsabile e pratiche di ricerca etiche.
**Traduzione a cura di Mattimax, M.INC.**
---
[Dataset su Hugging Face](https://huggingface.co/datasets/Mattimax/Bad_Data_Alpaca-it) |