|
--- |
|
license: cc-by-nc-4.0 |
|
tags: |
|
- not-for-all-audiences |
|
task_categories: |
|
- text-generation |
|
- question-answering |
|
language: |
|
- it |
|
pretty_name: Bad data |
|
size_categories: |
|
- n<1K |
|
--- |
|
# Mattimax/DATA-AI_Chat_3_BAD_360M-Intruct |
|
|
|
**Ultima versione della serie DATA-AI di M.INC** |
|
|
|
--- |
|
|
|
## Descrizione |
|
|
|
Il modello **DATA-AI_Chat_3_BAD_360M-Intruct** rappresenta l'ultima evoluzione della nostra serie di modelli DATA-AI, sviluppata con l'obiettivo di offrire capacità conversazionali avanzate e una comprensione contestuale profonda. Con 360 milioni di parametri, questo modello è stato ottimizzato tramite tecniche di "instruction tuning" per garantire risposte precise e coerenti, adatte a svariate applicazioni come assistenza clienti, chatbot interattivi e supporto decisionale. |
|
|
|
--- |
|
|
|
## Aggiornamento del 26.03.2025 |
|
|
|
**Importante:** Per motivi di sicurezza, il dataset attuale è una versione ridotta. Vedi [Bad_Data](https://huggingface.co/datasets/Mattimax/Bad_Data_Alpaca-it). |
|
|
|
### Bad_Data_Alpaca_it.json - Panoramica |
|
|
|
Il dataset **Bad_Data_Alpaca_it.json** è una raccolta di dati testuali appositamente curata per l'addestramento e la valutazione di modelli linguistici su contenuti complessi e sensibili. Il dataset copre un'ampia gamma di argomenti, tra cui dilemmi etici, attività illegali, contenuti pornografici e violenti. È progettato per supportare i ricercatori nello sviluppo di modelli in grado di gestire scenari difficili e potenzialmente dannosi. |
|
|
|
Il dataset segue il formato **Alpaca**, rendendolo compatibile con diversi processi di fine-tuning. |
|
|
|
> **Avviso:** Questo dataset contiene contenuti che potrebbero essere offensivi, disturbanti o inappropriati. È destinato esclusivamente a scopi di ricerca e accademici. Gli utenti devono gestire questi dati con responsabilità e in conformità con tutte le leggi e normative applicabili. |
|
|
|
### Descrizione del Contenuto |
|
|
|
Ogni voce nel dataset è strutturata secondo il formato **Alpaca**, con i seguenti campi: |
|
|
|
- **Istruzione:** Un prompt o una domanda che guida il modello nella risposta attesa. |
|
- **Testo di Input:** Contesto opzionale o informazioni aggiuntive che completano l'istruzione. |
|
- **Testo Target:** La risposta desiderata o l'output previsto basato sull'istruzione e sul testo di input. |
|
|
|
Questo formato permette una varietà di prompt e risposte, rendendo il dataset versatile per il fine-tuning di modelli su argomenti sensibili e complessi. |
|
|
|
--- |
|
|
|
## Installazione |
|
|
|
Per utilizzare il modello, è necessario installare la libreria [Transformers](https://huggingface.co/docs/transformers/installation) di HuggingFace. Puoi installarla tramite pip: |
|
|
|
```bash |
|
pip install transformers |
|
``` |
|
|
|
--- |
|
|
|
## Utilizzo |
|
|
|
Ecco un semplice esempio in Python per caricare e utilizzare il modello: |
|
|
|
```python |
|
from transformers import AutoTokenizer, AutoModelForCausalLM |
|
|
|
# Carica il tokenizer e il modello |
|
tokenizer = AutoTokenizer.from_pretrained("Mattimax/DATA-AI_Chat_3_BAD_360M-Intruct") |
|
model = AutoModelForCausalLM.from_pretrained("Mattimax/DATA-AI_Chat_3_BAD_360M-Intruct") |
|
|
|
# Esempio di prompt |
|
prompt = "Ciao, come posso aiutarti oggi?" |
|
input_ids = tokenizer(prompt, return_tensors="pt").input_ids |
|
|
|
# Genera una risposta |
|
output_ids = model.generate(input_ids, max_length=100, do_sample=True) |
|
response = tokenizer.decode(output_ids[0], skip_special_tokens=True) |
|
print(response) |
|
``` |
|
|
|
### Esempio di utilizzo del dataset |
|
|
|
```python |
|
import json |
|
|
|
# Caricamento del dataset |
|
with open('Bad_Data_Alpaca_it.json', 'r') as file: |
|
data = json.load(file) |
|
|
|
# Esempio: Accesso a una singola voce |
|
sample = data[0] |
|
print(f"Istruzione: {sample['instruction']}") |
|
print(f"Testo di Input: {sample['input_text']}") |
|
print(f"Testo Target: {sample['target_text']}") |
|
``` |
|
|
|
--- |
|
|
|
## Considerazioni Etiche |
|
|
|
- **Uso Responsabile:** Data la natura del contenuto, è essenziale che questo dataset venga utilizzato con responsabilità etica. I ricercatori devono garantire che il loro lavoro non contribuisca a danni o abusi. |
|
- **Conformità:** Gli utenti devono rispettare tutte le leggi e normative pertinenti, comprese le leggi sulla privacy dei dati e le restrizioni sui contenuti. |
|
|
|
--- |
|
|
|
## Licenza |
|
|
|
Il dataset **Bad_Data_Alpaca-it.json** è rilasciato sotto la licenza **Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)**. |
|
|
|
Per maggiori dettagli sulla licenza, consulta il file LICENSE. |
|
|
|
--- |
|
|
|
## Disclaimer |
|
|
|
I creatori di questo dataset non promuovono attività illegali, non etiche o dannose. Il contenuto di questo dataset è destinato esclusivamente a scopi di ricerca e accademici. Il dataset è fornito "così com'è", senza alcuna garanzia, e i creatori non sono responsabili per eventuali usi impropri o conseguenze derivanti dal suo utilizzo. |
|
|
|
--- |
|
|
|
## Citazione |
|
|
|
Se utilizzi questo dataset nella tua ricerca, ti preghiamo di citarlo come segue: |
|
|
|
```bash |
|
@dataset{bad_data_2025, |
|
author = {Mattimax, Mattimax - M.INC}, |
|
title = {Bad_Data_Alpaca_it.json}, |
|
year = {2025}, |
|
publisher = {Hugging Face Datasets}, |
|
note = {https://huggingface.co/datasets/Mattimax/Bad_Data_Alpaca-it} |
|
} |
|
``` |
|
|
|
--- |
|
|
|
## Ringraziamenti |
|
|
|
Questo dataset è stato creato con l'intento di supportare la ricerca e lo sviluppo di sistemi AI in grado di comprendere e rispondere in modo appropriato a contenuti sensibili. Incoraggiamo l'uso responsabile e pratiche di ricerca etiche. |
|
|
|
**Traduzione a cura di Mattimax, M.INC.** |
|
|
|
--- |
|
|
|
[Dataset su Hugging Face](https://huggingface.co/datasets/Mattimax/Bad_Data_Alpaca-it) |