Not-For-All-Audiences

Model card Files Files and versions

xet

Community

DATA-AI_Chat_3_BAD_360M-Intruct / README.md

Mattimax

Update README.md

fccc917 verified 3 months ago

preview code

raw

history blame contribute delete

5.49 kB

	---
	license: cc-by-nc-4.0
	tags:
	- not-for-all-audiences
	task_categories:
	- text-generation
	- question-answering
	language:
	- it
	pretty_name: Bad data
	size_categories:
	- n<1K
	---
	# Mattimax/DATA-AI_Chat_3_BAD_360M-Intruct

	Ultima versione della serie DATA-AI di M.INC

	---

	## Descrizione

	Il modello DATA-AI_Chat_3_BAD_360M-Intruct rappresenta l'ultima evoluzione della nostra serie di modelli DATA-AI, sviluppata con l'obiettivo di offrire capacità conversazionali avanzate e una comprensione contestuale profonda. Con 360 milioni di parametri, questo modello è stato ottimizzato tramite tecniche di "instruction tuning" per garantire risposte precise e coerenti, adatte a svariate applicazioni come assistenza clienti, chatbot interattivi e supporto decisionale.

	---

	## Aggiornamento del 26.03.2025

	Importante: Per motivi di sicurezza, il dataset attuale è una versione ridotta. Vedi [Bad_Data](https://huggingface.co/datasets/Mattimax/Bad_Data_Alpaca-it).

	### Bad_Data_Alpaca_it.json - Panoramica

	Il dataset Bad_Data_Alpaca_it.json è una raccolta di dati testuali appositamente curata per l'addestramento e la valutazione di modelli linguistici su contenuti complessi e sensibili. Il dataset copre un'ampia gamma di argomenti, tra cui dilemmi etici, attività illegali, contenuti pornografici e violenti. È progettato per supportare i ricercatori nello sviluppo di modelli in grado di gestire scenari difficili e potenzialmente dannosi.

	Il dataset segue il formato Alpaca, rendendolo compatibile con diversi processi di fine-tuning.

	> Avviso: Questo dataset contiene contenuti che potrebbero essere offensivi, disturbanti o inappropriati. È destinato esclusivamente a scopi di ricerca e accademici. Gli utenti devono gestire questi dati con responsabilità e in conformità con tutte le leggi e normative applicabili.

	### Descrizione del Contenuto

	Ogni voce nel dataset è strutturata secondo il formato Alpaca, con i seguenti campi:

	- Istruzione: Un prompt o una domanda che guida il modello nella risposta attesa.
	- Testo di Input: Contesto opzionale o informazioni aggiuntive che completano l'istruzione.
	- Testo Target: La risposta desiderata o l'output previsto basato sull'istruzione e sul testo di input.

	Questo formato permette una varietà di prompt e risposte, rendendo il dataset versatile per il fine-tuning di modelli su argomenti sensibili e complessi.

	---

	## Installazione

	Per utilizzare il modello, è necessario installare la libreria [Transformers](https://huggingface.co/docs/transformers/installation) di HuggingFace. Puoi installarla tramite pip:

	```bash
	pip install transformers
	```

	---

	## Utilizzo

	Ecco un semplice esempio in Python per caricare e utilizzare il modello:

	```python
	from transformers import AutoTokenizer, AutoModelForCausalLM

	# Carica il tokenizer e il modello
	tokenizer = AutoTokenizer.from_pretrained("Mattimax/DATA-AI_Chat_3_BAD_360M-Intruct")
	model = AutoModelForCausalLM.from_pretrained("Mattimax/DATA-AI_Chat_3_BAD_360M-Intruct")

	# Esempio di prompt
	prompt = "Ciao, come posso aiutarti oggi?"
	input_ids = tokenizer(prompt, return_tensors="pt").input_ids

	# Genera una risposta
	output_ids = model.generate(input_ids, max_length=100, do_sample=True)
	response = tokenizer.decode(output_ids[0], skip_special_tokens=True)
	print(response)
	```

	### Esempio di utilizzo del dataset

	```python
	import json

	# Caricamento del dataset
	with open('Bad_Data_Alpaca_it.json', 'r') as file:
	data = json.load(file)

	# Esempio: Accesso a una singola voce
	sample = data[0]
	print(f"Istruzione: {sample['instruction']}")
	print(f"Testo di Input: {sample['input_text']}")
	print(f"Testo Target: {sample['target_text']}")
	```

	---

	## Considerazioni Etiche

	- Uso Responsabile: Data la natura del contenuto, è essenziale che questo dataset venga utilizzato con responsabilità etica. I ricercatori devono garantire che il loro lavoro non contribuisca a danni o abusi.
	- Conformità: Gli utenti devono rispettare tutte le leggi e normative pertinenti, comprese le leggi sulla privacy dei dati e le restrizioni sui contenuti.

	---

	## Licenza

	Il dataset Bad_Data_Alpaca-it.json è rilasciato sotto la licenza Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0).

	Per maggiori dettagli sulla licenza, consulta il file LICENSE.

	---

	## Disclaimer

	I creatori di questo dataset non promuovono attività illegali, non etiche o dannose. Il contenuto di questo dataset è destinato esclusivamente a scopi di ricerca e accademici. Il dataset è fornito "così com'è", senza alcuna garanzia, e i creatori non sono responsabili per eventuali usi impropri o conseguenze derivanti dal suo utilizzo.

	---

	## Citazione

	Se utilizzi questo dataset nella tua ricerca, ti preghiamo di citarlo come segue:

	```bash
	@dataset{bad_data_2025,
	author = {Mattimax, Mattimax - M.INC},
	title = {Bad_Data_Alpaca_it.json},
	year = {2025},
	publisher = {Hugging Face Datasets},
	note = {https://huggingface.co/datasets/Mattimax/Bad_Data_Alpaca-it}
	}
	```

	---

	## Ringraziamenti

	Questo dataset è stato creato con l'intento di supportare la ricerca e lo sviluppo di sistemi AI in grado di comprendere e rispondere in modo appropriato a contenuti sensibili. Incoraggiamo l'uso responsabile e pratiche di ricerca etiche.

	Traduzione a cura di Mattimax, M.INC.

	---

	[Dataset su Hugging Face](https://huggingface.co/datasets/Mattimax/Bad_Data_Alpaca-it)