Spaces:

Uhhy
/

Gggggg

Build error

App Files Files Community

Gggggg / app.py

Uhhy

Update app.py

3c88fa1 verified 10 months ago

raw

history blame contribute delete

25.1 kB

	from dotenv import load_dotenv
	import os
	import json
	import torch
	from transformers import (
	AutoTokenizer,
	AutoModelForSequenceClassification,
	AutoModelForCausalLM,
	TrainingArguments,
	Trainer,
	AutoModelForTextToWaveform
	)
	from fastapi import FastAPI, HTTPException, Request
	from fastapi.responses import HTMLResponse
	import multiprocessing
	import uuid
	import numpy as np
	from diffusers import FluxPipeline
	from tqdm import tqdm
	from google.cloud import storage
	import io
	import spaces

	spaces.GPU(duration=0)
	load_dotenv()

	app = FastAPI()

	default_language = "es"

	GCS_BUCKET_NAME = os.getenv("GCS_BUCKET_NAME")
	if GCS_BUCKET_NAME is None:
	raise ValueError("La variable de entorno GCS_BUCKET_NAME no está definida.")

	GCS_CREDENTIALS = os.getenv("GCS_CREDENTIALS")
	if GCS_CREDENTIALS is None:
	raise ValueError("La variable de entorno GCS_CREDENTIALS no está definida.")
	gcs_credentials_dict = json.loads(GCS_CREDENTIALS)
	with open('gcs_credentials.json', 'w') as f:
	json.dump(gcs_credentials_dict, f)
	os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = "gcs_credentials.json"

	storage_client = storage.Client()
	bucket = storage_client.bucket(GCS_BUCKET_NAME)

	AutoTokenizer.from_pretrained("gpt2", cache_dir=f"gs://{GCS_BUCKET_NAME}/cache")
	AutoModelForCausalLM.from_pretrained("gpt2", cache_dir=f"gs://{GCS_BUCKET_NAME}/cache")
	FluxPipeline.from_pretrained("black-forest-labs/FLUX.1-schnell", torch_dtype=torch.bfloat16, cache_dir=f"gs://{GCS_BUCKET_NAME}/cache")
	AutoTokenizer.from_pretrained("facebook/musicgen-small", cache_dir=f"gs://{GCS_BUCKET_NAME}/cache")
	AutoModelForTextToWaveform.from_pretrained("facebook/musicgen-small", cache_dir=f"gs://{GCS_BUCKET_NAME}/cache")

	class ChatbotService:
	def __init__(self):
	self.model_name = "response_model"
	self.tokenizer_name = "response_tokenizer"
	self.model = self.load_model()
	self.tokenizer = self.load_tokenizer()

	def get_response(self, user_id, message, language=default_language):
	if self.model is None or self.tokenizer is None:
	return "El modelo aún no está listo. Por favor, inténtelo de nuevo más tarde."
	input_text = f"Usuario: {message} Asistente:"
	input_ids = self.tokenizer.encode(input_text, return_tensors="pt").to("cuda")
	with torch.no_grad():
	output = self.model.generate(input_ids=input_ids, max_length=100, num_beams=5, no_repeat_ngram_size=2,
	early_stopping=True)
	response = self.tokenizer.decode(output[0], skip_special_tokens=True)
	response = response.replace(input_text, "").strip()
	return response

	def load_model(self):
	model_path = f"gs://{GCS_BUCKET_NAME}/model_{self.model_name}"
	if bucket.blob(f"model_{self.model_name}").exists():
	blob = bucket.blob(f"model_{self.model_name}")
	model_bytes = blob.download_as_bytes()
	model_buffer = io.BytesIO(model_bytes)
	model = AutoModelForCausalLM.from_pretrained("gpt2")
	model.load_state_dict(torch.load(model_buffer, map_location=torch.device("cuda")))
	return model
	return None

	def load_tokenizer(self):
	tokenizer_path = f"gs://{GCS_BUCKET_NAME}/tokenizer_{self.tokenizer_name}.json"
	if bucket.blob(f"tokenizer_{self.tokenizer_name}.json").exists():
	blob = bucket.blob(f"tokenizer_{self.tokenizer_name}.json")
	tokenizer_bytes = blob.download_as_bytes()
	tokenizer_data = json.loads(tokenizer_bytes)
	tokenizer = AutoTokenizer.from_pretrained("gpt2")
	existing_tokens = tokenizer.get_vocab()
	new_tokens = tokenizer_data
	for token, id in new_tokens.items():
	if token not in existing_tokens:
	tokenizer.add_tokens([token])
	tokenizer.pad_token = tokenizer.eos_token
	return tokenizer
	return None


	chatbot_service = ChatbotService()


	class UnifiedModel(AutoModelForSequenceClassification):
	def __init__(self, config):
	super().__init__(config)

	@staticmethod
	def load_model():
	model_name = "unified_model"
	model_path = f"gs://{GCS_BUCKET_NAME}/model_{model_name}"
	if bucket.blob(f"model_{model_name}").exists():
	blob = bucket.blob(f"model_{model_name}")
	model_bytes = blob.download_as_bytes()
	model_buffer = io.BytesIO(model_bytes)
	model = UnifiedModel.from_pretrained("gpt2", num_labels=3)
	model.load_state_dict(torch.load(model_buffer, map_location=torch.device("cuda")))
	return model
	else:
	model = UnifiedModel.from_pretrained("gpt2", num_labels=3)
	model_buffer = io.BytesIO()
	torch.save(model.state_dict(), model_buffer)
	model_buffer.seek(0)
	blob = bucket.blob(f"model_{model_name}")
	blob.upload_from_file(model_buffer, content_type="application/octet-stream")
	return model


	class SyntheticDataset(torch.utils.data.Dataset):
	def __init__(self, tokenizer, data):
	self.tokenizer = tokenizer
	self.data = data

	def __len__(self):
	return len(self.data)

	def __getitem__(self, idx):
	item = self.data[idx]
	text = item['text']
	label = item['label']
	tokens = self.tokenizer(text, padding="max_length", truncation=True, max_length=128, return_tensors="pt")
	return {"input_ids": tokens["input_ids"].squeeze(), "attention_mask": tokens["attention_mask"].squeeze(),
	"labels": label}


	conversation_history = {}

	tokenizer_name = "unified_tokenizer"
	tokenizer = None
	unified_model = None
	image_pipeline = FluxPipeline.from_pretrained("black-forest-labs/FLUX.1-schnell", torch_dtype=torch.bfloat16,
	cache_dir=f"gs://{GCS_BUCKET_NAME}/cache")
	image_pipeline.enable_model_cpu_offload()
	musicgen_tokenizer = AutoTokenizer.from_pretrained("facebook/musicgen-small")
	musicgen_model = AutoModelForTextToWaveform.from_pretrained("facebook/musicgen-small")

	@app.on_event("startup")
	async def startup_event():
	global tokenizer, unified_model
	tokenizer_path = f"gs://{GCS_BUCKET_NAME}/tokenizer_{tokenizer_name}.json"
	if bucket.blob(f"tokenizer_{tokenizer_name}.json").exists():
	blob = bucket.blob(f"tokenizer_{tokenizer_name}.json")
	tokenizer_bytes = blob.download_as_bytes()
	tokenizer_data = json.loads(tokenizer_bytes)
	tokenizer = AutoTokenizer.from_pretrained("gpt2", cache_dir=f"gs://{GCS_BUCKET_NAME}/cache")
	existing_tokens = tokenizer.get_vocab()
	new_tokens = tokenizer_data
	for token, id in new_tokens.items():
	if token not in existing_tokens:
	tokenizer.add_tokens([token])
	tokenizer.pad_token = tokenizer.eos_token
	else:
	tokenizer = AutoTokenizer.from_pretrained("gpt2", cache_dir=f"gs://{GCS_BUCKET_NAME}/cache")
	tokenizer.pad_token = tokenizer.eos_token
	unified_model = UnifiedModel.load_model()
	unified_model.to(torch.device("cuda"))


	@app.post("/process")
	async def process(request: Request):
	global tokenizer, unified_model
	data = await request.json()

	if data.get("train"):
	user_data = data.get("user_data", [])
	if not user_data:
	user_data = [
	{"text": "Hola", "label": 1},
	{"text": "Necesito ayuda", "label": 2},
	{"text": "No entiendo", "label": 0}
	]
	training_queue_path = f"gs://{GCS_BUCKET_NAME}/training_queue.json"
	if bucket.blob("training_queue.json").exists():
	blob = bucket.blob("training_queue.json")
	training_queue_bytes = blob.download_as_bytes()
	existing_data = json.loads(training_queue_bytes)
	else:
	existing_data = []
	new_data = existing_data + [{
	"tokenizers": {tokenizer_name: tokenizer.get_vocab()},
	"data": user_data
	}]
	new_data_bytes = json.dumps(new_data).encode("utf-8")
	blob = bucket.blob("training_queue.json")
	blob.upload_from_string(new_data_bytes, content_type="application/json")
	return {"message": "Training data received. Model will be updated asynchronously."}
	elif data.get("message"):
	user_id = data.get("user_id")
	text = data['message']
	language = data.get("language", default_language)
	if user_id not in conversation_history:
	conversation_history[user_id] = []
	conversation_history[user_id].append(text)
	contextualized_text = " ".join(conversation_history[user_id][-3:])
	tokenized_input = tokenizer(contextualized_text, return_tensors="pt")
	with torch.no_grad():
	logits = unified_model(**tokenized_input).logits
	predicted_class = torch.argmax(logits, dim=-1).item()
	response = chatbot_service.get_response(user_id, contextualized_text, language)
	training_queue_path = f"gs://{GCS_BUCKET_NAME}/training_queue.json"
	if bucket.blob("training_queue.json").exists():
	blob = bucket.blob("training_queue.json")
	training_queue_bytes = blob.download_as_bytes()
	existing_data = json.loads(training_queue_bytes)
	else:
	existing_data = []
	new_data = existing_data + [{
	"tokenizers": {tokenizer_name: tokenizer.get_vocab()},
	"data": [{"text": contextualized_text, "label": predicted_class}]
	}]
	new_data_bytes = json.dumps(new_data).encode("utf-8")
	blob = bucket.blob("training_queue.json")
	blob.upload_from_string(new_data_bytes, content_type="application/json")
	return {"answer": response}
	else:
	raise HTTPException(status_code=400, detail="Request must contain 'train' or 'message'.")


	@app.get("/")
	async def get_home():
	user_id = str(uuid.uuid4())
	html_code = f"""
	<!DOCTYPE html>
	<html>
	<head>
	<meta charset="UTF-8">
	<title>Chatbot</title>
	<style>
	body {{
	font-family: 'Arial', sans-serif;
	background-color: #f4f4f9;
	margin: 0;
	padding: 0;
	display: flex;
	align-items: center;
	justify-content: center;
	min-height: 100vh;
	}}
	.container {{
	background-color: #fff;
	border-radius: 10px;
	box-shadow: 0 2px 5px rgba(0, 0, 0, 0.1);
	overflow: hidden;
	width: 400px;
	max-width: 90%;
	}}
	h1 {{
	color: #333;
	text-align: center;
	padding: 20px;
	margin: 0;
	background-color: #f8f9fa;
	border-bottom: 1px solid #eee;
	}}
	#chatbox {{
	height: 300px;
	overflow-y: auto;
	padding: 10px;
	border-bottom: 1px solid #eee;
	}}
	.message {{
	margin-bottom: 10px;
	padding: 10px;
	border-radius: 5px;
	}}
	.message.user {{
	background-color: #e1f5fe;
	text-align: right;
	}}
	.message.bot {{
	background-color: #f1f1f1;
	text-align: left;
	}}
	#input {{
	display: flex;
	padding: 10px;
	}}
	#input textarea {{
	flex: 1;
	padding: 10px;
	border: 1px solid #ddd;
	border-radius: 4px;
	margin-right: 10px;
	}}
	#input button {{
	padding: 10px 20px;
	border: none;
	border-radius: 4px;
	background-color: #007bff;
	color: #fff;
	cursor: pointer;
	}}
	#input button:hover {{
	background-color: #0056b3;
	}}
	</style>
	</head>
	<body>
	<div class="container">
	<h1>Chatbot</h1>
	<div id="chatbox"></div>
	<div id="input">
	<textarea id="message" rows="3" placeholder="Escribe tu mensaje aquí..."></textarea>
	<button id="send">Enviar</button>
	</div>
	</div>
	<script>
	const chatbox = document.getElementById('chatbox');
	const messageInput = document.getElementById('message');
	const sendButton = document.getElementById('send');

	function appendMessage(text, sender) {{
	const messageDiv = document.createElement('div');
	messageDiv.classList.add('message', sender);
	messageDiv.textContent = text;
	chatbox.appendChild(messageDiv);
	chatbox.scrollTop = chatbox.scrollHeight;
	}}

	async function sendMessage() {{
	const message = messageInput.value;
	if (!message.trim()) return;

	appendMessage(message, 'user');
	messageInput.value = '';

	const response = await fetch('/process', {{
	method: 'POST',
	headers: {{
	'Content-Type': 'application/json'
	}},
	body: JSON.stringify({{
	message: message,
	user_id: '{user_id}'
	}})
	}});
	const data = await response.json();
	appendMessage(data.answer, 'bot');
	}}

	sendButton.addEventListener('click', sendMessage);
	messageInput.addEventListener('keypress', (e) => {{
	if (e.key === 'Enter' && !e.shiftKey) {{
	e.preventDefault();
	sendMessage();
	}}
	}});
	</script>
	</body>
	</html>
	"""
	return HTMLResponse(content=html_code)

	@spaces.GPU
	def my_inference_function(input_data, output_data, mode, max_length, max_new_tokens, model_size):
	print("xd")
	# Add your inference logic here
	# ...

	def train_unified_model():
	global tokenizer, unified_model
	model_name = "unified_model"
	model_path = f"gs://{GCS_BUCKET_NAME}/model_{model_name}"
	training_args = TrainingArguments(
	output_dir=f"gs://{GCS_BUCKET_NAME}/results",
	per_device_train_batch_size=8,
	num_train_epochs=3,
	)
	while True:
	training_queue_path = f"gs://{GCS_BUCKET_NAME}/training_queue.json"
	if bucket.blob("training_queue.json").exists():
	blob = bucket.blob("training_queue.json")
	training_queue_bytes = blob.download_as_bytes()
	training_data_list = json.loads(training_queue_bytes)
	if training_data_list:
	training_data = training_data_list.pop(0)
	new_data_bytes = json.dumps(training_data_list).encode("utf-8")
	blob = bucket.blob("training_queue.json")
	blob.upload_from_string(new_data_bytes, content_type="application/json")

	tokenizer_data = training_data.get("tokenizers")
	if tokenizer_data:
	tokenizer_name = list(tokenizer_data.keys())[0]
	existing_tokens = tokenizer.get_vocab()
	new_tokens = tokenizer_data[tokenizer_name]
	for token, id in new_tokens.items():
	if token not in existing_tokens:
	tokenizer.add_tokens([token])
	data = training_data.get("data", [])
	if data:
	dataset = SyntheticDataset(tokenizer, data)
	trainer = Trainer(model=unified_model, args=training_args, train_dataset=dataset)
	trainer.train()
	model_buffer = io.BytesIO()
	torch.save(unified_model.state_dict(), model_buffer)
	model_buffer.seek(0)
	blob = bucket.blob(f"model_{model_name}")
	blob.upload_from_file(model_buffer, content_type="application/octet-stream")
	new_tokenizer_bytes = json.dumps(tokenizer.get_vocab()).encode("utf-8")
	blob = bucket.blob(f"tokenizer_{tokenizer_name}.json")
	blob.upload_from_string(new_tokenizer_bytes, content_type="application/json")

	initial_data_path = f"gs://{GCS_BUCKET_NAME}/initial_data.json"
	if bucket.blob("initial_data.json").exists():
	blob = bucket.blob("initial_data.json")
	initial_data_bytes = blob.download_as_bytes()
	initial_data = json.loads(initial_data_bytes)
	dataset = SyntheticDataset(tokenizer, initial_data)
	trainer = Trainer(model=unified_model, args=training_args, train_dataset=dataset)
	trainer.train()
	model_buffer = io.BytesIO()
	torch.save(unified_model.state_dict(), model_buffer)
	model_buffer.seek(0)
	blob = bucket.blob(f"model_{model_name}")
	blob.upload_from_file(model_buffer, content_type="application/octet-stream")


	def train_text_model():
	global tokenizer, unified_model
	model_name = "text_model"
	model_path = f"gs://{GCS_BUCKET_NAME}/model_{model_name}"
	training_args = TrainingArguments(
	output_dir=f"gs://{GCS_BUCKET_NAME}/results",
	per_device_train_batch_size=8,
	num_train_epochs=3,
	)
	while True:
	training_queue_path = f"gs://{GCS_BUCKET_NAME}/training_queue.json"
	if bucket.blob("training_queue.json").exists():
	blob = bucket.blob("training_queue.json")
	training_queue_bytes = blob.download_as_bytes()
	training_data_list = json.loads(training_queue_bytes)
	if training_data_list:
	training_data = training_data_list.pop(0)
	new_data_bytes = json.dumps(training_data_list).encode("utf-8")
	blob = bucket.blob("training_queue.json")
	blob.upload_from_string(new_data_bytes, content_type="application/json")

	tokenizer_data = training_data.get("tokenizers")
	if tokenizer_data:
	tokenizer_name = list(tokenizer_data.keys())[0]
	existing_tokens = tokenizer.get_vocab()
	new_tokens = tokenizer_data[tokenizer_name]
	for token, id in new_tokens.items():
	if token not in existing_tokens:
	tokenizer.add_tokens([token])
	data = training_data.get("data", [])
	if data:
	dataset = SyntheticDataset(tokenizer, data)
	trainer = Trainer(model=unified_model, args=training_args, train_dataset=dataset)
	trainer.train()
	model_buffer = io.BytesIO()
	torch.save(unified_model.state_dict(), model_buffer)
	model_buffer.seek(0)
	blob = bucket.blob(f"model_{model_name}")
	blob.upload_from_file(model_buffer, content_type="application/octet-stream")
	new_tokenizer_bytes = json.dumps(tokenizer.get_vocab()).encode("utf-8")
	blob = bucket.blob(f"tokenizer_{tokenizer_name}.json")
	blob.upload_from_string(new_tokenizer_bytes, content_type="application/json")

	initial_data_path = f"gs://{GCS_BUCKET_NAME}/initial_data.json"
	if bucket.blob("initial_data.json").exists():
	blob = bucket.blob("initial_data.json")
	initial_data_bytes = blob.download_as_bytes()
	initial_data = json.loads(initial_data_bytes)
	dataset = SyntheticDataset(tokenizer, initial_data)
	trainer = Trainer(model=unified_model, args=training_args, train_dataset=dataset)
	trainer.train()
	model_buffer = io.BytesIO()
	torch.save(unified_model.state_dict(), model_buffer)
	model_buffer.seek(0)
	blob = bucket.blob(f"model_{model_name}")
	blob.upload_from_file(model_buffer, content_type="application/octet-stream")

	def train_image_model():
	global image_pipeline
	while True:
	image_training_queue_path = f"gs://{GCS_BUCKET_NAME}/image_training_queue.json"
	if bucket.blob("image_training_queue.json").exists():
	blob = bucket.blob("image_training_queue.json")
	image_training_queue_bytes = blob.download_as_bytes()
	image_training_data_list = json.loads(image_training_queue_bytes)
	if image_training_data_list:
	image_training_data = image_training_data_list.pop(0)
	new_data_bytes = json.dumps(image_training_data_list).encode("utf-8")
	blob = bucket.blob("image_training_queue.json")
	blob.upload_from_string(new_data_bytes, content_type="application/json")
	image_pipeline.model.to("cuda")
	image_pipeline.model.train()
	optimizer = torch.optim.Adam(image_pipeline.model.parameters(), lr=1e-5)
	loss_fn = torch.nn.MSELoss()
	for epoch in range(3):
	for i in tqdm(range(len(image_training_data)), desc=f"Epoch {epoch+1}"):
	image_prompt = image_training_data[i]
	image = image_pipeline(
	image_prompt,
	guidance_scale=0.0,
	num_inference_steps=4,
	max_sequence_length=256,
	generator=torch.Generator("cuda").manual_seed(0)
	).images[0]
	image_tensor = torch.tensor(np.array(image)).unsqueeze(0).to("cuda")
	target_tensor = torch.zeros_like(image_tensor)
	outputs = image_pipeline.model(image_tensor)
	loss = loss_fn(outputs, target_tensor)
	optimizer.zero_grad()
	loss.backward()
	optimizer.step()
	print(f"Epoch {epoch+1}, Step {i+1}/{len(image_training_data)}, Loss: {loss.item()}")

	def train_music_model():
	global musicgen_tokenizer, musicgen_model
	while True:
	music_training_queue_path = f"gs://{GCS_BUCKET_NAME}/music_training_queue.json"
	if bucket.blob("music_training_queue.json").exists():
	blob = bucket.blob("music_training_queue.json")
	music_training_queue_bytes = blob.download_as_bytes()
	music_training_data_list = json.loads(music_training_queue_bytes)
	if music_training_data_list:
	music_training_data = music_training_data_list.pop(0)
	new_data_bytes = json.dumps(music_training_data_list).encode("utf-8")
	blob = bucket.blob("music_training_queue.json")
	blob.upload_from_string(new_data_bytes, content_type="application/json")

	inputs = musicgen_tokenizer(music_training_data, return_tensors="pt", padding=True).to("cuda")
	musicgen_model.to("cuda")
	musicgen_model.train()
	optimizer = torch.optim.Adam(musicgen_model.parameters(), lr=5e-5)
	loss_fn = torch.nn.CrossEntropyLoss()
	for epoch in range(3):
	for i in tqdm(range(len(inputs["input_ids"])), desc=f"Epoch {epoch+1}"):
	outputs = musicgen_model(**inputs)
	loss = loss_fn(outputs.logits, inputs['labels'])
	optimizer.zero_grad()
	loss.backward()
	optimizer.step()
	print(f"Epoch {epoch+1}, Step {i+1}/{len(inputs['input_ids'])}, Loss: {loss.item()}")


	if __name__ == "__main__":
	import uvicorn
	uvicorn.run(app, host="0.0.0.0", port=7860)

	print("Iniciando entrenamiento automático del modelo unificado...")
	auto_learn_process = multiprocessing.Process(target=train_unified_model)
	auto_learn_process.start()

	print("Iniciando entrenamiento automático del modelo de texto...")
	auto_learn_process_2 = multiprocessing.Process(target=train_text_model)
	auto_learn_process_2.start()

	print("Iniciando entrenamiento automático del modelo de imagen...")
	auto_learn_process_3 = multiprocessing.Process(target=train_image_model)
	auto_learn_process_3.start()

	print("Iniciando entrenamiento automático del modelo de música...")
	auto_learn_process_4 = multiprocessing.Process(target=train_music_model)
	auto_learn_process_4.start()