Spaces:

somosnlp-hackathon-2025
/

BacanoResponder

Running

App Files Files Community

BacanoResponder / app.py

HenryM

Update app.py

1fa425a verified 3 days ago

raw

history blame contribute delete

6.83 kB

	import gradio as gr
	from PIL import Image
	import numpy as np
	import torch
	from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessor
	from qwen_vl_utils import process_vision_info
	from peft import PeftModel

	system_prompt = (
	"A conversation between User and Assistant. The user asks a question, and the Assistant solves it. "
	"El assistant es un experto sobre Colombia. Primero razona en mente y luego da la respuesta. "
	"El razonamiento y la respuesta van en <think></think> y <answer></answer>."
	)

	MODEL_ID = "Qwen/Qwen2.5-VL-3B-Instruct"
	ADAPTER_ID = "Factral/qwen2.5vl-3b-colombia-finetuned"

	processor = AutoProcessor.from_pretrained(MODEL_ID)

	has_gpu = torch.cuda.is_available()
	attn_impl = "flash_attention_2" if has_gpu else "eager"
	model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
	MODEL_ID,
	torch_dtype=torch.bfloat16,
	attn_implementation=attn_impl,
	device_map="auto",
	)
	model = PeftModel.from_pretrained(model, ADAPTER_ID).merge_and_unload()
	model.eval().to(torch.device("cuda" if has_gpu else "cpu"))

	example_imgs = [
	("6.png", "Shakira"),
	("163.png", "Tienda esquinera"),
	("img_71_2.png", "Comida colombiana"),
	("img_98.png", "Oso de anteojos"),
	]

	def cargar_imagen(path: str) -> Image.Image:
	return Image.open(path)

	CSS_CUSTOM = """
	/* Galería horizontal con miniaturas */
	#galeria-scroll {
	overflow-x: auto;
	overflow-y: hidden;
	padding: 4px;
	scrollbar-width: thin;
	}
	#galeria-scroll .gallery { flex-wrap: nowrap !important; }
	#galeria-scroll .gallery-item {
	flex: 0 0 auto !important;
	width: 90px !important;
	height: 90px !important;
	margin-right: 6px;
	}
	#galeria-scroll .gallery-item img { object-fit: cover; }

	/* Texto blanco y sin halo azul al enfocar */
	input, textarea { color: #fff !important; }
	input::placeholder, textarea::placeholder { color: #ddd !important; }
	label { color: #fff !important; }

	.gr-text-input:focus-within,
	.gr-text-area:focus-within,
	.gr-input:focus-within {
	outline: none !important;
	box-shadow: none !important;
	border-color: #888 !important; /* gris neutro opcional */
	}

	/* Por si quedaba algo en el propio input/textarea */
	input:focus, textarea:focus,
	input:focus-visible, textarea:focus-visible {
	outline: none !important;
	box-shadow: none !important;
	border-color: #888 !important;

	"""

	with gr.Blocks(theme="lone17/kotaemon", css=CSS_CUSTOM) as demo:
	# título
	gr.Markdown(
	"""
	<h1>🇨🇴
	<span style='color:gold;'>Bacan</span><span style='color:blue;'>oResp</span><span style='color:red;'>onder</span>
	</h1>
	<p>Sube o elige una imagen, haz una pregunta y obtén una respuesta con contexto local.</p>
	"""
	)

	# motivación / ideas futuras en dos columnas
	with gr.Row():
	with gr.Column():
	gr.Markdown(
	"""
	#### 📌 Motivación del proyecto
	BacanoResponder permite a los usuarios colombianos obtener información contextual de sus imágenes.
	<br/>

	#### 🌟 Impacto
	Difunde cultura local y apoya a estudiantes, turistas y creadores de contenido.

	#### 👥 Equipo
	• Fabian Perez
	• Henry Mantilla
	• Andrea Parra
	• Juan Calderón
	• Semillero de Investigación del que somos parte [SemilleroCV](https://semillerocv.github.io/)
	"""
	)
	with gr.Column():
	gr.Markdown(
	"""
	#### 🚀 Ideas futuras
	- 📈 Escalar el dataset
	- 🎤 Soporte de voz en dialectos regionales
	- 🌐 Traducción automática
	- 🗺️ Más dialectos/costumbres
	- 🔄 Retroalimentación continua
	- 🗺️ Mapas turísticos

	#### 🤖 Modelos utilizados
	- Qwen2.5-VL-3B-Instruct
	- Dataset: [QuestionAnswer-ImgsColombia](https://huggingface.co/datasets/4nd/QuestionAnswer-ImgsColombia)
	"""
	)

	with gr.Row(equal_height=True):
	with gr.Column(scale=1):
	pregunta = gr.Textbox(
	label="❓ Pregunta sobre tu imagen",
	placeholder="¿Qué muestra esta imagen?",
	lines=2,
	)

	galeria = gr.Gallery(
	label="📁 Elige una imagen de ejemplo",
	value=[img for img, _ in example_imgs],
	columns=3,
	height="384px",
	allow_preview=True,
	show_label=True,
	elem_id="galeria-scroll",
	)

	with gr.Column(scale=1):
	imagen_mostrada = gr.Image(
	label="🖼 Imagen seleccionada o subida",
	type="numpy",
	height=256,
	)
	respuesta = gr.Textbox(
	label="🧠 Respuesta",
	interactive=False,
	lines=4,
	)
	btn_procesar = gr.Button("🔍 Procesar")

	def seleccionar_imagen(evt: gr.SelectData):
	path = example_imgs[evt.index][0]
	return np.array(cargar_imagen(path))
	galeria.select(fn=seleccionar_imagen, inputs=None, outputs=imagen_mostrada)

	def responder(img, pregunta_text):
	if img is None or pregunta_text.strip() == "":
	return "Por favor sube una imagen y escribe una pregunta."

	if isinstance(img, np.ndarray):
	img = Image.fromarray(img.astype("uint8"))

	messages = [
	{"role": "system", "content": [{"type": "text", "text": system_prompt}]},
	{"role": "user",
	"content": [
	{"type": "text", "text": pregunta_text},
	{"type": "image", "image": img},
	]},
	]
	text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
	image_inputs, video_inputs = process_vision_info(messages)
	inputs = processor(
	text=[text],
	images=image_inputs,
	videos=video_inputs,
	padding=True,
	return_tensors="pt",
	).to(model.device)

	with torch.no_grad():
	out_ids = model.generate(**inputs, max_new_tokens=512, top_p=1.0, do_sample=True, temperature=0.9)
	trimmed = [o[len(i):] for i, o in zip(inputs.input_ids, out_ids)]
	return processor.batch_decode(trimmed, skip_special_tokens=True)[0]

	btn_procesar.click(responder, inputs=[imagen_mostrada, pregunta], outputs=respuesta)

	if __name__ == "__main__":
	demo.launch()