Generador de Letras con Modelo de Difusi贸n

Este modelo utiliza un UNet condicionado por clase para generar letras del abecedario (A-Z) en im谩genes de 512x512 p铆xeles en escala de grises.

Caracter铆sticas del Modelo

  • 26 clases: Una para cada letra del abecedario (A-Z)
  • Resoluci贸n: 512x512 p铆xeles
  • Canales: 1 canal (escala de grises)
  • Arquitectura: UNet2D con condicionamiento por clase
  • Par谩metros: 63,153,745 par谩metros totales

Uso del Modelo

from diffusers import DDPMScheduler
import torch

# Cargar el modelo
model = LetterConditionedUnet(num_classes=26, class_emb_size=8)
model.load_state_dict(torch.load("pytorch_model.bin"))

# Crear scheduler
scheduler = DDPMScheduler.from_pretrained("./", subfolder="scheduler")

# Generar una letra (ejemplo: letra 'A' = clase 0)
device = "cuda" if torch.cuda.is_available() else "cpu"
model = model.to(device)

# Ruido inicial
x = torch.randn(1, 1, 512, 512, device=device)
labels = torch.tensor([0], device=device)  # 0 = 'A', 1 = 'B', etc.

# Proceso de denoising
for t in scheduler.timesteps:
    with torch.no_grad():
        residual = model(x, t, labels)
        x = scheduler.step(residual, t, x).prev_sample

# La imagen generada est谩 en x

Entrenamiento

El modelo fue entrenado en el dataset jruaechalar/letrasPlantilla que contiene im谩genes de letras del abecedario con sus respectivas etiquetas.

Licencia

MIT License

Downloads last month
63
Inference Providers NEW
This model isn't deployed by any Inference Provider. 馃檵 Ask for provider support