distilbert-review_classification

Este modelo es una variante de DistilBERT entrenada para la clasificación de reseñas de Amazon en español. Está basado en distilbert-base-multilingual y ha sido afinado para predecir calificaciones de estrellas (1-5) a partir del texto de la reseña.

Modelo

Arquitectura base: DistilBERT (distilbert-base-multilingual)
Tarea: Clasificación de texto (5 clases)
Idioma: Español
Caso de uso: Análisis de sentimiento y clasificación de reseñas

Rendimiento

El modelo fue evaluado en un conjunto de datos balanceado con 1000 muestras para cada clase (calificación de 1 a 5 estrellas):

Métrica Valor
Exactitud (Accuracy) 0.5808
F1 Score (macro promedio) 0.58158
Precisión (macro promedio) 0.58303
Recall (macro promedio) 0.5808

Rendimiento por clase

Clase Precisión Recall F1 Score Soporte
1 ⭐ 0.72069 0.707 0.71378 1000
2 ⭐ 0.50409 0.554 0.52787 1000
3 ⭐ 0.48916 0.474 0.48146 1000
4 ⭐ 0.51613 0.512 0.51406 1000
5 ⭐ 0.68509 0.657 0.67075 1000

Detalles de entrenamiento

  • Epochs: 1
  • Pasos de entrenamiento: 50,000
  • Tiempo de entrenamiento: ~8.2 horas (29,486 segundos)
  • Loss final: 0.9721

Uso

from transformers import pipeline

# Crear el pipeline de clasificación
clasificador = pipeline(
    "text-classification",
    model="polodealvarado/distilbert-review_classification",
    tokenizer="polodealvarado/distilbert-review_classification",
    top_k=1,  # Solo la clase más probable
)

# Texto de entrada
texto = "Este producto superó mis expectativas, lo recomiendo totalmente."

# Realizar predicción
output = clasificador(texto)

# Extraer la clase predicha (por ejemplo, 'LABEL_0', 'LABEL_1', ...)
etiqueta = output[0][0]["label"]
indice = int(etiqueta.replace("LABEL_", ""))  # 'LABEL_0' → 0
estrellas_predichas = indice + 1

print(f"Predicción: {estrellas_predichas} estrellas")

Limitaciones

  • El modelo fue entrenado con datos de reseñas de Amazon, por lo que puede tener un rendimiento reducido en otros dominios.
  • El rendimiento es más alto para reseñas claramente positivas (5 estrellas) o claramente negativas (1 estrella), mientras que las clasificaciones intermedias (2-4 estrellas) muestran un rendimiento más modesto.
Downloads last month
11
Safetensors
Model size
135M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Dataset used to train polodealvarado/distilbert-review_classification

Evaluation results