Model Card for Model ID

LeIA GO es un asistente lingüístico diseñado para analizar, generar, corregir y adaptar textos considerando diferencias culturales y lingüísticas entre diversas variantes del español. Busca combatir la subrepresentación del español —especialmente sus dialectos regionales— en los recursos actuales de PLN (Procesamiento del Lenguaje Natural).

Model Details

LeIA GO es un modelo basado en transformers diseñado para analizar, corregir y adaptar textos en español, teniendo en cuenta las variaciones dialectales y culturales del idioma. Fue desarrollado durante el Hackathon 2025 de Somos NLP y está orientado a mejorar la representación del español en aplicaciones de procesamiento de lenguaje natural.

Model Description

Developed by: Equipo LeIA GO (Susana Zhou, Constanza Jeldres)
Funded by: Somos NLP Hackathon 2025
Shared by: Equipo LeIA GO
Model type: Modelo basado en transformers, ajustado para el análisis dialectal del español
Language(s) (NLP): Español (distintas variantes dialectales)
License: Apache 2.0

Uses

Direct Use

– Evaluación, corrección y adaptación de textos en español

– Análisis lingüístico con enfoque cultural y regional

– Identificación de preferencias dialectales

Downstream Use [optional]

– Integración en plataformas educativas

– Mejora de asistentes virtuales y aplicaciones centradas en el español

Out-of-Scope Use

– Aplicaciones críticas (médicas, legales, etc.) sin validación humana

– Traducción automática profesional sin revisión

– Análisis de dialectos no entrenados o mal representados en los datos

Bias, Risks, and Limitations

El modelo puede reflejar sesgos regionales debido a una representación desigual de variantes dialectales en los datos. Esto podría llevar a resultados menos precisos para algunas regiones o formas culturales del español.

Recommendations

– Validar las salidas del modelo en contextos sensibles

– Promover retroalimentación y reentrenamiento con datos de comunidades diversas

– Usar como herramienta complementaria, no como sustituto del juicio humano

Training Details

Training Data

El modelo fue entrenado con el conjunto de datos dataset-preferencias-v0, creado durante el Hackathon de Somos NLP 2025. Este dataset contiene ejemplos anotados con preferencias dialectales del español y fue preprocesado para asegurar claridad y representatividad regional. [Dataset: https://huggingface.co/datasets/somosnlp-hackathon-2025/dataset-preferencias-v0]

Training Procedure

Preprocessing [optional]

– Normalización de texto

– Etiquetado de dialectos

– Filtrado por claridad y relevancia

Factors

– Diferencias por país/región

– Registro lingüístico (formal/informal)

Model Card Authors [optional]

– Susana Zhou – Constanza Jeldres

somosnlp-hackathon-2025
/

leia_preference_model_social_norms