Model Card for Model ID
LeIA GO es un asistente lingüístico diseñado para analizar, generar, corregir y adaptar textos considerando diferencias culturales y lingüísticas entre diversas variantes del español. Busca combatir la subrepresentación del español —especialmente sus dialectos regionales— en los recursos actuales de PLN (Procesamiento del Lenguaje Natural).
Model Details
LeIA GO es un modelo basado en transformers diseñado para analizar, corregir y adaptar textos en español, teniendo en cuenta las variaciones dialectales y culturales del idioma. Fue desarrollado durante el Hackathon 2025 de Somos NLP y está orientado a mejorar la representación del español en aplicaciones de procesamiento de lenguaje natural.
Model Description
- Developed by: Equipo LeIA GO (Susana Zhou, Constanza Jeldres)
- Funded by: Somos NLP Hackathon 2025
- Shared by: Equipo LeIA GO
- Model type: Modelo basado en transformers, ajustado para el análisis dialectal del español
- Language(s) (NLP): Español (distintas variantes dialectales)
- License: Apache 2.0
Uses
Direct Use
– Evaluación, corrección y adaptación de textos en español
– Análisis lingüístico con enfoque cultural y regional
– Identificación de preferencias dialectales
Downstream Use [optional]
– Integración en plataformas educativas
– Mejora de asistentes virtuales y aplicaciones centradas en el español
Out-of-Scope Use
– Aplicaciones críticas (médicas, legales, etc.) sin validación humana
– Traducción automática profesional sin revisión
– Análisis de dialectos no entrenados o mal representados en los datos
Bias, Risks, and Limitations
El modelo puede reflejar sesgos regionales debido a una representación desigual de variantes dialectales en los datos. Esto podría llevar a resultados menos precisos para algunas regiones o formas culturales del español.
Recommendations
– Validar las salidas del modelo en contextos sensibles
– Promover retroalimentación y reentrenamiento con datos de comunidades diversas
– Usar como herramienta complementaria, no como sustituto del juicio humano
Training Details
Training Data
El modelo fue entrenado con el conjunto de datos dataset-preferencias-v0, creado durante el Hackathon de Somos NLP 2025. Este dataset contiene ejemplos anotados con preferencias dialectales del español y fue preprocesado para asegurar claridad y representatividad regional. [Dataset: https://huggingface.co/datasets/somosnlp-hackathon-2025/dataset-preferencias-v0]
Training Procedure
Preprocessing [optional]
– Normalización de texto
– Etiquetado de dialectos
– Filtrado por claridad y relevancia
Factors
– Diferencias por país/región
– Registro lingüístico (formal/informal)
Model Card Authors [optional]
– Susana Zhou – Constanza Jeldres
- Downloads last month
- 65