mT5 català per a correcció gramatical

Aquest model està basat en mT5-base, adaptat específicament al català, i entrenat per fer correcció gramatical automàtica. És capaç de corregir errors d'ortografia, concordança, conjugació, castellanismes i altres formes habituals d’errades en frases en català.

El model ha estat fusionat en una única versió, que inclou el preentrenament, el fine-tuning i els pesos LoRA, de manera que es pot utilitzar directament sense dependències de PEFT ni adapters externs.

Resultats d'avaluació

El model ha estat avaluat sobre un conjunt de 10.000 frases amb errors i correccions:

Mètrica	Valor
BLEU	77.70
GLEU	0.77
ERRate	0.14

Entrenament

Preentrenament amb span-masking:
S’han usat 1.5 milions de frases en català amb un objectiu de preentrenament tipus seq2seq per adaptar el model base mT5 al català.
Fine-tuning amb LoRA:
Sobre aquest model adaptat, s’ha fet fine-tuning amb 1.5 milions de parelles frase-error → frase-correcta, usant la tècnica LoRA per millorar eficiència i modularitat.

Exemple d’ús

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

model = AutoModelForSeq2SeqLM.from_pretrained("Oriolshhh/parlabe-mt5-ca-corrector")
tokenizer = AutoTokenizer.from_pretrained("Oriolshhh/parlabe-mt5-ca-corrector")

text_erroni = "Demà tenim que fer una excursió a la montanya."
input_text = f"Corregeix la frase: {text_erroni}"

inputs = tokenizer(input_text, return_tensors="pt")
outputs = model.generate(**inputs)
correccio = tokenizer.decode(outputs[0], skip_special_tokens=True)

print(correccio)
# → "Demà hem de fer una excursió a la muntanya."