metadata

license: apache-2.0
language:
  - nl
library_name: transformers

Pieter Delobelle, François Remy, Miryam de Lhoneux, Thomas Demeester

Tweety-7b-dutch: Een Nederlands Groot Taalmodel

Modelkaart voor tweety-7b-dutch

tweety-7b-dutch is een Nederlands taalmodel, waarin een Nederlandse tokenizer is geïntegreerd voor betere representaties en generatie van Nederlandse tekst. Het is gebouwd op de Mistral-architectuur, maakt gebruik van flash attention en met een context window van 8192 tokens. Tweety-7b-dutch is getraind op de opgeschoonde Nederlandse mC4 dataset, zonder instructie-finetuning.

Modeldetails

Modelbeschrijving

Ons tweety-7b-dutch model heeft een Apache 2.0 licentie, wat toepassingen aanmoedigt in onderzoek, contentcreatie en taalanalyse.

Tokenizer: Nederlands, 50k tokens (yhavinga/gpt-neo-1.3B-dutch)
Pre-training data: Verzamelde Nederlandse teksten (yhavinga/mc4_nl_cleaned)
Contextvenster: 8196 tokens
Trainingsdata: 8,5 miljard tokens
Ontwikkeld door: KU Leuven en UGent
Gefinancierd door: KU Leuven BOF, VSC (Vlaams Supercomputer Centrum), Vlaams AI-onderzoeksprogramma
Modeltype: Foundationmodel
Licentie: Apache 2.0

Toepassingen

Als basismodel is tweety-7b-dutch geschikt voor directe toepassingen in tekstgeneratie en -begrip binnen de Nederlandse taal.

Technische specificaties

Computerinfrastructuur

De training maakte gebruik van Nvidia H100 en A100 GPU's. Inferentie is toegankelijk op minder krachtige GPU's, in principe elke GPU die in staat is om mistral-modellen te draaien.

Modelgewichten

Dit model werd getraind in bfloat16.
GGUF-gewichten worden uitgebracht door Bram Vanroy.

Citatie

Als je dit model gebruikt, citeer dan ons werk als volgt:

@article{tweeties2024,
    title = {Trans-Tokenization and Cross-lingual Vocabulary Transfers: Language Adaptation of LLMs for Low-Resource NLP},
    author = {François Remy and Pieter Delobelle and Hayastan Avetisyan and Alfiya Khabibullina and Miryam de Lhoneux and Thomas Demeester},
    url = {https://arxiv.org/abs/2408.04303},
    year = {2024},
    note = {Accepted at COLM 2024}
}