Implémentation du tokenizer en java

by Florian9M - opened May 3, 2024

May 3, 2024

J'aimerais utiliser le tokenizer en Java mais personne ne la encore implémenté.
Serait-il possible d'avoir les merges, le vocab et la base_vocab pour pouvoir l'implémenter ?

wissamantoun

ALMAnaCH (Inria) org May 3, 2024

Le tokenizer de CamemBERT est un modèl SentencePiece Unigram, donc il y a pas des merges. Vous pouvez trouver le vocab dans le fichier tokenizer.json ou sentencepiece.bpe.model (https://huggingface.co/almanach/camembert-base/tree/main)

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment