--- license: apache-2.0 language: - fr - en library_name: sentence-transformers pipeline_tag: sentence-similarity tags: - sentence-transformers - embeddings - eurobert - multilingual - feature-extraction base_model: EuroBERT/EuroBERT-210m --- # OrdalieTech/Solon-embeddings-mini-beta-1.1 Le modèle d'origine a été créé à partir de `EuroBERT/EuroBERT-210m`, puis entraîné avec la technique **InfoNCE** sur des **paires de très haute qualité générées par LLM** ## Points clés - **Backbone** : `EuroBERT/EuroBERT-210m` - **Pooling** : moyenne des tokens (CLS désactivé, max désactivé) - **Dimensions** : 768 - **Langues** : multilingue dont le français et l'anglais ## Exemples d'usage ### Avec `sentence-transformers` ```python pip install -U sentence-transformers ``` ```python from sentence_transformers import SentenceTransformer model = SentenceTransformer("OrdalieTech/Solon-embeddings-mini-beta-1.1") sentences = ["Ceci est une phrase d'exemple", "Chaque phrase est convertie en vecteur"] embeddings = model.encode(sentences, convert_to_tensor=False, normalize_embeddings=True) print(embeddings[0].shape) # (768,) ``` ### Avec `transformers` (feature extraction) ```python pip install -U transformers torch ``` ```python from transformers import AutoTokenizer, AutoModel import torch tok = AutoTokenizer.from_pretrained("EuroBERT/EuroBERT-210m", trust_remote_code=True) enc = AutoModel.from_pretrained("EuroBERT/EuroBERT-210m", trust_remote_code=True) inputs = tok(["Ceci est une phrase d'exemple"], padding=True, truncation=True, return_tensors="pt") with torch.no_grad(): out = enc(**inputs).last_hidden_state # (batch, seq, 768) mask = inputs["attention_mask"].unsqueeze(-1) # (batch, seq, 1) mean_emb = (out * mask).sum(dim=1) / mask.sum(dim=1).clamp(min=1) ``` ## Cas d'usage - Recherche sémantique - Reranking - Similarité sémantique de phrases (STS) - Recommandation de contenu - Classification basée sur des embeddings ## Crédit et licence - Modèle de base : [`EuroBERT/EuroBERT-210m`](https://huggingface.co/EuroBERT/EuroBERT-210m) • licence Apache-2.0 - Cette publication reprend la licence Apache-2.0 et respecte les conditions de redistribution du modèle de base - Merci aux auteurs d'EuroBERT pour leur travail et l'ouverture du modèle - Création : @matheoqtb