OrdalieTech/Solon-embeddings-mini-beta-1.1
Le modèle d'origine a été créé à partir de EuroBERT/EuroBERT-210m
, puis entraîné avec la technique InfoNCE sur des paires de très haute qualité générées par LLM
Points clés
- Backbone :
EuroBERT/EuroBERT-210m
- Pooling : moyenne des tokens (CLS désactivé, max désactivé)
- Dimensions : 768
- Langues : multilingue dont le français et l'anglais
Exemples d'usage
Avec sentence-transformers
pip install -U sentence-transformers
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("OrdalieTech/Solon-embeddings-mini-beta-1.1")
sentences = ["Ceci est une phrase d'exemple", "Chaque phrase est convertie en vecteur"]
embeddings = model.encode(sentences, convert_to_tensor=False, normalize_embeddings=True)
print(embeddings[0].shape) # (768,)
Avec transformers
(feature extraction)
pip install -U transformers torch
from transformers import AutoTokenizer, AutoModel
import torch
tok = AutoTokenizer.from_pretrained("EuroBERT/EuroBERT-210m", trust_remote_code=True)
enc = AutoModel.from_pretrained("EuroBERT/EuroBERT-210m", trust_remote_code=True)
inputs = tok(["Ceci est une phrase d'exemple"], padding=True, truncation=True, return_tensors="pt")
with torch.no_grad():
out = enc(**inputs).last_hidden_state # (batch, seq, 768)
mask = inputs["attention_mask"].unsqueeze(-1) # (batch, seq, 1)
mean_emb = (out * mask).sum(dim=1) / mask.sum(dim=1).clamp(min=1)
Cas d'usage
- Recherche sémantique
- Reranking
- Similarité sémantique de phrases (STS)
- Recommandation de contenu
- Classification basée sur des embeddings
Crédit et licence
- Modèle de base :
EuroBERT/EuroBERT-210m
• licence Apache-2.0 - Cette publication reprend la licence Apache-2.0 et respecte les conditions de redistribution du modèle de base
- Merci aux auteurs d'EuroBERT pour leur travail et l'ouverture du modèle
- Création : @matheoqtb
- Downloads last month
- 22
Model tree for OrdalieTech/Solon-embeddings-mini-beta-1.1
Base model
EuroBERT/EuroBERT-210m