OrdalieTech/Solon-embeddings-mini-beta-1.1

Le modèle d'origine a été créé à partir de EuroBERT/EuroBERT-210m, puis entraîné avec la technique InfoNCE sur des paires de très haute qualité générées par LLM

Points clés

  • Backbone : EuroBERT/EuroBERT-210m
  • Pooling : moyenne des tokens (CLS désactivé, max désactivé)
  • Dimensions : 768
  • Langues : multilingue dont le français et l'anglais

Exemples d'usage

Avec sentence-transformers

pip install -U sentence-transformers
from sentence_transformers import SentenceTransformer

model = SentenceTransformer("OrdalieTech/Solon-embeddings-mini-beta-1.1")
sentences = ["Ceci est une phrase d'exemple", "Chaque phrase est convertie en vecteur"]
embeddings = model.encode(sentences, convert_to_tensor=False, normalize_embeddings=True)
print(embeddings[0].shape)  # (768,)

Avec transformers (feature extraction)

pip install -U transformers torch
from transformers import AutoTokenizer, AutoModel
import torch

tok = AutoTokenizer.from_pretrained("EuroBERT/EuroBERT-210m", trust_remote_code=True)
enc = AutoModel.from_pretrained("EuroBERT/EuroBERT-210m", trust_remote_code=True)

inputs = tok(["Ceci est une phrase d'exemple"], padding=True, truncation=True, return_tensors="pt")
with torch.no_grad():
    out = enc(**inputs).last_hidden_state  # (batch, seq, 768)

mask = inputs["attention_mask"].unsqueeze(-1)  # (batch, seq, 1)
mean_emb = (out * mask).sum(dim=1) / mask.sum(dim=1).clamp(min=1)

Cas d'usage

  • Recherche sémantique
  • Reranking
  • Similarité sémantique de phrases (STS)
  • Recommandation de contenu
  • Classification basée sur des embeddings

Crédit et licence

  • Modèle de base : EuroBERT/EuroBERT-210m • licence Apache-2.0
  • Cette publication reprend la licence Apache-2.0 et respecte les conditions de redistribution du modèle de base
  • Merci aux auteurs d'EuroBERT pour leur travail et l'ouverture du modèle
  • Création : @matheoqtb
Downloads last month
22
Safetensors
Model size
212M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for OrdalieTech/Solon-embeddings-mini-beta-1.1

Finetuned
(40)
this model