SetFit with intfloat/multilingual-e5-base

This is a SetFit model that can be used for Text Classification. This SetFit model uses intfloat/multilingual-e5-base as the Sentence Transformer embedding model. A SetFitHead instance is used for classification.

The model has been trained using an efficient few-shot learning technique that involves:

  1. Fine-tuning a Sentence Transformer with contrastive learning.
  2. Training a classification head with features from the fine-tuned Sentence Transformer.

Model Details

Model Description

Model Sources

Model Labels

Label Examples
0
  • "je ne veux pas vous attrister et aller dans le sens de cette fin du monde préparée mais je préparais pour une activité professionnelle un regard à l'ensemble des communications ou en tout cas des premières communications qui vont être proposées au forum de davos donc qui est réuni qu'on le veuille ou qu'on ne le veuille pas l'essentiel des grands acteurs économiques mondiaux politiques environnement et alors d'habitude ça faisait à peu près 10 ans 15 ans presque une dizaine d'années qu'on avait une forte domination de tout ce qui est discours portés par la rse le travail sur le respect de l'environnement des diversités tout ce que vous pouvez avoir derrière et là c'est la première fois et c'est un changement radical"
  • "nous voulons défendre d'abord nos intérêts et je crois que c'est cette attitude en fait c'est une révolution culturelle de culture politique après qui peut se décliner dans tout un tas de politiques commerciales de politiques publiques mais c'est d'abord ce sursaut de dire oui nous sommes fiers nous défendons nos intérêts alors là où vous suivez en revanche de très près donald trump c'est qu'il a mis fin au green new deal de joe biden et immédiatement après dans la foulée jordan bardella le président du parti rassemblement national a demandé la suspension du green deal européen donc là par contre vous êtes en phase avec les etats-unis et surtout vous dites la planète c'est plus nos soucis non alors d'abord pendant toute la campagne électorale des européennes le rassemblement national et évidemment jordan bardella en premier lieu a toujours dit qu'il fallait combattre les excès de ce pacte vert et que entre une je dirais une écologie raisonnable et un sentier de croissance économique voilà il y a entre l'écologie et l'économie une possibilité de trouver un chemin rappelez que l'union européenne est déjà aujourd'hui le continent en tout cas l'ensemble politique le plus vertueux du point de vue environnemental les émissions de carbone par exemple de co2 de l'union européenne représentent à peu près 6% des émissions mondiales donc par exemple il y a tout un tas de mesures du pacte vert je pense notamment à ce qui est en train de tuer l'industrie automobile européenne les allemands sont en train de se réveiller lorsqu'ils voient que mercedes fait des pertes et que voit son chiffre d'affaires reculer de plus de 35% donc on voit bien la difficulté lorsqu'on dit qu'on va interdire le moteur thermique et qu'on sera dans le tout électrique on ne dit même pas des voitures hybrides en 2035"
  • "anticiper ces impacts-là et déjà commencer à planter des arbres qui sont adaptés à 2050 plutôt que planter les espèces qu'on a actuellement locales dans la région et en attendant il faut tenir bon en tout cas bon courage à tous les éleveurs les agriculteurs en général d'ailleurs du roussillon et de l'aude parce qu'ils sont dans une situation quand même extrêmement compliquée depuis deux ans maintenant merci beaucoup cher zaka"
1
  • " qu'il faut financer la transition énergétique vous savez toutes ces énergies renouvelables qu'on n'a pas vraiment besoin en france malheureusement parce qu'on a déjà beaucoup de nucléaires qui fonctionnent et puis parce qu'on a aussi l'augmentation des tarifs de réseau augmentation qui aurait dû avoir lieu en août mais pour éviter de faire baisser le tarif puis de le faire réaugmenter ils l'ont mise au 1er février augmentation de 7% une fois de plus ça c'est les frais des réseaux pour distribuer"
  • "es plus grands pollueurs mondiaux sont d'abord l'inde sont d'abord la chine et que sans grande coopération internationale qui n'aura d'ailleurs jamais lieu notre pouvoir d'influencer les choses reste quand même minime je pense que ça peut résonner au contraire il y a des gens qui se disent écoutez est-ce que c'est vraiment parce que je prends une douche de 15 minutes de plus que je suis en train de détruire la planète"
  • "tique parce qu'on a des raisins qui sont plus mûrs donc on n'a plus besoin de chaptaliser on a des raisins qui ont un meilleur goût et quand le raisin a un meilleur goût il fait de meilleurs vins on n'a plus ces tannins âpres ces notes de poivrons et puis après on ne fait plus non"

Evaluation

Metrics

Label F1
all 0.9130

Uses

Direct Use for Inference

First install the SetFit library:

pip install setfit

Then you can load this model and run inference.

from setfit import SetFitModel

# Download from the 🤗 Hub
model = SetFitModel.from_pretrained("setfit_model_id")
# Run inference
preds = model("pour le raccordement 1 et 10 de ces éoliennes c'est complètement dément mais c'est dément donc ce que je veux dire on en a parlé ici j'ai écrit ça c'est écrit il y a des rapports qui s'empilent on sait ce qu'il faut faire mais les éoliennes c'est intéressant c'est horrible toute la baie de lambeau est massacrée et ça va être un scandale ça ne sert absolument à")

Training Details

Training Set Metrics

Training set Min Median Max
Word count 1 147.85 350
Label Training Sample Count
0 30
1 30

Training Hyperparameters

  • batch_size: (4, 4)
  • num_epochs: (1, 1)
  • max_steps: -1
  • sampling_strategy: oversampling
  • body_learning_rate: (2e-05, 1e-05)
  • head_learning_rate: 0.01
  • loss: CosineSimilarityLoss
  • distance_metric: cosine_distance
  • margin: 0.25
  • end_to_end: False
  • use_amp: False
  • warmup_proportion: 0.1
  • l2_weight: 0.01
  • seed: 42
  • run_name: multilingual-e5-base-climateguard04-06-2025_12-18-25
  • eval_max_steps: -1
  • load_best_model_at_end: True

Training Results

Epoch Step Training Loss Validation Loss
0.0022 1 0.0186 -
0.1075 50 0.307 0.2088
0.2151 100 0.1707 0.2171
0.3226 150 0.0684 0.1239
0.4301 200 0.0078 0.1960
0.5376 250 0.002 0.2222
0.6452 300 0.0386 0.2407
0.7527 350 0.0334 0.2357
0.8602 400 0.0125 0.2068
0.9677 450 0.002 0.1875

Framework Versions

  • Python: 3.12.8
  • SetFit: 1.1.2
  • Sentence Transformers: 4.1.0
  • Transformers: 4.52.2
  • PyTorch: 2.7.0
  • Datasets: 3.6.0
  • Tokenizers: 0.21.1

Citation

BibTeX

@article{https://doi.org/10.48550/arxiv.2209.11055,
    doi = {10.48550/ARXIV.2209.11055},
    url = {https://arxiv.org/abs/2209.11055},
    author = {Tunstall, Lewis and Reimers, Nils and Jo, Unso Eun Seo and Bates, Luke and Korat, Daniel and Wasserblat, Moshe and Pereg, Oren},
    keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
    title = {Efficient Few-Shot Learning Without Prompts},
    publisher = {arXiv},
    year = {2022},
    copyright = {Creative Commons Attribution 4.0 International}
}
Downloads last month
11
Safetensors
Model size
278M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for gmguarino/multilingual-e5-base-climateguard

Finetuned
(63)
this model

Evaluation results