SetFit with BAAI/bge-small-en-v1.5
This is a SetFit model that can be used for Text Classification. This SetFit model uses BAAI/bge-small-en-v1.5 as the Sentence Transformer embedding model. A SetFitHead instance is used for classification.
The model has been trained using an efficient few-shot learning technique that involves:
- Fine-tuning a Sentence Transformer with contrastive learning.
- Training a classification head with features from the fine-tuned Sentence Transformer.
Model Details
Model Description
- Model Type: SetFit
- Sentence Transformer body: BAAI/bge-small-en-v1.5
- Classification head: a SetFitHead instance
- Maximum Sequence Length: 512 tokens
- Number of Classes: 2 classes
Model Sources
Model Labels
Label |
Examples |
1 |
- "e il fait des taxes pour les caisses vides qu'est-ce qui pollue le plus deux types dans une clio ou 400 types dans un avion quand tu ramènes au litre d'essence au litre de kérosène qu'est-ce qui pollue le plus sur l'instant t 400 personnes qui sont transportées par un avion ou deux personnes dans une clio je ne suis pas sûr que la clio ne pollue pas plus donc je vais dire à un moment et ensuite tu as dit quelque chose qui moi me gêne profondément tu nous as dit ceux qui prennent l'avion c'est les classes les plus aisées tu oublies une chose c'est que ce pays un ce pays est le plus taxé deux dans ce pays le plus taxé il y a deux classes qui payent relativement peu d'impôts c'est les basses classes sociales et heureusement et les très hautes classes sociales et dommage et ceux qui payent le plus c'est la classe du milieu"
- "eu un rattrapage les taxes augmentent de 50% donc c'est pour ça que ça limite cette baisse 50% parce qu'il faut financer la transition énergétique vous savez toutes ces énergies renouvelables qu'on n'a pas vraiment besoin en france malheureusement parce qu'on a déjà beaucoup de nucléaires qui fonctionnent et puis parce qu'on a aussi l'augmentation des tarifs de réseau augmentation qui aurait dû avoir lieu en août mais pour éviter de faire baisser le tarif puis de le faire réaugmenter ils l'ont mise au 1er février augmentation de 7% une fois de plus ça c'est les frais des réseaux pour distribuer l'électricité pour raccorder les paranoïdes solaires et les éoliennes dont malheureusement on n'a pas vraiment besoin – alors"
- "is il y a des fluctuations et de toute façon ces augmentations l'entourloupe c'est de dire ce n'est pas l'effet qui compte mais c'est la dérivée de l'effet et c'est là qu'il y a une tricherie pour terminer cette émission pour en parler pendant des heures et on en reparlera d'ailleurs françois gervais juste un mot au fond comment faire c'est plus qu'un travail d'hercule comment faire pour séparer les recherches scientifiques de la vérité révélée qui est des sens religieux j'encourage dans le bouquin d'ailleurs les anxieux à investir non pas sur leur portable mais à vraiment engager une réflexion sur la science disons vulgarisée on"
|
0 |
- "non et de très loin de là les ménages français sont parmi ceux qui payent l'électricité le moins cher dans l'union européenne en france les prix sont en dessous de la moyenne des 27 ils sont presque deux fois moins chers qu'en allemagne pays qui est très dépendant des fluctuations des prix du gaz pour produire son électricité grâce à son mix énergétique dans lequel le nucléaire occupe une grande place la france peut produire une électricité meilleur marché que la plupart de ses voisins européens et est à priori moins exposée au prix des autres énergies comme le gaz pourtant il reste pour les consommateurs comme un sentiment de perdre un peu de pouvoir d'achat notamment à cause de l'opacité des coûts de production et de la complexité de la composition des tarifs voilà pour toutes ces infos pour l'info éco merci beaucoup david delos et on va passer au sport on va parler handball"
- "au socialiste d'exister électoralement en dehors de ce cadre du nouveau fonds proposé ? – oui c'est un peu la bouée de sauvetage notamment pour le parti socialiste surtout pour le parti socialiste après parce qu'il permettrait effectivement de desserrer le lien de dépendance vis-à-vis de la france insoumise après effectivement ça dépend quel proportionnel ? et là il y a plusieurs modèles donc on n'a pas avancé on sait que françois bayrou y est favorable je ne suis pas sûr que les uns et les autres soient favorables à la même proportionnelle – certainement – avant qu'on passe aux questions puisque je vous rappelle qu'il y a un qr code qui s'affiche en bas à droite de votre écran emmanuel révière j'ai une dernière question parce que là vous parliez tous des résultats des verts aux élections alors que vous le disiez c'est quand même un enjeu majeur comment on explique cette différence entre le fait que voilà c'est quand même une grande préoccupation on le voit tous les jours dans les journaux les effets du réchauffement climatique et que dans les urnes ça ne se traduit pas vraiment ? comment on explique ça ? – alors ça va être très court difficile de le faire court là-dessus c'est une préoccupation mais cette préoccupation elle n'a fait que reculer ces derniers temps et on parle de backlash pardon pour l'anglicisme mais une espèce de retour de bâton d'une partie de la société à tous les niveaux d'ailleurs la société au niveau collectif au niveau individuel qui renâcle un peu devant les efforts – parce que ça coûte cher ? – pas seulement parce que ça coûte cher parce que ce n'est pas forcément… – ça veut dire changer son mode de vie ?"
- "il est celui qui se présente en disant maintenant on va forer beaucoup plus et comme on a les premières réserves du monde c'est ce qu'il dit et c'est vrai bon on va pouvoir en extraire énormément c'est difficile de croire à la fois à la nécessité d'une politique écologique et de ce point de vue c'est pas la peine d'accabler l'europe parce que si les etats-unis faisaient autant d'efforts que l'europe proportionnellement ça irait quand même mieux bon donc c'est difficile d'accabler l'europe alors que c'est les etats-unis qui proclament par sa voix qu'ils vont en prendre exactement la direction opposée par ailleurs vous le dites c'est un faiseur de paix je ne demande que ça que ce soit un faiseur de paix mais quand je vois par exemple la façon dont sur la question terriblement compliquée de l'immigration il décide de militariser sa réponse parce que c'est ça qu'il fait alors on va voir ce que ça va donner peut-être que pour le coup il ne fera pas exactement ce qu'il a dit je n'en sais rien mais en tout cas ce qu'il proclame vouloir faire c'est militariser la réponse c'est pas l'engagement non plus ni dans la stabilité ni même je dirais dans l'humanité il répond à ses électeurs si chacun faisait exactement la politique que souhaitent les électeurs alors pour le cas dans chaque pays c'est embêtant pour la démocratie la démocratie c'est quand même qu'on est élu et puis il faudra juger aux actes non c'est beaucoup plus compliqué que ça la démocratie ça consiste à demander aux gens de choisir ceux qui les gouvernent ça n'est pas de demander à ceux qui gouvernent de faire exactement ce que chaque partie de la population souhaite oui mais c'était dans son programme on ne peut pas reprocher à donald trump de vouloir appliquer son programme il a été élu je n'ai jamais dit qu'il faut lui reprocher son programme mais je dis regardons les conséquences"
|
Evaluation
Metrics
Uses
Direct Use for Inference
First install the SetFit library:
pip install setfit
Then you can load this model and run inference.
from setfit import SetFitModel
model = SetFitModel.from_pretrained("setfit_model_id")
preds = model("on appelle ça les écolos allégés vous pouvez expliquer ce que c'est ?")
Training Details
Training Set Metrics
Training set |
Min |
Median |
Max |
Word count |
5 |
167.05 |
364 |
Label |
Training Sample Count |
0 |
90 |
1 |
90 |
Training Hyperparameters
- batch_size: (4, 4)
- num_epochs: (1, 1)
- max_steps: -1
- sampling_strategy: oversampling
- body_learning_rate: (2e-05, 1e-05)
- head_learning_rate: 0.01
- loss: CosineSimilarityLoss
- distance_metric: cosine_distance
- margin: 0.25
- end_to_end: False
- use_amp: False
- warmup_proportion: 0.1
- l2_weight: 0.01
- seed: 42
- run_name: bge-small-en-v1.5-climateguard03-06-2025_22-15-50
- eval_max_steps: -1
- load_best_model_at_end: True
Training Results
Epoch |
Step |
Training Loss |
Validation Loss |
0.0002 |
1 |
0.1624 |
- |
0.0122 |
50 |
0.2896 |
0.2597 |
0.0244 |
100 |
0.2482 |
0.2392 |
0.0366 |
150 |
0.2317 |
0.2181 |
0.0488 |
200 |
0.1971 |
0.1928 |
0.0611 |
250 |
0.175 |
0.1949 |
0.0733 |
300 |
0.1111 |
0.2277 |
0.0855 |
350 |
0.1032 |
0.2424 |
0.0977 |
400 |
0.0695 |
0.2023 |
0.1099 |
450 |
0.0343 |
0.2834 |
0.1221 |
500 |
0.0275 |
0.2061 |
0.1343 |
550 |
0.0165 |
0.1693 |
0.1465 |
600 |
0.0208 |
0.2566 |
0.1587 |
650 |
0.0355 |
0.2636 |
0.1709 |
700 |
0.0099 |
0.1998 |
0.1832 |
750 |
0.002 |
0.1666 |
0.1954 |
800 |
0.001 |
0.2572 |
0.2076 |
850 |
0.0009 |
0.2712 |
0.2198 |
900 |
0.0008 |
0.2725 |
0.2320 |
950 |
0.0008 |
0.2762 |
0.2442 |
1000 |
0.0006 |
0.2751 |
0.2564 |
1050 |
0.0007 |
0.2757 |
0.2686 |
1100 |
0.0006 |
0.2773 |
0.2808 |
1150 |
0.0006 |
0.2775 |
0.2930 |
1200 |
0.0008 |
0.2784 |
0.3053 |
1250 |
0.0005 |
0.2796 |
0.3175 |
1300 |
0.0005 |
0.2817 |
0.3297 |
1350 |
0.0005 |
0.2749 |
0.3419 |
1400 |
0.0005 |
0.2688 |
0.3541 |
1450 |
0.0005 |
0.2819 |
0.3663 |
1500 |
0.0006 |
0.2853 |
0.3785 |
1550 |
0.0005 |
0.2798 |
0.3907 |
1600 |
0.0005 |
0.2392 |
0.4029 |
1650 |
0.0004 |
0.2849 |
0.4151 |
1700 |
0.0004 |
0.2847 |
0.4274 |
1750 |
0.0004 |
0.2882 |
0.4396 |
1800 |
0.0004 |
0.2857 |
0.4518 |
1850 |
0.0004 |
0.2862 |
0.4640 |
1900 |
0.0004 |
0.2854 |
0.4762 |
1950 |
0.0004 |
0.2869 |
0.4884 |
2000 |
0.0004 |
0.2852 |
0.5006 |
2050 |
0.0004 |
0.2852 |
0.5128 |
2100 |
0.0004 |
0.2863 |
0.5250 |
2150 |
0.0004 |
0.2874 |
0.5372 |
2200 |
0.0004 |
0.2870 |
0.5495 |
2250 |
0.0003 |
0.2850 |
0.5617 |
2300 |
0.0003 |
0.2847 |
0.5739 |
2350 |
0.0003 |
0.2837 |
0.5861 |
2400 |
0.0003 |
0.2843 |
0.5983 |
2450 |
0.0004 |
0.2836 |
0.6105 |
2500 |
0.0003 |
0.2868 |
0.6227 |
2550 |
0.0003 |
0.2887 |
0.6349 |
2600 |
0.0003 |
0.2873 |
0.6471 |
2650 |
0.0003 |
0.2876 |
0.6593 |
2700 |
0.0003 |
0.2865 |
0.6716 |
2750 |
0.0003 |
0.2903 |
0.6838 |
2800 |
0.0003 |
0.2882 |
0.6960 |
2850 |
0.0003 |
0.2873 |
0.7082 |
2900 |
0.0003 |
0.2870 |
0.7204 |
2950 |
0.0003 |
0.2873 |
0.7326 |
3000 |
0.0003 |
0.2878 |
0.7448 |
3050 |
0.0003 |
0.2849 |
0.7570 |
3100 |
0.0003 |
0.2855 |
0.7692 |
3150 |
0.0003 |
0.2864 |
0.7814 |
3200 |
0.0003 |
0.2883 |
0.7937 |
3250 |
0.0003 |
0.2883 |
0.8059 |
3300 |
0.0004 |
0.2881 |
0.8181 |
3350 |
0.0003 |
0.2890 |
0.8303 |
3400 |
0.0003 |
0.2886 |
0.8425 |
3450 |
0.0003 |
0.2887 |
0.8547 |
3500 |
0.0003 |
0.2882 |
0.8669 |
3550 |
0.0003 |
0.2881 |
0.8791 |
3600 |
0.0003 |
0.2888 |
0.8913 |
3650 |
0.0002 |
0.2880 |
0.9035 |
3700 |
0.0003 |
0.2884 |
0.9158 |
3750 |
0.0002 |
0.2894 |
0.9280 |
3800 |
0.0003 |
0.2890 |
0.9402 |
3850 |
0.0003 |
0.2891 |
0.9524 |
3900 |
0.0003 |
0.2895 |
0.9646 |
3950 |
0.0003 |
0.2885 |
0.9768 |
4000 |
0.0003 |
0.2887 |
0.9890 |
4050 |
0.0003 |
0.2884 |
Framework Versions
- Python: 3.12.8
- SetFit: 1.1.2
- Sentence Transformers: 4.1.0
- Transformers: 4.52.2
- PyTorch: 2.7.0
- Datasets: 3.6.0
- Tokenizers: 0.21.1
Citation
BibTeX
@article{https://doi.org/10.48550/arxiv.2209.11055,
doi = {10.48550/ARXIV.2209.11055},
url = {https://arxiv.org/abs/2209.11055},
author = {Tunstall, Lewis and Reimers, Nils and Jo, Unso Eun Seo and Bates, Luke and Korat, Daniel and Wasserblat, Moshe and Pereg, Oren},
keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {Efficient Few-Shot Learning Without Prompts},
publisher = {arXiv},
year = {2022},
copyright = {Creative Commons Attribution 4.0 International}
}