🎭 EuroBERT Commit Humor Classifier (Optimized)

📋 Description

Ce modèle est une version optimisée d'EuroBERT fine-tunée pour détecter l'humour dans les messages de commit Git. Il a été optimisé avec Optuna sur plusieurs cycles d'amélioration automatique du dataset.

🎯 Performances

  • Accuracy globale: 85.3%
  • Accuracy classe "funny": 82.9%
  • Accuracy classe "neutral": 85.6%
  • Seuil optimal: 0.35

🚀 Utilisation

from transformers import pipeline

# Charger le modèle
classifier = pipeline("text-classification", 
                     model="LBerthalon/eurobert-commit-humor", 
                     trust_remote_code=True)

# Prédiction
result = classifier("fix: gcc et moi c'est compliqué")
print(result)
# [{"label": "funny", "score": 0.85}]

🔧 Utilisation avancée

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

# Charger le modèle et tokenizer
tokenizer = AutoTokenizer.from_pretrained("LBerthalon/eurobert-commit-humor", trust_remote_code=True)
model = AutoModelForSequenceClassification.from_pretrained("LBerthalon/eurobert-commit-humor", trust_remote_code=True)

# Préparer l'input
text = "feat: ajout de la fonctionnalité qui marche pas"
inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True)

# Prédiction
with torch.no_grad():
    outputs = model(**inputs)
    predictions = torch.nn.functional.softmax(outputs.logits, dim=-1)
    
print(f"Funny: {predictions[0][1]:.3f}")
print(f"Neutral: {predictions[0][0]:.3f}")

📊 Exemples de Prédictions

Message de Commit Prédiction Score
"fix: correction du bug" neutral 0.92
"feat: ajout de la magie noire" funny 0.78
"docs: mise à jour README" neutral 0.95
"fix: ça marche sur ma machine" funny 0.83

🛠️ Optimisation

Ce modèle a été optimisé avec :

  • Optuna pour l'optimisation bayésienne des hyperparamètres
  • LoRA (Low-Rank Adaptation) pour un fine-tuning efficace
  • Amélioration itérative du dataset
  • 5 cycles d'optimisation automatique

📈 Architecture

  • Modèle de base: EuroBERT
  • Technique: LoRA Fine-tuning
  • Classes: 2 (funny, neutral)
  • Langues supportées: Français (principal), Anglais, Allemand, Espagnol, Italien

🎓 Citation

@misc{eurobert-commit-humor-optimized,
  title={EuroBERT Commit Humor Classifier (Optimized)},
  author={LBerthalon},
  year={2025},
  publisher={Hugging Face},
  url={https://huggingface.co/LBerthalon/eurobert-commit-humor}
}

📄 Licence

MIT License

Downloads last month
7
Safetensors
Model size
212M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Evaluation results

  • Global Accuracy on Git Commit Humor Detection
    self-reported
    85.300
  • Funny Class Accuracy on Git Commit Humor Detection
    self-reported
    82.900