papasega
/

gpt-oss-20b-mxfp4-HF4-Multilingual-Thinking

@@ -21,33 +21,70 @@ This gpt_oss model was trained 2x faster with [Unsloth](https://github.com/unslo
 ## Example to use
 ```python
-from unsloth import FastLanguageModel
-from transformers import TextStreamer
 import torch
-# Load the finetuned model
-model, tokenizer = FastLanguageModel.from_pretrained(
-    model_name = "papasega/gpt-oss-20b-mxfp4-HF4-Multilingual-Thinking", # Replace with your model name if different
-    max_seq_length = 128, # Set to the max_seq_length you want
-    dtype = None, # Use None for auto detection
-    load_in_4bit = True, # Set to True if you saved in 4bit
 )
-# Prepare the input message
-messages = [
-    {"role": "system", "content": "reasoning language: French\n\nYou are a helpful assistant that can solve mathematical problems."},
-    {"role": "user", "content": "Résout cette equation pour un élève en classe de seconde : x^4 + 2 = 0."},
-]
-inputs = tokenizer.apply_chat_template(
-    messages,
-    add_generation_prompt = True,
-    return_tensors = "pt",
-    return_dict = True,
-    reasoning_effort = "low", # Choose "low", "medium", or "high"
-).to(model.device)
-# Generate the response
-_ = model.generate(**inputs, max_new_tokens = 128, streamer = TextStreamer(tokenizer))
 ```

 ## Example to use
 ```python
+from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer
 import torch
+MODEL_NAME = "papasega/gpt-oss-20b-mxfp4-HF4-Multilingual-Thinking"
+print("🔄 Chargement du modèle (cela peut prendre quelques petites minutes)...\n")
+model = AutoModelForCausalLM.from_pretrained(
+    MODEL_NAME,
+    dtype="auto",
+    device_map="cuda",
 )
+tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
+print("✅ Modèle chargé avec succès !")
+if torch.cuda.is_available():
+    print(f"📊 Mémoire GPU utilisée : {torch.cuda.memory_allocated() / 1e9:.2f} Go")
+###----*---#### Génération d'une réponse pour la résolution de l'equation x^4 + 2 = 0.
+def generate_response(messages, reasoning_effort="low", max_tokens=512, verbose=True):
+    """
+    Fonction helper pour générer une réponse
+    Args:
+        messages (list): Liste de dictionnaires {role, content}
+        reasoning_effort (str): "low", "medium", ou "high"
+        max_tokens (int): Nombre max de tokens à générer
+        verbose (bool): Afficher les détails
+    """
+    if verbose:
+        print(f"🧠 Niveau de raisonnement: {reasoning_effort.upper()}")
+        print(f"📝 Génération de {max_tokens} tokens maximum\n")
+        print("-" * 70)
+    inputs = tokenizer.apply_chat_template(
+        messages,
+        add_generation_prompt=True,
+        return_tensors="pt",
+        return_dict=True,
+        reasoning_effort=reasoning_effort,
+    ).to(model.device)
+    streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
+    with torch.inference_mode():
+        _ = model.generate(
+            **inputs,
+            max_new_tokens=max_tokens,
+            streamer=streamer,
+            temperature=0.7, ###----*---#### Agis dans la créativité du modèle
+            top_p=0.9,
+            do_sample=True,
+        )
+    print("\n" + "-" * 70)
+messages_exemple1 = [
+    {"role": "system", "content": "reasoning language: French\n\nTu es un assistant pédagogique."},
+    {"role": "user", "content": "Résout cette equation pour un élève en classe de seconde qui ne connait pas les complexes et élève en classe de Terminale : x^4 + 2 = 0."}
+]
+generate_response(messages_exemple1, reasoning_effort="low", max_tokens=512)
 ```