papasega commited on
Commit
55f6351
·
verified ·
1 Parent(s): a6d3d6a

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +59 -22
README.md CHANGED
@@ -21,33 +21,70 @@ This gpt_oss model was trained 2x faster with [Unsloth](https://github.com/unslo
21
  ## Example to use
22
 
23
  ```python
24
- from unsloth import FastLanguageModel
25
- from transformers import TextStreamer
26
  import torch
27
 
28
- # Load the finetuned model
29
- model, tokenizer = FastLanguageModel.from_pretrained(
30
- model_name = "papasega/gpt-oss-20b-mxfp4-HF4-Multilingual-Thinking", # Replace with your model name if different
31
- max_seq_length = 128, # Set to the max_seq_length you want
32
- dtype = None, # Use None for auto detection
33
- load_in_4bit = True, # Set to True if you saved in 4bit
 
 
34
  )
35
 
36
- # Prepare the input message
37
- messages = [
38
- {"role": "system", "content": "reasoning language: French\n\nYou are a helpful assistant that can solve mathematical problems."},
39
- {"role": "user", "content": "Résout cette equation pour un élève en classe de seconde : x^4 + 2 = 0."},
40
- ]
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
41
 
42
- inputs = tokenizer.apply_chat_template(
43
- messages,
44
- add_generation_prompt = True,
45
- return_tensors = "pt",
46
- return_dict = True,
47
- reasoning_effort = "low", # Choose "low", "medium", or "high"
48
- ).to(model.device)
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
49
 
50
- # Generate the response
51
- _ = model.generate(**inputs, max_new_tokens = 128, streamer = TextStreamer(tokenizer))
52
 
53
  ```
 
21
  ## Example to use
22
 
23
  ```python
24
+ from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer
 
25
  import torch
26
 
27
+ MODEL_NAME = "papasega/gpt-oss-20b-mxfp4-HF4-Multilingual-Thinking"
28
+
29
+ print("🔄 Chargement du modèle (cela peut prendre quelques petites minutes)...\n")
30
+
31
+ model = AutoModelForCausalLM.from_pretrained(
32
+ MODEL_NAME,
33
+ dtype="auto",
34
+ device_map="cuda",
35
  )
36
 
37
+ tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
38
+
39
+ print(" Modèle chargé avec succès !")
40
+ if torch.cuda.is_available():
41
+ print(f"📊 Mémoire GPU utilisée : {torch.cuda.memory_allocated() / 1e9:.2f} Go")
42
+
43
+ ###----*---#### Génération d'une réponse pour la résolution de l'equation x^4 + 2 = 0.
44
+
45
+ def generate_response(messages, reasoning_effort="low", max_tokens=512, verbose=True):
46
+ """
47
+ Fonction helper pour générer une réponse
48
+
49
+ Args:
50
+ messages (list): Liste de dictionnaires {role, content}
51
+ reasoning_effort (str): "low", "medium", ou "high"
52
+ max_tokens (int): Nombre max de tokens à générer
53
+ verbose (bool): Afficher les détails
54
+ """
55
+ if verbose:
56
+ print(f"🧠 Niveau de raisonnement: {reasoning_effort.upper()}")
57
+ print(f"📝 Génération de {max_tokens} tokens maximum\n")
58
+ print("-" * 70)
59
 
60
+ inputs = tokenizer.apply_chat_template(
61
+ messages,
62
+ add_generation_prompt=True,
63
+ return_tensors="pt",
64
+ return_dict=True,
65
+ reasoning_effort=reasoning_effort,
66
+ ).to(model.device)
67
+
68
+ streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
69
+
70
+ with torch.inference_mode():
71
+ _ = model.generate(
72
+ **inputs,
73
+ max_new_tokens=max_tokens,
74
+ streamer=streamer,
75
+ temperature=0.7, ###----*---#### Agis dans la créativité du modèle
76
+ top_p=0.9,
77
+ do_sample=True,
78
+
79
+ )
80
+
81
+ print("\n" + "-" * 70)
82
+
83
+ messages_exemple1 = [
84
+ {"role": "system", "content": "reasoning language: French\n\nTu es un assistant pédagogique."},
85
+ {"role": "user", "content": "Résout cette equation pour un élève en classe de seconde qui ne connait pas les complexes et élève en classe de Terminale : x^4 + 2 = 0."}
86
+ ]
87
 
88
+ generate_response(messages_exemple1, reasoning_effort="low", max_tokens=512)
 
89
 
90
  ```