Spaces:

AbstractPhil
/

GPT-OSS-20B-Mirel

Running on Zero

App Files Files Community

AbstractPhil commited on 9 days ago

Commit

7779abb

1 Parent(s): ed0198d

disabled peft in a differnt version

Browse files

Files changed (1) hide show

app.py +30 -120

app.py CHANGED Viewed

@@ -73,8 +73,8 @@ def _hf_login() -> None:
     else:
         print("[HF Auth] No token found in environment variables")
-# Login is handled by Space OAuth/session; avoid explicit CLI login here to prevent OAuth var errors
-# _hf_login()
 os.environ["TOKENIZERS_PARALLELISM"] = "false"
@@ -364,15 +364,16 @@ def zerogpu_generate(full_prompt,
         out_ids = model.generate(
             **inputs,
             do_sample=bool(gen_kwargs.get("do_sample", True)),
-            temperature=float(gen_kwargs.get("temperature", 0.6)),
-            top_p=(float(gen_kwargs.get("top_p")) if gen_kwargs.get("top_p") is not None else None),
-            top_k=(int(gen_kwargs.get("top_k")) if gen_kwargs.get("top_k") else None),
             max_new_tokens=int(gen_kwargs.get("max_new_tokens", MAX_DEF)),
             pad_token_id=model.config.pad_token_id,
             eos_token_id=tokenizer.eos_token_id,
-            repetition_penalty=float(gen_kwargs.get("repetition_penalty", 1.1)),
-            no_repeat_ngram_size=int(gen_kwargs.get("no_repeat_ngram_size", 6)),
             logits_processor=logits_processor,
             stopping_criteria=sc,
         )
@@ -419,59 +420,6 @@ def zerogpu_generate(full_prompt,
         if torch.cuda.is_available():
             torch.cuda.empty_cache()
-# -----------------------
-# Simple (non-Harmony) GPU path — matches your minimal example
-# -----------------------
-@spaces.GPU(duration=120)
-def zerogpu_generate_simple(prompt_str: str, gen_kwargs: Dict[str, Any], rose_map: Optional[Dict[str, float]], rose_alpha: float, rose_score: Optional[float], seed: Optional[int]) -> Dict[str, str]:
-    """Straight chat_template path. No Harmony tokens. Slices completion from prompt_len.
-    Mirrors the minimal HF example and avoids header loops entirely."""
-    model = None
-    try:
-        if seed is not None:
-            torch.manual_seed(int(seed))
-        model = _load_model_on("auto")
-        device = next(model.parameters()).device
-        # Encode prompt string
-        enc = tokenizer(prompt_str, return_tensors="pt")
-        inputs = {k: v.to(device) for k, v in enc.items()}
-        prompt_len = int(inputs["input_ids"].shape[1])
-        if "attention_mask" not in inputs:
-            inputs["attention_mask"] = torch.ones_like(inputs["input_ids"], dtype=torch.long, device=device)
-        # Optional Rose bias
-        logits_processor = None
-        if rose_map:
-            bias = build_bias_from_tokens(tokenizer, rose_map).to(device)
-            eff_alpha = float(rose_alpha) * (float(rose_score) if rose_score is not None else 1.0)
-            logits_processor = [RoseGuidedLogits(bias, eff_alpha)]
-        out_ids = model.generate(
-            **inputs,
-            do_sample=bool(gen_kwargs.get("do_sample", True)),
-            temperature=float(gen_kwargs.get("temperature", 0.6)),
-            top_p=(float(gen_kwargs.get("top_p")) if gen_kwargs.get("top_p") is not None else None),
-            top_k=(int(gen_kwargs.get("top_k")) if gen_kwargs.get("top_k") else None),
-            max_new_tokens=int(gen_kwargs.get("max_new_tokens", MAX_DEF)),
-            pad_token_id=model.config.pad_token_id,
-            logits_processor=logits_processor,
-        )
-        # Slice generated continuation only
-        new_ids = out_ids[0, prompt_len:]
-        text = tokenizer.decode(new_ids, skip_special_tokens=True)
-        return {"final": text}
-    except Exception as e:
-        return {"final": f"[Error] {type(e).__name__}: {e}"}
-    finally:
-        try:
-            del model
-        except Exception:
-            pass
-        gc.collect()
-        if torch.cuda.is_available():
-            torch.cuda.empty_cache()
 # -----------------------
 # GPU Debug: Harmony Inspector
 # -----------------------
@@ -512,6 +460,7 @@ def zerogpu_generate_debug(full_prompt, gen_kwargs: Dict[str, Any]) -> Dict[str,
             max_new_tokens=int(gen_kwargs.get("max_new_tokens", MAX_DEF)),
             pad_token_id=model.config.pad_token_id,
             eos_token_id=tokenizer.eos_token_id,
             stopping_criteria=sc,
             repetition_penalty=float(gen_kwargs.get("repetition_penalty", 1.15)),
             no_repeat_ngram_size=int(gen_kwargs.get("no_repeat_ngram_size", 6)),
@@ -568,45 +517,29 @@ def generate_response(message: str, history: List[List[str]], system_prompt: str
                     rose_enable: bool, rose_alpha: float, rose_score: Optional[float],
                     rose_tokens: str, rose_json: str,
                     show_thinking: bool = False,
-                    simple_mode: bool = True,  # NEW: default to simple chat_template path
                     reasoning_effort: str = "high") -> str:
     """
     Generate response with proper CoT handling using Harmony format.
     """
     try:
-        # Build messages robustly for Gradio type='messages' or legacy tuple format
         messages = [{"role": "system", "content": system_prompt or SYSTEM_DEF}]
-        # Add prior turns
         if history:
-            if isinstance(history, list) and history and isinstance(history[0], dict):
-                # history is already a flat list of {'role','content'} dicts
-                for m in history:
-                    role = m.get("role")
-                    content = m.get("content", "")
-                    if role in ("user", "assistant"):
-                        messages.append({"role": role, "content": str(content)})
-            else:
-                for turn in history:
-                    if isinstance(turn, (list, tuple)) and len(turn) >= 2:
-                        u, a = turn[0], turn[1]
-                        if u:
-                            messages.append({"role": "user", "content": str(u)})
-                        if a:
-                            messages.append({"role": "assistant", "content": str(a)})
-        # Current user message
-        if isinstance(message, dict):
-            user_text = message.get("content", "")
-        else:
-            user_text = str(message)
-        messages.append({"role": "user", "content": user_text})
-        # FAST PATH: simple chat_template prompt (recommended)
-        if simple_mode:
-            prompt = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)
-        # Harmony path (optional)
-        elif HARMONY_AVAILABLE:
             prompt = create_harmony_prompt(messages, reasoning_effort)  # returns token IDs
         else:
             # Fallback to tokenizer template (string)
@@ -640,23 +573,7 @@ def generate_response(message: str, history: List[List[str]], system_prompt: str
                 rose_map = None
         # Generate with model
-        if simple_mode:
-            channels = zerogpu_generate_simple(
-                prompt,
-                {
-                    "do_sample": bool(do_sample),
-                    "temperature": float(temperature),
-                    "top_p": float(top_p) if top_p is not None else None,
-                    "top_k": int(top_k) if top_k > 0 else None,
-                    "max_new_tokens": int(max_new_tokens),
-                },
-                rose_map,
-                float(rose_alpha),
-                float(rose_score) if rose_score is not None else None,
-                int(seed) if seed is not None else None,
-            )
-        else:
-            channels = zerogpu_generate(
             prompt,
             {
                 "do_sample": bool(do_sample),
@@ -717,7 +634,6 @@ with gr.Blocks(theme=gr.themes.Soft()) as demo:
         """
     )
     with gr.Row():
         system_prompt = gr.Textbox(
             label="System Prompt",
@@ -725,13 +641,7 @@ with gr.Blocks(theme=gr.themes.Soft()) as demo:
             lines=2
         )
-    with gr.Accordion("Generation Settings ", open=False):
-        # NEW: toggle to bypass Harmony and use plain chat_template like your minimal script
-        simple_mode = gr.Checkbox(
-            value=True,
-            label="Use simple chat_template (no Harmony)",
-            info="Matches the minimal HF example; safest path for now"
-        )
         with gr.Row():
             temperature = gr.Slider(0.0, 2.0, value=0.7, step=0.05, label="Temperature")
             top_p = gr.Slider(0.1, 1.0, value=0.9, step=0.01, label="Top-p")
@@ -782,9 +692,9 @@ with gr.Blocks(theme=gr.themes.Soft()) as demo:
         fn=generate_response,
         type="messages",
         additional_inputs=[
-            system_prompt, temperature, top_p, top_k, max_new,
-            do_sample, seed, rose_enable, rose_alpha, rose_score,
-            rose_tokens, rose_json, show_thinking, simple_mode, reasoning_effort
         ],
         title="Chat with Mirel",
         description="A chain-of-thought model using Harmony format",

     else:
         print("[HF Auth] No token found in environment variables")
+# Login before loading any models
+_hf_login()
 os.environ["TOKENIZERS_PARALLELISM"] = "false"
         out_ids = model.generate(
             **inputs,
             do_sample=bool(gen_kwargs.get("do_sample", True)),
+            temperature=float(gen_kwargs.get("temperature", 0.7)),
+            top_p=float(gen_kwargs.get("top_p", 0.9)),
+            top_k=(int(gen_kwargs.get("top_k")) if gen_kwargs.get("top_k") and int(gen_kwargs.get("top_k")) > 0 else None),
             max_new_tokens=int(gen_kwargs.get("max_new_tokens", MAX_DEF)),
             pad_token_id=model.config.pad_token_id,
             eos_token_id=tokenizer.eos_token_id,
+            bad_words_ids=bad_words_ids,
             logits_processor=logits_processor,
+            repetition_penalty=float(gen_kwargs.get("repetition_penalty", 1.2)),
+            no_repeat_ngram_size=int(gen_kwargs.get("no_repeat_ngram_size", 8)),
             stopping_criteria=sc,
         )
         if torch.cuda.is_available():
             torch.cuda.empty_cache()
 # -----------------------
 # GPU Debug: Harmony Inspector
 # -----------------------
             max_new_tokens=int(gen_kwargs.get("max_new_tokens", MAX_DEF)),
             pad_token_id=model.config.pad_token_id,
             eos_token_id=tokenizer.eos_token_id,
+            bad_words_ids=bad_words_ids,
             stopping_criteria=sc,
             repetition_penalty=float(gen_kwargs.get("repetition_penalty", 1.15)),
             no_repeat_ngram_size=int(gen_kwargs.get("no_repeat_ngram_size", 6)),
                     rose_enable: bool, rose_alpha: float, rose_score: Optional[float],
                     rose_tokens: str, rose_json: str,
                     show_thinking: bool = False,
                     reasoning_effort: str = "high") -> str:
     """
     Generate response with proper CoT handling using Harmony format.
     """
     try:
+        # Build message list
         messages = [{"role": "system", "content": system_prompt or SYSTEM_DEF}]
+        # Add history
         if history:
+            for turn in history:
+                if isinstance(turn, (list, tuple)) and len(turn) >= 2:
+                    user_msg, assistant_msg = turn[0], turn[1]
+                    if user_msg:
+                        messages.append({"role": "user", "content": str(user_msg)})
+                    if assistant_msg:
+                        messages.append({"role": "assistant", "content": str(assistant_msg)})
+        # Add current message
+        messages.append({"role": "user", "content": str(message)})
+        # Create Harmony-formatted prompt
+        if HARMONY_AVAILABLE:
             prompt = create_harmony_prompt(messages, reasoning_effort)  # returns token IDs
         else:
             # Fallback to tokenizer template (string)
                 rose_map = None
         # Generate with model
+        channels = zerogpu_generate(
             prompt,
             {
                 "do_sample": bool(do_sample),
         """
     )
     with gr.Row():
         system_prompt = gr.Textbox(
             label="System Prompt",
             lines=2
         )
+    with gr.Accordion("Generation Settings", open=False):
         with gr.Row():
             temperature = gr.Slider(0.0, 2.0, value=0.7, step=0.05, label="Temperature")
             top_p = gr.Slider(0.1, 1.0, value=0.9, step=0.01, label="Top-p")
         fn=generate_response,
         type="messages",
         additional_inputs=[
+            system_prompt, temperature, top_p, top_k, max_new,
+            do_sample, seed, rose_enable, rose_alpha, rose_score,
+            rose_tokens, rose_json, show_thinking, reasoning_effort
         ],
         title="Chat with Mirel",
         description="A chain-of-thought model using Harmony format",