Spaces:

AbstractPhil
/

GPT-OSS-20B-Mirel

Running on Zero

App Files Files Community

AbstractPhil commited on about 14 hours ago

Commit

3a8756f

1 Parent(s): 9dc2118

yes

Browse files

Files changed (2) hide show

app.py +16 -51
install.sh +73 -14

app.py CHANGED Viewed

@@ -1,36 +1,11 @@
 """
 Mirel Harmony Inference – HF Space (Gradio)
-ZeroGPU-ready, Harmony formatting, MX format support for GPT-OSS-20B
-Proper LoRA adapter loading and conversion for MX compatibility
 Single file: app.py
-Requirements:
-huggingface_hub>=0.34.0
-transformers>=4.55.0
-accelerate>=0.33.0
-peft>=0.11.0
-torch>=2.4.0
-bitsandbytes>=0.43.1
-openai-harmony
-gradio>=5.42.0
-triton>=3.4.0
-git+https://github.com/triton-lang/triton.git@main#subdirectory=python/triton_kernels
 """
 from __future__ import annotations
-# Import setup to fix Triton if needed
-try:
-    import setup  # This will run install.sh if Triton needs fixing
-except ImportError:
-    print("No setup.py found - checking Triton manually")
-    # Fallback check
-    try:
-        import triton_kernels
-        from triton.tools.ragged_tma import load_ragged
-        print("✓ Triton configured correctly")
-    except ImportError:
-        print("⚠ Triton not configured for MX - run install.sh")
 # ===== MAIN IMPORTS =====
 import os, gc, json, warnings, traceback
 import subprocess, sys
@@ -77,17 +52,13 @@ except Exception:
     _HAS_PEFT = False
     print("⚠ PEFT not available. Install with: pip install peft")
-# Check for triton_kernels after setup
-try:
-    import triton_kernels
-    # Also check for the specific module that was missing
-    from triton.tools.ragged_tma import load_ragged, store_ragged
-    _HAS_TRITON_KERNELS = True
-    print("✓ triton_kernels loaded with ragged_tma support - MX format enabled")
-except ImportError as e:
-    _HAS_TRITON_KERNELS = False
-    print(f"✗ triton_kernels not fully functional: {e}")
-    print("MX format will fall back to bf16 - LoRA may not work correctly")
 # ===== CONFIGURATION =====
 MODEL_ID          = os.getenv("MODEL_ID", "openai/gpt-oss-20b")
@@ -258,7 +229,7 @@ def load_base_model(device_map: Optional[str] = "auto") -> AutoModelForCausalLM:
             raise
 def load_lora_adapter(model, adapter_id: str, subfolder: Optional[str] = None):
-    """Load and attach LoRA adapter with MX format handling."""
     if not _HAS_PEFT:
         raise RuntimeError("PEFT is required for LoRA adapters")
@@ -268,9 +239,6 @@ def load_lora_adapter(model, adapter_id: str, subfolder: Optional[str] = None):
         print(f"Subfolder: {subfolder}")
     print(f"{'='*50}\n")
-    # Check if model is using MX format
-    is_mx = detect_mx_format(model) if IS_GPT_OSS else False
     # Prepare kwargs for PEFT
     peft_kwargs = {"token": HF_TOKEN, "is_trainable": False}
     if subfolder:
@@ -284,16 +252,13 @@ def load_lora_adapter(model, adapter_id: str, subfolder: Optional[str] = None):
         # Load the adapter
         model = PeftModel.from_pretrained(model, adapter_id, **peft_kwargs)
-        if not is_mx and IS_GPT_OSS:
-            print("⚠ WARNING: Model is bf16 but LoRA was likely trained on MX format")
-            print("  Reducing LoRA influence to 10% to prevent corruption")
-            # Scale down LoRA weights
-            for name, param in model.named_parameters():
-                if 'lora_' in name:
-                    param.data *= 0.1
-        print("✓ LoRA adapter loaded successfully")
         # Optionally merge adapter
         if MERGE_ADAPTER and hasattr(model, 'merge_and_unload'):

 """
 Mirel Harmony Inference – HF Space (Gradio)
+ZeroGPU-ready, Harmony formatting, bf16 mode for GPT-OSS-20B
+Proper LoRA adapter loading (MX format not available in stable releases)
 Single file: app.py
 """
 from __future__ import annotations
 # ===== MAIN IMPORTS =====
 import os, gc, json, warnings, traceback
 import subprocess, sys
     _HAS_PEFT = False
     print("⚠ PEFT not available. Install with: pip install peft")
+# Note: MX format requires unreleased Triton features
+# We'll use bf16 mode which works fine for inference
+_HAS_TRITON_KERNELS = False
+USE_MX_FORMAT = False
+print("Note: Using bf16 mode (MX format requires unreleased Triton features)")
+print("This will work fine but use more memory than native MX format")
 # ===== CONFIGURATION =====
 MODEL_ID          = os.getenv("MODEL_ID", "openai/gpt-oss-20b")
             raise
 def load_lora_adapter(model, adapter_id: str, subfolder: Optional[str] = None):
+    """Load and attach LoRA adapter for bf16 model."""
     if not _HAS_PEFT:
         raise RuntimeError("PEFT is required for LoRA adapters")
         print(f"Subfolder: {subfolder}")
     print(f"{'='*50}\n")
     # Prepare kwargs for PEFT
     peft_kwargs = {"token": HF_TOKEN, "is_trainable": False}
     if subfolder:
         # Load the adapter
         model = PeftModel.from_pretrained(model, adapter_id, **peft_kwargs)
+        # Warning about potential mismatch
+        if IS_GPT_OSS:
+            print("⚠ WARNING: LoRA may have been trained on MX format")
+            print("  Model is running in bf16 mode - there may be compatibility issues")
+            print("  If generation quality is poor, the LoRA may need retraining on bf16")
+        print("✓ LoRA adapter loaded")
         # Optionally merge adapter
         if MERGE_ADAPTER and hasattr(model, 'merge_and_unload'):

install.sh CHANGED Viewed

@@ -6,10 +6,11 @@ echo "Installing Mirel dependencies for GPT-OSS with MX format support..."
 # Upgrade pip first
 pip install --upgrade pip
-# Install main requirements
 pip install huggingface_hub>=0.34.0
 pip install transformers>=4.55.0
 pip install accelerate>=0.33.0
 pip install gradio>=5.42.0
 pip install spaces
@@ -20,23 +21,81 @@ pip install bitsandbytes>=0.43.1
 # Install Harmony format
 pip install openai-harmony
-# FIX TRITON FOR MX FORMAT
-# The standard triton doesn't have ragged_tma module needed for MX
-echo "Fixing Triton installation for MX format..."
-# Clean existing triton installations
-pip uninstall -y triton triton_kernels 2>/dev/null || true
-# Install PyTorch nightly (includes compatible Triton)
-echo "Installing PyTorch nightly with compatible Triton..."
-pip install --upgrade --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu121
-# Install Triton from PyTorch nightly
-pip install --upgrade --index-url https://download.pytorch.org/whl/nightly/cu121 triton
-# Install triton_kernels from source
-echo "Installing triton_kernels (REQUIRED for MX format)..."
-pip install git+https://github.com/triton-lang/triton.git@main#subdirectory=python/triton_kernels
 # Optional but recommended
 pip install safetensors>=0.4.0

 # Upgrade pip first
 pip install --upgrade pip
+# Install main requirements WITH SPECIFIC VERSIONS for ZeroGPU compatibility
 pip install huggingface_hub>=0.34.0
 pip install transformers>=4.55.0
 pip install accelerate>=0.33.0
+pip install torch==2.4.0  # SPECIFIC VERSION for ZeroGPU - DO NOT use nightly!
 pip install gradio>=5.42.0
 pip install spaces
 # Install Harmony format
 pip install openai-harmony
+# Install standard Triton (MX will fallback to bf16)
+pip install triton>=3.0.0
+# Note: triton_kernels with ragged_tma is not available in stable releases
+# The model will fall back to bf16 mode which is fine for inference
+echo "Note: MX format requires bleeding-edge Triton features not available in stable releases."
+echo "The model will use bf16 mode instead, which works fine but uses more memory."
+# Optional but recommended
+pip install safetensors>=0.4.0
+pip install sentencepiece>=0.2.0
+pip install protobuf>=3.20.0
+pip install "numpy<2.0.0"
+# Verify critical imports
+echo "Verifying installation..."
+python -c "
+import sys
+errors = []
+try:
+    import torch
+    print(f'✓ PyTorch {torch.__version__}')
+    # Check CUDA availability without initializing it (for ZeroGPU)
+    print(f'  CUDA available: Will be checked at runtime')
+except ImportError as e:
+    errors.append(f'✗ PyTorch: {e}')
+try:
+    import transformers
+    print(f'✓ Transformers {transformers.__version__}')
+except ImportError as e:
+    errors.append(f'✗ Transformers: {e}')
+try:
+    import peft
+    print(f'✓ PEFT {peft.__version__}')
+except ImportError as e:
+    errors.append(f'✗ PEFT: {e}')
+try:
+    import triton
+    print(f'✓ Triton {triton.__version__}')
+except ImportError as e:
+    errors.append(f'✗ Triton: {e}')
+try:
+    import openai_harmony
+    print('✓ OpenAI Harmony')
+except ImportError as e:
+    errors.append(f'✗ OpenAI Harmony: {e}')
+try:
+    import gradio
+    print(f'✓ Gradio {gradio.__version__}')
+except ImportError as e:
+    errors.append(f'✗ Gradio: {e}')
+try:
+    import spaces
+    print('✓ Spaces (ZeroGPU support)')
+except ImportError as e:
+    errors.append(f'✗ Spaces: {e}')
+if errors:
+    print('\n❌ Installation issues found:')
+    for error in errors:
+        print(f'  {error}')
+    sys.exit(1)
+else:
+    print('\n✅ All dependencies installed successfully!')
+    print('Note: Model will run in bf16 mode (MX format requires unreleased Triton features)')
+"
+echo "Installation complete!"
 # Optional but recommended
 pip install safetensors>=0.4.0