Spaces:

jeanmarcocruz207
/

CCI_OLLAMA_CODE_CHAT

Running

App Files Files Community

jeanmarcocruz207 commited on Nov 6

Commit

7d0a50b

verified ·

1 Parent(s): 64f7f86

Upload 29 files

Browse files

Files changed (2) hide show

README.md +1 -0
ollama_utils.py +114 -5

README.md CHANGED Viewed

@@ -151,6 +151,7 @@ Si el modelo no descarga, verifica el formato:
 3. Si quieres precargar un modelo para evitar descargas manuales, añade la variable `OLLAMA_AUTO_PULL=hf.co/usuario/modelo[:quant]` en los _secrets_ del Space.
 4. Usa `LLAMA_DEV_OLLAMA_URL` si expones un Ollama externo y `OLLAMA_WAIT_TIMEOUT` si necesitas ampliar el timeout en hardware lento.
 5. Cuando algo falle, revisa `/tmp/ollama.log` en los logs del Space: el entrypoint lo imprime antes de salir.
 ### 🚨 Notas Importantes

 3. Si quieres precargar un modelo para evitar descargas manuales, añade la variable `OLLAMA_AUTO_PULL=hf.co/usuario/modelo[:quant]` en los _secrets_ del Space.
 4. Usa `LLAMA_DEV_OLLAMA_URL` si expones un Ollama externo y `OLLAMA_WAIT_TIMEOUT` si necesitas ampliar el timeout en hardware lento.
 5. Cuando algo falle, revisa `/tmp/ollama.log` en los logs del Space: el entrypoint lo imprime antes de salir.
+6. En el runtime “Gradio” clásico tampoco tenés que instalar nada: `app.py` descarga automáticamente un binario portátil de Ollama (se guarda en `~/.local/ollama-lite`) si no detecta uno en el sistema y lo levanta antes de iniciar la UI.
 ### 🚨 Notas Importantes

ollama_utils.py CHANGED Viewed

@@ -1,8 +1,14 @@
 import json
 import hashlib
 import subprocess
 import time
 from collections import OrderedDict
 from typing import Dict, Optional, List, Tuple, Generator, Any
 import requests
@@ -35,11 +41,105 @@ class LRUCache:
 response_cache = LRUCache(settings.CACHE_MAX_ITEMS)
 def _ollama_url() -> str:
     return settings.OLLAMA_URL
 def verify() -> str:
     try:
         r = requests.get(f"{_ollama_url()}/api/version", timeout=2)
@@ -67,6 +167,10 @@ def start_ollama() -> str:
     if ensure_ollama_running():
         return "✅ Ollama ya está en ejecución."
     # Intento con systemctl (común en Linux)
     try:
         subprocess.run(
@@ -81,14 +185,19 @@ def start_ollama() -> str:
     # Fallback a 'ollama serve' en segundo plano
     try:
         subprocess.Popen(
-            ["ollama", "serve"],
             stdout=subprocess.DEVNULL,
             stderr=subprocess.DEVNULL,
         )
-        time.sleep(2) # Darle tiempo para que inicie
-        if ensure_ollama_running():
-            return verify()
     except FileNotFoundError:
         return "❌ No se encontró el binario de Ollama. Instálalo primero."
     except Exception as e:
@@ -268,4 +377,4 @@ def ask_ollama_stream(
     except requests.exceptions.RequestException as e:
         yield f"\n\n⚠️ Error de red: {e}"
     except Exception as e:
-        yield f"\n\n⚠️ Error de conexión: {e}"

 import json
 import hashlib
+import os
+import platform
+import shutil
 import subprocess
+import tarfile
+import tempfile
 import time
 from collections import OrderedDict
+from pathlib import Path
 from typing import Dict, Optional, List, Tuple, Generator, Any
 import requests
 response_cache = LRUCache(settings.CACHE_MAX_ITEMS)
+EMBEDDED_OLLAMA_DIR = Path.home() / ".local" / "ollama-lite"
+EMBEDDED_BIN = EMBEDDED_OLLAMA_DIR / "bin" / "ollama"
+EMBEDDED_LIB_DIR = EMBEDDED_OLLAMA_DIR / "lib" / "ollama"
+_OLLAMA_BIN_CACHE: Optional[str] = None
 def _ollama_url() -> str:
     return settings.OLLAMA_URL
+def _arch_slug() -> Optional[str]:
+    machine = platform.machine().lower()
+    if machine in ("x86_64", "amd64"):
+        return "amd64"
+    if machine in ("arm64", "aarch64"):
+        return "arm64"
+    return None
+def _ensure_embedded_ollama() -> Optional[str]:
+    """
+    Descarga un binario portátil de Ollama si no existe y devuelve la ruta al ejecutable.
+    """
+    global _OLLAMA_BIN_CACHE
+    if _OLLAMA_BIN_CACHE:
+        return _OLLAMA_BIN_CACHE
+    existing = shutil.which("ollama")
+    if existing:
+        _OLLAMA_BIN_CACHE = existing
+        return existing
+    if EMBEDDED_BIN.exists():
+        EMBEDDED_BIN.chmod(0o755)
+        _OLLAMA_BIN_CACHE = str(EMBEDDED_BIN)
+        os.environ.setdefault("PATH", "")
+        os.environ["PATH"] = f"{EMBEDDED_BIN.parent}:{os.environ['PATH']}"
+        _inject_ld_library_path()
+        return _OLLAMA_BIN_CACHE
+    arch = _arch_slug()
+    if not arch:
+        return None
+    EMBEDDED_OLLAMA_DIR.mkdir(parents=True, exist_ok=True)
+    bundle_url = f"https://github.com/ollama/ollama/releases/latest/download/ollama-linux-{arch}.tgz"
+    tmp_fd, tmp_path = tempfile.mkstemp(prefix="ollama_bundle_", suffix=".tgz")
+    os.close(tmp_fd)
+    try:
+        print(f"📥 Descargando Ollama portátil ({arch})...")
+        with requests.get(bundle_url, stream=True, timeout=(30, 120)) as resp:
+            resp.raise_for_status()
+            with open(tmp_path, "wb") as bundle:
+                for chunk in resp.iter_content(chunk_size=1024 * 1024):
+                    if chunk:
+                        bundle.write(chunk)
+        print("📦 Extrayendo Ollama portátil...")
+        with tarfile.open(tmp_path, mode="r:gz") as tar:
+            members = [
+                m
+                for m in tar.getmembers()
+                if m.name.startswith("bin/") or m.name.startswith("lib/")
+            ]
+            tar.extractall(path=EMBEDDED_OLLAMA_DIR, members=members)
+        # Elimina librerías CUDA para ahorrar espacio en entornos CPU
+        if EMBEDDED_LIB_DIR.exists():
+            for cuda_dir in EMBEDDED_LIB_DIR.glob("cuda_*"):
+                shutil.rmtree(cuda_dir, ignore_errors=True)
+        EMBEDDED_BIN.chmod(0o755)
+        _OLLAMA_BIN_CACHE = str(EMBEDDED_BIN)
+        os.environ["PATH"] = f"{EMBEDDED_BIN.parent}:{os.environ.get('PATH', '')}"
+        _inject_ld_library_path()
+        return _OLLAMA_BIN_CACHE
+    except Exception as exc:
+        print(f"❌ No se pudo instalar Ollama portátil: {exc}")
+        return None
+    finally:
+        try:
+            os.remove(tmp_path)
+        except OSError:
+            pass
+def _inject_ld_library_path():
+    current = os.environ.get("LD_LIBRARY_PATH", "")
+    lib_path = str(EMBEDDED_LIB_DIR)
+    if lib_path not in current.split(":"):
+        prefix = f"{lib_path}:" if current else lib_path
+        os.environ["LD_LIBRARY_PATH"] = f"{prefix}{current}"
+def _ollama_command() -> Optional[str]:
+    cmd = _ensure_embedded_ollama()
+    return cmd
 def verify() -> str:
     try:
         r = requests.get(f"{_ollama_url()}/api/version", timeout=2)
     if ensure_ollama_running():
         return "✅ Ollama ya está en ejecución."
+    ollama_cmd = _ollama_command()
+    if not ollama_cmd:
+        return "❌ No se encontró el binario de Ollama y no se pudo descargar automáticamente."
     # Intento con systemctl (común en Linux)
     try:
         subprocess.run(
     # Fallback a 'ollama serve' en segundo plano
     try:
+        env = os.environ.copy()
+        _inject_ld_library_path()
+        env["LD_LIBRARY_PATH"] = os.environ.get("LD_LIBRARY_PATH", "")
         subprocess.Popen(
+            [ollama_cmd, "serve"],
             stdout=subprocess.DEVNULL,
             stderr=subprocess.DEVNULL,
+            env=env,
         )
+        for _ in range(60):
+            if ensure_ollama_running():
+                return verify()
+            time.sleep(1)
     except FileNotFoundError:
         return "❌ No se encontró el binario de Ollama. Instálalo primero."
     except Exception as e:
     except requests.exceptions.RequestException as e:
         yield f"\n\n⚠️ Error de red: {e}"
     except Exception as e:
+        yield f"\n\n⚠️ Error de conexión: {e}"