Spaces:

NaserNajeh
/

Horoof-Hybrid-OCR

Runtime error

App Files Files Community

NaserNajeh commited on Sep 5

Commit

c8b8e71

verified ·

1 Parent(s): ce0aa31

Update app.py

Browse files

Files changed (1) hide show

app.py +89 -34

app.py CHANGED Viewed

@@ -1,12 +1,15 @@
-import os, io
 import gradio as gr
 import fitz  # PyMuPDF
 from PIL import Image
 import numpy as np
-# ===== EasyOCR (CPU مجاني) =====
 import easyocr
 _EASY_READER = None
 def get_easy_reader():
     global _EASY_READER
     if _EASY_READER is None:
@@ -19,70 +22,114 @@ def ocr_easyocr(pil_img: Image.Image) -> str:
     lines = reader.readtext(arr, detail=0, paragraph=True)
     return "\n".join([x.strip() for x in lines if x and x.strip()])
-# ===== Inference API (يستهلك اعتمادات PRO بدل دقائق GPU) =====
 from huggingface_hub import InferenceClient
 _INFER_CLIENT = None
 INFER_MODEL = os.environ.get("INFER_MODEL", "Qwen/Qwen2-VL-2B-Instruct")
 def get_infer_client():
     global _INFER_CLIENT
     if _INFER_CLIENT is None:
-        token = os.environ.get("HF_TOKEN")  # أضِفه من Settings → Secrets عند الحاجة
-        _INFER_CLIENT = InferenceClient(model=INFER_MODEL, token=token)
     return _INFER_CLIENT
 def ocr_infer_api(pil_img: Image.Image) -> str:
-    client = get_infer_client()
-    buf = io.BytesIO()
-    pil_img.save(buf, format="PNG"); buf.seek(0)
-    # ملاحظة: بعض النماذج تدعم image_to_text مباشرة، والبعض عبر chat.completions.
-    # نجرب image_to_text أولًا:
     try:
-        txt = client.image_to_text(image=buf, prompt="اقرأ النص العربي كما هو دون أي تعديل.")
-        return txt.strip()
-    except Exception:
-        # بديل عام عبر واجهة chat (إن كانت مدعومة)
-        msgs = [
-            {"role": "system", "content": "You are an OCR assistant. Return only the text."},
             {
                 "role": "user",
                 "content": [
-                    {"type": "input_text", "text": "Extract Arabic text exactly as is."},
-                    {"type": "image", "image": buf.getvalue()},
                 ],
             },
         ]
-        resp = client.chat.completions.create(messages=msgs, max_tokens=2048)
-        return resp.choices[0].message.content.strip()
-# ===== Horoof (Qari محليًا) — يحتاج CUDA ليعمل بكفاءة =====
-import torch
-HAS_CUDA = torch.cuda.is_available()
 _HOROOF_MODEL = None
 _HOROOF_PROC = None
 HOROOF_MODEL_NAME = os.environ.get("HOROOF_MODEL", "NaserNajeh/Horoof")
 def ensure_horoof_loaded():
     global _HOROOF_MODEL, _HOROOF_PROC
     if _HOROOF_MODEL is None:
         from transformers import Qwen2VLForConditionalGeneration, AutoProcessor
-        device = "cuda" if HAS_CUDA else "cpu"
         _HOROOF_MODEL = Qwen2VLForConditionalGeneration.from_pretrained(
             HOROOF_MODEL_NAME, torch_dtype="auto"
-        ).to(device)
         _HOROOF_PROC = AutoProcessor.from_pretrained(HOROOF_MODEL_NAME)
 def ocr_horoof(pil_img: Image.Image) -> str:
-    if not HAS_CUDA:
         return "⚠️ خيار Horoof المحلي يتطلب GPU (CUDA). اختر EasyOCR أو Inference API."
     ensure_horoof_loaded()
-    device = "cuda"
-    inputs = _HOROOF_PROC(images=pil_img, return_tensors="pt").to(device)
     gen = _HOROOF_MODEL.generate(**inputs, max_new_tokens=1800)
     text = _HOROOF_PROC.batch_decode(gen, skip_special_tokens=True)[0]
-    return text.strip()
-# ===== تحويل PDF إلى صور =====
 def pdf_to_images(pdf_bytes: bytes, dpi: int = 220, max_pages: int = 0):
     pages_imgs = []
     doc = fitz.open(stream=pdf_bytes, filetype="pdf")
@@ -96,7 +143,10 @@ def pdf_to_images(pdf_bytes: bytes, dpi: int = 220, max_pages: int = 0):
     doc.close()
     return pages_imgs
-# ===== الدالة الرئيسية مع اختيار الـBackend =====
 BACKENDS = ["EasyOCR (CPU - مجاني)", "Inference API (Qwen2-VL)", "Horoof (محلي - يتطلب GPU)"]
 def ocr_pdf(pdf_file, dpi, limit_pages, backend):
@@ -110,15 +160,20 @@ def ocr_pdf(pdf_file, dpi, limit_pages, backend):
             if backend.startswith("EasyOCR"):
                 txt = ocr_easyocr(img)
             elif backend.startswith("Inference API"):
-                # تأكد من وجود HF_TOKEN لو الـSpace Private
                 txt = ocr_infer_api(img)
             else:
                 txt = ocr_horoof(img)
             results.append(f"--- صفحة {idx} ---\n{txt}")
         return "\n\n".join(results) if results else "لا توجد صفحات."
     except Exception as e:
-        return f"حدث خطأ: {e}"
 with gr.Blocks(title="Horoof Hybrid OCR") as demo:
     gr.Markdown("### OCR عربي هجين: مجاني على CPU (EasyOCR)، أو عبر Inference API، أو Horoof محليًا على GPU.")
     with gr.Row():
@@ -130,7 +185,7 @@ with gr.Blocks(title="Horoof Hybrid OCR") as demo:
     run_btn = gr.Button("بدء التحويل")
     out = gr.Textbox(label="النص المستخرج", lines=24)
-    # API ثابت لاستدعاء الـSpace كـ خدمة
     run_btn.click(fn=ocr_pdf, inputs=[pdf_in, dpi, limit_pages, backend], outputs=out, api_name="ocr_pdf")
 if __name__ == "__main__":

+import os, io, base64, traceback
 import gradio as gr
 import fitz  # PyMuPDF
 from PIL import Image
 import numpy as np
+# =======================
+# 1) EasyOCR (CPU - مجاني)
+# =======================
 import easyocr
 _EASY_READER = None
 def get_easy_reader():
     global _EASY_READER
     if _EASY_READER is None:
     lines = reader.readtext(arr, detail=0, paragraph=True)
     return "\n".join([x.strip() for x in lines if x and x.strip()])
+# ===============================================
+# 2) Inference API (يستهلك اعتمادات PRO بدل دقائق GPU)
+# ===============================================
 from huggingface_hub import InferenceClient
 _INFER_CLIENT = None
+# يمكن تغيير الموديل من Secrets → Variables بوضع INFER_MODEL، الافتراضي:
 INFER_MODEL = os.environ.get("INFER_MODEL", "Qwen/Qwen2-VL-2B-Instruct")
 def get_infer_client():
+    """تهيئة عميل الاستدلال مع مهلة أطول ورسالة واضحة إن غاب التوكين."""
     global _INFER_CLIENT
     if _INFER_CLIENT is None:
+        token = os.environ.get("HF_TOKEN")
+        if not token:
+            raise RuntimeError("لا يوجد HF_TOKEN في Secrets. أضِفه من Settings → Variables and secrets.")
+        _INFER_CLIENT = InferenceClient(model=INFER_MODEL, token=token, timeout=120)
     return _INFER_CLIENT
 def ocr_infer_api(pil_img: Image.Image) -> str:
+    """نحاول أولاً واجهة chat.completions بتمرير bytes، وإن فشلت نستخدم data URI."""
     try:
+        client = get_infer_client()
+        buf = io.BytesIO()
+        pil_img.save(buf, format="PNG")
+        raw_bytes = buf.getvalue()
+        b64 = base64.b64encode(raw_bytes).decode("utf-8")
+        # محاولة 1: تمريـر الصورة كـ bytes (بعض النماذج تدعم ذلك)
+        messages = [
+            {"role": "system", "content": "You are an OCR assistant. Return ONLY the Arabic text as-is."},
             {
                 "role": "user",
                 "content": [
+                    {"type": "input_text", "text": "Extract Arabic text exactly as-is, no extra commentary."},
+                    {"type": "image", "image": raw_bytes},
                 ],
             },
         ]
+        try:
+            resp = client.chat.completions.create(messages=messages, max_tokens=2048)
+            txt = resp.choices[0].message.content or ""
+            return txt.strip()
+        except Exception:
+            # محاولة 2: تمريـر الصورة كـ data URI عبر image_url
+            messages_fallback = [
+                {"role": "system", "content": "You are an OCR assistant. Return ONLY the Arabic text as-is."},
+                {
+                    "role": "user",
+                    "content": [
+                        {"type": "input_text", "text": "Extract Arabic text exactly as-is, no extra commentary."},
+                        {"type": "image_url", "image_url": f"data:image/png;base64,{b64}"},
+                    ],
+                },
+            ]
+            resp = client.chat.completions.create(messages=messages_fallback, max_tokens=2048)
+            txt = resp.choices[0].message.content or ""
+            return txt.strip()
+    except Exception as e:
+        # إظهار رسالة مفيدة بدل سطر فارغ
+        return f"حدث خطأ أثناء استدعاء Inference API: {repr(e)}"
+# =====================================================
+# 3) Horoof (Qari محليًا) — يتطلب CUDA لعمل فعّال على الـSpace
+# =====================================================
+try:
+    import torch
+    HAS_TORCH = True
+    HAS_CUDA = torch.cuda.is_available()
+except Exception:
+    HAS_TORCH = False
+    HAS_CUDA = False
 _HOROOF_MODEL = None
 _HOROOF_PROC = None
+# يمكن تغيير اسم نموذجك من Secrets → Variables بوضع HOROOF_MODEL، الافتراضي:
 HOROOF_MODEL_NAME = os.environ.get("HOROOF_MODEL", "NaserNajeh/Horoof")
 def ensure_horoof_loaded():
+    """تحميل نموذج Horoof عند الحاجة فقط (Lazy) لتقليل زمن الإقلاع على CPU-basic."""
     global _HOROOF_MODEL, _HOROOF_PROC
     if _HOROOF_MODEL is None:
+        if not HAS_TORCH:
+            raise RuntimeError("حزمة torch غير متاحة. ثبّت torch أو استخدم Backend آخر.")
+        if not HAS_CUDA:
+            raise RuntimeError("خيار Horoof المحلي يتطلب GPU (CUDA). اختر EasyOCR أو Inference API.")
         from transformers import Qwen2VLForConditionalGeneration, AutoProcessor
         _HOROOF_MODEL = Qwen2VLForConditionalGeneration.from_pretrained(
             HOROOF_MODEL_NAME, torch_dtype="auto"
+        ).to("cuda")
         _HOROOF_PROC = AutoProcessor.from_pretrained(HOROOF_MODEL_NAME)
 def ocr_horoof(pil_img: Image.Image) -> str:
+    if not HAS_TORCH or not HAS_CUDA:
         return "⚠️ خيار Horoof المحلي يتطلب GPU (CUDA). اختر EasyOCR أو Inference API."
     ensure_horoof_loaded()
+    inputs = _HOROOF_PROC(images=pil_img, return_tensors="pt").to("cuda")
     gen = _HOROOF_MODEL.generate(**inputs, max_new_tokens=1800)
     text = _HOROOF_PROC.batch_decode(gen, skip_special_tokens=True)[0]
+    return (text or "").strip()
+# ===========================
+# أداة: تحويل PDF إلى صور
+# ===========================
 def pdf_to_images(pdf_bytes: bytes, dpi: int = 220, max_pages: int = 0):
     pages_imgs = []
     doc = fitz.open(stream=pdf_bytes, filetype="pdf")
     doc.close()
     return pages_imgs
+# =========================================
+# الدالة الرئيسية + اختيار الـBackend
+# =========================================
 BACKENDS = ["EasyOCR (CPU - مجاني)", "Inference API (Qwen2-VL)", "Horoof (محلي - يتطلب GPU)"]
 def ocr_pdf(pdf_file, dpi, limit_pages, backend):
             if backend.startswith("EasyOCR"):
                 txt = ocr_easyocr(img)
             elif backend.startswith("Inference API"):
                 txt = ocr_infer_api(img)
             else:
                 txt = ocr_horoof(img)
             results.append(f"--- صفحة {idx} ---\n{txt}")
         return "\n\n".join(results) if results else "لا توجد صفحات."
     except Exception as e:
+        # طباعة أثر الخطأ للمساعدة في التشخيص داخل Logs
+        traceback.print_exc()
+        return f"حدث خطأ: {repr(e)}"
+# =======================
+# واجهة Gradio + API Name
+# =======================
 with gr.Blocks(title="Horoof Hybrid OCR") as demo:
     gr.Markdown("### OCR عربي هجين: مجاني على CPU (EasyOCR)، أو عبر Inference API، أو Horoof محليًا على GPU.")
     with gr.Row():
     run_btn = gr.Button("بدء التحويل")
     out = gr.Textbox(label="النص المستخرج", lines=24)
+    # api_name يجعل الـSpace قابلاً للاستدعاء كـ API:
     run_btn.click(fn=ocr_pdf, inputs=[pdf_in, dpi, limit_pages, backend], outputs=out, api_name="ocr_pdf")
 if __name__ == "__main__":