Spaces:

NaserNajeh
/

Horoof-Hybrid-OCR

Runtime error

App Files Files Community

NaserNajeh commited on Sep 5

Commit

744219a

verified ·

1 Parent(s): 32d960b

Update app.py

Browse files

Files changed (1) hide show

app.py +34 -24

app.py CHANGED Viewed

@@ -3,26 +3,29 @@ import gradio as gr
 import fitz  # PyMuPDF
 from PIL import Image
-import spaces  # ضروري لـ ZeroGPU
 # ===== إعدادات النموذج =====
 HOROOF_MODEL_NAME = os.environ.get("HOROOF_MODEL", "NaserNajeh/Horoof")
 # تحميل كسول لتقليل زمن الإقلاع
 _model = None
-_processor = None
 def load_horoof():
-    """تحميل نموذج Horoof (Qwen2-VL) على الـGPU عند أول استدعاء فقط."""
-    global _model, _processor
     if _model is not None:
         return
     try:
         import torch
-        from transformers import Qwen2VLForConditionalGeneration, AutoProcessor
         if not torch.cuda.is_available():
             raise AssertionError("هذه النسخة تتطلب GPU (CUDA) مفعّل على الـSpace.")
-        _processor = AutoProcessor.from_pretrained(HOROOF_MODEL_NAME)
         _model = Qwen2VLForConditionalGeneration.from_pretrained(
             HOROOF_MODEL_NAME, torch_dtype="auto"
         ).to("cuda")
@@ -34,7 +37,7 @@ def pdf_to_images(pdf_bytes: bytes, dpi: int = 220, max_pages: int = 0):
     pages_imgs = []
     doc = fitz.open(stream=pdf_bytes, filetype="pdf")
     total = doc.page_count
-    n_pages = total if (max_pages in [0, None]) else min(max_pages, total)
     for i in range(n_pages):
         page = doc.load_page(i)
         pix = page.get_pixmap(dpi=dpi, alpha=False)
@@ -44,9 +47,11 @@ def pdf_to_images(pdf_bytes: bytes, dpi: int = 220, max_pages: int = 0):
     return pages_imgs
 def ocr_page_with_horoof(pil_img: Image.Image, max_new_tokens: int = 1200) -> str:
-    """تشغيل Horoof على صورة صفحة واحدة."""
     load_horoof()
-    # نبني رسالة محادثة متوافقة مع Qwen2-VL
     messages = [
         {
             "role": "user",
@@ -56,26 +61,32 @@ def ocr_page_with_horoof(pil_img: Image.Image, max_new_tokens: int = 1200) -> st
             ],
         }
     ]
-    # تحويل الرسالة إلى قالب محادثة داخلي
-    prompt = _processor.apply_chat_template(messages, add_generation_prompt=True)
-    # تجهيز المدخلات (نمرر النص والصورة معًا)
-    inputs = _processor(text=[prompt], images=[pil_img], return_tensors="pt").to("cuda")
-    # التوليد
     output_ids = _model.generate(**inputs, max_new_tokens=max_new_tokens)
-    text = _processor.batch_decode(output_ids, skip_special_tokens=True)[0]
     return (text or "").strip()
-@spaces.GPU  # مهم ل ZeroGPU: هذا يجعل الدالة تُخصص GPU عند الاستدعاء
 def ocr_pdf(pdf_file, dpi, limit_pages):
-    """الدالة الرئيسة التي يستدعيها Gradio (مزيّنة لـ ZeroGPU)."""
     if pdf_file is None:
         return "لم يتم رفع ملف."
     try:
         pdf_bytes = pdf_file.read() if hasattr(pdf_file, "read") else pdf_file
-        # افتراضيًا: صفحة واحدة للاختبار إذا limit_pages == 0
-        limit = int(limit_pages)
-        if limit == 0:
-            limit = 1
         pages = pdf_to_images(pdf_bytes, dpi=int(dpi), max_pages=limit)
         if not pages:
             return "لا توجد صفحات."
@@ -91,16 +102,15 @@ def ocr_pdf(pdf_file, dpi, limit_pages):
         return f"حدث خطأ: {repr(e)}"
 with gr.Blocks(title="Horoof OCR (ZeroGPU)") as demo:
-    gr.Markdown("### Horoof OCR على ZeroGPU (Qwen2-VL).")
     pdf_in = gr.File(label="ارفع ملف PDF", file_types=[".pdf"], type="binary")
     dpi = gr.Slider(150, 300, value=220, step=10, label="دقة التحويل (DPI)")
     limit_pages = gr.Number(value=1, precision=0, label="عدد الصفحات (للاختبار؛ زِد لاحقًا)")
     run_btn = gr.Button("بدء التحويل")
     out = gr.Textbox(label="النص المستخرج", lines=24)
-    # ملاحظة: لا نمرر وسطاء لـ queue() لتجنّب أخطاء التوافق
     demo.queue()
     run_btn.click(fn=ocr_pdf, inputs=[pdf_in, dpi, limit_pages], outputs=out, api_name="ocr_pdf")
 if __name__ == "__main__":

 import fitz  # PyMuPDF
 from PIL import Image
+import spaces  # لازم ل ZeroGPU
 # ===== إعدادات النموذج =====
 HOROOF_MODEL_NAME = os.environ.get("HOROOF_MODEL", "NaserNajeh/Horoof")
 # تحميل كسول لتقليل زمن الإقلاع
 _model = None
+_tokenizer = None
+_image_processor = None
 def load_horoof():
+    """تحميل نموذج Horoof (Qwen2-VL) على الـGPU عند أول استدعاء فقط، بدون torchvision."""
+    global _model, _tokenizer, _image_processor
     if _model is not None:
         return
     try:
         import torch
+        from transformers import Qwen2VLForConditionalGeneration, AutoTokenizer, AutoImageProcessor
         if not torch.cuda.is_available():
             raise AssertionError("هذه النسخة تتطلب GPU (CUDA) مفعّل على الـSpace.")
+        _tokenizer = AutoTokenizer.from_pretrained(HOROOF_MODEL_NAME)
+        _image_processor = AutoImageProcessor.from_pretrained(HOROOF_MODEL_NAME)
         _model = Qwen2VLForConditionalGeneration.from_pretrained(
             HOROOF_MODEL_NAME, torch_dtype="auto"
         ).to("cuda")
     pages_imgs = []
     doc = fitz.open(stream=pdf_bytes, filetype="pdf")
     total = doc.page_count
+    n_pages = total if (not max_pages or max_pages <= 0) else min(max_pages, total)
     for i in range(n_pages):
         page = doc.load_page(i)
         pix = page.get_pixmap(dpi=dpi, alpha=False)
     return pages_imgs
 def ocr_page_with_horoof(pil_img: Image.Image, max_new_tokens: int = 1200) -> str:
+    """تشغيل Horoof على صورة صفحة واحدة (بدون torchvision)."""
     load_horoof()
+    import torch
+    # رسالة محادثة متوافقة مع Qwen2-VL
     messages = [
         {
             "role": "user",
             ],
         }
     ]
+    # نبني نص المحادثة عبر tokenizer (بدون تقطيع) ثم نقاطّع لاحقًا
+    prompt = _tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)
+    # مدخلات الصورة
+    vision_inputs = _image_processor(images=pil_img, return_tensors="pt")
+    # مدخلات النص
+    text_inputs = _tokenizer([prompt], return_tensors="pt")
+    # دمج المدخلات وإرسالها إلى الـGPU
+    inputs = {**vision_inputs, **text_inputs}
+    inputs = {k: v.to("cuda") if isinstance(v, torch.Tensor) else v for k, v in inputs.items()}
+    # توليد
     output_ids = _model.generate(**inputs, max_new_tokens=max_new_tokens)
+    text = _tokenizer.batch_decode(output_ids, skip_special_tokens=True)[0]
     return (text or "").strip()
+@spaces.GPU  # مهم ل ZeroGPU: يجعل الاستدعاء يحجز GPU
 def ocr_pdf(pdf_file, dpi, limit_pages):
+    """الدالة الرئيسة التي يستدعيها Gradio."""
     if pdf_file is None:
         return "لم يتم رفع ملف."
     try:
         pdf_bytes = pdf_file.read() if hasattr(pdf_file, "read") else pdf_file
+        limit = int(limit_pages) if limit_pages else 1  # صفحة واحدة افتراضًا للاختبار
         pages = pdf_to_images(pdf_bytes, dpi=int(dpi), max_pages=limit)
         if not pages:
             return "لا توجد صفحات."
         return f"حدث خطأ: {repr(e)}"
 with gr.Blocks(title="Horoof OCR (ZeroGPU)") as demo:
+    gr.Markdown("### Horoof OCR على ZeroGPU (Qwen2-VL) — بدون torchvision.")
     pdf_in = gr.File(label="ارفع ملف PDF", file_types=[".pdf"], type="binary")
     dpi = gr.Slider(150, 300, value=220, step=10, label="دقة التحويل (DPI)")
     limit_pages = gr.Number(value=1, precision=0, label="عدد الصفحات (للاختبار؛ زِد لاحقًا)")
     run_btn = gr.Button("بدء التحويل")
     out = gr.Textbox(label="النص المستخرج", lines=24)
+    # Queue الافتراضي كافٍ؛ لا نمرر باراميترات تجنّبًا لأخطاء التوافق
     demo.queue()
     run_btn.click(fn=ocr_pdf, inputs=[pdf_in, dpi, limit_pages], outputs=out, api_name="ocr_pdf")
 if __name__ == "__main__":