Pytesseract-PytesseractJs-LLM-OCR

Sleeping

App Files Files Community

Luke commited on Jul 30, 2024

Commit

633cf99

1 Parent(s): 44eb855

no message

Browse files

Files changed (2) hide show

Preprocess/preprocessImg.py +19 -1
app.py +72 -44

Preprocess/preprocessImg.py CHANGED Viewed

@@ -3,6 +3,24 @@ import numpy as np
 from PIL import Image, ImageEnhance
 # 方案一
 def preprocess_image001(image):
     # 將影像轉換為 NumPy 數組
@@ -18,7 +36,7 @@ def preprocess_image001(image):
     denoised = cv2.fastNlMeansDenoising(binary, None, 30, 7, 21)
     return Image.fromarray(denoised)
 def preprocess_image002(image):
     # 將 PIL Image 轉換為 numpy array
     image_np = np.array(image)

 from PIL import Image, ImageEnhance
+def PreprocessImg(image):
+    if image is None:
+        raise ValueError("尚未上傳圖片！")
+    # 方案一
+    pre_img_001 = preprocess_image001(image)
+    # 方案二
+    pre_img_002 = preprocess_image002(image)
+    # 方案三
+    pre_img_003 = preprocess_image003(image)
+    # 方案四
+    pre_img_004 = preprocess_image004(image)
+    # 方案五
+    pre_img_005 = preprocess_image005(image)
+    return pre_img_001, pre_img_002, pre_img_003, pre_img_004, pre_img_005
 # 方案一
 def preprocess_image001(image):
     # 將影像轉換為 NumPy 數組
     denoised = cv2.fastNlMeansDenoising(binary, None, 30, 7, 21)
     return Image.fromarray(denoised)
+# 方案二
 def preprocess_image002(image):
     # 將 PIL Image 轉換為 numpy array
     image_np = np.array(image)

app.py CHANGED Viewed

@@ -2,57 +2,70 @@ import os
 import gradio as gr
 from Plan.AiLLM import llm_recognition
 from Plan.pytesseractOCR import ocr_recognition
-from Preprocess.preprocessImg import (
-    preprocess_image001, preprocess_image002, preprocess_image003,
-    preprocess_image004, preprocess_image005
-)
 # 取得所有語言清單
 languages = os.popen('tesseract --list-langs').read().split('\n')[1:-1]
-def preprocess_and_ocr(image, valid_type, language):
     # 方案一
-    pre_img_001 = preprocess_image001(image)
-    ocr_result_001 = ocr_recognition(pre_img_001, valid_type, language)
     # 方案二
-    pre_img_002 = preprocess_image002(image)
-    ocr_result_002 = ocr_recognition(pre_img_002, valid_type, language)
     # 方案三
-    pre_img_003 = preprocess_image003(image)
-    ocr_result_003 = ocr_recognition(pre_img_003, valid_type, language)
     # 方案四
-    pre_img_004 = preprocess_image004(image)
-    ocr_result_004 = ocr_recognition(pre_img_004, valid_type, language)
     # 方案五
-    pre_img_005 = preprocess_image005(image)
-    ocr_result_005 = ocr_recognition(pre_img_005, valid_type, language)
-    return (pre_img_001, pre_img_002, pre_img_003, pre_img_004, pre_img_005,
-            ocr_result_001, ocr_result_002, ocr_result_003, ocr_result_004, ocr_result_005)
-def preprocess_and_llm(image, valid_type, language):
     # 方案一
-    pre_img_001 = preprocess_image001(image)
-    llm_result_001 = llm_recognition(pre_img_001, valid_type, language)
     # 方案二
-    pre_img_002 = preprocess_image002(image)
-    llm_result_002 = llm_recognition(pre_img_002, valid_type, language)
     # 方案三
-    pre_img_003 = preprocess_image003(image)
-    llm_result_003 = llm_recognition(pre_img_003, valid_type, language)
     # 方案四
-    pre_img_004 = preprocess_image004(image)
-    llm_result_004 = llm_recognition(pre_img_004, valid_type, language)
     # 方案五
-    pre_img_005 = preprocess_image005(image)
-    llm_result_005 = llm_recognition(pre_img_005, valid_type, language)
-    return (pre_img_001, pre_img_002, pre_img_003, pre_img_004, pre_img_005,
-            llm_result_001, llm_result_002, llm_result_003, llm_result_004, llm_result_005)
 with gr.Blocks() as demo:
     with gr.Row():
         image_input = gr.Image(type="pil", label="上傳圖片")
@@ -60,8 +73,17 @@ with gr.Blocks() as demo:
         language_dropdown = gr.Dropdown(choices=languages, value="chi_tra", label="語言")
     with gr.Row():
-        ocr_button = gr.Button("使用 OCR")
-        llm_button = gr.Button("使用 AI LLM")
     with gr.Row():
         preprocess_output_001 = gr.Image(type="pil", label="預處理後的圖片-方案一")
@@ -85,17 +107,23 @@ with gr.Blocks() as demo:
         ocr_output_005 = gr.JSON(label="OCR-005-解析結果")
         llm_output_005 = gr.JSON(label="AiLLM-005-解析結果")
-    ocr_button.click(preprocess_and_ocr, inputs=[image_input, validation_type, language_dropdown],
-                     outputs=[
-                         preprocess_output_001, preprocess_output_002, preprocess_output_003, preprocess_output_004,
-                         preprocess_output_005,
-                         ocr_output_001, ocr_output_002, ocr_output_003, ocr_output_004, ocr_output_005
-                     ])
-    llm_button.click(preprocess_and_llm, inputs=[image_input, validation_type, language_dropdown],
-                     outputs=[
-                         preprocess_output_001, preprocess_output_002, preprocess_output_003, preprocess_output_004,
-                         preprocess_output_005,
-                         llm_output_001, llm_output_002, llm_output_003, llm_output_004, llm_output_005
-                     ])
 demo.launch(share=False)

 import gradio as gr
 from Plan.AiLLM import llm_recognition
 from Plan.pytesseractOCR import ocr_recognition
+from Preprocess.preprocessImg import PreprocessImg
 # 取得所有語言清單
 languages = os.popen('tesseract --list-langs').read().split('\n')[1:-1]
+# 預處理圖片
+def preprocess_image(image):
+    if image is None:
+        gr.Warning("尚未上傳圖片！")
+        raise ValueError("尚未上傳圖片！")
+    preprocessed_images = PreprocessImg(image)
+    return (
+        preprocessed_images,
+        True,
+        preprocessed_images[0],
+        preprocessed_images[1],
+        preprocessed_images[2],
+        preprocessed_images[3],
+        preprocessed_images[4]
+    )
+# pytesseract OCR
+def Basic_ocr(valid_type, language, preprocessed_images, finish_pre_img):
+    if not finish_pre_img:
+        gr.Warning("請先完成圖像預處理！")
+        raise ValueError("請先完成圖像預處理！")
     # 方案一
+    ocr_result_001 = ocr_recognition(preprocessed_images[0], valid_type, language)
     # 方案二
+    ocr_result_002 = ocr_recognition(preprocessed_images[1], valid_type, language)
     # 方案三
+    ocr_result_003 = ocr_recognition(preprocessed_images[2], valid_type, language)
     # 方案四
+    ocr_result_004 = ocr_recognition(preprocessed_images[3], valid_type, language)
     # 方案五
+    ocr_result_005 = ocr_recognition(preprocessed_images[4], valid_type, language)
+    return ocr_result_001, ocr_result_002, ocr_result_003, ocr_result_004, ocr_result_005
+# AI LLM OCR
+def AiLLM_ocr(valid_type, language, preprocessed_images, finish_pre_img):
+    if not finish_pre_img:
+        gr.Warning("請先完成圖像預處理！")
+        raise ValueError("請先完成圖像預處理！")
     # 方案一
+    llm_result_001 = llm_recognition(preprocessed_images[0], valid_type, language)
     # 方案二
+    llm_result_002 = llm_recognition(preprocessed_images[1], valid_type, language)
     # 方案三
+    llm_result_003 = llm_recognition(preprocessed_images[2], valid_type, language)
     # 方案四
+    llm_result_004 = llm_recognition(preprocessed_images[3], valid_type, language)
     # 方案五
+    llm_result_005 = llm_recognition(preprocessed_images[4], valid_type, language)
+    return llm_result_001, llm_result_002, llm_result_003, llm_result_004, llm_result_005
+# VIEW
 with gr.Blocks() as demo:
     with gr.Row():
         image_input = gr.Image(type="pil", label="上傳圖片")
         language_dropdown = gr.Dropdown(choices=languages, value="chi_tra", label="語言")
     with gr.Row():
+        preImg_button = gr.Button("圖片預先處理")
+    with gr.Row():
+        with gr.Column():
+            ocr_button = gr.Button("使用 Pytesseract OCR 辨識")
+            gr.Markdown(
+                "<div style='display: flex;justify-content: center;align-items: center;background-color: red;font-weight: bold;text-decoration: underline;font-size: 20px;'>Package: Google Pytesseract</div>")
+        with gr.Column():
+            llm_button = gr.Button("使用 AI LLM 模型辨識")
+            gr.Markdown(
+                "<div style='display: flex;justify-content: center;align-items: center;background-color: red;font-weight: bold;text-decoration: underline;font-size: 20px;'>Package：Bert-base-chinese</div>")
     with gr.Row():
         preprocess_output_001 = gr.Image(type="pil", label="預處理後的圖片-方案一")
         ocr_output_005 = gr.JSON(label="OCR-005-解析結果")
         llm_output_005 = gr.JSON(label="AiLLM-005-解析結果")
+    # 定義狀態
+    finish_pre_img_state = gr.State(False)
+    preprocessed_images_state = gr.State([])
+    # 預先處理圖片 按鈕
+    preImg_button.click(preprocess_image, inputs=[image_input],
+                        outputs=[preprocessed_images_state, finish_pre_img_state,
+                                 preprocess_output_001, preprocess_output_002,
+                                 preprocess_output_003, preprocess_output_004,
+                                 preprocess_output_005])
+    # pytesseract 按鈕
+    ocr_button.click(Basic_ocr, inputs=[validation_type, language_dropdown,
+                                        preprocessed_images_state, finish_pre_img_state],
+                     outputs=[ocr_output_001, ocr_output_002, ocr_output_003, ocr_output_004, ocr_output_005])
+    # AI LLM 按鈕
+    llm_button.click(AiLLM_ocr, inputs=[validation_type, language_dropdown,
+                                        preprocessed_images_state, finish_pre_img_state],
+                     outputs=[llm_output_001, llm_output_002, llm_output_003, llm_output_004, llm_output_005])
 demo.launch(share=False)