Spaces:

ramy2018
/

pope30

Sleeping

App Files Files Community

ramy2018 commited on 8 days ago

Commit

fcd494c

verified ·

1 Parent(s): 0ccaff3

Upload 6 files

Browse files

Files changed (6) hide show

README.md +6 -7
app.py +53 -0
gitattributes +35 -0
rag_pipeline.py +34 -0
requirements.txt +14 -0
utils.py +31 -0

README.md CHANGED Viewed

@@ -1,14 +1,13 @@
 ---
-title: Pope30
-emoji: 🌖
-colorFrom: gray
-colorTo: yellow
 sdk: gradio
 sdk_version: 5.31.0
 app_file: app.py
 pinned: false
-license: mit
-short_description: ask and answer
 ---
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 ---
+title: Arabic RAG Assistant
+emoji: 📚
+colorFrom: blue
+colorTo: purple
 sdk: gradio
 sdk_version: 5.31.0
 app_file: app.py
 pinned: false
 ---
+# Arabic RAG Assistant
+مساعد بحث عربي يعتمد على الذكاء الاصطناعي المفتوح المصدر للإجابة على الأسئلة بناءً على مستندات PDF / DOCX / TXT المرفوعة.

app.py ADDED Viewed

	@@ -0,0 +1,53 @@

+import gradio as gr
+from rag_pipeline import RAGPipeline
+from utils import process_documents
+import time
+rag = RAGPipeline()
+def log_message(msg, logs):
+    logs = logs + msg + "\n"
+    return logs
+def upload_and_index(files, logs):
+    logs = log_message("[RAG] بدء معالجة الملفات...", logs)
+    all_chunks = []
+    for file in files:
+        logs = log_message(f"[RAG] معالجة الملف: {file.name}", logs)
+        chunks = process_documents(file.name)
+        all_chunks.extend(chunks)
+        logs = log_message(f"[RAG] تم استخراج {len(chunks)} مقطع من {file.name}", logs)
+    logs = log_message(f"[RAG] بناء الفهرس لـ {len(all_chunks)} مقطع...", logs)
+    start = time.time()
+    rag.build_index(all_chunks)
+    duration = time.time() - start
+    logs = log_message(f"[RAG] تم بناء الفهرس في {duration:.2f} ثانية.", logs)
+    return logs, gr.update(visible=True), gr.update(visible=True)
+def answer_question(question, logs):
+    logs = log_message(f"[RAG] استلام السؤال: {question}", logs)
+    start = time.time()
+    answer, sources = rag.answer(question)
+    duration = time.time() - start
+    logs = log_message(f"[RAG] تم الإجابة في {duration:.2f} ثانية.", logs)
+    logs = log_message(f"[RAG] المصادر: {sources}", logs)
+    return answer, logs
+with gr.Blocks() as demo:
+    logs = gr.State("")
+    gr.Markdown("# نظام استرجاع المعرفة (RAG)")
+    with gr.Row():
+        files_input = gr.File(file_types=['.pdf', '.docx', '.txt'], file_count="multiple", label="رفع الملفات")
+        upload_btn = gr.Button("رفع وبناء الفهرس")
+    logs_output = gr.Textbox(label="سجل العمليات", lines=12, interactive=False, value="")
+    question_input = gr.Textbox(label="اكتب سؤالك هنا", visible=False)
+    ask_btn = gr.Button("إرسال السؤال", visible=False)
+    answer_output = gr.Textbox(label="الإجابة", lines=5)
+    upload_btn.click(upload_and_index, inputs=[files_input, logs], outputs=[logs_output, question_input, ask_btn])
+    ask_btn.click(answer_question, inputs=[question_input, logs], outputs=[answer_output, logs_output])
+demo.launch()

gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

rag_pipeline.py ADDED Viewed

	@@ -0,0 +1,34 @@

+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
+from sentence_transformers import SentenceTransformer
+import numpy as np
+import time
+class RAGPipeline:
+    def __init__(self):
+        print("[RAG] جاري تحميل النموذج والمحول...")
+        self.tokenizer = AutoTokenizer.from_pretrained("facebook/bart-large")
+        self.model = AutoModelForSeq2SeqLM.from_pretrained("facebook/bart-large")
+        self.embedder = SentenceTransformer('all-MiniLM-L6-v2')
+        self.index = None
+        self.chunks = []
+        self.chunk_embeddings = []
+        print("[RAG] تم التحميل بنجاح.")
+    def build_index(self, chunks, logs=None):
+        self.chunks = chunks
+        self.chunk_embeddings = self.embedder.encode(chunks, convert_to_numpy=True)
+        if logs is not None:
+            logs.append(f"[RAG] تم بناء الفهرس بأبعاد {self.chunk_embeddings.shape}")
+        self.index = np.array(self.chunk_embeddings)
+    def answer(self, question):
+        question_embedding = self.embedder.encode([question], convert_to_numpy=True)
+        # بحث عن أقرب 5 مقاطع
+        similarities = np.dot(self.index, question_embedding.T).squeeze()
+        top_idx = similarities.argsort()[-5:][::-1]
+        context = "\n".join([self.chunks[i] for i in top_idx])
+        inputs = self.tokenizer.encode(question + " " + context, return_tensors="pt", max_length=512, truncation=True)
+        outputs = self.model.generate(inputs, max_length=200)
+        answer = self.tokenizer.decode(outputs[0], skip_special_tokens=True)
+        sources = [self.chunks[i] for i in top_idx]
+        return answer, sources

requirements.txt ADDED Viewed

	@@ -0,0 +1,14 @@

+gradio==4.25.0
+transformers==4.40.1
+sentence-transformers
+langchain==0.1.20
+chromadb==0.4.24
+PyPDF2
+python-docx
+gradio
+transformers
+sentence-transformers
+PyPDF2
+python-docx
+numpy
+torch

utils.py ADDED Viewed

	@@ -0,0 +1,31 @@

+import os
+from PyPDF2 import PdfReader
+from docx import Document
+def process_pdf(file_path):
+    reader = PdfReader(file_path)
+    text = ""
+    for page in reader.pages:
+        text += page.extract_text() + "\n"
+    return text.split('\n\n')  # تقسيم النص إلى فقرات
+def process_docx(file_path):
+    doc = Document(file_path)
+    paragraphs = [p.text for p in doc.paragraphs if p.text.strip() != ""]
+    return paragraphs
+def process_txt(file_path):
+    with open(file_path, 'r', encoding='utf-8') as f:
+        text = f.read()
+    return text.split('\n\n')
+def process_documents(file_path):
+    ext = os.path.splitext(file_path)[1].lower()
+    if ext == '.pdf':
+        return process_pdf(file_path)
+    elif ext == '.docx':
+        return process_docx(file_path)
+    elif ext == '.txt':
+        return process_txt(file_path)
+    else:
+        return []