Spaces:

ramy2018
/

pope30

Sleeping

ramy2018 commited on 5 days ago

Commit

7d3c4f0

verified ·

1 Parent(s): 110e6e2

Update rag_pipeline.py

Files changed (1) hide show

rag_pipeline.py CHANGED Viewed

@@ -11,8 +11,9 @@ class RAGPipeline:
         pooling_model = models.Pooling(word_embedding_model.get_word_embedding_dimension())
         self.embedder = SentenceTransformer(modules=[word_embedding_model, pooling_model])
-        self.tokenizer = AutoTokenizer.from_pretrained("google/flan-t5-small")
-        self.model = AutoModelForSeq2SeqLM.from_pretrained("google/flan-t5-small")
         self.chunks = []
         self.embeddings = None
@@ -32,11 +33,14 @@ class RAGPipeline:
         return [self.chunks[i] for i in top_indices]
     def summarize_text(self, text):
-        prompt = f"لخص النص التالي:\n{text}"
         try:
             inputs = self.tokenizer(prompt, return_tensors="pt", truncation=True, max_length=512)
             summary_ids = self.model.generate(inputs["input_ids"], max_length=128)
-            return self.tokenizer.decode(summary_ids[0], skip_special_tokens=True).strip()
         except Exception as e:
             print(f"[RAG][ERROR] أثناء التلخيص: {e}")
             return ""

         pooling_model = models.Pooling(word_embedding_model.get_word_embedding_dimension())
         self.embedder = SentenceTransformer(modules=[word_embedding_model, pooling_model])
+        # ✅ نموذج مخصص للتلخيص العربي
+        self.tokenizer = AutoTokenizer.from_pretrained("csebuetnlp/mT5_multilingual_XLSum")
+        self.model = AutoModelForSeq2SeqLM.from_pretrained("csebuetnlp/mT5_multilingual_XLSum")
         self.chunks = []
         self.embeddings = None
         return [self.chunks[i] for i in top_indices]
     def summarize_text(self, text):
+        print("[RAG][INPUT TO SUMMARIZE]:", text)
+        prompt = f"summarize: {text}"
         try:
             inputs = self.tokenizer(prompt, return_tensors="pt", truncation=True, max_length=512)
             summary_ids = self.model.generate(inputs["input_ids"], max_length=128)
+            summary = self.tokenizer.decode(summary_ids[0], skip_special_tokens=True).strip()
+            print(f"[RAG][DEBUG] الملخص الناتج:\n{summary}")
+            return summary
         except Exception as e:
             print(f"[RAG][ERROR] أثناء التلخيص: {e}")
             return ""