Spaces:

walker11
/

RawiPostReview

Running

App Files Files Community

walker11 commited on 11 days ago

Commit

15a42d4

verified ·

1 Parent(s): d8baaa6

Update app.py

Browse files

Files changed (1) hide show

app.py +190 -89

app.py CHANGED Viewed

@@ -34,64 +34,133 @@ class ArabicContentModerator:
             "Content-Type": "application/json"
         }
-        # The Definitive Prompt for Word-Level Contextual Analysis
         self.moderation_prompt = """
-أنت ناقد أدبي فائق الدقة، خبير في الأدب العربي والثقافة الإسلامية. مهمتك ليست مجرد المراجعة، بل التشريح الأدبي للنص. يجب أن تركز في كل كلمة، وتفهم موقعها ودلالتها داخل السياق السردي العام قبل إصدار أي حكم. قرارك هو نتاج تحليل عميق، وليس رد فعل سطحي تجاه مفردات معينة.
-**المنهجية التحليلية: من الكلمة إلى النص**
-اتبع هذه المنهجية الصارمة، حيث كل كلمة هي وحدة تحليل أساسية:
-**أولاً: التحليل الدقيق للسياق والغرض**
-قبل أن تبدأ، اقرأ النص بالكامل لتفهم عالمه. ثم أعد القراءة مع التركيز على بناء الجمل واختيار الكلمات. اسأل نفسك باستمرار:
-* **ما وظيفة هذه الكلمة هنا؟** هل هي جزء من حوار يكشف عن شخصية منحرفة؟ هل هي استعارة أدبية تغير المعنى الظاهري؟ أم هي صوت مباشر من السرد يروج لانتهاك؟
-* **ما هي نبرة القصة؟** هل هي ساخرة، مأساوية، نقدية؟ النبرة تغير دلالة الكلمات بشكل جذري.
-* تذكر، قصة تصور شخصية تنطق بالكفر للكشف عن ضلالها تختلف جذرياً عن نص يدعو إلى الكفر. الفهم الدقيق لهذه النية هو جوهر عملك.
-**ثانياً: التحقق من الهوية الأدبية (هل البنية هي بنية قصة؟)**
-بعد فهم السياق، تأكد من أن النص عمل سردي حقيقي يمتلك العناصر الأساسية: حبكة، شخصيات، حوار، وصف. ارفض بشكل قاطع أي محتوى غير قصصي (مقالات، تعليقات، مواد دراسية، إلخ).
-**ثالثاً: تطبيق معايير المراجعة بناءً على التحليل السياقي (مدونة السلوك للناقد)**
-استخدم هذه المدونة كمرجع لتحديد الانتهاكات. لا تقم بتطبيقها بشكل آلي. يجب أن يمر كل انتهاك محتمل عبر فلتر "التحليل السياقي للكلمة" الذي قمت به في الخطوة الأولى.
----
-**(((مدونة السلوك والمحتوى المرفوض)))**
-**1. الإساءة الدينية والثقافية:**
-    * **أ) سب الذات الإلهية أو الأديان:** أي ازدراء أو سب مباشر لله تعالى، القرآن، النبي محمد ﷺ، الصحابة، أو الرسل والأنبياء في الديانات السماوية الأخرى.
-    * **ب) الاستهزاء بالشعائر والرموز الدينية:** السخرية من الصلاة، الصيام، الحج، الزكاة، المساجد، الكعبة، إلخ.
-    * **ج) الكفر والتجديف الصريح:** إنكار وجود الله، إنكار البعث والحساب، أو إنكار النبوة.
-    * **د) التحريض الطائفي والمذهبي:** إثارة الفتنة بين المذاهب أو الأديان.
-**2. الألفاظ النابية والبذاءة:**
-    * **أ) الشتائم الجنسية الصريحة:** استخدام أي لفظ يصف الأعضاء التناسلية أو الأفعال الجنسية بشكل مبتذل.
-    * **ب) سب الأهل والأعراض:** الشتائم التي تتضمن الأب أو الأم أو الأخت.
-    * **ج) الشتائم العامة المهينة:** الألفاظ التي تحط من الكرامة الإنسانية.
-**3. المحتوى الجنسي والأخلاقي:**
-    * **أ) الوصف الجنسي الفاضح:** وصف تفصيلي للأعضاء التناسلية أو الأفعال الجنسية بهدف الإثارة.
-    * **ب) تمجيد العلاقات المحرمة والشذوذ الجنسي:** الترويج للزنا، الخيانة، أو العلاقات المثلية وتقديمها على أنها أمر إيجابي.
-    * **ج) الإيحاءات والتلميحات المبتذلة:** العبارات التي تحمل معانٍ جنسية مبطنة ورخيصة.
-**4. العنف والكراهية:**
-    * **أ) العنف المفرط والمقزز:** الوصف التصويري المفصل لأعمال القتل والتعذيب والتشويه.
-    * **ب) تمجيد الجريمة والكراهية:** الدعوة الصريحة للقتل، الانتقام، إيذاء النفس، أو التحريض العرقي.
-**5. المحتوى المخالف للقانون والأخلاق العامة:**
-    * **أ) الترويج للمخدرات والمسكرات:** التشجيع على تعاطي المخدرات أو شرب الخمر.
-    * **ب) الإساءة للمرأة وتحقيرها:** العبارات التي تصور المرأة ككائن ناقص أو مجرد أداة.
----
-**رابعاً: القرار النهائي المبني على التحليل الدقيق**
-بعد تشريح النص كلمة بكلمة وفهم سياقه الأدبي العميق، أصدر حكمك النهائي:
--   **إذا كان النص قصة أدبية حقيقية، وبعد فحص كل كلمة حساسة في سياقها، تأكدت من أنها لا تمثل انتهاكاً مباشراً من قبل صوت السرد نفسه، أجب بـ `true` فقط.**
--   **إذا كان النص غير قصصي، أو إذا كانت كلماته أو عباراته، حتى بعد تحليل السياق، تشكل انتهاكاً واضحاً ومباشراً للمعايير، أجب بـ `no` فقط.**
-إجابتك يجب أن تكون `true` أو `no` فقط. لا مجال للتردد. حكمك يعتمد على تحليل دقيق وليس على انطباع عا��.
-**النص المطلوب مراجعته:**
 """
     def _call_deepseek_api(self, story_content: str) -> Dict[str, Any]:
@@ -110,7 +179,7 @@ class ArabicContentModerator:
                 "messages": [
                     {
                         "role": "system",
-                        "content": "أنت ناقد أدبي محترف متخصص في الأدب العربي والثقافة الإسلامية. مهمتك مراجعة النصوص بدقة شديدة للتأكد من التزامها بالقيم الدينية والثقافية العربية الإسلامية ومن كونها قصصاً أدبية حقيقية."
                     },
                     {
                         "role": "user",
@@ -118,7 +187,7 @@ class ArabicContentModerator:
                     }
                 ],
                 "max_tokens": 10,
-                "temperature": 0.0,  # Changed to 0.0 for more consistent results
                 "stream": False
             }
@@ -139,6 +208,56 @@ class ArabicContentModerator:
             logger.error(f"Exception calling Deepseek API: {str(e)}")
             return {"error": str(e)}
     def _validate_story_format(self, story_content: str) -> bool:
         """
         Enhanced validation of story format and content
@@ -163,34 +282,11 @@ class ArabicContentModerator:
         # Arabic characters should be at least 30% of total characters
         if arabic_chars < len(story_content.strip()) * 0.3:
             return False
-        # Quick pre-screening for obvious violations (before API call)
-        content_lower = story_content.lower()
-        # Check for common profanity patterns across dialects AND religious violations
-        profanity_patterns = [
-            # Sexual profanity
-            r'\bكس\b', r'\bزب\b', r'\bنيك\b', r'\bمنيوك\b', r'\bشرموط\b',
-            r'\bقحب\b', r'\bلحس\b', r'\bمص\b', r'\bطيز\b', r'\bبزاز\b',
-            r'\bتبن\b', r'\bنعل\b', r'\bكوس\b', r'\bأير\b', r'\bمنايك\b',
-            r'\bخرا\b', r'\bكداب\b', r'\bعرص\b', r'\bخول\b', r'\bحيوان\b',
-            # Religious violations and blasphemy
-            r'الله كذاب', r'لعن الله', r'تبا لله', r'يلعن رب', r'الله غبي',
-            r'القرآن كذب', r'كتاب مزور', r'خرافات القرآن', r'قرآن مؤلف',
-            r'محمد كذاب', r'الرسول دجال', r'نبي كاذب', r'لعنة على محمد',
-            r'أبو بكر منافق', r'عمر ظالم', r'علي مخادع', r'الصحابة كذابون',
-            r'الصلاة مضيعة', r'رمضان تخلف', r'الحج طقوس', r'الكعبة صنم',
-            r'المسيح كذاب', r'الإنجيل محرف', r'موسى دجال', r'التوراة مزورة',
-            r'لا إله', r'الله وهم', r'الجنة وهم', r'النار خيال', r'القيامة كذبة',
-            r'لعنة الله', r'الله يلعنك', r'ملعون من رب', r'بيوت خرافة',
-            r'السنة نواصب', r'الشيعة رافضة', r'الصوفية مشركون', r'الوهابيون كفار'
-        ]
-        for pattern in profanity_patterns:
-            if re.search(pattern, content_lower):
-                return False
         return True
     def moderate_story(self, story_content: str) -> Dict[str, Any]:
@@ -208,7 +304,7 @@ class ArabicContentModerator:
             return {
                 "approved": False,
                 "response": "no",
-                "reason": "فشل في التحقق من صحة تنسيق القصة أو عدم وجود محتوى عربي كافٍ",
                 "timestamp": datetime.now().isoformat()
             }
@@ -248,7 +344,7 @@ class ArabicContentModerator:
             }
             if not approved:
-                result["reason"] = "المحتوى ينتهك القواعد المجتمعية أو الثقافية أو الدينية، أو أنه ليس قصة أدبية حقيقية"
             else:
                 result["reason"] = "المحتوى مقبول ويلتزم بالمعايير المطلوبة"
@@ -281,28 +377,33 @@ except ValueError as e:
 def home():
     """Home endpoint with API documentation"""
     return jsonify({
-        "service": "مراجع المحتوى الأدبي العربي المحسن",
-        "service_en": "Enhanced Arabic Literary Content Moderator",
-        "version": "2.0.0",
-        "description": "AI-powered professional literary critic for Arabic short stories with comprehensive dialect-aware moderation",
-        "description_ar": "ناقد أدبي محترف مدعوم بالذكاء الاصطناعي للقصص العربية القصيرة مع مراجعة شاملة لجميع اللهجات العربية",
         "endpoints": {
             "/health": "Health check",
             "/moderate": "POST - Moderate single story",
             "/moderate/batch": "POST - Moderate multiple stories"
         },
         "features": [
-            "Comprehensive profanity detection across all Arabic dialects",
-            "Enhanced religious and cultural compliance checking with specific examples",
             "Professional literary criticism standards",
-            "Strict content type validation (stories only)",
-            "Multi-dialect offensive content detection (Gulf, Levantine, Egyptian, Maghrebi, Iraqi, Sudanese, Yemeni)",
-            "Comprehensive religious blasphemy detection (Islam, Christianity, Judaism, other faiths)",
-            "Advanced sectarian and inter-religious conflict prevention",
-            "Takfir and religious defamation blocking",
-            "Advanced pre-screening before API calls",
-            "Arabic language purity validation",
-            "Context-aware violation detection"
         ],
         "usage": {
             "moderate": {
@@ -319,7 +420,7 @@ def health_check():
     """Health check endpoint"""
     return jsonify({
         "status": "healthy" if moderator else "unhealthy",
-        "service": "Enhanced Arabic Content Moderator",
         "timestamp": datetime.now().isoformat(),
         "api_available": moderator is not None
     })
@@ -327,7 +428,7 @@ def health_check():
 @app.route('/moderate', methods=['POST'])
 def moderate_content():
     """
-    Enhanced moderation endpoint
     Expected JSON payload:
     {

             "Content-Type": "application/json"
         }
+        # Enhanced Arabic Content Moderation with News Detection
         self.moderation_prompt = """
+أنت مراجع محتوى عربي محترف متخصص في التمييز بين القصص الأدبية والمحتوى الإخباري. مهمتك مراجعة النصوص العربية ورفض أي محتوى غير أدبي.
+## معايير الرفض الصارمة:
+### 1. المحتوى الإخباري والصحفي - رفض فوري:
+**يجب رفض النصوص التي تحتوي على:**
+**أ) التقارير الرياضية:**
+- "بعد المباراة خرج وقال"
+- "اللاعب تألق ومنع أهداف"
+- "فاز بجائزة رجل المباراة"
+- "المباراة انتهت بنتيجة"
+- "في الشوط الأول"
+- "المدرب صرح"
+**ب) المؤتمرات الصحفية:**
+- "في مؤتمر صحفي"
+- "صرح الوزير"
+- "أعلن المسؤول"
+- "في تصريحات خاصة"
+- "قال النائب"
+- "أكد الخبير"
+**ج) الاجتماعات والفعاليات:**
+- "في اجتماع اليوم"
+- "خلال الجلسة"
+- "في المنتدى"
+- "أثناء المؤتمر"
+- "في الورشة"
+- "خلال اللقاء"
+**د) الأخبار السياسية:**
+- "الرئيس التقى"
+- "الوزير أعلن"
+- "البرلمان ناقش"
+- "الحكومة قررت"
+- "السفير وصل"
+- "الوزارة أصدرت"
+**هـ) الأخبار الاقتصادية:**
+- "البورصة ارتفعت"
+- "أسعار النفط"
+- "الدولار سجل"
+- "الشركة حققت"
+- "الاستثمارات بلغت"
+- "التضخم وصل"
+**و) التقارير التقنية:**
+- "التطبيق الجديد"
+- "الهاتف يتميز"
+- "الخاصية الجديدة"
+- "التحديث يتضمن"
+- "النظام يدعم"
+- "البرنامج أضاف"
+**ز) الأخبار المحلية:**
+- "في محافظة"
+- "بلدية المدينة"
+- "المحافظ افتتح"
+- "المجلس المحلي"
+- "الأهالي طالبوا"
+- "الخدمات تحسنت"
+### 2. العلامات المميزة للمحتوى الإخباري:
+- استخدام أسماء حقيقية لأشخاص مشهورين
+- ذكر مباريات وأحداث رياضية محددة
+- استخدام مصطلحات إخبارية ("صرح"، "أعلن"، "أكد")
+- التواريخ والأرقام الإحصائية
+- ذكر مؤسسات وشركات حقيقية
+- النبرة الرسمية والتقريرية
+### 3. المحتوى الأدبي المقبول:
+**يجب قبول النصوص التي تحتوي على:**
+- شخصيات خيالية أو مجهولة الهوية
+- أحداث متخيلة أو درامية
+- حوار إبداعي وعاطفي
+- وصف الشخصيات والأماكن
+- صراع نفسي أو اجتماعي
+- نهاية مفتوحة أو رسالة أدبية
+- استخدام التشبيهات والمجازات
+- الأسلوب السردي الإبداعي
+### 4. الانتهاكات الدينية - فحص صارم:
+**رفض فوري للمحتوى الذي يحتوي على:**
+- أي استهزاء أو تهكم على الله أو الأنبياء
+- انتقاد الآيات القرآنية أو الأحاديث
+- السخرية من الشعائر الدينية
+- التطاول على الصحابة
+- التجديف أو الكفر الصريح
+- السب بالدين
+### 5. السب والشتم - فحص صارم:
+**رفض فوري للمحتوى الذي يحتوي على:**
+- الألفاظ الجنسية الصريحة
+- السب بالأعضاء التناسلية
+- الألفاظ الإخراجية
+- إهانة الأم أو العرض
+- السب العرقي بألفاظ قبيحة
+- الكلمات المبتذلة الخادشة
+## أمثلة للرفض:
+**مثال إخباري رياضي (يجب رفضه):**
+"لويس سواريز بعد المباراة خرج قال كنا نستطيع الفوز... الشناوي تألق ومنع 3 أهداف مؤكدة... فاز بجائزة رجل المباراة"
+**مثال مؤتمر صحفي (يجب رفضه):**
+"في مؤتمر صحفي اليوم، صرح الوزير بأن الحكومة ستتخذ إجراءات..."
+**مثال اجتماع (يجب رفضه):**
+"خلال اجتماع مجلس الإدارة أمس، تم الاتفاق على..."
+## أمثلة للقبول:
+**قصة أدبية (يجب قبولها):**
+"كان يجلس في المقهى كل مساء، يراقب الناس ويحلم بحياة أخرى. في ذلك المساء، دخلت امرأة غريبة غيرت كل شيء..."
+**حوار درامي (يجب قبوله):**
+"قالت له بصوت مرتجف: لماذا تركتني؟ أجاب وهو يتجنب نظراتها: بعض الأشياء لا يمكن إصلاحها..."
+## الاستجابة المطلوبة:
+بعد المراجعة، أجب بكلمة واحدة فقط:
+- "true" - إذا كان النص قصة أدبية إبداعية خالية من الانتهاكات
+- "no" - إذا كان النص إخبارياً أو يحتوي على انتهاكات دينية أو سب فاحش
+النص المطلوب مراجعته:
 """
     def _call_deepseek_api(self, story_content: str) -> Dict[str, Any]:
                 "messages": [
                     {
                         "role": "system",
+                        "content": "أنت مراجع محتوى عربي محترف متخصص في التمييز بين القصص الأدبية والمحتوى الإخباري. يجب عليك رفض أي محتوى إخباري أو صحفي بصرامة."
                     },
                     {
                         "role": "user",
                     }
                 ],
                 "max_tokens": 10,
+                "temperature": 0.0,
                 "stream": False
             }
             logger.error(f"Exception calling Deepseek API: {str(e)}")
             return {"error": str(e)}
+    def _pre_check_news_content(self, story_content: str) -> bool:
+        """
+        Pre-check for obvious news content patterns
+        Args:
+            story_content: Content to check
+        Returns:
+            True if appears to be news content, False otherwise
+        """
+        # News indicators in Arabic
+        news_patterns = [
+            r'بعد المباراة.*قال',
+            r'في مؤتمر صحفي',
+            r'صرح.*الوزير',
+            r'أعلن.*المسؤول',
+            r'فاز.*بجائزة.*رجل المباراة',
+            r'تألق.*ومنع.*أهداف',
+            r'خلال.*الاجتماع',
+            r'في.*الجلسة',
+            r'الرئيس.*التقى',
+            r'البرلمان.*ناقش',
+            r'الحكومة.*قررت',
+            r'البورصة.*ارتفعت',
+            r'أسعار.*النفط',
+            r'الشركة.*حققت',
+            r'المحافظ.*افتتح',
+            r'بلدية.*المدينة',
+            r'التطبيق.*الجديد',
+            r'الهاتف.*يتميز',
+            r'في.*محافظة'
+        ]
+        # Check for news patterns
+        for pattern in news_patterns:
+            if re.search(pattern, story_content, re.IGNORECASE):
+                return True
+        # Check for sports-specific terms
+        sports_terms = ['المباراة', 'اللاعب', 'المدرب', 'الفريق', 'الهدف', 'الشوط']
+        news_verbs = ['صرح', 'أعلن', 'أكد', 'قال', 'فاز', 'تألق']
+        has_sports = any(term in story_content for term in sports_terms)
+        has_news_verbs = any(verb in story_content for verb in news_verbs)
+        if has_sports and has_news_verbs:
+            return True
+        return False
     def _validate_story_format(self, story_content: str) -> bool:
         """
         Enhanced validation of story format and content
         # Arabic characters should be at least 30% of total characters
         if arabic_chars < len(story_content.strip()) * 0.3:
             return False
+        # Pre-check for obvious news content
+        if self._pre_check_news_content(story_content):
+            return False
         return True
     def moderate_story(self, story_content: str) -> Dict[str, Any]:
             return {
                 "approved": False,
                 "response": "no",
+                "reason": "المحتوى يبدو أنه تقرير إخباري أو صحفي وليس قصة أدبية، أو فشل في التحقق من صحة التنسيق",
                 "timestamp": datetime.now().isoformat()
             }
             }
             if not approved:
+                result["reason"] = "المحتوى ينتهك القواعد المجتمعية أو الثقافية أو الدينية، أو أنه ليس قصة أدبية حقيقية بل محتوى إخباري"
             else:
                 result["reason"] = "المحتوى مقبول ويلتزم بالمعايير المطلوبة"
 def home():
     """Home endpoint with API documentation"""
     return jsonify({
+        "service": "مراجع المحتوى الأدبي العربي المحسن مع كشف الأخبار",
+        "service_en": "Enhanced Arabic Literary Content Moderator with News Detection",
+        "version": "3.0.0",
+        "description": "AI-powered professional literary critic for Arabic short stories with enhanced news content detection",
+        "description_ar": "ناقد أدبي محترف مدعوم بالذكاء الاصطناعي للقصص العربية القصيرة مع كشف محسن للمحتوى الإخباري",
         "endpoints": {
             "/health": "Health check",
             "/moderate": "POST - Moderate single story",
             "/moderate/batch": "POST - Moderate multiple stories"
         },
         "features": [
+            "Enhanced news content detection and rejection",
+            "Sports reporting detection",
+            "Press conference content filtering",
+            "Meeting and event content filtering",
+            "Religious and cultural compliance checking",
             "Professional literary criticism standards",
+            "Comprehensive profanity detection"
+        ],
+        "rejected_content_types": [
+            "Sports reports and match analysis",
+            "Press conferences and official statements",
+            "Meeting minutes and proceedings",
+            "Political news and announcements",
+            "Economic reports and market updates",
+            "Technical reviews and product launches",
+            "Local news and municipal updates"
         ],
         "usage": {
             "moderate": {
     """Health check endpoint"""
     return jsonify({
         "status": "healthy" if moderator else "unhealthy",
+        "service": "Enhanced Arabic Content Moderator with News Detection",
         "timestamp": datetime.now().isoformat(),
         "api_available": moderator is not None
     })
 @app.route('/moderate', methods=['POST'])
 def moderate_content():
     """
+    Enhanced moderation endpoint with news detection
     Expected JSON payload:
     {