Spaces:

saadustto2007
/

English-to-Cyrillic-Farsi

Running

App Files Files Community

saadustto2007 commited on Mar 9

Commit

d59e3a5

verified ·

1 Parent(s): 2e10399

Update app.py

Browse files

Files changed (1) hide show

app.py +22 -9

app.py CHANGED Viewed

@@ -62,6 +62,8 @@ common_phrases = {
     "See you later": "بعداً می‌بینمت",
     "What is this?": "این چیست؟",
     "I am happy": "خوشحالم",
 }
 # Function to split text into smaller phrases
@@ -80,23 +82,31 @@ def transliterate_farsi_to_cyrillic(farsi_text):
     word_map = {
         "سلام": "Салом",
         "خداحافظ": "Худоҳафиз",
-        "شب بخیر": "Шаби хайр",
-        "صبح بخیر": "Субҳи хайр",
         "ممنون": "Ташаккур",
         "خواهش میکنم": "Илтимос",
-        "چطور هستی؟": "Чӣ хел ҳастӣ?",
-        "چطور هستید؟": "Шумо чӣ хелед?",
         "بله": "Ҳа",
         "نه": "Не",
         "ایران": "Эрон",
         "تشکر": "Ташаккур",
-        "فارسی": "Форсī",
         "اسم من": "Номи ман",
-        "لطفا": "Илтимوس",
         "کمک": "Кумак",
-        "هستی": "ҳастī",
         "هستید": "ҳастед",
         "است": "аст",
     }
     char_map = {
@@ -150,7 +160,7 @@ def transliterate_farsi_to_cyrillic(farsi_text):
     return " ".join(cyrillic_words)
-# Translation function with input validation
 def translate_to_cyrillic_farsi(text):
     if not text or not text.strip():
         return "Error: Please enter a valid English text.", ""
@@ -163,6 +173,9 @@ def translate_to_cyrillic_farsi(text):
     translated = model.generate(**encoded_text, forced_bos_token_id=tokenizer.get_lang_id("fa"))
     farsi_text = tokenizer.decode(translated[0], skip_special_tokens=True)
     # Check if the translation is valid Farsi
     if not farsi_text or not any(c in "ابتثجحخدذرزسشصضطظعغفقکگلمنوهیءأؤئء،؟" for c in farsi_text.replace(" ", "")):
         # Fall back to phrase-by-phrase translation
@@ -175,7 +188,7 @@ def translate_to_cyrillic_farsi(text):
                 tokenizer.src_lang = "en"
                 encoded_text = tokenizer(phrase, return_tensors="pt", padding=True).to(device)
                 translated = model.generate(**encoded_text, forced_bos_token_id=tokenizer.get_lang_id("fa"))
-                translated_text = tokenizer.decode(translated[0], skip_special_tokens=True)
                 if any(c in "ابتثجحخدذرزسشصضطظعغفقکگلمنوهیءأؤئء،؟" for c in translated_text.replace(" ", "")):
                     farsi_translations.append(translated_text)
                 else:

     "See you later": "بعداً می‌بینمت",
     "What is this?": "این چیست؟",
     "I am happy": "خوشحالم",
+    "It is very chilly today": "امروز خیلی سرد است",
+    "I hope we have better weather tomorrow": "امیدوارم فردا هوا بهتر شود",
 }
 # Function to split text into smaller phrases
     word_map = {
         "سلام": "Салом",
         "خداحافظ": "Худоҳафиз",
+        "شب بخیر": "Шаб хайр",
+        "صبح بخیر": "Субҳ хайр",
         "ممنون": "Ташаккур",
         "خواهش میکنم": "Илтимос",
+        "چطور هستی؟": "Чӣ тур ҳастӣ?",
+        "چطور هستید؟": "Шумо чӣ туред?",
         "بله": "Ҳа",
         "نه": "Не",
         "ایران": "Эрон",
         "تشکر": "Ташаккур",
+        "فارسی": "Форсӣ",
         "اسم من": "Номи ман",
+        "لطفا": "Илтимос",
         "کمک": "Кумак",
+        "هستی": "ҳастӣ",
         "هستید": "ҳастед",
         "است": "аст",
+        "امروز": "Имрӯз",
+        "خیلی": "Хеле",
+        "سرد": "Сард",
+        "امیدوارم": "Умидворам",
+        "فردا": "Фардо",
+        "هوا": "Ҳаво",
+        "بهتر": "Беҳтар",
+        "شود": "Шавад",
     }
     char_map = {
     return " ".join(cyrillic_words)
+# Translation function with input validation and cleaning
 def translate_to_cyrillic_farsi(text):
     if not text or not text.strip():
         return "Error: Please enter a valid English text.", ""
     translated = model.generate(**encoded_text, forced_bos_token_id=tokenizer.get_lang_id("fa"))
     farsi_text = tokenizer.decode(translated[0], skip_special_tokens=True)
+    # Clean the Farsi text (remove leading/trailing unwanted punctuation)
+    farsi_text = farsi_text.strip(".!?, ")
     # Check if the translation is valid Farsi
     if not farsi_text or not any(c in "ابتثجحخدذرزسشصضطظعغفقکگلمنوهیءأؤئء،؟" for c in farsi_text.replace(" ", "")):
         # Fall back to phrase-by-phrase translation
                 tokenizer.src_lang = "en"
                 encoded_text = tokenizer(phrase, return_tensors="pt", padding=True).to(device)
                 translated = model.generate(**encoded_text, forced_bos_token_id=tokenizer.get_lang_id("fa"))
+                translated_text = tokenizer.decode(translated[0], skip_special_tokens=True).strip(".!?, ")
                 if any(c in "ابتثجحخدذرزسشصضطظعغفقکگلمنوهیءأؤئء،؟" for c in translated_text.replace(" ", "")):
                     farsi_translations.append(translated_text)
                 else: