Spaces:

Zguin
/

Kursovaia2025

Running

App Files Files Community

Zguin commited on May 29

Commit

98b7982

verified ·

1 Parent(s): e176f16

Update app.py

Browse files

Files changed (1) hide show

app.py +9 -9

app.py CHANGED Viewed

@@ -4,8 +4,8 @@ from PIL import Image
 from transformers import (
     BlipProcessor,
     BlipForConditionalGeneration,
-    M2M100Tokenizer,
-    M2M100ForConditionalGeneration
 )
 from typing import Union
 from gtts import gTTS
@@ -32,8 +32,8 @@ class ImageCaptionPipeline:
         print(f"Время загрузки BLIP: {time.time() - start_time:.2f} секунд")
         start_time = time.time()
-        self.translator_tokenizer = M2M100Tokenizer.from_pretrained("facebook/m2m100_418M")
-        self.translator_model = M2M100ForConditionalGeneration.from_pretrained("facebook/m2m100_418M").to(self.device)
         print(f"Время загрузки переводчика: {time.time() - start_time:.2f} секунд")
     def generate_captions(self, image: Union[str, Image.Image]) -> tuple:
@@ -41,6 +41,8 @@ class ImageCaptionPipeline:
         if isinstance(image, str):
             image = Image.open(image)
         image = image.convert("RGB")
         inputs = self.blip_processor(images=image, return_tensors="pt").to(self.device)
         with torch.no_grad():
             output_ids = self.blip_model.generate(**inputs, max_length=50, num_beams=2, early_stopping=True)
@@ -48,12 +50,10 @@ class ImageCaptionPipeline:
         print(f"Время генерации английской подписи: {time.time() - start_time:.2f} секунд")
         start_time = time.time()
-        self.translator_tokenizer.src_lang = "en"
         translated_inputs = self.translator_tokenizer(english_caption, return_tensors="pt", padding=True).to(self.device)
         with torch.no_grad():
             translated_ids = self.translator_model.generate(
                 **translated_inputs,
-                forced_bos_token_id=self.translator_tokenizer.get_lang_id("ru"),
                 max_length=50,
                 num_beams=2,
                 early_stopping=True
@@ -87,14 +87,14 @@ def generate_audio(english_caption: str, russian_caption: str, audio_language: s
     text = russian_caption if audio_language == "Русский" else english_caption
     return pipeline.generate_audio(text, audio_language)
-with gr.Blocks(css=".btn {width: 200px; background-color: #4682B4; color: white; border: none; padding: 10px 20px; text-align: center; font-size: 16px;}") as iface:
     with gr.Row():
         with gr.Column(scale=1, min_width=400, variant="panel"):
             image = gr.Image(type="pil", label="Изображение", height=400, width=400)
             submit_button = gr.Button("Сгенерировать описание", elem_classes="btn")
         with gr.Column(scale=1, min_width=300):
-            english_caption = gr.Textbox(label="Подпись English:", lines=2)
-            russian_caption = gr.Textbox(label="Подпись Русский:", lines=2)
             audio_button = gr.Button("Сгенерировать озвучку", elem_classes="btn")
             with gr.Row():
                 audio_language = gr.Dropdown(choices=["Русский", "English"], label="Язык озвучки", value="Русский", scale=1, min_width=150, elem_classes="equal-height")

 from transformers import (
     BlipProcessor,
     BlipForConditionalGeneration,
+    AutoTokenizer,
+    AutoModelForSeq2SeqLM
 )
 from typing import Union
 from gtts import gTTS
         print(f"Время загрузки BLIP: {time.time() - start_time:.2f} секунд")
         start_time = time.time()
+        self.translator_tokenizer = AutoTokenizer.from_pretrained("Helsinki-NLP/opus-mt-en-ru")
+        self.translator_model = AutoModelForSeq2SeqLM.from_pretrained("Helsinki-NLP/opus-mt-en-ru").to(self.device)
         print(f"Время загрузки переводчика: {time.time() - start_time:.2f} секунд")
     def generate_captions(self, image: Union[str, Image.Image]) -> tuple:
         if isinstance(image, str):
             image = Image.open(image)
         image = image.convert("RGB")
+        # Compress image to recommended size (512x512)
+        image = image.resize((512, 512), Image.Resampling.LANCZOS)
         inputs = self.blip_processor(images=image, return_tensors="pt").to(self.device)
         with torch.no_grad():
             output_ids = self.blip_model.generate(**inputs, max_length=50, num_beams=2, early_stopping=True)
         print(f"Время генерации английской подписи: {time.time() - start_time:.2f} секунд")
         start_time = time.time()
         translated_inputs = self.translator_tokenizer(english_caption, return_tensors="pt", padding=True).to(self.device)
         with torch.no_grad():
             translated_ids = self.translator_model.generate(
                 **translated_inputs,
                 max_length=50,
                 num_beams=2,
                 early_stopping=True
     text = russian_caption if audio_language == "Русский" else english_caption
     return pipeline.generate_audio(text, audio_language)
+with gr.Blocks(css=".btn {width: 200px; background-color: #4B0082; color: white; border: none; padding: 10px 20px; text-align: center; font-size: 16px; margin: 0 auto; display: block;} .equal-height {height: 60px !important;") as iface:
     with gr.Row():
         with gr.Column(scale=1, min_width=400, variant="panel"):
             image = gr.Image(type="pil", label="Изображение", height=400, width=400)
             submit_button = gr.Button("Сгенерировать описание", elem_classes="btn")
         with gr.Column(scale=1, min_width=300):
+            english_caption = gr.Textbox(label="Описание на English:", lines=2)
+            russian_caption = gr.Textbox(label="Описание на Русском:", lines=2)
             audio_button = gr.Button("Сгенерировать озвучку", elem_classes="btn")
             with gr.Row():
                 audio_language = gr.Dropdown(choices=["Русский", "English"], label="Язык озвучки", value="Русский", scale=1, min_width=150, elem_classes="equal-height")