MultiMedTulu

Runtime error

Tonic commited on Nov 18, 2023

Commit

4dc9e5f

1 Parent(s): 2202fe0

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -11,6 +11,7 @@ import json
 import dotenv
 from scipy.io.wavfile import write
 import PIL
 from openai import OpenAI
 import time
 from PIL import Image
@@ -79,6 +80,22 @@ def evaluate_hallucination(input1, input2):
     return label
 def process_speech(input_language, audio_input):
     """
     processing sound using seamless_m4t
@@ -333,7 +350,8 @@ def process_and_query(input_language=None, audio_input=None, image_input=None, t
         # Process audio input
         elif audio_input is not None:
-            audio_text = process_speech(input_language, audio_input)
             combined_text += "\n\n**Audio Input:**\n" + audio_text
         # Process text input

 import dotenv
 from scipy.io.wavfile import write
 import PIL
+import soundfile as sf
 from openai import OpenAI
 import time
 from PIL import Image
     return label
+def save_audio(audio_input, output_dir="saved_audio"):
+    if not os.path.exists(output_dir):
+        os.makedirs(output_dir)
+    # Extract sample rate and audio data
+    sample_rate, audio_data = audio_input
+    # Generate a unique file name
+    file_name = f"audio_{int(time.time())}.wav"
+    file_path = os.path.join(output_dir, file_name)
+    # Save the audio file
+    sf.write(file_path, audio_data, sample_rate)
+    return file_path
 def process_speech(input_language, audio_input):
     """
     processing sound using seamless_m4t
         # Process audio input
         elif audio_input is not None:
+            audio_file_path = save_audio(audio_input)
+            audio_text = process_speech(input_language, audio_file_path)
             combined_text += "\n\n**Audio Input:**\n" + audio_text
         # Process text input