Spaces:

ahmadalfakeh
/

aivoice

Build error

ahmadalfakeh commited on Sep 8

Commit

e2bfbb0

•

1 Parent(s): adebaac

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,14 +2,16 @@ import gradio as gr
 from huggingface_hub import InferenceClient
 import os
 from gtts import gTTS
-import speech_recognition as sr
-import pyaudio
 import io
 from tempfile import NamedTemporaryFile
 api = os.getenv("HF_API_TOKEN")
 client = InferenceClient("meta-llama/Meta-Llama-3.1-70B-Instruct", token=f"{api}")
 def respond(
     message,
     history: list[tuple[str, str]],
@@ -50,10 +52,14 @@ def text_to_speech(text):
             return f.read()
 def speech_to_text(audio):
-    recognizer = sr.Recognizer()
-    with sr.AudioFile(io.BytesIO(audio)) as source:
-        audio_data = recognizer.record(source)
-        return recognizer.recognize_google(audio_data)
 def process_audio(audio, system_message, max_tokens, temperature, top_p):
     text = speech_to_text(audio)

 from huggingface_hub import InferenceClient
 import os
 from gtts import gTTS
+import whisper
 import io
 from tempfile import NamedTemporaryFile
 api = os.getenv("HF_API_TOKEN")
 client = InferenceClient("meta-llama/Meta-Llama-3.1-70B-Instruct", token=f"{api}")
+# Load Whisper model
+model = whisper.load_model("base")  # or use 'small', 'medium', 'large', depending on your needs
 def respond(
     message,
     history: list[tuple[str, str]],
             return f.read()
 def speech_to_text(audio):
+    # Load audio data into a temporary file
+    with NamedTemporaryFile(delete=True, suffix=".wav") as tmpfile:
+        tmpfile.write(audio)
+        tmpfile.flush()
+        # Transcribe audio with Whisper
+        result = model.transcribe(tmpfile.name)
+        return result['text']
 def process_audio(audio, system_message, max_tokens, temperature, top_p):
     text = speech_to_text(audio)