Spaces:

mohAbdullah
/

speechbrain-vad-demo

Sleeping

App Files Files Community

mohAbdullah commited on 29 days ago

Commit

9c67c5f

verified ·

1 Parent(s): 28f0015

Update app.py

Browse files

Files changed (1) hide show

app.py +3 -8

app.py CHANGED Viewed

@@ -1,7 +1,8 @@
 import gradio as gr
 from speechbrain.inference.VAD import VAD
 import torch
-import numpy as np # Import numpy for data type info
 # Initialize the VAD model
 vad = VAD.from_hparams(source="speechbrain/vad-crdnn-libriparty")
@@ -19,20 +20,17 @@ def perform_vad(audio_input):
     original_sample_rate, waveform_data = audio_input
     try:
-        # --- START OF FINAL FIX ---
         # 1. Convert the numpy array to a torch tensor
         waveform_tensor = torch.from_numpy(waveform_data).float()
         # 2. Normalize the audio to the [-1.0, 1.0] range
-        # Check the data type of the numpy array to find the correct normalization factor
         if waveform_data.dtype == np.int16:
             waveform_tensor = waveform_tensor / 32768.0
         elif waveform_data.dtype == np.int32:
             waveform_tensor = waveform_tensor / 2147483648.0
         elif waveform_data.dtype == np.float32:
-            pass # Already in the correct range
         else:
-            # Fallback for other types
             max_val = torch.max(torch.abs(waveform_tensor))
             if max_val > 0:
                 waveform_tensor = waveform_tensor / max_val
@@ -50,7 +48,6 @@ def perform_vad(audio_input):
         elif waveform_tensor.ndim > 1:
             # If stereo, take the first channel
             waveform_tensor = waveform_tensor[0, :].unsqueeze(0)
-        # --- END OF FINAL FIX ---
         # Pass the perfectly formatted tensor to the VAD model
         speech_segments = vad.get_speech_segments(waveform_tensor)
@@ -61,7 +58,6 @@ def perform_vad(audio_input):
         output_text = "Detected Speech Segments (startTime, endTime in seconds):\n"
         output_json = []
-        # The VAD returns timestamps based on the model's sample rate (16000)
         for segment in speech_segments:
             start_sample = segment[0].item()
             end_sample = segment[1].item()
@@ -75,7 +71,6 @@ def perform_vad(audio_input):
         return output_text, output_json
     except Exception as e:
-        # Provide detailed error for debugging
         return f"An error occurred: {type(e).__name__} - {str(e)}", None
 # --- Gradio Interface ---

 import gradio as gr
 from speechbrain.inference.VAD import VAD
 import torch
+import torchaudio # <--- THIS IS THE FIX
+import numpy as np
 # Initialize the VAD model
 vad = VAD.from_hparams(source="speechbrain/vad-crdnn-libriparty")
     original_sample_rate, waveform_data = audio_input
     try:
         # 1. Convert the numpy array to a torch tensor
         waveform_tensor = torch.from_numpy(waveform_data).float()
         # 2. Normalize the audio to the [-1.0, 1.0] range
         if waveform_data.dtype == np.int16:
             waveform_tensor = waveform_tensor / 32768.0
         elif waveform_data.dtype == np.int32:
             waveform_tensor = waveform_tensor / 2147483648.0
         elif waveform_data.dtype == np.float32:
+            pass
         else:
             max_val = torch.max(torch.abs(waveform_tensor))
             if max_val > 0:
                 waveform_tensor = waveform_tensor / max_val
         elif waveform_tensor.ndim > 1:
             # If stereo, take the first channel
             waveform_tensor = waveform_tensor[0, :].unsqueeze(0)
         # Pass the perfectly formatted tensor to the VAD model
         speech_segments = vad.get_speech_segments(waveform_tensor)
         output_text = "Detected Speech Segments (startTime, endTime in seconds):\n"
         output_json = []
         for segment in speech_segments:
             start_sample = segment[0].item()
             end_sample = segment[1].item()
         return output_text, output_json
     except Exception as e:
         return f"An error occurred: {type(e).__name__} - {str(e)}", None
 # --- Gradio Interface ---