Edge_TTS_NGHIA_transcript

Running

App Files Files Community

cnph001 commited on May 13

Commit

f08082e

verified ·

1 Parent(s): f8eb359

Update app.py

Browse files

Files changed (1) hide show

app.py +31 -0

app.py CHANGED Viewed

@@ -1,3 +1,5 @@
 import spaces
 import gradio as gr
 import edge_tts
@@ -14,6 +16,31 @@ from pydub import AudioSegment
 from pydub.playback import play
 def get_silence(duration_ms=1000):
     # Create silent audio segment with specified parameters
     silent_audio = AudioSegment.silent(
@@ -253,6 +280,10 @@ async def transcript_to_speech(transcript_text, voice, rate, pitch, speed_adjust
     final_audio = AudioSegment.silent(duration=max_end_time_ms, frame_rate=24000)
     for segment in timed_audio_segments:
         final_audio = final_audio.overlay(segment['audio'], position=segment['start'])
     combined_audio_path = tempfile.mktemp(suffix=".mp3")
     final_audio.export(combined_audio_path, format="mp3")

+## Low pass filtering applied to final Audio
 import spaces
 import gradio as gr
 import edge_tts
 from pydub.playback import play
+def apply_low_pass_filter(audio_segment, cutoff_freq, sample_rate, order=5):
+    """Applies a low-pass filter to a pydub AudioSegment."""
+    audio_np = np.array(audio_segment.get_array_of_samples()).astype(np.float32) / (2**15 - 1)
+    if audio_segment.channels == 2:
+        audio_np = audio_np.reshape(-1, 2)
+    nyquist_freq = 0.5 * sample_rate
+    normalized_cutoff = cutoff_freq / nyquist_freq
+    b, a = butter(order, normalized_cutoff, btype='low', analog=False)
+    filtered_data = np.zeros_like(audio_np, dtype=np.float32)
+    if audio_segment.channels == 1:
+        filtered_data = lfilter(b, a, audio_np)
+    else:
+        for channel in range(audio_segment.channels):
+            filtered_data[:, channel] = lfilter(b, a, audio_np[:, channel])
+    filtered_data_int16 = (filtered_data * (2**15 - 1)).astype(np.int16)
+    filtered_audio = AudioSegment(filtered_data_int16.tobytes(),
+                                 frame_rate=sample_rate,
+                                 sample_width=audio_segment.sample_width,
+                                 channels=audio_segment.channels)
+    return filtered_audio
 def get_silence(duration_ms=1000):
     # Create silent audio segment with specified parameters
     silent_audio = AudioSegment.silent(
     final_audio = AudioSegment.silent(duration=max_end_time_ms, frame_rate=24000)
     for segment in timed_audio_segments:
         final_audio = final_audio.overlay(segment['audio'], position=segment['start'])
+    # Apply the low-pass filter here
+    cutoff_frequency = 3500  # 3.5 kHz (you can make this a user-configurable parameter later)
+    filtered_final_audio = apply_low_pass_filter(final_audio, cutoff_frequency, final_audio.frame_rate)
     combined_audio_path = tempfile.mktemp(suffix=".mp3")
     final_audio.export(combined_audio_path, format="mp3")