Edge_TTS_NGHIA_transcript

Running

App Files Files Community

cnph001 commited on May 13

Commit

3d757e5

verified ·

1 Parent(s): 2681b4c

Update app.py

Browse files

Files changed (1) hide show

app.py +12 -6

app.py CHANGED Viewed

@@ -1,3 +1,5 @@
 import spaces
 import gradio as gr
 import edge_tts
@@ -6,8 +8,15 @@ import tempfile
 import os
 import re
 from pathlib import Path
 from pydub import AudioSegment
-from pydub.silence import strip_silence
 def get_silence(duration_ms=1000):
     # Create silent audio segment with specified parameters
@@ -62,7 +71,7 @@ async def generate_audio_with_voice_prefix(text_segment, default_voice, rate, pi
     voice4_full = "en-GB-ThomasNeural - en-GB (Male)"
     voice4_short = voice4_full.split(" - ")[0]
     voice4F_full ="en-US-EmmaNeural - en-US (Female)"
-    voice4F_short = voice4F_full.split(" - ")[0]
     voice5_full = "en-GB-RyanNeural - en-GB (Male)" #Old Man
     voice5_short = voice5_full.split(" - ")[0]
     voice6_full = "en-GB-MaisieNeural - en-GB (Female)"  #Child
@@ -212,7 +221,6 @@ async def transcript_to_speech(transcript_text, voice, rate, pitch):
             for path in audio_paths:
                 try:
                     audio = AudioSegment.from_mp3(path)
-                    # Remove silence before and after the audio
                     audio = strip_silence(audio, silence_thresh=-40, min_silence_len=100)
                     combined_line_audio += audio
                     os.remove(path)
@@ -242,8 +250,6 @@ async def transcript_to_speech(transcript_text, voice, rate, pitch):
                             for next_path in next_audio_paths:
                                 try:
                                     next_audio = AudioSegment.from_mp3(next_path)
-                                     # Remove silence before and after the audio
-                                    next_audio = strip_silence(next_audio, silence_thresh=-40, min_silence_len=100)
                                     combined_line_audio += next_audio
                                     os.remove(next_path)
                                 except FileNotFoundError:
@@ -343,4 +349,4 @@ async def create_demo():
 if __name__ == "__main__":
     demo = asyncio.run(create_demo())
-    demo.launch()

+##fix overlap
 import spaces
 import gradio as gr
 import edge_tts
 import os
 import re
 from pathlib import Path
+from pydub.silence import detect_nonsilent
 from pydub import AudioSegment
+def strip_silence(audio: AudioSegment, silence_thresh=-40, min_silence_len=100):
+    nonsilent_ranges = detect_nonsilent(audio, min_silence_len=min_silence_len, silence_thresh=silence_thresh)
+    if not nonsilent_ranges:
+        return AudioSegment.silent(duration=0)
+    return sum([audio[start:end] for start, end in nonsilent_ranges])
 def get_silence(duration_ms=1000):
     # Create silent audio segment with specified parameters
     voice4_full = "en-GB-ThomasNeural - en-GB (Male)"
     voice4_short = voice4_full.split(" - ")[0]
     voice4F_full ="en-US-EmmaNeural - en-US (Female)"
+    voice4F_short = voice4_full.split(" - ")[0]
     voice5_full = "en-GB-RyanNeural - en-GB (Male)" #Old Man
     voice5_short = voice5_full.split(" - ")[0]
     voice6_full = "en-GB-MaisieNeural - en-GB (Female)"  #Child
             for path in audio_paths:
                 try:
                     audio = AudioSegment.from_mp3(path)
                     audio = strip_silence(audio, silence_thresh=-40, min_silence_len=100)
                     combined_line_audio += audio
                     os.remove(path)
                             for next_path in next_audio_paths:
                                 try:
                                     next_audio = AudioSegment.from_mp3(next_path)
                                     combined_line_audio += next_audio
                                     os.remove(next_path)
                                 except FileNotFoundError:
 if __name__ == "__main__":
     demo = asyncio.run(create_demo())
+    demo.launch()