Edge_TTS_NGHIA_transcript

Running

App Files Files Community

cnph001 commited on May 1

Commit

b184cb6

verified ·

1 Parent(s): ba3a67a

Update app.py

Browse files

Files changed (1) hide show

app.py +30 -42

app.py CHANGED Viewed

@@ -138,48 +138,36 @@ async def process_transcript_line(line, default_voice, rate, pitch):
         return start_time_ms, audio_segments
     return None, None
-async def transcript_to_speech(transcript_text, voice, rate, pitch):
-    if not transcript_text.strip():
-        return None, gr.Warning("Please enter transcript text.")
-    if not voice:
-        return None, gr.Warning("Please select a voice.")
-    lines = transcript_text.strip().split('\n')
-    timed_audio_segments = []
-    max_end_time_ms = 0
-    for line in lines:
-        start_time, audio_paths = await process_transcript_line(line, voice, rate, pitch)
-        if start_time is not None and audio_paths:
-            combined_line_audio = AudioSegment.empty()
-            for path in audio_paths:
-                try:
-                    audio = AudioSegment.from_mp3(path)
-                    combined_line_audio += audio
-                    os.remove(path)
-                except FileNotFoundError:
-                    print(f"Warning: Audio file not found: {path}")
-            if combined_line_audio:
-                timed_audio_segments.append({'start': start_time, 'audio': combined_line_audio})
-                max_end_time_ms = max(max_end_time_ms, start_time + len(combined_line_audio))
-        elif audio_paths:
-            for path in audio_paths:
-                try:
-                    os.remove(path)
-                except FileNotFoundError:
-                    pass # Clean up even if no timestamp
-    if not timed_audio_segments:
-        return None, "No processable audio segments found."
-    final_audio = AudioSegment.silent(duration=max_end_time_ms, frame_rate=24000)
-    for segment in timed_audio_segments:
-        final_audio = final_audio.overlay(segment['audio'], position=segment['start'])
-    combined_audio_path = tempfile.mktemp(suffix=".mp3")
-    final_audio.export(combined_audio_path, format="mp3")
-    return combined_audio_path, None
 @spaces.GPU
 def tts_interface(transcript, voice, rate, pitch):

         return start_time_ms, audio_segments
     return None, None
+async def process_transcript_line(line, default_voice, rate, pitch):
+    """Processes a single transcript line with HH:MM:SS.milliseconds timestamp and quoted text segments."""
+    match = re.match(r'(\d{2}):(\d{2}):(\d{2})\.(\d{3})\s+(.*)', line)
+    if match:
+        hours, minutes, seconds, milliseconds, text_parts = match.groups()
+        start_time_ms = (
+            int(hours) * 3600000 +
+            int(minutes) * 60000 +
+            int(seconds) * 1000 +
+            int(milliseconds)
+        )
+        audio_segments = []
+        split_parts = re.split(r'(")', text_parts)  # Split by quote marks, keeping the quotes
+        process_next = False
+        for part in split_parts:
+            if part == '"':
+                process_next = not process_next
+                continue
+            if process_next and part.strip():
+                audio_path = await generate_audio_with_voice_prefix(part, default_voice, rate, pitch)
+                if audio_path:
+                    audio_segments.append(audio_path)
+            elif not process_next and part.strip():
+                audio_path = await generate_audio_with_voice_prefix(part, default_voice, rate, pitch) # Process unquoted text with default voice
+                if audio_path:
+                    audio_segments.append(audio_path)
+        return start_time_ms, audio_segments
+    return None, None
 @spaces.GPU
 def tts_interface(transcript, voice, rate, pitch):