Spaces:

rafaaa2105
/

Crisper-Whisper

Paused

App Files Files Community

rafaaa2105 commited on Oct 6

Commit

dd41807

verified ·

1 Parent(s): 3507ce7

Update app.py

Browse files

Files changed (1) hide show

app.py +22 -7

app.py CHANGED Viewed

@@ -34,7 +34,6 @@ pipe = pipeline(
     feature_extractor=processor.feature_extractor,
     chunk_length_s=30,
     batch_size=8,  # Reduced batch size for stability
-    return_timestamps="word",  # CrisperWhisper provides accurate word-level timestamps
     torch_dtype=torch_dtype,
     device=device,
 )
@@ -69,7 +68,7 @@ def slice_audio(audio_path, chunk_duration=300):
     return chunks
 @spaces.GPU
-def transcribe_audio_chunk(audio_input, task="transcribe", language=None):
     """
     Transcribe a single audio chunk with CrisperWhisper.
     This model is specifically trained for verbatim transcription.
@@ -82,11 +81,27 @@ def transcribe_audio_chunk(audio_input, task="transcribe", language=None):
         if language:
             generate_kwargs["language"] = language
-        # CrisperWhisper automatically provides verbatim transcription
-        result = pipe(audio_input, generate_kwargs=generate_kwargs)
-        return result
     except Exception as e:
-        # Fallback: try without generate_kwargs if there's a tensor mismatch
         print(f"Error with generate_kwargs: {e}")
         try:
             result = pipe(audio_input)
@@ -141,7 +156,7 @@ def transcribe_audio(audio, task="transcribe", return_timestamps=False, language
         for idx, chunk_path in enumerate(audio_chunks):
             progress((idx + 1) / total_chunks, desc=f"Transcribing chunk {idx + 1}/{total_chunks}...")
-            result = transcribe_audio_chunk(chunk_path, task, language)
             if return_timestamps and "chunks" in result:
                 chunk_offset = idx * chunk_duration

     feature_extractor=processor.feature_extractor,
     chunk_length_s=30,
     batch_size=8,  # Reduced batch size for stability
     torch_dtype=torch_dtype,
     device=device,
 )
     return chunks
 @spaces.GPU
+def transcribe_audio_chunk(audio_input, task="transcribe", language=None, return_timestamps=False):
     """
     Transcribe a single audio chunk with CrisperWhisper.
     This model is specifically trained for verbatim transcription.
         if language:
             generate_kwargs["language"] = language
+        # Only add timestamps if requested and handle the potential error
+        if return_timestamps:
+            try:
+                generate_kwargs["return_timestamps"] = "word"
+                result = pipe(audio_input, generate_kwargs=generate_kwargs)
+                return result
+            except RuntimeError as e:
+                if "size of tensor" in str(e):
+                    # Fallback to chunk-level timestamps if word-level fails
+                    print("Word-level timestamps failed, trying chunk-level...")
+                    generate_kwargs["return_timestamps"] = True
+                    result = pipe(audio_input, generate_kwargs=generate_kwargs)
+                    return result
+                raise
+        else:
+            # No timestamps requested
+            result = pipe(audio_input, generate_kwargs=generate_kwargs)
+            return result
     except Exception as e:
+        # Last resort fallback: try with minimal parameters
         print(f"Error with generate_kwargs: {e}")
         try:
             result = pipe(audio_input)
         for idx, chunk_path in enumerate(audio_chunks):
             progress((idx + 1) / total_chunks, desc=f"Transcribing chunk {idx + 1}/{total_chunks}...")
+            result = transcribe_audio_chunk(chunk_path, task, language, return_timestamps)
             if return_timestamps and "chunks" in result:
                 chunk_offset = idx * chunk_duration