Spaces:

greg0rs
/

fonetik-fast

Running

greg0rs commited on 4 days ago

Commit

88dc312

verified ·

1 Parent(s): 4adedcb

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -8,6 +8,12 @@ import torchaudio
 import torch
 from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
 # Use writable cache paths
 os.environ['HF_HOME'] = '/app/cache'
 os.environ['TORCH_HOME'] = '/app/cache'
@@ -67,8 +73,9 @@ async def transcribe(audio: UploadFile = File(...)):
         with torch.no_grad():
             phoneme_logits = phoneme_model(phoneme_inputs).logits
         phoneme_ids = torch.argmax(phoneme_logits, dim=-1)
-        phonemes = phoneme_processor.decode(phoneme_ids[0])
         # Run speech-to-text model
         stt_inputs = stt_processor(waveform.squeeze(), sampling_rate=sample_rate, return_tensors="pt").input_values
         with torch.no_grad():

 import torch
 from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
+import re
+def clean_phoneme_string(raw: str) -> str:
+    """Insert spaces between adjacent uppercase phoneme characters"""
+    return re.sub(r"(?<=[A-Z])(?=[A-Z])", " ", raw).strip()
 # Use writable cache paths
 os.environ['HF_HOME'] = '/app/cache'
 os.environ['TORCH_HOME'] = '/app/cache'
         with torch.no_grad():
             phoneme_logits = phoneme_model(phoneme_inputs).logits
         phoneme_ids = torch.argmax(phoneme_logits, dim=-1)
+        raw_phonemes = phoneme_processor.decode(phoneme_ids[0])
+        phonemes = clean_phoneme_string(raw_phonemes)
         # Run speech-to-text model
         stt_inputs = stt_processor(waveform.squeeze(), sampling_rate=sample_rate, return_tensors="pt").input_values
         with torch.no_grad():