Spaces:

greg0rs
/

fonetik-fast

Running

App Files Files Community

greg0rs commited on 5 days ago

Commit

2db3ee9

verified ·

1 Parent(s): e320304

Update app.py

Browse files

Files changed (1) hide show

app.py +72 -3

app.py CHANGED Viewed

@@ -1,7 +1,76 @@
-from fastapi import FastAPI
 app = FastAPI()
 @app.get("/")
-def greet_json():
-    return {"Hello": "World!"}

+import os
+import io
+import subprocess
+from fastapi import FastAPI, UploadFile, File
+from fastapi.middleware.cors import CORSMiddleware
+import torchaudio
+import torch
+from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
+# Use writable cache paths
+os.environ['TRANSFORMERS_CACHE'] = '/app/cache'
+os.environ['HF_HOME'] = '/app/cache'
+os.environ['TORCH_HOME'] = '/app/cache'
 app = FastAPI()
+# CORS config
+app.add_middleware(
+    CORSMiddleware,
+    allow_origins=["http://localhost:8080"],
+    allow_credentials=True,
+    allow_methods=["*"],
+    allow_headers=["*"],
+)
+# Load model + processor
+processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-960h")
+model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-960h")
+def convert_webm_to_wav(webm_bytes: bytes) -> io.BytesIO:
+    process = subprocess.run(
+        ["ffmpeg", "-i", "pipe:0", "-f", "wav", "pipe:1"],
+        input=webm_bytes,
+        stdout=subprocess.PIPE,
+        stderr=subprocess.PIPE  # Capture stderr now
+    )
+    if process.returncode != 0:
+        print("❌ ffmpeg error:", process.stderr.decode())
+        raise RuntimeError("ffmpeg conversion failed")
+    return io.BytesIO(process.stdout)
+@app.post("/api/transcribe")
+async def transcribe(audio: UploadFile = File(...)):
+    # Read uploaded file
+    contents = await audio.read()
+    # Convert webm to wav in-memory
+    wav_io = convert_webm_to_wav(contents)
+    # Load into torch tensor
+    waveform, sample_rate = torchaudio.load(wav_io)
+    # Resample if needed
+    if sample_rate != 16000:
+        waveform = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)(waveform)
+        sample_rate = 16000
+    # Run through model
+    input_values = processor(waveform.squeeze(), sampling_rate=sample_rate, return_tensors="pt").input_values
+    with torch.no_grad():
+        logits = model(input_values).logits
+    predicted_ids = torch.argmax(logits, dim=-1)
+    # Decode to text
+    transcription = processor.decode(predicted_ids[0])
+    return {"phonemes": transcription}
 @app.get("/")
+def root():
+    return {"message": "Backend is running"}