Spaces:

juzer09
/

ai-music-detection

Sleeping

App Files Files Community

juzer09 commited on 27 days ago

Commit

6af9be3

verified ·

1 Parent(s): 2446566

Upload 2 files

Browse files

Files changed (2) hide show

app.py +21 -4
requirements.txt +8 -7

app.py CHANGED Viewed

@@ -13,7 +13,8 @@ from fastapi import FastAPI, HTTPException, BackgroundTasks, Header, Depends
 from fastapi.security import HTTPBearer, HTTPAuthorizationCredentials
 from pydantic import BaseModel, HttpUrl
 import torch
-import librosa
 import tempfile
 import requests
 from pathlib import Path
@@ -23,6 +24,7 @@ import uvicorn
 import asyncio
 from contextlib import asynccontextmanager
 import socket
 # Global model variable
 model = None
@@ -209,14 +211,29 @@ def classify_audio(file_path: str) -> dict:
         if file_size == 0:
             raise ValueError("Audio file is empty")
-        # Load audio (model uses 16kHz sample rate)
-        print("🔊 Loading audio with librosa...")
-        audio, sr = librosa.load(file_path, sr=16000)
         print(f"🎼 Audio loaded: {len(audio)} samples at {sr}Hz, duration: {len(audio)/sr:.2f}s")
         if len(audio) == 0:
             raise ValueError("Audio file contains no audio data")
         # Convert to tensor and add batch dimension
         print("🧮 Converting to tensor...")
         audio_tensor = torch.FloatTensor(audio).unsqueeze(0)

 from fastapi.security import HTTPBearer, HTTPAuthorizationCredentials
 from pydantic import BaseModel, HttpUrl
 import torch
+import soundfile as sf
+import scipy.signal
 import tempfile
 import requests
 from pathlib import Path
 import asyncio
 from contextlib import asynccontextmanager
 import socket
+import numpy as np
 # Global model variable
 model = None
         if file_size == 0:
             raise ValueError("Audio file is empty")
+        # Load audio with soundfile
+        print("🔊 Loading audio with soundfile...")
+        audio, sr = sf.read(file_path)
         print(f"🎼 Audio loaded: {len(audio)} samples at {sr}Hz, duration: {len(audio)/sr:.2f}s")
         if len(audio) == 0:
             raise ValueError("Audio file contains no audio data")
+        # Convert to mono if stereo
+        if audio.ndim > 1:
+            print("🔀 Converting stereo to mono...")
+            audio = np.mean(audio, axis=1)
+        # Resample to 16kHz if needed (model requirement)
+        target_sr = 16000
+        if sr != target_sr:
+            print(f"🔄 Resampling from {sr}Hz to {target_sr}Hz...")
+            # Calculate the number of samples after resampling
+            num_samples = int(len(audio) * target_sr / sr)
+            audio = scipy.signal.resample(audio, num_samples)
+            sr = target_sr
+            print(f"✅ Resampled: {len(audio)} samples at {sr}Hz")
         # Convert to tensor and add batch dimension
         print("🧮 Converting to tensor...")
         audio_tensor = torch.FloatTensor(audio).unsqueeze(0)

requirements.txt CHANGED Viewed

@@ -1,8 +1,9 @@
-fastapi==0.104.1
-uvicorn==0.24.0
-streamlit>=1.28.0
-torch>=2.0.0
-librosa>=0.9.0
-requests>=2.25.0
-pydantic>=2.0.0
 git+https://github.com/awsaf49/sonics.git

+fastapi==0.104.1
+uvicorn==0.24.0
+streamlit>=1.28.0
+torch>=2.0.0
+soundfile>=0.12.1
+scipy>=1.9.0
+requests>=2.25.0
+pydantic>=2.0.0
 git+https://github.com/awsaf49/sonics.git