neuphonic
/

neucodec

speech-language-models

Model card Files Files and versions Community

harryjulian commited on Aug 6

Commit

155ed89

·

verified ·

1 Parent(s): 622e1b9

Update README.md

Files changed (1) hide show

README.md +11 -11

README.md CHANGED Viewed

@@ -79,25 +79,25 @@ pip install neucodec
 Then, to use in python:
 ```python
 import torch
-import soundfile as sf
-from transformers import AutoConfig
 from neucodec import NeuCodec
-model_path = "Neuphonic/neucodec"
-model = NeuCodec.from_pretrained(model_path)
 model.eval().cuda()
-wav, sr = sf.read("test.wav")
-wav_tensor = torch.from_numpy(wav).float().unsqueeze(0)  # Shape: (1, T)
 with torch.no_grad():
-    vq_code = model.encode_code(input_waveform=wav_tensor)
-    print("Codes: ", vq_code)
-    recon_wav = model.decode_code(vq_code).cpu()       # Shape: (1, 1, T')
 sf.write("reconstructed.wav", recon_wav[0, 0, :].numpy(), sr)
 ```

 Then, to use in python:
 ```python
+import librosa
 import torch
+import torchaudio
+from torchaudio import transforms as T
 from neucodec import NeuCodec
+model = NeuCodec.from_pretrained("neuphonic/neucodec")
 model.eval().cuda()
+y, sr = torchaudio.load(librosa.ex("libri1"))
+if sr != 16_000:
+    y = T.Resample(sr, 16_000)(y)[None, ...] # (B, 1, T_16)
 with torch.no_grad():
+    fsq_codes = model.encode_code(y)
+    # fsq_codes = model.encode_code(librosa.ex("libri1")) # or directly pass your filepath!
+    print(f"Codes shape: {fsq_codes.shape}")
+    recon = model.decode_code(fsq_codes).cpu() # (B, 1, T_24)
 sf.write("reconstructed.wav", recon_wav[0, 0, :].numpy(), sr)
 ```