talk-to-ultravox

Paused

freddyaboulton HF staff commited on Nov 15, 2024

Commit

b2051b3

1 Parent(s): 7f9d568

add code

Files changed (1) hide show

app.py CHANGED Viewed

@@ -4,9 +4,12 @@ import transformers
 import numpy as np
 from twilio.rest import Client
 import os
-pipe = transformers.pipeline(model='fixie-ai/ultravox-v0_4_1-llama-3_1-8b', trust_remote_code=True)
 account_sid = os.environ.get("TWILIO_ACCOUNT_SID")
@@ -27,10 +30,13 @@ else:
 def transcribe(audio: tuple[int, np.ndarray], conversation: list[dict], gradio_convo: list[dict]):
-    output = pipe({"audio": audio[1], "turns": conversation, "sampling_rate": audio[0]},
-                  max_new_tokens=512,
-                  device=0)
     print("output", output)
     conversation.append({"role": "user", "content": output["transcription"]})

 import numpy as np
 from twilio.rest import Client
 import os
+import torch
+import librosa
+pipe = transformers.pipeline(model='fixie-ai/ultravox-v0_4_1-llama-3_1-8b', trust_remote_code=True,
+                             device=torch.device('cuda'))
 account_sid = os.environ.get("TWILIO_ACCOUNT_SID")
 def transcribe(audio: tuple[int, np.ndarray], conversation: list[dict], gradio_convo: list[dict]):
+    original_sr = audio[0]
+    target_sr = 16000
+    audio_sr = librosa.resample(audio[1], orig_sr=original_sr, target_sr=target_sr)
+    output = pipe({"audio": audio_sr, "turns": conversation, "sampling_rate": target_sr},
+                  max_new_tokens=512)
     print("output", output)
     conversation.append({"role": "user", "content": output["transcription"]})