jsbeaudry
/

sesame-creole-tts

text-generation-inference

Model card Files Files and versions

jsbeaudry commited on Jul 3

Commit

7283d38

·

verified ·

1 Parent(s): f908e68

Update handler.py

Files changed (1) hide show

handler.py +10 -9

handler.py CHANGED Viewed

@@ -10,25 +10,26 @@ class EndpointHandler:
         self.model = CsmForConditionalGeneration.from_pretrained(model_path, device_map=device)
     def __call__(self, data: dict) -> dict:
         # Extract input values
-        text = data.get("text")
         if not text:
-            return {"error": "Missing 'text' parameter in request."}
-        speaker_id = data.get("speaker_id", 0)  # Optional speaker ID
-        sampling_rate = data.get("sampling_rate", 24000)
-        # Inject speaker ID token into input
         input_text = f"[{speaker_id}]{text}"
-        # Tokenize input
         inputs = self.processor(input_text, add_special_tokens=True).to(self.device)
-        # Generate audio
         output = self.model.generate(**inputs, output_audio=True)
         audio_tensor = output[0].to(torch.float32).cpu().numpy()
-        # Convert audio to base64 WAV
         import io, base64
         buffer = io.BytesIO()
         sf.write(buffer, audio_tensor, sampling_rate, format="WAV")

         self.model = CsmForConditionalGeneration.from_pretrained(model_path, device_map=device)
     def __call__(self, data: dict) -> dict:
+        # Get nested input dict
+        input_data = data.get("inputs", {})
         # Extract input values
+        text = input_data.get("text")
         if not text:
+            return {"error": "Missing 'text' parameter inside 'inputs'."}
+        speaker_id = input_data.get("speaker_id", 0)
+        sampling_rate = input_data.get("sampling_rate", 24000)
+        # Format input text with speaker token
         input_text = f"[{speaker_id}]{text}"
+        # Tokenize and generate
         inputs = self.processor(input_text, add_special_tokens=True).to(self.device)
         output = self.model.generate(**inputs, output_audio=True)
         audio_tensor = output[0].to(torch.float32).cpu().numpy()
+        # Encode audio to base64 WAV
         import io, base64
         buffer = io.BytesIO()
         sf.write(buffer, audio_tensor, sampling_rate, format="WAV")