openpecha
/

speecht5-tts-01

Model card Files Files and versions Community

TenzinGayche commited on Sep 28, 2023

Commit

61bebd5

·

1 Parent(s): b75453d

Update handler.py

Files changed (1) hide show

handler.py +2 -13

handler.py CHANGED Viewed

@@ -9,15 +9,6 @@ from num2tib.core import convert
 from num2tib.core import convert2text
 import re
 converter = pyewts.pyewts()
-import requests
-def download_file(url, destination):
-    response = requests.get(url)
-    with open(destination, 'wb') as file:
-        file.write(response.content)
-# Example usage:
-download_file('https://huggingface.co/openpecha/speecht5-tts-01/resolve/main/female_2.npy', 'female_2.npy')
 def replace_numbers_with_convert(sentence, wylie=True):
     pattern = r'\d+(\.\d+)?'
     def replace(match):
@@ -36,7 +27,6 @@ speaker_embeddings = {
 }
 replacements = [
     ('_', '_'),
     ('*', 'v'),
@@ -71,10 +61,9 @@ class EndpointHandler():
         Returns:
             bytes: _description_
         """
         # process input
-        text = data.get("inputs", None)
         if len(text.strip()) == 0:
             return (16000, np.zeros(0).astype(np.int16))
@@ -87,6 +76,6 @@ class EndpointHandler():
         input_ids = input_ids[..., :self.model.config.max_text_positions]
         speaker_embedding = np.load(speaker_embeddings['Lhasa(female)'])
         speaker_embedding = torch.tensor(speaker_embedding)
-        speech = self.model.generate_speech(input_ids.to('cuda'), speaker_embedding.to('cuda'), vocoder=vocoder.to('cuda'))
         speech = nr.reduce_noise(y=speech.to('cpu'), sr=16000)
         return speech.tobytes()

 from num2tib.core import convert2text
 import re
 converter = pyewts.pyewts()
 def replace_numbers_with_convert(sentence, wylie=True):
     pattern = r'\d+(\.\d+)?'
     def replace(match):
 }
 replacements = [
     ('_', '_'),
     ('*', 'v'),
         Returns:
             bytes: _description_
         """
+        text = data.pop("inputs",data)
         # process input
         if len(text.strip()) == 0:
             return (16000, np.zeros(0).astype(np.int16))
         input_ids = input_ids[..., :self.model.config.max_text_positions]
         speaker_embedding = np.load(speaker_embeddings['Lhasa(female)'])
         speaker_embedding = torch.tensor(speaker_embedding)
+        speech = self.model.generate_speech(input_ids.to('cuda'), speaker_embedding.to('cuda'), vocoder=self.vocoder.to('cuda'))
         speech = nr.reduce_noise(y=speech.to('cpu'), sr=16000)
         return speech.tobytes()