mict-zhaw
/

chall_wav2vec2_xlsr_300m

Automatic Speech Recognition

Transformers

PyTorch

English

wav2vec2

Model card Files Files and versions Community

mict-zhaw commited on May 28, 2024

Commit

1b0dfa6

1 Parent(s): 791642a

Remove handler.py

Browse files

Files changed (1) hide show

handler.py +0 -103

handler.py DELETED Viewed

@@ -1,103 +0,0 @@
-from typing import Dict, List, Any
-import torch
-from pyctcdecode import build_ctcdecoder
-from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor, Wav2Vec2Tokenizer, Wav2Vec2ProcessorWithLM, Wav2Vec2FeatureExtractor, Wav2Vec2CTCTokenizer
-from transformers import pipeline
-class EndpointHandler:
-    def __init__(self, path=""):
-        print("init")
-        self.pipeline = pipeline("automatic-speech-recognition", model=path)
-        # Preload all the elements you are going to need at inference.
-        self.model = Wav2Vec2ForCTC.from_pretrained(path)
-        self.model.to("cuda" if torch.cuda.is_available() else "cpu")
-        print(self.model)
-        print("Wav2Vec2Tokenizer")
-        # self.processor = Wav2Vec2Processor.from_pretrained(os.path.join(path, "pytorch_model.bin"))
-        self.tokenizer = Wav2Vec2CTCTokenizer.from_pretrained(path)
-        print(self.tokenizer)
-        print("Wav2Vec2FeatureExtractor")
-        self.feature_extractor = Wav2Vec2FeatureExtractor(
-            feature_size=1,
-            sampling_rate=16000,
-            padding_value=0.0,
-            do_normalize=True,
-            return_attention_mask=True
-        )
-        print(self.feature_extractor)
-        vocab_dict = self.tokenizer.get_vocab()
-        sorted_dict = {k: v for k, v in sorted(vocab_dict.items(), key=lambda item: item[1])}
-        sorted_dict_keys = list(sorted_dict.keys())
-        self.vocab = sorted_dict
-        print("Vocabulary", self.vocab)
-        language_model_decoder = build_ctcdecoder(
-            labels=sorted_dict_keys,
-            alpha=0.5,
-            beta=1.5
-        )
-        # beam size?
-        self.processor = Wav2Vec2ProcessorWithLM(
-            tokenizer=self.tokenizer,
-            feature_extractor=self.feature_extractor,
-            decoder=language_model_decoder
-        )
-    def __call__(self, inputs: Dict[str, Any]) -> List[Dict[str, Any]]:
-        """
-        data args:
-            inputs (:obj: `str` | `PIL.Image` | `np.array`)
-            kwargs
-        Return:
-            A :obj:`list` | `dict`: will be serialized and returned
-        """
-        print("inputs")
-        print(inputs)
-        if "audio_file_path" in inputs.keys():
-            audio_file_path = inputs.pop("audio_file_path")
-            prediction = self.pipeline(audio_file_path)
-        return prediction
-        if "audio" in inputs.keys():
-            audio_input = inputs.pop("audio")
-            sample_rate = inputs.pop("sampling_rate", 16000)
-            inputs = self.processor(audio_input, sampling_rate=sample_rate, return_tensors="pt", padding=True)
-        device = "cuda" if torch.cuda.is_available() else "cpu"
-        inputs = {key: value.to(device) for key, value in inputs.items()}
-        print(inputs)
-        print(r)
-        # Perform inference
-        with torch.no_grad():
-            logits = self.model(inputs["input_values"][0]).logits
-        # predicted_ids = torch.argmax(logits, dim=-1)
-        transcription = self.processor.batch_decode(logits.cpu().numpy()).text
-        return {"prediction": transcription[0]}
-    def postprocess(self, inference_output):
-        pass