from typing import Dict, List, Any
from transformers import WhisperForConditionalGeneration, pipeline
from peft import LoraConfig, PeftModel, LoraModel, LoraConfig, get_peft_model, PeftConfig

class EndpointHandler():
    def __init__(self, path=""):
        # Preload all the elements you are going to need at inference.
        peft_config = PeftConfig.from_pretrained(path)
        self.model= WhisperForConditionalGeneration.from_pretrained(
            peft_config.base_model_name_or_path
        )
        self.model = PeftModel.from_pretrained(self.model, peft_model_id)
        self.pipeline = pipeline(task= "automatic-speech-recognition", model=self.model)
        self.pipeline.model.config.forced_decoder_ids = self.pipeline.tokenizer.get_decoder_prompt_ids(language="Chinese", task="transcribe")
        self.pipeline.model.generation_config.forced_decoder_ids = self.pipeline.model.config.forced_decoder_ids

    def __call__(self, data: Dict[str, Any]) -> List[Dict[str, Any]]:
        """
       data args:
            inputs (:obj: `str` | `PIL.Image` | `np.array`)
            kwargs
      Return:
            A :obj:`list` | `dict`: will be serialized and returned
        """

        inputs = data.pop("inputs",data)
        prediction = self.pipeline(inputs, return_timestamps=False)
        return prediction