kajdun
/

iubaris-13b-v3_GPTQ

Text Generation

4-bit precision

Model card Files Files and versions

kajdun commited on Aug 24, 2023

Commit

9a254c2

·

1 Parent(s): a5a6053

Update handler.py

Files changed (1) hide show

handler.py +5 -3

handler.py CHANGED Viewed

@@ -2,9 +2,12 @@ from typing import  Dict, List, Any
 from transformers import AutoTokenizer
 from auto_gptq import AutoGPTQForCausalLM, BaseQuantizeConfig
 import torch
 # check for GPU
-#device = 0 if torch.cuda.is_available() else -1
 MAX_INPUT_TOKEN_LENGTH  = 4000
 MAX_MAX_NEW_TOKENS      = 2048
@@ -32,8 +35,7 @@ class EndpointHandler():
         if input_token_length > MAX_INPUT_TOKEN_LENGTH:
             return [{"generated_text": None, "error": f"input is too long ({input_token_length} > {MAX_INPUT_TOKEN_LENGTH})"}]
-        #input_ids = self.tokenizer(inputs, return_tensors="pt").to(self.model.device)
-        input_ids = self.tokenizer(inputs, return_tensors="pt").input_ids
         outputs = self.model.generate(**input_ids, **parameters)

 from transformers import AutoTokenizer
 from auto_gptq import AutoGPTQForCausalLM, BaseQuantizeConfig
 import torch
+from loguru import logger
 # check for GPU
+device = 0 if torch.cuda.is_available() else -1
+logger.info(f"cuda: {device}")
 MAX_INPUT_TOKEN_LENGTH  = 4000
 MAX_MAX_NEW_TOKENS      = 2048
         if input_token_length > MAX_INPUT_TOKEN_LENGTH:
             return [{"generated_text": None, "error": f"input is too long ({input_token_length} > {MAX_INPUT_TOKEN_LENGTH})"}]
+        input_ids = self.tokenizer(inputs, return_tensors="pt").to(self.model.device)
         outputs = self.model.generate(**input_ids, **parameters)