Spaces:

moonshotai
/

Kimi-Dev-72B

Running on L40S

miaoyibo commited on 8 days ago

Commit

1d5f555

1 Parent(s): a7f820f

a

Files changed (2) hide show

kimi_dev/serve/inference.py CHANGED Viewed

@@ -5,7 +5,6 @@ from transformers import (
     AutoConfig,
     AutoTokenizer
 )
-import tensor_parallel as tp
 logger = logging.getLogger(__name__)
@@ -21,8 +20,6 @@ def load_model(model_path: str = "moonshotai/Kimi-Dev-72B"):
         device_map="auto",
         trust_remote_code=True,
     )
-    model = tp.tensor_parallel(model, ["cuda:0", "cuda:1", "cuda:2", "cuda:3"])  # <- each GPU has half the weights
     tokenizer = AutoTokenizer.from_pretrained(model_path)

     AutoConfig,
     AutoTokenizer
 )
 logger = logging.getLogger(__name__)
         device_map="auto",
         trust_remote_code=True,
     )
     tokenizer = AutoTokenizer.from_pretrained(model_path)

requirements.txt CHANGED Viewed

@@ -17,5 +17,4 @@ tqdm
 colorama
 Pygments
 markdown
-SentencePiece
-tensor_parallel

 colorama
 Pygments
 markdown
+SentencePiece