rest

Sleeping

tahsinhasem commited on 8 days ago

Commit

19e6be5

verified ·

1 Parent(s): ed23f7d

Add token

Files changed (1) hide show

main.py CHANGED Viewed

@@ -4,23 +4,26 @@ from huggingface_hub import InferenceClient
 import uvicorn
 from transformers import pipeline
 from transformers import AutoTokenizer, AutoModelForCausalLM
 #Load pre-trained tokenizer and model (Works)
 model_name = "mistralai/Mistral-7B-Instruct-v0.1"
-tokenizer = AutoTokenizer.from_pretrained(model_name)
 tokenizer.pad_token = tokenizer.eos_token
 model = AutoModelForCausalLM.from_pretrained(
     model_name,
     device_map="auto",
-    torch_dtype="auto"
 )
 # Example usage: Generate text
 prompt = "<s>[INST] What's the capital of France? [/INST]"
-inputs = tokenizer(prompt, return_tensors="pt", padding=True, return_attention_mask=True, ).to(model.device)
 outputs = model.generate(
     **inputs,
     max_new_tokens=100,
@@ -60,7 +63,7 @@ async def generate_text(item: Item):
     # logging.info("Response generated")
     inp =f"<s>[INST] {item.prompt} [/INST]"
-    inputs = tokenizer(inp, return_tensors="pt", padding=True, return_attention_mask=True, ).to(model.device)
     # input_ids = tokenizer.encode(item.prompt, return_tensors="pt")

 import uvicorn
 from transformers import pipeline
 from transformers import AutoTokenizer, AutoModelForCausalLM
+import os
+token = os.getenv("HUGGINGFACE_TOKEN")
 #Load pre-trained tokenizer and model (Works)
 model_name = "mistralai/Mistral-7B-Instruct-v0.1"
+tokenizer = AutoTokenizer.from_pretrained(model_name, use_auth_token=token)
 tokenizer.pad_token = tokenizer.eos_token
 model = AutoModelForCausalLM.from_pretrained(
     model_name,
     device_map="auto",
+    torch_dtype="auto",
+    use_auth_token=token
 )
 # Example usage: Generate text
 prompt = "<s>[INST] What's the capital of France? [/INST]"
+inputs = tokenizer(prompt, return_tensors="pt", padding=True, return_attention_mask=True ).to(model.device)
 outputs = model.generate(
     **inputs,
     max_new_tokens=100,
     # logging.info("Response generated")
     inp =f"<s>[INST] {item.prompt} [/INST]"
+    inputs = tokenizer(inp, return_tensors="pt", padding=True, return_attention_mask=True ).to(model.device)
     # input_ids = tokenizer.encode(item.prompt, return_tensors="pt")