Spaces:

zzhang0317
/

Gemma-3-12B-Medical

Running on Zero

zzhang0317 commited on Apr 30

Commit

b42c1c6

verified ·

1 Parent(s): b8ab8be

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -157,11 +157,12 @@ def _launch_demo(args, model, processor):
     def call_local_model(model, processor, messages):
         messages = _transform_messages(messages)
         inputs = processor.apply_chat_template(messages, add_generation_prompt=True, tokenize=True,
-                    return_dict=True, return_tensors="pt").to(model.dtype, dtype=torch.bfloat16)
         tokenizer = processor.tokenizer
         streamer = TextIteratorStreamer(tokenizer, timeout=2000.0, skip_prompt=True, skip_special_tokens=True)
         gen_kwargs = {'max_new_tokens': 1024, "do_sample":True,"temperature": 0.5, "top_p": 0.95, "top_k":20, 'streamer': streamer, **inputs}
         with torch.inference_mode():
             thread = Thread(target=model.generate, kwargs=gen_kwargs)

     def call_local_model(model, processor, messages):
         messages = _transform_messages(messages)
+        print(model.device)
         inputs = processor.apply_chat_template(messages, add_generation_prompt=True, tokenize=True,
+                    return_dict=True, return_tensors="pt").to(model.device, dtype=torch.bfloat16)
         tokenizer = processor.tokenizer
         streamer = TextIteratorStreamer(tokenizer, timeout=2000.0, skip_prompt=True, skip_special_tokens=True)
+        print(model.device)
         gen_kwargs = {'max_new_tokens': 1024, "do_sample":True,"temperature": 0.5, "top_p": 0.95, "top_k":20, 'streamer': streamer, **inputs}
         with torch.inference_mode():
             thread = Thread(target=model.generate, kwargs=gen_kwargs)