Spaces:

SunDay-s
/

NelzGPT-A1

Runtime error

App Files Files Community

SunDay-s commited on Jan 12

Commit

50eac17

verified ·

1 Parent(s): 516b2a7

Update app.py

Browse files

Files changed (1) hide show

app.py +18 -7

app.py CHANGED Viewed

@@ -2,11 +2,15 @@ import gradio as gr
 from transformers import AutoModelForCausalLM, AutoTokenizer
 import torch
-# Загрузка модели и токенизатора с фиксированной ревизией
 model_name = "deepseek-ai/DeepSeek-V3"
-revision = "main"  # Замените на конкретную ревизию
-tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True, revision=revision)
-model = AutoModelForCausalLM.from_pretrained(model_name, trust_remote_code=True, revision=revision)
 # Системное сообщение
 system_message = (
@@ -20,11 +24,18 @@ def chat_with_model(message, history):
     full_prompt = f"{system_message}\n\nПользователь: {message}\nАссистент:"
     # Подготовка входных данных для модели
-    inputs = tokenizer(full_prompt, return_tensors="pt")
-    # Генерация ответа
     with torch.no_grad():
-        outputs = model.generate(**inputs, max_length=200, num_return_sequences=1)
     # Декодирование ответа
     response = tokenizer.decode(outputs[0], skip_special_tokens=True)

 from transformers import AutoModelForCausalLM, AutoTokenizer
 import torch
+# Загрузка модели и токенизатора с учетом FP8 и пользовательского кода
 model_name = "deepseek-ai/DeepSeek-V3"
+tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
+model = AutoModelForCausalLM.from_pretrained(
+    model_name,
+    trust_remote_code=True,
+    torch_dtype=torch.float8_e4m3fn,  # Используем FP8 для совместимости
+    device_map="auto"  # Автоматическое распределение по доступным GPU
+)
 # Системное сообщение
 system_message = (
     full_prompt = f"{system_message}\n\nПользователь: {message}\nАссистент:"
     # Подготовка входных данных для модели
+    inputs = tokenizer(full_prompt, return_tensors="pt").to(model.device)
+    # Генерация ответа с использованием Multi-Token Prediction (MTP)
     with torch.no_grad():
+        outputs = model.generate(
+            **inputs,
+            max_length=200,  # Максимальная длина ответа
+            num_return_sequences=1,  # Один ответ
+            temperature=0.7,  # Контроль креативности
+            top_p=0.9,  # Контроль разнообразия
+            do_sample=True  # Включение сэмплирования
+        )
     # Декодирование ответа
     response = tokenizer.decode(outputs[0], skip_special_tokens=True)