saiga-api-cuda-v2-b13

Paused

muryshev commited on Dec 9, 2023

Commit

77d95ba

1 Parent(s): ad9c449

Update llm_backend.py

Files changed (1) hide show

llm_backend.py CHANGED Viewed

@@ -34,14 +34,13 @@ class LlmBackend:
     def is_model_loaded(self):
         return self._model is not None
-    def load_model(self, model_path, context_size=2000, enable_gpu=True, gpu_layer_number=35, n_gqa=8, chat_format='llama-2'):
         log.info('load_model - started')
         self._model_params = {}
         self._model_params['model_path'] = model_path
         self._model_params['context_size'] = context_size
         self._model_params['enable_gpu'] = enable_gpu
         self._model_params['gpu_layer_number'] = gpu_layer_number
-        self._model_params['n_gqa'] = n_gqa
         self._model_params['chat_format'] = chat_format
         if self._model is not None:
@@ -57,9 +56,8 @@ class LlmBackend:
                     #n_batch=100,
                     logits_all=True,
                     #n_threads=12,
-                    verbose=False,
-                    n_gpu_layers=gpu_layer_number,
-                    n_gqa=n_gqa       #must be set for 70b models
                 )
                 log.info('load_model - finished')
                 return self._model
@@ -72,8 +70,7 @@ class LlmBackend:
                     #n_batch=100,
                     logits_all=True,
                     #n_threads=12,
-                    verbose=False,
-                    n_gqa=n_gqa       #must be set for 70b models
                 )
                 log.info('load_model - finished')
                 return self._model

     def is_model_loaded(self):
         return self._model is not None
+    def load_model(self, model_path, context_size=2000, enable_gpu=True, gpu_layer_number=35, chat_format='llama-2'):
         log.info('load_model - started')
         self._model_params = {}
         self._model_params['model_path'] = model_path
         self._model_params['context_size'] = context_size
         self._model_params['enable_gpu'] = enable_gpu
         self._model_params['gpu_layer_number'] = gpu_layer_number
         self._model_params['chat_format'] = chat_format
         if self._model is not None:
                     #n_batch=100,
                     logits_all=True,
                     #n_threads=12,
+                    verbose=True,
+                    n_gpu_layers=gpu_layer_number
                 )
                 log.info('load_model - finished')
                 return self._model
                     #n_batch=100,
                     logits_all=True,
                     #n_threads=12,
+                    verbose=True
                 )
                 log.info('load_model - finished')
                 return self._model