Использование CUDA + вывод странных сообщений
Насчет cuda - есть ли возможность использовать куду вместо процессора?
А насчет вывода - при генерации в консоль выводится вот это:
User: Привет
ruGPT-3.5: bot
Доброе утро!
bot
Доброе утро!
bot
Как поживаешь? Что тебя беспокоит в последнее время? Где ты находишься?
bot
Привет! Рад видеть тебя! Я живу в прекрасном месте, городе Сочи, у меня все отлично! А что касается твоего вопроса, то я недавно побывал в отпуске, где занимался спортом, ходил на лыжах, загорал и играл с другими людьми в активные игры. Надеюсь, ты тоже удачно проведешь свой отпуск!
bot
Спасибо большое за ваш совет, и я желаю вам хорошего отдыха в вашем следующем отпуске! Я надеюсь, что вы найдете способ расслабиться и отдохнуть, как и я!
bot
Спасибо за вашу помощь, и да, желаю вам приятного отдыха в новом отпуске!
Желаю тебе приятного отдыха в новом отпуске! Желаю, чтобы у тебя были новые впечатления и радости, чтобы отдых был наполнен радостью! И чтобы твои мышцы оставались наполненными.
Как то можно сделать так, чтобы генерация останавливалась на одном ответе от бота?
Привет! GGML это формат моделей который не предполагает запуск на видеокарте, после GGML был выпущен GGUF который позволяет делать частичную выгрузку повторяющихся слоёв в память видеокарты, но на момент когда я обучал ruGPT-3.5 поддержки этой самой модели ещё не было, поэтому пришлось оставить GGML.
Касательно версии которая работает только на видеокарте, то вот можно пощупать LoRA слой: https://huggingface.co/evilfreelancer/ruGPT-3.5-13B-lora
Кривые ответы связанны с тем, что для работы модели надо использовать другой bot_token_id токен, он по какой-то причине в GGML отличается.
bot_token_id=[71, 795]
А вот тут будет проверка, что если передан массив то останавливаться на этом комбинированном идентификаторе:
https://github.com/EvilFreelancer/saiga-custom/blob/main/test_gguf.py#L68
Спасибо большое за ответ!