На базе какой GPT-модели сделана YandexGPT?
Здравствуйте.
Собственно, вопрос в заголовке темы: на базе какой GPT-модели сделана YandexGPT?
Спасибо.
Добрый день! У YandexGPT-5-Lite-8B-pretrain
архитектура, похожая на llama и qwen, но она обучалась полностью с нуля. Подробности есть в нашей статье на Хабре: https://habr.com/en/companies/yandex/articles/885218
В этом репозитории мы выложили pretrain модель. Pretrain модели не обучены быть ассистентами, они просто обучены продолжать текст. Если в интернете было много примеров ответов ChatGPT, то модель могла просто запомнить эту последовательность слов. Это особенность всех Pretrain моделей, не только нашей. Можно попробовать наши instruct модели тут alice.yandex.ru – они смогут ответить на твой вопрос :)
По конфигу тип модели "model_type": "llama". Судя по документации это версия 3.1, только почему то в лицензии даже нет упоминания, что она создана с помощью Llama 3.
"model_type": "llama"
написано в конфиге, чтобы HF использовал соответствующий код в transformers для forward/backward шага модели. Наша модель использует llama-like архитектуру, это не означает что она была создана с помощью Llama3 или Llama2
Ммм... х%$та...
Qwen2.5 instruct и то лучше справляется с вопросами на логику. Банально подсчитать сколько в слове букв. Пока полная хрень, лучше уж зафайтюнить qwen или llama на ответах gpt, cloude и giga.
По словам разработчиков, они работают над "instruct" моделью, и выложенная не поддерживает reasoning, не содержит чат-шаблонов.
Как-то грубовато необоснованно вы в паблик такой выпад, считаю...
Ммм... х%$та...
Qwen2.5 instruct и то лучше справляется с вопросами на логику. Банально подсчитать сколько в слове букв. Пока полная хрень, лучше уж зафайтюнить qwen или llama на ответах gpt, cloude и giga.
Чувак снизь ожидания немного. Это даже не instruct. Я понимаю что мы все бы хотели что бы Яндекс сейчас дропнул AGI размером в 8B но как бы да. Файн тюнов квена и ламы в инете куча, а эта была обучена с нуля, что само по себе очень круто
"model_type": "llama"
написано в конфиге, чтобы HF использовал соответствующий код в transformers для forward/backward шага модели. Наша модель использует llama-like архитектуру, это не означает что она была создана с помощью Llama3 или Llama2
В чем отличие архитектур? llama.cpp эту модель без проблем съела.
Компоненты трансформера можно сравнить в конфиге модели config.json
. Наша архитектура похожа на архитектуру llama2, llama3, qwen и прочих моделей, поэтому она без проблем может быть использована в разных фреймворках типа llama.cpp
Спасибо , отличная модель
Ммм... х%$та...
Qwen2.5 instruct и то лучше справляется с вопросами на логику. Банально подсчитать сколько в слове букв. Пока полная хрень, лучше уж зафайтюнить qwen или llama на ответах gpt, cloude и giga.Чувак снизь ожидания немного. Это даже не instruct. Я понимаю что мы все бы хотели что бы Яндекс сейчас дропнул AGI размером в 8B но как бы да. Файн тюнов квена и ламы в инете куча, а эта была обучена с нуля, что само по себе очень круто
Есть большие сомнения что модель была обучена "с нуля". Обычная тюненая LAMA 8b подаваемая как что-то необыкновенное.
Ждём тюненого DeepSeek и Qwen )) а хотелось бы увидеть реально Русскую модель с собственной архитектурой.
Прочитал....Хабр https://habr.com/ru/companies/yandex/articles/885218/
Qwen-2.5-32B-base - это и есть YandexGPT 5 Pro :) Расходимся....
Прочитал....Хабр https://habr.com/ru/companies/yandex/articles/885218/
Qwen-2.5-32B-base - это и есть YandexGPT 5 Pro :) Расходимся....
Pro и Lite (pretrain) — это две разные модели.
Обучение Pro инициализировано весами Квена. При обучении Лайта никакие веса никаких других сторонних моделей не использовались.
В статье об этом подробнее написано.
Прочитал....Хабр https://habr.com/ru/companies/yandex/articles/885218/
Qwen-2.5-32B-base - это и есть YandexGPT 5 Pro :) Расходимся....Pro и Lite (pretrain) — это две разные модели.
Обучение Pro инициализировано весами Квена. При обучении Лайта никакие веса никаких других сторонних моделей не использовались.
В статье об этом подробнее написано.
Можете продемонстрировать эту "чистую версию" и выложить в открытый доступ? Она же не представляет никакой интеллектуальной ценности, верно?
И потом сослаться на неё как на базовую, отправную точку? )
Я не хейтор, за державу обидно. Сам "сижу" на Мистрале 7B и жалею что "Мы" Русские не можем выкатить "свою" архитектуру.
Если вам не сложно, поделитесь с сообществом моделью из первого этапа обучения, моделью со "случайными весами" о которой вы пишете в статье.
Если вам не сложно, поделитесь с сообществом моделью из первого этапа обучения, моделью со "случайными весами" о которой вы пишете в статье.
Если они честно сказали что Pro (которая по идее лучше Lite) была инициализирована весами Qwen, то в чем им смысл скрывать или врать о том что Lite был обучен с нуля? Ты же понимаешь что они могут сейчас просто создать тебе за часик модель которую ты просишь со случайными весами и типа "доказать"?
Да, вы правы можно взять LLMA пробежаться hex editor ом по весам и выкатить как отправную модель. Я пробовал нопать Unet в своей SD2.1 что-бы избавиться от исходных данных, и ничего хорошего не получилось! Возможно не хватило терпения и ресурсов... Ну Где я, а где Яндекс )))
Обычно принято выкладывать отправную модель или ссылаться на исходники с подробным описанием процесса обучения.
НЕ ХОТЕЛ НИКОГО ОБИЖАТЬ! Просто неудачный день был... :(
Обязательно скачаю на выходных "YandexGPT-5-Lite-8B-pretrain" и сравню со своим любимым 7B. Я умею задавать каверзные вопросы на высоких температурах )))