На базе какой GPT-модели сделана YandexGPT?

#8
by theOnlyBoy - opened

Здравствуйте.
Собственно, вопрос в заголовке темы: на базе какой GPT-модели сделана YandexGPT?
Спасибо.

Yandex org

Добрый день! У YandexGPT-5-Lite-8B-pretrain архитектура, похожая на llama и qwen, но она обучалась полностью с нуля. Подробности есть в нашей статье на Хабре: https://habr.com/en/companies/yandex/articles/885218

Спасибо за ссылку.
Возможно, модель заговаривает зубы, но на любой вопрос касательно происхождения многократно повторяет одно и то же: она — ChatGPT 2022 года от OpenAI.

IMG_0208.jpeg

Любые упоминания про Яндекс отрицает.

В этом репозитории мы выложили pretrain модель. Pretrain модели не обучены быть ассистентами, они просто обучены продолжать текст. Если в интернете было много примеров ответов ChatGPT, то модель могла просто запомнить эту последовательность слов. Это особенность всех Pretrain моделей, не только нашей. Можно попробовать наши instruct модели тут alice.yandex.ru – они смогут ответить на твой вопрос :)

По конфигу тип модели "model_type": "llama". Судя по документации это версия 3.1, только почему то в лицензии даже нет упоминания, что она создана с помощью Llama 3.

Yandex org

"model_type": "llama" написано в конфиге, чтобы HF использовал соответствующий код в transformers для forward/backward шага модели. Наша модель использует llama-like архитектуру, это не означает что она была создана с помощью Llama3 или Llama2

Ммм... х%$та...
Qwen2.5 instruct и то лучше справляется с вопросами на логику. Банально подсчитать сколько в слове букв. Пока полная хрень, лучше уж зафайтюнить qwen или llama на ответах gpt, cloude и giga.

По словам разработчиков, они работают над "instruct" моделью, и выложенная не поддерживает reasoning, не содержит чат-шаблонов.
Как-то грубовато необоснованно вы в паблик такой выпад, считаю...

Ммм... х%$та...
Qwen2.5 instruct и то лучше справляется с вопросами на логику. Банально подсчитать сколько в слове букв. Пока полная хрень, лучше уж зафайтюнить qwen или llama на ответах gpt, cloude и giga.

Чувак снизь ожидания немного. Это даже не instruct. Я понимаю что мы все бы хотели что бы Яндекс сейчас дропнул AGI размером в 8B но как бы да. Файн тюнов квена и ламы в инете куча, а эта была обучена с нуля, что само по себе очень круто

"model_type": "llama" написано в конфиге, чтобы HF использовал соответствующий код в transformers для forward/backward шага модели. Наша модель использует llama-like архитектуру, это не означает что она была создана с помощью Llama3 или Llama2

В чем отличие архитектур? llama.cpp эту модель без проблем съела.

Yandex org

Компоненты трансформера можно сравнить в конфиге модели config.json. Наша архитектура похожа на архитектуру llama2, llama3, qwen и прочих моделей, поэтому она без проблем может быть использована в разных фреймворках типа llama.cpp

Спасибо , отличная модель

Ммм... х%$та...
Qwen2.5 instruct и то лучше справляется с вопросами на логику. Банально подсчитать сколько в слове букв. Пока полная хрень, лучше уж зафайтюнить qwen или llama на ответах gpt, cloude и giga.

Чувак снизь ожидания немного. Это даже не instruct. Я понимаю что мы все бы хотели что бы Яндекс сейчас дропнул AGI размером в 8B но как бы да. Файн тюнов квена и ламы в инете куча, а эта была обучена с нуля, что само по себе очень круто

Есть большие сомнения что модель была обучена "с нуля". Обычная тюненая LAMA 8b подаваемая как что-то необыкновенное.
Ждём тюненого DeepSeek и Qwen )) а хотелось бы увидеть реально Русскую модель с собственной архитектурой.

Прочитал....Хабр https://habr.com/ru/companies/yandex/articles/885218/
Qwen-2.5-32B-base - это и есть YandexGPT 5 Pro :) Расходимся....

Прочитал....Хабр https://habr.com/ru/companies/yandex/articles/885218/
Qwen-2.5-32B-base - это и есть YandexGPT 5 Pro :) Расходимся....

Pro и Lite (pretrain) — это две разные модели.
Обучение Pro инициализировано весами Квена. При обучении Лайта никакие веса никаких других сторонних моделей не использовались.
В статье об этом подробнее написано.

Прочитал....Хабр https://habr.com/ru/companies/yandex/articles/885218/
Qwen-2.5-32B-base - это и есть YandexGPT 5 Pro :) Расходимся....

Pro и Lite (pretrain) — это две разные модели.
Обучение Pro инициализировано весами Квена. При обучении Лайта никакие веса никаких других сторонних моделей не использовались.
В статье об этом подробнее написано.
Можете продемонстрировать эту "чистую версию" и выложить в открытый доступ? Она же не представляет никакой интеллектуальной ценности, верно?
И потом сослаться на неё как на базовую, отправную точку? )
Я не хейтор, за державу обидно. Сам "сижу" на Мистрале 7B и жалею что "Мы" Русские не можем выкатить "свою" архитектуру.

Если вам не сложно, поделитесь с сообществом моделью из первого этапа обучения, моделью со "случайными весами" о которой вы пишете в статье.

Если вам не сложно, поделитесь с сообществом моделью из первого этапа обучения, моделью со "случайными весами" о которой вы пишете в статье.

Если они честно сказали что Pro (которая по идее лучше Lite) была инициализирована весами Qwen, то в чем им смысл скрывать или врать о том что Lite был обучен с нуля? Ты же понимаешь что они могут сейчас просто создать тебе за часик модель которую ты просишь со случайными весами и типа "доказать"?

Да, вы правы можно взять LLMA пробежаться hex editor ом по весам и выкатить как отправную модель. Я пробовал нопать Unet в своей SD2.1 что-бы избавиться от исходных данных, и ничего хорошего не получилось! Возможно не хватило терпения и ресурсов... Ну Где я, а где Яндекс )))
Обычно принято выкладывать отправную модель или ссылаться на исходники с подробным описанием процесса обучения.
НЕ ХОТЕЛ НИКОГО ОБИЖАТЬ! Просто неудачный день был... :(
Обязательно скачаю на выходных "YandexGPT-5-Lite-8B-pretrain" и сравню со своим любимым 7B. Я умею задавать каверзные вопросы на высоких температурах )))

Ну что могу сказать, на первый взгляд модель НЕплохая, много знает, логически рассуждает... Не умеет складывать и вычитать десятичные дроби. (Умножать и делить соответственно :))
А, ну и это... на скриншоте. Развлекает меня)
Снимок экрана 2025-03-07 235905.png

Sign up or log in to comment