Russian Jokes Generator

Описание задания

В этой домашней работе были обучены Byte-level BPE токенизатор и небольшая языковая модель на основе архитектуры Transformer. В модели Transformer исполльзовался ALiBi в качестве позиционного энкодера и SwiGLU в качестве Feed-Forward блока. Модель была обучена на датасете с русскими анекдотами.

Примеры генерации

"Заходит в бар и говорит:- Дайте мне билет.- А мне что-нибудь?- Нет, я сейчас съел."

"Заходит в бар и говорит: - Слушайте, а вы не знаете, как вы отличить свою жену? - Да, я вчера вчера встретил свою жену, а она мне: - А я вчера с ней встречалась, что она встретила меня в ресторане."

"Заходит в бар, а там бармен с бармена. - Что, бармен, бармен? - Да нет, бармен, я не бармен."

Отчет о качестве

Модель генерирует что-то похожее на русский язык, но смысла в них мало. И модель постоянно пытается повторять некоторые слова.

Но некоторые анекдоты немного забавные.

Пример запуска

device = torch.device("cuda")
REPO_NAME = 'MurDanya/llm-course-hw1'

tokenizer = ByteLevelBPETokenizer.from_pretrained(REPO_NAME)
check_model = TransformerForCausalLM.from_pretrained(REPO_NAME)
check_model = check_model.to(device)
check_model = check_model.eval()

text = "Штирлиц пришел домой"
input_ids = torch.tensor(tokenizer.encode(text)[:-1], device=device)
model_output = check_model.generate(
    input_ids[None, :], max_new_tokens=200, eos_token_id=tokenizer.eos_token_id, do_sample=True, top_k=10
)
tokenizer.decode(model_output[0].tolist())
Downloads last month
2
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Dataset used to train MurDanya/llm-course-hw1