Russian Jokes Transformer
A model based on the Transformer architecture, trained to generate Russian jokes. Developed as a homework assignment for a deep learning course.
Model Architecture
The model is based on a standard Transformer decoder architecture with several enhancements:
- Rotary Positional Embeddings (RoPE) for better encoding of relative positions
- Multi-Head Latent Attention (MLA) for more efficient processing of long-term dependencies OR Grouped-Query Attention (GQA) to reduce computational complexity
- SwiGLU as an activation function in feed-forward layers
Model configuration:
- Number of layers: 12
- Hidden state dimension: 768
- Number of attention heads: 12
- Total number of parameters: 83.1M
Training
The model was trained on the IgorVolochay/russian_jokes dataset, which contains Russian jokes.
Training hyperparameters:
- Learning rate: 3e-4
- Batch size: 128
- Number of steps: 10,000
- Weight decay: 0.01
DataParallel was used to accelerate training.
Training graphs:
Examples of Generated Text
'Поручик Ржевский и Наташа Ростова утром встретили Наташу Ростовой. - Ну что, Маташа, я так понял! Вот, Ваточка, выучил! - Ну, сразу в двух случаях! Поручик, не знаю, чего я хочу. - И не волнуйся, я тебя не знаю!'
'Британские ученые выяснили, что приветливость - это то, что проигрывает война на место в Комитет.В конце дня, как только он узнает свою власть...'
'Однажды в бухгалтерии все перепутались использовались слова "поверено", но потом пришел на "ты" и всяческая форма суммы не проверять вверх сил.'
'Роман Абрамович пришел в аптеку и говорит: "У вас есть аллергии?".Вовочка: "Подожди, папа, ну скажите, у меня даже есть отец".'
'Как называется медицинский спирт? Пока его не хватает'
'Сидит дурак в дурдоме, письмо пишет. – Слова, почему не пишется писать? – Потому что я, медсестра, я сразу согласился… А я, не помню, я сейчас не пишу– и не тормози, да не так. И тут он согласился. А тут согласился, и я – не помогло. – Так что же ты так делаешь?'
'В немецком концлагере, уроке мальчика, немцев и медсестра. В конце метро входит в суд, садится в ряд и говорит: — Может, идем в туалет? — Да. — Идем сюда в кустах. — А как назвать? — А в туалет?'
Model Limitations
The model is trained on a specific genre of text (jokes), so it may not work as well with other types of content. Additionally, like any language model trained on internet data, it may generate inappropriate or offensive content. """
tags: - model_hub_mixin - pytorch_model_hub_mixin
This model has been pushed to the Hub using the PytorchModelHubMixin integration:
- Library: [More Information Needed]
- Docs: [More Information Needed]
- Downloads last month
- 2