Historinhas-102M

Visão Geral
O Historinhas-102M é um modelo de linguagem treinado do zero para gerar histórias infantis simples e coerentes em português brasileiro. Inspirado no artigo TinyStories: How Small Can Language Models Be and Still Speak Coherent English?, o projeto demonstra que modelos pequenos podem produzir textos de alta qualidade.
Como testar o modelo
Para testar o modelo, basta rodar o notebook inference.ipynb
disponível neste repositório. O notebook já contém todas as instruções e exemplos necessários para realizar inferência com o modelo treinado.
Arquitetura do Modelo
A arquitetura se assemelha à do LLaMA, com algumas modificações:
- Multi-Head Attention no lugar de Grouped Query Attention
- Sem KV-Cache para maior simplicidade
Comparação com o Transformer Original
Característica | Arquitetura Atual | Transformer Original |
---|---|---|
Estrutura | Decoder-only | Encoder-Decoder |
Normalização | RMS Norm | Layer Norm |
Ordem da Normalização | Antes da adição residual | Depois da adição residual |
Função de Ativação | SwiGLU | ReLU |
Positional Embedding | Rotary Embedding | Absolute Positional Embedding |
Weight Tying | ✅ Sim | ❌ Ausente (em muitos casos) |
Diagrama da Arquitetura

Dados e Treinamento
- Dataset: 1.255.240 histórias infantis (300M+ tokens)
- Modelos usados para geração dos dados: Gemini 2.0 Flash, Gemma 3 27B, entre outros
- Treinamento: ~5 épocas, 25 horas, NVIDIA T4 GPU
- Parâmetros: 102 milhões
O dataset está disponível em: Hugging Face Datasets – Boakpe/historinhas
O código de treinamento pode ser encontrado em: Código de Treinamento – Github
Tokenizer
- Algoritmo: BPE (Byte Pair Encoding)
- Vocabulário: 20.000 tokens
- Treinado com: 🤗 Hugging Face Tokenizers
Resultados
O modelo gera histórias inéditas e coerentes, mesmo para personagens nunca vistos no treinamento. Não apresenta sinais de overfitting, mesmo com uma razão de parâmetros por token abaixo das recomendações tradicionais.
Referências
- TinyStories: How Small Can Language Models Be and Still Speak Coherent English?
- GLU Variants Improve Transformer
- RoFormer: Enhanced Transformer with Rotary Position Embedding