Historinhas-102M

Visão Geral

O Historinhas-102M é um modelo de linguagem treinado do zero para gerar histórias infantis simples e coerentes em português brasileiro. Inspirado no artigo TinyStories: How Small Can Language Models Be and Still Speak Coherent English?, o projeto demonstra que modelos pequenos podem produzir textos de alta qualidade.

Como testar o modelo

Para testar o modelo, basta rodar o notebook inference.ipynb disponível neste repositório. O notebook já contém todas as instruções e exemplos necessários para realizar inferência com o modelo treinado.

Arquitetura do Modelo

A arquitetura se assemelha à do LLaMA, com algumas modificações:

Multi-Head Attention no lugar de Grouped Query Attention
Sem KV-Cache para maior simplicidade

Comparação com o Transformer Original

Característica	Arquitetura Atual	Transformer Original
Estrutura	Decoder-only	Encoder-Decoder
Normalização	RMS Norm	Layer Norm
Ordem da Normalização	Antes da adição residual	Depois da adição residual
Função de Ativação	SwiGLU	ReLU
Positional Embedding	Rotary Embedding	Absolute Positional Embedding
Weight Tying	✅ Sim	❌ Ausente (em muitos casos)

Diagrama da Arquitetura

Dados e Treinamento

Dataset: 1.255.240 histórias infantis (300M+ tokens)
Modelos usados para geração dos dados: Gemini 2.0 Flash, Gemma 3 27B, entre outros
Treinamento: ~5 épocas, 25 horas, NVIDIA T4 GPU
Parâmetros: 102 milhões

O dataset está disponível em: Hugging Face Datasets – Boakpe/historinhas
O código de treinamento pode ser encontrado em: Código de Treinamento – Github

Tokenizer

Algoritmo: BPE (Byte Pair Encoding)
Vocabulário: 20.000 tokens
Treinado com: 🤗 Hugging Face Tokenizers

Resultados

O modelo gera histórias inéditas e coerentes, mesmo para personagens nunca vistos no treinamento. Não apresenta sinais de overfitting, mesmo com uma razão de parâmetros por token abaixo das recomendações tradicionais.

Boakpe
/

Historinhas-102M