Text Generation
PyTorch
Portuguese

Historinhas-102M

Historinhas Logo

Visão Geral

O Historinhas-102M é um modelo de linguagem treinado do zero para gerar histórias infantis simples e coerentes em português brasileiro. Inspirado no artigo TinyStories: How Small Can Language Models Be and Still Speak Coherent English?, o projeto demonstra que modelos pequenos podem produzir textos de alta qualidade.


Como testar o modelo

Para testar o modelo, basta rodar o notebook inference.ipynb disponível neste repositório. O notebook já contém todas as instruções e exemplos necessários para realizar inferência com o modelo treinado.


Arquitetura do Modelo

A arquitetura se assemelha à do LLaMA, com algumas modificações:

  • Multi-Head Attention no lugar de Grouped Query Attention
  • Sem KV-Cache para maior simplicidade

Comparação com o Transformer Original

Característica Arquitetura Atual Transformer Original
Estrutura Decoder-only Encoder-Decoder
Normalização RMS Norm Layer Norm
Ordem da Normalização Antes da adição residual Depois da adição residual
Função de Ativação SwiGLU ReLU
Positional Embedding Rotary Embedding Absolute Positional Embedding
Weight Tying ✅ Sim ❌ Ausente (em muitos casos)

Diagrama da Arquitetura

Arquitetura

Dados e Treinamento

  • Dataset: 1.255.240 histórias infantis (300M+ tokens)
  • Modelos usados para geração dos dados: Gemini 2.0 Flash, Gemma 3 27B, entre outros
  • Treinamento: ~5 épocas, 25 horas, NVIDIA T4 GPU
  • Parâmetros: 102 milhões

O dataset está disponível em: Hugging Face Datasets – Boakpe/historinhas
O código de treinamento pode ser encontrado em: Código de Treinamento – Github


Tokenizer


Resultados

O modelo gera histórias inéditas e coerentes, mesmo para personagens nunca vistos no treinamento. Não apresenta sinais de overfitting, mesmo com uma razão de parâmetros por token abaixo das recomendações tradicionais.


Referências


Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Dataset used to train Boakpe/Historinhas-102M