# Funcionamento da Leaderboard para Avaliação de Modelos

## Visão Geral
Esta leaderboard é uma aplicação web desenvolvida com Gradio que permite avaliar, comparar e submeter modelos de linguagem para benchmarks específicos. O sistema é hospedado na plataforma HuggingFace Spaces e oferece uma interface interativa para visualizar resultados de avaliações de modelos em diferentes tarefas.

## Estrutura do Aplicativo

### Abas Principais
1. **🏅 LLM Benchmark** - Principal aba que exibe a tabela de classificação dos modelos avaliados
2. **📝 About** - Informações sobre a leaderboard, metodologia e funcionamento
3. **🚀 Submit here!** - Interface para usuários submeterem seus próprios modelos para avaliação

### Funcionalidades de Filtragem na Leaderboard
A tabela de classificação oferece as seguintes opções de filtragem:

- **Colunas Selecionáveis** - Permite escolher quais métricas e informações exibir
- **Filtros de Tipo de Modelo** - Opção para filtrar por categorias de modelos:
  - 🟢 Pretrained (Pré-treinados)
  - 🔶 Fine-tuned (Ajuste fino)
  - ⭕ Instruction-tuned (Ajustados para instruções)
  - 🟦 RL-tuned (Ajustados por reinforcement learning)

- **Filtros de Precisão** - Filtragem por formato de pesos:
  - float16
  - bfloat16

- **Filtro de Parâmetros** - Slider para filtrar por número de parâmetros (0.01B - 150B)
- **Filtro de Disponibilidade** - Opção para ocultar modelos excluídos ou incompletos
- **Busca por Modelo/Licença** - Campo de busca textual para encontrar modelos específicos

## Métricas e Benchmarks
A leaderboard avalia os modelos em benchmarks específicos:
- ANLI (Adversarial Natural Language Inference)
- LogiQA (Raciocínio lógico)

O desempenho final é calculado como a média dos resultados em todas as tarefas avaliadas.

## Sistema de Submissão
O sistema permite que usuários enviem seus modelos para avaliação através do formulário de submissão, que inclui:

1. **Informações do Modelo:**
   - Nome do modelo (no formato organization/model)
   - Revisão/commit específico
   - Tipo de modelo (pretrained, fine-tuned, etc.)
   - Precisão (float16, bfloat16)
   - Tipo de pesos (Original, Adapter, Delta)
   - Modelo base (para pesos delta ou adapter)

2. **Filas de Avaliação:**
   - ✅ Avaliações Concluídas
   - 🔄 Avaliações em Execução
   - ⏳ Avaliações Pendentes

## Requisitos para Submissão
Os modelos submetidos devem:
1. Ser carregáveis através das classes Auto do Hugging Face
2. Preferencialmente usar o formato safetensors para armazenamento de pesos
3. Ter uma licença aberta
4. Ter um model card devidamente preenchido

## Backend e Armazenamento
A leaderboard utiliza:
- Repositórios HuggingFace para armazenar resultados de avaliação e requisições
- Datasets HuggingFace para gerenciar as filas de avaliação
- Sistema de atualização periódica para manter os dados atualizados

## Detalhes Técnicos
- Implementado usando Gradio para a interface
- Utiliza pandas para manipulação e exibição de dados
- Componente especializado gradio_leaderboard para a visualização da tabela
- Atualização automática da interface a cada 30 minutos
- Autenticação via token HF para gerenciamento dos repositórios