# Funcionamento da Leaderboard para Avaliação de Modelos ## Visão Geral Esta leaderboard é uma aplicação web desenvolvida com Gradio que permite avaliar, comparar e submeter modelos de linguagem para benchmarks específicos. O sistema é hospedado na plataforma HuggingFace Spaces e oferece uma interface interativa para visualizar resultados de avaliações de modelos em diferentes tarefas. ## Estrutura do Aplicativo ### Abas Principais 1. **🏅 LLM Benchmark** - Principal aba que exibe a tabela de classificação dos modelos avaliados 2. **📝 About** - Informações sobre a leaderboard, metodologia e funcionamento 3. **🚀 Submit here!** - Interface para usuários submeterem seus próprios modelos para avaliação ### Funcionalidades de Filtragem na Leaderboard A tabela de classificação oferece as seguintes opções de filtragem: - **Colunas Selecionáveis** - Permite escolher quais métricas e informações exibir - **Filtros de Tipo de Modelo** - Opção para filtrar por categorias de modelos: - 🟢 Pretrained (Pré-treinados) - 🔶 Fine-tuned (Ajuste fino) - ⭕ Instruction-tuned (Ajustados para instruções) - 🟦 RL-tuned (Ajustados por reinforcement learning) - **Filtros de Precisão** - Filtragem por formato de pesos: - float16 - bfloat16 - **Filtro de Parâmetros** - Slider para filtrar por número de parâmetros (0.01B - 150B) - **Filtro de Disponibilidade** - Opção para ocultar modelos excluídos ou incompletos - **Busca por Modelo/Licença** - Campo de busca textual para encontrar modelos específicos ## Métricas e Benchmarks A leaderboard avalia os modelos em benchmarks específicos: - ANLI (Adversarial Natural Language Inference) - LogiQA (Raciocínio lógico) O desempenho final é calculado como a média dos resultados em todas as tarefas avaliadas. ## Sistema de Submissão O sistema permite que usuários enviem seus modelos para avaliação através do formulário de submissão, que inclui: 1. **Informações do Modelo:** - Nome do modelo (no formato organization/model) - Revisão/commit específico - Tipo de modelo (pretrained, fine-tuned, etc.) - Precisão (float16, bfloat16) - Tipo de pesos (Original, Adapter, Delta) - Modelo base (para pesos delta ou adapter) 2. **Filas de Avaliação:** - ✅ Avaliações Concluídas - 🔄 Avaliações em Execução - ⏳ Avaliações Pendentes ## Requisitos para Submissão Os modelos submetidos devem: 1. Ser carregáveis através das classes Auto do Hugging Face 2. Preferencialmente usar o formato safetensors para armazenamento de pesos 3. Ter uma licença aberta 4. Ter um model card devidamente preenchido ## Backend e Armazenamento A leaderboard utiliza: - Repositórios HuggingFace para armazenar resultados de avaliação e requisições - Datasets HuggingFace para gerenciar as filas de avaliação - Sistema de atualização periódica para manter os dados atualizados ## Detalhes Técnicos - Implementado usando Gradio para a interface - Utiliza pandas para manipulação e exibição de dados - Componente especializado gradio_leaderboard para a visualização da tabela - Atualização automática da interface a cada 30 minutos - Autenticação via token HF para gerenciamento dos repositórios