📋 Eval Logs - a twinkle-ai Collection

twinkle-ai 's Collections

🏎️ Formosa-1 Series

💾 Traditional Chinese Datasets

🧠 Traditional Chinese Reasoning Datasets

📋 Eval Logs

updated 29 days ago

Benchmark log generated with Twinkle Eval, recording the model's outputs for each prompt.

twinkle-ai/llama-4-eval-logs-and-scores

Viewer • Updated Apr 9 • 750 • 72 • 2