2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining
Paper
•
2501.00958
•
Published
•
107
collezione di paper utili per redazione tesi 1-2-3- capitolo da valutare cambio di rotta e gestione PHD
Note utile prendere in considerazione la famiglia Qwen e Deepseek per creare modelli in locale (SLM) SOTA da definire sotto i 13 miliardi di parametri per primo capitolo tesi PHD
Note modello di riferimento per MOE 2025 1 trillione di parametri 32 B per experts