Multimodal - a Giuliano Collection

Giuliano 's Collections

Voice

LLM Personalization

Agents

Multimodal

updated Jan 14

VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

Paper • 2501.01957 • Published Jan 3 • 47
Imagine while Reasoning in Space: Multimodal Visualization-of-Thought

Paper • 2501.07542 • Published Jan 13 • 3