32 271 42

Orr Zohar PRO

orrzohar

https://orrzohar.github.io

AI & ML interests

Large Multi-Modal Models, Foundation Models, Video Understanding

Recent Activity

upvoted a paper 4 days ago

Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in Math

upvoted a paper 10 days ago

RefVNLI: Towards Scalable Evaluation of Subject-driven Text-to-image Generation

upvoted a paper 12 days ago

Describe Anything: Detailed Localized Image and Video Captioning

View all activity

Organizations

orrzohar's activity

upvoted a paper 4 days ago

Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in Math

Paper • 2504.21233 • Published 6 days ago • 35

upvoted a paper 10 days ago

RefVNLI: Towards Scalable Evaluation of Subject-driven Text-to-image Generation

Paper • 2504.17502 • Published 11 days ago • 54

upvoted a paper 12 days ago

Describe Anything: Detailed Localized Image and Video Captioning

Paper • 2504.16072 • Published 13 days ago • 60

upvoted 2 papers 13 days ago

FlowReasoner: Reinforcing Query-Level Meta-Agents

Paper • 2504.15257 • Published 14 days ago • 46

Learning to Reason under Off-Policy Guidance

Paper • 2504.14945 • Published 14 days ago • 80

upvoted 4 papers 17 days ago

ChartQAPro: A More Diverse and Challenging Benchmark for Chart Question Answering

Paper • 2504.05506 • Published 28 days ago • 21

Packing Input Frame Context in Next-Frame Prediction Models for Video Generation

Paper • 2504.12626 • Published 18 days ago • 48

CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training

Paper • 2504.13161 • Published 18 days ago • 88

VistaDPO: Video Hierarchical Spatial-Temporal Direct Preference Optimization for Large Video Models

Paper • 2504.13122 • Published 18 days ago • 21

upvoted a paper 26 days ago

Skywork R1V: Pioneering Multimodal Reasoning with Chain-of-Thought

Paper • 2504.05599 • Published 28 days ago • 81

upvoted a paper 27 days ago

SmolVLM: Redefining small and efficient multimodal models

Paper • 2504.05299 • Published 28 days ago • 179

upvoted a paper 28 days ago

Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving

Paper • 2504.02605 • Published Apr 3 • 45

upvoted 5 papers about 1 month ago

upvoted a collection about 1 month ago

JARVIS-VLA-v1

Collection

Vision-Language-Action Models in Minecraft. • 4 items • Updated Mar 22 • 10

upvoted a paper about 2 months ago

Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey

Paper • 2503.12605 • Published Mar 16 • 34