Baifeng Shi's picture

1 10

Baifeng Shi

bfshi

·

https://bfshi.github.io

AI & ML interests

computer vision

Organizations

bfshi's activity

upvoted 2 papers 27 days ago

MME-RealWorld: Could Your Multimodal LLM Challenge High-Resolution Real-World Scenarios that are Difficult for Humans?

Paper • 2408.13257 • Published about 1 month ago • 25

Building and better understanding vision-language models: insights and future directions

Paper • 2408.12637 • Published Aug 22 • 110

upvoted a paper about 1 month ago

LongVILA: Scaling Long-Context Visual Language Models for Long Videos

Paper • 2408.10188 • Published Aug 19 • 51

upvoted a paper about 2 months ago

VILA^2: VILA Augmented VILA

Paper • 2407.17453 • Published Jul 24 • 38

upvoted 2 papers 2 months ago

VideoGameBunny: Towards vision assistants for video games

Paper • 2407.15295 • Published Jul 21 • 21

Shape of Motion: 4D Reconstruction from a Single Video

Paper • 2407.13764 • Published Jul 18 • 19

upvoted a paper 3 months ago

OpenVLA: An Open-Source Vision-Language-Action Model

Paper • 2406.09246 • Published Jun 13 • 36

upvoted a paper 6 months ago

When Do We Not Need Larger Vision Models?

Paper • 2403.13043 • Published Mar 19 • 25

upvoted a paper 7 months ago

Humanoid Locomotion as Next Token Prediction

Paper • 2402.19469 • Published Feb 29 • 26

upvoted a paper 8 months ago

Rethinking Patch Dependence for Masked Autoencoders

Paper • 2401.14391 • Published Jan 25 • 22