Min-Hung Chen

cmhungsteve

https://minhungchen.netlify.app/

AI & ML interests

Multimodal AI, Transfer Learning, Unsupervised Learning, Video Understanding, Vision Transformer, Computer Vision, Deep Learning

Recent Activity

authored a paper 3 days ago

ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning

upvoted a paper 3 days ago

ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning

liked a dataset about 1 month ago

nvidia/PhysicalAI-SmartSpaces

View all activity

Organizations

authored a paper 3 days ago

ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning

Paper • 2507.16815 • Published 4 days ago • 28

upvoted a paper 3 days ago

ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning

Paper • 2507.16815 • Published 4 days ago • 28

liked 2 datasets about 1 month ago

nvidia/PhysicalAI-SmartSpaces

Updated 11 days ago • 283k • 39

MINT-SJTU/STI-Bench

Viewer • Updated 19 days ago • 2.06k • 178 • 4

upvoted 2 papers 5 months ago

Token-Efficient Long Video Understanding for Multimodal LLMs

Paper • 2503.04130 • Published Mar 6 • 95

Visual-RFT: Visual Reinforcement Fine-Tuning

Paper • 2503.01785 • Published Mar 3 • 80

authored a paper 5 months ago

V2V-LLM: Vehicle-to-Vehicle Cooperative Autonomous Driving with Multi-Modal Large Language Models

Paper • 2502.09980 • Published Feb 14 • 4

upvoted a paper 5 months ago

V2V-LLM: Vehicle-to-Vehicle Cooperative Autonomous Driving with Multi-Modal Large Language Models

Paper • 2502.09980 • Published Feb 14 • 4

commented a paper 5 months ago

V2V-LLM: Vehicle-to-Vehicle Cooperative Autonomous Driving with Multi-Modal Large Language Models

Paper • 2502.09980 • Published Feb 14 • 4 •

authored 3 papers 6 months ago

SANER: Annotation-free Societal Attribute Neutralizer for Debiasing CLIP

Paper • 2408.10202 • Published Aug 19, 2024

AuraFusion360: Augmented Unseen Region Alignment for Reference-based 360° Unbounded Scene Inpainting

Paper • 2502.05176 • Published Feb 7 • 38

Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks

Paper • 2501.08326 • Published Jan 14 • 34

upvoted a paper 6 months ago

Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks

Paper • 2501.08326 • Published Jan 14 • 34

commented a paper 6 months ago

Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks

Paper • 2501.08326 • Published Jan 14 • 34 •

upvoted a paper 8 months ago

Hymba: A Hybrid-head Architecture for Small Language Models

Paper • 2411.13676 • Published Nov 20, 2024 • 46

authored a paper 8 months ago

Hymba: A Hybrid-head Architecture for Small Language Models

Paper • 2411.13676 • Published Nov 20, 2024 • 46

liked a model 8 months ago

sliuau/DoRA-weights

Updated Aug 30, 2024 • 1

upvoted 3 papers 9 months ago

EoRA: Training-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation

Paper • 2410.21271 • Published Oct 28, 2024 • 7

HERMES: temporal-coHERent long-forM understanding with Episodes and Semantics

Paper • 2408.17443 • Published Aug 30, 2024 • 2

Diffusion-Reward Adversarial Imitation Learning

Paper • 2405.16194 • Published May 25, 2024 • 1

Min-Hung Chen

AI & ML interests

Recent Activity

Organizations

cmhungsteve's activity