pepper12138's picture

21 2

pepper12138

Pepperhan

·

AI & ML interests

None yet

Recent Activity

upvoted a paper about 12 hours ago

Inference-Time Hyper-Scaling with KV Cache Compression

upvoted a paper about 12 hours ago

Rethinking Cross-Modal Interaction in Multimodal Diffusion Transformers

upvoted a paper 5 days ago

SparseMM: Head Sparsity Emerges from Visual Concept Responses in MLLMs

View all activity

Organizations

Pepperhan's activity

upvoted 2 papers about 12 hours ago

Inference-Time Hyper-Scaling with KV Cache Compression

Paper • 2506.05345 • Published 5 days ago • 25

Rethinking Cross-Modal Interaction in Multimodal Diffusion Transformers

Paper • 2506.07986 • Published 1 day ago • 14

upvoted 2 papers 5 days ago

SparseMM: Head Sparsity Emerges from Visual Concept Responses in MLLMs

Paper • 2506.05344 • Published 5 days ago • 16

Language-Image Alignment with Fixed Text Encoders

Paper • 2506.04209 • Published 6 days ago • 11

upvoted 5 papers 6 days ago

zip2zip: Inference-Time Adaptive Vocabularies for Language Models via Token Compression

Paper • 2506.01084 • Published 9 days ago • 7

Sparse-vDiT: Unleashing the Power of Sparse Attention to Accelerate Video Diffusion Transformers

Paper • 2506.03065 • Published 7 days ago • 27

DLP: Dynamic Layerwise Pruning in Large Language Models

Paper • 2505.23807 • Published 15 days ago • 4

DiffDecompose: Layer-Wise Decomposition of Alpha-Composited Images via Diffusion Transformers

Paper • 2505.21541 • Published 17 days ago • 7

Rectified Sparse Attention

Paper • 2506.04108 • Published 6 days ago • 9

upvoted a paper 9 days ago

Model Already Knows the Best Noise: Bayesian Active Noise Selection via Attention in Video Diffusion Model

Paper • 2505.17561 • Published 19 days ago • 30

upvoted 8 papers 19 days ago

LaViDa: A Large Diffusion Language Model for Multimodal Understanding

Paper • 2505.16839 • Published 19 days ago • 12

Training-Free Efficient Video Generation via Dynamic Token Carving

Paper • 2505.16864 • Published 19 days ago • 21

LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning

Paper • 2505.16933 • Published 19 days ago • 30

QuickVideo: Real-Time Long Video Understanding with System Algorithm Co-Design

Paper • 2505.16175 • Published 20 days ago • 39

X-Fusion: Introducing New Modality to Frozen Large Language Models

Paper • 2504.20996 • Published Apr 29 • 12

BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset

Paper • 2505.09568 • Published 27 days ago • 93

Visual Planning: Let's Think Only with Images

Paper • 2505.11409 • Published 25 days ago • 55

Faster Video Diffusion with Trainable Sparse Attention

Paper • 2505.13389 • Published 22 days ago • 35

upvoted 2 papers 20 days ago

Delta Attention: Fast and Accurate Sparse Attention Inference by Delta Correction

Paper • 2505.11254 • Published 25 days ago • 48

SEAP: Training-free Sparse Expert Activation Pruning Unlock the Brainpower of Large Language Models

Paper • 2503.07605 • Published Mar 10 • 69