new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

Dec 4

Submitted by

ShuaiBai623

Qwen3-VL Technical Report

Qwen

Qwen

2

Submitted by

breezeyoung

Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach

·
7 authors

Submitted by

xrxing

PretrainZero: Reinforcement Active Pretraining

·
6 authors

2

Submitted by

taesiri

ViDiC: Video Difference Captioning

·
10 authors

Submitted by

siyich

SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL

nvidia

Submitted by

KaituoFeng

OneThinker: All-in-one Reasoning Model for Image and Video

·
14 authors

Submitted by

subin-kim

Rethinking Prompt Design for Inference-time Scaling in Text-to-Visual Generation

·
7 authors

Submitted by

taesiri

RELIC: Interactive Video World Model with Long-Horizon Memory

·
14 authors

Submitted by

taesiri

Thinking with Programming Vision: Towards a Unified View for Thinking with Images

·
5 authors

Submitted by

Y-Sisyphus

Flowing Backwards: Improving Normalizing Flows via Reverse Representation Alignment

NJU

Nanjing University

Submitted by

hanxiao

Jina-VLM: Small Multilingual Vision Language Model

jinaai

3

Submitted by

taesiri

CookAnything: A Framework for Flexible and Consistent Multi-Step Recipe Image Generation

·
8 authors

Submitted by

nexaml

AutoNeural: Co-Designing Vision-Language Models for NPU Inference

NexaAI

Submitted by

yixuantt

SR-GRPO: Stable Rank as an Intrinsic Geometric Reward for Large Language Model Alignment

·
2 authors

2

Submitted by

christopher

Economies of Open Intelligence: Tracing Power & Participation in the Model Ecosystem

2

Submitted by

tux

In-Context Representation Hijacking

·
4 authors

2

Submitted by

hychiang

UniQL: Unified Quantization and Low-rank Compression for Adaptive Edge LLMs

ut-enyac

Energy-Aware Computing Lab @ UT ECE

Submitted by

risashinoda

AlignBench: Benchmarking Fine-Grained Image-Text Alignment with Synthetic Image-Caption Pairs

·
6 authors

2

Submitted by

sedrickkeh

SkillFactory: Self-Distillation For Learning Cognitive Behaviors

·
6 authors

2

Submitted by

cmhungsteve

BlurDM: A Blur Diffusion Model for Image Deblurring

nvidia

2

Submitted by

akhaliq

PosterCopilot: Toward Layout Reasoning and Controllable Editing for Professional Graphic Design

·
7 authors

Submitted by

BohanZ

PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation

·
5 authors

Submitted by

Jialuo21

Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video Understanding

MicrosoftResearch

Microsoft Research

Submitted by

zichuan-lin

AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition

tencent

Submitted by

tqliu

Light-X: Generative 4D Video Rendering with Camera and Illumination Control

·
11 authors

Submitted by

j-hoscilowic

Adversarial Confusion Attack: Disrupting Multimodal Large Language Models

·
2 authors

2