new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

Dec 5

Submitted by

akhaliq

Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite Length

·
11 authors

4

Submitted by

taesiri

DAComp: Benchmarking Data Agents across the Full Data Intelligence Lifecycle

ByteDance-Seed

3

Submitted by

taesiri

Nex-N1: Agentic Models Trained via a Unified Ecosystem for Large-Scale Environment Construction

nex-agi

Submitted by

ChrisDing1105

ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning

internlm

Intern Large Models

Submitted by

zengyh1900

Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation

·
12 authors

Submitted by

RuoyuFeng

Semantics Lead the Way: Harmonizing Semantic and Texture Modeling with Asynchronous Latent Diffusion

XianJiaotongUniversity

Xi'an Jiaotong University

Submitted by

nuojohnchen

PaperDebugger: A Plugin-Based Multi-Agent System for In-Editor Academic Writing, Review, and Editing

NationalUniversityofSingapore

National University of Singapore

Submitted by

Beckham808

4DLangVGGT: 4D Language-Visual Geometry Grounded Transformer

Huster

Huazhong University of Science and Technology

Submitted by

kairunwen

DynamicVerse: A Physically-Aware Multimodal Framework for 4D World Modeling

Dynamics-X

Submitted by

yulunliu

Splannequin: Freezing Monocular Mannequin-Challenge Footage with Dual-Detection Splatting

·
5 authors

Submitted by

zhuhz22

UltraImage: Rethinking Resolution Extrapolation in Image Diffusion Transformers

thu-ml

Tsinghua Machine Learning Group

2

Submitted by

akhaliq

NeuralRemaster: Phase-Preserving Diffusion for Structure-Aligned Generation

·
6 authors

Submitted by

taesiri

SIMA 2: A Generalist Embodied Agent for Virtual Worlds

deepmind

Submitted by

taesiri

TV2TV: A Unified Framework for Interleaved Language and Video Generation

Submitted by

hba123

Model-Based and Sample-Efficient AI-Assisted Math Discovery in Sphere Packing

·
6 authors

Submitted by

toshas

Reflection Removal through Efficient Adaptation of Diffusion Transformers

huawei-bayerlab

HUAWEI Bayer Lab

Submitted by

CaraJ

DraCo: Draft as CoT for Text-to-Image Preview and Rare Concept Generation

·
12 authors

Submitted by

Haihao

SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quantization for LLMs

Intel

Submitted by

taesiri

On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral

·
6 authors

Submitted by

HelenMao

Generative Neural Video Compression via Video Diffusion Prior

CUC-MIPG

Multimedia Intelligent Processing Group in Communication University of China

2

Submitted by

kaipochang0810

Mitigating Object and Action Hallucinations in Multimodal LLMs via Self-Augmented Contrastive Alignment

nationaltaiwan

3

Submitted by

ZeqiangLai

LATTICE: Democratize High-Fidelity 3D Generation at Scale

·
8 authors

Submitted by

YJ-142150

Deep Forcing: Training-Free Long Video Generation with Deep Sink and Participative Compression

·
6 authors

2

Submitted by

nahyeonkaty

Aligned but Stereotypical? The Hidden Influence of System Prompts on Social Bias in LVLM-Based Text-to-Image Models

kaist-ai

Submitted by

zichuan-lin

SeeNav-Agent: Enhancing Vision-Language Navigation with Visual Prompt and Step-Level Policy Optimization

tencent

Submitted by

Tianle

Some Modalities are More Equal Than Others: Decoding and Architecting Multimodal Integration in MLLMs

·
5 authors

Submitted by

akhaliq

BulletTime: Decoupled Control of Time and Camera Pose for Video Generation

·
10 authors

Submitted by

ghyouk

FMA-Net++: Motion- and Exposure-Aware Real-World Joint Video Super-Resolution and Deblurring

·
3 authors

Submitted by

SteveZeyuZhang

EgoLCD: Egocentric Video Generation with Long Context Diffusion

PekingUniversity

Peking University

Submitted by

atsuki-yamaguchi

Mitigating Catastrophic Forgetting in Target Language Adaptation of LLMs via Source-Shielded Updates

·
4 authors

Submitted by

dghadiya

Generative Action Tell-Tales: Assessing Human Motion in Synthesized Videos

BostonU

Boston University

Submitted by

weichium

ShadowDraw: From Any Object to Shadow-Drawing Compositional Art

cornell

Cornell University

Submitted by

Jim137

QKAN-LSTM: Quantum-inspired Kolmogorov-Arnold Long Short-term Memory

·
8 authors

2

Submitted by

melisocal

GaussianBlender: Instant Stylization of 3D Gaussians with Disentangled Latent Spaces

·
6 authors

2

Submitted by

ChristinaW

Mitigating Intra- and Inter-modal Forgetting in Continual Learning of Unified Multimodal Models

·
3 authors

Submitted by

akhadangi

When AI Takes the Couch: Psychometric Jailbreaks Reveal Internal Conflict in Frontier Models

·
5 authors

2

Submitted by

danielhzlin

REFLEX: Self-Refining Explainable Fact-Checking via Disentangling Truth into Style and Substance

·
5 authors

Submitted by

XYHan

A Theoretical Framework for Auxiliary-Loss-Free Load Balancing of Sparse Mixture-of-Experts in Large-Scale AI Models

Uchicago

University of Chicago