new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

Dec 12

Submitted by

oltsy

T-pro 2.0: An Efficient Russian Hybrid-Reasoning Model and Playground

t-tech

2

Submitted by

IvanTang

Are We Ready for RL in Text-to-3D Generation? A Progressive Investigation

Submitted by

vanilla1116

Long-horizon Reasoning Agent for Olympiad-Level Mathematical Problem Solving

2

Submitted by

vanilla1116

OPV: Outcome-based Process Verifier for Efficient Long Chain-of-Thought Verification

2

Submitted by

vanilla1116

Achieving Olympia-Level Geometry Large Language Model Agent via Complexity Boosting Reinforcement Learning

Submitted by

taesiri

MoCapAnything: Unified 3D Motion Capture for Arbitrary Skeletons from Monocular Videos

·
11 authors

Submitted by

tarsur909

BEAVER: An Efficient Deterministic LLM Verifier

UIUC-CS

University of Illinois at Urbana-Champaign

Submitted by

ywenxi

Thinking with Images via Self-Calling Agent

·
4 authors

Submitted by

zyma

From Macro to Micro: Benchmarking Microscopic Spatial Intelligence on Molecules via Vision-Language Models

RUC

Renmin University of China

Submitted by

taesiri

Stronger Normalization-Free Transformers

·
5 authors

Submitted by

KaiiWuu1993

VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction

Kwai-Kolors

Kolors Team, Kuaishou Technology

2

Submitted by

taesiri

Evaluating Gemini Robotics Policies in a Veo World Simulator

deepmind

Submitted by

toshas

StereoSpace: Depth-Free Synthesis of Stereo Geometry via End-to-End Diffusion in a Canonical Space

prs-eth

Photogrammetry and Remote Sensing Lab of ETH Zurich

Submitted by

taesiri

The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality

deepmind

Submitted by

klavna

MoRel: Long-Range Flicker-Free 4D Motion Modeling via Anchor Relay-based Bidirectional Blending with Hierarchical Densification

·
6 authors

Submitted by

fansunqi

Tool-Augmented Spatiotemporal Reasoning for Streamlining Video Question Answering Task

Tsinghua University

Submitted by

JacobYuan

ReViSE: Towards Reason-Informed Video Editing in Unified Models with Self-Reflective Learning

·
12 authors

Submitted by

HaiCi

H2R-Grounder: A Paired-Data-Free Paradigm for Translating Human Interaction Videos into Physically Grounded Robot Videos

·
5 authors

Submitted by

YerbaPage

Fed-SE: Federated Self-Evolution for Privacy-Constrained Multi-Environment LLM Agents

·
5 authors

2

Submitted by

guochengqian

Omni-Attribute: Open-vocabulary Attribute Encoder for Visual Concept Personalization

snap-research

Submitted by

smebliu

DuetSVG: Unified Multimodal SVG Generation with Internal Visual Guidance

·
6 authors

Submitted by

taesiri

Confucius Code Agent: An Open-sourced AI Software Engineer at Industrial Scale

metaresearch

Submitted by

yiren98

X-Humanoid: Robotize Human Videos to Generate Humanoid Videos at Scale

showlab

Submitted by

tnlin

MOA: Multi-Objective Alignment for Role-Playing Agents

·
5 authors

Submitted by

SteveZeyuZhang

DragMesh: Interactive 3D Generation Made Easy

PekingUniversity

Peking University