new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

Nov 21

Submitted by

richardxp888

Agent0: Unleashing Self-Evolving Agents from Zero Data via Tool-Integrated Reasoning

UNC-ChapelHill

University of North Carolina at Chapel Hill

Submitted by

taesiri

SAM 3D: 3Dfy Anything in Images

Submitted by

taesiri

V-ReasonBench: Toward Unified Reasoning Benchmark Suite for Video Generation Models

·
10 authors

Submitted by

zli12321

First Frame Is the Place to Go for Video Content Customization

UMCP

University of Maryland College Park

Submitted by

giantPanda0906

Step-Audio-R1 Technical Report

stepfun-ai

Submitted by

caizhongang

Scaling Spatial Intelligence with Multimodal Foundation Models

sensenova

Submitted by

Howe666

Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPO

KlingTeam

Submitted by

taesiri

MiMo-Embodied: X-Embodied Foundation Model Technical Report

XiaomiMiMo

Submitted by

taesiri

Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs

nvidia

Submitted by

LavenderJ

Generalist Foundation Models Are Not Clinical Enough for Hospital Operations

newyorkuniversity

New York University

2

Submitted by

sinwang

SRPO: Self-Referential Policy Optimization for Vision-Language-Action Models

OpenMOSS-Team

Submitted by

ZrrSkywalker

Thinking-while-Generating: Interleaving Textual Reasoning throughout Visual Generation

·
9 authors

Submitted by

MElHuseyni

TurkColBERT: A Benchmark of Dense and Late-Interaction Models for Turkish Information Retrieval

newmindai

2

Submitted by

HeverLaw

SAM2S: Segment Anything in Surgical Videos via Semantic Long-term Tracking

NationalUniversityofSingapore

National University of Singapore

Submitted by

ZeqiangLai

NaTex: Seamless Texture Generation as Latent Color Diffusion

Tencent-Hunyuan

Tencent Hunyuan

Submitted by

taesiri

PartUV: Part-Based UV Unwrapping of 3D Meshes

·
6 authors

Submitted by

Boshenxx

TimeViper: A Hybrid Mamba-Transformer Vision-Language Model for Efficient Long Video Understanding

RUC

Renmin University of China

Submitted by

yangkaiSIGS

EntroPIC: Towards Stable Long-Term Training of LLMs via Entropy Stabilization with Proportional-Integral Control

tencent

Submitted by

dwipamc1

FinTRec: Transformer Based Unified Contextual Ads Targeting and Personalization for Financial Applications

capitalone

2

Submitted by

samuelstevens

BioBench: A Blueprint to Move Beyond ImageNet for Scientific ML Benchmarks

imageomics

HDR Imageomics Institute

Submitted by

zl111

Boosting Medical Visual Understanding From Multi-Granular Language Learning

·
4 authors

Submitted by

Eavn

Draft and Refine with Visual Experts

UCI6055

University of California, Irvine