new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

Nov 21

Submitted by

richardxp888

Agent0: Unleashing Self-Evolving Agents from Zero Data via Tool-Integrated Reasoning

UNC-ChapelHill

University of North Carolina at Chapel Hill

Submitted by

taesiri

SAM 3D: 3Dfy Anything in Images

Submitted by

taesiri

V-ReasonBench: Toward Unified Reasoning Benchmark Suite for Video Generation Models

·
10 authors

Submitted by

giantPanda0906

Step-Audio-R1 Technical Report

stepfun-ai

Submitted by

zli12321

First Frame Is the Place to Go for Video Content Customization

UMCP

University of Maryland College Park

Submitted by

caizhongang

Scaling Spatial Intelligence with Multimodal Foundation Models

sensenova

Submitted by

Howe666

Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPO

KlingTeam

Submitted by

taesiri

MiMo-Embodied: X-Embodied Foundation Model Technical Report

XiaomiMiMo

Submitted by

taesiri

Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs

nvidia

Submitted by

LavenderJ

Generalist Foundation Models Are Not Clinical Enough for Hospital Operations

newyorkuniversity

New York University

2

Submitted by

sinwang

SRPO: Self-Referential Policy Optimization for Vision-Language-Action Models

OpenMOSS-Team

Submitted by

ZrrSkywalker

Thinking-while-Generating: Interleaving Textual Reasoning throughout Visual Generation

·
9 authors

Submitted by

MElHuseyni

TurkColBERT: A Benchmark of Dense and Late-Interaction Models for Turkish Information Retrieval

newmindai

2

Submitted by

ZeqiangLai

NaTex: Seamless Texture Generation as Latent Color Diffusion

Tencent-Hunyuan

Tencent Hunyuan

Submitted by

taesiri

PartUV: Part-Based UV Unwrapping of 3D Meshes

·
6 authors

Submitted by

HeverLaw

SAM2S: Segment Anything in Surgical Videos via Semantic Long-term Tracking

NationalUniversityofSingapore

National University of Singapore

Submitted by

Boshenxx

TimeViper: A Hybrid Mamba-Transformer Vision-Language Model for Efficient Long Video Understanding

RUC

Renmin University of China

Submitted by

yangkaiSIGS

EntroPIC: Towards Stable Long-Term Training of LLMs via Entropy Stabilization with Proportional-Integral Control

tencent

Submitted by

dwipamc1

FinTRec: Transformer Based Unified Contextual Ads Targeting and Personalization for Financial Applications

capitalone

2

Submitted by

samuelstevens

BioBench: A Blueprint to Move Beyond ImageNet for Scientific ML Benchmarks

imageomics

HDR Imageomics Institute

Submitted by

zl111

Boosting Medical Visual Understanding From Multi-Granular Language Learning

·
4 authors

Submitted by

Eavn

Draft and Refine with Visual Experts

UCI6055

University of California, Irvine