new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

Oct 9

Submitted by

fuvty

Cache-to-Cache: Direct Semantic Communication Between Large Language Models

nics-efc

Tsinghua-NICS-EFC

Submitted by

forde450

Ming-UniVision: Joint Image Understanding and Generation with a Unified Continuous Tokenizer

inclusionAI

Submitted by

taesiri

Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding

Alpha-VLLM

Submitted by

dcml0714

SHANKS: Simultaneous Hearing and Thinking for Spoken Language Models

·
10 authors

Submitted by

zoeyuchao

RLinf-VLA: A Unified and Efficient Framework for VLA+RL Training

RLinf

Submitted by

MingZhong

Vibe Checker: Aligning Code Evaluation with Human Preference

deepmind

1

Submitted by

taesiri

MATRIX: Mask Track Alignment for Interaction-aware Video Generation

·
8 authors

Submitted by

veggiebird

Multi-Agent Tool-Integrated Policy Optimization

·
4 authors

Submitted by

FSCCS

OBS-Diff: Accurate Pruning For Diffusion Models in One-Shot

Westlake-University

Westlake University

Submitted by

ZetangForward

Revisiting Long-context Modeling from Context Denoising Perspective

SUDA

Soochow University

Submitted by

whyu

Artificial Hippocampus Networks for Efficient Long-Context Modeling

ByteDance-Seed

Submitted by

weigao266

Native Hybrid Attention for Efficient Sequence Modeling

·
5 authors

Submitted by

huggingaaaaa

Why Low-Precision Transformer Training Fails: An Analysis on Flash Attention

THU1911

Tsinghua University

Submitted by

XinXuNLPer

When Benchmarks Age: Temporal Misalignment through Large Language Model Factuality Evaluation

McAuley-Lab

Submitted by

MingyuLiu

StaMo: Unsupervised Learning of Generalizable Robot Motion from Compact State Representation

Zhejiang University

2

Submitted by

Chenfei-Liao

Are We Using the Right Benchmark: An Evaluation Framework for Visual Token Compression Methods

·
13 authors

Submitted by

JimmyMa99

Patch-as-Decodable-Token: Towards Unified Multi-Modal Vision Tasks in MLLMs

·
14 authors

Submitted by

XuWuLingYu

WristWorld: Generating Wrist-Views via 4D World Models for Robotic Manipulation

PekingUniversity

Peking University

Submitted by

taesiri

TTRV: Test-Time Reinforcement Learning for Vision Language Models

·
10 authors

Submitted by

Jerrycool

MLE-Smith: Scaling MLE Tasks with Automated Multi-Agent Pipeline

MLE-Dojo

1

Submitted by

carpedkm

Online Generic Event Boundary Detection

·
5 authors

1

Submitted by

kazemnejad

The Markovian Thinker

MilaQuebec

Mila – Quebec Artificial Intelligence Institute

Submitted by

nnilayy

Bridging Text and Video Generation: A Survey

·
3 authors

1

Submitted by

taesiri

AlphaApollo: Orchestrating Foundation Models and Professional Tools into a Self-Evolving System for Deep Agentic Reasoning

·
17 authors

Submitted by

myownskyW7

G^2RPO: Granular GRPO for Precise Reward in Flow Models

OpenIXCLab

IXCLab@Shanghai AI Lab

Submitted by

RajveeSheth

Beyond Monolingual Assumptions: A Survey of Code-Switched NLP in the Era of Large Language Models

LingoIITGN

Lingo Research Group

Submitted by

imsheriff

The African Languages Lab: A Collaborative Approach to Advancing Low-Resource African NLP

UCLA

University of California, Los Angeles

1

Submitted by

taesiri

U-Bench: A Comprehensive Understanding of U-Net through 100-Variant Benchmarking

·
10 authors

Submitted by

Yanran21

D^3QE: Learning Discrete Distribution Discrepancy-aware Quantization Error for Autoregressive-Generated Image Detection

·
8 authors

Submitted by

cliang1453

NorMuon: Making Muon more efficient and scalable

·
5 authors

Submitted by

yasNing

DeepTravel: An End-to-End Agentic Reinforcement Learning Framework for Autonomous Travel Planning Agents

Didichuxing

Submitted by

youngsheen

Heptapod: Language Modeling on Visual Signals

ByteDance-Seed