new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

Jul 31

Submitted by

bing-yan

AskChem: Claim-Centered Infrastructure for Chemistry Literature Synthesis

newyorkuniversity

New York University

Submitted by

kongquyu

Qwen-UI-Agent Technical Report: Toward Next-Generation Real-World Centric Foundation GUI Agents

AlibabaTongyiLab

4

Submitted by

astarkkk

Metis: Memory Foundation Model

MemTensor

Submitted by

iseesaw

Frontis-MA1: Training an AI4AI Model towards Recursive Self-Improvement in Machine Learning Engineering

FrontisAI

Submitted by

taesiri

PhiZero: A World Model Built Around Physical Language

·
7 authors

Submitted by

Lin-Chen

VideoCoCo: Code-as-CoT for Physically-Consistent Video Generation via an Agentic Dual-Engine System

·
28 authors

Submitted by

Rubin-Wei

Memory Decoder at Scale: A Pretrained, Parametric Long-Term Memory

·
7 authors

Submitted by

DogNeverSleep

Beacon: Knowing When and How to Perform Agentic Visual Reasoning

KlingTeam

Submitted by

Bstwpy

BM25 Wins at Scale: A Scaling Study of Retrieval-Augmented Generation Paradigms

muset-ai

Submitted by

Ryann829

Flux-OPD: On-Policy Distillation with Evolving Contexts

PekingUniversity

Peking University

1

Submitted by

Ayanami0730

MPIE-Bench: Benchmarking Anatomically Plausible Multi-Person Interaction Editing

muset-ai

Submitted by

taesiri

ACE-Data-0: Human-Centric Ambient Capture as Embodied Data Engine

·
16 authors

Submitted by

Ayanami0730

Beyond Borrowed Histories: Person-Aligned User Simulation for Interactive Role-Playing Evaluation

muset-ai

Submitted by

DogNeverSleep

RefCaptioner: Multi-Reference Image-Grounded Video Captioning

KlingTeam

Submitted by

Yang-Zhou

SpatialCLI: Learning to Reason With Spatial Tools, Then Without Them

·
13 authors

Submitted by

SiyuYanYan

See2Think: Do Multimodal Models Really Use Intermediate Visual States?

·
13 authors

Submitted by

minghuiliu

β-OPSD: Deriving with Policy Optimization, Training with Self-Distillation

Furong Huang's Lab at UMD

1

Submitted by

taesiri

Chimera: Designing and Chinchilla-Scaling Hybrid Visual Diffusion Transformers

adobe

Submitted by

kpzhang996

ShadowDancer: Teaching Video World Models Any Action by Learning Unified Dynamics Representations from a Video and Its Shadow

AlayaLab

Submitted by

YZCS

Can Large Language Models Execute Parent Orders?

·
10 authors

Submitted by

Edaizi

MemHarness: Memory Is Reconstructed, Not Replayed

KnowledgeXLab

KnowledgeXLab@Shanghai AI Lab

Submitted by

DavidSunok

INTACT: Isomorphic Intent-to-Action Learning for Search-Free World Models

zju

Zhejiang University

Submitted by

EnjunDu

LEDGERMIND: Provenance-Constrained Multimodal Agentic Reasoning with a Structured Evidence Ledger

·
7 authors

Submitted by

akshaynambi

Echoverse: Deep, Evolving Environments for Training Computer-Use Agents at Scale

MicrosoftResearch

Microsoft Research

Submitted by

Jackbrocp

Σ-Mem: An Online Reliability Memory for LLM-based Multi-Agent Systems

NanyangTechnologicalUniversity

Nanyang Technological University

1

Submitted by

wdlctc

Multi-Head Attention Residuals

·
3 authors

Submitted by

alexiglad

Explorative Modeling: Unlocking a Third Pretraining Axis and End-to-End Generation

illinois

University of Illinois at Urbana-Champaign

Submitted by

KevinSRR

Filesystem-Based Memory for LLM Agents: Organization, Evolution, and Sustainability

·
11 authors

1

Submitted by

kinneso

Revisiting Lossy Verification in Speculative Decoding: Mechanisms, Trade-offs, and Failure Modes

·
6 authors

Submitted by

YanningHou

Harness-G: A Graph-Structured Harness for Search Agents

·
9 authors

Submitted by

Consonnm

OmniScope: Modality-Decoupled Token Compression for Omnimodal Large Language Models

·
6 authors

Submitted by

whfeLingYu

Is Deep Research Reliable? Misleading Knowledge Induces False Conclusions

·
4 authors

Submitted by

oookiku

AI Tour Meeting: Group Travel Planning by LLM Agents

·
1 authors

Submitted by

taesiri

ReToken: One Token to Improve Vision-Language Models for Visual Retrieval

·
6 authors

Submitted by

oopere

Fairness Pruning: Locating Demographic Bias in GLU-MLP Layers via Differential Activations

·
3 authors

2

Submitted by

Huiyuancs

Beyond Geometric Complementarity: Coherent Overlap in Sparse Mixture-of-Experts Routing

·
3 authors

1

Submitted by

dlion168

AMRD: Adaptive Multi-Teacher Relational Distillation for Lightweight Speech Emotion Recognition

·
8 authors

1

Submitted by

jub-aer

Pedestrian Archetypes Extension -- More Pedestrian Models for Autonomous Vehicle Safety Testing

·
9 authors

1