new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

Jun 18

Submitted by

Xueqing

MultiFinBen: A Multilingual, Multimodal, and Difficulty-Aware Benchmark for Financial LLM Evaluation

·
44 authors

3

Submitted by

zhangysk

Scaling Test-time Compute for LLM Agents

·
15 authors

3

Submitted by

nicolaus625

CMI-Bench: A Comprehensive Benchmark for Evaluating Music Instruction Following

·
5 authors

Submitted by

LiuXR

LongLLaDA: Unlocking Long Context Capabilities in Diffusion LLMs

·
6 authors

2

Submitted by

mparvez

Xolver: Multi-Agent Reasoning with Holistic Experience Learning Just Like an Olympiad Team

·
4 authors

Submitted by

shun-zheng

Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs

·
12 authors

5

Submitted by

zhangshaolei

Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model

·
5 authors

2

Submitted by

zhaocheng

Efficient Medical VIE via Reinforcement Learning

·
8 authors

2

Submitted by

daixuancheng

Reasoning with Exploration: An Entropy Perspective

·
7 authors

4

Submitted by

koustuvs

V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning

·
30 authors

Submitted by

amsabour

Align Your Flow: Scaling Continuous-Time Flow Map Distillation

·
3 authors

Submitted by

lwl-uestc

QFFT, Question-Free Fine-Tuning for Adaptive Reasoning

·
10 authors

2

Submitted by

yilunzhao

Can LLMs Generate High-Quality Test Cases for Algorithm Problems? TestCase-Eval: A Systematic Evaluation of Fault Coverage and Exposure

·
4 authors

2

Submitted by

cetosignis

From Bytes to Ideas: Language Modeling with Autoregressive U-Nets

·
6 authors

Submitted by

ahmedheakl

Guaranteed Guess: A Language Modeling Approach for CISC-to-RISC Transpilation with Testing Guarantees

·
5 authors

2

Submitted by

zichenwen

EfficientVLA: Training-Free Acceleration and Compression for Vision-Language-Action Models

·
8 authors

Submitted by

zhoutianyi

Optimizing Length Compression in Large Reasoning Models

·
4 authors

2

Submitted by

Liuff23

xbench: Tracking Agents Productivity Scaling with Profession-Aligned Real-World Evaluations

·
33 authors

2

Submitted by

CostaliyA

CRITICTOOL: Evaluating Self-Critique Capabilities of Large Language Models in Tool-Calling Error Scenarios

·
9 authors

2

Submitted by

giannisdaras

Ambient Diffusion Omni: Training Good Models with Bad Data

·
5 authors

Submitted by

Siyuc

Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders

·
5 authors

Submitted by

XaiverZ

Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning

·
3 authors

Submitted by

ahmedheakl

VideoMolmo: Spatio-Temporal Grounding Meets Pointing

·
8 authors

6

Submitted by

Xuandong

AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents

·
4 authors

Submitted by

akhaliq

Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs

·
46 authors

Submitted by

JJ-TMT

CAMS: A CityGPT-Powered Agentic Framework for Urban Human Mobility Simulation

·
4 authors

2

Submitted by

MatanBT

Universal Jailbreak Suffixes Are Strong Attention Hijackers

·
3 authors

2

Submitted by

dsouzadaniel

Treasure Hunt: Real-time Targeting of the Long Tail using Training-Time Markers

·
5 authors

Submitted by

amanchadha

Alignment Quality Index (AQI) : Beyond Refusals: AQI as an Intrinsic Alignment Diagnostic via Latent Geometry, Cluster Divergence, and Layer wise Pooled Representations

·
15 authors

2

Submitted by

Wenhao0

Mixture-of-Experts Meets In-Context Reinforcement Learning

·
7 authors

2

Submitted by

FaiyazAbdullah114708

VisText-Mosquito: A Multimodal Dataset and Benchmark for AI-Based Mosquito Breeding Site Detection and Reasoning

·
7 authors

2

Submitted by

BeileiCui

TR2M: Transferring Monocular Relative Depth to Metric Depth with Language Descriptions and Scale-Oriented Contrast

·
4 authors

Submitted by

hsichelin

EMLoC: Emulator-based Memory-efficient Fine-tuning with LoRA Correction

·
4 authors

Submitted by

ChetKao

Graph Counselor: Adaptive Graph Exploration via Multi-Agent Synergy to Enhance LLM Reasoning

·
7 authors

Submitted by

MaxDu

DynaGuide: Steering Diffusion Polices with Active Dynamic Guidance

·
2 authors

2