Models
Datasets
Spaces
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2508.01191

research-catchup

Llama-3.1-FoundationAI-SecurityLLM-8B-Instruct Technical Report

Paper • 2508.01059 • Published 25 days ago • 33
Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens

Paper • 2508.01191 • Published 25 days ago • 225
On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification

Paper • 2508.05629 • Published 19 days ago • 164
GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models

Paper • 2508.06471 • Published 18 days ago • 160

SSRL: Self-Search Reinforcement Learning

Paper • 2508.10874 • Published 12 days ago • 88
Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens

Paper • 2508.01191 • Published 25 days ago • 225
Thinking with Nothinking Calibration: A New In-Context Learning Paradigm in Reasoning Large Language Models

Paper • 2508.03363 • Published 22 days ago • 1

Towards General-Purpose Model-Free Reinforcement Learning

Paper • 2501.16142 • Published Jan 27 • 31
DAPO: An Open-Source LLM Reinforcement Learning System at Scale

Paper • 2503.14476 • Published Mar 18 • 137
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

Paper • 2504.13837 • Published Apr 18 • 134
Learning to Reason under Off-Policy Guidance

Paper • 2504.14945 • Published Apr 21 • 86

Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens

Paper • 2508.01191 • Published 25 days ago • 225

Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens

Paper • 2508.01191 • Published 25 days ago • 225

Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens

Paper • 2508.01191 • Published 25 days ago • 225

Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens

Paper • 2508.01191 • Published 25 days ago • 225

Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens

Paper • 2508.01191 • Published 25 days ago • 225

Papers Pertinent or Protuberant

The Cow of Rembrandt - Analyzing Artistic Prompt Interpretation in Text-to-Image Models

Paper • 2507.23313 • Published 27 days ago • 1
SonicMaster: Towards Controllable All-in-One Music Restoration and Mastering

Paper • 2508.03448 • Published 22 days ago • 1
C3D-AD: Toward Continual 3D Anomaly Detection via Kernel Attention with Learnable Advisor

Paper • 2508.01311 • Published 25 days ago • 2
Normalized Attention Guidance: Universal Negative Guidance for Diffusion Model

Paper • 2505.21179 • Published May 27 • 13

R-Zero: Self-Evolving Reasoning LLM from Zero Data

Paper • 2508.05004 • Published 20 days ago • 122
Don't Overthink It: A Survey of Efficient R1-style Large Reasoning Models

Paper • 2508.02120 • Published 23 days ago • 18
Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens

Paper • 2508.01191 • Published 25 days ago • 225
On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification

Paper • 2508.05629 • Published 19 days ago • 164

research-catchup

Llama-3.1-FoundationAI-SecurityLLM-8B-Instruct Technical Report

Paper • 2508.01059 • Published 25 days ago • 33
Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens

Paper • 2508.01191 • Published 25 days ago • 225
On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification

Paper • 2508.05629 • Published 19 days ago • 164
GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models

Paper • 2508.06471 • Published 18 days ago • 160

Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens

Paper • 2508.01191 • Published 25 days ago • 225

SSRL: Self-Search Reinforcement Learning

Paper • 2508.10874 • Published 12 days ago • 88
Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens

Paper • 2508.01191 • Published 25 days ago • 225
Thinking with Nothinking Calibration: A New In-Context Learning Paradigm in Reasoning Large Language Models

Paper • 2508.03363 • Published 22 days ago • 1

Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens

Paper • 2508.01191 • Published 25 days ago • 225

Towards General-Purpose Model-Free Reinforcement Learning

Paper • 2501.16142 • Published Jan 27 • 31
DAPO: An Open-Source LLM Reinforcement Learning System at Scale

Paper • 2503.14476 • Published Mar 18 • 137
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

Paper • 2504.13837 • Published Apr 18 • 134
Learning to Reason under Off-Policy Guidance

Paper • 2504.14945 • Published Apr 21 • 86

Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens

Paper • 2508.01191 • Published 25 days ago • 225

Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens

Paper • 2508.01191 • Published 25 days ago • 225

Papers Pertinent or Protuberant

The Cow of Rembrandt - Analyzing Artistic Prompt Interpretation in Text-to-Image Models

Paper • 2507.23313 • Published 27 days ago • 1
SonicMaster: Towards Controllable All-in-One Music Restoration and Mastering

Paper • 2508.03448 • Published 22 days ago • 1
C3D-AD: Toward Continual 3D Anomaly Detection via Kernel Attention with Learnable Advisor

Paper • 2508.01311 • Published 25 days ago • 2
Normalized Attention Guidance: Universal Negative Guidance for Diffusion Model

Paper • 2505.21179 • Published May 27 • 13

Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens

Paper • 2508.01191 • Published 25 days ago • 225

R-Zero: Self-Evolving Reasoning LLM from Zero Data

Paper • 2508.05004 • Published 20 days ago • 122
Don't Overthink It: A Survey of Efficient R1-style Large Reasoning Models

Paper • 2508.02120 • Published 23 days ago • 18
Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens

Paper • 2508.01191 • Published 25 days ago • 225
On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification

Paper • 2508.05629 • Published 19 days ago • 164

Previous
1
2
3
Next

Company

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs