Models
Datasets
Spaces
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2508.10874

TsinghuaC3I/SSRL

Preview • Updated 20 days ago • 42 • 2
TsinghuaC3I/Llama-3.1-8B-Instruct-SSRL

Text Generation • 8B • Updated 20 days ago • 27
TsinghuaC3I/Llama-3.2-3B-Instruct-SSRL

Text Generation • 4B • Updated 20 days ago • 10
TsinghuaC3I/Qwen2.5-7B-Instruct-SSRL

Text Generation • 8B • Updated 21 days ago • 10

SSRL: Self-Search Reinforcement Learning

Paper • 2508.10874 • Published 11 days ago • 88
Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens

Paper • 2508.01191 • Published 24 days ago • 225
Thinking with Nothinking Calibration: A New In-Context Learning Paradigm in Reasoning Large Language Models

Paper • 2508.03363 • Published 20 days ago • 1

RL+reason model

RL + Transformer = A General-Purpose Problem Solver

Paper • 2501.14176 • Published Jan 24 • 28
Towards General-Purpose Model-Free Reinforcement Learning

Paper • 2501.16142 • Published Jan 27 • 31
SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

Paper • 2501.17161 • Published Jan 28 • 123
MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization

Paper • 2412.12098 • Published Dec 16, 2024 • 5

TempFlow-GRPO: When Timing Matters for GRPO in Flow Models

Paper • 2508.04324 • Published 19 days ago • 9
DINOv3

Paper • 2508.10104 • Published 12 days ago • 193
SSRL: Self-Search Reinforcement Learning

Paper • 2508.10874 • Published 11 days ago • 88

SSRL: Self-Search Reinforcement Learning

Paper • 2508.10874 • Published 11 days ago • 88

research-catchup

Llama-3.1-FoundationAI-SecurityLLM-8B-Instruct Technical Report

Paper • 2508.01059 • Published 24 days ago • 33
Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens

Paper • 2508.01191 • Published 24 days ago • 225
On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification

Paper • 2508.05629 • Published 18 days ago • 158
GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models

Paper • 2508.06471 • Published 17 days ago • 159

Towards General-Purpose Model-Free Reinforcement Learning

Paper • 2501.16142 • Published Jan 27 • 31
DAPO: An Open-Source LLM Reinforcement Learning System at Scale

Paper • 2503.14476 • Published Mar 18 • 137
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

Paper • 2504.13837 • Published Apr 18 • 134
Learning to Reason under Off-Policy Guidance

Paper • 2504.14945 • Published Apr 21 • 86

about 4 hours ago

SSRL: Self-Search Reinforcement Learning

Paper • 2508.10874 • Published 11 days ago • 88
FutureX: An Advanced Live Benchmark for LLM Agents in Future Prediction

Paper • 2508.11987 • Published 9 days ago • 58
Deep Think with Confidence

Paper • 2508.15260 • Published 5 days ago • 54

SSRL: Self-Search Reinforcement Learning

Paper • 2508.10874 • Published 11 days ago • 88
Speed Always Wins: A Survey on Efficient Architectures for Large Language Models

Paper • 2508.09834 • Published 12 days ago • 48

Research and ideas

A Comprehensive Survey of Self-Evolving AI Agents: A New Paradigm Bridging Foundation Models and Lifelong Agentic Systems

Paper • 2508.07407 • Published 15 days ago • 84
A Survey on Diffusion Language Models

Paper • 2508.10875 • Published 11 days ago • 33
GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models

Paper • 2508.06471 • Published 17 days ago • 159
Noise Hypernetworks: Amortizing Test-Time Compute in Diffusion Models

Paper • 2508.09968 • Published 12 days ago • 15

TsinghuaC3I/SSRL

Preview • Updated 20 days ago • 42 • 2
TsinghuaC3I/Llama-3.1-8B-Instruct-SSRL

Text Generation • 8B • Updated 20 days ago • 27
TsinghuaC3I/Llama-3.2-3B-Instruct-SSRL

Text Generation • 4B • Updated 20 days ago • 10
TsinghuaC3I/Qwen2.5-7B-Instruct-SSRL

Text Generation • 8B • Updated 21 days ago • 10

research-catchup

Llama-3.1-FoundationAI-SecurityLLM-8B-Instruct Technical Report

Paper • 2508.01059 • Published 24 days ago • 33
Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens

Paper • 2508.01191 • Published 24 days ago • 225
On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification

Paper • 2508.05629 • Published 18 days ago • 158
GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models

Paper • 2508.06471 • Published 17 days ago • 159

SSRL: Self-Search Reinforcement Learning

Paper • 2508.10874 • Published 11 days ago • 88
Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens

Paper • 2508.01191 • Published 24 days ago • 225
Thinking with Nothinking Calibration: A New In-Context Learning Paradigm in Reasoning Large Language Models

Paper • 2508.03363 • Published 20 days ago • 1

Towards General-Purpose Model-Free Reinforcement Learning

Paper • 2501.16142 • Published Jan 27 • 31
DAPO: An Open-Source LLM Reinforcement Learning System at Scale

Paper • 2503.14476 • Published Mar 18 • 137
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

Paper • 2504.13837 • Published Apr 18 • 134
Learning to Reason under Off-Policy Guidance

Paper • 2504.14945 • Published Apr 21 • 86

RL+reason model

RL + Transformer = A General-Purpose Problem Solver

Paper • 2501.14176 • Published Jan 24 • 28
Towards General-Purpose Model-Free Reinforcement Learning

Paper • 2501.16142 • Published Jan 27 • 31
SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

Paper • 2501.17161 • Published Jan 28 • 123
MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization

Paper • 2412.12098 • Published Dec 16, 2024 • 5

about 4 hours ago

SSRL: Self-Search Reinforcement Learning

Paper • 2508.10874 • Published 11 days ago • 88
FutureX: An Advanced Live Benchmark for LLM Agents in Future Prediction

Paper • 2508.11987 • Published 9 days ago • 58
Deep Think with Confidence

Paper • 2508.15260 • Published 5 days ago • 54

TempFlow-GRPO: When Timing Matters for GRPO in Flow Models

Paper • 2508.04324 • Published 19 days ago • 9
DINOv3

Paper • 2508.10104 • Published 12 days ago • 193
SSRL: Self-Search Reinforcement Learning

Paper • 2508.10874 • Published 11 days ago • 88

SSRL: Self-Search Reinforcement Learning

Paper • 2508.10874 • Published 11 days ago • 88
Speed Always Wins: A Survey on Efficient Architectures for Large Language Models

Paper • 2508.09834 • Published 12 days ago • 48

SSRL: Self-Search Reinforcement Learning

Paper • 2508.10874 • Published 11 days ago • 88

Research and ideas

A Comprehensive Survey of Self-Evolving AI Agents: A New Paradigm Bridging Foundation Models and Lifelong Agentic Systems

Paper • 2508.07407 • Published 15 days ago • 84
A Survey on Diffusion Language Models

Paper • 2508.10875 • Published 11 days ago • 33
GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models

Paper • 2508.06471 • Published 17 days ago • 159
Noise Hypernetworks: Amortizing Test-Time Compute in Diffusion Models

Paper • 2508.09968 • Published 12 days ago • 15

Previous
1
2
Next

Company

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs