Search-R1-v0.2

PeterJinGo 's Collections

updated 13 days ago

Exploration with a more stable RL pipeline with outcome-only reward and scaled-up LLMs. https://arxiv.org/abs/2503.09516

Upvote

PeterJinGo/R1-nq_hotpotqa_train-qwen2.5-3b-em-ppo-v0.2

3B • Updated Apr 4 • 6
PeterJinGo/R1-nq_hotpotqa_train-qwen2.5-3b-it-em-ppo-v0.2

3B • Updated Apr 4 • 83
PeterJinGo/SearchR1-nq_hotpotqa_train-qwen2.5-3b-em-ppo-v0.2

3B • Updated Apr 1 • 590 • 1
PeterJinGo/SearchR1-nq_hotpotqa_train-qwen2.5-3b-it-em-ppo-v0.2

3B • Updated Apr 1 • 1.01k
PeterJinGo/SearchR1-nq_hotpotqa_train-qwen2.5-3b-em-grpo-v0.2

3B • Updated Apr 1 • 289
PeterJinGo/SearchR1-nq_hotpotqa_train-qwen2.5-3b-it-em-grpo-v0.2

3B • Updated Apr 1 • 109 • 1
PeterJinGo/R1-nq_hotpotqa_train-qwen2.5-7b-em-ppo-v0.2

8B • Updated Apr 4 • 5
PeterJinGo/R1-nq_hotpotqa_train-qwen2.5-7b-it-em-ppo-v0.2

8B • Updated Apr 4 • 6
PeterJinGo/SearchR1-nq_hotpotqa_train-qwen2.5-7b-em-ppo-v0.2

8B • Updated Apr 1 • 3.27k
PeterJinGo/SearchR1-nq_hotpotqa_train-qwen2.5-7b-it-em-ppo-v0.2

8B • Updated Apr 1 • 325
PeterJinGo/SearchR1-nq_hotpotqa_train-qwen2.5-7b-em-grpo-v0.2

8B • Updated Apr 1 • 240
PeterJinGo/SearchR1-nq_hotpotqa_train-qwen2.5-7b-it-em-grpo-v0.2

8B • Updated Apr 1 • 932
PeterJinGo/SearchR1-nq_hotpotqa_train-qwen2.5-7b-em-grpo-groupsize1-v0.2

8B • Updated Apr 1 • 5
PeterJinGo/SearchR1-nq_hotpotqa_train-qwen2.5-7b-em-grpo-groupsize3-v0.2

8B • Updated Apr 1 • 5
PeterJinGo/R1-nq_hotpotqa_train-qwen2.5-14b-em-ppo-v0.2

15B • Updated Apr 4 • 6
PeterJinGo/R1-nq_hotpotqa_train-qwen2.5-14b-it-em-ppo-v0.2

15B • Updated Apr 4 • 5
PeterJinGo/SearchR1-nq_hotpotqa_train-qwen2.5-14b-em-ppo-v0.2

15B • Updated Apr 5 • 8
PeterJinGo/SearchR1-nq_hotpotqa_train-qwen2.5-14b-it-em-ppo-v0.2

15B • Updated Apr 5 • 7
PeterJinGo/SearchR1-nq_hotpotqa_train-qwen2.5-14b-em-grpo-groupsize1-v0.2

15B • Updated Apr 1 • 7
PeterJinGo/SearchR1-nq_hotpotqa_train-qwen2.5-14b-it-em-grpo-groupsize1-v0.2

15B • Updated Apr 1 • 6
PeterJinGo/wiki-18-corpus

Updated Feb 26 • 582
PeterJinGo/wiki-18-e5-index

Updated Feb 26 • 1.3k
PeterJinGo/wiki-18-e5-index-HNSW64

Updated Apr 4 • 21
PeterJinGo/wiki-18-bm25-index

Updated Apr 4 • 197
PeterJinGo/nq_hotpotqa_train

Viewer • Updated Mar 13 • 221k • 671 • 7
PeterJinGo/LICENCE

Viewer • Updated 13 days ago • 202 • 82

Upvote