Yifan Zhang's picture

Yifan Zhang

yifAI

·

AI & ML interests

Language Models, Deep Learning

Recent Activity

liked a dataset 5 days ago

HuggingFaceFW/fineweb

updated a dataset 5 days ago

math-ai/BlueMO

liked a dataset 5 days ago

HuggingFaceFW/finepdfs-edu

View all activity

Organizations

upvoted a paper 25 days ago

Deep Delta Learning

Paper • 2601.00417 • Published 29 days ago • 33

upvoted 2 papers about 1 month ago

Monadic Context Engineering

Paper • 2512.22431 • Published Dec 27, 2025 • 9

Web World Models

Paper • 2512.23676 • Published Dec 29, 2025 • 24

upvoted a collection about 1 month ago

NVIDIA Nemotron v3

Open, Production-ready Enterprise Models • 7 items • Updated about 8 hours ago • 128

upvoted a paper about 2 months ago

Group Representational Position Encoding

Paper • 2512.07805 • Published Dec 8, 2025 • 4

upvoted 3 papers 3 months ago

Defeating the Training-Inference Mismatch via FP16

Paper • 2510.26788 • Published Oct 30, 2025 • 30

Higher-order Linear Attention

Paper • 2510.27258 • Published Oct 31, 2025 • 15

Language Server CLI Empowers Language Agents with Process Rewards

Paper • 2510.22907 • Published Oct 27, 2025 • 5

upvoted an article 3 months ago

Article

Lanser-CLI: Language Server CLI Empowers Language Agents with Process Rewards 🛠️🏆

Oct 27, 2025

•

1

upvoted a paper 4 months ago

Aristotle: IMO-level Automated Theorem Proving

Paper • 2510.01346 • Published Oct 1, 2025 • 17

upvoted a collection 5 months ago

Pretraining

3 items • Updated 5 days ago • 1

upvoted a paper 6 months ago

A Markov Categorical Framework for Language Modeling

Paper • 2507.19247 • Published Jul 25, 2025 • 2

upvoted a paper 8 months ago

On the Design of KL-Regularized Policy Gradient Algorithms for LLM Reasoning

Paper • 2505.17508 • Published May 23, 2025 • 8

upvoted a paper 9 months ago

FormalMATH: Benchmarking Formal Mathematical Reasoning of Large Language Models

Paper • 2505.02735 • Published May 5, 2025 • 33

upvoted 5 papers about 1 year ago

MiniMax-01: Scaling Foundation Models with Lightning Attention

Paper • 2501.08313 • Published Jan 14, 2025 • 300

Tensor Product Attention Is All You Need

Paper • 2501.06425 • Published Jan 11, 2025 • 90

Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376

Scaling Image Tokenizers with Grouped Spherical Quantization

Paper • 2412.02632 • Published Dec 3, 2024 • 10

Training and Evaluating Language Models with Template-based Data Generation

Paper • 2411.18104 • Published Nov 27, 2024 • 3

upvoted an article about 1 year ago

Article

Revisiting TemplateGSM: Advancing Mathematical Reasoning in Language Models with Template-based Data Generation

Nov 14, 2024

•

3