Yu Zhang's picture

Yu Zhang

yzhangcs

·

https://yzhang.site

AI & ML interests

None yet

Recent Activity

upvoted a paper about 1 month ago

Multiverse: Your Language Models Secretly Decide How to Parallelize and Merge Generation

upvoted a paper about 2 months ago

Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning

liked a dataset 4 months ago

yaofu/slimpajama-per-source-length-upsample

View all activity

Organizations

upvoted a paper about 1 month ago

Multiverse: Your Language Models Secretly Decide How to Parallelize and Merge Generation

Paper • 2506.09991 • Published Jun 11 • 56

upvoted a paper about 2 months ago

Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning

Paper • 2506.01939 • Published Jun 2 • 173

upvoted a paper 4 months ago

DeTikZify: Synthesizing Graphics Programs for Scientific Figures and Sketches with TikZ

Paper • 2405.15306 • Published May 24, 2024 • 8

upvoted a paper 5 months ago

LASP-2: Rethinking Sequence Parallelism for Linear Attention and Its Hybrid

Paper • 2502.07563 • Published Feb 11 • 24

upvoted a collection 5 months ago

Deepseek Papers

Deepseek papers collection • 24 items • Updated 6 days ago • 263

upvoted 2 papers 6 months ago

OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models

Paper • 2411.04905 • Published Nov 7, 2024 • 126

Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback

Paper • 2501.12895 • Published Jan 22 • 62

upvoted a collection 6 months ago

YuLan-Mini

A highly capable 2.4B lightweight LLM using only 1T pre-training data with all details. • 6 items • Updated Apr 14 • 16

upvoted a paper 6 months ago

Tensor Product Attention Is All You Need

Paper • 2501.06425 • Published Jan 11 • 89

upvoted an article 7 months ago

Article

Saving Memory Using Padding-Free Transformer Layers during Finetuning

By

•

Jun 11, 2024

• 18

upvoted a collection 7 months ago

OLMo 2

Artifacts for the OLMo 2 release. • 35 items • Updated May 1 • 135

upvoted a paper 7 months ago

Multimodal Latent Language Modeling with Next-Token Diffusion

Paper • 2412.08635 • Published Dec 11, 2024 • 46

upvoted 2 papers 8 months ago

Gated Delta Networks: Improving Mamba2 with Delta Rule

Paper • 2412.06464 • Published Dec 9, 2024 • 12

RedPajama: an Open Dataset for Training Large Language Models

Paper • 2411.12372 • Published Nov 19, 2024 • 57

upvoted 2 papers 9 months ago

Hierarchically Gated Recurrent Neural Network for Sequence Modeling

Paper • 2311.04823 • Published Nov 8, 2023 • 2

Qwen2-Audio Technical Report

Paper • 2407.10759 • Published Jul 15, 2024 • 60

upvoted a paper 10 months ago

Gated Linear Attention Transformers with Hardware-Efficient Training

Paper • 2312.06635 • Published Dec 11, 2023 • 7

upvoted a collection 11 months ago

GSA

3 items • Updated Mar 18 • 2

upvoted 2 papers 11 months ago

Gated Slot Attention for Efficient Linear-Time Sequence Modeling

Paper • 2409.07146 • Published Sep 11, 2024 • 21

Power Scheduler: A Batch Size and Token Number Agnostic Learning Rate Scheduler

Paper • 2408.13359 • Published Aug 23, 2024 • 25