In a Training Loop 🔄

1 5 27

Michael Benayoun

michaelbenayoun

AI & ML interests

None yet

Recent Activity

upvoted an article 11 days ago

Introducing Storage Buckets on the Hugging Face Hub

updated a model 11 days ago

michaelbenayoun/qwen3-tiny-4kv-heads-4layers-random

updated a model 22 days ago

michaelbenayoun/rmsnorm

View all activity

Organizations

Articles 2

Article

Scaling up BERT-like model Inference on modern CPU - Part 2

Article

Introducing Optimum: The Optimization Toolkit for Transformers at Scale

View all Articles

Collections 1

models 17

datasets 0

None public yet

Michael Benayoun

AI & ML interests

Recent Activity

Organizations

Articles 2

Scaling up BERT-like model Inference on modern CPU - Part 2

Introducing Optimum: The Optimization Toolkit for Transformers at Scale

Collections 1

PyTorch FSDP: Experiences on Scaling Fully Sharded Data Parallel

Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism

Reducing Activation Recomputation in Large Transformer Models

GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism

PyTorch FSDP: Experiences on Scaling Fully Sharded Data Parallel

Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism

Reducing Activation Recomputation in Large Transformer Models

GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism

models 17

michaelbenayoun/qwen3-tiny-4kv-heads-4layers-random

michaelbenayoun/rmsnorm

michaelbenayoun/qwen3-tiny-4kv-heads-8layers-random

michaelbenayoun/deepseekv3-tiny-4kv-heads-4-layers-random

michaelbenayoun/granite-tiny-4kv-heads-4layers-random

michaelbenayoun/lora-qkv-included-llama-2-tiny-4kv-heads-4layers-random

michaelbenayoun/lora-2-qkv-included-llama-2-tiny-4kv-heads-4layers-random

michaelbenayoun/llama-2-tiny-4kv-heads-4layers-random

michaelbenayoun/llama-2-tiny-4kv-heads-16layers-random

michaelbenayoun/t5-tiny-random

datasets 0

Michael Benayoun

AI & ML interests

Recent Activity

Organizations

Articles 2

Scaling up BERT-like model Inference on modern CPU - Part 2

Introducing Optimum: The Optimization Toolkit for Transformers at Scale

Collections 1

models 17 Sort: Recently updated

datasets 0

models 17