Transformers - a Andyrasika Collection

Andyrasika 's Collections

Agents

Prompt-collection

Ankush Collection

Audio

Reinforcement Learning

Stable Diffusion

Synthetic Datasets

Transformers

updated Dec 6, 2024

This collection is for Transformer Articles

INT-FP-QSim: Mixed Precision and Formats For Large Language Models and Vision Transformers

Paper • 2307.03712 • Published Jul 7, 2023 • 1
Tree Attention: Topology-aware Decoding for Long-Context Attention on GPU clusters

Paper • 2408.04093 • Published Aug 7, 2024 • 4
Arcee's MergeKit: A Toolkit for Merging Large Language Models

Paper • 2403.13257 • Published Mar 20, 2024 • 20
LongVILA: Scaling Long-Context Visual Language Models for Long Videos

Paper • 2408.10188 • Published Aug 19, 2024 • 53
Emu3: Next-Token Prediction is All You Need

Paper • 2409.18869 • Published Sep 27, 2024 • 95
m2mKD: Module-to-Module Knowledge Distillation for Modular Transformers

Paper • 2402.16918 • Published Feb 26, 2024
Scaling Transformers for Low-Bitrate High-Quality Speech Coding

Paper • 2411.19842 • Published Nov 29, 2024 • 12
Monet: Mixture of Monosemantic Experts for Transformers

Paper • 2412.04139 • Published Dec 5, 2024 • 13