Fynn Kröger's picture

Fynn Kröger

fynnkroeger

·

AI & ML interests

None yet

Organizations

None yet

fynnkroeger's activity

upvoted a paper 2 days ago

Kolmogorov-Arnold Transformer

Paper • 2409.10594 • Published 6 days ago • 28

upvoted a paper 18 days ago

OLMoE: Open Mixture-of-Experts Language Models

Paper • 2409.02060 • Published 19 days ago • 75

upvoted a paper 20 days ago

VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters

Paper • 2408.17253 • Published 23 days ago • 35

upvoted a paper 23 days ago

Law of Vision Representation in MLLMs

Paper • 2408.16357 • Published 24 days ago • 92

upvoted 5 papers about 1 month ago

Scalable Autoregressive Image Generation with Mamba

Paper • 2408.12245 • Published Aug 22 • 22

Towards Conversational Diagnostic AI

Paper • 2401.05654 • Published Jan 11 • 15

MegaFusion: Extend Diffusion Models towards Higher-resolution Image Generation without Further Tuning

Paper • 2408.11001 • Published Aug 20 • 11

Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model

Paper • 2408.11039 • Published Aug 20 • 54

JPEG-LM: LLMs as Image Generators with Canonical Codec Representations

Paper • 2408.08459 • Published Aug 15 • 44

upvoted 2 papers about 2 months ago

POA: Pre-training Once for Models of All Sizes

Paper • 2408.01031 • Published Aug 2 • 26

The Llama 3 Herd of Models

Paper • 2407.21783 • Published Jul 31 • 102

upvoted 2 papers 2 months ago

Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies

Paper • 2407.13623 • Published Jul 18 • 52

GoldFinch: High Performance RWKV/Transformer Hybrid with Linear Pre-Fill and Extreme KV-Cache Compression

Paper • 2407.12077 • Published Jul 16 • 52

upvoted 11 papers 3 months ago

MJ-Bench: Is Your Multimodal Reward Model Really a Good Judge for Text-to-Image Generation?

Paper • 2407.04842 • Published Jul 5 • 52

TokenPacker: Efficient Visual Projector for Multimodal LLM

Paper • 2407.02392 • Published Jul 2 • 21

No Training, No Problem: Rethinking Classifier-Free Guidance for Diffusion Models

Paper • 2407.02687 • Published Jul 2 • 22

Agentless: Demystifying LLM-based Software Engineering Agents

Paper • 2407.01489 • Published Jul 1 • 42

Adam-mini: Use Fewer Learning Rates To Gain More

Paper • 2406.16793 • Published Jun 24 • 67

Instruction Pre-Training: Language Models are Supervised Multitask Learners

Paper • 2406.14491 • Published Jun 20 • 85

Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing

Paper • 2406.08464 • Published Jun 12 • 61

Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models

Paper • 2406.09416 • Published Jun 13 • 28

An Image is Worth More Than 16x16 Patches: Exploring Transformers on Individual Pixels

Paper • 2406.09415 • Published Jun 13 • 50

Depth Anything V2

Paper • 2406.09414 • Published Jun 13 • 91

McEval: Massively Multilingual Code Evaluation

Paper • 2406.07436 • Published Jun 11 • 39

upvoted an article 3 months ago

Article

Explaining the SDXL latent space

By

•

May 20

• 29

upvoted 5 papers 3 months ago

An Image is Worth 32 Tokens for Reconstruction and Generation

Paper • 2406.07550 • Published Jun 11 • 55

Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation

Paper • 2406.06525 • Published Jun 10 • 64

Proofread: Fixes All Errors with One Tap

Paper • 2406.04523 • Published Jun 6 • 12

WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild

Paper • 2406.04770 • Published Jun 7 • 26

Mixture-of-Agents Enhances Large Language Model Capabilities

Paper • 2406.04692 • Published Jun 7 • 54

upvoted 16 papers 4 months ago

BitsFusion: 1.99 bits Weight Quantization of Diffusion Model

Paper • 2406.04333 • Published Jun 6 • 36

MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark

Paper • 2406.01574 • Published Jun 3 • 42

Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality

Paper • 2405.21060 • Published May 31 • 63

LLMs achieve adult human performance on higher-order theory of mind tasks

Paper • 2405.18870 • Published May 29 • 16

Phased Consistency Model

Paper • 2405.18407 • Published May 28 • 46

Transformers Can Do Arithmetic with the Right Embeddings

Paper • 2405.17399 • Published May 27 • 51

Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization

Paper • 2405.15071 • Published May 23 • 34

ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models

Paper • 2405.15738 • Published May 24 • 43

Meteor: Mamba-based Traversal of Rationale for Large Language and Vision Models

Paper • 2405.15574 • Published May 24 • 52

The Road Less Scheduled

Paper • 2405.15682 • Published May 24 • 20

LiteVAE: Lightweight and Efficient Variational Autoencoders for Latent Diffusion Models

Paper • 2405.14477 • Published May 23 • 16

YOLOv10: Real-Time End-to-End Object Detection

Paper • 2405.14458 • Published May 23 • 6

Not All Language Model Features Are Linear

Paper • 2405.14860 • Published May 23 • 39

FIFO-Diffusion: Generating Infinite Videos from Text without Training

Paper • 2405.11473 • Published May 19 • 53

Diffusion for World Modeling: Visual Details Matter in Atari

Paper • 2405.12399 • Published May 20 • 25

What matters when building vision-language models?

Paper • 2405.02246 • Published May 3 • 98

upvoted 14 papers 5 months ago

LoRA Land: 310 Fine-tuned LLMs that Rival GPT-4, A Technical Report

Paper • 2405.00732 • Published Apr 29 • 118

Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models

Paper • 2405.01535 • Published May 2 • 114

Iterative Reasoning Preference Optimization

Paper • 2404.19733 • Published Apr 30 • 46

Better & Faster Large Language Models via Multi-token Prediction

Paper • 2404.19737 • Published Apr 30 • 73

KAN: Kolmogorov-Arnold Networks

Paper • 2404.19756 • Published Apr 30 • 108

Replacing Judges with Juries: Evaluating LLM Generations with a Panel of Diverse Models

Paper • 2404.18796 • Published Apr 29 • 68

CatLIP: CLIP-level Visual Recognition Accuracy with 2.7x Faster Pre-training on Web-scale Image-Text Data

Paper • 2404.15653 • Published Apr 24 • 26

Align Your Steps: Optimizing Sampling Schedules in Diffusion Models

Paper • 2404.14507 • Published Apr 22 • 21

SnapKV: LLM Knows What You are Looking for Before Generation

Paper • 2404.14469 • Published Apr 22 • 23

Multi-Head Mixture-of-Experts

Paper • 2404.15045 • Published Apr 23 • 58

OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework

Paper • 2404.14619 • Published Apr 22 • 124

The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions

Paper • 2404.13208 • Published Apr 19 • 38

How Good Are Low-bit Quantized LLaMA3 Models? An Empirical Study

Paper • 2404.14047 • Published Apr 22 • 43

Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

Paper • 2404.14219 • Published Apr 22 • 250