Code Generation - a kaizuberbuehler Collection

kaizuberbuehler 's Collections

Reasoning, Thinking, RL and Test-Time Scaling

Vision Language Models

Foundation Models

Synthetic Data and Self-Improvement

Agents

LM Prompt Engineering

LM Capabilities and Scaling

LM Architectures

Code Generation

EXL2 Quantized Models

Code Generation

updated Jul 20

CodeEditorBench: Evaluating Code Editing Capability of Large Language Models

Paper • 2404.03543 • Published Apr 4, 2024 • 18
DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence

Paper • 2406.11931 • Published Jun 17, 2024 • 66
AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents

Paper • 2407.18901 • Published Jul 26, 2024 • 35
Diversity Empowers Intelligence: Integrating Expertise of Software Engineering Agents

Paper • 2408.07060 • Published Aug 13, 2024 • 43
SWE-bench-java: A GitHub Issue Resolving Benchmark for Java

Paper • 2408.14354 • Published Aug 26, 2024 • 42
FuzzCoder: Byte-level Fuzzing Test via Large Language Model

Paper • 2409.01944 • Published Sep 3, 2024 • 46
Qwen2.5-Coder Technical Report

Paper • 2409.12186 • Published Sep 18, 2024 • 151
HyperAgent: Generalist Software Engineering Agents to Solve Coding Tasks at Scale

Paper • 2409.16299 • Published Sep 9, 2024 • 12
CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings

Paper • 2501.01257 • Published Jan 2 • 53
HumanEval Pro and MBPP Pro: Evaluating Large Language Models on Self-invoking Code Generation

Paper • 2412.21199 • Published Dec 30, 2024 • 14
Outcome-Refining Process Supervision for Code Generation

Paper • 2412.15118 • Published Dec 19, 2024 • 19
o1-Coder: an o1 Replication for Coding

Paper • 2412.00154 • Published Nov 29, 2024 • 45
CodeDPO: Aligning Code Models with Self Generated and Verified Source Code

Paper • 2410.05605 • Published Oct 8, 2024 • 1
Enhancing LLM Agents for Code Generation with Possibility and Pass-rate Prioritized Experience Replay

Paper • 2410.12236 • Published Oct 16, 2024 • 1
OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models

Paper • 2411.04905 • Published Nov 7, 2024 • 127
SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution

Paper • 2501.05040 • Published Jan 9 • 15
Competitive Programming with Large Reasoning Models

Paper • 2502.06807 • Published Feb 3 • 69
ACECODER: Acing Coder RL via Automated Test-Case Synthesis

Paper • 2502.01718 • Published Feb 3 • 29
Large Language Model Guided Self-Debugging Code Generation

Paper • 2502.02928 • Published Feb 5 • 13
CodeSteer: Symbolic-Augmented Language Models via Code/Text Guidance

Paper • 2502.04350 • Published Feb 4 • 11
CODESIM: Multi-Agent Code Generation and Problem Solving through Simulation-Driven Planning and Debugging

Paper • 2502.05664 • Published Feb 8 • 24
S*: Test Time Scaling for Code Generation

Paper • 2502.14382 • Published Feb 20 • 63
SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution

Paper • 2502.18449 • Published Feb 25 • 75
CodeCriticBench: A Holistic Code Critique Benchmark for Large Language Models

Paper • 2502.16614 • Published Feb 23 • 27
CODESYNC: Synchronizing Large Language Models with Dynamic Code Evolution at Scale

Paper • 2502.16645 • Published Feb 23 • 22
KodCode: A Diverse, Challenging, and Verifiable Synthetic Dataset for Coding

Paper • 2503.02951 • Published Mar 4 • 32
FEA-Bench: A Benchmark for Evaluating Repository-Level Code Generation for Feature Implementation

Paper • 2503.06680 • Published Mar 9 • 20
Benchmarking AI Models in Software Engineering: A Review, Search Tool, and Enhancement Protocol

Paper • 2503.05860 • Published Mar 7 • 11
LocAgent: Graph-Guided LLM Agents for Code Localization

Paper • 2503.09089 • Published Mar 12 • 13
LoRACode: LoRA Adapters for Code Embeddings

Paper • 2503.05315 • Published Mar 7 • 13
SWE-smith: Scaling Data for Software Engineering Agents

Paper • 2504.21798 • Published Apr 30 • 10
SWE-bench: Can Language Models Resolve Real-World GitHub Issues?

Paper • 2310.06770 • Published Oct 10, 2023 • 9
SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks

Paper • 2503.15478 • Published Mar 19 • 13
Measuring AI Ability to Complete Long Tasks

Paper • 2503.14499 • Published Mar 18 • 13
BigO(Bench) -- Can LLMs Generate Code with Controlled Time and Space Complexity?

Paper • 2503.15242 • Published Mar 19 • 10
CodeARC: Benchmarking Reasoning Capabilities of LLM Agents for Inductive Program Synthesis

Paper • 2503.23145 • Published Mar 29 • 36
Z1: Efficient Test-time Scaling with Code

Paper • 2504.00810 • Published Apr 1 • 27
OpenCodeReasoning: Advancing Data Distillation for Competitive Coding

Paper • 2504.01943 • Published Apr 2 • 16
Reasoning-SQL: Reinforcement Learning with SQL Tailored Partial Rewards for Reasoning-Enhanced Text-to-SQL

Paper • 2503.23157 • Published Mar 29 • 11