#include #if defined CUDA_VERSION && CUDA_VERSION >= 12000 #include "scaled_mm_c3x_sm90_fp8_dispatch.cuh" #include "scaled_mm_c3x_sm90_int8_dispatch.cuh" #include "cutlass_extensions/epilogue/scaled_mm_epilogues_c3x.hpp" using namespace vllm; /* This file defines quantized GEMM operations using the CUTLASS 3.x API, for NVIDIA GPUs with sm90a (Hopper) or later. */ template