Qwen2.5-14B-Instruct FP8 Static Quantized with KVCache

使用 m-a-p/COIG-CQIA zhihu subset 校准静态量化的 Qwen/Qwen2.5-14B-Instruct 模型,可启用 fp8 kv cache。

subset 中主要为中文通常语言逻辑任务,为 vLLM 准备。

使用

参数加入 kv_cache_dtype="fp8"

评估

使用 lm-evaluation-harness + vLLM 进行评估(A100 with no FP8 support):

lm_eval --model vllm --model_args pretrained=MODEL_DIR,kv_cache_dtype=fp8,add_bos_token=True --tasks gsm8k --num_fewshot 5 --batch_size auto

得分

项目 Qwen2.5-14B-Instruct 此项目 Recovery
GSM8K 5shots 83.78 83.47 99.63%

Prefill 速度

项目 Qwen2.5-14B-Instruct 此项目 Improvement
GSM8K 5shots 1240.53 1395.89 12.52%

Decode 速度

项目 Qwen2.5-14B-Instruct 此项目 Improvement
GSM8K 5shots 287.38 316.10 10%
Downloads last month
6
Safetensors
Model size
14.8B params
Tensor type
BF16
·
F8_E4M3
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support