Qwen2.5-14B-Instruct FP8 Static Quantized with KVCache

使用 m-a-p/COIG-CQIA zhihu subset 校准静态量化的 Qwen/Qwen2.5-14B-Instruct 模型，可启用 fp8 kv cache。

subset 中主要为中文通常语言逻辑任务，为 vLLM 准备。

使用

参数加入 kv_cache_dtype="fp8"

使用 lm-evaluation-harness + vLLM 进行评估（A100 with no FP8 support）：

lm_eval --model vllm --model_args pretrained=MODEL_DIR,kv_cache_dtype=fp8,add_bos_token=True --tasks gsm8k --num_fewshot 5 --batch_size auto

项目	Qwen2.5-14B-Instruct	此项目	Recovery
GSM8K 5shots	83.78	83.47	99.63%

项目	Qwen2.5-14B-Instruct	此项目	Improvement
GSM8K 5shots	1240.53	1395.89	12.52%

项目	Qwen2.5-14B-Instruct	此项目	Improvement
GSM8K 5shots	287.38	316.10	10%