Qwen2.5-14B-Instruct FP8 Static Quantized with KVCache
使用 m-a-p/COIG-CQIA zhihu subset 校准静态量化的 Qwen/Qwen2.5-14B-Instruct 模型,可启用 fp8 kv cache。
subset 中主要为中文通常语言逻辑任务,为 vLLM 准备。
使用
参数加入 kv_cache_dtype="fp8"
评估
使用 lm-evaluation-harness + vLLM 进行评估(A100 with no FP8 support):
lm_eval --model vllm --model_args pretrained=MODEL_DIR,kv_cache_dtype=fp8,add_bos_token=True --tasks gsm8k --num_fewshot 5 --batch_size auto
得分
项目 | Qwen2.5-14B-Instruct | 此项目 | Recovery |
---|---|---|---|
GSM8K 5shots | 83.78 | 83.47 | 99.63% |
Prefill 速度
项目 | Qwen2.5-14B-Instruct | 此项目 | Improvement |
---|---|---|---|
GSM8K 5shots | 1240.53 | 1395.89 | 12.52% |
Decode 速度
项目 | Qwen2.5-14B-Instruct | 此项目 | Improvement |
---|---|---|---|
GSM8K 5shots | 287.38 | 316.10 | 10% |
- Downloads last month
- 6
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support