模型性能对比报告

1. 核心指标对比

下表汇总了两个模型在关键评估指标上的表现。

评估指标 (Metric) 模型 A (Qwen3-4B) 模型 B (Qwen3-14B) 优胜者 指标说明
子集准确率 (Subset Accuracy) 0.1676 0.2584 🟢 模型 B 预测标签集与真实标签集完全匹配的样本比例。越高越好。
微观-F1 (Micro-F1) 0.2093 0.3011 🟢 模型 B 综合所有样本的预测情况计算F1分数,受常见标签影响较大。越高越好。
宏观-F1 (Macro-F1) 0.1835 0.2315 🟢 模型 B 计算每个标签的F1分数后取平均,平等对待所有标签。越高越好。
加权-F1 (Weighted-F1) 0.4271 0.5018 🟢 模型 B Macro-F1的加权版本,考虑了每个标签的样本数量。越高越好。
汉明损失 (Hamming Loss) 0.0389 0.0281 🟢 模型 B 预测错误的标签占总标签数的比例。越低越好。

分析结论: 从所有核心指标来看,模型 B 全面胜出

  • 子集准确率 提升了约 **54%**(从 0.1676 到 0.2584),这是一个非常显著的进步,因为该指标要求所有标签都预测正确,非常严格。
  • 所有 F1 分数(微观、宏观、加权)也都有明显提升,表明模型 B 在查准率(Precision)和查全率(Recall)之间取得了更好的平衡。
  • 汉明损失 降低了约 **28%**(从 0.0389 到 0.0281),意味着模型 B 在单个标签上的预测错误更少。

2. “未知标签” 生成情况分析

“未知标签” (Unknown Labels) 指的是模型生成了不在预定义标签列表中的标签。这是评估模型是否严格遵循指令的重要参考。

  • 模型 A: 生成了大量未知标签。其中一个特别的未知标签是 [],出现了 284 次。这通常意味着模型在很多情况下未能生成任何有效的标签,直接输出了一个空列表。此外,它还生成了大量无意义的字母(如 "n" 33次, "d" 26次)和包含指令性文本的标签。

  • 模型 B: 同样生成了未知标签,但没有出现 [] 这样的空标签。最常见的未知标签是 (1) acq(203次),这可能是模型在学习过程中产生的某种格式偏见。虽然这也是问题,但相比模型 A 直接“放弃作答”的情况要好一些。

分析结论: 模型 B 在遵循指令、生成有效标签方面的能力更强。它没有像模型 A 那样频繁地生成空结果,显示出更好的稳定性和任务理解能力。


综合评估

模型 B (Qwen3-14B-reuters21578-multilabel) 是两个模型中表现更优越的一个。

  • 精度更高: 所有定量指标都远超模型 A,无论是在严格的完全匹配(子集准确率)还是在整体的 F1 分数上。
  • 稳定性更好: 模型 B 很少生成无效的空标签,而模型 A 有大量的此类输出,这表明模型 B 的输出更可靠。

可以推断,模型 B 更大的参数量(14B)带来了更强的学习和理解能力,使其能够更准确地完成多标签分类任务。

Downloads last month
7
Safetensors
Model size
2.26B params
Tensor type
F32
·
FP16
·
U8
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for robertlyon/Qwen3-14b-reuters21578

Finetuned
Qwen/Qwen3-14B
Quantized
(83)
this model

Dataset used to train robertlyon/Qwen3-14b-reuters21578