模型性能对比报告
1. 核心指标对比
下表汇总了两个模型在关键评估指标上的表现。
评估指标 (Metric) | 模型 A (Qwen3-4B ) |
模型 B (Qwen3-14B ) |
优胜者 | 指标说明 |
---|---|---|---|---|
子集准确率 (Subset Accuracy) | 0.1676 | 0.2584 | 🟢 模型 B | 预测标签集与真实标签集完全匹配的样本比例。越高越好。 |
微观-F1 (Micro-F1) | 0.2093 | 0.3011 | 🟢 模型 B | 综合所有样本的预测情况计算F1分数,受常见标签影响较大。越高越好。 |
宏观-F1 (Macro-F1) | 0.1835 | 0.2315 | 🟢 模型 B | 计算每个标签的F1分数后取平均,平等对待所有标签。越高越好。 |
加权-F1 (Weighted-F1) | 0.4271 | 0.5018 | 🟢 模型 B | Macro-F1的加权版本,考虑了每个标签的样本数量。越高越好。 |
汉明损失 (Hamming Loss) | 0.0389 | 0.0281 | 🟢 模型 B | 预测错误的标签占总标签数的比例。越低越好。 |
分析结论: 从所有核心指标来看,模型 B 全面胜出。
- 子集准确率 提升了约 **54%**(从 0.1676 到 0.2584),这是一个非常显著的进步,因为该指标要求所有标签都预测正确,非常严格。
- 所有 F1 分数(微观、宏观、加权)也都有明显提升,表明模型 B 在查准率(Precision)和查全率(Recall)之间取得了更好的平衡。
- 汉明损失 降低了约 **28%**(从 0.0389 到 0.0281),意味着模型 B 在单个标签上的预测错误更少。
2. “未知标签” 生成情况分析
“未知标签” (Unknown Labels) 指的是模型生成了不在预定义标签列表中的标签。这是评估模型是否严格遵循指令的重要参考。
模型 A: 生成了大量未知标签。其中一个特别的未知标签是
[]
,出现了 284 次。这通常意味着模型在很多情况下未能生成任何有效的标签,直接输出了一个空列表。此外,它还生成了大量无意义的字母(如 "n" 33次, "d" 26次)和包含指令性文本的标签。模型 B: 同样生成了未知标签,但没有出现
[]
这样的空标签。最常见的未知标签是(1) acq
(203次),这可能是模型在学习过程中产生的某种格式偏见。虽然这也是问题,但相比模型 A 直接“放弃作答”的情况要好一些。
分析结论: 模型 B 在遵循指令、生成有效标签方面的能力更强。它没有像模型 A 那样频繁地生成空结果,显示出更好的稳定性和任务理解能力。
综合评估
模型 B (Qwen3-14B-reuters21578-multilabel
) 是两个模型中表现更优越的一个。
- 精度更高: 所有定量指标都远超模型 A,无论是在严格的完全匹配(子集准确率)还是在整体的 F1 分数上。
- 稳定性更好: 模型 B 很少生成无效的空标签,而模型 A 有大量的此类输出,这表明模型 B 的输出更可靠。
可以推断,模型 B 更大的参数量(14B)带来了更强的学习和理解能力,使其能够更准确地完成多标签分类任务。
- Downloads last month
- 7
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support