robertlyon/Qwen3-14b-reuters21578

下表汇总了两个模型在关键评估指标上的表现。

评估指标 (Metric)	模型 A (`Qwen3-4B`)	模型 B (`Qwen3-14B`)	优胜者	指标说明
子集准确率 (Subset Accuracy)	0.1676	0.2584	🟢 模型 B	预测标签集与真实标签集完全匹配的样本比例。越高越好。
微观-F1 (Micro-F1)	0.2093	0.3011	🟢 模型 B	综合所有样本的预测情况计算F1分数，受常见标签影响较大。越高越好。
宏观-F1 (Macro-F1)	0.1835	0.2315	🟢 模型 B	计算每个标签的F1分数后取平均，平等对待所有标签。越高越好。
加权-F1 (Weighted-F1)	0.4271	0.5018	🟢 模型 B	Macro-F1的加权版本，考虑了每个标签的样本数量。越高越好。
汉明损失 (Hamming Loss)	0.0389	0.0281	🟢 模型 B	预测错误的标签占总标签数的比例。越低越好。

分析结论: 从所有核心指标来看，模型 B 全面胜出。

“未知标签” (Unknown Labels) 指的是模型生成了不在预定义标签列表中的标签。这是评估模型是否严格遵循指令的重要参考。

模型 A: 生成了大量未知标签。其中一个特别的未知标签是 []，出现了 284 次。这通常意味着模型在很多情况下未能生成任何有效的标签，直接输出了一个空列表。此外，它还生成了大量无意义的字母（如 "n" 33次, "d" 26次）和包含指令性文本的标签。
模型 B: 同样生成了未知标签，但没有出现 [] 这样的空标签。最常见的未知标签是 (1) acq（203次），这可能是模型在学习过程中产生的某种格式偏见。虽然这也是问题，但相比模型 A 直接“放弃作答”的情况要好一些。

分析结论: 模型 B 在遵循指令、生成有效标签方面的能力更强。它没有像模型 A 那样频繁地生成空结果，显示出更好的稳定性和任务理解能力。

模型 B (Qwen3-14B-reuters21578-multilabel) 是两个模型中表现更优越的一个。

可以推断，模型 B 更大的参数量（14B）带来了更强的学习和理解能力，使其能够更准确地完成多标签分类任务。

robertlyon
/

Qwen3-14b-reuters21578