年份与会议
2023 · arXiv
把知识问答、代码能力、对话质量和 LLM-as-a-Judge 放到同一张图里,帮助读者理解“模型更强”到底应该怎样被验证。
年份与会议
2023 · arXiv
作者
Lianmin Zheng、Wei-Lin Chiang、Ying Sheng、Tianle Cai、et al.
主题
评测
阅读时长
约 3 分钟
收录时间
2023/06/09
在小模型时代,评测通常比较直接:给一个固定任务,算准确率、F1 或 BLEU,结果就比较清楚。但到了大模型时代,这种简单做法很快失效了。原因在于,今天的模型同时承担很多角色:
于是“更强”不再是单一维度,而变成一组彼此相关但不完全一致的能力集合。
这也是为什么 LLM 评测方法论 是一个必须单独讲清楚的话题。没有好的评测,你很难判断:
传统 benchmark 最大的问题不是没用,而是维度太窄。比如:
如果你只盯住其中一个分数,往往会出现误判:
这意味着大模型评测必须从“单指标思维”转向“能力地图思维”。
如果把主流 benchmark 放进同一张图里,就会更容易看出它们并不是在测同一件事:
<rect x="330" y="84" width="320" height="70" rx="22" fill="#f6f9ff" stroke="#d7e2f1" />
<text x="490" y="116" text-anchor="middle" font-size="20" font-weight="700">LLM 评测面板</text>
<text x="490" y="138" text-anchor="middle" font-size="13" fill="#4b5563">知识、代码、对话、行为、安全、系统效果要一起看</text>
<g>
<rect x="54" y="220" width="190" height="96" rx="20" fill="#e8f1ff" stroke="#98b7e1" />
<text x="149" y="252" text-anchor="middle" font-size="20" font-weight="700">MMLU</text>
<text x="149" y="276" text-anchor="middle" font-size="13" fill="#4b5563">知识覆盖 / 学科问答</text>
<text x="149" y="296" text-anchor="middle" font-size="13" fill="#4b5563">强项:横向比较稳定</text>
</g>
<g>
<rect x="280" y="220" width="190" height="96" rx="20" fill="#eef6e8" stroke="#a8c48e" />
<text x="375" y="252" text-anchor="middle" font-size="20" font-weight="700">HumanEval</text>
<text x="375" y="276" text-anchor="middle" font-size="13" fill="#4b5563">代码生成 / pass@k</text>
<text x="375" y="296" text-anchor="middle" font-size="13" fill="#4b5563">强项:可执行验证</text>
</g>
<g>
<rect x="506" y="220" width="190" height="96" rx="20" fill="#fff4dc" stroke="#e2c36f" />
<text x="601" y="252" text-anchor="middle" font-size="20" font-weight="700">MT-Bench</text>
<text x="601" y="276" text-anchor="middle" font-size="13" fill="#4b5563">多轮对话 / 帮助性</text>
<text x="601" y="296" text-anchor="middle" font-size="13" fill="#4b5563">强项:更接近产品体验</text>
</g>
<g>
<rect x="732" y="220" width="190" height="96" rx="20" fill="#fce7ef" stroke="#e2a8bd" />
<text x="827" y="252" text-anchor="middle" font-size="20" font-weight="700">LLM Judge</text>
<text x="827" y="276" text-anchor="middle" font-size="13" fill="#4b5563">偏好比较 / 大规模打分</text>
<text x="827" y="296" text-anchor="middle" font-size="13" fill="#4b5563">强项:低成本近似人工</text>
</g>
<line x1="394" y1="154" x2="149" y2="220" stroke="#5b6b7f" stroke-width="3" marker-end="url(#eval-map-arrow)" />
<line x1="454" y1="154" x2="375" y2="220" stroke="#5b6b7f" stroke-width="3" marker-end="url(#eval-map-arrow)" />
<line x1="526" y1="154" x2="601" y2="220" stroke="#5b6b7f" stroke-width="3" marker-end="url(#eval-map-arrow)" />
<line x1="586" y1="154" x2="827" y2="220" stroke="#5b6b7f" stroke-width="3" marker-end="url(#eval-map-arrow)" />
<rect x="80" y="342" width="820" height="32" rx="16" fill="#f4f7fb" stroke="#d7e2f1" />
<text x="490" y="364" text-anchor="middle" font-size="14" fill="#4b5563">再往上还要叠加:工具调用成功率、结构化输出稳定性、安全拒答、系统级成本与延迟</text>
</g>
MMLU 的重要性在于,它试图覆盖大量学科和知识领域,让模型面对更接近“广泛考试题”的问题。它的价值主要有三点:
但它也有明显局限:
所以 MMLU 很重要,但绝不应被误当成“通用智能总分”。
HumanEval 把大模型评测推向了另一个关键方向:可执行验证。
相比纯文本问答,代码任务有一个天然优势:
这让它比很多语言类 benchmark 更客观,也更难被语言流畅性掩盖。HumanEval 的重要意义包括:
但 HumanEval 也不是万能:
因此,它更像代码能力评测的起点,而不是终点。
大模型产品真正爆发后,行业很快发现一个问题:知识题和代码题都重要,但用户最直接感受到的往往是对话体验。
MT-Bench 的价值就在于,它尝试把评测拉回更接近真实聊天和多轮交互的场景。它关注的不只是答对,而是:
这类评测比单轮题目更接近产品实际,但也更主观。因此,MT-Bench 同时推动了另一个重要方向:LLM-as-a-Judge。
人工评测真实可靠,但太贵、太慢、难以高频使用。于是社区开始尝试:
这就是 LLM-as-a-Judge 的基本思路。它之所以流行,是因为它在“成本”和“可用性”之间取得了现实平衡:
但这条路线也很危险,因为 judge model 本身也有偏差,会受到风格、位置、措辞等因素影响。因此,LLM-as-a-Judge 很有用,但不能被神化。
如果把这些 benchmark 放在一起,比较成熟的大模型评测体系通常至少需要覆盖四层:
没有哪一个单一 benchmark 可以代表这四层,因此真正靠谱的团队通常都会构建组合式评测面板,而不是迷信单个总分。
离线题目表现好,不代表上线对话体验一定好。
如果 prompt 模板、system message 或检索模块改了,评测提升可能并不是模型本体变强。
当 benchmark 被训练数据、评测集蒸馏或社区反复优化污染后,分数会越来越不可信。
一个模型可能平均分不错,但在某类高风险问题上持续翻车。
这也是为什么高质量评测不只是算均值,更要看 error analysis。
评测并不是研发之后的附属动作。它实际上会反过来影响团队的优化方向:
这意味着糟糕的评测会带来非常真实的副作用:
因此,评测设计本身就是产品与研究共同定义目标的过程,而不是纯后台统计。
到 2026 年,评测大体已经出现几个明显趋势:
也就是说,大模型评测越来越像“评估一个完整服务”,而不是只评一个裸模型。
如果你只想抓住主线,请记住:
把这三点想清楚,你再读任何“某模型又刷新 SOTA”的新闻或论文时,就会更冷静地判断它到底意味着什么。
沿着相近主题继续阅读,加深对方法边界与实践场景的理解。