核心 · Key Idea
一句话:模型评测有三大流派:自动答题集(MMLU / GSM8K / HumanEval)、人类对战 / Arena(Chatbot Arena)、LLM-as-Judge(用强模型当裁判)。任一单独都不够,要混着看。
三大流派#
- Static Benchmarks
- MMLU、GSM8K、HumanEval、CMMLU、MATH 等。客观但易污染。
- Arena / 人评
- 用户盲测两个模型回答 → 投票。Chatbot Arena ELO 是当前最权威之一。
- LLM-as-Judge
- 用 GPT-4 / Claude 给两个回答打分。MT-Bench、AlpacaEval 用的是这套。
- 针对性场景测试
- Tool use(BFCL)、长上下文(LongBench、RULER)、多语(CMMLU)、安全(Anthropic HH)等。
打个比方#
打个比方 · Analogy
Benchmark 像高考标准答题:客观分数好对比,但容易刷题。
Arena 像辩论赛大众投票:贴近真实使用,但慢且贵。
LLM-Judge 像让另一个学霸来打分:快但有偏见(偏好啰嗦 / 长答案)。
关键概念#
Pass@k通过率
采样 k 次有 ≥1 次通过的概率。HumanEval / MBPP 用得多。
ELO棋类评分系统
Arena 用它对模型排名,每场胜负更新分数。
Judge Bias裁判偏见
GPT-4 偏好长答 + 自己家族 + 第一个出现的回答。需要交换位置 + position swap 平衡。
Contamination数据污染
测试题泄漏到训练集 → 分数虚高。HELM / MMLU 都遇到过。
Holistic Eval综合评测
HELM、Open LLM Leaderboard 综合多个维度算总分。
End-to-end Task Eval真实任务评测
SWE-bench(解决真实 GitHub issue)、AgentBench(Agent 任务)等更接近实用。
主流榜单一览#
只看一个榜单容易被刷题误导,多榜对比更可靠。
实操要点#
- 业务模型选型流程:
- 看 Arena ELO + Open LLM Leaderboard 缩小候选;
- 用自家测试集做小流量 A/B;
- 让你的运营 / 产品当人评,不要只看自动分。
- 定制评测集:写 50-200 道贴你业务的题(含边界 / 反人设 / 对抗)。模型一升级先跑这套。
- 防污染:自己写题、加私有签名、定期换。
- LLM-Judge 的对抗:position swap(A 在前 / B 在前各跑一遍)+ 多 judge 投票(GPT-4o + Claude + DeepSeek)。
- 能力 ≠ 实用:MMLU 90 不代表用得舒服。「好用」很多时候是 RLHF + 输出风格 + 速度而不是知识。
易混点#
自动 Benchmark
可重复、便宜。
易刷题、易污染。
易刷题、易污染。
人类评测 / Arena
更接近真实使用。
慢、贵、噪声大。
慢、贵、噪声大。