模型评测（Benchmarks 与 LLM-as-Judge）

核心 · Key Idea

一句话：模型评测有三大流派：自动答题集（MMLU / GSM8K / HumanEval）、人类对战 / Arena（Chatbot Arena）、LLM-as-Judge（用强模型当裁判）。任一单独都不够，要混着看。

三大流派#

打个比方 · Analogy

Benchmark 像高考标准答题：客观分数好对比，但容易刷题。
Arena 像辩论赛大众投票：贴近真实使用，但慢且贵。
LLM-Judge 像让另一个学霸来打分：快但有偏见（偏好啰嗦 / 长答案）。

Pass@k通过率

采样 k 次有 ≥1 次通过的概率。HumanEval / MBPP 用得多。

ELO棋类评分系统

Arena 用它对模型排名，每场胜负更新分数。

Judge Bias裁判偏见

GPT-4 偏好长答 + 自己家族 + 第一个出现的回答。需要交换位置 + position swap 平衡。

Contamination数据污染

测试题泄漏到训练集 → 分数虚高。HELM / MMLU 都遇到过。

Holistic Eval综合评测

HELM、Open LLM Leaderboard 综合多个维度算总分。

End-to-end Task Eval真实任务评测

SWE-bench（解决真实 GitHub issue）、AgentBench（Agent 任务）等更接近实用。

只看一个榜单容易被刷题误导，多榜对比更可靠。

业务模型选型流程：
1. 看 Arena ELO + Open LLM Leaderboard 缩小候选；
2. 用自家测试集做小流量 A/B；
3. 让你的运营 / 产品当人评，不要只看自动分。
定制评测集：写 50-200 道贴你业务的题（含边界 / 反人设 / 对抗）。模型一升级先跑这套。
防污染：自己写题、加私有签名、定期换。
LLM-Judge 的对抗：position swap（A 在前 / B 在前各跑一遍）+ 多 judge 投票（GPT-4o + Claude + DeepSeek）。
能力 ≠ 实用：MMLU 90 不代表用得舒服。「好用」很多时候是 RLHF + 输出风格 + 速度而不是知识。

自动 Benchmark

可重复、便宜。
易刷题、易污染。

人类评测 / Arena

更接近真实使用。
慢、贵、噪声大。