Parameters (参数量)

核心 · Key Idea

一句话：参数量是模型内部「可调节的小开关」总数。开关越多，模型能存的语言模式越细 —— 但显存占用、推理成本、训练难度也线性甚至超线性上升。

是什么#

模型在训练时学到的所有知识，都被压缩进一组「权重数字」里。每个数字就是一个参数。

简单理解：参数量 = 模型「脑细胞数量」。

打个比方 · Analogy

3B 像本地小词典；70B 像一整面书墙；千亿级别像一座国家图书馆。书越多，能查的越细，但书架也越占地方、越贵。

Active Parameters激活参数

推理时真正参与计算的参数。MoE 模型总参数大但每次只激活一部分。

Precision数值精度

FP16 / FP8 / INT4 等。一个参数占 2 字节 (FP16) 还是 0.5 字节 (INT4)，决定显存占用。

Compute训练算力

训练成本约 ∝ Parameters × Tokens。规模翻倍，成本不止翻倍。

Scaling Laws扩展法则

Chinchilla 实验：大致每 1B 参数需要 ~20B 训练 Token 才训得「足」。

加载模型显存（粗算）：

显存 ≈ Parameters × 每个参数字节数

加上 KV Cache、激活值，实际还要再加 20–50%。

本地玩：消费级显卡 (24G) → 7B–13B 量化版很舒服；4090 / A6000 → 30B–70B 量化版可跑。
API 选模型：参数大 ≠ 任务一定好。先小后大，能用 8B 解决就别上 70B，省钱省延迟。
MoE (混合专家)：DeepSeek V3 / Mixtral 等总参数大但每次激活少 —— 跑得比同精度密集模型快，但要的显存仍然按总参数算。
量化是性价比之王：INT4 通常智商损失 ≤ 5%，显存却减到 1/4，本地推理首选。

Parameters (参数量)

模型权重数量 —— **结构性容量**。
决定它「学过多少」、显存占用。

Context Window (上下文)

一次推理可见 Token 数 —— **运行时容量**。
跟参数量没有直接关系。

参数多 = 智商高

**常见误区**：模型越大就一定越聪明。

实际情况

**数据质量、训练时长、对齐方法**同等重要。
Llama-3 70B 经常打不过 Claude Sonnet (闭源未知规模)。