ArcLibrary

Parameters (参数量)

7B / 72B 究竟意味着什么 —— 模型规模与能力的最直观度量。

Parameters规模
核心 · Key Idea

一句话:参数量是模型内部「可调节的小开关」总数。开关越多,模型能存的语言模式越细 —— 但显存占用、推理成本、训练难度也线性甚至超线性上升。

是什么#

模型在训练时学到的所有知识,都被压缩进一组「权重数字」里。每个数字就是一个参数

  • 7B = 70 亿参数
  • 72B = 720 亿
  • 671B (DeepSeek V3) = 6710 亿

简单理解:参数量 = 模型「脑细胞数量」。

打个比方#

打个比方 · Analogy

3B 像本地小词典;70B 像一整面书墙;千亿级别像一座国家图书馆。书越多,能查的越细,但书架也越占地方、越贵。

关键概念#

Active Parameters激活参数
推理时真正参与计算的参数。MoE 模型总参数大但每次只激活一部分。
Precision数值精度
FP16 / FP8 / INT4 等。一个参数占 2 字节 (FP16) 还是 0.5 字节 (INT4),决定显存占用。
Compute训练算力
训练成本约 ∝ Parameters × Tokens。规模翻倍,成本不止翻倍。
Scaling Laws扩展法则
Chinchilla 实验:大致每 1B 参数需要 ~20B 训练 Token 才训得「足」。

怎么估显存#

加载模型显存(粗算):

显存 ≈ Parameters × 每个参数字节数

精度每参数70B 模型
FP32 (训练)4 B~280 GB
FP16 / BF162 B~140 GB
INT81 B~70 GB
INT4 (量化)0.5 B~35 GB

加上 KV Cache、激活值,实际还要再加 20–50%

实操要点#

  • 本地玩:消费级显卡 (24G) → 7B–13B 量化版很舒服;4090 / A6000 → 30B–70B 量化版可跑。
  • API 选模型:参数大 ≠ 任务一定好。先小后大,能用 8B 解决就别上 70B,省钱省延迟。
  • MoE (混合专家):DeepSeek V3 / Mixtral 等总参数大但每次激活少 —— 跑得比同精度密集模型快,但要的显存仍然按总参数算。
  • 量化是性价比之王:INT4 通常智商损失 ≤ 5%,显存却减到 1/4,本地推理首选。

易混点#

Parameters (参数量)
模型权重数量 —— **结构性容量**。
决定它「学过多少」、显存占用。
Context Window (上下文)
一次推理可见 Token 数 —— **运行时容量**。
跟参数量没有直接关系。
参数多 = 智商高
**常见误区**:模型越大就一定越聪明。
实际情况
**数据质量、训练时长、对齐方法**同等重要。
Llama-3 70B 经常打不过 Claude Sonnet (闭源未知规模)。

延伸阅读#