Local Inference (本地推理)

核心 · Key Idea

一句话：本地推理 = 不调云 API，把模型权重下载下来在自己机器跑。靠量化 + 高效推理引擎（llama.cpp / Ollama / vLLM），8B 模型笔记本秒跑，70B 量化版台式机能跑 —— 数据隐私、零 API 费、可离线。

是什么#

完整链路：

1. 选一个开源模型 (Llama 3 / Qwen / DeepSeek)
2. 下载量化版 (.gguf / .safetensors)
3. 用推理引擎加载 (Ollama / llama.cpp / vLLM)
4. 通过 OpenAI 兼容 API 调用 → 完毕

ollama run llama3 一行命令，本机就有了能聊天的 LLM API。

打个比方 · Analogy

GGUFGGUF 格式

llama.cpp 主推的量化模型容器格式。CPU/GPU 通用。

Inference Engine推理引擎

llama.cpp / vLLM / SGLang / TGI / MLX —— 实际跑模型的程序。

Tokens/sec吞吐

衡量本地推理速度的关键指标。消费级 GPU 7B INT4 ≈ 50 tok/s。

VRAM Footprint显存占用

= 量化模型大小 + KV Cache。长 context 时 KV Cache 飞涨。

应用代码完全可以和云 API 一致 —— 只改 OPENAI_BASE_URL 指向本地。

新手用 Ollama：ollama run llama3.1、ollama run qwen2.5，几分钟从零到能聊。
看显存先看「模型大小 + 1–2 GB KV Cache」：再加上系统本身。8GB 显存能跑 7B INT4，12 GB 起跑 13B，24 GB 起摸 70B INT4。
生产用 vLLM：吞吐比 Ollama 高一个量级，支持 paged KV cache + 持续批处理。
MoE 模型对显存要求降一档：14B 激活 / 总 47B 的 Mixtral 跑起来比 47B dense 便宜得多。
永远先跑量化版：fp16 70B 需要 4×A100，量化 INT4 之后 1–2 张 4090 / 一台 mac studio 就能跑。

本地推理

数据**不出本机**。
一次性硬件成本 + 0 调用费。

云 API

**算力外包**给云厂。
随用随付、上限高。

本地推理

只跑前向 → 显存压力**主要是 KV Cache**。

本地训练

要存权重 + 梯度 + 优化器状态 —— **显存 ×3–5**。