Ollama

核心 · Key Idea

一句话：Ollama 把 llama.cpp 包成「像 Docker 一样」的 CLI，ollama run llama3.2 一行就跑起来。自动量化下载、API 服务、模型库 —— 个人 / 本地开发不用碰 GPU 配置。

速查#

# 装：mac/linux 一行；windows 有 installer
curl -fsSL https://ollama.com/install.sh | sh
 
# 跑
ollama run qwen2.5:7b
ollama run llama3.2
ollama run deepseek-r1:8b
 
# 列 / 删
ollama list
ollama rm qwen2.5:7b
 
# 暴露 API（默认 http://localhost:11434）
ollama serve

API 兼容 OpenAI v1（带 OLLAMA_HOST=0.0.0.0:11434 + /v1/chat/completions），主流前端 / 工具都直连。

打个比方#

打个比方 · Analogy

原来本地跑 LLM 像自己装显卡 + 编译 CUDA + 找 GGUF 量化：能跑但门槛高。
Ollama 像App Store：搜模型 → 一键安装 → 立即用。

关键概念#

Modelfile模型描述

类似 Dockerfile：FROM 基模型 + SYSTEM 指令 + PARAMETER 调温度。

Tag版本

qwen2.5:7b、qwen2.5:14b-instruct-q4_0；冒号后是大小 / 量化 / 变体。

GGUF量化格式

llama.cpp 的高效推理格式，支持 q4 / q5 / q8 / fp16。

GPU offloadGPU 卸载

OLLAMA_NUM_GPU 设几层放 GPU；剩下放内存。

Context Length上下文长度

`PARAMETER num_ctx 32768`；超过原模型上下文需要 RoPE 外推。

Embeddings向量

也支持 `ollama embed` 做本地向量。

怎么工作#

实操要点#

挑模型：mac M 系列 16GB 跑 7-8B Q4 流畅；32GB 上 14B；70B 需要 64GB+ 或量化更狠。
自定义 system prompt：Modelfile 里 SYSTEM "..." + PARAMETER temperature 0.4，ollama create my-llama -f Modelfile。
API 默认仅 localhost：要给同网段机器用，OLLAMA_HOST=0.0.0.0:11434 ollama serve 并配防火墙。
GPU 没用上：ollama ps 看 GPU offload 行；nvidia-smi / Activity Monitor 配合查。
接 Cherry Studio / LobeChat / Open WebUI：当 OpenAI 兼容 endpoint 即可。
嵌入向量：ollama embed -m nomic-embed-text "句子"，本地 RAG 不再需要在线 embedding API。
生产替代：高并发请用 vLLM / TGI；Ollama 更适合单用户 / 个人 / 边缘。

易混点#

Ollama

CLI + 后台服务。
可被前端 / 工具直接调用。

LM Studio

桌面 GUI。
适合纯交互式使用。