核心 · Key Idea
一句话:Ollama 把 llama.cpp 包成「像 Docker 一样」的 CLI,ollama run llama3.2 一行就跑起来。自动量化下载、API 服务、模型库 —— 个人 / 本地开发不用碰 GPU 配置。
速查#
# 装:mac/linux 一行;windows 有 installer
curl -fsSL https://ollama.com/install.sh | sh
# 跑
ollama run qwen2.5:7b
ollama run llama3.2
ollama run deepseek-r1:8b
# 列 / 删
ollama list
ollama rm qwen2.5:7b
# 暴露 API(默认 http://localhost:11434)
ollama serveAPI 兼容 OpenAI v1(带 OLLAMA_HOST=0.0.0.0:11434 + /v1/chat/completions),主流前端 / 工具都直连。
打个比方#
打个比方 · Analogy
原来本地跑 LLM 像自己装显卡 + 编译 CUDA + 找 GGUF 量化:能跑但门槛高。
Ollama 像App Store:搜模型 → 一键安装 → 立即用。
关键概念#
Modelfile模型描述
类似 Dockerfile:FROM 基模型 + SYSTEM 指令 + PARAMETER 调温度。
Tag版本
qwen2.5:7b、qwen2.5:14b-instruct-q4_0;冒号后是大小 / 量化 / 变体。
GGUF量化格式
llama.cpp 的高效推理格式,支持 q4 / q5 / q8 / fp16。
GPU offloadGPU 卸载
OLLAMA_NUM_GPU 设几层放 GPU;剩下放内存。
Context Length上下文长度
`PARAMETER num_ctx 32768`;超过原模型上下文需要 RoPE 外推。
Embeddings向量
也支持 `ollama embed` 做本地向量。
怎么工作#
实操要点#
- 挑模型:mac M 系列 16GB 跑 7-8B Q4 流畅;32GB 上 14B;70B 需要 64GB+ 或量化更狠。
- 自定义 system prompt:
Modelfile里SYSTEM "..."+PARAMETER temperature 0.4,ollama create my-llama -f Modelfile。 - API 默认仅 localhost:要给同网段机器用,
OLLAMA_HOST=0.0.0.0:11434 ollama serve并配防火墙。 - GPU 没用上:
ollama ps看 GPU offload 行;nvidia-smi / Activity Monitor 配合查。 - 接 Cherry Studio / LobeChat / Open WebUI:当 OpenAI 兼容 endpoint 即可。
- 嵌入向量:
ollama embed -m nomic-embed-text "句子",本地 RAG 不再需要在线 embedding API。 - 生产替代:高并发请用 vLLM / TGI;Ollama 更适合单用户 / 个人 / 边缘。
易混点#
Ollama
CLI + 后台服务。
可被前端 / 工具直接调用。
可被前端 / 工具直接调用。
LM Studio
桌面 GUI。
适合纯交互式使用。
适合纯交互式使用。