ArcLibrary

LLM (大语言模型)

生成式 AI 的「大脑」—— 一台用海量文本训练出来的「下一个词概率机」。

LLM基础
核心 · Key Idea

一句话:LLM = Large Language Model,本质是一个被海量文本喂大的「超级补全机」 —— 你给它一段话,它用概率挑出最可能的下一个 Token,再一个一个吐出来,看起来像在思考。

是什么#

GPT、Claude、Gemini、Qwen…… 不管底下用什么框架,核心数学都极其朴素

给定上文 x₁ x₂ … xₙ,预测下一个最可能的 Token xₙ₊₁

把这件事重复几千次,就生成了一段流利的回答。所以你看到的「智能」,本质是亿万次条件概率的累加

打个比方#

打个比方 · Analogy

LLM 像一位接梗鬼才朋友:你说半句,他立刻接住下半句。只是他读的「段子」是整个互联网,外加几千万本书、代码、论文。

关键概念#

Tokenizer分词器
把人话切成一串数字 ID 的入口。
Embedding嵌入层
把每个 Token ID 翻译成向量,让模型能做数学运算。
Transformer Blocks多层网络
整个模型最重的部分 —— 注意力 + 前馈网络堆叠几十上百层。
LM Head输出头
在词表上算概率分布,挑出下一个 Token。

怎么工作#

循环这个过程,直到模型吐出一个「停止」Token,整段回答就生成完了。

实操要点#

  • 它是概率机器:所谓「理解、推理、创意」全都建立在「下一个 Token 的概率」上 —— 所以它会编(参见 Hallucination)。
  • 它没有实时世界:模型有「知识截止日期」。需要最新信息,要靠 RAG 或工具调用补。
  • 它不会真正学习:跟它聊一万次,权重一个字节都不变。要让它「记住」,要么微调,要么靠 外部记忆

易混点#

LLM
**生成式**:现场拼概率写答案。
答案**可能错**,因为它编的也合理。
搜索引擎
**检索式**:从已有页面里挑。
答案是来源页里**真实存在**的文字。

常见 LLM 一览#

模型厂商特点
GPT-5 / GPT-4oOpenAI通用、推理、Tool 调用
Claude Sonnet 4.5Anthropic长上下文、写作、代码
Gemini 2.5Google多模态、视频理解
Qwen3 / DeepSeek V3阿里 / 深度求索中文、性价比、可本地部署
Llama 4Meta开源自托管基线

延伸阅读#