LLM (大语言模型)

核心 · Key Idea

一句话：LLM = Large Language Model，本质是一个被海量文本喂大的「超级补全机」 —— 你给它一段话，它用概率挑出最可能的下一个 Token，再一个一个吐出来，看起来像在思考。

是什么#

GPT、Claude、Gemini、Qwen…… 不管底下用什么框架，核心数学都极其朴素：

给定上文 x₁ x₂ … xₙ，预测下一个最可能的 Token xₙ₊₁。

把这件事重复几千次，就生成了一段流利的回答。所以你看到的「智能」，本质是亿万次条件概率的累加。

打个比方 · Analogy

LLM 像一位接梗鬼才朋友：你说半句，他立刻接住下半句。只是他读的「段子」是整个互联网，外加几千万本书、代码、论文。

Tokenizer分词器

把人话切成一串数字 ID 的入口。

Embedding嵌入层

把每个 Token ID 翻译成向量，让模型能做数学运算。

Transformer Blocks多层网络

整个模型最重的部分 —— 注意力 + 前馈网络堆叠几十上百层。

LM Head输出头

在词表上算概率分布，挑出下一个 Token。

循环这个过程，直到模型吐出一个「停止」Token，整段回答就生成完了。

LLM

**生成式**：现场拼概率写答案。
答案**可能错**，因为它编的也合理。

搜索引擎

**检索式**：从已有页面里挑。
答案是来源页里**真实存在**的文字。