Context Window (上下文窗口)

核心 · Key Idea

一句话：Context Window 是模型一次推理能「看见」的 Token 总数 —— 系统提示 + 历史对话 + 当前问题 + 模型回答，全部加起来不能超过这个上限。超过就会被截断。

是什么#

每个模型有固定的 Context Window 大小，常见数字：

它是输入 + 输出的总和，不是只算输入。

打个比方 · Analogy

Context Window 就像模型面前那张「便利贴」 —— 它只看得到便利贴上的文字。塞得下的部分模型「记得」，塞不下就当作没见过。

输入 TokenPrompt

system + 历史对话 + 用户问题 + 工具结果。

输出 TokenCompletion

模型这一轮要生成的回答 + 工具调用 JSON。

总和上限Hard Limit

输入 + 输出 ≤ Context Window。超了就报错或截断。

有效注意力Effective Recall

上限不等于「都能用」—— 长上下文里中间部分常被忽略，叫「Lost in the Middle」。

如果 system + 历史已经吃了 120K，模型最多只能再生成 8K Token。

Context Window (短期)

模型本次推理在内的 Token 上限。
会话结束就**全部消失**。

Long-term Memory (长期)

跨会话保存信息（向量库 / 数据库）。
用 RAG 之类的机制**临时调入** Context。

Context Window

一次能看多少 Token —— **运行时**容量。

Parameters

模型权重数量 —— **结构性**容量。
跟 context 大小**无关**。