核心概念索引¶

这篇是查词用的。

如果你在文档里看到一个词，一时不知道它属于哪一层，可以先来这里定位。

总览¶

数据层：Corpus / Cleaning / Dedup / PII / Tokenizer Training
模型层：Tokenizer / Transformer / Attention / MoE
训练层：Pretraining / SFT / DPO / RFT / LoRA
推理能力层：Reasoning Models / Test-Time Compute / Reasoning Tokens
推理层：KV Cache / Prefix Cache / Batching / Quantization
API 层：HTTP API / Chat Template / Sampling / Streaming / Tool Choice
应用层：Chatbot / RAG / Tool Calling / Workflow
Agent 层：Loop / State / Memory / Skill / Evaluator
系统层：Harness / Guardrails / Orchestrator / Runtime / Trace / Multi-Agent

模型与训练¶

概念	一句话解释	继续读
Tokenizer	把文本变成 token id	LLM 生命周期
Token	模型处理文本的最小片段	Transformer 入门
Corpus	用于训练或评测的一组文本数据	数据、Tokenizer 与预训练数据工程入门
Data Cleaning	去掉乱码、模板、广告、低质量内容	数据、Tokenizer 与预训练数据工程入门
Dedup	删除重复或近似重复内容	数据、Tokenizer 与预训练数据工程入门
PII Removal	删除或脱敏个人身份信息	数据、Tokenizer 与预训练数据工程入门
Data Mixture	控制网页、代码、书籍、数学等数据比例	数据、Tokenizer 与预训练数据工程入门
Tokenizer Training	在代表性语料上训练 BPE / Unigram / WordPiece 词表	数据、Tokenizer 与预训练数据工程入门
Packing	把 token 序列拼成固定长度训练 block	数据、Tokenizer 与预训练数据工程入门
Embedding	把 token id 变成向量	Transformer 入门
Transformer	当前 LLM 的主流模型结构	Transformer 入门
Attention	让 token 关注上下文中相关 token	Transformer 入门
MHA	多头注意力	LLM 推理与架构优化入门
MQA / GQA	减少 K/V head，降低 KV Cache 成本	LLM 推理与架构优化入门
MoE	多专家模型，每 token 激活部分专家	LLM 推理与架构优化入门
Pretraining	用大量文本训练基础能力	LLM 生命周期
SFT	用指令数据监督微调	后训练与对齐入门
DPO / RLHF	用偏好数据让回答更符合人类偏好	后训练与对齐入门
RFT	面向可验证任务做强化微调	后训练与对齐入门
GRPO	面向可验证任务的强化训练方法之一	后训练与对齐入门
Reasoning Model	推理阶段会投入额外计算来做复杂推理的模型	Reasoning Models 与 Test-Time Compute 入门
Test-Time Compute	不改权重，在推理时多花计算换质量	Reasoning Models 与 Test-Time Compute 入门
Reasoning Effort / Thinking Budget	控制模型这一轮内部推理预算	Reasoning Models 与 Test-Time Compute 入门
Reasoning Tokens	模型用于内部推理、摘要或状态保持的 token	Reasoning Models 与 Test-Time Compute 入门
LoRA	只训练小型适配器	LoRA 与 QLoRA 微调入门
QLoRA	量化底座模型后再做 LoRA	LoRA 与 QLoRA 微调入门

推理与部署¶

概念	一句话解释	继续读
Prefill	一次性处理输入 prompt	LLM 推理与架构优化入门
Decode	逐 token 生成输出	LLM 推理与架构优化入门
Logits	模型对下一个 token 的分数	Transformer 入门
Sampling	从 logits 中选择下一个 token	LLM API：从 HTTP 到 Transformer
KV Cache	缓存历史 token 的 K/V，避免重复计算	LLM 推理与架构优化入门
Prefix Cache	复用多个请求的相同前缀	LLM 推理与架构优化入门
FlashAttention	更高效计算 attention	LLM 推理与架构优化入门
PagedAttention	更高效管理 KV Cache	LLM 推理与架构优化入门
Continuous Batching	动态合并请求提高吞吐	LLM 推理与架构优化入门
Max Model Length	推理服务允许的最大上下文长度	参数调优手册
Max Num Seqs	推理调度中单轮最多处理的序列数	参数调优手册
Max Num Batched Tokens	推理调度中单轮最多处理的 token 数	参数调优手册
Speculative Decoding	小模型先猜，大模型验证	模型量化与推理压缩入门
Quantization	用更低精度保存或计算模型	模型量化与推理压缩入门
GGUF	llama.cpp 常用模型格式	模型量化与推理压缩入门
AWQ / GPTQ	常见权重量化方法	模型量化与推理压缩入门
Tensor Parallel	把模型张量切到多张 GPU	模型部署硬件选型
Pipeline Parallel	把模型层切到多张 GPU	模型部署硬件选型
Expert Parallel	MoE 专家并行	模型部署硬件选型

API 与应用¶

概念	一句话解释	继续读
HTTP API	应用调用模型的网络接口	LLM API：从 HTTP 到 Transformer
Responses API	面向新式多模态和工具使用的响应接口	LLM API：从 HTTP 到 Transformer
Chat Completions	经典 messages 风格聊天接口	LLM API：从 HTTP 到 Transformer
Chat Template	把 messages 渲染成模型训练格式	LLM API：从 HTTP 到 Transformer
Streaming / SSE	边生成边返回	LLM API：从 HTTP 到 Transformer
Temperature	控制采样随机性	参数调优手册
Top-p	控制候选 token 范围	参数调优手册
Max Output Tokens	控制最多生成多少 token	参数调优手册
Stop	指定生成停止序列	参数调优手册
Tool Choice	控制模型是否以及如何调用工具	参数调优手册
Structured Output	用 schema 约束模型输出结构	参数调优手册
RAG	检索资料后再生成回答	LLM 应用架构
Embedding	用向量表示文本语义	LLM 应用架构
Reranker	对检索结果重排	LLM 应用架构
Tool Calling	模型请求应用执行工具	LLM 应用架构
Workflow	程序定义的确定性流程	LLM 应用架构

Agent 与上下文¶

概念	一句话解释	继续读
Agent	围绕目标循环调用模型和工具的系统	Agent 开发入门
Agent Loop	思考、行动、观察、更新、继续或停止	Loop Engineering
Max Steps	限制 Agent 最多行动轮数	参数调优手册
Max Tool Calls	限制 Agent 最多工具调用次数	参数调优手册
State	当前任务现场	Agent 开发入门
Memory	跨任务保留的偏好、规则、经验	Multi-Agent 协作、自进化与记忆系统
Skill	可发现、可按需加载、可复用的能力包	Agent Skills 实现思路
Context Engineering	设计模型此刻应该看到什么	上下文工程入门
Dynamic Prompt	运行时根据状态注入的提示	什么是上下文工程
Harness Engineering	把模型包成可靠 Agent 产品的工程	Harness Engineering
Guardrails	输入、上下文、工具、运行时、输出和记忆的安全检查	Agent 安全与 Guardrails
Prompt Injection	不可信内容试图覆盖系统或用户意图	Agent 安全与 Guardrails
Policy Engine	对工具调用做权限、风险、预算和审批判断	Agent 安全与 Guardrails
Sandbox	在执行层限制文件、网络、命令和资源	Agent 安全与 Guardrails
Human Approval	高风险动作执行前让用户结构化确认	Agent 安全与 Guardrails
Loop Engineering	Agent 循环、停止、恢复和预算控制	Loop Engineering
Evaluator	判断结果或过程是否合格	Agent 效果评测框架
Trace	Agent 执行过程记录	Agent 效果评测框架

Multi-Agent 与大型系统¶

概念	一句话解释	继续读
Router	把请求分给合适 Agent 或流程	Agent 模式与实现
Handoff	一个 Agent 把任务转交给另一个 Agent	Agent 模式与实现
Supervisor	管理多个 Worker Agent	Multi-Agent 协作、自进化与记忆系统
Worker Agent	执行特定任务的专家 Agent	Multi-Agent 协作、自进化与记忆系统
Blackboard	多 Agent 共享工作区	Multi-Agent 协作、自进化与记忆系统
A2A	Agent 和 Agent 之间通信协作	Multi-Agent 协作、自进化与记忆系统
MCP	Agent 连接外部工具、数据和资源的协议	大型 Agent 系统架构设计
Orchestrator	调度任务、Agent、工具和状态机	大型 Agent 系统架构设计
Tool Runtime	执行工具并做权限和沙箱控制	大型 Agent 系统架构设计
Memory Service	平台化管理长期记忆	大型 Agent 系统架构设计
Evolution Pipeline	从 trace 到 eval 到灰度发布的改进流水线	大型 Agent 系统架构设计

常见混淆¶

容易混的词	区别
Prompt Engineering vs Context Engineering	前者偏写提示词，后者偏组织模型看到的完整信息
RAG vs Fine-tuning	RAG 给模型外部资料，微调改变模型行为或参数
Tool Calling vs Agent	工具调用是一种动作能力，Agent 是带 loop 和状态的系统
Workflow vs Agent	Workflow 控制流由程序定义，Agent 让模型参与下一步决策
Memory vs KV Cache	Memory 是产品保存的长期信息，KV Cache 是推理计算缓存
MCP vs A2A	MCP 连接工具和数据，A2A 连接 Agent 和 Agent
Harness vs Loop	Harness 是 Agent 运行壳，Loop 是其中的行动循环

下一步¶

回到主线：