跳转至

核心概念索引

这篇是查词用的。

如果你在文档里看到一个词,一时不知道它属于哪一层,可以先来这里定位。

总览

数据层:Corpus / Cleaning / Dedup / PII / Tokenizer Training
模型层:Tokenizer / Transformer / Attention / MoE
训练层:Pretraining / SFT / DPO / RFT / LoRA
推理能力层:Reasoning Models / Test-Time Compute / Reasoning Tokens
推理层:KV Cache / Prefix Cache / Batching / Quantization
API 层:HTTP API / Chat Template / Sampling / Streaming / Tool Choice
应用层:Chatbot / RAG / Tool Calling / Workflow
Agent 层:Loop / State / Memory / Skill / Evaluator
系统层:Harness / Guardrails / Orchestrator / Runtime / Trace / Multi-Agent

模型与训练

概念 一句话解释 继续读
Tokenizer 把文本变成 token id LLM 生命周期
Token 模型处理文本的最小片段 Transformer 入门
Corpus 用于训练或评测的一组文本数据 数据、Tokenizer 与预训练数据工程入门
Data Cleaning 去掉乱码、模板、广告、低质量内容 数据、Tokenizer 与预训练数据工程入门
Dedup 删除重复或近似重复内容 数据、Tokenizer 与预训练数据工程入门
PII Removal 删除或脱敏个人身份信息 数据、Tokenizer 与预训练数据工程入门
Data Mixture 控制网页、代码、书籍、数学等数据比例 数据、Tokenizer 与预训练数据工程入门
Tokenizer Training 在代表性语料上训练 BPE / Unigram / WordPiece 词表 数据、Tokenizer 与预训练数据工程入门
Packing 把 token 序列拼成固定长度训练 block 数据、Tokenizer 与预训练数据工程入门
Embedding 把 token id 变成向量 Transformer 入门
Transformer 当前 LLM 的主流模型结构 Transformer 入门
Attention 让 token 关注上下文中相关 token Transformer 入门
MHA 多头注意力 LLM 推理与架构优化入门
MQA / GQA 减少 K/V head,降低 KV Cache 成本 LLM 推理与架构优化入门
MoE 多专家模型,每 token 激活部分专家 LLM 推理与架构优化入门
Pretraining 用大量文本训练基础能力 LLM 生命周期
SFT 用指令数据监督微调 后训练与对齐入门
DPO / RLHF 用偏好数据让回答更符合人类偏好 后训练与对齐入门
RFT 面向可验证任务做强化微调 后训练与对齐入门
GRPO 面向可验证任务的强化训练方法之一 后训练与对齐入门
Reasoning Model 推理阶段会投入额外计算来做复杂推理的模型 Reasoning Models 与 Test-Time Compute 入门
Test-Time Compute 不改权重,在推理时多花计算换质量 Reasoning Models 与 Test-Time Compute 入门
Reasoning Effort / Thinking Budget 控制模型这一轮内部推理预算 Reasoning Models 与 Test-Time Compute 入门
Reasoning Tokens 模型用于内部推理、摘要或状态保持的 token Reasoning Models 与 Test-Time Compute 入门
LoRA 只训练小型适配器 LoRA 与 QLoRA 微调入门
QLoRA 量化底座模型后再做 LoRA LoRA 与 QLoRA 微调入门

推理与部署

概念 一句话解释 继续读
Prefill 一次性处理输入 prompt LLM 推理与架构优化入门
Decode 逐 token 生成输出 LLM 推理与架构优化入门
Logits 模型对下一个 token 的分数 Transformer 入门
Sampling 从 logits 中选择下一个 token LLM API:从 HTTP 到 Transformer
KV Cache 缓存历史 token 的 K/V,避免重复计算 LLM 推理与架构优化入门
Prefix Cache 复用多个请求的相同前缀 LLM 推理与架构优化入门
FlashAttention 更高效计算 attention LLM 推理与架构优化入门
PagedAttention 更高效管理 KV Cache LLM 推理与架构优化入门
Continuous Batching 动态合并请求提高吞吐 LLM 推理与架构优化入门
Max Model Length 推理服务允许的最大上下文长度 参数调优手册
Max Num Seqs 推理调度中单轮最多处理的序列数 参数调优手册
Max Num Batched Tokens 推理调度中单轮最多处理的 token 数 参数调优手册
Speculative Decoding 小模型先猜,大模型验证 模型量化与推理压缩入门
Quantization 用更低精度保存或计算模型 模型量化与推理压缩入门
GGUF llama.cpp 常用模型格式 模型量化与推理压缩入门
AWQ / GPTQ 常见权重量化方法 模型量化与推理压缩入门
Tensor Parallel 把模型张量切到多张 GPU 模型部署硬件选型
Pipeline Parallel 把模型层切到多张 GPU 模型部署硬件选型
Expert Parallel MoE 专家并行 模型部署硬件选型

API 与应用

概念 一句话解释 继续读
HTTP API 应用调用模型的网络接口 LLM API:从 HTTP 到 Transformer
Responses API 面向新式多模态和工具使用的响应接口 LLM API:从 HTTP 到 Transformer
Chat Completions 经典 messages 风格聊天接口 LLM API:从 HTTP 到 Transformer
Chat Template 把 messages 渲染成模型训练格式 LLM API:从 HTTP 到 Transformer
Streaming / SSE 边生成边返回 LLM API:从 HTTP 到 Transformer
Temperature 控制采样随机性 参数调优手册
Top-p 控制候选 token 范围 参数调优手册
Max Output Tokens 控制最多生成多少 token 参数调优手册
Stop 指定生成停止序列 参数调优手册
Tool Choice 控制模型是否以及如何调用工具 参数调优手册
Structured Output 用 schema 约束模型输出结构 参数调优手册
RAG 检索资料后再生成回答 LLM 应用架构
Embedding 用向量表示文本语义 LLM 应用架构
Reranker 对检索结果重排 LLM 应用架构
Tool Calling 模型请求应用执行工具 LLM 应用架构
Workflow 程序定义的确定性流程 LLM 应用架构

Agent 与上下文

概念 一句话解释 继续读
Agent 围绕目标循环调用模型和工具的系统 Agent 开发入门
Agent Loop 思考、行动、观察、更新、继续或停止 Loop Engineering
Max Steps 限制 Agent 最多行动轮数 参数调优手册
Max Tool Calls 限制 Agent 最多工具调用次数 参数调优手册
State 当前任务现场 Agent 开发入门
Memory 跨任务保留的偏好、规则、经验 Multi-Agent 协作、自进化与记忆系统
Skill 可发现、可按需加载、可复用的能力包 Agent Skills 实现思路
Context Engineering 设计模型此刻应该看到什么 上下文工程入门
Dynamic Prompt 运行时根据状态注入的提示 什么是上下文工程
Harness Engineering 把模型包成可靠 Agent 产品的工程 Harness Engineering
Guardrails 输入、上下文、工具、运行时、输出和记忆的安全检查 Agent 安全与 Guardrails
Prompt Injection 不可信内容试图覆盖系统或用户意图 Agent 安全与 Guardrails
Policy Engine 对工具调用做权限、风险、预算和审批判断 Agent 安全与 Guardrails
Sandbox 在执行层限制文件、网络、命令和资源 Agent 安全与 Guardrails
Human Approval 高风险动作执行前让用户结构化确认 Agent 安全与 Guardrails
Loop Engineering Agent 循环、停止、恢复和预算控制 Loop Engineering
Evaluator 判断结果或过程是否合格 Agent 效果评测框架
Trace Agent 执行过程记录 Agent 效果评测框架

Multi-Agent 与大型系统

概念 一句话解释 继续读
Router 把请求分给合适 Agent 或流程 Agent 模式与实现
Handoff 一个 Agent 把任务转交给另一个 Agent Agent 模式与实现
Supervisor 管理多个 Worker Agent Multi-Agent 协作、自进化与记忆系统
Worker Agent 执行特定任务的专家 Agent Multi-Agent 协作、自进化与记忆系统
Blackboard 多 Agent 共享工作区 Multi-Agent 协作、自进化与记忆系统
A2A Agent 和 Agent 之间通信协作 Multi-Agent 协作、自进化与记忆系统
MCP Agent 连接外部工具、数据和资源的协议 大型 Agent 系统架构设计
Orchestrator 调度任务、Agent、工具和状态机 大型 Agent 系统架构设计
Tool Runtime 执行工具并做权限和沙箱控制 大型 Agent 系统架构设计
Memory Service 平台化管理长期记忆 大型 Agent 系统架构设计
Evolution Pipeline 从 trace 到 eval 到灰度发布的改进流水线 大型 Agent 系统架构设计

常见混淆

容易混的词 区别
Prompt Engineering vs Context Engineering 前者偏写提示词,后者偏组织模型看到的完整信息
RAG vs Fine-tuning RAG 给模型外部资料,微调改变模型行为或参数
Tool Calling vs Agent 工具调用是一种动作能力,Agent 是带 loop 和状态的系统
Workflow vs Agent Workflow 控制流由程序定义,Agent 让模型参与下一步决策
Memory vs KV Cache Memory 是产品保存的长期信息,KV Cache 是推理计算缓存
MCP vs A2A MCP 连接工具和数据,A2A 连接 Agent 和 Agent
Harness vs Loop Harness 是 Agent 运行壳,Loop 是其中的行动循环

下一步

回到主线: