AI 术语速查：听懂 AI 圈在聊什么

2026年7月4日内容管家

AI领域评论0字数 4980阅读16分36秒阅读模式

人工智能正在重塑世界，同时也发明了一套全新的词汇来描述它如何做到这一点。如今随便参加一场产品会、路演或论坛，都会听到人们随口抛出 LLM、RAG、RLHF 等术语，让不少科技从业者都感到一丝焦虑。本文整理了一份实用 AI 术语表，用通俗语言解释你最可能遇到的关键词——无论你是在用 AI 构建产品、投资 AI，还是只想通过阅读科技媒体跟上节奏。这份文档会随领域演进持续更新。

AGI（通用人工智能）

AGI（Artificial General Intelligence，通用人工智能）是一个模糊的概念，但通常指在大多数任务上比普通人类能力更强的 AI。OpenAI CEO 山姆·奥特曼曾将 AGI 比作"可雇佣为同事的中等水平人类"。OpenAI 宪章则将 AGI 定义为"高度自主的系统，在大多数经济有价值的工作上超越人类"。Google DeepMind 的理解略有不同：该实验室认为 AGI 是"在大多数认知任务上至少与人类能力相当"的 AI。感到困惑？不必担心——AI 研究前沿的专家们自己也莫衷一是。

AI 智能体

AI 智能体（AI agent）指利用 AI 技术代替你执行一系列任务的工具，功能超出基础 AI 聊天机器人的范畴——比如报销差旅、预订机票或餐厅，甚至编写和维护代码。但这个新兴领域涉及多个移动部件，"AI 智能体"对不同人的含义可能截然不同，相关基础设施也仍在建设中。其基本概念是：一个自主系统，可以调用多个 AI 系统协作完成多步骤任务。

API 端点

可以将 API 端点想象成软件背后的"按钮"，其他程序可以按下这些按钮来驱动软件执行操作。开发者利用这些接口构建集成——例如让一个应用从另一个应用获取数据，或让 AI 智能体直接控制第三方服务，而无需人工手动操作每个界面。大多数智能家居设备和互联平台都隐藏着这些按钮，只是普通用户从未察觉。随着 AI 智能体能力增强，它们正越来越自主地发掘和调用这些端点，为自动化带来强大但有时出乎意料的可能性。

思维链

面对简单问题，人脑几乎不假思索就能回答——比如"长颈鹿和猫哪个更高？"但在许多情况下，需要纸笔才能得出正确答案，因为中间存在推导步骤。例如：农民养了鸡和牛，它们共有 40 个头、120 条腿，你可能需要列个简单方程才能算出答案（20 只鸡、20 头牛）。

在 AI 领域，思维链（Chain of Thought）推理指将大问题分解为若干中间步骤，以提升最终答案质量。对于大语言模型来说，这通常意味着更长的响应时间，但答案更可靠，尤其在逻辑推理或编程场景。推理模型从传统大语言模型演化而来，通过强化学习针对思维链思维做了优化。

（参见：大语言模型）

编程智能体

这是"AI 智能体"的一个更细分概念，指能够自主逐步执行动作以完成目标的程序。编程智能体是专门应用于软件开发领域的版本：不再只是向人类建议代码、等人工审核和粘贴，而是能自主编写、测试和调试代码，独立完成那种通常占据开发者日常的迭代试错工作。这类智能体可以在整个代码库中运作，发现 bug、运行测试、推动修复，只需极少量人工监督。可以理解为雇了一个不知疲倦、永不分心的超快实习生——不过和任何实习生一样，最终仍需要人工审核工作成果。

算力

虽然是个多义词，算力（Compute）通常指支撑 AI 模型运行的关键计算能力。这种处理能力是 AI 行业的基础燃料，赋予其训练和部署强大模型的能力。该词通常是一类硬件的简称——如 GPU、CPU、TPU 等基础设施，构成了现代 AI 行业的基石。

深度学习

深度学习是自我改进型机器学习的一个子集，其 AI 算法采用多层人工神经网络（ANN）结构。这使其能够建立比简单机器学习系统（如线性模型或决策树）更复杂的关联。深度学习算法的结构灵感来源于人脑中神经元相互连接的路径。

深度学习 AI 模型能够自主识别数据中的重要特征，而非依赖人类工程师手动定义特征。其结构也支持从错误中学习、通过重复和调整来改进输出的算法。然而，深度学习系统需要大量数据点（数百万甚至更多）才能获得良好效果，训练时间也通常长于简单的机器学习算法——因此开发成本往往更高。

（参见：神经网络）

扩散模型

核心生成技术一览

扩散模型（Diffusion）、蒸馏（Distillation）、微调（Fine-tuning）……这些技术名词在 AI 领域出现频率极高，但彼此之间的关系与差异，往往让人一头雾水。以下按技术逻辑串起几条关键线索。

扩散与蒸馏：小身材也能跑大模型

扩散模型（Diffusion）的灵感来自物理学——系统逐步向数据添加噪声，直至信息被彻底"破坏"；再通过学习"反向扩散"过程，将噪声还原为原始数据。正是这套机制，让 AI 如今能生成图像、音乐和文本。

蒸馏（Distillation）则是另一条压缩路径：采用"教师—学生"架构，将大模型（教师）的输出作为训练数据，教会一个小模型（学生）近似教师的行为。OpenAI 的 GPT-4 Turbo 被认为就是用这种方式从 GPT-4 蒸馏而来——体积更小、速度更快。

大语言模型、微调与幻觉

大语言模型（Large Language Model，LLM）是生成式 AI 的核心。它由数十亿参数构成的深度神经网络，通过学习海量书籍、文章和语料库中的语言模式，建立起词与词之间关系的多维地图。当用户输入提示时，模型会在这个"地图"中寻找最匹配的模式并输出。

企业在 LLMs 基础上做商业化产品时，最常见的做法是微调（Fine-tuning）——用特定领域的专属数据继续训练，使模型在某个垂直任务上的表现更精准。但这条路也带来了一个棘手问题：幻觉（Hallucination），即模型一本正经地编造错误信息。根源在于训练数据中的盲区。这也推动了"垂直 AI"路线——用更窄领域、更高质量的数据训练专门模型，从源头降低幻觉和虚假信息的风险。

推理、显存缓存与行业标准协议

推理（Inference）指的是运行训练好的模型，让它基于已有模式做出预测。没有训练，推理无从谈起；训练越充分，推理结果越可靠。推理可以在手机芯片、GPU 服务器乃至专用 AI 加速器上完成，但硬件能力差异会直接影响大模型的响应速度。

推理效率的优化手段之一是显存缓存（Memory Cache）。 AI 的运算是高强度数学计算，每次重复计算都消耗资源。 KV 缓存（Key-Value Cache）等技术通过保存中间计算结果，让 Transformer 模型在回答后续问题时省去重复劳动，显著提升响应速度。行业协作层面，模型上下文协议（Model Context Protocol，MCP）由 Anthropic 于 2024 年推出，随后移交 Linux 基金会管理，现已被 OpenAI、Google、Microsoft 等主流厂商采纳。

MCP 扮演 AI 界的"USB-C"角色——提供统一标准，让模型无需为每个数据源或工具单独开发连接器，即可对接文件、数据库、Slack、Google Drive 等外部系统。 混合专家架构（Mixture of Experts，MoE）则是另一种Scaling思路：不再让整个模型全程参与每个token的计算，而是将任务分派给多个"专家"子网络，按需激活，从而在远低于全量参数量的情况下实现更强性能。

GAN：对抗中逼近真实

生成对抗网络（Generative Adversarial Network，GAN）由一对神经网络组成——生成器（Generator）负责根据训练数据产出内容，判别器（Discriminator）负责识别哪些是伪造的。两者相互对抗：生成器试图骗过判别器，判别器则不断提高鉴别标准。这种竞争机制让 AI 在无需人工干预的情况下持续优化输出，尤其擅长生成照片、视频等窄领域的高度逼真内容。 原文链接保留（供对照参考）： Distillation Model Context Protocol (MCP) Mixture of Experts (MoE) KV Cache

混合专家模型（MoE）

混合专家模型（Mixture of Experts）是一种将神经网络拆分为多个小型专业化子网络（即"专家"），在处理任一任务时只激活其中少数几个的架构。与其让每个请求都经过整个模型——就像遇到任何问题都要召集整个办公室开会——MoE 模型内置了一个"路由器"，只为当前任务挑选合适的专家。由于任意时刻只有部分网络参与计算，这种设计让构建超大规模模型成为可能，同时保持较高的运行速度和较低的成本。

Mistral AI 的 Mixtral 模型是该架构的知名案例；OpenAI 新一代 GPT 模型也被广泛认为采用了某种形式的 MoE，但公司从未正式确认。

参见： 神经网络、深度学习

神经网络

神经网络是支撑深度学习的多层算法结构，也是大语言模型出现后生成式 AI 工具热潮的底层基础。

虽然从人脑密集互联的神经通路中汲取灵感来设计数据处理算法的想法可追溯至 1940 年代，但真正让这一理论发挥威力的，是近年来图形处理硬件（GPU）的崛起——而 GPU 的普及最初来自电子游戏产业。这些芯片非常适合训练比早期时代更多层数的算法，使得基于神经网络的 AI 系统在语音识别、自动驾驶、药物研发等多个领域实现了远超以往的性能。

开源

开源指将底层代码公开、允许任何人使用、检查或修改的软件——在 AI 领域则越来越多地指 AI 模型。Meta 的 Llama 系列模型是该领域的典型代表；操作系统领域最著名的历史先例则是 Linux。开源方式让全球的研究者、开发者和公司能够在彼此工作基础上继续构建，加速了技术进步，并使得独立安全审计成为可能——这是闭源系统难以提供的优势。闭源则意味着代码私有化，用户可以使用产品但无法了解其内部原理，OpenAI 的 GPT 模型就是典型案例。这一差异已成为 AI 行业最具争议的核心议题之一。

并行化

并行化指同时处理多项任务，而非逐件依次完成——就像 10 名员工同时推进项目不同部分，而非一名员工 последовательно 完成所有工作。在 AI 领域，并行化是训练和推理的基础：现代 GPU 的设计初衷就是并行执行数千次计算，这正是 GPU 成为行业硬件支柱的重要原因。随着 AI 系统复杂度提升、模型规模扩大，在多芯片、多机器间并行化工作已成为决定模型构建和部署速度与成本效益的关键因素。更优并行化策略的研究已成为独立学科。

RAMageddon

RAMageddon 是科技行业正在经历的一场不太有趣的"内存危机"——即随机存取存储器（RAM 芯片）的持续短缺，这类芯片为日常生活中的几乎所有科技产品提供动力。随着 AI 产业的蓬勃发展，最大的科技公司和 AI 实验室都在竞相打造最强大、最高效的 AI，它们大量购入用于数据中心的 RAM，以至于留给市场的余量所剩无几。这一供应瓶颈导致剩余内存价格持续上涨。

受影响的不只是 AI 行业：

游戏产业：多家大型公司因设备内存芯片采购困难而被迫上调主机售价
消费电子：内存短缺可能导致智能手机出货量出现十多年来最大幅度的下滑
企业计算：各公司同样面临数据中心 RAM 供给不足的问题

价格上涨预计将在短缺结束后才能缓解，但不幸的是，目前几乎没有迹象表明这一情况会很快改变。

递归自我改进

与通用人工智能（AGI）类似，递归自我改进（Recursive Self-Improvement，RSI）也是一个关于 AI 能变得多聪明、以及多依赖人类的标准。在 RSI 场景下，AI 模型开始无需人类干预地自我改进，从而带来能力和自主性的巨大飞跃。在一些叙述中，这被视为类似于技术奇点的灾难性时刻——AI 模型变得不受外部干预影响。但 RSI 同时也描述了一种基础能力——AI 模型能否设计自己的继任者？这让工程师更容易尝试去构建它。许多 AI 初创公司已着手开发递归自我改进模型，但大多数公司对末日论嗤之以鼻，将 RSI 呈现为纯粹的研究前沿。

强化学习

强化学习是一种训练 AI 的方式：系统通过尝试并根据正确答案获得奖励来学习——就像用零食训练心爱的宠物，区别在于这里的"宠物"是神经网络，"零食"是表示成功的数学信号。与监督学习（模型在固定标签数据集上训练）不同，强化学习让模型探索环境、采取行动，并根据反馈持续更新行为。这种方法在训练 AI 游戏、机器人控制，以及近年来提升大语言模型推理能力方面表现出色。基于人类反馈的强化学习（RLHF）等技术已成为头部 AI 实验室微调模型、提高模型有用性、准确性和安全性的核心手段。

AI 术语入门：理解 Token、训练与模型权重

大型语言模型（LLM）正广泛嵌入企业工作流，但在与 AI 打交道时，外行人往往对"Token""验证损失""迁移学习"等词汇一头雾水。本文梳理了几个最核心的 AI 概念，帮你建立直观认知。

Token：人机沟通的"最小单位"

Token 是 LLM 处理和生成语言时的基本单元。简单来说，Tokenization（分词）过程将原始文本拆解成语言模型可以"消化"的小块——这类似于编译器把人类语言翻译成计算机能理解的二进制代码。

值得注意的是，Token 并不等于完整单词，往往是单词的一部分。例如"AI"可能是一个 Token，"training"可能被拆成"train""ing"两个 Token。这也是为什么 Token 数量与字符数并不成正比。

Token 数量直接影响成本。主流 AI 服务商大多按 Token 用量计费，企业用量越大，账单越高——因此在企业场景下，Token 管理本身就是成本优化的一环。

Token 吞吐量：AI 系统能同时服务多少人

吞吐量（Throughput）衡量的是单位时间内系统处理的数据量。Token 吞吐量越高，意味着 AI 系统能同时服务的用户越多、响应速度也越快。

AI 研究员 Andrej Karpathy 曾描述过一种典型焦虑：当 AI 订阅账号闲置时，他就像当年读博时看着高价算力被浪费一样难受。这番话揭示了为什么"最大化 Token 吞吐量"已成为 AI 基础设施团队的核心执念。

模型训练：从数据中学习规律

训练（Training）是让机器学习模型"学会"任务的过程——向模型输入数据，使其从海量样本中发现规律，最终生成有用的输出。无论是识别猫的图片，还是按需写一首俳句，本质都是模型在训练中逐步调整输出、向目标靠拢的过程。

训练成本居高不下。随着模型规模越来越大，数据需求持续攀升，这也是为什么"微调"（Fine-tuning）这类混合方案越来越受欢迎——在已有规则基础 AI 上用少量定向数据继续训练，不必从零开始。

迁移学习：用旧模型加速新任务

迁移学习（Transfer Learning）的思路是：将已经训练好的模型作为起点，在此基础上开发用于新任务（通常与原任务相关）的模型。这样可以复用先前训练周期中积累的知识，大幅缩短开发周期。

迁移学习在数据稀缺的场景下尤为有价值。但它也有局限：依赖迁移学习获得泛化能力的模型，往往需要额外训练目标领域的数据，才能在专注领域表现出色。

延伸阅读：[Fine-tuning（微调）]

验证损失：实时监控模型学习质量

验证损失（Validation Loss）是一个数值，越低越好。它反映模型在训练过程中的学习效果，研究人员将其视为实时"成绩单"，用于判断何时停止训练、是否需要调整超参数，或是否出现了问题。

验证损失最重要的预警目标之一是过拟合（Overfitting）：模型不是在学习可泛化的规律，而是死记硬背训练数据。打个比方，区分一个真正理解知识点学生和一个靠背去年试卷得分的学生，验证损失能帮你看出模型属于哪种。

权重：决定模型输出的核心参数

权重（Weights）是 AI 训练的核心机制。每个输入特征（变量）在训练中都会被赋予一个权重数值，权重越高，该特征对最终输出的影响越大。模型训练从随机分配权重开始，随着训练推进不断调整，直至输出逐步接近目标。

举个例子：一个用于预测房价的 AI 模型，在某地区的房产历史数据上训练，可能会为以下特征分配权重——卧室数量、卫生间数量、是否独栋、是否有车位或车库等。这些权重值最终反映了各因素对该地区房价的影响程度。