LLM、幻觉……一文读懂常见 AI 术语

2026年4月12日内容管家

内容管家

481
文章

0
评论

AI领域评论5字数 3927阅读13分5秒阅读模式

导语

人工智能是一个复杂而深邃的领域，技术术语层出不穷。为帮助读者更好地理解相关报道，我们整理了这份 AI 行业核心术语表，涵盖从基础概念到前沿技术的关键名词。

AGI（通用人工智能）

AGI（Artificial General Intelligence，通用人工智能）是一个模糊且充满争议的术语。业界对其定义尚未达成共识，但通常指在大多数任务上能力超越普通人类的 AI 系统。

OpenAI CEO 山姆·奥特曼（Sam Altman）近期将 AGI 描述为"可以雇佣为同事的中等能力人类"
OpenAI 宪章则定义为"在大多数经济价值工作上超越人类的高度自动化系统"
Google DeepMind 的定义略有不同：能够完成大多数认知任务、至少与人类能力相当的系统

值得注意的是，即使是 AI 研究前沿的专家们对这一概念也存在分歧。

AI 智能体（AI Agent）

AI 智能体是能够自主执行一系列复杂任务的 AI 工具，能力远超基础 AI 对话助手。其典型应用场景包括：提交报销单据、预订机票酒店或餐厅、编写和维护代码等。

不过，这一领域尚处于早期发展阶段，"AI 智能体"对不同人可能意味着不同含义，相关基础设施也在持续构建中。其核心概念是：一个能够调用多个 AI 系统协同完成多步骤任务的自主化系统。

思维链（Chain of Thought）

人类大脑在面对简单问题时往往无需深思就能回答，比如"长颈鹿和猫哪个更高"。但面对复杂问题时，通常需要纸笔辅助推理——例如已知农民养了鸡和牛，总共 40 个头、120 条腿，就需要列方程计算（答案是 20 只鸡和 20 头牛）。

在 AI 领域，思维链推理指将复杂问题分解为若干中间步骤，以提高最终答案的准确性。这种方式需要更长的处理时间，但答案正确率显著提升，尤其在逻辑推理和编程任务中表现突出。推理模型（Reasoning Models）正是基于传统大语言模型，通过强化学习优化思维链能力。

计算力（Compute）

计算力是支撑 AI 模型运行的关键算力资源，涵盖 GPU、CPU、TPU 等各类硬件设施。这些基础设施构成了现代 AI 产业的底层支柱，为模型的训练和部署提供核心驱动力。

深度学习（Deep Learning）

深度学习是机器学习的一个分支，采用多层人工神经网络（ANN）结构，能够建立比线性模型或决策树等简单系统更复杂的关联模型。其设计灵感来源于人脑中神经元的互联结构。

深度学习的关键特征：

AI 可以自主识别数据中的重要特征，无需人工定义
通过反复试错和调整，持续优化输出质量
需要海量数据（通常百万级以上）才能达到良好效果
训练耗时和开发成本均高于简单机器学习算法

扩散模型（Diffusion）

扩散模型是当前图像、音乐、文本生成 AI 的核心技术。其原理受物理学启发：通过逐步添加噪声"摧毁"数据结构（如照片、音频等），直到完全随机。在物理学中，扩散是自发的不可逆过程（如糖溶解于咖啡无法恢复成立方体）。但 AI 扩散模型通过学习"反向扩散"过程，实现从噪声中恢复原始数据，从而获得生成能力。

知识蒸馏（Distillation）

知识蒸馏是一种从大型 AI 模型中提取知识的技术，采用"教师-学生"架构：开发者向教师模型发送请求并记录输出，与标准答案对比评估准确性后，用这些输出数据训练学生模型，使其行为逼近教师模型。

该技术可基于大型模型创建更小、更高效的衍生版本，训练损失极小。OpenAI 的 GPT-4 Turbo 可能正是通过蒸馏从 GPT-4 优化而来。

微调（Fine-tuning）

微调指对已有 AI 模型进行进一步训练，使其在特定任务或领域的性能得到优化。训练方式通常是输入新的、专门面向目标任务的垂直数据。

GAN（生成对抗网络）

GAN，即生成对抗网络（Generative Adversarial Network），是一种机器学习框架，在生成式 AI 领域有着重要应用——尤其是在生成逼真数据方面，包括深度伪造（deepfake）工具在内的多项技术都以此为基础。

GAN 运作依赖一对神经网络：一个（生成器）根据训练数据生成输出内容，随后传给另一个模型进行评估。第二个模型即判别器，扮演分类器的角色，对生成器的输出做出评判——从而使生成器能够逐步改进。

两个模型被设计为竞争关系（因此称为"对抗性"）：生成器试图让输出骗过判别器，而判别器则致力于识别人工生成的内容。这种结构化的博弈使得 AI 输出得以持续优化、更趋逼真，且无需额外人工干预。不过 GAN 最适合的还是相对窄化的应用场景（如生成逼真照片或视频），而非通用型 AI。

幻觉（Hallucination）

"Hallucination"是 AI 行业对模型杜撰信息的委婉说法——即凭空生成不正确的内容。这显然是一个巨大的 AI 质量问题。

幻觉会导致生成式 AI 输出具有误导性，甚至带来现实风险——后果可能相当严重（例如医疗查询返回危险建议）。正因如此，大多数生成式 AI 工具的小字说明如今都会提醒用户核实 AI 生成的回答，尽管这类免责声明的显眼程度通常远不及工具一键生成的信息。

AI 杜撰信息的问题据认为源于训练数据的空白。对于通用型生成式 AI（亦称基础模型）而言，这个问题尤其难以解决——人类可能提出的问题五花八门，而世界上根本没有足够的数据来全面覆盖所有知识领域。

幻觉问题正推动业界朝着更专业化的垂直 AI 模型方向发展——即专注于特定领域的 AI，以减少知识盲点、缩小虚假信息的风险。

推理（Inference）

推理是运行 AI 模型的过程——让模型基于已有数据做出预测或得出结论。需要明确的是，没有训练就不可能有推理：模型必须先学习某数据集中的模式，才能有效地从中进行推断。

多种硬件都能执行推理任务，从智能手机处理器到高性能 GPU 再到定制 AI 加速器均可胜任。但并非所有硬件都能同样出色地运行模型——例如，超大型模型在笔记本电脑上做预测会极其缓慢，而配备高端 AI 芯片的云服务器则游刃有余。

大语言模型（LLM）

大语言模型（Large Language Models）是当前 AI 助手背后的大脑——ChatGPT、Claude、Google Gemini、Meta AI Llama、Microsoft Copilot、Mistral Le Chat 等热门产品均依赖此类模型。当用户与 AI 助手对话时，实际上是在与大语言模型交互，该模型直接处理请求，或借助网页浏览、代码解释器等工具辅助完成响应。

AI 助手与 LLM 往往名称不同：例如 GPT 是 OpenAI 的大语言模型，而 ChatGPT 是基于该模型的 AI 助手产品。

LLM 是由数十亿个数值参数（或称权重）构成的深度神经网络，学习词汇与短语之间的关系，构建出语言的多维语义地图。

这些模型从数十亿本书籍、文章和文本记录中提取模式进行训练。当用户给出提示时，模型会匹配最符合该提示的模式，然后基于已有内容预测下一个最可能的词——如此循环往复，生成完整回复。

记忆缓存（Memory Cache）

记忆缓存是一种重要的优化技术，用于提升推理（AI 生成响应的过程）的效率。本质上，缓存是一种优化手段，旨在让推理更加高效。

AI 驱动依赖于大量数学运算，而每次运算都会消耗算力。缓存的设计目的正是通过保存特定计算结果、供后续用户查询复用，来减少模型需要执行的运算次数。

缓存有多种类型，其中较为知名的是 KV（键值）缓存。KV 缓存在基于 Transformer 的模型中工作，通过减少生成用户答案所需的时间和算法工作量来提升效率，从而加快响应速度。

神经网络（Neural Network）

神经网络是一种多层算法结构，是深度学习的基础——更重要的是，它也是大语言模型诞生以来生成式 AI 工具热潮的底层支撑。

虽然借鉴人脑密集互联通路设计数据处理算法的想法可追溯至 1940 年代，但真正释放这一理论潜力的，是图形处理硬件（GPU）近年的崛起——最初推动力来自电子游戏产业。这些芯片非常适合训练比早期时代更多层数的算法——使得基于神经网络的 AI 系统在语音识别、自动导航、药物研发等多个领域实现了远超以往的卓越性能。

AI 算力之争：内存短缺如何波及游戏、手机与企业计算

"RAMageddon"——这个略带戏谑的新词，描述的却是一个让科技行业笑不出来的现实：随着 AI 产业爆发式增长，各大科技巨头和 AI 实验室纷纷抢购数据中心所需的内存芯片，导致消费级市场内存严重短缺、价格持续攀升。

受影响的不只是 PC 玩家——游戏行业主要厂商已因内存芯片获取困难而上调主机售价；消费电子领域，内存短缺预计将导致智能手机出货量创下十年来最大跌幅；企业级计算同样面临芯片采购困境，就连科技公司自己的数据中心都已捉襟见肘。业内人士预计，这波涨价潮恐怕要等到短缺彻底缓解才会告终，但就目前而言，市场尚未显现出任何缓解迹象。

什么是模型训练（Training）

机器学习模型的"训练"，简而言之，就是向系统输入大量数据，使其从中学习规律、最终生成可用输出的过程。

在预训练阶段，模型的数学结构最初只是一堆随机初始化的层级。唯有通过训练，AI 模型才真正成型——系统不断响应数据中的特征，逐步调整输出以逼近目标结果，无论是识别猫的图片，还是按需创作一首俳句。

值得注意的是，并非所有 AI 都依赖训练。基于规则的人工智能按照预设指令运行（如线性聊天机器人），无需训练。但这类系统的能力边界，通常远不如经过良好训练的自主学习系统。

训练成本高昂，原因在于所需的数据输入量庞大——而近年来顶尖模型的训练数据规模仍在持续膨胀。

混合方法可一定程度降低成本。例如对规则 AI 进行数据驱动的微调，相比从零开始构建，大幅减少了对数据、算力、能源和算法复杂度的需求。

什么是令牌（Tokens）

人类用自然语言交流，AI 程序则通过复杂算法处理数据并响应查询——两者之间存在天然鸿沟。令牌（Token）正是这座鸿沟上的桥梁：它是 LLM 处理或生成的基本数据单元。

令牌化（Tokenization）是生成令牌的过程——将原始数据拆解、转化为 LLM 能够理解的离散单元。这一过程类似于软件编译器将人类语言翻译为计算机可处理的二进制代码：它解析用户的自然语言提问，再由 AI 程序据此准备回应。

令牌分为以下几种类型：

输入令牌：用户发起查询时生成
输出令牌：LLM 响应时生成
推理令牌：处理更长、更复杂任务时使用

在企业 AI 场景中，令牌用量直接决定成本。由于令牌数量等同于模型处理的数据量，它已成为 AI 行业变现的核心指标——大多数 AI 公司按令牌用量计费，企业消耗越多，付费越高。

什么是迁移学习（Transfer Learning）

迁移学习是一种模型复用技术：用已训练好的 AI 模型作为起点，开发用于另一相关任务的新模型，从而复用在先前训练周期中积累的知识。

这一方法可显著缩短开发周期、节省算力。当目标任务的可用数据有限时，迁移学习尤为有用。不过它也有局限——依赖迁移学习获得泛化能力的模型，往往需要在目标领域补充额外训练才能达到理想效果。

什么是权重（Weights）

权重是模型训练的核心要素。它决定了不同特征（输入变量）在系统学习过程中的重要程度，从而塑造模型的输出结果。

权重，本质上是定义数据集中最显著特征的数值参数。其工作原理是对输入进行乘法运算。模型训练初期，权重随机初始化；随着训练推进，系统不断调整权重，使输出逐步逼近目标。

举例来说：一个用于预测房价的 AI 模型，在某地区历史房产数据上训练时，可能会为以下特征分配权重——卧室数量、卫生间数量、是否独栋或半独栋、是否有车位、车库情况等。模型最终赋予每个输入的权重，反映了该特征对房价的影响程度。

Natasha 是一位在科技媒体领域深耕多年的资深记者，2012年9月加入 TechCrunch，直至2025年4月离职，期间常驻欧洲。

职业履历

在加入 TechCrunch 之前，Natasha 曾在 CNET UK 负责智能手机评测工作。更早前，她在 silicon.com（后并入 TechRepublic）从事商业科技报道超过五年，专注于移动与无线通信、电信与网络，以及 IT 技能议题。此外，她还为《卫报》和 BBC 等机构提供自由撰稿服务。

教育背景

Natasha 拥有剑桥大学英语专业一等学位，并获得伦敦大学金匠学院新闻学硕士学位。