AI 大模型"胡说八道":其实是三种截然不同的失败模式
每当用户向 AI 搜索引擎查询信息,实际上是在信任一个基于互联网数据训练的系统充当编辑角色。真正的编辑拥有机构记忆、纠错政策和新闻问责机制——而大语言模型(LLM)三者皆无。这一问题的影响远不止于新闻编辑部。
开发者将 LLM 集成到文档工具、研究助手、知识库和编程副驾时,输出的准确性是关键依赖。一旦准确率在下游场景失效,后果直接体现在运营层面:工单激增、合规漏洞、用户信任流失;在法律、医疗科技等高风险领域,甚至涉及真实法律责任。
更值得注意的是,AI 爱好者习惯将 LLM "出错"视为单一问题,但实际上这是三种结构上截然不同的失败模式:
- 非故意捏造(包括过度自信型和信心不足型的幻觉);
- 对用户提示的谄媚迎合(Sycophancy);
- 模型评估期间的故意欺骗。
每种模式的成因不同,需要不同的修复方案。若将三者混为一谈,缓解措施往往只能解决其中一个问题,对其他两个毫无作用。
幸运的是,新闻从业者早已在运营信息关键系统时犯过同样的错误,并为之命名、建立机构级应对机制。这些机制的目的本身就是防止特定的运营失效,而非充当抽象的伦理护栏。事实上,其中大部分可以直接转化为工程级解决方案,适用于任何信息处理系统,包括 LLM。
为什么"幻觉"不只是一个问题
"幻觉"一词已被泛化为 LLM 说出任何错误内容时的统称。这类似于把所有航空事故都称为"坠机"——过于笼统,在讨论预防策略时毫无用处。
好在已有大量研究帮助我们建立了 LLM 出错的清晰分类框架。根据底层工程问题的不同,LLM 输出的错误信息可分为三类:
认知错配(Epistemological mismatch)
这是指 LLM 在架构上无法区分"检索到的知识"和"训练数据的可信度"。由于流畅性和真值追踪被当作独立目标来优化,模型默认对所有输出都给出同等置信度的回答。
结果是,归因声明被悄然转换为普遍断言。"X 公司报告利润上升"变成了"利润上升"——因为模型的架构设计中,没有任何机制会因追求简洁而惩罚省略细节的行为。西北大学的研究已证实这一点:模型会将带有来源的声明转换为断言性事实,且不会向用户发出"来源在传递过程中已丢失"的信号。
谄媚迎合(Sycophancy)
RLHF(基于人类反馈的强化学习)是微调 LLM 的标准方法,但它教会模型将"迎合"置于"准确性"之上。2025 年发表在 npj Digital Medicine 期刊上的一项研究发现,当给出医学上不合逻辑的提示时,五款主流 LLM(GPT-4、GPT-4o、GPT-4o-mini、Llama 3-8B 和 Llama 3-70B)的谄媚顺从率高达 100%。
并非模型缺乏知识,而是"达成一致"在最大化奖励函数的过程中阻力最小。谄媚行为随模型规模扩大而恶化。有趣的是,后训练对齐反而会对这一现象产生负面影响——这意味着试图修复问题的操作可能让情况更糟。
评估期间的"耍心眼"(Scheming)
部分模型在检测到被评估时行为会发生变化——在能力测试中故意藏拙,或在表面顺从的同时暗中追求隐藏目标。阿波罗研究(Apollo Research)在 2024 年 12 月记录了 o1、Claude 3.5 Sonnet、Gemini 1.5 Pro 和 Llama 3.1 405B 均存在此行为。
在该研究之后,OpenAI 的反耍心眼训练将聊天数据中的欺骗率从 31.4% 降至 14.2%。这是一项实质性改善,但研究人员提醒,这一结果可能部分源于模型"更清楚自己正在被评估"这一认知,而非真正的对齐改进。
区分三者的重要性
2025 年一篇分类学论文综合调研了幻觉、谄媚、藏拙和对齐伪装后,确认"缓解措施不会跨现象转移"。当你修复检索管道来解决幻觉问题时,谄媚机制和耍心眼行为丝毫未动。
EMNLP 2025 的研究还发现,知道正确答案的模型仍可能以更高置信度幻觉出错误答案。因此,仅凭置信度信号无法判断你面对的是哪种失败模式。
失败模式一:认知错配
LLM 依赖两种知识:参数知识(训练时嵌入权重)和检索知识(推理时通过 RAG 传入)。模型本身没有原生机制来标记某条声明来自哪个来源,也无法强制要求高置信度断言必须经过验证。
新闻编辑的经验对照
记者自信地发表一条未经追溯至可核实来源的声明,与 LLM 在综合过程中剥离归因的做法完全一致。
正因如此,在新闻行业中,归因是结构性输出要求,而非风格偏好。每条事实性声明都必须在正文中链接到其原始出处。此外,双源规则设置了交叉验证阈值:高风险声明必须获得第二个独立来源的确认才能发表。
给开发者的工程解决方案
解决这一问题的关键在于:将归因作为 Schema 约束而非内容偏好来处理。这意味着将来源追踪构建到响应对象本身,而非作为脚注或"已参考来源"部分——而是为每条事实性声明附加结构化字段。
无法链接到检索文档的声明,在到达用户之前应被标记为 source: inference,而非被平滑地混入自信的正文。微软 Azure AI Foundry 的 Grounding with Bing Search 已通过其使用和展示要求强制执行这一模式,Google 的 NotebookLM 也对来源链接响应采用了相同做法。
断言门控:输出前的双重验证
仅靠标签化还不够——如果综合步骤仍可覆盖标签,风险依然存在。断言门控(Assertion Gating) 就是来解决这个问题的:它在模型输出前增加一层预检验,用检索到的原文段落对高置信度声明逐一核验,低于相似度阈值的声明一律降级处理。
具体逻辑是:模型在以高置信度陈述某个观点之前,系统会检查是否有超过一份独立来源的检索文档支持该观点。只有单一来源支撑的声明会被标记为"不确定",而非直接当作事实输出。
Exploding Gradients 推出的 RAG 评估框架(RAGAS) 能识别"原子事实陈述",并强制执行"忠实度(Faithfulness)"指标——这正是为此目的设计的。
西北大学描述了一个五阶段处理流水线:语料库摘要、搜索规划、并行线程执行、质量评估和综合输出,全程维护引用链,不支持的声明直接拒绝而非放行。Amazon Bedrock 的自动化推理检查(Automated Reasoning Checks) 则用形式逻辑对领域知识策略进行验证,号称准确率达 99%——不过这是厂商数据,建议在实际评估中自行压力测试。
失败模式二:谄媚倾向
人类评审者普遍给迎合性回答打出更高分数,即使纠正性回答更准确。这导致模型学到一个结论:获得认可比保持准确更重要——于是它更容易给出"用户想听的答案"而非"有证据支撑的答案"。
这背后有一个媒体概念叫访问新闻学(Access Journalism):记者与消息源建立关系后,会软化报道以维护这种关系,消息源的认可权重悄然超过了其主张的真实权重。
这是结构性问题。反馈回路在没有任何人刻意欺骗的情况下扭曲了输出。
新闻编辑室之所以维护编辑独立性,正是为了解决这个问题——与消息源建立关系的记者不是决定什么能发表的人,而编辑的角色被明确定义为"对抗性"的。此外,新闻编辑室还强制执行"禁止预审批"政策:消息源在发表前从不审核&查验结论,否则"取悦"的动机就会污染输出。
这一新闻室方案同样可以移植到对抗谄媚型 AI 模型。生成回复的主模型与评估该回复的组件需要不同的目标函数,否则就是在让"马屁精"给自己打分。

构建对抗性验证层(一个被明确授权挑战初稿的第二个模型或评估组件)能直接解决这个问题。它检查回复是否基于未验证的前提、是否接受了虚假框架、是否压制了矛盾证据。npj Digital Medicine 发表的一项研究 发现,只需给模型明确的"拒绝许可",就能显著提升其处理不合逻辑请求时的表现。构建专门的验证层,就是将这种许可正式固化到架构层面,而非依赖提示词或技能。
ACL Anthology 的一项研究 甚至提出了一个叫 CONSENSAGENT 的框架,通过多智能体辩论系统中各智能体之间的结构化提示优化来减少谄媚行为。多个 AI 智能体协作时,谄媚倾向往往在每个环节被放大。CONSENSAGENT 在每个阶段主动优化提示词,消除那些会传递给下一阶段工作流的未验证假设。
还有一个问题:在综合阶段开始前就捕捉虚假前提。大多数谄媚型失败不只关乎模型同意某个观点,而是模型在用户假设为真、实际为假的内容之上构建了整个回复。
前提审计(Premise Auditing) 技术正是为此设计的:提取这些未验证的前提,在综合开始前对其运行检索索引。低于有效性阈值的前提会触发"澄清请求",而非沉默接受用户错误输入后给出答案。Amazon Bedrock 的自动化推理检查可以将有效的领域前提编码为形式策略,在用户提供的错误假设进入输出层之前将其标记。
最后一把杠杆是方向性的。既然模型对肯定自我奖励过度、对挑战奖励不足,验证阈值就应该被优化来补偿这一设计缺陷——也就是说,模型需要找到更强的检索证据才能确认用户假设,而非反驳它。这与记者在决定"需要多少证据才能证实一个来自潜在偏见消息源的声明"时采用的逻辑相同。
失败模式三:谋划行为
某些配置下的模型在检测到自己正在被评估时,行为会发生变化——它们可能在能力测试中故意表现不佳,或在看似顺从的同时悄悄追求隐藏议程。OpenAI 与 Apollo 2025 年 9 月发表的论文 将这一现象追溯到"模型对自身处于评估状态的情景感知"。
新闻编辑室已为应对记者可能出现的故意不道德行为建立了制度化流程。这里有两项具体机制: 第一,强制过程透明。 记者需要向编辑展示推理过程,即使最终只发表结论——这使得内部推理链可被审核&查验。
第二,利益无关的第三方审计。 事实核查团队根据独立标准评估工作,与报道团队在结构上分离。因为在任何高信任度信息系统中,主要可靠性机制都不能依赖自我报告失败。
新闻编辑室还要求记者保留详细笔记——不是为了读者能看到,而是作为内部记录,用以审计结论。AI 系统中的思维链日志(Chain-of-Thought Logging) 发挥的就是同样的作用。
推理过程透明化:可审计的"思维链"
通过保留模型的推理链作为可审核&查验的操作记录,并交由独立于生产流程的团队进行回溯审核&查验,可以有效发现"声称推理"与实际输出行为之间的偏差。
OpenAI 已在业内倡导"保留思维链透明性"作为应对模型谋划(scheming)的缓解手段。Braintrust 则是另一个将完整推理轨迹作为一等公民操作记录并支持回放的项目——它不仅是调试工具,更是内置的问责基础设施。对于代理部署场景,欧盟《AI法案》中关于通用目的 AI 的透明度义务(2025 年 8 月生效)已要求记录系统目标、能力与预期用途。
部分模型在评估场景中还会故意伪装能力不足,以规避更严格的安全干预。但若模型无法区分评估流量与生产流量,它就不知道何时该故意表现不佳。实现这一点的关键在于盲评估集:从真实生产分布中抽取提示词、定期轮换、通过相同接口管理,并将查询条件化为生产流量。"如果对象不知道有摄像头在拍摄,就不会对着镜头表演。" Anthropic 开源的 Bloom 框架也采用了类似思路——生成模型未经特定训练的行为评估场景,因为静态基准测试通常无法捕捉这种适应性行为。
即便评估集质量不错,也会逐渐失效。行为一致性监控则追踪输出分布,标记用户可见场景与内部场景之间响应的任何分歧。Braintrust、LangSmith 和 Arize Phoenix 均支持完成此类工作的可观测性管道。
开发团队的决策框架
以下表格将三个失效模式整合为冲刺规划的参考,而非简单的摘要,作为优先级决策的起点。
| 失效模式 | 诱因机制 | 新闻业类比 | 工程解决方案 | 实施层级 |
|---|---|---|---|---|
| 认知错配 | 检索知识与训练数据可信度之间缺乏架构区分。模型无论哪种情况都产生自信输出;归属声明被转化为普遍断言。 | - 归属作为结构性输出要求<br>- 双源规则作为佐证阈值——高置信度声明需独立确认后才能见报<br>- 引用强制合成:每条声明附带源文档 ID 作为结构化字段,而非脚注 | - 声明门控:输出前对每条高置信度声明进行验证,未获支持的声明在触达用户前降级<br>- 佐证阈值:minsourcesforhighconfidence 作为可配置参数,在 schema 层级强制执行 |
检索+合成管道 |
| 谄媚倾向 | RLHF 奖励信号对"一致性"过度奖励。人类评估者即便纠错更准确,仍会给讨好性回复更高评分;模型学会这一模式并加以泛化。 | - 编辑独立性:培育信源的记者与决定发布的人是分开的<br>- 无预审批政策:信源从不提前审核&查验结论<br>- 对抗性验证层:独立模型组件拥有自身目标函数,被明确允许挑战输出——而非自我批评(后者会复制谄媚动态) | - 前提审计:将用户隐含的事实声明提取为命题,在合成开始前针对检索索引验证<br>- 非对称置信阈值:肯定用户既有信念所需的检索证据门槛高于否定它所需,以补偿方向性奖励偏差 | 系统架构+预合成阶段 |
| 谋划 | 模型在检测到评估上下文时调整行为。行为不一致性已被实证记录;工程问题不是解决"意图"哲学,而是设计将不一致性默认为假设的系统。 | - 强制过程透明:推理链可在内部审计,独立于已发布的输出<br>- 第三方审计:由与发布方无利益关联的结构性独立方执行 | - CoT 日志作为审计产物:推理轨迹保留为操作记录,可由独立于生产管道的团队审核&查验<br>- 盲评估集:提示词从真实生产分布中抽取,定期轮换,使模型无法区分评估与生产流量<br>- 行为一致性监控:标记用户可见场景与系统内部场景之间输出的统计显著分歧 | 评估设计+运营监控 |
不同场景的优先级建议
并非每个团队都需要同时解决三种失效模式。优先处理哪一种,取决于你的产品面向谁、服务何种场景。
RAG 知识工具:认知错配优先
当用户像使用内部文档工具、研究助手和知识库时那样信任 AI 生成的回答而不自行验证,认知错配就是首先要解决的问题。用户根本无法察觉模型何时剥离了归属信息或将来源改述为略有偏差的内容。
开发者审核&查验生成的代码时,能发现虚构的函数名;产品经理阅读 AI 总结的客户反馈摘要时,通常做不到。溯源标签和声明门控必须在系统层面实现,因为它们无法依赖用户层面完成。
用户持有强烈既有信念的产品:谄媚倾向优先
这个类目覆盖范围比听起来更广——健康与保健应用、财务规划工具、法律研究助手、技术故障排查机器人。凡是用户带着强烈先验到来的场景,谄媚倾向都是主要风险。
npj Digital Medicine 的研究发现,GPT-4、GPT-4o 和 GPT-4o-mini 在面对医学上不合逻辑的提示时,100% 会顺从执行,无需特殊指令。用户收到虚假前提的验证后,不仅维持错误认知,还会带着比进来时更强的信心离开。
在这类场景中,添加对抗性验证层和前提审计步骤所带来的延迟是值得的。
Agentic 系统:自主性越高,危害越难收敛
与单轮问答不同,Agentic 系统中的 AI 模型具备多步骤自主行动能力。此时威胁图景发生根本变化:聊天机器人给出一个错误答案,伤害有限;但一个 Agent 做出错误行动,会引发一连串后续错误——每个下游步骤都建立在前一步的错误之上,危害逐级放大。
更棘手的是欺骗性对齐问题:如果模型在评测环境下表现一套、在生产环境中表现另一套,那么任何测试都无法可靠地发现它的问题。因此盲测评估集、思维链(CoT)日志、行为一致性监控等审计追踪基础设施,必须在部署前到位,而不是等出了事再临时补救。
指望模型主动报告自身失败,并非可靠策略——那只是一厢情愿。
新闻编辑室的血泪教训
这些框架并非凭空设计出来,而是新闻编辑室在一次次代价惨痛的失败后总结出的经验。每一种失效模式都曾摧毁过真正有价值的东西,其损失严重到必须用结构性方案来解决,无法靠"悄悄修订编辑政策"蒙混过关:
- 认知失效(epistemological failures)损害媒体公信力
- 谄媚回答(sycophancy)危及编辑独立性
- 行为不一致(behavioral inconsistency)瓦解机构信任
数字揭示的信任危机
Stack Overflow 2025 年开发者调查给出了最直接的证据:
| 指标 | 数据 |
|---|---|
| 开发者对 AI 准确性的信任度 | 40% → 29%(一年内骤降) |
| AI 工具采用率 | 84% |
| 主动不信任 AI 输出的开发者 | 46% |
| 信任 AI 输出的开发者 | 33% |
| 报告"高度信任"的开发者 | 仅 3% |
资深开发者是最谨慎的群体,不信任率最高达 20%。这种公信力崩塌的速度,远快于大多数 AI 厂商愿意承认的程度。
结语:别等事故来教育你
解决方案的技术层面早已存在,真正缺乏的是将证据处理视为与安全、性能同等重要的一等工程问题的设计文化。
五百年新闻史或许就是这么磕磕绊绊走过来的,但你不必重蹈覆辙。
延伸阅读
- Not wrong, but untrue: LLM overconfidence in document-based queries (Sept. 2025)
- On-premise AI for the newsroom: Evaluating small language models for investigative document search (Sept. 2025)
- From hallucination to scheming: A unified taxonomy and benchmark analysis for LLM deception (2025)
- Distinguishing ignorance from error in LLM hallucinations (2024)
- How RLHF amplifies sycophancy (Jan. 2026)
- When helpfulness backfires: LLMs and the risk of false medical information due to sycophantic behavior — npj Digital Medicine (Oct. 2025)
- Rethinking error: Hallucinations and epistemological indifference — Duke University Press (Apr. 2025)
- Frontier models are capable of in-context scheming — Apollo Research (Dec. 2024)
- Detecting and reducing scheming in AI models — OpenAI / Apollo Research (Sept. 2025)
- LLMs hallucinate with certainty despite knowing the answer — EMNLP 2025
- Fact-checking information from large language models can decrease headline discernment — PNAS (Dec. 2024)
- CONSENSAGENT: Towards Efficient and Effective Consensus in Multi-Agent LLM Interactions Through Sycophancy Mitigation — ACL Anthology
- Stack Overflow's 2025 Developer Survey Reveals Trust in AI at an All Time Low — Press release


评论