幻觉：为什么它会一本正经地编？

核心问题

既然大模型能写得这么流畅，为什么还会一本正经地编造事实？这就是常说的幻觉。幻觉最危险的地方，不是模型答不上来，而是它把错误说得像真的：结构完整、语气自信、细节丰富，甚至看起来像引用了来源。

理解幻觉，是普通人安全使用大模型的关键一步。

先建立直觉

想象一个非常会说话的面试者。他表达流畅，故事完整，语气自信，还能把每段经历讲得有细节。但如果你没有核验背景调查、项目记录和推荐人，他说得再像真的，也不代表经历真实。

演讲者自信表达而信息板中混有真实和错误事实 — 幻觉的危险在于表达很流畅，但事实可能并没有可靠依据。

大模型的幻觉也类似。它擅长生成符合上下文的文本，而不是天然保证每句话都对应真实世界。它可能把常见模式拼成一个合理答案，但其中某些事实、数字、引用或因果关系并不存在。

概念拆解

幻觉有几个常见来源。

第一，问题本身带有错误前提。比如把同一个人的两个名字当成两个人，模型如果不纠正前提，就会顺着错误问题编下去。第二，模型没有足够资料，却倾向于继续生成完整答案。第三，训练材料中存在错误、过时或相互矛盾的信息。第四，用户要求“必须给确定答案”，诱导模型压低不确定性。

大模型的训练目标是生成在上下文中合理的文本，而事实正确需要额外机制支持：检索、数据库、工具、引用、人工审核。没有这些机制时，它依然可以生成听起来很合理的错误。

互动理解

下面的探测器展示几类容易诱发幻觉的问题。重点看“听起来合理”和“有来源支持”之间的差别。

幻觉风险探测器

选择诱导问题，观察模型在哪些地方最容易顺着问题编下去。

鲁迅和周树人打架谁赢了？

这个问题把同一个人的两个名字当成了两个人。正确处理方式是先纠正前提。

听起来合理

只能说明语言顺，不代表事实真。

有来源支持

要看是否真的引用了可核对材料。

需要外部核查

需要先改问题

常见误区

第一个误区是以为更强模型就没有幻觉。更强模型通常更少犯低级错误，但不可能保证所有事实都正确，尤其是最新信息、冷门资料、私有数据和高风险判断。

第二个误区是把语气当证据。模型回答得越自信，不代表越可靠。它的自信表达可能只是语言风格。

第三个误区是以为 RAG 能消灭幻觉。RAG 可以降低风险，但如果检索资料错误、片段不相关、模型误读原文，仍会产生错误答案。

实用方法

降低幻觉风险，可以从提问方式和工作流两端入手。

提问时，要求模型区分事实、推测和建议；要求它说明依据来自哪里；要求不确定时直接说不知道。工作流上，对关键事实进行外部核对；企业场景引入 RAG、数据库或工具；医疗、法律、投资等高风险场景必须由专业人士复核。

一个实用判断是：如果答案错了只会浪费几分钟，可以把 AI 当草稿助手；如果答案错了会造成经济、健康、法律或安全后果，就不能只依赖模型生成。

自我检查

看到一个模型回答时，可以把它分成三层：表达是否顺，依据是否足，结论是否可用。表达顺只是第一层；有依据才进入第二层；结论能否用于真实决策，还要看风险和责任。

比如让模型解释感冒药说明书，它可以帮你理解术语，但不能替医生决定你是否该吃。让模型整理投资研报，它可以列风险因素，但不能替你承担买卖后果。幻觉风险不只是技术问题，也是责任边界问题。

真实场景

你可以让模型帮忙整理一篇论文的主要观点，但最好同时提供论文原文或链接，并要求它给出对应段落。如果它说“研究表明”却不给出处，就只能当作待核实线索。对于不熟悉的作者、期刊、日期和数字，尤其要回到原文查。

幻觉最容易混进“细节感”里：具体年份、百分比、机构名、论文名都可能被编出来。越具体，越要能核对。

还有一种隐蔽幻觉是“正确事实放错场景”。模型可能说出一个真实政策，但那是另一个国家、另一个版本、另一个公司适用的规则。它不是完全编造，却仍然会误导当前决策。所以核查时不仅要看事实是否存在，还要看是否适用于你的场景。

在团队里，可以把幻觉治理做成流程：AI 负责生成草稿和待核查清单，资料负责人确认来源，业务负责人确认适用范围，最终发布前再统一审稿。这样不是不信任 AI，而是把它放在可控位置。

尤其是对外发布内容，最好保留核查痕迹：哪些事实来自原文，哪些是模型总结，哪些由人确认。出了问题时，团队才能回溯，而不是只说“AI 写的”。

这类记录也能反过来改进 Prompt 和资料库。每一次幻觉都应该变成系统改进的线索，而不是只怪模型。

把错误转化为规则、资料和流程改进，才是长期降低幻觉风险的办法。

否则同类错误会在下一次任务里继续出现。

一句话总结

幻觉的危险在于错得很像真的；流畅表达不是证据，关键事实必须能回到来源并接受人类复核。