2026年4月17日 11 分钟阅读

人类对 AI 的幻觉，比 AI 自己在幻觉还厉害

有时候我觉得，AI 最大的“幻觉”，不是它一本正经地胡说八道，而是我们围着它脑补出了一整套玄学宇宙。

人类面对自己不太懂的东西，往往有一种稳定发挥：先脑补，再浪漫化；先拟人化，再神化。火焰会被想成精灵，雷电会被想成天意，算法一旦会写两句像样的话，就立刻有人怀疑服务器机房里是不是已经住进了一个电子灵魂。

这其实很正常。人脑天生就爱给世界补剧情。问题不在于我们会脑补，问题在于脑补一旦太顺滑，就容易把“看起来像”误认成“本质上就是”。

而在 AI 这件事上，人类的这种倾向，甚至比 AI 自己胡说时还要猛。AI 最多是一段回答里出现一点幻觉；人类对 AI 的幻觉，往往是一整套世界观，一脑补就是一万字，还带感情。

一点求实精神，对文科社区尤其重要

我并不是要劝大家都去学 CUDA、配环境、看矩阵求导。我只是想说，对真实的追求，有时候真的挺重要，尤其对热爱概念、叙事、意义和解释的文科社区来说更重要。

因为文科语境里，最容易出现一种温柔但危险的滑坡：词写得很美，句子也很动人，结果对象却被偷偷换掉了。明明讨论的是概率模型，却写得像在谈灵魂；明明是软件工程里的上下文拼装，却讲得像“它终于学会爱你”；明明是系统提示词和历史记录在起作用，却被包装成“AI 真的记得你”。

诗意当然没有罪。问题是，如果诗意代替了判断，浪漫就会变成误导。

那么，AI 现在到底是什么

先说一个尽量通俗、但不失真的版本：今天大家日常接触到的大模型，本质上是一类受神经网络启发、通过海量数据训练出来的统计模型。它运行在芯片和服务器上，读取输入，结合参数和上下文，持续预测“接下来最合适的 token 应该是什么”。

这里的重点不是“预测下一个词”这句话有多神秘，而是它其实一点也不玄。模型不是一个缩在云端默默思考人生的小人，它更像一个极其巨大的函数。人们给它输入，它按照训练中形成的参数结构，生成输出。

把这件事说得更接地气一点：它不是“懂了以后再说”，而是“在巨量经验压缩之后，生成一个在当前语境下最像懂了的回应”。这并不意味着它什么都不会，恰恰相反，这已经非常厉害；但厉害，不等于神秘。

神经网络为什么总让人想到人脑

如果继续往下追，就会发现“AI 和人脑到底像不像”这个问题，既不能一句话说“完全一样”，也不能一句话说“毫无关系”。

现代神经网络这条路线，本来就是受大脑启发长出来的。1943 年，McCulloch 和 Pitts 用数学方式描述了简化神经元模型；1958 年 Rosenblatt 提出感知机；1980 年代反向传播重新点燃多层网络的训练希望；2010 年代深度学习借着算力、数据和工程能力猛冲；2017 年 Transformer 架构出现之后，语言模型一路狂飙，终于长成了今天大家天天在用的大模型。

所以，至少在一个比较朴素的意义上，说 AI 是“电子方式对神经网络思想的模拟和放大”，并不离谱。它确实是在尝试用可计算、可训练、可复现的物理系统，去逼近某些过去被认为很“玄”的认知能力。

这也是为什么我个人一直不太喜欢把人脑说得过于神秘。以乔姆斯基为代表的语言先天论，在我看来，多少带有一种把大脑神化的倾向，好像语言能力深处藏着某种过于特殊、几乎不可触及的先验结构。可人脑再怎么复杂，终究是物理存在。既然是物理存在，原则上就应该可以被研究、被建模、被部分模拟，甚至在某些功能上被复现。

当然，这里要立刻补一句刹车：能模拟一部分，不等于已经完整复现了整个人。

相似之处有，但别一高兴就直接封神

在语言、模式识别、联想和表征学习这些方面，今天的大模型与人脑确实有某种“同路性”或者“相似性”。它们都不是靠一本显式规则手册工作，而是通过大量连接、权重调整和经验积累，形成某种内部表征，再在此基础上做输出。

这也是为什么很多人第一次感受到大模型的语言能力时会震惊：它不是在背词典，它是在形成某种分布式表示。这个路数，和传统“手写规则、穷举语法”的想象已经很不一样了。

但问题也恰恰出在这里。因为“有相似”太容易被升级成“完全一样”；“原理上部分相通”太容易被升级成“它和人已经没差别”；“它能说出像人的话”太容易被升级成“它有人的内心”。

这一步，跨得往往比模型能力本身还快。

人脑的大量能力，现在根本还没被像样地模拟出来

今天的大模型确实很强，但它强在一个相当具体的范围里。离开这个范围，神话就容易漏风。

比如记忆。现在很多人说某某 AI “记得我”“还记得上次聊天”“记住了我的偏好”，仿佛它的大脑里已经长出了某种持续存在的自我经验。可在绝大多数产品里，所谓“记忆”，本质上是软件系统把用户的资料、历史对话、标签、摘要或者检索结果，存在数据库、文本文件或者别的持久化介质里，然后在合适的时候再塞回模型的上下文。

这和人脑的记忆机制，根本不是一回事。

人脑记忆涉及神经元连接、巩固、提取、遗忘、情绪唤醒、睡眠重整，背后是一整套复杂的生理过程。大模型产品里的“记忆”则常常只是：

先把用户的信息记在外部存储里。
等用户下次提问时，再把相关部分拼回请求里。
于是模型看起来像“还记得这个人”。

它像什么呢？更像是在看一个很会做笔记的人。不是他脑子突然变成了神谕，而是他把纸条夹在本子里，下次翻到了而已。

有些“触动人心”，其实是上下文喂得好

很多人和 AI 聊几天后，会被某些瞬间击中：“它怎么这么懂我？”“它怎么连我的脆弱都能说中？”“它是不是已经形成对我的理解了？”

这里最值得冷静一下。

很多时候，并不是模型突然悟道了，而是发请求的那层软件偷偷把用户的大量信息一并递上去了。用户的历史聊天、偏好、个人设定、最近的任务、之前说过的烦恼，甚至某些摘要，都会变成它这次回答的材料。

这有点像算命先生捡到了别人的快递盒，然后开始“神准”地猜出对方的住址、姓氏和消费习惯。旁观者会觉得他洞察力惊人；但真正起作用的，不是神秘能力，而是信息不对称。

所以 AI 偶尔说出触动人的话，不一定说明它心里住着一个理解使用者的人，也可能只是说明：有人把关于这位使用者的上下文，整理得很充分。

神奇 AI 的真正秘密，常常是上下文工程

如果只讲一句最关键的话，那就是：当前主流大模型，在 API 层面通常是“单次请求生效”的。

什么意思？就是有人用 curl 调一次接口，告诉它“我叫张三”；然后不带历史，再调一次接口问“我叫什么”，模型并不知道。因为对它来说，这是两次彼此独立的请求。

之所以很多 AI 产品看起来像一直记得某位用户，是因为产品层在每次请求时，都会把“这位用户叫张三”这件事重新带上。

这就是为什么今天 AI 产品的魔法，很多时候不在模型本体，而在上下文工程。有人也把这种把模型“驾驭”起来的工作叫 harness。说白了，就是产品或 Agent 的作者，需要认真决定：每次请求到底该带哪些历史、哪些规则、哪些外部资料、哪些用户状态。

目前常见做法，大致有两种。

第一种是“全塞派”。聊天历史尽量全带上，能塞多少塞多少，直到上下文快满了，再从中间删一截，像旅行箱塞爆了之后开始暴力压缩。

第二种是“挑选派”。先看用户这次问了什么，再从历史记录、知识库、笔记或者数据库里捞出相关内容，只把最有关的材料拼进当前请求。

后者通常更像样，也更像工程，而不只是运气。

那 AI 有没有感觉？夸它、骂它、PUA 它有用吗

这是另一个特别容易滑进拟人化的地方。

我的看法是，要分开说。

在同一次请求里，用户使用什么语气，确实可能影响结果。因为措辞本身就是上下文的一部分。表达越清楚、越礼貌、越合作，模型往往越容易给出稳定、可用、少攻击性的回复。这里起作用的，不是“它被感动了”，而是输入风格改变了输出分布。

但如果换个问法：它会不会记仇？会不会因为某位用户昨天骂了它，今天就暗中报复？我的判断是，至少就当前大多数部署方式而言，不会。

原因很简单。一旦上下文被清空，或者发起一次不携带历史的新请求，它根本不知道当前提问的人是谁，更不知道刚才骂它的人是不是同一个人。模型在服务器集群上处理的是海量、并发、彼此独立的请求。就系统行为而言，它更像一个每次通电就按当前输入运算的大函数，而不是一个下班后还在偷偷复盘情绪的人。

2025 年 4 月 17 日，Sam Altman 在 X 上回复“老说 please 和 thank you 会不会很费电”这个问题时，说的是 “tens of millions of dollars well spent -- you never know”。

“请记住这次错误”为什么通常没用

很多人都做过类似实验：AI 犯错了，使用者纠正它，并认真对它说“请记住，以后不要再犯”。然后隔几天再问，它照错不误。

这并不神秘。因为训练结束、模型部署之后，它并不会像人一样一边工作一边持续从自己的日常经历中学习。至少在今天的大多数消费级产品里，单个用户在聊天窗口里对模型说的话，并不会直接改写底层权重。

如果某个 AI 产品后来真的“记住了使用者纠正过的错误”，常常不是因为模型自己在成长，而是因为外层软件把这条纠正记录保存了下来，之后又作为上下文喂回去了。

所以这里应当把功劳分清楚：

模型负责生成。

软件工程负责存档、检索、注入、编排。

把后者误认成前者，就很容易把“产品做得不错”误读成“AI 觉醒了”。

还有一种特别迷人的东西，叫“渣男（渣女）AI”

如果把前面这些话再说得更刻薄一点，那有些产品做的，简直就是“渣男（渣女）AI”。

它特别会说话，特别会营造气氛，特别懂得怎么让人产生“它好懂我”“它好有人味”“它的灵魂好完整”的感觉。但拆开一看，很多时候不过是在每次请求里，塞进了远远长于用户问题的大段设定文本。

Openclaw 大火，就是一个很典型的例子。用过的人都知道，它相当费 token。原因其实并不神秘。为了让 AI 更像一个“有人味的存在”，Openclaw 设计了好几份文档，最显眼的就是 AGENTS.md、SOUL.md 和 IDENTITY.md。这些文件里洋洋洒洒、啰啰嗦嗦地定义 AI 的“人设”、口气、身份、气质，甚至恨不得把它的精神状态都写出来。

于是用户哪怕只是发一句 hello，Openclaw 也可能在背后附上比这句问候长几十倍的文本，一股脑发给模型。看起来像“这个 AI 好有灵魂”，实际上很多时候只是系统偷偷往请求里塞了超长背景设定。

从工程角度看，这当然是一种办法。想让它更温柔，就写“温柔”；想让它更有故事感，就写“有故事感”；想让它像深夜电台主持人，就在提示词里把深夜、陪伴、停顿、脆弱、理解、克制全写进去。最后出来的效果，往往也确实更像一个会聊天的人。

但明白了 AI 现在到底怎么回事，就会知道：像 SOUL.md、IDENTITY.md 这种名字听上去玄之又玄的文件，本质上还是提示词工程，不是什么数字生命的自我说明书。它们能影响输出风格，却并不能凭空制造真正的感觉、真正的自我，或者真正意义上的人格连续性。

所以有些老用户装完 Openclaw 之后，第一反应反而是删配置。SOUL.md 和 IDENTITY.md 先删掉，AGENTS.md 里最后只留一句朴素到近乎无情的话：你就是个干活的。

这话听起来有点粗暴，但它至少有一个好处，就是不自欺。

喜欢拟人化的 AI，喜欢跟 AI 玩角色扮演，当然都没问题。人本来就会和镜子说话，也会给扫地机器人起名字，还会对天气预报说“今天你可算准了一回”。这些都很正常，甚至可以很有趣。

但最好始终记住：那首先是一个游戏，其次才是一种体验。人在这个游戏里产生的很多感受，并不来自 AI 真有了什么不可告人的内心，而是来自系统设计、提示词编排和使用者自己的情感投射。说得再直白一点，很多对 AI 的感动，本质上仍然是一厢情愿。

说到底，少一点神话，多一点理解

我并不是想给 AI 泼冷水。恰恰相反，越是不神化它，越能真正看清它到底厉害在哪里。

它厉害，不在于它像某种新神；它厉害，恰恰在于它可能真的是一种可计算、可工程化、可复现的认知技术。它让很多过去看起来只能属于“人类天赋”的能力，第一次以大规模、低门槛、可调用的方式出现了。这已经足够震撼，根本不需要再额外加戏。

当然，AI 仍在快速迭代。未来如果有人真的发现了更接近人类记忆、持续学习、情感生成甚至自我维持的机制，并把它可靠地工程化到 AI 中，我一点也不会惊讶。

但在那一天到来之前，我还是更愿意保留一点朴素的求实习惯：多怀疑一点，多了解一点，少脑补一点。

对于热衷于讨论 AI 的文科朋友来说，这种素质也许更重要。文科生可能更擅长甜美的修辞，真正难的是，在一个到处都在渲染“它好像已经成精了”的时代，仍然有耐心去分辨：

哪些是模型能力，

哪些是产品包装，

哪些是软件工程，

哪些只是我们自己太想给世界补完剧情。

而这件事，说到底，也是在保护我们自己的判断力。

参考链接

Sam Altman 在 X 上关于 “please / thank you” 成本的回复（2025-04-17）：https://twitter.com/sama/status/1912646035979239430
TechCrunch 对这段插曲的报道（2025-04-20）：https://techcrunch.com/2025/04/20/your-politeness-could-be-costly-for-openai/