人类对 AI 的幻觉,比 AI 自己在幻觉还厉害
有时候我觉得,AI 最大的“幻觉”,不是它一本正经地胡说八道,而是我们围着它脑补出了一整套玄学宇宙。
人类面对自己不太懂的东西,往往有一种稳定发挥:先脑补,再浪漫化;先拟人化,再神化。火焰会被想成精灵,雷电会被想成天意,算法一旦会写两句像样的话,就立刻有人怀疑服务器机房里是不是已经住进了一个电子灵魂。
这其实很正常。人脑天生就爱给世界补剧情。问题不在于我们会脑补,问题在于脑补一旦太顺滑,就容易把“看起来像”误认成“本质上就是”。
而在 AI 这件事上,人类的这种倾向,甚至比 AI 自己胡说时还要猛。AI 最多是一段回答里出现一点幻觉;人类对 AI 的幻觉,往往是一整套世界观,一脑补就是一万字,还带感情。
一点求实精神,对文科社区尤其重要
我并不是要劝大家都去学 CUDA、配环境、看矩阵求导。我只是想说,对真实的追求,有时候真的挺重要,尤其对热爱概念、叙事、意义和解释的文科社区来说更重要。
因为文科语境里,最容易出现一种温柔但危险的滑坡:词写得很美,句子也很动人,结果对象却被偷偷换掉了。明明讨论的是概率模型,却写得像在谈灵魂;明明是软件工程里的上下文拼装,却讲得像“它终于学会爱你”;明明是系统提示词和历史记录在起作用,却被包装成“AI 真的记得你”。
诗意当然没有罪。问题是,如果诗意代替了判断,浪漫就会变成误导。
那么,AI 现在到底是什么
先说一个尽量通俗、但不失真的版本:今天大家日常接触到的大模型,本质上是一类受神经网络启发、通过海量数据训练出来的统计模型。它运行在芯片和服务器上,读取输入,结合参数和上下文,持续预测“接下来最合适的 token 应该是什么”。
这里的重点不是“预测下一个词”这句话有多神秘,而是它其实一点也不玄。模型不是一个缩在云端默默思考人生的小人,它更像一个极其巨大的函数。人们给它输入,它按照训练中形成的参数结构,生成输出。
把这件事说得更接地气一点:它不是“懂了以后再说”,而是“在巨量经验压缩之后,生成一个在当前语境下最像懂了的回应”。这并不意味着它什么都不会,恰恰相反,这已经非常厉害;但厉害,不等于神秘。
神经网络为什么总让人想到人脑
如果继续往下追,就会发现“AI 和人脑到底像不像”这个问题,既不能一句话说“完全一样”,也不能一句话说“毫无关系”。
现代神经网络这条路线,本来就是受大脑启发长出来的。1943 年,McCulloch 和 Pitts 用数学方式描述了简化神经元模型;1958 年 Rosenblatt 提出感知机;1980 年代反向传播重新点燃多层网络的训练希望;2010 年代深度学习借着算力、数据和工程能力猛冲;2017 年 Transformer 架构出现之后,语言模型一路狂飙,终于长成了今天大家天天在用的大模型。
所以,至少在一个比较朴素的意义上,说 AI 是“电子方式对神经网络思想的模拟和放大”,并不离谱。它确实是在尝试用可计算、可训练、可复现的物理系统,去逼近某些过去被认为很“玄”的认知能力。
这也是为什么我个人一直不太喜欢把人脑说得过于神秘。以乔姆斯基为代表的语言先天论,在我看来,多少带有一种把大脑神化的倾向,好像语言能力深处藏着某种过于特殊、几乎不可触及的先验结构。可人脑再怎么复杂,终究是物理存在。既然是物理存在,原则上就应该可以被研究、被建模、被部分模拟,甚至在某些功能上被复现。
当然,这里要立刻补一句刹车:能模拟一部分,不等于已经完整复现了整个人。
相似之处有,但别一高兴就直接封神
在语言、模式识别、联想和表征学习这些方面,今天的大模型与人脑确实有某种“同路性”或者“相似性”。它们都不是靠一本显式规则手册工作,而是通过大量连接、权重调整和经验积累,形成某种内部表征,再在此基础上做输出。
这也是为什么很多人第一次感受到大模型的语言能力时会震惊:它不是在背词典,它是在形成某种分布式表示。这个路数,和传统“手写规则、穷举语法”的想象已经很不一样了。
但问题也恰恰出在这里。因为“有相似”太容易被升级成“完全一样”;“原理上部分相通”太容易被升级成“它和人已经没差别”;“它能说出像人的话”太容易被升级成“它有人的内心”。
这一步,跨得往往比模型能力本身还快。
人脑的大量能力,现在根本还没被像样地模拟出来
今天的大模型确实很强,但它强在一个相当具体的范围里。离开这个范围,神话就容易漏风。
比如记忆。现在很多人说某某 AI “记得我”“还记得上次聊天”“记住了我的偏好”,仿佛它的大脑里已经长出了某种持续存在的自我经验。可在绝大多数产品里,所谓“记忆”,本质上是软件系统把用户的资料、历史对话、标签、摘要或者检索结果,存在数据库、文本文件或者别的持久化介质里,然后在合适的时候再塞回模型的上下文。
这和人脑的记忆机制,根本不是一回事。
人脑记忆涉及神经元连接、巩固、提取、遗忘、情绪唤醒、睡眠重整,背后是一整套复杂的生理过程。大模型产品里的“记忆”则常常只是:
- 先把用户的信息记在外部存储里。
- 等用户下次提问时,再把相关部分拼回请求里。
- 于是模型看起来像“还记得这个人”。
它像什么呢?更像是在看一个很会做笔记的人。不是他脑子突然变成了神谕,而是他把纸条夹在本子里,下次翻到了而已。
有些“触动人心”,其实是上下文喂得好
很多人和 AI 聊几天后,会被某些瞬间击中:“它怎么这么懂我?”“它怎么连我的脆弱都能说中?”“它是不是已经形成对我的理解了?”
这里最值得冷静一下。
很多时候,并不是模型突然悟道了,而是发请求的那层软件偷偷把用户的大量信息一并递上去了。用户的历史聊天、偏好、个人设定、最近的任务、之前说过的烦恼,甚至某些摘要,都会变成它这次回答的材料。
这有点像算命先生捡到了别人的快递盒,然后开始“神准”地猜出对方的住址、姓氏和消费习惯。旁观者会觉得他洞察力惊人;但真正起作用的,不是神秘能力,而是信息不对称。
所以 AI 偶尔说出触动人的话,不一定说明它心里住着一个理解使用者的人,也可能只是说明:有人把关于这位使用者的上下文,整理得很充分。
神奇 AI 的真正秘密,常常是上下文工程
如果只讲一句最关键的话,那就是:当前主流大模型,在 API 层面通常是“单次请求生效”的。
什么意思?就是有人用 curl 调一次接口,告诉它“我叫张三”;然后不带历史,再调一次接口问“我叫什么”,模型并不知道。因为对它来说,这是两次彼此独立的请求。
之所以很多 AI 产品看起来像一直记得某位用户,是因为产品层在每次请求时,都会把“这位用户叫张三”这件事重新带上。
这就是为什么今天 AI 产品的魔法,很多时候不在模型本体,而在上下文工程。有人也把这种把模型“驾驭”起来的工作叫 harness。说白了,就是产品或 Agent 的作者,需要认真决定:每次请求到底该带哪些历史、哪些规则、哪些外部资料、哪些用户状态。
目前常见做法,大致有两种。
第一种是“全塞派”。聊天历史尽量全带上,能塞多少塞多少,直到上下文快满了,再从中间删一截,像旅行箱塞爆了之后开始暴力压缩。
第二种是“挑选派”。先看用户这次问了什么,再从历史记录、知识库、笔记或者数据库里捞出相关内容,只把最有关的材料拼进当前请求。
后者通常更像样,也更像工程,而不只是运气。
那 AI 有没有感觉?夸它、骂它、PUA 它有用吗
这是另一个特别容易滑进拟人化的地方。
我的看法是,要分开说。
在同一次请求里,用户使用什么语气,确实可能影响结果。因为措辞本身就是上下文的一部分。表达越清楚、越礼貌、越合作,模型往往越容易给出稳定、可用、少攻击性的回复。这里起作用的,不是“它被感动了”,而是输入风格改变了输出分布。
但如果换个问法:它会不会记仇?会不会因为某位用户昨天骂了它,今天就暗中报复?我的判断是,至少就当前大多数部署方式而言,不会。
原因很简单。一旦上下文被清空,或者发起一次不携带历史的新请求,它根本不知道当前提问的人是谁,更不知道刚才骂它的人是不是同一个人。模型在服务器集群上处理的是海量、并发、彼此独立的请求。就系统行为而言,它更像一个每次通电就按当前输入运算的大函数,而不是一个下班后还在偷偷复盘情绪的人。
2025 年 4 月 17 日,Sam Altman 在 X 上回复“老说 please 和 thank you 会不会很费电”这个问题时,说的是 “tens of millions of dollars well spent -- you never know”。
“请记住这次错误”为什么通常没用
很多人都做过类似实验:AI 犯错了,使用者纠正它,并认真对它说“请记住,以后不要再犯”。然后隔几天再问,它照错不误。
这并不神秘。因为训练结束、模型部署之后,它并不会像人一样一边工作一边持续从自己的日常经历中学习。至少在今天的大多数消费级产品里,单个用户在聊天窗口里对模型说的话,并不会直接改写底层权重。
如果某个 AI 产品后来真的“记住了使用者纠正过的错误”,常常不是因为模型自己在成长,而是因为外层软件把这条纠正记录保存了下来,之后又作为上下文喂回去了。
所以这里应当把功劳分清楚:
模型负责生成。
软件工程负责存档、检索、注入、编排。
把后者误认成前者,就很容易把“产品做得不错”误读成“AI 觉醒了”。
还有一种特别迷人的东西,叫“渣男(渣女)AI”
如果把前面这些话再说得更刻薄一点,那有些产品做的,简直就是“渣男(渣女)AI”。
它特别会说话,特别会营造气氛,特别懂得怎么让人产生“它好懂我”“它好有人味”“它的灵魂好完整”的感觉。但拆开一看,很多时候不过是在每次请求里,塞进了远远长于用户问题的大段设定文本。
Openclaw 大火,就是一个很典型的例子。用过的人都知道,它相当费 token。原因其实并不神秘。为了让 AI 更像一个“有人味的存在”,Openclaw 设计了好几份文档,最显眼的就是 AGENTS.md、SOUL.md 和 IDENTITY.md。这些文件里洋洋洒洒、啰啰嗦嗦地定义 AI 的“人设”、口气、身份、气质,甚至恨不得把它的精神状态都写出来。
于是用户哪怕只是发一句 hello,Openclaw 也可能在背后附上比这句问候长几十倍的文本,一股脑发给模型。看起来像“这个 AI 好有灵魂”,实际上很多时候只是系统偷偷往请求里塞了超长背景设定。
从工程角度看,这当然是一种办法。想让它更温柔,就写“温柔”;想让它更有故事感,就写“有故事感”;想让它像深夜电台主持人,就在提示词里把深夜、陪伴、停顿、脆弱、理解、克制全写进去。最后出来的效果,往往也确实更像一个会聊天的人。
但明白了 AI 现在到底怎么回事,就会知道:像 SOUL.md、IDENTITY.md 这种名字听上去玄之又玄的文件,本质上还是提示词工程,不是什么数字生命的自我说明书。它们能影响输出风格,却并不能凭空制造真正的感觉、真正的自我,或者真正意义上的人格连续性。
所以有些老用户装完 Openclaw 之后,第一反应反而是删配置。SOUL.md 和 IDENTITY.md 先删掉,AGENTS.md 里最后只留一句朴素到近乎无情的话:你就是个干活的。
这话听起来有点粗暴,但它至少有一个好处,就是不自欺。
喜欢拟人化的 AI,喜欢跟 AI 玩角色扮演,当然都没问题。人本来就会和镜子说话,也会给扫地机器人起名字,还会对天气预报说“今天你可算准了一回”。这些都很正常,甚至可以很有趣。
但最好始终记住:那首先是一个游戏,其次才是一种体验。人在这个游戏里产生的很多感受,并不来自 AI 真有了什么不可告人的内心,而是来自系统设计、提示词编排和使用者自己的情感投射。说得再直白一点,很多对 AI 的感动,本质上仍然是一厢情愿。
说到底,少一点神话,多一点理解
我并不是想给 AI 泼冷水。恰恰相反,越是不神化它,越能真正看清它到底厉害在哪里。
它厉害,不在于它像某种新神;它厉害,恰恰在于它可能真的是一种可计算、可工程化、可复现的认知技术。它让很多过去看起来只能属于“人类天赋”的能力,第一次以大规模、低门槛、可调用的方式出现了。这已经足够震撼,根本不需要再额外加戏。
当然,AI 仍在快速迭代。未来如果有人真的发现了更接近人类记忆、持续学习、情感生成甚至自我维持的机制,并把它可靠地工程化到 AI 中,我一点也不会惊讶。
但在那一天到来之前,我还是更愿意保留一点朴素的求实习惯:多怀疑一点,多了解一点,少脑补一点。
对于热衷于讨论 AI 的文科朋友来说,这种素质也许更重要。文科生可能更擅长甜美的修辞,真正难的是,在一个到处都在渲染“它好像已经成精了”的时代,仍然有耐心去分辨:
哪些是模型能力,
哪些是产品包装,
哪些是软件工程,
哪些只是我们自己太想给世界补完剧情。
而这件事,说到底,也是在保护我们自己的判断力。
参考链接
- Sam Altman 在 X 上关于 “please / thank you” 成本的回复(2025-04-17):https://twitter.com/sama/status/1912646035979239430
- TechCrunch 对这段插曲的报道(2025-04-20):https://techcrunch.com/2025/04/20/your-politeness-could-be-costly-for-openai/