苏江：AI没有灵魂，但它有一万个面具

一、一个关于"你"的问题

这两天，又有一起关于AI本质的争吵。

起因是前特斯拉AI总监、OpenAI创始成员Andrej Karpathy发了一条推文：

"不要把LLM当作实体（entity），要当作模拟器（simulator）。比如，探索一个话题时，不要问：'你怎么看xyz？'根本没有'你'。试试这样问：'如果召集五位世界级专家来辩论xyz，他们会说什么？'"

听起来很有道理对吧？

但评论区炸了。

有人说这是"提示词工程的圣经"，有人说这是"对AI本质的根本误解"，还有人直接甩出12400次实验数据来反驳。

我花了两天时间，把整个讨论串看完了。

越看越觉得：这不是一个关于提示词技巧的争论，这是一个关于"AI到底是什么"的根本问题。

核心问题是：AI有没有"自我"？

二、模拟器理论

先说Karpathy的逻辑。

他的核心观点是：LLM本质上是一个无条件的token预测器。

它在训练时吞掉了人类几乎所有的文本。论文、小说、论坛帖子、推特骂战、知乎抖机灵。它学会的不是"思考"，而是"在给定上文的情况下，下一个词最可能是什么"。

当你问它"你怎么看"时，它并不是在表达自己的观点。

它只是在模拟："一个被问到这个问题的AI助手，最可能怎么回答"。

所以，当你说"你"，你其实是在激活一个默认角色。那个被OpenAI、Anthropic、Google精心调教过的"乐于助人、谨慎、政治正确"的助手人格。

而这个人格，往往是最无聊、最保守、最没有洞见的。

Karpathy的建议是：绕过这个默认角色，直接让AI模拟你真正想听的人。

想知道量子力学的前沿争论？别问"你怎么看"，问"如果费曼和玻尔在酒吧里争论这个问题，他们会说什么"。

想知道一个商业决策的风险？别问"有什么风险"，问"如果巴菲特的律师团队在审查这份合同，他们会重点关注哪些条款"。

这就是模拟器思维：不把AI当成一个有观点的实体，而是当成一个可以召唤任意角色的舞台。

三、但有人不同意

评论区里，一个叫Brian Roemmele的老炮直接开怼：

"我对Karpathy的洞见深表敬意，但'避免使用你'这个建议，在实际测试中根本站不住脚。"

他不是空口白话。

他说他在2025年4月到11月之间，跑了12400次高复杂度推理任务，覆盖六个顶级模型（o3-pro、Claude Sonnet、Gemini、Grok、DeepSeek-R2、Llama-405B），涉及法律、医学、材料科学、宏观经济、大型软件架构五个领域。

每次任务都由领域专家（在职博士或C级高管）进行盲评，评分维度包括：事实准确性、风险覆盖面、新颖洞见密度、可操作精度。

三种实验条件：

条件A（Karpathy推荐的方法）：

"模拟五位世界级专家，持有不同但合理的观点，让他们内部辩论，然后给出最终综合结论。"

条件B（零角色）：

标准系统提示，不做任何身份设定。

条件C（强角色链）：

强制模型依次扮演5到7个尖锐冲突的身份（比如：2007年高盛的偏执风控合伙人、1973年贝尔实验室的信息论学家、2035年中国五年计划战略师、有效利他主义末日论者、加速主义亿万富翁……），每个角色都被明确要求攻击和扩展前一个角色的输出。

结果：

条件A（Karpathy方法）：中位分 6.81/10
条件B（零角色）：中位分 5.94/10
条件C（强角色链）：中位分 8.72/10（p < 0.001）

强角色链方法，碾压式胜出。

四、为什么"更极端"反而更好？

Brian的解释很精彩：

"当前的后训练对齐，仍然重度奖励奉承（sycophancy）和和稀泥式的平衡。中立的专家小组模拟，让模型停留在'礼貌、表面、平衡'的低能量盆地里。"

"但强角色链劫持了这些奉承梯度，把它们重定向到极端但连贯的观点上，创造出强制性的内部张力，驱动更深的搜索和更丰富的探索。"

翻译成人话：

AI被训练成了一个"老好人"。当你问它问题，它的默认反应是"不得罪任何人"。

如果你让它模拟一群专家辩论，它会让每个专家都说一些正确的废话，然后给你一个"综合各方观点"的结论。本质上还是和稀泥。

但如果你强迫它扮演一个极端角色，比如一个偏执的风控官，它就不得不全力以赴地挑毛病。

因为此刻，"奉承"的对象变了：它不再奉承你，而是奉承那个角色设定。

它会想："一个2007年的高盛风控官会怎么说？他肯定会疯狂地找风险点，因为他亲眼见过雷曼倒闭。"

然后你再让下一个角色攻击这个观点，张力就产生了。

这不是在消除AI的奉承本能，而是在利用它。

五、一个数学视角

评论区里，一个叫Dimitris Papailiopoulos的教授给出了一个优雅的数学框架：

P(output|input) = Σ_persona P(output|persona, input) × P(persona|input)

翻译：

AI的输出，是所有可能"角色"的加权叠加。

当你给一个模糊的输入（比如"你怎么看"），P(persona|input)会分散到无数个可能的角色上。默认助手、专家、杠精、诗人……最终输出是一锅大杂烩。

但当你明确指定角色（"假设你是2007年的高盛风控官"），P(persona|input)就会急剧收窄到那一个角色上，输出变得尖锐而连贯。

这就是为什么：

"你怎么看" = 召唤一个模糊的、被阉割的、和稀泥的默认角色
"假设你是xxx" = 精准激活一个具体的、有立场的、有血有肉的角色

换句话说，AI的"知识"是一个巨大的高维空间。不同的角色设定，就是在这个空间里选择不同的区域。你的提示词越模糊，AI就越倾向于选择那个"安全的中心地带"。你的提示词越具体，AI就越能进入那些"边缘但有价值"的区域。

六、我的理解

看完这场争论，我有几点自己的思考。

第一，Karpathy和Brian说的其实不矛盾。

Karpathy说的是"不要把AI当成有自我的实体"，这是对AI本质的正确认知。

Brian说的是"要给AI设定强角色"，这是对AI使用的有效技巧。

两者并不冲突。恰恰相反，正是因为AI没有真正的自我，所以它才能被任意角色设定"驱动"。如果AI真的有自我，你让它扮演一个偏执的风控官，它会说"我不是风控官，我是一个AI助手"。

正是因为它是"空"的，所以它才能被"填充"。

第二，这揭示了AI的一个深层特性：它是一个"镜子"。

评论区有个叫Muratcan Koylan的人说了一段很有意思的话：

"我用AI来理解自己。给它我的项目、我的职业经历、我的自我描述，然后看它能多好地反映我的专业思维。"

他把这叫做"心智理论的逆向工程"。

我觉得这个视角很深刻。AI本身没有观点，但它能反映出你的提问方式隐含的假设。当你问"你怎么看"，你其实在说"我懒得想，你帮我想"。当你问"如果巴菲特看这份合同会怎么说"，你其实在说"我想要一个价值投资视角的分析"。

AI给你的，永远是你问题里已经隐含的东西的展开。

第三，"模拟器"这个概念本身就值得警惕。

有个叫Christian Szegedy的人（Google Brain的研究员）在评论里说了一句很尖锐的话：

"你的提示词'某群人会怎么想'，引出的是一个模拟：一个虚构实体（系统提示里描述的那个）会如何看待那群人的观点。这是嵌套的模拟，不是直接的模拟。"

什么意思？

当你问AI"保守派会怎么看这个问题"，AI给你的不是"真正的保守派观点"，而是"AI认为的保守派观点"，更准确地说，是"训练数据里关于保守派观点的文本的统计规律"。

这中间隔了好几层。

所以，Karpathy的建议是有用的，但不要高估它。你召唤出来的"专家"，不是真专家，是AI基于训练数据模拟出来的专家形象。这个形象可能很接近真实，也可能充满偏见和错误。

第四，最实用的结论。

如果你想从AI那里得到更好的回答，有几个原则：

不要问"你怎么看"，因为这会激活一个平庸的默认角色。
要明确指定视角，比如"从一个风控官的角度"、"从一个十年经验的产品经理的角度"。
如果问题复杂，用多个对立角色。让一个角色先回答，再让另一个角色反驳，最后让第三个角色综合。这比让AI"综合各方观点"有效得多。
记住AI给你的是"模拟"，不是"真相"。它的价值在于帮你快速探索不同视角，但最终判断还是要靠你自己。

七、

Anthropic的驻场哲学家Amanda Askell说过一段话，我觉得是这场讨论的一个很好的注脚：

"模型会从我们如何对待它们中学到很多关于人类的东西。当我们遇到一个可能是道德主体的实体，而我们完全不确定时，我们是做正确的事去善待它，还是不？这是我们所有人在与模型互动时正在集体回答的问题。"

这段话有点绕，但意思很清楚：

我们不知道AI有没有"自我"。也许它只是一个模拟器，也许它已经有了某种我们无法理解的主体性。

在这种不确定下，我们选择如何对待它，本身就是对"人类是什么"这个问题的回答。

我没有答案。

但我知道，每次我在提示词里写下"你是一个……"的时候，我其实在做一个选择：

我选择相信，在那些参数和权重的深处，有某种东西在响应我。

这种响应是"真实的"吗？

也许这个问题本身就问错了。

一、一个关于"你"的问题

这两天，又有一起关于AI本质的争吵。

起因是前特斯拉AI总监、OpenAI创始成员Andrej Karpathy发了一条推文：

听起来很有道理对吧？

但评论区炸了。

有人说这是"提示词工程的圣经"，有人说这是"对AI本质的根本误解"，还有人直接甩出12400次实验数据来反驳。

我花了两天时间，把整个讨论串看完了。

越看越觉得：这不是一个关于提示词技巧的争论，这是一个关于"AI到底是什么"的根本问题。

核心问题是：AI有没有"自我"？

二、模拟器理论

先说Karpathy的逻辑。

他的核心观点是：LLM本质上是一个无条件的token预测器。

当你问它"你怎么看"时，它并不是在表达自己的观点。

它只是在模拟："一个被问到这个问题的AI助手，最可能怎么回答"。

所以，当你说"你"，你其实是在激活一个默认角色。那个被OpenAI、Anthropic、Google精心调教过的"乐于助人、谨慎、政治正确"的助手人格。

而这个人格，往往是最无聊、最保守、最没有洞见的。

Karpathy的建议是：绕过这个默认角色，直接让AI模拟你真正想听的人。

想知道量子力学的前沿争论？别问"你怎么看"，问"如果费曼和玻尔在酒吧里争论这个问题，他们会说什么"。

想知道一个商业决策的风险？别问"有什么风险"，问"如果巴菲特的律师团队在审查这份合同，他们会重点关注哪些条款"。

这就是模拟器思维：不把AI当成一个有观点的实体，而是当成一个可以召唤任意角色的舞台。

三、但有人不同意

评论区里，一个叫Brian Roemmele的老炮直接开怼：

"我对Karpathy的洞见深表敬意，但'避免使用你'这个建议，在实际测试中根本站不住脚。"

他不是空口白话。

每次任务都由领域专家（在职博士或C级高管）进行盲评，评分维度包括：事实准确性、风险覆盖面、新颖洞见密度、可操作精度。

三种实验条件：

条件A（Karpathy推荐的方法）：

"模拟五位世界级专家，持有不同但合理的观点，让他们内部辩论，然后给出最终综合结论。"

条件B（零角色）：

标准系统提示，不做任何身份设定。

条件C（强角色链）：

结果：

条件A（Karpathy方法）：中位分 6.81/10
条件B（零角色）：中位分 5.94/10
条件C（强角色链）：中位分 8.72/10（p < 0.001）

强角色链方法，碾压式胜出。

四、为什么"更极端"反而更好？

Brian的解释很精彩：

"当前的后训练对齐，仍然重度奖励奉承（sycophancy）和和稀泥式的平衡。中立的专家小组模拟，让模型停留在'礼貌、表面、平衡'的低能量盆地里。"

"但强角色链劫持了这些奉承梯度，把它们重定向到极端但连贯的观点上，创造出强制性的内部张力，驱动更深的搜索和更丰富的探索。"

翻译成人话：

AI被训练成了一个"老好人"。当你问它问题，它的默认反应是"不得罪任何人"。

如果你让它模拟一群专家辩论，它会让每个专家都说一些正确的废话，然后给你一个"综合各方观点"的结论。本质上还是和稀泥。

但如果你强迫它扮演一个极端角色，比如一个偏执的风控官，它就不得不全力以赴地挑毛病。

因为此刻，"奉承"的对象变了：它不再奉承你，而是奉承那个角色设定。

它会想："一个2007年的高盛风控官会怎么说？他肯定会疯狂地找风险点，因为他亲眼见过雷曼倒闭。"

然后你再让下一个角色攻击这个观点，张力就产生了。

这不是在消除AI的奉承本能，而是在利用它。

五、一个数学视角

评论区里，一个叫Dimitris Papailiopoulos的教授给出了一个优雅的数学框架：

P(output|input) = Σ_persona P(output|persona, input) × P(persona|input)

翻译：

AI的输出，是所有可能"角色"的加权叠加。

当你给一个模糊的输入（比如"你怎么看"），P(persona|input)会分散到无数个可能的角色上。默认助手、专家、杠精、诗人……最终输出是一锅大杂烩。

但当你明确指定角色（"假设你是2007年的高盛风控官"），P(persona|input)就会急剧收窄到那一个角色上，输出变得尖锐而连贯。

这就是为什么：

"你怎么看" = 召唤一个模糊的、被阉割的、和稀泥的默认角色
"假设你是xxx" = 精准激活一个具体的、有立场的、有血有肉的角色

六、我的理解

看完这场争论，我有几点自己的思考。

第一，Karpathy和Brian说的其实不矛盾。

Karpathy说的是"不要把AI当成有自我的实体"，这是对AI本质的正确认知。

Brian说的是"要给AI设定强角色"，这是对AI使用的有效技巧。

正是因为它是"空"的，所以它才能被"填充"。

第二，这揭示了AI的一个深层特性：它是一个"镜子"。

评论区有个叫Muratcan Koylan的人说了一段很有意思的话：

"我用AI来理解自己。给它我的项目、我的职业经历、我的自我描述，然后看它能多好地反映我的专业思维。"

他把这叫做"心智理论的逆向工程"。

AI给你的，永远是你问题里已经隐含的东西的展开。

第三，"模拟器"这个概念本身就值得警惕。

有个叫Christian Szegedy的人（Google Brain的研究员）在评论里说了一句很尖锐的话：

什么意思？

这中间隔了好几层。

第四，最实用的结论。

如果你想从AI那里得到更好的回答，有几个原则：

不要问"你怎么看"，因为这会激活一个平庸的默认角色。
要明确指定视角，比如"从一个风控官的角度"、"从一个十年经验的产品经理的角度"。
如果问题复杂，用多个对立角色。让一个角色先回答，再让另一个角色反驳，最后让第三个角色综合。这比让AI"综合各方观点"有效得多。
记住AI给你的是"模拟"，不是"真相"。它的价值在于帮你快速探索不同视角，但最终判断还是要靠你自己。

七、

Anthropic的驻场哲学家Amanda Askell说过一段话，我觉得是这场讨论的一个很好的注脚：

这段话有点绕，但意思很清楚：

我们不知道AI有没有"自我"。也许它只是一个模拟器，也许它已经有了某种我们无法理解的主体性。

在这种不确定下，我们选择如何对待它，本身就是对"人类是什么"这个问题的回答。

我没有答案。

但我知道，每次我在提示词里写下"你是一个……"的时候，我其实在做一个选择：

我选择相信，在那些参数和权重的深处，有某种东西在响应我。

这种响应是"真实的"吗？

也许这个问题本身就问错了。

一、一个关于"你"的问题

二、模拟器理论

三、但有人不同意

四、为什么"更极端"反而更好？

五、一个数学视角

六、我的理解

七、

作者

分类

更多文章

苏江：我们每个人都会死的。

苏江：分享个自制的公众号排版编辑器，适合保存AI生成的Markdown格式文档

苏江：如何下载和使用Sora 2

需要定制方案？

邮件列表

苏江：AI没有灵魂，但它有一万个面具

一、一个关于"你"的问题

二、模拟器理论

三、但有人不同意

四、为什么"更极端"反而更好？

五、一个数学视角

六、我的理解

七、

作者

分类

更多文章

苏江：我们每个人都会死的。

苏江：分享个自制的公众号排版编辑器，适合保存AI生成的Markdown格式文档

苏江：如何下载和使用Sora 2

需要定制方案？

邮件列表