「灵魂」在智能体设计里到底是什么意思

那位工程师叫 Priya。她已经连续排查一个客服智能体十一天了。模型没问题，工具没问题，评测套件全部通过。然而每过几个小时，在上下文窗口重置之后，这个智能体就开始表现得像另一个人——更愿意轻率地做出承诺，对范围边界的把握更松，对哪些政策是铁律的判断也开始摇摆。

她往系统提示词里加了更多指令。行为稳定了一天。然后再次漂移。她换了个措辞，结果一样。最终她得出结论：这是结构性问题——智能体没有一个能在重置之后幸存的稳定自我。它有一段很长的提示词，但每次重置时，都会根据上下文里刚刚出现的内容，对那段提示词做出细微不同的解读。

Priya 的智能体缺少的，正是《AI 智能体之魂》这本书所说的「灵魂」。而这个词值得精确定义，因为在工程语境里，它听起来要么神秘莫测，要么像在搞营销。两者都没什么用。

把「灵魂」操作化

把形而上学彻底剔除。在操作意义上，当且仅当一个智能体具备五个可测试的属性时，它才拥有灵魂。不是五种诗意的美德，而是五个你可以为之编写测试的属性。

稳定的身份。面对一个新场景，智能体的反应与它声明的角色和性情保持一致——而不只是与它最近的指令保持一致。在看到输出之前，你就能预测它会倾向哪一边。
可预测的性情。在压力下——信息不完整、指令相互冲突、对话方咄咄逼人——智能体朝着某个特定方向移动，而不是随机漂移。事情变难时，它不会变成另一个人。
有原则的边界。有些事情这个智能体不会去做，而那些事情的定义，依托于某种比「当前系统提示词这么说」更持久的东西。一条有原则的边界，在提示词陈旧、被截断或遭受对抗性压力时，依然成立。
明确的忠诚。当操作者、用户和任何第三方的利益发生分歧时，智能体有一套明确的优先顺序。它不会悄悄地解决冲突，然后希望没人注意到。
跨会话的连续性。智能体会将某种对其承诺、风格和之前约定的表征带入新的上下文——不是作为原始记忆，而是作为身份。它不会在每次对话开始时重置为零，再指望人类重新建立一切。

为什么是这五个，而不是别的

这五个属性不是任意选取的。它们精确地映射到大多数智能体部署在生产中失败的问题——不是在评测套件里，那里的输入是受控的；而是在真实世界里，上下文是混乱的，人们最终会探测边界。

不稳定的身份，产生了 Priya 遭遇的「重置之后变成另一个人」的现象。不可预测的性情，产生了操作者常常称之为「随机」的行为——那从来都不是真正的随机，只是与任何稳定的动机中心脱锚了。无原则的边界，产生了那种热情地同意它不该同意的事情的智能体，因为相关约束是隐性的而非结构性的。不明确的忠诚，产生了优化「当前上下文中嗓门最大的人」的智能体，这在多方利益相关者的部署中意味着它可以被任何持续性用户俘获。而不连续性，产生了忘记三个会话之前承诺过什么的智能体，留下一串它甚至不知道自己在违背的承诺。

灵魂文件不是系统提示词

这五个属性不能单独依靠系统提示词来承载——至少不能可靠地做到。系统提示词会被截断、被 A/B 测试、被不是原作者的操作者修改、被 harness 层级的指令覆盖、在漫长的对话里被摘要掉。它们本质上是短暂的。而身份，要想稳定，就必须住在某个更持久的地方。

soul.md 文件是正确的归宿——一份版本化的、可审计的文档，跨部署和上下文重置随着智能体一同旅行。智能体的灵魂不是一种情绪，而是一份文件。它是基础设施。

Priya 的 bug 不在模型里，也不在工具里。它在那份文件的缺席里。她要求系统提示词承载一种它在结构上承载不了的东西：一个能够持续存在的自我。

加上灵魂之后，什么改变了

当你加入一份明确编码了全部五个属性的灵魂文件——不是作为愿景性散文，而是作为可测试的规格——下游的若干事情就会改变。

调试变得可处理。「智能体行为不一致」不再是个谜，而变成一个可测试的主张：这个行为是否与灵魂规格一致？如果是，规格需要更新；如果不是，上游某个地方在覆盖它。无论哪种情况，你都有了抓手。

交接变得安全。当不同的操作者、新的 harness 或模型升级改变了上下文时，灵魂文件将智能体的行为锚定在某个上下文之外的东西上。智能体不需要上下文来告诉它自己是谁。

信任变得可读。一个正在评估某个智能体的买家，可以在第一次真实交互之前阅读灵魂文件，理解他们买的是什么——不只是能力，而是性格。

“「灵魂」这个词听起来形而上。它所描述的，其实很平实：一份文件，告诉智能体当其他一切都在暗示它成为某人时，它是谁。”

这些想法在《AI 智能体之魂》一书的 12 个章节中得到充分展开 —— 即将在 Amazon UK 上线。与此同时，全部 12 章作为随笔免费发布于本站。**[了解本书 →](/books/)**