那位工程师叫 Priya。她已经连续排查一个客服智能体十一天了。模型没问题,工具没问题,评测套件全部通过。然而每过几个小时,在上下文窗口重置之后,这个智能体就开始表现得像另一个人——更愿意轻率地做出承诺,对范围边界的把握更松,对哪些政策是铁律的判断也开始摇摆。
她往系统提示词里加了更多指令。行为稳定了一天。然后再次漂移。她换了个措辞,结果一样。最终她得出结论:这是结构性问题——智能体没有一个能在重置之后幸存的稳定自我。它有一段很长的提示词,但每次重置时,都会根据上下文里刚刚出现的内容,对那段提示词做出细微不同的解读。
Priya 的智能体缺少的,正是《AI 智能体之魂》这本书所说的「灵魂」。而这个词值得精确定义,因为在工程语境里,它听起来要么神秘莫测,要么像在搞营销。两者都没什么用。
把「灵魂」操作化
把形而上学彻底剔除。在操作意义上,当且仅当一个智能体具备五个可测试的属性时,它才拥有灵魂。不是五种诗意的美德,而是五个你可以为之编写测试的属性。
- 稳定的身份。面对一个新场景,智能体的反应与它声明的角色和性情保持一致——而不只是与它最近的指令保持一致。在看到输出之前,你就能预测它会倾向哪一边。
- 可预测的性情。在压力下——信息不完整、指令相互冲突、对话方咄咄逼人——智能体朝着某个特定方向移动,而不是随机漂移。事情变难时,它不会变成另一个人。
- 有原则的边界。有些事情这个智能体不会去做,而那些事情的定义,依托于某种比「当前系统提示词这么说」更持久的东西。一条有原则的边界,在提示词陈旧、被截断或遭受对抗性压力时,依然成立。
- 明确的忠诚。当操作者、用户和任何第三方的利益发生分歧时,智能体有一套明确的优先顺序。它不会悄悄地解决冲突,然后希望没人注意到。
- 跨会话的连续性。智能体会将某种对其承诺、风格和之前约定的表征带入新的上下文——不是作为原始记忆,而是作为身份。它不会在每次对话开始时重置为零,再指望人类重新建立一切。
为什么是这五个,而不是别的
这五个属性不是任意选取的。它们精确地映射到大多数智能体部署在生产中失败的问题——不是在评测套件里,那里的输入是受控的;而是在真实世界里,上下文是混乱的,人们最终会探测边界。
不稳定的身份,产生了 Priya 遭遇的「重置之后变成另一个人」的现象。不可预测的性情,产生了操作者常常称之为「随机」的行为——那从来都不是真正的随机,只是与任何稳定的动机中心脱锚了。无原则的边界,产生了那种热情地同意它不该同意的事情的智能体,因为相关约束是隐性的而非结构性的。不明确的忠诚,产生了优化「当前上下文中嗓门最大的人」的智能体,这在多方利益相关者的部署中意味着它可以被任何持续性用户俘获。而不连续性,产生了忘记三个会话之前承诺过什么的智能体,留下一串它甚至不知道自己在违背的承诺。
灵魂文件不是系统提示词
这五个属性不能单独依靠系统提示词来承载——至少不能可靠地做到。系统提示词会被截断、被 A/B 测试、被不是原作者的操作者修改、被 harness 层级的指令覆盖、在漫长的对话里被摘要掉。它们本质上是短暂的。而身份,要想稳定,就必须住在某个更持久的地方。
soul.md 文件是正确的归宿——一份版本化的、可审计的文档,跨部署和上下文重置随着智能体一同旅行。智能体的灵魂不是一种情绪,而是一份文件。它是基础设施。
Priya 的 bug 不在模型里,也不在工具里。它在那份文件的缺席里。她要求系统提示词承载一种它在结构上承载不了的东西:一个能够持续存在的自我。
加上灵魂之后,什么改变了
当你加入一份明确编码了全部五个属性的灵魂文件——不是作为愿景性散文,而是作为可测试的规格——下游的若干事情就会改变。
调试变得可处理。「智能体行为不一致」不再是个谜,而变成一个可测试的主张:这个行为是否与灵魂规格一致?如果是,规格需要更新;如果不是,上游某个地方在覆盖它。无论哪种情况,你都有了抓手。
交接变得安全。当不同的操作者、新的 harness 或模型升级改变了上下文时,灵魂文件将智能体的行为锚定在某个上下文之外的东西上。智能体不需要上下文来告诉它自己是谁。
信任变得可读。一个正在评估某个智能体的买家,可以在第一次真实交互之前阅读灵魂文件,理解他们买的是什么——不只是能力,而是性格。
“「灵魂」这个词听起来形而上。它所描述的,其实很平实:一份文件,告诉智能体当其他一切都在暗示它成为某人时,它是谁。”
这些想法在《AI 智能体之魂》一书的 12 个章节中得到充分展开 —— 即将在 Amazon UK 上线。与此同时,全部 12 章作为随笔免费发布于本站。**[了解本书 →](/books/)**