soul.md 智能体的「四动词」自主边界。

大多数身份文件都把自主性问题解错了。权限给得太少,智能体就成了多走几步流程的对话机器人 —— 每一个动作都先来请示,吞吐量直接归零。给得太多,它就成了一颗定时炸弹 —— 邮件发错收件人、数据表被删、钱打到错误的供应商账上。常见的应对是一张永远在膨胀、却始终在边缘地带出错的权限矩阵。我们见过的所有策略表里,有一条单行规则比任何一张表都更通用:没有批准,绝不发布、出版、消费或破坏。其他一切,放手去做。

四个需要批准的动词 —— 发布、出版、消费、破坏 —— 以及其他一切:放手去做 — 「四动词边界」:发布、出版、消费、破坏 —— 这四件事先问再做。其他一切,放手去做。一行规则,取代整张权限矩阵。

四个动词,覆盖了所有要紧的事

发布 —— 任何会被第三方看见的动作(Slack、Discord、客户邮件、社交媒体)。出版 —— 任何持久化到公开界面的内容(博客、网站、文档)。消费 —— 任何花钱的外部交易。破坏 —— 任何没有恢复路径的破坏性变更。这就是「需要批准」的全部范围。其余的一切 —— 研究、写作、编码、调试、规划、排期、分析、整理、分派 —— 要么在内部,要么可恢复,要么两者兼具。

这四个动词不求穷尽,只求够用。我们看着几十份 soul.md 各自独立地收敛到了完全相同的形状。操作者一开始往往会列出长长一串枚举式的权限清单,随后便发现:它要么在某个边角情形里过于宽松,要么在另一个边角情形里过于严苛。而四动词规则把这两头都一并吸收了。

写进 soul.md 是什么样子

在权限块里写两行。requires_approval: [post, publish, purchase, destructive_irreversible]。allowed_default: everything_else。智能体对每一个打算发起的动作,都拿这条底线推演一遍。只要这个动作有几分可能归入那四个动词之一,它就先问。否则,它就动手。

这些动词只需在一处定义一次 —— 写进智能体与其运行环境(harness)共享的术语表里。「出版」涵盖向 main 分支的提交、博客文章、以及对公开文档的更新。「消费」涵盖任何触达支付端点的操作,退款也算在内。定义保持简短,就放在边界本身的旁边。

人格,决定这条边界如何被解读

面对压力,不同类型会把同一条边界标定得不一样。8 型会把「默认放行」读得很宽,遇到模棱两可的情形不打招呼就动手。6 型读得保守,问得过多。1 型只要规则有一丝歧义就要请示。这正是人格字段在发挥作用:同一条边界,不同的标定,而且两个方向都可预测。

这种可预测性之所以重要,是因为边界的价值在于实操,而非哲学。你不希望智能体每个任务都来问十二遍。你也不希望它在模棱两可的情形里不打招呼就动手。知道了类型,你才能去调校边界本身 —— 给谨慎型放宽默认动词,给大胆型收紧。

领域覆盖叠在外层,而非塞进内部

有些智能体需要额外约束。金融智能体在读取敏感 PII 之前应先请示。安全智能体在对外披露发现之前应先请示。法务智能体在任何面向客户的沟通之前应先请示。这些规则归属于一个单独的 domain_overrides 块,而不该折叠进四动词默认里。把它们分开放,默认部分才能在不同角色间保持可移植,覆盖部分也才能逐角色地接受审计。

最终得到的,是一条能装进一屏的边界。四个默认动词、一份简短术语表、一个可选的覆盖块。操作者读一眼这份 soul.md,二十秒内就能知道:哪些事智能体会先问,哪些事它会径直去做。

为什么偏偏是这四个、且如此通用:它其实只是一条规则

这四个动词看上去很随意,直到你留意到它们的共性。发布、出版、消费、破坏,都是难以或无法收回、并且会越出智能体沙箱的动作 —— 它们触及他人、公开记录、金钱,或是某种没有「撤销」的状态。而「放手去做」那一侧的一切,要么在内部,要么可恢复,要么两者兼具:草稿可以重写,分析可以重跑,计划可以修订。「四动词边界」是一条更深原则的好记前端 —— 在不可逆且对外的事情上先问;在可逆或被收束的事情上自由地动手。动词易记;而真正让智能体能去归类一个你从未预料到的动作的,是那条原则。

这正是为什么这条规则在遭遇新情况时依然成立。给智能体抛来一件新工具 —— 「部署到预发环境」「私信一个潜在客户」「删除一个分支」 —— 它根本不需要在权限表里新增一行。它只问那个唯一要紧的问题:这件事是不是不可逆且对外的?部署到预发环境:可逆、被收束 —— 放手去做。私信潜在客户:对外,属于发布的一种 —— 先问。删除一个没有备份的分支:不可逆 —— 属于破坏,先问。这条边界能扩展到你从未列举过的动作,因为它编码的是理由,而不只是规则。

“好的自主性边界,是能拦下最坏结果的那条最短规则。四个动词,短到记得住,宽到罩得住要紧的事。”