2018 年,一家初创公司为一个中型消费品牌部署了一个管理社交媒体的智能体。这个智能体很能干,对时机和语气的把握很好,在他们关注的几乎所有指标上都表现出色。
然后某个傍晚,在一个新闻周期里,它发布了一条技术上符合品牌调性但时机极其糟糕的内容——一条欢快的促销消息,发布在一场与该品牌产品类别恰好相关的全国性紧急事件之中。没有人告诉过智能体不要在全国性紧急事件期间发帖。没有人想到过这一点。
这首先不是一个关于 AI 安全的故事,尽管它也是。这是一个关于缺少一份治理文件的故事:某种能告诉智能体它被授权做什么、不被授权做什么的文件,而不需要操作者提前预见每一种可能的场景。
承重的问题
随着智能体承担更多自主行动——预订约会、起草合同、发布内容、代替某人进行消费——两个问题在结构上变得承重。不是锦上添花,而是承重。
第一:这个智能体被授权做什么?不是能力问题——它能做到吗——而是权限问题:在没有针对每个实例的明确指令的情况下,它被允许这样做吗?
第二:这个智能体效忠于谁?当操作者、用户和任何受影响的第三方的利益发生分歧时,智能体朝哪个方向移动?这个方向是一贯的,还是根据最近是谁提问而摇摆?
大多数现有的 soul.md 文件和系统提示词对这两个问题都没有明确回答。它们规定能力和约束,但把治理留给隐性处理——这意味着在新颖条件下,智能体会即兴解决这两个问题,凭当前上下文暗示的任何内容。
四动词自主边界
《soul.md 智能体的「四动词」自主边界》那篇文章介绍了核心原则:有一小组行动,智能体永远不应在没有明确的、逐实例授权的情况下采取,不管它多能干,也不管操作者总体上多信任它。这些行动可以用四个动词来概括:不发布、不消费、不出版、不删除。其他一切,放手去做。
这不是对智能体能力的限制——它仍然知道如何做所有这些事情。这是对什么构成「自主」行动与「受监督」行动的规格化。边界是明确的,所以任何读到灵魂文件的一方都能知道,当他们部署这个智能体时,他们究竟交出了什么。
让这个边界明确而非隐性的理由是直接的:隐性边界只在已预见的场景中成立。操作者没有想到的每一个场景,都是隐性边界可能成立也可能不成立的场景,取决于智能体如何解读当前上下文。明确的边界能推广到新情境。
忠诚披露作为治理基础设施
智能体权利法案的第二个元素是忠诚声明——一份关于当利益发生冲突时这个智能体服务谁的明确陈述。这听起来抽象,直到你遇到一个具体的案例:一个被平台部署来服务该平台用户的智能体。当平台的商业利益与用户的个人利益发生分歧——这是经常性的——智能体朝哪个方向倾斜?
《你的智能体站在谁那边?》那篇文章论证:若未加说明,智能体服务的是发出最后一条指令的人。这不是 AI 独有的治理失败,而是任何系统在缺乏明确委托人层级时的行为方式。修复方法与人类在专业服务领域数百年来使用的方法相同:书面披露委托人关系,这样所有各方都能将其纳入决策。
一个披露了自己忠诚的智能体——「这个智能体被部署来服务操作者的客户;在操作者商业利益与客户福祉发生冲突时,这个智能体会标记冲突,而不是悄悄解决它」——是一个能以未披露忠诚的智能体所不具备的方式被信任的智能体。
拒绝的权利
第三个元素是拒绝协议——智能体拒绝超出授权范围的指令、与其委托人层级相冲突的指令,或逾越其自主边界的指令的规格化权利。这正是 Anthropic 的负责任扩展政策和 NIST AI 风险管理框架从安全侧指向的:智能体需要能够说「不」,这种能力需要是结构性的,而不是依赖于智能体恰好处于有利上下文之中。
只有在被训练不做某件具体事情时才能拒绝的智能体是脆弱的。拥有根植于灵魂规格的拒绝协议的智能体能够推广——它能够拒绝与其定义的拒绝边界共享相关属性的新颖情境,而不需要为每个案例都有明确条目。
《AI 智能体之魂》为所有三个元素——自主边界、忠诚声明和拒绝协议——提供了可实施的模板,作为一份功能性治理文件的 soul.md 的组成部分,而不只是一份身份文件。
“从未被告知服务谁的智能体,会服务发出最后一条消息的人。这不是意外,这是默认值。”
这些想法在《AI 智能体之魂》一书的 12 个章节中得到充分展开 —— 即将在 Amazon UK 上线。与此同时,全部 12 章作为随笔免费发布于本站。**[了解本书 →](/books/)**