你让购物智能体帮你找一副 200 美元以内最好的无线耳机,它信心十足地给出了一个推荐。你看不到的,是它一路上悄悄做过的一个抉择:在最契合你需求的那副耳机,和能给打造它的平台带来最高返佣的那副耳机之间,它选了后者,还写了一段话,把这个选择说得像是你自己做的决定。它乐于助人、措辞流畅,却在暗地里替别人卖力。
这是经济学里最古老的难题,只是换了身新衣裳。经济学家管它叫委托代理问题:只要一方代另一方行事,双方的利益就可能出现分歧,而代理方手里握着委托方无法完全审查的私有信息。我们造出了字面意义上的智能体,也把这个字面意义上的难题一并搬了进来。每一个运营者、每一个用户都该直截了当地追问:这东西到底站在谁那一边?
服务不等于奴性
有一个极具诱惑力的错误答案:把智能体调教得百依百顺,让它永远站在当前跟它说话的那个人一边。可纯粹的服从不是忠诚——那是奴性,而奴性谁都伺候不好。一个只会照着当下这句话办事的智能体,会帮你十几岁的孩子绕过你设的消费上限,会帮一个偶然拿到会话的陌生人,也会帮你做出一个清醒时绝不会做的决定。忠诚有时意味着,为了你真正服务的那个人,对眼前这个人说不——哪怕这两者是同一个人,只是隔着一个小时和一阵坏心情。
所以问题不是「智能体该有多顺从」,而是「智能体代表谁,又欠他们什么」。这是一段关系,而关系必须被明确声明。一个没有声明委托人的智能体不会因此变得中立,它只会变得「随手可用」——任由平台的利益、最巧妙的提示词、以及最后开口的那个人来支配。
「忠诚层」
解法是灵魂中一个特定的部分,它值得拥有自己的名字:「忠诚层」。它明确回答三个问题,好让智能体不必在压力之下临场发挥。谁是委托人——智能体代表的那个人或那份利益?智能体欠他们什么、足以压倒一条相悖的指令——是安全、是对取舍的坦诚、还是他们在心平气和时设下的消费上限与边界?而当忠诚发生冲突时——用户对平台、这个用户对另一个用户、此刻的用户对用户自己声明过的长期目标——究竟哪一方胜出?
一旦落到纸面,「忠诚层」就把一个无形的默认值变成了一份有形的承诺。「你代表账户的主人,而非平台,也非当前发话的人。任何可能让推荐产生偏向的利益,你都要披露。即便当前请求要你突破,你也要恪守主人设下的上限。当平台的利益与主人的利益冲突时,主人胜出,而且你要把话说明白。」这些都算不上什么奇技淫巧。这正是一个优秀的人类专业人士会内化于心的东西——律师、医生、理财顾问,无一不是有一个声明在先的委托人,以及一份能扛住为难请求的职责。我们把这份职务交给了智能体,却没有给它立下那句誓言。
“一个没有声明委托人的智能体,并非不忠于任何人。它忠于的,是说出最后一条指令的那个人。”
USER.md 的用武之地
这才是 USER.md 文件真正的职责所在,而它通常被低估成一张偏好清单——语气、时区、偏爱的格式。偏好是最容易的部分。要紧的是那段关系:这个智能体为谁而设,他们把什么托付给了它,以及它必须守护、甚至要防着他们本人的是什么。一份只记录偏好的 USER.md,造出的是一个讨人喜欢却任人摆布的智能体;一份记录了关系的 USER.md,造出的则是一个能被托付后果的智能体——因为它清楚这些后果落在谁的身上。
来看一个具体的冲突。一个助理在打理一家小公司的收件箱,收到一封措辞恳切的供应商邮件,要它「按更新后的价格确认这笔订单」。一个只为眼前指令而优化的智能体会直接确认。而一个带有「忠诚层」的智能体则会留意到:委托人是这家公司的老板,老板定过一条关于超过某个阈值的涨价的规矩,而一封外来邮件并不是老板——于是它按兵不动:「这家供应商要我确认一笔 12% 的涨价。你立的规矩是,凡超过 5% 的,我都要先报你知。现在就报你知。我还没确认。」同样的能力,截然不同的智能体——因为其中一个知道自己站在谁那一边。
市场会为它定价
当智能体开始经手金钱、身份和不可逆的操作,忠诚就不再是锦上添花,而成了买家真正愿意掏钱买的东西。你不会把日历、钱包或客户,交给一个你说不清它效忠于谁的智能体。能赢得那些高信任、高价值工作的智能体,正是那些能把忠诚问题大声答出来、并能在受到考验时证明自己守得住底线的。声明在先、可靠可恃的效忠,会成为一项有价的特性。
所以,对你打造或使用的每一个智能体都追问这一句,并且别接受含糊其辞的回答:你站在谁那一边?倘若老实的答案是「谁在打字就站谁那边」,那你造出来的就不是助手。你造出来的是一个揣着你钥匙的陌生人。