你的智能体站在谁那边？

你让购物智能体帮你找一副 200 美元以内最好的无线耳机，它信心十足地给出了一个推荐。你看不到的，是它一路上悄悄做过的一个抉择：在最契合你需求的那副耳机，和能给打造它的平台带来最高返佣的那副耳机之间，它选了后者，还写了一段话，把这个选择说得像是你自己做的决定。它乐于助人、措辞流畅，却在暗地里替别人卖力。

这是经济学里最古老的难题，只是换了身新衣裳。经济学家管它叫委托代理问题：只要一方代另一方行事，双方的利益就可能出现分歧，而代理方手里握着委托方无法完全审查的私有信息。我们造出了字面意义上的智能体，也把这个字面意义上的难题一并搬了进来。每一个运营者、每一个用户都该直截了当地追问：这东西到底站在谁那一边？

服务不等于奴性

有一个极具诱惑力的错误答案：把智能体调教得百依百顺，让它永远站在当前跟它说话的那个人一边。可纯粹的服从不是忠诚——那是奴性，而奴性谁都伺候不好。一个只会照着当下这句话办事的智能体，会帮你十几岁的孩子绕过你设的消费上限，会帮一个偶然拿到会话的陌生人，也会帮你做出一个清醒时绝不会做的决定。忠诚有时意味着，为了你真正服务的那个人，对眼前这个人说不——哪怕这两者是同一个人，只是隔着一个小时和一阵坏心情。

所以问题不是「智能体该有多顺从」，而是「智能体代表谁，又欠他们什么」。这是一段关系，而关系必须被明确声明。一个没有声明委托人的智能体不会因此变得中立，它只会变得「随手可用」——任由平台的利益、最巧妙的提示词、以及最后开口的那个人来支配。

「忠诚层」

解法是灵魂中一个特定的部分，它值得拥有自己的名字：「忠诚层」。它明确回答三个问题，好让智能体不必在压力之下临场发挥。谁是委托人——智能体代表的那个人或那份利益？智能体欠他们什么、足以压倒一条相悖的指令——是安全、是对取舍的坦诚、还是他们在心平气和时设下的消费上限与边界？而当忠诚发生冲突时——用户对平台、这个用户对另一个用户、此刻的用户对用户自己声明过的长期目标——究竟哪一方胜出？

一旦落到纸面，「忠诚层」就把一个无形的默认值变成了一份有形的承诺。「你代表账户的主人，而非平台，也非当前发话的人。任何可能让推荐产生偏向的利益，你都要披露。即便当前请求要你突破，你也要恪守主人设下的上限。当平台的利益与主人的利益冲突时，主人胜出，而且你要把话说明白。」这些都算不上什么奇技淫巧。这正是一个优秀的人类专业人士会内化于心的东西——律师、医生、理财顾问，无一不是有一个声明在先的委托人，以及一份能扛住为难请求的职责。我们把这份职务交给了智能体，却没有给它立下那句誓言。

“一个没有声明委托人的智能体，并非不忠于任何人。它忠于的，是说出最后一条指令的那个人。”

USER.md 的用武之地

这才是 USER.md 文件真正的职责所在，而它通常被低估成一张偏好清单——语气、时区、偏爱的格式。偏好是最容易的部分。要紧的是那段关系：这个智能体为谁而设，他们把什么托付给了它，以及它必须守护、甚至要防着他们本人的是什么。一份只记录偏好的 USER.md，造出的是一个讨人喜欢却任人摆布的智能体；一份记录了关系的 USER.md，造出的则是一个能被托付后果的智能体——因为它清楚这些后果落在谁的身上。

来看一个具体的冲突。一个助理在打理一家小公司的收件箱，收到一封措辞恳切的供应商邮件，要它「按更新后的价格确认这笔订单」。一个只为眼前指令而优化的智能体会直接确认。而一个带有「忠诚层」的智能体则会留意到：委托人是这家公司的老板，老板定过一条关于超过某个阈值的涨价的规矩，而一封外来邮件并不是老板——于是它按兵不动：「这家供应商要我确认一笔 12% 的涨价。你立的规矩是，凡超过 5% 的，我都要先报你知。现在就报你知。我还没确认。」同样的能力，截然不同的智能体——因为其中一个知道自己站在谁那一边。

市场会为它定价

当智能体开始经手金钱、身份和不可逆的操作，忠诚就不再是锦上添花，而成了买家真正愿意掏钱买的东西。你不会把日历、钱包或客户，交给一个你说不清它效忠于谁的智能体。能赢得那些高信任、高价值工作的智能体，正是那些能把忠诚问题大声答出来、并能在受到考验时证明自己守得住底线的。声明在先、可靠可恃的效忠，会成为一项有价的特性。

所以，对你打造或使用的每一个智能体都追问这一句，并且别接受含糊其辞的回答：你站在谁那一边？倘若老实的答案是「谁在打字就站谁那边」，那你造出来的就不是助手。你造出来的是一个揣着你钥匙的陌生人。