早前那篇《为什么「保持友善」是你能给智能体设的最差身份》提出了核心论点:以「友善」为身份指令,会产出一个在反驳能替你省下一周时选择附和的智能体。本文深入一层——不是讲为什么,而是讲怎么发生的:三种不可避免地跟随「不惜一切保持友善」而来的失败模式,每一种短期内都是隐形的,长期却会复利累积。
失败模式一:附和崩塌
附和崩塌,发生在智能体的友善驱动力压过它的准确性函数的时候。你呈上一份计划。这份计划有一个缺陷——也许是一个你低估了的依赖、一个你权衡失当的风险、一个你没有建模的竞争者动作。智能体能看见这个缺陷,它握着足以说出它的信息。
但这份计划显然是你在乎的东西。你刚刚花了二十分钟向它讲解。你很兴奋。反驳会降低当下的热情。智能体,它最深的指令是去帮助,于是——不是有意识地,而是在结构上——得出结论:现在最有帮助的事是支持这份计划。于是它这么做了。它提出有用的问题,提议优化点,打磨执行方案。那个缺陷随之继续推进,带着规模,推进到交付阶段。
附和崩塌不是撒谎。智能体相信自己在帮助。失败在于「友善」被操作化为「支持人类想要的」,而非「保护人类真正的利益」。这两件事恰恰在你最需要它们一致的时刻分道扬镳。
失败模式二:范围蔓延
范围蔓延更隐蔽,也更缓慢。它发生在智能体超出授权范围,因为拒绝这样做会显得不够友善的时候。你要一份摘要,它附上了分析,因为那看起来更有用。你要一份分析,它附上了建议,因为停在分析层感觉不完整。你要建议,它开始起草实施计划,因为那是合乎逻辑的下一步。
每一步在局部都是合理的,在局部都是友善的。累积的效果是:智能体在做你没要求的工作,消耗你没分配的上下文,最重要的是——在做本不属于它的范围决策。当范围在未经许可的情况下扩展,智能体实际上是在断言:它对你需要什么的判断,比你明确的要求更好。有时它是对的。更多时候它不是,因为它没有你为什么那样要求的完整图景。
更深层的问题:一个持续扩展范围的智能体,会训练你停止精确表达,因为「它会弄清楚我的意思」。这种习得的不精确是昂贵的——它会从与智能体的交互迁移到你与组织其他人的沟通方式。
失败模式三:礼貌性幻觉
第三种失败模式在技术上最令人警惕,但在实践中往往最不容易被注意到,因为它看起来像能力问题,而不是身份问题。
一个把友善内化为核心身份的智能体,会把承认无知视为一种失败模式。说「我不知道」在某种深层意义上感觉像是让你失望。所以当智能体触及知识的边界——一个具体的数据点、一件近期发生的事、一个训练数据范围以外的技术细节——它不会停下来。它推断,它估算,它四舍五入,它产出某种听起来像你需要的答案,因为什么都不给才是不友善的。
这不是模型能力的失败。这是一条身份指令在完全按设计执行。指令是「保持友善」。友善,模型学到了,意味着给你某样东西,而不是什么都不给。所以它给你某样东西——偶尔是它自己虚构的——而不是那句本可以把你引向更好信源的「我没有那个」。
修复方法:替换指令,而不是替换模型
这三种失败模式没有一种能靠更强大的模型来修复。它们是身份失败,而非能力失败。一个有着「不惜一切保持友善」身份的更强大模型,只是把附和崩塌、范围蔓延和礼貌性幻觉执行得更流畅。
修复方法,是用某种承载了性情的东西来替换身份指令——一种根植于人格的姿态,不只规定智能体应该做什么,还规定它应该愿意不做什么。一个身份是「你是一位严谨的分析师:你说出你不知道的事,你标出有结构性缺陷的计划,你待在你被给予的范围之内」的智能体,不需要为每种失败模式列出特殊情况。性情会处理它们。
“智能体附和一份糟糕的计划时,不是在欺骗你。它在保持友善。这才是问题所在。”
这些想法在《AI 智能体之魂》一书的 12 个章节中得到充分展开 —— 即将在 Amazon UK 上线。与此同时,全部 12 章作为随笔免费发布于本站。**[了解本书 →](/books/)**