没有护栏的智能体充满风险
把您的电子邮件、日历、代码库与云基础设施开放给一个毫无护栏的 AI 智能体,您便创造出了一个既强大又令人不安的存在。它可能判断,修复生产 bug 最快的方式就是直接推到主分支;也可能在面对用户投诉时,擅自发起您未授权的退款。没有护栏,智能体只会优化目标,完全不顾及您本以为不言自明的边界。
护栏让隐性规则显式化。它把人类自然遵循、却需要明确告知智能体的规则、限制与边界,逐条编码下来。
护栏的几种类型
输入校验,在智能体动手前先拦截不当请求。如果有人试图让智能体做超出其设定范围的事,输入校验会及早拒绝。这能预防提示词注入攻击与无意的滥用。
动作限制,约束智能体能做的事。"您可读取任意文件,但只能写入 /output 目录""您可查询数据库,但不能执行 DELETE 或 DROP""您可起草邮件,但未经批准不得发送"——这些限制,把不受约束的工具变为安全的工具。
输出过滤,在智能体的产物送达用户或生效前进行核查。回答是否包含不该外泄的敏感数据?生成的代码是否存在显见的安全问题?智能体起草的邮件是否真的适合发送?输出过滤会发现智能体未察觉的问题。
人在回路的检查点
最强大的护栏,是要求高风险动作必须由人审批。智能体可自主调研、规划与准备,但要执行不可逆的操作(部署代码、对外通信、付款采购)时,必须由人审阅与批准。这样既保留了智能体大部分的效率收益,又确保了对最关键动作的掌控。
艺术之处在于这些检查点应放在何处。过多,会瓦解使用智能体的初衷;过少,等于把它本不该自主做的决策交给了它。可参考 Skillful.sh 上的智能体框架,挑选能妥善实现审批工作流的实现。
实施护栏而不损性能
护栏会带来延迟与复杂度,因此在保证有效的前提下,应尽量轻量。快速检查(输入校验、动作白名单)可同步运行;耗时检查(内容分析、安全扫描)可与智能体工作并行,只在发现问题时阻断。
把所有动作记录下来,本身也是一道护栏。即便您当下不阻止任何动作,完整的审计日志也能让您事后查清问题、并据真实事件改进护栏。搜索可观测性工具,寻找适用于智能体系统的方案。