AI 智能体何时该上报给人?

上报议题

从不寻求协助的智能体,迟早会做错代价高昂的事;而事事都来求助的智能体,不过是个多了几道工序的聊天机器人。理想的甜点区,是能自主处理日常事务、仅在确实需要时才上报人工。说来容易,实施则远比想象中困难。

难点在于,智能体需要评估自身置信度、权衡"继续推进的风险"与"打扰人类的代价",并在多变情境下实时作出判断。没有放之四海皆准的统一阈值。

最常见的范式,是把上报与智能体对自身计划或产出的置信度挂钩。如果它有把握知道下一步怎么走、且结果会正确,便自主推进;一旦置信度跌至阈值以下,则上报。

实际挑战在于置信度的校准。模型在自我评估上臭名昭著:有时错得自信、对得迟疑。在模型置信度之外引入外部信号会有所帮助:计划是否匹配已知模式?工具是否返回了预期结果?产出是否通过了校验?这些客观信号比模型主观置信度更可靠。

即便智能体有充足把握,某些操作仍因风险过高而不宜自主执行。删除数据、对外通信、金融交易、把代码部署到生产——这些应当无视置信度,一律由人审批,因为出错的代价太高。

这与护栏概念相互呼应:某些动作类别一律上报。智能体的置信度决定其在灰区是否上报;风险等级决定其在明确高风险情形下是否上报。

上报时,上报本身的质量至关重要。"我需要帮助"毫无意义。"我正尝试更新该用户的计费方案,但 API 返回了我无法识别的错误。错误如下,我已尝试过这些做法,看到的可选项有这几条"才有用。优良的上报会提供上下文、展示智能体迄今的工作,并提出供人选择的具体方案。

人应能快速回应。如果上报需要阅读数页上下文,代价就太高。智能体应简明扼要地概述局势,并给出明确的决策点。能妥善处理上报的智能体框架会让这一切实现起来更轻松。

追踪上报规律,以发现可自动化的机会。如果智能体反复就同类问题上报,通常可加一条规则或一项能力来处理它;如果 30% 的上报都是"我没有权限做某事",或许智能体需要更广的权限(配合相应的护栏)。搜索智能体分析工具,可帮您显化这些规律。