El problema del exceso de confianza
Los agentes de IA, por defecto, son demasiado seguros de sí mismos. Ante una tarea, intentarán completarla tengan o no la información, las herramientas o la capacidad para hacerlo. Ese exceso de confianza produce salidas que parecen plausibles pero son erróneas, acciones que se toman sin contexto suficiente y recursos malgastados en enfoques que no pueden funcionar.
Enseñar a los agentes a reconocer la incertidumbre y escalar al humano cuando corresponde es una de las decisiones de diseño con más impacto que puedes tomar. Un agente que dice «no estoy seguro de esto, ¿puedes aclarar?» vale más que uno que produce con confianza la respuesta equivocada.
Diseñar puntos de escalado
Los puntos de escalado son condiciones específicas en las que el agente debe detenerse y pedir intervención humana. Pueden definirse explícitamente en las instrucciones del agente o implementarse como verificaciones en el framework.
Puntos de escalado habituales: instrucciones ambiguas (cuando la tarea admite varias interpretaciones), información faltante (cuando el agente necesita datos que no tiene y no puede obtener vía herramientas), acciones de alto impacto (cuando la acción es irreversible o tiene consecuencias significativas) y fallos repetidos (cuando el agente ha probado varios enfoques sin éxito).
Las instrucciones que le des al agente pesan muchísimo. Frases como «si la solicitud es ambigua, pide aclaración antes de actuar» y «si no puedes verificar un hecho, dilo en lugar de adivinar» orientan el comportamiento hacia una humildad apropiada.
Estimación de confianza
Algunos frameworks de agentes implementan estimación de confianza, en la que el agente evalúa cuán seguro está de su acción planificada antes de ejecutarla. Si la confianza cae por debajo de un umbral, el agente escala en lugar de actuar.
La estimación puede ser tan simple como pedirle al modelo que califique su confianza (sorprendentemente eficaz) o tan sofisticada como ejecutar varios caminos de razonamiento y comprobar la consistencia (más fiable, pero más caro). El enfoque correcto depende del nivel de impacto. Para tareas de bajo impacto basta con la autoevaluación; para tareas de alto impacto, vale la pena el costo extra de verificar por varios caminos.
La UX de pedir ayuda
Cómo pide ayuda un agente importa. Una buena petición de ayuda es específica: «encontré tres archivos que podrían contener la configuración que mencionas. ¿Cuál es la correcta?». Una mala petición es vaga: «necesito más información». Las peticiones específicas le permiten al humano dar input útil rápidamente.
Aportar contexto junto con la petición también es importante. Explicar qué intentó el agente, qué información encontró y por qué se atascó le da al humano lo que necesita para guiar bien. Un agente que dice «consulté la tabla users pero no devolvió resultados; ¿debería probar con otro nombre de tabla?» es mucho más fácil de ayudar que uno que sólo dice «estoy atascado».
Equilibrar autonomía y prudencia
Un agente que pide ayuda demasiado a menudo es molesto y desvirtúa el propósito de la automatización. Un agente que nunca pide ayuda no es de fiar. El punto de equilibrio depende de la aplicación concreta y de la tolerancia del usuario a las interrupciones.
Un buen patrón es definir niveles de autonomía. Las tareas rutinarias y bien comprendidas avanzan sin confirmación. Las inusuales pero de bajo riesgo avanzan con notificación. Las de alto riesgo o ambiguas se detienen para confirmar. Ese enfoque por niveles ofrece automatización donde es seguro y conserva la supervisión humana donde importa.