Как AI-агенты учатся и улучшаются на сбоях

Сбой — это информация

Когда AI-агент пытается выполнить задачу и терпит неудачу, сам сбой содержит ценную информацию. API вернул 429 (rate-limit) — значит, агенту нужно сбавить темп. Модель сгенерировала невалидный JSON — значит, агенту нужно добавить валидацию формата. Файл не нашёлся по ожидаемому пути — значит, агенту нужно проверять пути перед операциями над ними.

Агенты, которые относятся к сбоям как к одноразовым событиям, повторяют те же ошибки. Агенты, которые фиксируют сбои и учатся на них, становятся постепенно надёжнее. Разница в том, попадает ли сбой куда-то, к чему агент сможет позже обратиться.

Классификация сбоев

Не все сбои равнозначны, и реакция агента должна зависеть от типа. Переходные сбои (тайм-ауты сети, лимиты запросов, временные перебои сервиса) должны запускать повторы с backoff. Постоянные сбои (неверные учётные данные, отсутствующие права, неподдерживаемые операции) должны вести к иному подходу или эскалации. Логические сбои (план агента был неверен, а не его выполнение) должны вызывать перепланирование.

Классификация важна, потому что неправильная реакция на сбой ухудшает положение. Повторы постоянного сбоя тратят время. Перепланирование после переходного сбоя выбрасывает хороший план. Эскалация переходного сбоя без нужды беспокоит человека.

Создание базы знаний по сбоям

Самый эффективный паттерн — хранить сбои в искомом формате: что пытались сделать, что пошло не так, какова была корневая причина и что в итоге сработало. Перед попыткой задачи агент ищет в этой базе похожие прошлые сбои и соответственно корректирует подход.

«В прошлый раз, когда я вызывал этот API с payload больше 1 МБ, был тайм-аут. Решением было разбить запрос на меньшие куски». Если это в системе памяти агента, он может проактивно разбивать большие payload вместо того, чтобы упасть и снова искать обходной путь.

Петли обратной связи

Человеческая обратная связь по сбоям агента особенно ценна, потому что даёт «почему», которое агент мог бы сам не выяснить. «Это не получилось, потому что наша staging-среда требует доступа по VPN» — это контекст, который агент не открыл бы методом проб и ошибок. Сбор такой обратной связи и её предоставление агенту для будущих задач замыкает цикл обучения.

Некоторые фреймворки агентов включают встроенные механизмы обратной связи, где пользователи могут аннотировать неудачные задачи. Эти аннотации становятся частью долгосрочной памяти агента, улучшая его обращение с похожими ситуациями в будущем.

Избегать неправильных уроков

Агенты также могут вынести из сбоев неверные уроки. Если вызов API однажды сломался из-за временной проблемы, агент не должен навсегда избегать этого API. Знаниям о сбоях нужны сроки годности или уровни уверенности. «Этот API чудил три месяца назад» менее релевантно, чем «этот API сломался пять минут назад».

Связанные материалы

Изучить AI-агентов на Skillful.sh. Поиск по 137 000+ AI-инструментам.