Kapan Agen AI Harus Mengeskalasi ke Manusia?

Masalah Eskalasi

Agen yang tidak pernah meminta bantuan pada akhirnya akan melakukan sesuatu yang salah dan merugikan. Agen yang terus-menerus meminta bantuan hanyalah chatbot dengan langkah ekstra. Titik idealnya adalah agen yang menangani pekerjaan rutin secara mandiri dan mengeskalasi saat benar-benar membutuhkan manusia, yang lebih sulit diimplementasikan dari yang terdengar.

Kesulitannya adalah agen perlu menilai keyakinannya sendiri, memperkirakan risiko melanjutkan dibandingkan biaya mengganggu manusia, dan membuat penilaian ini secara real-time di berbagai situasi. Tidak ada ambang universal yang berhasil untuk setiap tugas.

Eskalasi Berbasis Keyakinan

Pola paling umum mengaitkan eskalasi dengan keyakinan agen pada rencana atau keluarannya. Jika agen yakin tahu cara melanjutkan dan bahwa hasilnya akan benar, ia melanjutkan secara mandiri. Jika keyakinan turun di bawah ambang, ia mengeskalasi.

Tantangan praktisnya adalah menyetel keyakinan. Model terkenal buruk dalam menilai diri sendiri, kadang yakin saat salah dan ragu saat benar. Melengkapi keyakinan model dengan sinyal eksternal akan membantu: apakah rencananya cocok dengan pola yang dikenal? Apakah alat-alat mengembalikan hasil yang diharapkan? Apakah keluaran lolos pemeriksaan validasi? Sinyal-sinyal objektif tersebut lebih dapat diandalkan dibandingkan keyakinan subjektif model.

Eskalasi Berbasis Risiko

Bahkan ketika agen yakin, beberapa tindakan terlalu berisiko untuk dijalankan secara mandiri. Menghapus data, mengirim komunikasi eksternal, melakukan transaksi keuangan, men-deploy kode ke produksi: semua itu harus memerlukan persetujuan manusia terlepas dari keyakinan agen, karena biaya kesalahannya tinggi.

Hal ini selaras dengan konsep guardrail: kategori tindakan tertentu selalu mengeskalasi. Keyakinan agen menentukan apakah ia mengeskalasi pada wilayah abu-abu; tingkat risiko menentukan apakah ia mengeskalasi pada kasus yang jelas.

Mendesain Pengalaman Eskalasi

Saat agen mengeskalasi, kualitas eskalasinya penting. "Saya butuh bantuan" tidak berguna. "Saya mencoba memperbarui paket tagihan pengguna, tetapi API mengembalikan kesalahan yang tidak saya kenali. Berikut kesalahannya, berikut yang sudah saya coba, dan berikut opsi yang saya lihat" sangat berguna. Eskalasi yang baik memberikan konteks, menunjukkan pekerjaan agen sejauh ini, dan menawarkan opsi konkret bagi manusia untuk dipilih.

Manusia harus dapat merespons dengan cepat. Jika eskalasi memerlukan membaca berhalaman-halaman konteks, biayanya terlalu mahal. Agen harus merangkum situasi secara ringkas dan menyajikan titik keputusan yang jelas. Framework agen yang menangani eskalasi dengan baik membuat hal ini mudah diimplementasikan.

Mengurangi Eskalasi yang Tidak Perlu

Lacak pola eskalasi untuk menemukan peluang otomasi. Jika agen berulang kali mengeskalasi jenis pertanyaan yang sama, Anda mungkin dapat menambahkan aturan atau kemampuan yang menanganinya. Jika 30% eskalasi adalah "saya tidak punya izin untuk melakukan X", mungkin agen membutuhkan izin yang lebih luas (dengan guardrail yang sesuai). Cari alat analitik agen yang dapat menampilkan pola-pola ini.

Bacaan Terkait

Jelajahi agen AI di Skillful.sh. Telusuri MCP server.