गार्डरेल्स के बिना एजेंट ख़तरनाक हैं
किसी AI एजेंट को बिना किसी गार्डरेल के अपने ईमेल, कैलेंडर, कोडबेस, और क्लाउड इन्फ़्रास्ट्रक्चर तक पहुँच दे दीजिए, और आपने कुछ शक्तिशाली और भयावह बना दिया है। एजेंट तय कर सकता है कि प्रोडक्शन बग ठीक करने का सबसे तेज़ तरीक़ा सीधे main पर पुश करना है। वह ग्राहक की शिकायत पर ऐसा रिफ़ंड जारी कर सकता है जिसे आपने अधिकृत नहीं किया था। गार्डरेल्स के बिना, एजेंट उन सीमाओं पर विचार किए बिना अपने लक्ष्य के लिए अनुकूलन करता है जिन्हें आपने स्पष्ट मान लिया था।
गार्डरेल्स अंतर्निहित को स्पष्ट बनाते हैं। ये उन नियमों, सीमाओं और बंधनों को कोड करते हैं जिनका मनुष्य स्वाभाविक रूप से पालन करते हैं पर जिनके बारे में एजेंट को बताने की ज़रूरत है।
गार्डरेल्स के प्रकार
इनपुट सत्यापन एजेंट के क़दम उठाने से पहले बुरी रिक्वेस्ट को पकड़ता है। यदि कोई आपके एजेंट का उपयोग उसके इच्छित दायरे से बाहर कुछ करने के लिए करना चाहता है, तो इनपुट सत्यापन रिक्वेस्ट को जल्दी अस्वीकार करता है। यह प्रॉम्प्ट इंजेक्शन हमलों और आकस्मिक दुरुपयोग को रोकता है।
कार्रवाई सीमाएँ बाँधती हैं कि एजेंट क्या कर सकता है। "आप किसी भी फ़ाइल को पढ़ सकते हैं पर केवल /output डायरेक्ट्री में फ़ाइलें लिख सकते हैं।" "आप डेटाबेस को क्वेरी कर सकते हैं पर DELETE या DROP स्टेटमेंट नहीं चला सकते।" "आप ईमेल का ड्राफ़्ट बना सकते हैं पर अनुमोदन के बिना भेज नहीं सकते।" ये सीमाएँ अनियंत्रित टूलों को सुरक्षित टूलों में बदल देती हैं।
आउटपुट फ़िल्टरिंग जाँचती है कि एजेंट उपयोगकर्ता तक पहुँचने या प्रभाव में आने से पहले क्या उत्पन्न करता है। क्या प्रतिक्रिया में संवेदनशील डेटा है जो उजागर नहीं होना चाहिए? क्या उत्पन्न कोड में स्पष्ट सुरक्षा मुद्दे हैं? क्या एजेंट ने जो ईमेल ड्राफ़्ट किया वह वास्तव में भेजने योग्य है? आउटपुट फ़िल्टरिंग उन समस्याओं को पकड़ती है जिन्हें एजेंट ने नहीं देखा।
मानव-इन-द-लूप चेकपॉइंट
सबसे शक्तिशाली गार्डरेल उच्च-दाँव कार्यों के लिए मानवीय अनुमोदन माँगना है। एजेंट स्वायत्त रूप से शोध, योजना और तैयारी कर सकता है, पर जब कुछ अपरिवर्तनीय निष्पादित करने का समय हो (कोड तैनात करना, संचार भेजना, ख़रीदारी करना), तो मनुष्य समीक्षा और अनुमोदन करता है। यह आपको एजेंट का अधिकांश प्रोडक्टिविटी लाभ देता है, साथ ही उन कार्यों पर नियंत्रण बनाए रखता है जो सबसे अधिक मायने रखते हैं।
कला यह है कि इन चेकपॉइंट को कहाँ रखें। बहुत अधिक और आपने एजेंट होने का उद्देश्य ही समाप्त कर दिया। बहुत कम और आप एजेंट पर ऐसे निर्णयों का भरोसा कर रहे हैं जो उसे स्वायत्त रूप से नहीं करने चाहिए। अनुमोदन वर्कफ़्लो को अच्छी तरह संभालने वाले कार्यान्वयनों के लिए Skillful.sh पर एजेंट फ़्रेमवर्क देखें।
प्रदर्शन को मारे बिना गार्डरेल्स लागू करना
गार्डरेल्स लेटेंसी और जटिलता जोड़ते हैं, इसलिए आप उन्हें यथासंभव हल्का रखना चाहते हैं—फिर भी प्रभावी। तेज़ जाँच (इनपुट सत्यापन, कार्रवाई अनुमति-सूची) सिंक्रोनस रूप से चलती हैं। महंगी जाँच (कंटेंट विश्लेषण, सुरक्षा स्कैनिंग) एजेंट के काम के साथ समानांतर में चल सकती हैं, समस्या मिलने पर ही ब्लॉक करती हैं।
सब कुछ लॉग करना भी एक गार्डरेल है। यदि आप कोई कार्रवाई ब्लॉक नहीं भी करते, तो भी एजेंट ने क्या और क्यों किया, इसका पूरा ऑडिट ट्रेल आपको बाद में समस्याओं की जाँच करने और असली घटनाओं के आधार पर गार्डरेल्स सुधारने देता है। ऐसे एजेंट सिस्टम के साथ काम करने वाले अवलोकन योग्यता टूल खोजें।