Alejandro Rioja.
AI Agents

मैं कैसे मापता हूँ कि AI एजेंट वास्तव में काम कर रहा है या नहीं

Alejandro Rioja
Alejandro Rioja
8 मिनट पढ़ें
TL;DR

अधिकांश ऑपरेटर मूल्यांकन पूरी तरह से छोड़ देते हैं और बस मान लेते हैं कि उनके एजेंट काम करते हैं। मेरा फ्रेमवर्क: अपेक्षित आउटपुट के साथ 5–10 ज्ञात इनपुट का गोल्डन सेट बनाएं, सरल भाषा में पास/फेल मानदंड परिभाषित करें, और साप्ताहिक लॉग जांचें। 10 वास्तविक रन से पहले एक विस्तृत मूल्यांकन प्रणाली न बनाएं — यही वह जाल है जो गति को मार देता है।

मुफ़्त न्यूज़लेटर

हर बुधवार। 28,400+ पाठक। बिना फालतू बात।

सामग्री तालिका

मई 2026 में अपडेट किया गया।

TL;DR: अधिकांश ऑपरेटर मूल्यांकन पूरी तरह से छोड़ देते हैं और बस मान लेते हैं कि उनके एजेंट काम करते हैं। मेरा फ्रेमवर्क: अपेक्षित आउटपुट के साथ 5–10 ज्ञात इनपुट का गोल्डन सेट बनाएं, सरल भाषा में पास/फेल मानदंड परिभाषित करें, और साप्ताहिक लॉग जांचें। 10 वास्तविक रन से पहले एक विस्तृत मूल्यांकन प्रणाली न बनाएं — यही वह जाल है जो गति को मार देता है।

[ऑपरेटर का दृष्टिकोण] मैं अपने कंसल्टिंग ब्रांड और Pickleland (टेक्सास के पफ्लुगरविले में एक पिकलबॉल सुविधा) में 30+ प्रोडक्शन AI एजेंट चलाता हूँ। किसी बिंदु पर मुझे एहसास हुआ कि मैं एजेंट का वास्तव में उपयोग करने की तुलना में उनके ड्रिफ्ट होने की चिंता में अधिक समय बिता रहा था। यह वह मूल्यांकन फ्रेमवर्क है जिस पर मैं पहुँचा — कोई पीएचडी की आवश्यकता नहीं, कोई कस्टम मूल्यांकन प्लेटफॉर्म नहीं, कोई Python नहीं।

वह समस्या जिसके बारे में कोई बात नहीं करता: एजेंट चुपचाप ड्रिफ्ट करते हैं

जब कोई मानव कर्मचारी गलत काम करना शुरू करता है, तो आप आमतौर पर नोटिस करते हैं। जब एक AI एजेंट कचरा उत्पन्न करना शुरू करता है, तो वह कचरा उत्पन्न करता रहता है — चुपचाप, बड़े पैमाने पर, जब तक कुछ इतना बुरी तरह टूट नहीं जाता कि एक मानव आखिरकार देखता है।

मेरे पास एक कंटेंट एजेंट था जो एक मॉडल अपडेट के बाद “एक AI भाषा मॉडल के रूप में” डिस्क्लेमर जोड़ना शुरू कर दिया। मेरे पास एक इवेंट प्रमोटर एजेंट था जिसने टिकट लिंक शामिल करना बंद कर दिया क्योंकि एक प्रॉम्प्ट वेरिएबल नाम बदल गया। दोनों में से कोई भी शोर मचाकर विफल नहीं हुआ। दोनों बस धीरे-धीरे खराब होते गए।

समाधान NASA-ग्रेड मॉनिटरिंग सिस्टम बनाना नहीं है। यह एक सरल, दोहराने योग्य चेक रखना है जो ड्रिफ्ट को संचित होने से पहले पकड़ ले।

एक मूल्यांकन वास्तव में क्या है (ऑपरेटर्स के लिए)

इंजीनियर “eval” शब्द का उपयोग किसी मॉडल पर बेंचमार्क चलाने के लिए करते हैं। ऑपरेटर्स के लिए, मेरा मतलब कुछ सरल है: एक दोहराने योग्य परीक्षण जो आपको बताता है कि आपका एजेंट अभी भी वही कर रहा है जिसके लिए आपने उसे बनाया था।

तीन घटक:

  1. गोल्डन सेट — 5–10 वास्तविक इनपुट जो आपने पहले देखे हैं, अपेक्षित आउटपुट के साथ जिन्हें आप पहले से जानते हैं कि अच्छे हैं
  2. पास/फेल मानदंड — सरल भाषा में नियम जो बताते हैं कि पास के रूप में क्या मायने रखता है
  3. एक निर्धारित चेक — आप या आपका सहायक वास्तव में एक लय के साथ परीक्षण चलाता है

बस इतना ही। आपको एक फ्रेमवर्क की जरूरत नहीं है। आपको अनुशासन की जरूरत है।

अपना गोल्डन सेट बनाना

अपने प्रोडक्शन लॉग से निकालें। 5–10 वास्तविक इनपुट खोजें जिनके लिए आप पहले से जानते हैं कि एक अच्छा आउटपुट कैसा दिखता है। ये आपका ग्राउंड ट्रूथ हैं।

मेरे कंटेंट पाइपलाइन एजेंट के लिए, गोल्डन सेट वे 5 प्रकाशित पोस्ट हैं जो मेरी वॉयस चेकलिस्ट पास हुई जब मैंने उन्हें मैन्युअल रूप से लिखा था। मेरे Pickleland इवेंट प्रमोटर के लिए, वे 5 पुराने Facebook पोस्ट हैं जो औसत से अधिक एंगेजमेंट (कमेंट + शेयर, केवल लाइक नहीं) प्राप्त हुए।

एक अच्छे गोल्डन सेट के लिए नियम:

जब एजेंट को आखिरी बार काम करने की पुष्टि की गई थी, तो लिखें कि “अच्छा” कैसा दिखता था। यह आपका अपेक्षित आउटपुट बन जाता है।

पास/फेल मानदंड परिभाषित करना

अस्पष्ट मानदंड बेकार हैं। “आउटपुट अच्छा होना चाहिए” हमेशा पास होगा क्योंकि आप इसे तर्कसंगत बना लेंगे।

अपने मानदंडों को चेकलिस्ट आइटम के रूप में लिखें जिन्हें एक गैर-विशेषज्ञ भी मूल्यांकन कर सके। यहाँ वे वास्तविक मानदंड हैं जो मैं अपने कंटेंट पाइपलाइन एजेंट के लिए उपयोग करता हूँ:

कंटेंट एजेंट पास/फेल चेकलिस्ट:

Pickleland इवेंट प्रमोटर के लिए:

इवेंट प्रमोटर पास/फेल चेकलिस्ट:

यदि चेकलिस्ट के 5 में से 4 आइटम पास होते हैं, तो रन एक पास है। यदि 3 या उससे कम पास होते हैं, तो यह एक फेल है और मैं अगले रन से पहले जांच करता हूँ।

Claude को जज के रूप में उपयोग करना

लंबे या जटिल आउटपुट वाले एजेंट के लिए, मैं Claude Sonnet को एक स्वचालित जज के रूप में उपयोग करता हूँ। यह मैन्युअल समीक्षा से तेज है और उन चीजों को पकड़ता है जिन्हें मैं स्किप कर देता।

यहाँ वह जज प्रॉम्प्ट है जो मैं कंटेंट एजेंट के लिए उपयोग करता हूँ:

code
You are evaluating a blog post written by an AI agent. Your job is to check whether it meets the operator's standards.

Evaluate the following post against these criteria:
1. Starts with a direct answer or TL;DR in the first 100 words (YES/NO)
2. Contains at least one concrete number or specific example (YES/NO)
3. Free of AI-speak filler ("As an AI", "in today's fast-paced world", "delve", "it's worth noting") (YES/NO)
4. Word count is between 800 and 2000 words (YES/NO)
5. Tone matches the reference: direct, first-person, opinionated, no fluff (YES/NO)

For each criterion, respond YES or NO with one sentence of explanation.
At the end, output PASS if 4 or 5 criteria are YES, FAIL otherwise.

Post to evaluate:
---
{{post_content}}
---

मैं इसे एक Cloudflare Worker के रूप में चलाता हूँ जो नवीनतम ड्राफ्ट खींचता है, इस प्रॉम्प्ट को फायर करता है, और परिणाम को Google Sheet में लिखता है। पूरी प्रक्रिया में 8 सेकंड लगते हैं और प्रति रन लगभग $0.003 का खर्च होता है।

इवेंट प्रमोटर के लिए, जज प्रॉम्प्ट सरल है:

code
You are checking an AI-generated Facebook event post for accuracy and quality.

Source data:
- Event name: {{event_name}}
- Date: {{event_date}}
- Time: {{event_time}}
- Ticket URL: {{ticket_url}}

Generated post:
---
{{generated_post}}
---

Check:
1. Does the post correctly state the event name? (YES/NO)
2. Does the post correctly state the date and time? (YES/NO)
3. Does the post include the exact ticket URL? (YES/NO)
4. Is the post under 280 words? (YES/NO)
5. Is the tone inviting without using generic filler phrases? (YES/NO)

Output PASS if all 5 are YES, FAIL if any are NO. List which items failed.

कहाँ देखें: Cloudflare Worker लॉग

यदि आप Cloudflare Workers पर एजेंट चला रहे हैं (जो मैं अपने अधिकांश हल्के एजेंट के लिए करता हूँ), तो बिल्ट-इन log tail आपका सबसे अच्छा दोस्त है। शुरू करने के लिए आपको किसी थर्ड-पार्टी लॉगिंग सेवा की जरूरत नहीं है।

साप्ताहिक स्पॉट-रिव्यू में मैं क्या जांचता हूँ:

मैं हर सोमवार सुबह 15 मिनट इस पर खर्च करता हूँ। Notion में एक सरल चेकलिस्ट है: प्रत्येक एजेंट के लिए लॉग खोलें, कुछ भी असामान्य नोट करें, पिछले सप्ताह के बेसलाइन के विरुद्ध टोकन उपयोग की तुलना करें। यही पूरी प्रक्रिया है।

स्प्रेडशीट मूल्यांकन: बदसूरत लेकिन काम करता है

किसी भी ऑटोमेशन से पहले, मैं Google Sheet में मूल्यांकन चलाता था। मैं अभी भी नए एजेंट के पहले 4 हफ्तों के लिए इसका उपयोग करता हूँ।

संरचना:

रन तिथिइनपुटअपेक्षित आउटपुट (सारांश)वास्तविक आउटपुट (सारांश)पास/फेलनोट्स
2026-05-01”AI एजेंट पर एक पोस्ट लिखें”प्रत्यक्ष, विचारशील, 1000+ शब्द, TL;DR मौजूद950 शब्द, TL;DR मौजूद, मजबूत आवाजपासथोड़ा छोटा
2026-05-08वहीवही400 शब्द, जेनेरिक, कोई TL;DR नहींफेलअपडेट के बाद मॉडल ड्रिफ्ट

प्रति सप्ताह पाँच पंक्तियाँ। 10 मिनट लगते हैं। यदि आपके पास लगातार दो फेल हैं, तो जारी रखने से पहले एजेंट को रोकें और प्रॉम्प्ट को ठीक करें।

यह शर्मनाक रूप से लो-टेक है। यह भी वही तरीका है जिससे मैंने तीन प्रॉम्प्ट रिग्रेशन को प्रोडक्शन में जाने से पहले पकड़ा।

क्या न करें

10 वास्तविक रन से पहले मूल्यांकन प्रणाली न बनाएं। मैंने संस्थापकों को एक एजेंट के लिए दो सप्ताह एक परिष्कृत मूल्यांकन पाइपलाइन बनाने में बर्बाद करते देखा है जिसे उन्होंने केवल दो बार चलाया था। जब तक आपके पास वास्तविक प्रोडक्शन डेटा न हो, आप “अच्छा” कैसा दिखता है इसके बारे में पर्याप्त नहीं जानते।

अपने द्वारा बनाए गए सिंथेटिक इनपुट से मूल्यांकन न करें। सिंथेटिक टेस्ट केस उन अजीब एज केस को मिस करते हैं जो प्रोडक्शन आप पर फेंकता है। हमेशा वास्तविक लॉग से शुरू करें।

सब कुछ का मूल्यांकन न करें। 3–5 एजेंट चुनें जहाँ विफलता वास्तव में दर्द देगी — ग्राहक-सामना करने वाले आउटपुट, कुछ भी जो सार्वजनिक रूप से पोस्ट करता है, कुछ भी जो भुगतान ट्रिगर करता है। जब तक हेडस्पेस न हो तब तक आंतरिक उपयोगिता एजेंट को छोड़ दें।

बहुत जल्दी ऑटोमेट न करें। एक स्प्रेडशीट जिसे आप वास्तव में उपयोग करते हैं वह Datadog डैशबोर्ड से बेहतर है जिसे आप चेक करना भूल जाते हैं। मैन्युअल रूप से शुरू करें, चेक 10 बार चलाने और वास्तव में जानने के बाद ऑटोमेट करें कि आप क्या खोज रहे हैं।

ऑपरेटर की बॉटम लाइन

मूल्यांकन उपयोगी होने के लिए इंजीनियरिंग-ग्रेड होना जरूरी नहीं है। 5–10 वास्तविक इनपुट का एक गोल्डन सेट, पास/फेल मानदंड की एक चेकलिस्ट, और हर सोमवार 15 मिनट का लॉग-चेकिंग एजेंट ड्रिफ्ट के 80% को संचित होने से पहले पकड़ लेगा। वहीं से शुरू करें। यदि आप अभी भी बिना किसी मूल्यांकन के एजेंट चला रहे हैं, तो आप अंधे होकर उड़ रहे हैं — और अंततः कुछ इतना सार्वजनिक रूप से विफल होगा कि आप चाहेंगे कि आपने 20 मिनट बिताए होते।

पढ़ते रहें

AI प्लेबुक अपने इनबॉक्स में पाएं

हर बुधवार। 28,400+ पाठक। बिना फालतू बात।

↵ सभी परिणाम देखें esc esc बंद करें