मैं कैसे मापता हूँ कि AI एजेंट वास्तव में काम कर रहा है या नहीं
अधिकांश ऑपरेटर मूल्यांकन पूरी तरह से छोड़ देते हैं और बस मान लेते हैं कि उनके एजेंट काम करते हैं। मेरा फ्रेमवर्क: अपेक्षित आउटपुट के साथ 5–10 ज्ञात इनपुट का गोल्डन सेट बनाएं, सरल भाषा में पास/फेल मानदंड परिभाषित करें, और साप्ताहिक लॉग जांचें। 10 वास्तविक रन से पहले एक विस्तृत मूल्यांकन प्रणाली न बनाएं — यही वह जाल है जो गति को मार देता है।
हर बुधवार। 28,400+ पाठक। बिना फालतू बात।
✓ Check your inbox — click the confirmation link to complete sign-up.
✓ You're subscribed!
✓ You're already on the list.
सामग्री तालिका
मई 2026 में अपडेट किया गया।
TL;DR: अधिकांश ऑपरेटर मूल्यांकन पूरी तरह से छोड़ देते हैं और बस मान लेते हैं कि उनके एजेंट काम करते हैं। मेरा फ्रेमवर्क: अपेक्षित आउटपुट के साथ 5–10 ज्ञात इनपुट का गोल्डन सेट बनाएं, सरल भाषा में पास/फेल मानदंड परिभाषित करें, और साप्ताहिक लॉग जांचें। 10 वास्तविक रन से पहले एक विस्तृत मूल्यांकन प्रणाली न बनाएं — यही वह जाल है जो गति को मार देता है।
[ऑपरेटर का दृष्टिकोण] मैं अपने कंसल्टिंग ब्रांड और Pickleland (टेक्सास के पफ्लुगरविले में एक पिकलबॉल सुविधा) में 30+ प्रोडक्शन AI एजेंट चलाता हूँ। किसी बिंदु पर मुझे एहसास हुआ कि मैं एजेंट का वास्तव में उपयोग करने की तुलना में उनके ड्रिफ्ट होने की चिंता में अधिक समय बिता रहा था। यह वह मूल्यांकन फ्रेमवर्क है जिस पर मैं पहुँचा — कोई पीएचडी की आवश्यकता नहीं, कोई कस्टम मूल्यांकन प्लेटफॉर्म नहीं, कोई Python नहीं।
वह समस्या जिसके बारे में कोई बात नहीं करता: एजेंट चुपचाप ड्रिफ्ट करते हैं
जब कोई मानव कर्मचारी गलत काम करना शुरू करता है, तो आप आमतौर पर नोटिस करते हैं। जब एक AI एजेंट कचरा उत्पन्न करना शुरू करता है, तो वह कचरा उत्पन्न करता रहता है — चुपचाप, बड़े पैमाने पर, जब तक कुछ इतना बुरी तरह टूट नहीं जाता कि एक मानव आखिरकार देखता है।
मेरे पास एक कंटेंट एजेंट था जो एक मॉडल अपडेट के बाद “एक AI भाषा मॉडल के रूप में” डिस्क्लेमर जोड़ना शुरू कर दिया। मेरे पास एक इवेंट प्रमोटर एजेंट था जिसने टिकट लिंक शामिल करना बंद कर दिया क्योंकि एक प्रॉम्प्ट वेरिएबल नाम बदल गया। दोनों में से कोई भी शोर मचाकर विफल नहीं हुआ। दोनों बस धीरे-धीरे खराब होते गए।
समाधान NASA-ग्रेड मॉनिटरिंग सिस्टम बनाना नहीं है। यह एक सरल, दोहराने योग्य चेक रखना है जो ड्रिफ्ट को संचित होने से पहले पकड़ ले।
एक मूल्यांकन वास्तव में क्या है (ऑपरेटर्स के लिए)
इंजीनियर “eval” शब्द का उपयोग किसी मॉडल पर बेंचमार्क चलाने के लिए करते हैं। ऑपरेटर्स के लिए, मेरा मतलब कुछ सरल है: एक दोहराने योग्य परीक्षण जो आपको बताता है कि आपका एजेंट अभी भी वही कर रहा है जिसके लिए आपने उसे बनाया था।
तीन घटक:
- गोल्डन सेट — 5–10 वास्तविक इनपुट जो आपने पहले देखे हैं, अपेक्षित आउटपुट के साथ जिन्हें आप पहले से जानते हैं कि अच्छे हैं
- पास/फेल मानदंड — सरल भाषा में नियम जो बताते हैं कि पास के रूप में क्या मायने रखता है
- एक निर्धारित चेक — आप या आपका सहायक वास्तव में एक लय के साथ परीक्षण चलाता है
बस इतना ही। आपको एक फ्रेमवर्क की जरूरत नहीं है। आपको अनुशासन की जरूरत है।
अपना गोल्डन सेट बनाना
अपने प्रोडक्शन लॉग से निकालें। 5–10 वास्तविक इनपुट खोजें जिनके लिए आप पहले से जानते हैं कि एक अच्छा आउटपुट कैसा दिखता है। ये आपका ग्राउंड ट्रूथ हैं।
मेरे कंटेंट पाइपलाइन एजेंट के लिए, गोल्डन सेट वे 5 प्रकाशित पोस्ट हैं जो मेरी वॉयस चेकलिस्ट पास हुई जब मैंने उन्हें मैन्युअल रूप से लिखा था। मेरे Pickleland इवेंट प्रमोटर के लिए, वे 5 पुराने Facebook पोस्ट हैं जो औसत से अधिक एंगेजमेंट (कमेंट + शेयर, केवल लाइक नहीं) प्राप्त हुए।
एक अच्छे गोल्डन सेट के लिए नियम:
- वास्तविक इनपुट, आपके द्वारा बनाई गई काल्पनिक कहानियां नहीं
- कम से कम एक एज केस शामिल करें (एक जटिल इनपुट, एक छोटा इनपुट, असामान्य फॉर्मेटिंग वाला)
- अपेक्षित आउटपुट को दस्तावेज़ीकृत रखें — स्क्रीनशॉट, टेक्स्ट फ़ाइल, स्प्रेडशीट में एक पंक्ति
- गोल्डन सेट से कभी न हटाएं; केवल जोड़ें
जब एजेंट को आखिरी बार काम करने की पुष्टि की गई थी, तो लिखें कि “अच्छा” कैसा दिखता था। यह आपका अपेक्षित आउटपुट बन जाता है।
पास/फेल मानदंड परिभाषित करना
अस्पष्ट मानदंड बेकार हैं। “आउटपुट अच्छा होना चाहिए” हमेशा पास होगा क्योंकि आप इसे तर्कसंगत बना लेंगे।
अपने मानदंडों को चेकलिस्ट आइटम के रूप में लिखें जिन्हें एक गैर-विशेषज्ञ भी मूल्यांकन कर सके। यहाँ वे वास्तविक मानदंड हैं जो मैं अपने कंटेंट पाइपलाइन एजेंट के लिए उपयोग करता हूँ:
कंटेंट एजेंट पास/फेल चेकलिस्ट:
- पोस्ट के पहले 100 शब्दों में TL;DR है
- “आज की तेज-तर्रार दुनिया में” या “एक AI के रूप में” जैसे वाक्यांश नहीं हैं
- कम से कम एक ठोस संख्या या आंकड़ा है
- शब्द गणना 800 और 2000 के बीच है
- सभी आंतरिक लिंक काम करते हैं (कोई 404 नहीं)
Pickleland इवेंट प्रमोटर के लिए:
इवेंट प्रमोटर पास/फेल चेकलिस्ट:
- इवेंट नाम सोर्स कैलेंडर से मेल खाता है
- दिनांक और समय सही हैं
- टिकट लिंक मौजूद है और टूटा नहीं है
- कॉपी 280 शब्दों से कम है
- पोस्ट में जेनेरिक फिलर वाक्यांश का उपयोग नहीं है
यदि चेकलिस्ट के 5 में से 4 आइटम पास होते हैं, तो रन एक पास है। यदि 3 या उससे कम पास होते हैं, तो यह एक फेल है और मैं अगले रन से पहले जांच करता हूँ।
Claude को जज के रूप में उपयोग करना
लंबे या जटिल आउटपुट वाले एजेंट के लिए, मैं Claude Sonnet को एक स्वचालित जज के रूप में उपयोग करता हूँ। यह मैन्युअल समीक्षा से तेज है और उन चीजों को पकड़ता है जिन्हें मैं स्किप कर देता।
यहाँ वह जज प्रॉम्प्ट है जो मैं कंटेंट एजेंट के लिए उपयोग करता हूँ:
You are evaluating a blog post written by an AI agent. Your job is to check whether it meets the operator's standards.
Evaluate the following post against these criteria:
1. Starts with a direct answer or TL;DR in the first 100 words (YES/NO)
2. Contains at least one concrete number or specific example (YES/NO)
3. Free of AI-speak filler ("As an AI", "in today's fast-paced world", "delve", "it's worth noting") (YES/NO)
4. Word count is between 800 and 2000 words (YES/NO)
5. Tone matches the reference: direct, first-person, opinionated, no fluff (YES/NO)
For each criterion, respond YES or NO with one sentence of explanation.
At the end, output PASS if 4 or 5 criteria are YES, FAIL otherwise.
Post to evaluate:
---
{{post_content}}
---मैं इसे एक Cloudflare Worker के रूप में चलाता हूँ जो नवीनतम ड्राफ्ट खींचता है, इस प्रॉम्प्ट को फायर करता है, और परिणाम को Google Sheet में लिखता है। पूरी प्रक्रिया में 8 सेकंड लगते हैं और प्रति रन लगभग $0.003 का खर्च होता है।
इवेंट प्रमोटर के लिए, जज प्रॉम्प्ट सरल है:
You are checking an AI-generated Facebook event post for accuracy and quality.
Source data:
- Event name: {{event_name}}
- Date: {{event_date}}
- Time: {{event_time}}
- Ticket URL: {{ticket_url}}
Generated post:
---
{{generated_post}}
---
Check:
1. Does the post correctly state the event name? (YES/NO)
2. Does the post correctly state the date and time? (YES/NO)
3. Does the post include the exact ticket URL? (YES/NO)
4. Is the post under 280 words? (YES/NO)
5. Is the tone inviting without using generic filler phrases? (YES/NO)
Output PASS if all 5 are YES, FAIL if any are NO. List which items failed.कहाँ देखें: Cloudflare Worker लॉग
यदि आप Cloudflare Workers पर एजेंट चला रहे हैं (जो मैं अपने अधिकांश हल्के एजेंट के लिए करता हूँ), तो बिल्ट-इन log tail आपका सबसे अच्छा दोस्त है। शुरू करने के लिए आपको किसी थर्ड-पार्टी लॉगिंग सेवा की जरूरत नहीं है।
साप्ताहिक स्पॉट-रिव्यू में मैं क्या जांचता हूँ:
- एरर और एक्सेप्शन — कोई भी चीज जो क्रैश हुई या टाइम आउट हुई
- टोकन काउंट — यदि कोई रन अचानक सामान्य टोकन का 3x उपयोग करता है, तो कुछ बदल गया
- लेटेंसी स्पाइक — अचानक धीमा होना आमतौर पर मतलब है कि प्रॉम्प्ट लंबा हो गया या मॉडल को कठिनाई हो रही है
- आउटपुट लेंथ ड्रिफ्ट — यदि औसत आउटपुट 600 शब्दों से 200 शब्दों पर आ गया, तो एजेंट ने व्यवहार बदल दिया
मैं हर सोमवार सुबह 15 मिनट इस पर खर्च करता हूँ। Notion में एक सरल चेकलिस्ट है: प्रत्येक एजेंट के लिए लॉग खोलें, कुछ भी असामान्य नोट करें, पिछले सप्ताह के बेसलाइन के विरुद्ध टोकन उपयोग की तुलना करें। यही पूरी प्रक्रिया है।
स्प्रेडशीट मूल्यांकन: बदसूरत लेकिन काम करता है
किसी भी ऑटोमेशन से पहले, मैं Google Sheet में मूल्यांकन चलाता था। मैं अभी भी नए एजेंट के पहले 4 हफ्तों के लिए इसका उपयोग करता हूँ।
संरचना:
| रन तिथि | इनपुट | अपेक्षित आउटपुट (सारांश) | वास्तविक आउटपुट (सारांश) | पास/फेल | नोट्स |
|---|---|---|---|---|---|
| 2026-05-01 | ”AI एजेंट पर एक पोस्ट लिखें” | प्रत्यक्ष, विचारशील, 1000+ शब्द, TL;DR मौजूद | 950 शब्द, TL;DR मौजूद, मजबूत आवाज | पास | थोड़ा छोटा |
| 2026-05-08 | वही | वही | 400 शब्द, जेनेरिक, कोई TL;DR नहीं | फेल | अपडेट के बाद मॉडल ड्रिफ्ट |
प्रति सप्ताह पाँच पंक्तियाँ। 10 मिनट लगते हैं। यदि आपके पास लगातार दो फेल हैं, तो जारी रखने से पहले एजेंट को रोकें और प्रॉम्प्ट को ठीक करें।
यह शर्मनाक रूप से लो-टेक है। यह भी वही तरीका है जिससे मैंने तीन प्रॉम्प्ट रिग्रेशन को प्रोडक्शन में जाने से पहले पकड़ा।
क्या न करें
10 वास्तविक रन से पहले मूल्यांकन प्रणाली न बनाएं। मैंने संस्थापकों को एक एजेंट के लिए दो सप्ताह एक परिष्कृत मूल्यांकन पाइपलाइन बनाने में बर्बाद करते देखा है जिसे उन्होंने केवल दो बार चलाया था। जब तक आपके पास वास्तविक प्रोडक्शन डेटा न हो, आप “अच्छा” कैसा दिखता है इसके बारे में पर्याप्त नहीं जानते।
अपने द्वारा बनाए गए सिंथेटिक इनपुट से मूल्यांकन न करें। सिंथेटिक टेस्ट केस उन अजीब एज केस को मिस करते हैं जो प्रोडक्शन आप पर फेंकता है। हमेशा वास्तविक लॉग से शुरू करें।
सब कुछ का मूल्यांकन न करें। 3–5 एजेंट चुनें जहाँ विफलता वास्तव में दर्द देगी — ग्राहक-सामना करने वाले आउटपुट, कुछ भी जो सार्वजनिक रूप से पोस्ट करता है, कुछ भी जो भुगतान ट्रिगर करता है। जब तक हेडस्पेस न हो तब तक आंतरिक उपयोगिता एजेंट को छोड़ दें।
बहुत जल्दी ऑटोमेट न करें। एक स्प्रेडशीट जिसे आप वास्तव में उपयोग करते हैं वह Datadog डैशबोर्ड से बेहतर है जिसे आप चेक करना भूल जाते हैं। मैन्युअल रूप से शुरू करें, चेक 10 बार चलाने और वास्तव में जानने के बाद ऑटोमेट करें कि आप क्या खोज रहे हैं।
ऑपरेटर की बॉटम लाइन
मूल्यांकन उपयोगी होने के लिए इंजीनियरिंग-ग्रेड होना जरूरी नहीं है। 5–10 वास्तविक इनपुट का एक गोल्डन सेट, पास/फेल मानदंड की एक चेकलिस्ट, और हर सोमवार 15 मिनट का लॉग-चेकिंग एजेंट ड्रिफ्ट के 80% को संचित होने से पहले पकड़ लेगा। वहीं से शुरू करें। यदि आप अभी भी बिना किसी मूल्यांकन के एजेंट चला रहे हैं, तो आप अंधे होकर उड़ रहे हैं — और अंततः कुछ इतना सार्वजनिक रूप से विफल होगा कि आप चाहेंगे कि आपने 20 मिनट बिताए होते।
हर बुधवार। 28,400+ पाठक। बिना फालतू बात।
✓ Check your inbox — click the confirmation link to complete sign-up.
✓ You're subscribed!
✓ You're already on the list.
AI प्लेबुक अपने इनबॉक्स में पाएं
हर बुधवार। 28,400+ पाठक। बिना फालतू बात।
Check your inbox.
We sent you a confirmation email — click the link inside to complete your subscription. Check spam if you don't see it within a minute.
You're subscribed.
Welcome — the next edition lands in your inbox soon.
You're already on the list — look for it every Wednesday.