حسابات تكلفة وكلاء الذكاء الاصطناعي: متى يتفوق Haiku على Sonnet (ومتى لا)
اختيار Claude Haiku بدلاً من Sonnet قد يخفض تكلفة الاستدعاء الواحد بشكل كبير، لكن فقط عندما تتحمّل المهمة معدل نجاح أقل. المقياس الحقيقي ليس التكلفة لكل استدعاء — بل التكلفة لكل نتيجة ناجحة، شاملةً المحاولات المتكررة والتصحيح البشري. أنا أوجّه حسب المهمة، لا حسب الإعداد الافتراضي.
كل أربعاء. أكثر من 28,400 مشترك. بدون حشو.
✓ تحقق من بريدك — انقر على رابط التأكيد لإكمال الاشتراك.
✓ تم اشتراكك!
✓ أنت مشترك بالفعل.
جدول المحتويات
محدّث يونيو 2026.
باختصار: اختيار Claude Haiku بدلاً من Sonnet قد يخفض تكلفة الاستدعاء الواحد بمقدار رتبة كاملة، لكن فقط عندما تتحمّل المهمة معدل نجاح Haiku الأقل. المقياس المهم هو التكلفة لكل نتيجة ناجحة — تكلفة الاستدعاء زائد المحاولات المتكررة زائد التصحيح البشري — وليس السعر المعلن لكل token. أنا أوجّه حسب المهمة، وحصة معتبرة من خطواتي عالية الحجم تعمل على Haiku بينما تبقى قرارات التقدير على Sonnet.
قراءة المُشغّل: أُدير أكثر من 100 وكيل، والاستدلال بند تكلفة حقيقي. لكنني رأيت فرقاً «توفّر المال» بإجبار كل شيء على أرخص نموذج ثم تدفع الثمن في المحاولات المتكررة والتصعيدات والعملاء الغاضبين. حسابات التكلفة لا تنجح إلا حين تقيس القمع بأكمله.
النموذج الأرخص ليس صاحب أدنى سعر لكل token. بل صاحب أدنى تكلفة إجمالية لإنجاز العمل بشكل صحيح. هذان رقمان مختلفان، والفجوة بينهما هي بالضبط حيث تخطئ معظم قرارات تكلفة الوكلاء.
اقتصاد الـtokens، بوضوح
تسعّر Anthropic نموذج Claude لكل مليون token، مع احتساب المدخلات والمخرجات بشكل منفصل، وتكلفة المخرجات أعلى بعدة أضعاف من المدخلات. تتغيّر الأرقام الدقيقة بمرور الوقت، لذا راجع أسعار Anthropic الحالية — لكن البنية هي ما يحرّك القرار:
- Haiku هو المستوى الرخيص والسريع — أدنى تكلفة لكل token في العائلة بفارق كبير.
- Sonnet يقع في المنتصف — أغلى بوضوح من Haiku، وأرخص بوضوح من Opus.
- Opus هو المستوى الفاخر لأصعب أنواع الاستدلال.
يترتب على ذلك أمران. أولاً، تهيمن tokens المخرجات على التكلفة في المهام التوليدية، لذا فإن النموذج المُطنب يكلّف أكثر حتى عند نفس السعر لكل token. ثانياً، الفجوة في السعر لكل token بين Haiku وSonnet كبيرة بما يكفي لتظهر بالتأكيد على الفاتورة في خطوة عالية الحجم. هذه هي الحجة لصالح Haiku. والآن الحجة ضده.
المقياس الذي يهم فعلاً: التكلفة لكل نتيجة ناجحة
التكلفة لكل استدعاء رقم استعراضي. إليك الصيغة التي أستخدمها فعلاً:
التكلفة_لكل_نجاح = (تكلفة_الاستدعاء × المحاولات) + تكلفة_التصحيح
÷ معدل_النجاححيث تحتسب المحاولات المحاولات المتكررة، وتكلفة_التصحيح هي التكلفة المتوقعة لإصلاح بشري للإخفاقات التي تتسرب. انظر ماذا يفعل هذا بالمقارنة.
لنفترض أن Haiku يكلّف نحو عُشر تكلفة Sonnet لكل استدعاء. إذا نجح Haiku في 80% من الحالات في مهمة ونجح Sonnet في 98%، تبدو الوفورات لكل استدعاء هائلة. لكن إذا أطلق كل إخفاق من Haiku محاولة متكررة وظل 1 من كل 10 يحتاج إلى إنسان يكلّف مالاً حقيقياً، فقد يبتلع حدّ التصحيح وفورات الـtokens. في مهمة منخفضة المخاطر عالية الحجم، تميل الحسابات لصالح Haiku بشكل ساحق. وفي مهمة يُرسل فيها الإخفاق بريداً إلكترونياً إلى العميل الخطأ، قد ينقلب الأمر تماماً.
لا يمكنك اتخاذ هذا القرار دون قياس معدل النجاح لكل نموذج — وهو بالضبط ما يمنحه لك إطار التقييم. شغّل مجموعة التقييم نفسها على كلا النموذجين واقرأ معدلات النجاح بالمقياس ذاته.
أين يفوز Haiku بشكل حاسم
Haiku هو الخيار الصحيح عندما تكون المهمة ضيّقة ومنظّمة وقابلة للتحقق:
- التصنيف والتوجيه — «هل هذه الرسالة الواردة حجز أم شكوى أم بريد مزعج؟» ثلاث فئات، سهلة التحقق، تعمل باستمرار. Haiku طوال اليوم.
- الاستخراج وفق مخطط — انتزاع تاريخ أو اسم أو مبلغ من نص، مع التحقق باستخدام Zod. إذا تمّ تحليل المخرجات، فهي صحيحة بشكل شبه مؤكد.
- إعادات الصياغة القصيرة والتنسيق — تعديلات النبرة، وتلخيص مُدخل معروف الجودة، وتطبيع البيانات.
- التصفية في المرور الأول — يقوم Haiku بالفرز، وتُصعَّد الحالات الغامضة وحدها إلى Sonnet. هذا هو النمط الأعلى رافعة.
الخيط المشترك: تكلفة خطأ Haiku منخفضة والخطأ رخيص الالتقاط. حين يكون التحقق رخيصاً والمخاطر منخفضة، يفوز النموذج الرخيص.
أين يستحق Sonnet سعره
يستحق Sonnet (وأحياناً Opus) قيمته عندما تكون المهمة مفتوحة أو متعددة الخطوات أو مكلفة عند الخطأ:
- حلقات الوكيل متعددة الأدوات حيث يتسبب استدعاء أداة خاطئ في سلسلة متتالية. تتراكم موثوقية الاستدلال الأعلى عبر الخطوات — أنماط التنسيق التي أتناولها في تنسيق الوكلاء المتعددين تعتمد على ألّا يفقد النموذج خيط المهمة.
- التوليد المواجِه للعميل حيث يكلّف المُخرج السيئ ثقةً، لا مجرد محاولة متكررة.
- أي شيء يكون فيه التحقق نفسه صعباً. إذا لم تستطع أن تعرف بثمن زهيد ما إذا كان المُخرج صحيحاً، فلا يمكنك تحمّل نموذج يخطئ كثيراً.
الإخفاق هنا لا يكلّف محاولة متكررة — بل يكلّف استرداداً للأموال، أو عميلاً مفقوداً، أو وقتي. وفي مقابل ذلك، فإن العلاوة لكل token خطأ تقريبي لا يُذكر.
قاعدة التوجيه التي أطبّقها فعلاً
لا أختار نموذجاً واحداً لكل وكيل. أوجّه حسب المهمة داخل الوكيل، عادةً بمصنّف رخيص يقرّر أي نموذج لاحق يتولّى العمل:
function pickModel(task: Task): string {
// رخيص وقابل للتحقق وعالي الحجم ← Haiku
if (task.type === "classify" || task.type === "extract") {
return "claude-haiku";
}
// مفتوح أو مواجِه للعميل ← Sonnet
if (task.customerFacing || task.steps > 2) {
return "claude-sonnet";
}
return "claude-sonnet"; // الإعداد الافتراضي هو الخيار الآمن
}مبدآن مُرمَّزان هنا. اجعل الافتراضي هو النموذج الآمن، لا الرخيص — أنت تحسّن التكلفة نزولاً من خط أساس يعمل، لا الموثوقية صعوداً من خط معطوب. وصعّد، لا تقامر: دع Haiku يتولّى الـ80% السهلة وسلّم الـ20% الصعبة إلى Sonnet. هذا المزيج يتفوق دائماً تقريباً على تشغيل كل شيء على أي من النموذجين منفرداً.
هناك أيضاً تخزين الـprompt مؤقتاً لإضافته فوق ذلك: إذا كان prompt النظام لديك كبيراً ويُعاد استخدامه، فإن التخزين المؤقت يخفض تكلفة المدخلات بشكل كبير بصرف النظر عن المستوى، مما يجعل Sonnet أحياناً رخيصاً بما يكفي ليصبح سؤال Haiku بلا معنى.
مثال محلول من بنيتي الخاصة
خذ خطوة فرز الرسائل الواردة عالية الحجم. تعمل آلاف المرات، والمهمة تصنيف ثلاثي الاتجاهات، والإخفاق يعني فقط أن العنصر يهبط في طابور مراجعة — رخيص الالتقاط، منخفض المخاطر. هذه مهمة Haiku نموذجية، ونقلها من Sonnet خفّض تكلفة تلك الخطوة بشكل ملموس دون أثر قابل للقياس على النتيجة التي تهم.
والآن خذ الخطوة التي تصوغ الرد الفعلي للعميل. حجم أقل، ومفتوحة، ومسودة سيئة تخرج تكلّف ثقةً. تلك تبقى على Sonnet. الوكيل نفسه، نموذجان، موجَّهان حسب المخاطر. أراقب التكلفة لكل تشغيل ومقاييس النجاح لكليهما، بالطريقة التي أصفها في كيف أقيس ما إذا كان وكيل الذكاء الاصطناعي يعمل فعلاً — ولا أنزل بخطوة إلى مستوى أدنى إلا بعد أن يقول التقييم إن النموذج الأرخص يحافظ على معدل النجاح.
الأسئلة الشائعة
هل Claude Haiku أرخص دائماً من Sonnet عملياً؟
لكل token، نعم — بفارق كبير. لكل نتيجة ناجحة، ليس دائماً. إذا أطلق معدل نجاح Haiku الأقل محاولات متكررة وتصحيحاً بشرياً، فقد تتجاوز التكلفة الإجمالية تكلفة Sonnet في المهام التي يكون فيها التقاط الأخطاء أو إصلاحها مكلفاً.
كيف أقرّر بين Haiku وSonnet لمهمة معيّنة؟
قيّم المهمة على محورين: مدى قابلية التحقق من المُخرج، ومدى تكلفة الخطأ. العمل الرخيص التحقق، منخفض المخاطر، عالي الحجم يذهب إلى Haiku؛ والعمل المفتوح، المواجِه للعميل، أو الصعب التحقق يذهب إلى Sonnet. وجّه حسب المهمة، لا حسب الوكيل.
ما المقياس الوحيد للتكلفة الذي ينبغي أن أتتبعه؟
التكلفة لكل نتيجة ناجحة — تكلفة الاستدعاء مضروبة في المحاولات زائد تكلفة التصحيح المتوقعة، مقسومة على معدل النجاح. السعر لكل استدعاء وحده يخفي المحاولات المتكررة والوقت البشري، وهناك تصبح النماذج الرخيصة مكلفة دون أن تلاحظ.
هل يمكنني استخدام كلا النموذجين في وكيل واحد؟
نعم، وغالباً يجب عليك ذلك. أقوى نمط هو مرور أول رخيص (يصنّف Haiku أو يصفّي) يصعّد الحالات الغامضة وحدها إلى Sonnet. هذا المزيج يتفوق عادةً على تشغيل كل شيء على مستوى واحد.
كل أربعاء. أكثر من 28,400 مشترك. بدون حشو.
✓ تحقق من بريدك — انقر على رابط التأكيد لإكمال الاشتراك.
✓ تم اشتراكك!
✓ أنت مشترك بالفعل.
احصل على دليل الذكاء الاصطناعي في صندوق بريدك
كل أربعاء. أكثر من 28,400 مشترك. بدون حشو.
تحقق من بريدك الوارد.
أرسلنا إليك رسالة تأكيد — انقر على الرابط لإكمال اشتراكك. تحقق من مجلد الرسائل غير المرغوب فيها إذا لم تصلك خلال دقيقة.
تم اشتراكك.
مرحبًا — سيصل العدد القادم إلى بريدك قريبًا.
أنت مشترك بالفعل — ترقّبه كل أربعاء.