Alejandro Rioja.
AI Agents Operations

حسابات تكلفة وكلاء الذكاء الاصطناعي: متى يتفوق Haiku على Sonnet (ومتى لا)

Alejandro Rioja
Alejandro Rioja
5 د قراءة
TL;DR

اختيار Claude Haiku بدلاً من Sonnet قد يخفض تكلفة الاستدعاء الواحد بشكل كبير، لكن فقط عندما تتحمّل المهمة معدل نجاح أقل. المقياس الحقيقي ليس التكلفة لكل استدعاء — بل التكلفة لكل نتيجة ناجحة، شاملةً المحاولات المتكررة والتصحيح البشري. أنا أوجّه حسب المهمة، لا حسب الإعداد الافتراضي.

نشرة بريدية مجانية

كل أربعاء. أكثر من 28,400 مشترك. بدون حشو.

جدول المحتويات

محدّث يونيو 2026.

باختصار: اختيار Claude Haiku بدلاً من Sonnet قد يخفض تكلفة الاستدعاء الواحد بمقدار رتبة كاملة، لكن فقط عندما تتحمّل المهمة معدل نجاح Haiku الأقل. المقياس المهم هو التكلفة لكل نتيجة ناجحة — تكلفة الاستدعاء زائد المحاولات المتكررة زائد التصحيح البشري — وليس السعر المعلن لكل token. أنا أوجّه حسب المهمة، وحصة معتبرة من خطواتي عالية الحجم تعمل على Haiku بينما تبقى قرارات التقدير على Sonnet.

قراءة المُشغّل: أُدير أكثر من 100 وكيل، والاستدلال بند تكلفة حقيقي. لكنني رأيت فرقاً «توفّر المال» بإجبار كل شيء على أرخص نموذج ثم تدفع الثمن في المحاولات المتكررة والتصعيدات والعملاء الغاضبين. حسابات التكلفة لا تنجح إلا حين تقيس القمع بأكمله.

النموذج الأرخص ليس صاحب أدنى سعر لكل token. بل صاحب أدنى تكلفة إجمالية لإنجاز العمل بشكل صحيح. هذان رقمان مختلفان، والفجوة بينهما هي بالضبط حيث تخطئ معظم قرارات تكلفة الوكلاء.

اقتصاد الـtokens، بوضوح

تسعّر Anthropic نموذج Claude لكل مليون token، مع احتساب المدخلات والمخرجات بشكل منفصل، وتكلفة المخرجات أعلى بعدة أضعاف من المدخلات. تتغيّر الأرقام الدقيقة بمرور الوقت، لذا راجع أسعار Anthropic الحالية — لكن البنية هي ما يحرّك القرار:

يترتب على ذلك أمران. أولاً، تهيمن tokens المخرجات على التكلفة في المهام التوليدية، لذا فإن النموذج المُطنب يكلّف أكثر حتى عند نفس السعر لكل token. ثانياً، الفجوة في السعر لكل token بين Haiku وSonnet كبيرة بما يكفي لتظهر بالتأكيد على الفاتورة في خطوة عالية الحجم. هذه هي الحجة لصالح Haiku. والآن الحجة ضده.

المقياس الذي يهم فعلاً: التكلفة لكل نتيجة ناجحة

التكلفة لكل استدعاء رقم استعراضي. إليك الصيغة التي أستخدمها فعلاً:

code
التكلفة_لكل_نجاح = (تكلفة_الاستدعاء × المحاولات) + تكلفة_التصحيح
                   ÷ معدل_النجاح

حيث تحتسب المحاولات المحاولات المتكررة، وتكلفة_التصحيح هي التكلفة المتوقعة لإصلاح بشري للإخفاقات التي تتسرب. انظر ماذا يفعل هذا بالمقارنة.

لنفترض أن Haiku يكلّف نحو عُشر تكلفة Sonnet لكل استدعاء. إذا نجح Haiku في 80% من الحالات في مهمة ونجح Sonnet في 98%، تبدو الوفورات لكل استدعاء هائلة. لكن إذا أطلق كل إخفاق من Haiku محاولة متكررة وظل 1 من كل 10 يحتاج إلى إنسان يكلّف مالاً حقيقياً، فقد يبتلع حدّ التصحيح وفورات الـtokens. في مهمة منخفضة المخاطر عالية الحجم، تميل الحسابات لصالح Haiku بشكل ساحق. وفي مهمة يُرسل فيها الإخفاق بريداً إلكترونياً إلى العميل الخطأ، قد ينقلب الأمر تماماً.

لا يمكنك اتخاذ هذا القرار دون قياس معدل النجاح لكل نموذج — وهو بالضبط ما يمنحه لك إطار التقييم. شغّل مجموعة التقييم نفسها على كلا النموذجين واقرأ معدلات النجاح بالمقياس ذاته.

أين يفوز Haiku بشكل حاسم

Haiku هو الخيار الصحيح عندما تكون المهمة ضيّقة ومنظّمة وقابلة للتحقق:

الخيط المشترك: تكلفة خطأ Haiku منخفضة والخطأ رخيص الالتقاط. حين يكون التحقق رخيصاً والمخاطر منخفضة، يفوز النموذج الرخيص.

أين يستحق Sonnet سعره

يستحق Sonnet (وأحياناً Opus) قيمته عندما تكون المهمة مفتوحة أو متعددة الخطوات أو مكلفة عند الخطأ:

الإخفاق هنا لا يكلّف محاولة متكررة — بل يكلّف استرداداً للأموال، أو عميلاً مفقوداً، أو وقتي. وفي مقابل ذلك، فإن العلاوة لكل token خطأ تقريبي لا يُذكر.

قاعدة التوجيه التي أطبّقها فعلاً

لا أختار نموذجاً واحداً لكل وكيل. أوجّه حسب المهمة داخل الوكيل، عادةً بمصنّف رخيص يقرّر أي نموذج لاحق يتولّى العمل:

typescript
function pickModel(task: Task): string {
  // رخيص وقابل للتحقق وعالي الحجم ← Haiku
  if (task.type === "classify" || task.type === "extract") {
    return "claude-haiku";
  }
  // مفتوح أو مواجِه للعميل ← Sonnet
  if (task.customerFacing || task.steps > 2) {
    return "claude-sonnet";
  }
  return "claude-sonnet"; // الإعداد الافتراضي هو الخيار الآمن
}

مبدآن مُرمَّزان هنا. اجعل الافتراضي هو النموذج الآمن، لا الرخيص — أنت تحسّن التكلفة نزولاً من خط أساس يعمل، لا الموثوقية صعوداً من خط معطوب. وصعّد، لا تقامر: دع Haiku يتولّى الـ80% السهلة وسلّم الـ20% الصعبة إلى Sonnet. هذا المزيج يتفوق دائماً تقريباً على تشغيل كل شيء على أي من النموذجين منفرداً.

هناك أيضاً تخزين الـprompt مؤقتاً لإضافته فوق ذلك: إذا كان prompt النظام لديك كبيراً ويُعاد استخدامه، فإن التخزين المؤقت يخفض تكلفة المدخلات بشكل كبير بصرف النظر عن المستوى، مما يجعل Sonnet أحياناً رخيصاً بما يكفي ليصبح سؤال Haiku بلا معنى.

مثال محلول من بنيتي الخاصة

خذ خطوة فرز الرسائل الواردة عالية الحجم. تعمل آلاف المرات، والمهمة تصنيف ثلاثي الاتجاهات، والإخفاق يعني فقط أن العنصر يهبط في طابور مراجعة — رخيص الالتقاط، منخفض المخاطر. هذه مهمة Haiku نموذجية، ونقلها من Sonnet خفّض تكلفة تلك الخطوة بشكل ملموس دون أثر قابل للقياس على النتيجة التي تهم.

والآن خذ الخطوة التي تصوغ الرد الفعلي للعميل. حجم أقل، ومفتوحة، ومسودة سيئة تخرج تكلّف ثقةً. تلك تبقى على Sonnet. الوكيل نفسه، نموذجان، موجَّهان حسب المخاطر. أراقب التكلفة لكل تشغيل ومقاييس النجاح لكليهما، بالطريقة التي أصفها في كيف أقيس ما إذا كان وكيل الذكاء الاصطناعي يعمل فعلاً — ولا أنزل بخطوة إلى مستوى أدنى إلا بعد أن يقول التقييم إن النموذج الأرخص يحافظ على معدل النجاح.

الأسئلة الشائعة

هل Claude Haiku أرخص دائماً من Sonnet عملياً؟

لكل token، نعم — بفارق كبير. لكل نتيجة ناجحة، ليس دائماً. إذا أطلق معدل نجاح Haiku الأقل محاولات متكررة وتصحيحاً بشرياً، فقد تتجاوز التكلفة الإجمالية تكلفة Sonnet في المهام التي يكون فيها التقاط الأخطاء أو إصلاحها مكلفاً.

كيف أقرّر بين Haiku وSonnet لمهمة معيّنة؟

قيّم المهمة على محورين: مدى قابلية التحقق من المُخرج، ومدى تكلفة الخطأ. العمل الرخيص التحقق، منخفض المخاطر، عالي الحجم يذهب إلى Haiku؛ والعمل المفتوح، المواجِه للعميل، أو الصعب التحقق يذهب إلى Sonnet. وجّه حسب المهمة، لا حسب الوكيل.

ما المقياس الوحيد للتكلفة الذي ينبغي أن أتتبعه؟

التكلفة لكل نتيجة ناجحة — تكلفة الاستدعاء مضروبة في المحاولات زائد تكلفة التصحيح المتوقعة، مقسومة على معدل النجاح. السعر لكل استدعاء وحده يخفي المحاولات المتكررة والوقت البشري، وهناك تصبح النماذج الرخيصة مكلفة دون أن تلاحظ.

هل يمكنني استخدام كلا النموذجين في وكيل واحد؟

نعم، وغالباً يجب عليك ذلك. أقوى نمط هو مرور أول رخيص (يصنّف Haiku أو يصفّي) يصعّد الحالات الغامضة وحدها إلى Sonnet. هذا المزيج يتفوق عادةً على تشغيل كل شيء على مستوى واحد.

تابع القراءة

احصل على دليل الذكاء الاصطناعي في صندوق بريدك

كل أربعاء. أكثر من 28,400 مشترك. بدون حشو.

↵ لعرض كل النتائج esc esc للإغلاق