De Kostenrekensom van AI-agents: Wanneer Haiku Sonnet Verslaat (en Wanneer Niet)
Voor Claude Haiku kiezen in plaats van Sonnet kan de kosten per aanroep drastisch verlagen, maar alleen wanneer de taak een lager slaagpercentage verdraagt. De echte maatstaf zijn niet de kosten per aanroep — het zijn de kosten per geslaagd resultaat, inclusief herpogingen en menselijke nabewerking. Ik route per taak, niet per standaardinstelling.
Elke woensdag. 28.400+ operators. Geen opvulling.
✓ Controleer je inbox — klik op de bevestigingslink om je aanmelding te voltooien.
✓ Je bent aangemeld!
✓ Je staat al op de lijst.
Inhoudsopgave
Bijgewerkt juni 2026.
TL;DR: Voor Claude Haiku kiezen in plaats van Sonnet kan de kosten per aanroep met een orde van grootte verlagen, maar alleen wanneer de taak Haiku’s lagere slaagpercentage verdraagt. De maatstaf die telt zijn de kosten per geslaagd resultaat — aanroepkosten plus herpogingen plus menselijke nabewerking — niet de catalogusprijs per token. Ik route per taak, en een aanzienlijk deel van mijn stappen met hoog volume draait op Haiku terwijl de oordeelskwesties op Sonnet blijven.
Blik van de operator: Ik draai meer dan 100 agents, en inferentie is een echte kostenpost. Maar ik heb teams “geld zien besparen” door alles op het goedkoopste model te forceren en vervolgens de kosten te betalen in herpogingen, escalaties en boze klanten. De kostenrekensom werkt alleen als je de hele funnel meet.
Het goedkoopste model is niet het model met de laagste prijs per token. Het is het model met de laagste totale kosten om het werk goed te doen. Dat zijn verschillende getallen, en de kloof daartussen is precies waar de meeste kostenbeslissingen rond agents misgaan.
De tokeneconomie, recht voor zijn raap
Anthropic rekent voor Claude per miljoen tokens, waarbij invoer en uitvoer apart worden gefactureerd, en uitvoer kost meerdere keren zoveel als invoer. De exacte cijfers verschuiven in de tijd, dus check de actuele prijzen van Anthropic — maar het is de structuur die de beslissing stuurt:
- Haiku is de goedkope, snelle laag — veruit de laagste kosten per token in de familie.
- Sonnet zit ertussenin — merkbaar duurder dan Haiku, merkbaar goedkoper dan Opus.
- Opus is de premiumlaag voor het moeilijkste redeneerwerk.
Twee dingen volgen daaruit. Ten eerste domineren uitvoertokens de kosten bij generatieve taken, dus een breedsprakig model kost meer, zelfs bij dezelfde prijs per token. Ten tweede is de kloof in prijs per token tussen Haiku en Sonnet groot genoeg om bij een stap met hoog volume absoluut op de rekening op te duiken. Dat is het argument vóór Haiku. Nu het argument ertegen.
De maatstaf die er echt toe doet: kosten per geslaagd resultaat
Kosten per aanroep is een ijdelheidscijfer. Dit is de formule die ik echt gebruik:
kosten_per_succes = (aanroepkosten × pogingen) + nabewerkingskosten
÷ slaagpercentageWaarbij pogingen rekening houdt met herpogingen, en nabewerkingskosten de verwachte kosten zijn van een mens die de doorgeglipte fouten herstelt. Kijk wat dit met de vergelijking doet.
Stel dat Haiku per aanroep ongeveer een tiende kost van Sonnet. Als Haiku op een taak 80% van de tijd slaagt en Sonnet 98%, lijkt de besparing per aanroep enorm. Maar als elke Haiku-fout één herpoging triggert en 1 op de 10 nog steeds een mens nodig heeft die echt geld kost, kan de nabewerkingsterm de tokenbesparing verzwelgen. Bij een taak met lage inzet en hoog volume slaat de rekensom overweldigend uit naar Haiku. Bij een taak waar een fout een e-mail naar de verkeerde klant stuurt, kan ze volledig omslaan.
Je kunt deze afweging niet maken zonder het slaagpercentage per model te meten — wat precies is wat een eval-harnas je geeft. Draai dezelfde evalset tegen beide modellen en lees de slaagpercentages af op dezelfde meetlat.
Waar Haiku doorslaggevend wint
Haiku is de juiste keuze wanneer de taak smal, gestructureerd en verifieerbaar is:
- Classificatie en routering — “is dit inkomende bericht een boeking, een klacht of spam?” Drie bakjes, makkelijk te verifiëren, draait voortdurend. De hele dag Haiku.
- Extractie met een schema — een datum, een naam, een bedrag uit tekst halen, gevalideerd met Zod. Als de uitvoer parseert, is ze vrijwel zeker juist.
- Korte herschrijvingen en opmaak — toonbijstellingen, een bekend-goede invoer samenvatten, data normaliseren.
- Filtering in eerste instantie — Haiku triageert, en alleen de dubbelzinnige gevallen worden naar Sonnet geëscaleerd. Dit is het patroon met de hoogste hefboomwerking.
De rode draad: de kosten van een Haiku-fout zijn laag en de fout is goedkoop te betrappen. Wanneer verificatie goedkoop is en de inzet laag, wint het goedkope model.
Waar Sonnet zijn prijs waarmaakt
Sonnet (en soms Opus) is het waard wanneer de taak open, meerstaps of duur om fout te doen is:
- Multi-tool agentlussen waar één verkeerde tool-aanroep een cascade veroorzaakt. Hogere redeneerbetrouwbaarheid stapelt zich op over de stappen heen — de orkestratiepatronen die ik behandel in multi-agentorkestratie leunen erop dat het model de draad niet kwijtraakt.
- Klantgerichte generatie waar een slechte uitvoer vertrouwen kost, niet slechts een herpoging.
- Alles waar de verificatie zelf moeilijk is. Als je niet goedkoop kunt vaststellen of de uitvoer klopt, kun je je geen model veroorloven dat vaak fout zit.
Een fout hier kost geen herpoging — ze kost een terugbetaling, een afgehaakte klant, of mijn tijd. Daartegenover is de meerprijs per token een afrondingsfout.
De routeringsregel die ik daadwerkelijk uitrol
Ik kies niet één model per agent. Ik route per taak binnen de agent, meestal met een goedkope classifier die bepaalt welk stroomafwaarts model het werk afhandelt:
function pickModel(task: Task): string {
// Goedkoop, verifieerbaar, hoog volume → Haiku
if (task.type === "classify" || task.type === "extract") {
return "claude-haiku";
}
// Open of klantgericht → Sonnet
if (task.customerFacing || task.steps > 2) {
return "claude-sonnet";
}
return "claude-sonnet"; // standaard de veilige keuze
}Twee principes zitten hierin gecodeerd. Standaard het veilige model, niet het goedkope — je optimaliseert de kosten omlaag vanaf een werkende basislijn, nooit de betrouwbaarheid omhoog vanaf een kapotte. En escaleer, gok niet: laat Haiku de makkelijke 80% afhandelen en geef de moeilijke 20% aan Sonnet. Die hybride verslaat bijna altijd het alles draaien op één van beide modellen alleen.
Er is ook prompt-caching om bovenop te leggen: als je systeemprompt groot is en hergebruikt wordt, snijdt caching de invoerkosten aanzienlijk weg, ongeacht de laag, wat Sonnet soms goedkoop genoeg maakt om de Haiku-vraag overbodig te maken.
Een uitgewerkt voorbeeld uit mijn eigen stack
Neem een triagestap voor inkomende berichten met hoog volume. Hij draait duizenden keren, de taak is een driewegsclassificatie, en een misser betekent alleen dat het item in een beoordelingswachtrij belandt — goedkoop te betrappen, lage inzet. Dat is een schoolvoorbeeld van een Haiku-taak, en hem weghalen bij Sonnet verlaagde de kosten van die stap merkbaar zonder meetbare impact op het resultaat dat ertoe deed.
Neem nu de stap die het daadwerkelijke antwoord aan een klant opstelt. Lager volume, open, en een slecht concept dat de deur uitgaat kost vertrouwen. Die blijft op Sonnet. Dezelfde agent, twee modellen, gerouteerd op inzet. Ik houd de kosten per run en de slaagcijfers voor beide in de gaten, zoals ik beschrijf in hoe ik meet of een AI-agent daadwerkelijk werkt — en ik duw een stap pas een laag omlaag nadat de eval zegt dat het goedkopere model het slaagpercentage vasthoudt.
FAQ
Is Claude Haiku in de praktijk altijd goedkoper dan Sonnet?
Per token, ja — met ruime marge. Per geslaagd resultaat, niet altijd. Als Haiku’s lagere slaagpercentage herpogingen en menselijke nabewerking triggert, kunnen de totale kosten die van Sonnet overstijgen op taken waar fouten duur te betrappen of te herstellen zijn.
Hoe beslis ik voor een gegeven taak tussen Haiku en Sonnet?
Beoordeel de taak op twee assen: hoe verifieerbaar de uitvoer is en hoe kostbaar een fout is. Goedkoop te verifiëren, laag-inzet, hoog-volume werk gaat naar Haiku; open, klantgericht of moeilijk te verifiëren werk gaat naar Sonnet. Route per taak, niet per agent.
Wat is de enige kostenmaatstaf die ik moet bijhouden?
Kosten per geslaagd resultaat — aanroepkosten maal pogingen plus verwachte nabewerkingskosten, gedeeld door het slaagpercentage. De prijs per aanroep alleen verbergt herpogingen en menselijke tijd, en daar worden goedkope modellen stiekem duur.
Kan ik beide modellen in één agent gebruiken?
Ja, en meestal zou je dat ook moeten. Het sterkste patroon is een goedkope eerste ronde (Haiku classificeert of filtert) die alleen dubbelzinnige gevallen naar Sonnet escaleert. Die hybride verslaat doorgaans het alles draaien op één enkele laag.
Elke woensdag. 28.400+ operators. Geen opvulling.
✓ Controleer je inbox — klik op de bevestigingslink om je aanmelding te voltooien.
✓ Je bent aangemeld!
✓ Je staat al op de lijst.
Ontvang het AI-playbook in je inbox
Elke woensdag. 28.400+ operators. Geen opvulling.
Controleer je inbox.
We hebben je een bevestigingsmail gestuurd — klik op de link om je aanmelding te voltooien. Controleer je spam als je hem niet binnen een minuut ziet.
Je bent aangemeld.
Welkom — de volgende editie valt binnenkort in je inbox.
Je staat al op de lijst — kijk er elke woensdag naar uit.