Kostenrechnung für KI-Agenten: Wann Haiku Sonnet schlägt (und wann nicht)
Claude Haiku statt Sonnet zu wählen kann die Kosten pro Aufruf drastisch senken, aber nur wenn die Aufgabe eine niedrigere Erfolgsquote verträgt. Die eigentliche Kennzahl sind nicht die Kosten pro Aufruf — es sind die Kosten pro erfolgreichem Ergebnis, inklusive Wiederholungen und menschlicher Nacharbeit. Ich route nach Aufgabe, nicht nach Standard.
Jeden Mittwoch. 28.400+ Experten. Kein Füllstoff.
✓ Prüfen Sie Ihr Postfach — klicken Sie auf den Bestätigungslink, um die Anmeldung abzuschließen.
✓ Sie sind angemeldet!
✓ Sie stehen bereits auf der Liste.
Inhaltsverzeichnis
Aktualisiert Juni 2026.
TL;DR: Claude Haiku statt Sonnet zu wählen kann die Kosten pro Aufruf um eine Größenordnung senken, aber nur wenn die Aufgabe Haikus niedrigere Erfolgsquote verträgt. Die Kennzahl, die zählt, sind die Kosten pro erfolgreichem Ergebnis — Aufrufkosten plus Wiederholungen plus menschliche Nacharbeit — nicht der Listenpreis pro Token. Ich route pro Aufgabe, und ein bedeutender Anteil meiner Schritte mit hohem Volumen läuft auf Haiku, während die Ermessensentscheidungen auf Sonnet bleiben.
Sicht des Operators: Ich betreibe über 100 Agenten, und Inferenz ist ein echter Kostenposten. Aber ich habe Teams beobachtet, die „Geld sparten”, indem sie alles auf das billigste Modell zwangen, und dann die Kosten in Wiederholungen, Eskalationen und verärgerten Kunden bezahlten. Die Kostenrechnung funktioniert nur, wenn man den gesamten Funnel misst.
Das billigste Modell ist nicht das mit dem niedrigsten Preis pro Token. Es ist das mit den niedrigsten Gesamtkosten, um die Arbeit richtig zu erledigen. Das sind verschiedene Zahlen, und die Lücke zwischen ihnen ist genau dort, wo die meisten Kostenentscheidungen bei Agenten schiefgehen.
Die Token-Ökonomie, klar gesagt
Anthropic berechnet Claude pro Million Tokens, Eingabe und Ausgabe werden getrennt abgerechnet, wobei die Ausgabe ein Mehrfaches der Eingabe kostet. Die genauen Zahlen ändern sich im Laufe der Zeit, prüfen Sie also die aktuellen Preise von Anthropic — aber es ist die Struktur, die die Entscheidung treibt:
- Haiku ist die billige, schnelle Stufe — mit Abstand die niedrigsten Kosten pro Token in der Familie.
- Sonnet liegt in der Mitte — deutlich teurer als Haiku, deutlich billiger als Opus.
- Opus ist die Premium-Stufe für das schwierigste Schlussfolgern.
Daraus folgen zwei Dinge. Erstens dominieren Ausgabe-Tokens die Kosten bei generativen Aufgaben, sodass ein wortreiches Modell selbst beim gleichen Preis pro Token mehr kostet. Zweitens ist die Preislücke pro Token zwischen Haiku und Sonnet groß genug, dass sie bei einem Schritt mit hohem Volumen absolut auf der Rechnung auftaucht. Das ist das Argument für Haiku. Jetzt das Argument dagegen.
Die Kennzahl, die wirklich zählt: Kosten pro erfolgreichem Ergebnis
Die Kosten pro Aufruf sind eine Eitelkeitszahl. Hier ist die Formel, die ich tatsächlich verwende:
kosten_pro_erfolg = (aufrufkosten × versuche) + nacharbeitskosten
÷ erfolgsquoteWobei versuche die Wiederholungen berücksichtigt und nacharbeitskosten die erwarteten Kosten dafür sind, dass ein Mensch die durchgerutschten Fehler behebt. Sehen Sie, was das mit dem Vergleich macht.
Angenommen, Haiku kostet ungefähr ein Zehntel von Sonnet pro Aufruf. Wenn Haiku bei einer Aufgabe in 80 % der Fälle erfolgreich ist und Sonnet in 98 %, sehen die Einsparungen pro Aufruf enorm aus. Aber wenn jeder Haiku-Fehler eine Wiederholung auslöst und 1 von 10 trotzdem einen Menschen braucht, der echtes Geld kostet, kann der Nacharbeitsterm die Token-Einsparungen verschlingen. Bei einer Aufgabe mit niedrigem Einsatz und hohem Volumen begünstigt die Rechnung Haiku überwältigend. Bei einer Aufgabe, bei der ein Fehler eine E-Mail an den falschen Kunden schickt, kann sie sich komplett umkehren.
Sie können diese Entscheidung nicht treffen, ohne die Erfolgsquote pro Modell zu messen — was genau das ist, was Ihnen ein Eval-Harness liefert. Lassen Sie denselben Eval-Satz gegen beide Modelle laufen und lesen Sie die Erfolgsquoten am selben Maßstab ab.
Wo Haiku eindeutig gewinnt
Haiku ist die richtige Wahl, wenn die Aufgabe eng, strukturiert und überprüfbar ist:
- Klassifizierung und Routing — „ist diese eingehende Nachricht eine Buchung, eine Beschwerde oder Spam?” Drei Kategorien, leicht zu überprüfen, läuft ständig. Haiku den ganzen Tag.
- Extraktion mit einem Schema — ein Datum, einen Namen, einen Betrag aus Text ziehen, validiert mit Zod. Wenn die Ausgabe parst, ist sie fast sicher richtig.
- Kurze Umschreibungen und Formatierung — Tonanpassungen, eine bekannt gute Eingabe zusammenfassen, Daten normalisieren.
- Filterung im ersten Durchgang — Haiku triagiert, und nur die mehrdeutigen Fälle werden an Sonnet eskaliert. Das ist das Muster mit dem höchsten Hebel.
Der rote Faden: Die Kosten eines Haiku-Fehlers sind niedrig und der Fehler ist billig zu erkennen. Wenn die Überprüfung billig und der Einsatz niedrig ist, gewinnt das billige Modell.
Wo Sonnet seinen Preis verdient
Sonnet (und manchmal Opus) lohnt sich, wenn die Aufgabe offen, mehrstufig oder teuer im Fehlerfall ist:
- Multi-Tool-Agentenschleifen, bei denen ein falscher Tool-Aufruf eine Kaskade auslöst. Höhere Schlussfolgerungs-Zuverlässigkeit summiert sich über die Schritte — die Orchestrierungsmuster, die ich in Multi-Agenten-Orchestrierung behandle, hängen davon ab, dass das Modell nicht den Faden verliert.
- Kundenseitige Generierung, bei der eine schlechte Ausgabe Vertrauen kostet, nicht nur eine Wiederholung.
- Alles, wo die Überprüfung selbst schwierig ist. Wenn Sie nicht billig feststellen können, ob die Ausgabe richtig ist, können Sie sich kein Modell leisten, das häufig falsch liegt.
Ein Fehler hier kostet nicht eine Wiederholung — er kostet eine Rückerstattung, einen abgewanderten Kunden oder meine Zeit. Dagegen ist der Aufpreis pro Token ein Rundungsfehler.
Die Routing-Regel, die ich tatsächlich ausliefere
Ich wähle nicht ein Modell pro Agent. Ich route pro Aufgabe innerhalb des Agenten, meist mit einem billigen Klassifikator, der entscheidet, welches nachgelagerte Modell die Arbeit übernimmt:
function pickModel(task: Task): string {
// Billig, überprüfbar, hohes Volumen → Haiku
if (task.type === "classify" || task.type === "extract") {
return "claude-haiku";
}
// Offen oder kundenseitig → Sonnet
if (task.customerFacing || task.steps > 2) {
return "claude-sonnet";
}
return "claude-sonnet"; // standardmäßig die sichere Wahl
}Zwei Prinzipien sind hier kodiert. Standardmäßig das sichere Modell, nicht das billige — man optimiert die Kosten nach unten von einer funktionierenden Basis aus, niemals die Zuverlässigkeit nach oben von einer kaputten aus. Und eskalieren, nicht zocken: Lass Haiku die einfachen 80 % erledigen und übergib die schwierigen 20 % an Sonnet. Dieser Hybrid schlägt fast immer den Betrieb von allem auf einem der beiden Modelle allein.
Es gibt auch Prompt-Caching, das man obendrauf legen kann: Wenn Ihr System-Prompt groß und wiederverwendet ist, senkt Caching die Eingabekosten unabhängig von der Stufe erheblich, was Sonnet manchmal billig genug macht, dass die Haiku-Frage hinfällig wird.
Ein durchgerechnetes Beispiel aus meinem eigenen Stack
Nehmen Sie einen Triage-Schritt für eingehende Nachrichten mit hohem Volumen. Er läuft Tausende Male, die Aufgabe ist eine Drei-Wege-Klassifizierung, und ein Fehler bedeutet nur, dass das Element in einer Prüfwarteschlange landet — billig zu erkennen, niedriger Einsatz. Das ist eine Lehrbuch-Haiku-Aufgabe, und sie von Sonnet wegzunehmen senkte die Kosten dieses Schritts merklich ohne messbaren Einfluss auf das Ergebnis, das zählte.
Nehmen Sie nun den Schritt, der die eigentliche Antwort an den Kunden entwirft. Geringeres Volumen, offen, und ein schlechter Entwurf, der rausgeht, kostet Vertrauen. Der bleibt auf Sonnet. Gleicher Agent, zwei Modelle, geroutet nach Einsatz. Ich beobachte die Kosten pro Lauf und die Erfolgskennzahlen für beide, so wie ich es in wie ich messe, ob ein KI-Agent tatsächlich funktioniert beschreibe — und ich schiebe einen Schritt erst dann eine Stufe nach unten, nachdem die Eval sagt, dass das billigere Modell die Erfolgsquote hält.
FAQ
Ist Claude Haiku in der Praxis immer billiger als Sonnet?
Pro Token, ja — mit großem Abstand. Pro erfolgreichem Ergebnis, nicht immer. Wenn Haikus niedrigere Erfolgsquote Wiederholungen und menschliche Nacharbeit auslöst, können die Gesamtkosten die von Sonnet übersteigen — bei Aufgaben, wo Fehler teuer zu erkennen oder zu beheben sind.
Wie entscheide ich für eine gegebene Aufgabe zwischen Haiku und Sonnet?
Bewerten Sie die Aufgabe auf zwei Achsen: wie überprüfbar die Ausgabe ist und wie kostspielig ein Fehler ist. Billig zu überprüfende Arbeit mit niedrigem Einsatz und hohem Volumen geht an Haiku; offene, kundenseitige oder schwer zu überprüfende Arbeit geht an Sonnet. Routen Sie pro Aufgabe, nicht pro Agent.
Welche einzelne Kostenkennzahl sollte ich verfolgen?
Kosten pro erfolgreichem Ergebnis — Aufrufkosten mal Versuche plus erwartete Nacharbeitskosten, geteilt durch die Erfolgsquote. Der Preis pro Aufruf allein verbirgt Wiederholungen und menschliche Zeit, und genau dort werden billige Modelle klammheimlich teuer.
Kann ich beide Modelle in einem Agenten verwenden?
Ja, und das sollten Sie meist auch. Das stärkste Muster ist ein billiger erster Durchgang (Haiku klassifiziert oder filtert), der nur mehrdeutige Fälle an Sonnet eskaliert. Dieser Hybrid schlägt typischerweise den Betrieb von allem auf einer einzigen Stufe.
Jeden Mittwoch. 28.400+ Experten. Kein Füllstoff.
✓ Prüfen Sie Ihr Postfach — klicken Sie auf den Bestätigungslink, um die Anmeldung abzuschließen.
✓ Sie sind angemeldet!
✓ Sie stehen bereits auf der Liste.
Holen Sie sich das KI-Playbook in Ihr Postfach
Jeden Mittwoch. 28.400+ Experten. Kein Füllstoff.
Prüfen Sie Ihr Postfach.
Wir haben Ihnen eine Bestätigungs-E-Mail geschickt — klicken Sie auf den Link, um Ihre Anmeldung abzuschließen. Prüfen Sie den Spam-Ordner, falls sie nicht innerhalb einer Minute ankommt.
Sie sind angemeldet.
Willkommen — die nächste Ausgabe landet bald in Ihrem Postfach.
Sie stehen bereits auf der Liste — halten Sie jeden Mittwoch Ausschau.