Alejandro Rioja.
AI Agents Operations

Kostenrechnung für KI-Agenten: Wann Haiku Sonnet schlägt (und wann nicht)

Alejandro Rioja
Alejandro Rioja
6 Min. Lesezeit
TL;DR

Claude Haiku statt Sonnet zu wählen kann die Kosten pro Aufruf drastisch senken, aber nur wenn die Aufgabe eine niedrigere Erfolgsquote verträgt. Die eigentliche Kennzahl sind nicht die Kosten pro Aufruf — es sind die Kosten pro erfolgreichem Ergebnis, inklusive Wiederholungen und menschlicher Nacharbeit. Ich route nach Aufgabe, nicht nach Standard.

Kostenloser Newsletter

Jeden Mittwoch. 28.400+ Experten. Kein Füllstoff.

Inhaltsverzeichnis

Aktualisiert Juni 2026.

TL;DR: Claude Haiku statt Sonnet zu wählen kann die Kosten pro Aufruf um eine Größenordnung senken, aber nur wenn die Aufgabe Haikus niedrigere Erfolgsquote verträgt. Die Kennzahl, die zählt, sind die Kosten pro erfolgreichem Ergebnis — Aufrufkosten plus Wiederholungen plus menschliche Nacharbeit — nicht der Listenpreis pro Token. Ich route pro Aufgabe, und ein bedeutender Anteil meiner Schritte mit hohem Volumen läuft auf Haiku, während die Ermessensentscheidungen auf Sonnet bleiben.

Sicht des Operators: Ich betreibe über 100 Agenten, und Inferenz ist ein echter Kostenposten. Aber ich habe Teams beobachtet, die „Geld sparten”, indem sie alles auf das billigste Modell zwangen, und dann die Kosten in Wiederholungen, Eskalationen und verärgerten Kunden bezahlten. Die Kostenrechnung funktioniert nur, wenn man den gesamten Funnel misst.

Das billigste Modell ist nicht das mit dem niedrigsten Preis pro Token. Es ist das mit den niedrigsten Gesamtkosten, um die Arbeit richtig zu erledigen. Das sind verschiedene Zahlen, und die Lücke zwischen ihnen ist genau dort, wo die meisten Kostenentscheidungen bei Agenten schiefgehen.

Die Token-Ökonomie, klar gesagt

Anthropic berechnet Claude pro Million Tokens, Eingabe und Ausgabe werden getrennt abgerechnet, wobei die Ausgabe ein Mehrfaches der Eingabe kostet. Die genauen Zahlen ändern sich im Laufe der Zeit, prüfen Sie also die aktuellen Preise von Anthropic — aber es ist die Struktur, die die Entscheidung treibt:

Daraus folgen zwei Dinge. Erstens dominieren Ausgabe-Tokens die Kosten bei generativen Aufgaben, sodass ein wortreiches Modell selbst beim gleichen Preis pro Token mehr kostet. Zweitens ist die Preislücke pro Token zwischen Haiku und Sonnet groß genug, dass sie bei einem Schritt mit hohem Volumen absolut auf der Rechnung auftaucht. Das ist das Argument für Haiku. Jetzt das Argument dagegen.

Die Kennzahl, die wirklich zählt: Kosten pro erfolgreichem Ergebnis

Die Kosten pro Aufruf sind eine Eitelkeitszahl. Hier ist die Formel, die ich tatsächlich verwende:

code
kosten_pro_erfolg = (aufrufkosten × versuche) + nacharbeitskosten
                     ÷ erfolgsquote

Wobei versuche die Wiederholungen berücksichtigt und nacharbeitskosten die erwarteten Kosten dafür sind, dass ein Mensch die durchgerutschten Fehler behebt. Sehen Sie, was das mit dem Vergleich macht.

Angenommen, Haiku kostet ungefähr ein Zehntel von Sonnet pro Aufruf. Wenn Haiku bei einer Aufgabe in 80 % der Fälle erfolgreich ist und Sonnet in 98 %, sehen die Einsparungen pro Aufruf enorm aus. Aber wenn jeder Haiku-Fehler eine Wiederholung auslöst und 1 von 10 trotzdem einen Menschen braucht, der echtes Geld kostet, kann der Nacharbeitsterm die Token-Einsparungen verschlingen. Bei einer Aufgabe mit niedrigem Einsatz und hohem Volumen begünstigt die Rechnung Haiku überwältigend. Bei einer Aufgabe, bei der ein Fehler eine E-Mail an den falschen Kunden schickt, kann sie sich komplett umkehren.

Sie können diese Entscheidung nicht treffen, ohne die Erfolgsquote pro Modell zu messen — was genau das ist, was Ihnen ein Eval-Harness liefert. Lassen Sie denselben Eval-Satz gegen beide Modelle laufen und lesen Sie die Erfolgsquoten am selben Maßstab ab.

Wo Haiku eindeutig gewinnt

Haiku ist die richtige Wahl, wenn die Aufgabe eng, strukturiert und überprüfbar ist:

Der rote Faden: Die Kosten eines Haiku-Fehlers sind niedrig und der Fehler ist billig zu erkennen. Wenn die Überprüfung billig und der Einsatz niedrig ist, gewinnt das billige Modell.

Wo Sonnet seinen Preis verdient

Sonnet (und manchmal Opus) lohnt sich, wenn die Aufgabe offen, mehrstufig oder teuer im Fehlerfall ist:

Ein Fehler hier kostet nicht eine Wiederholung — er kostet eine Rückerstattung, einen abgewanderten Kunden oder meine Zeit. Dagegen ist der Aufpreis pro Token ein Rundungsfehler.

Die Routing-Regel, die ich tatsächlich ausliefere

Ich wähle nicht ein Modell pro Agent. Ich route pro Aufgabe innerhalb des Agenten, meist mit einem billigen Klassifikator, der entscheidet, welches nachgelagerte Modell die Arbeit übernimmt:

typescript
function pickModel(task: Task): string {
  // Billig, überprüfbar, hohes Volumen → Haiku
  if (task.type === "classify" || task.type === "extract") {
    return "claude-haiku";
  }
  // Offen oder kundenseitig → Sonnet
  if (task.customerFacing || task.steps > 2) {
    return "claude-sonnet";
  }
  return "claude-sonnet"; // standardmäßig die sichere Wahl
}

Zwei Prinzipien sind hier kodiert. Standardmäßig das sichere Modell, nicht das billige — man optimiert die Kosten nach unten von einer funktionierenden Basis aus, niemals die Zuverlässigkeit nach oben von einer kaputten aus. Und eskalieren, nicht zocken: Lass Haiku die einfachen 80 % erledigen und übergib die schwierigen 20 % an Sonnet. Dieser Hybrid schlägt fast immer den Betrieb von allem auf einem der beiden Modelle allein.

Es gibt auch Prompt-Caching, das man obendrauf legen kann: Wenn Ihr System-Prompt groß und wiederverwendet ist, senkt Caching die Eingabekosten unabhängig von der Stufe erheblich, was Sonnet manchmal billig genug macht, dass die Haiku-Frage hinfällig wird.

Ein durchgerechnetes Beispiel aus meinem eigenen Stack

Nehmen Sie einen Triage-Schritt für eingehende Nachrichten mit hohem Volumen. Er läuft Tausende Male, die Aufgabe ist eine Drei-Wege-Klassifizierung, und ein Fehler bedeutet nur, dass das Element in einer Prüfwarteschlange landet — billig zu erkennen, niedriger Einsatz. Das ist eine Lehrbuch-Haiku-Aufgabe, und sie von Sonnet wegzunehmen senkte die Kosten dieses Schritts merklich ohne messbaren Einfluss auf das Ergebnis, das zählte.

Nehmen Sie nun den Schritt, der die eigentliche Antwort an den Kunden entwirft. Geringeres Volumen, offen, und ein schlechter Entwurf, der rausgeht, kostet Vertrauen. Der bleibt auf Sonnet. Gleicher Agent, zwei Modelle, geroutet nach Einsatz. Ich beobachte die Kosten pro Lauf und die Erfolgskennzahlen für beide, so wie ich es in wie ich messe, ob ein KI-Agent tatsächlich funktioniert beschreibe — und ich schiebe einen Schritt erst dann eine Stufe nach unten, nachdem die Eval sagt, dass das billigere Modell die Erfolgsquote hält.

FAQ

Ist Claude Haiku in der Praxis immer billiger als Sonnet?

Pro Token, ja — mit großem Abstand. Pro erfolgreichem Ergebnis, nicht immer. Wenn Haikus niedrigere Erfolgsquote Wiederholungen und menschliche Nacharbeit auslöst, können die Gesamtkosten die von Sonnet übersteigen — bei Aufgaben, wo Fehler teuer zu erkennen oder zu beheben sind.

Wie entscheide ich für eine gegebene Aufgabe zwischen Haiku und Sonnet?

Bewerten Sie die Aufgabe auf zwei Achsen: wie überprüfbar die Ausgabe ist und wie kostspielig ein Fehler ist. Billig zu überprüfende Arbeit mit niedrigem Einsatz und hohem Volumen geht an Haiku; offene, kundenseitige oder schwer zu überprüfende Arbeit geht an Sonnet. Routen Sie pro Aufgabe, nicht pro Agent.

Welche einzelne Kostenkennzahl sollte ich verfolgen?

Kosten pro erfolgreichem Ergebnis — Aufrufkosten mal Versuche plus erwartete Nacharbeitskosten, geteilt durch die Erfolgsquote. Der Preis pro Aufruf allein verbirgt Wiederholungen und menschliche Zeit, und genau dort werden billige Modelle klammheimlich teuer.

Kann ich beide Modelle in einem Agenten verwenden?

Ja, und das sollten Sie meist auch. Das stärkste Muster ist ein billiger erster Durchgang (Haiku klassifiziert oder filtert), der nur mehrdeutige Fälle an Sonnet eskaliert. Dieser Hybrid schlägt typischerweise den Betrieb von allem auf einer einzigen Stufe.

Weiterlesen

Holen Sie sich das KI-Playbook in Ihr Postfach

Jeden Mittwoch. 28.400+ Experten. Kein Füllstoff.

↵ alle Ergebnisse anzeigen esc esc zum Schließen