AI Agents Operations

Kostenrechnung für KI-Agenten: Wann Haiku Sonnet schlägt (und wann nicht)

Alejandro Rioja

7. Juni 2026 6 Min. Lesezeit

TL;DR

Claude Haiku statt Sonnet zu wählen kann die Kosten pro Aufruf drastisch senken, aber nur wenn die Aufgabe eine niedrigere Erfolgsquote verträgt. Die eigentliche Kennzahl sind nicht die Kosten pro Aufruf — es sind die Kosten pro erfolgreichem Ergebnis, inklusive Wiederholungen und menschlicher Nacharbeit. Ich route nach Aufgabe, nicht nach Standard.

Kostenloser Newsletter

Jeden Mittwoch. 28.400+ Experten. Kein Füllstoff.

Inhaltsverzeichnis

Aktualisiert Juni 2026.

TL;DR: Claude Haiku statt Sonnet zu wählen kann die Kosten pro Aufruf um eine Größenordnung senken, aber nur wenn die Aufgabe Haikus niedrigere Erfolgsquote verträgt. Die Kennzahl, die zählt, sind die Kosten pro erfolgreichem Ergebnis — Aufrufkosten plus Wiederholungen plus menschliche Nacharbeit — nicht der Listenpreis pro Token. Ich route pro Aufgabe, und ein bedeutender Anteil meiner Schritte mit hohem Volumen läuft auf Haiku, während die Ermessensentscheidungen auf Sonnet bleiben.

Sicht des Operators: Ich betreibe über 100 Agenten, und Inferenz ist ein echter Kostenposten. Aber ich habe Teams beobachtet, die „Geld sparten”, indem sie alles auf das billigste Modell zwangen, und dann die Kosten in Wiederholungen, Eskalationen und verärgerten Kunden bezahlten. Die Kostenrechnung funktioniert nur, wenn man den gesamten Funnel misst.

Das billigste Modell ist nicht das mit dem niedrigsten Preis pro Token. Es ist das mit den niedrigsten Gesamtkosten, um die Arbeit richtig zu erledigen. Das sind verschiedene Zahlen, und die Lücke zwischen ihnen ist genau dort, wo die meisten Kostenentscheidungen bei Agenten schiefgehen.

Die Token-Ökonomie, klar gesagt

Anthropic berechnet Claude pro Million Tokens, Eingabe und Ausgabe werden getrennt abgerechnet, wobei die Ausgabe ein Mehrfaches der Eingabe kostet. Die genauen Zahlen ändern sich im Laufe der Zeit, prüfen Sie also die aktuellen Preise von Anthropic — aber es ist die Struktur, die die Entscheidung treibt:

Haiku ist die billige, schnelle Stufe — mit Abstand die niedrigsten Kosten pro Token in der Familie.
Sonnet liegt in der Mitte — deutlich teurer als Haiku, deutlich billiger als Opus.
Opus ist die Premium-Stufe für das schwierigste Schlussfolgern.

Daraus folgen zwei Dinge. Erstens dominieren Ausgabe-Tokens die Kosten bei generativen Aufgaben, sodass ein wortreiches Modell selbst beim gleichen Preis pro Token mehr kostet. Zweitens ist die Preislücke pro Token zwischen Haiku und Sonnet groß genug, dass sie bei einem Schritt mit hohem Volumen absolut auf der Rechnung auftaucht. Das ist das Argument für Haiku. Jetzt das Argument dagegen.

Die Kennzahl, die wirklich zählt: Kosten pro erfolgreichem Ergebnis

Die Kosten pro Aufruf sind eine Eitelkeitszahl. Hier ist die Formel, die ich tatsächlich verwende:

code

kosten_pro_erfolg = (aufrufkosten × versuche) + nacharbeitskosten
                     ÷ erfolgsquote

Wobei versuche die Wiederholungen berücksichtigt und nacharbeitskosten die erwarteten Kosten dafür sind, dass ein Mensch die durchgerutschten Fehler behebt. Sehen Sie, was das mit dem Vergleich macht.

Angenommen, Haiku kostet ungefähr ein Zehntel von Sonnet pro Aufruf. Wenn Haiku bei einer Aufgabe in 80 % der Fälle erfolgreich ist und Sonnet in 98 %, sehen die Einsparungen pro Aufruf enorm aus. Aber wenn jeder Haiku-Fehler eine Wiederholung auslöst und 1 von 10 trotzdem einen Menschen braucht, der echtes Geld kostet, kann der Nacharbeitsterm die Token-Einsparungen verschlingen. Bei einer Aufgabe mit niedrigem Einsatz und hohem Volumen begünstigt die Rechnung Haiku überwältigend. Bei einer Aufgabe, bei der ein Fehler eine E-Mail an den falschen Kunden schickt, kann sie sich komplett umkehren.

Sie können diese Entscheidung nicht treffen, ohne die Erfolgsquote pro Modell zu messen — was genau das ist, was Ihnen ein Eval-Harness liefert. Lassen Sie denselben Eval-Satz gegen beide Modelle laufen und lesen Sie die Erfolgsquoten am selben Maßstab ab.

Wo Haiku eindeutig gewinnt

Haiku ist die richtige Wahl, wenn die Aufgabe eng, strukturiert und überprüfbar ist:

Klassifizierung und Routing — „ist diese eingehende Nachricht eine Buchung, eine Beschwerde oder Spam?” Drei Kategorien, leicht zu überprüfen, läuft ständig. Haiku den ganzen Tag.
Extraktion mit einem Schema — ein Datum, einen Namen, einen Betrag aus Text ziehen, validiert mit Zod. Wenn die Ausgabe parst, ist sie fast sicher richtig.
Kurze Umschreibungen und Formatierung — Tonanpassungen, eine bekannt gute Eingabe zusammenfassen, Daten normalisieren.
Filterung im ersten Durchgang — Haiku triagiert, und nur die mehrdeutigen Fälle werden an Sonnet eskaliert. Das ist das Muster mit dem höchsten Hebel.

Der rote Faden: Die Kosten eines Haiku-Fehlers sind niedrig und der Fehler ist billig zu erkennen. Wenn die Überprüfung billig und der Einsatz niedrig ist, gewinnt das billige Modell.

Wo Sonnet seinen Preis verdient

Sonnet (und manchmal Opus) lohnt sich, wenn die Aufgabe offen, mehrstufig oder teuer im Fehlerfall ist:

Multi-Tool-Agentenschleifen, bei denen ein falscher Tool-Aufruf eine Kaskade auslöst. Höhere Schlussfolgerungs-Zuverlässigkeit summiert sich über die Schritte — die Orchestrierungsmuster, die ich in Multi-Agenten-Orchestrierung behandle, hängen davon ab, dass das Modell nicht den Faden verliert.
Kundenseitige Generierung, bei der eine schlechte Ausgabe Vertrauen kostet, nicht nur eine Wiederholung.
Alles, wo die Überprüfung selbst schwierig ist. Wenn Sie nicht billig feststellen können, ob die Ausgabe richtig ist, können Sie sich kein Modell leisten, das häufig falsch liegt.

Ein Fehler hier kostet nicht eine Wiederholung — er kostet eine Rückerstattung, einen abgewanderten Kunden oder meine Zeit. Dagegen ist der Aufpreis pro Token ein Rundungsfehler.

Die Routing-Regel, die ich tatsächlich ausliefere

Ich wähle nicht ein Modell pro Agent. Ich route pro Aufgabe innerhalb des Agenten, meist mit einem billigen Klassifikator, der entscheidet, welches nachgelagerte Modell die Arbeit übernimmt:

typescript

function pickModel(task: Task): string {
  // Billig, überprüfbar, hohes Volumen → Haiku
  if (task.type === "classify" || task.type === "extract") {
    return "claude-haiku";
  }
  // Offen oder kundenseitig → Sonnet
  if (task.customerFacing || task.steps > 2) {
    return "claude-sonnet";
  }
  return "claude-sonnet"; // standardmäßig die sichere Wahl
}

Zwei Prinzipien sind hier kodiert. Standardmäßig das sichere Modell, nicht das billige — man optimiert die Kosten nach unten von einer funktionierenden Basis aus, niemals die Zuverlässigkeit nach oben von einer kaputten aus. Und eskalieren, nicht zocken: Lass Haiku die einfachen 80 % erledigen und übergib die schwierigen 20 % an Sonnet. Dieser Hybrid schlägt fast immer den Betrieb von allem auf einem der beiden Modelle allein.

Es gibt auch Prompt-Caching, das man obendrauf legen kann: Wenn Ihr System-Prompt groß und wiederverwendet ist, senkt Caching die Eingabekosten unabhängig von der Stufe erheblich, was Sonnet manchmal billig genug macht, dass die Haiku-Frage hinfällig wird.

Ein durchgerechnetes Beispiel aus meinem eigenen Stack

Nehmen Sie einen Triage-Schritt für eingehende Nachrichten mit hohem Volumen. Er läuft Tausende Male, die Aufgabe ist eine Drei-Wege-Klassifizierung, und ein Fehler bedeutet nur, dass das Element in einer Prüfwarteschlange landet — billig zu erkennen, niedriger Einsatz. Das ist eine Lehrbuch-Haiku-Aufgabe, und sie von Sonnet wegzunehmen senkte die Kosten dieses Schritts merklich ohne messbaren Einfluss auf das Ergebnis, das zählte.

Nehmen Sie nun den Schritt, der die eigentliche Antwort an den Kunden entwirft. Geringeres Volumen, offen, und ein schlechter Entwurf, der rausgeht, kostet Vertrauen. Der bleibt auf Sonnet. Gleicher Agent, zwei Modelle, geroutet nach Einsatz. Ich beobachte die Kosten pro Lauf und die Erfolgskennzahlen für beide, so wie ich es in wie ich messe, ob ein KI-Agent tatsächlich funktioniert beschreibe — und ich schiebe einen Schritt erst dann eine Stufe nach unten, nachdem die Eval sagt, dass das billigere Modell die Erfolgsquote hält.

FAQ

Ist Claude Haiku in der Praxis immer billiger als Sonnet?

Pro Token, ja — mit großem Abstand. Pro erfolgreichem Ergebnis, nicht immer. Wenn Haikus niedrigere Erfolgsquote Wiederholungen und menschliche Nacharbeit auslöst, können die Gesamtkosten die von Sonnet übersteigen — bei Aufgaben, wo Fehler teuer zu erkennen oder zu beheben sind.

Wie entscheide ich für eine gegebene Aufgabe zwischen Haiku und Sonnet?

Bewerten Sie die Aufgabe auf zwei Achsen: wie überprüfbar die Ausgabe ist und wie kostspielig ein Fehler ist. Billig zu überprüfende Arbeit mit niedrigem Einsatz und hohem Volumen geht an Haiku; offene, kundenseitige oder schwer zu überprüfende Arbeit geht an Sonnet. Routen Sie pro Aufgabe, nicht pro Agent.

Welche einzelne Kostenkennzahl sollte ich verfolgen?

Kosten pro erfolgreichem Ergebnis — Aufrufkosten mal Versuche plus erwartete Nacharbeitskosten, geteilt durch die Erfolgsquote. Der Preis pro Aufruf allein verbirgt Wiederholungen und menschliche Zeit, und genau dort werden billige Modelle klammheimlich teuer.

Kann ich beide Modelle in einem Agenten verwenden?

Ja, und das sollten Sie meist auch. Das stärkste Muster ist ein billiger erster Durchgang (Haiku klassifiziert oder filtert), der nur mehrdeutige Fälle an Sonnet eskaliert. Dieser Hybrid schlägt typischerweise den Betrieb von allem auf einer einzigen Stufe.

AI Agents

KI-Agenten-ROI: Wie Ich Entscheide, ob eine Automatisierung den Aufwand Wert Ist

Aktualisiert fuer 2026. Das Framework, das ich verwende, um zu entscheiden, ob eine KI-Automatisierung wirklich den Aufwand wert ist -- quantifizierte Manualkosten, Baukosten, Betriebskosten, Wartungssteuer und die Amortisationsformel, die ich anwende, bevor ich eine einzige Zeile Code schreibe.

AI Agents

Wie du dein Kleinunternehmen mit KI-Agenten automatisierst: Ein Praxis-Leitfaden

Aktualisiert für 2026. Das genaue Playbook, das ich nutze, um ein echtes Kleinunternehmen mit KI-Agenten zu automatisieren — vom 5-Dollar-Cloudflare-Stack bis zu den Aufgaben, die wirklich Ergebnisse bringen.

AI Agents

Prompt Caching mit der Claude API: Senke deine Input-Kosten, ohne das Modell zu wechseln

Wie du cache_control nutzt, um die Input-Kosten der Claude API bei Agenten mit großen, stabilen Prompts um bis zu 90 % zu senken — die Prefix-Match-Invariante, was du cachen solltest, stille Cache-Killer und die Break-even-Rechnung.

Holen Sie sich das KI-Playbook in Ihr Postfach

Jeden Mittwoch. 28.400+ Experten. Kein Füllstoff.

Kostenrechnung für KI-Agenten: Wann Haiku Sonnet schlägt (und wann nicht)

Inhaltsverzeichnis

Die Token-Ökonomie, klar gesagt

Die Kennzahl, die wirklich zählt: Kosten pro erfolgreichem Ergebnis

Wo Haiku eindeutig gewinnt

Wo Sonnet seinen Preis verdient

Die Routing-Regel, die ich tatsächlich ausliefere

Ein durchgerechnetes Beispiel aus meinem eigenen Stack

FAQ

Ist Claude Haiku in der Praxis immer billiger als Sonnet?

Wie entscheide ich für eine gegebene Aufgabe zwischen Haiku und Sonnet?

Welche einzelne Kostenkennzahl sollte ich verfolgen?

Kann ich beide Modelle in einem Agenten verwenden?

Ähnliche Beiträge

KI-Agenten-ROI: Wie Ich Entscheide, ob eine Automatisierung den Aufwand Wert Ist

Wie du dein Kleinunternehmen mit KI-Agenten automatisierst: Ein Praxis-Leitfaden

Prompt Caching mit der Claude API: Senke deine Input-Kosten, ohne das Modell zu wechseln

Holen Sie sich das KI-Playbook in Ihr Postfach