# Alejandro Rioja — DE > Alejandro Rioja — AI agent systems for founders. Plus posts on growth, marketing, sales, ops, and business from inside live P&Ls. Site: https://alejandrorioja.com/de/ Author: Alejandro Rioja Language: de --- ## Claude Fable 5 – erste Eindrücke: die Sicht eines Betreibers Source: https://alejandrorioja.com/de/claude-fable-5-first-impressions/ Published: 2026-06-12 Updated: 2026-06-12 Tags: AI Agents TL;DR: Fable 5 ist Anthropics leistungsfähigstes Modell, und das zeigt sich bei schwerer, langfristiger Agentenarbeit — aber es ist nicht das Standard-Upgrade. Es kostet mehr pro Token, nutzt einen neuen Tokenizer, der deine Token-Zahlen um ~30 % aufbläht, lässt ein dauerhaft aktives Thinking laufen, das du nicht abschalten kannst, und kann Anfragen auf Klassifikator-Ebene ablehnen. Für die meisten Workloads ist Opus 4.8 weiterhin die richtige Wahl. Greif zu Fable 5, wenn die Aufgabe wirklich schwer ist. ## Inhaltsverzeichnis _Aktualisiert im Juni 2026._ **TL;DR:** Fable 5 ist Anthropics leistungsfähigstes Modell, und das zeigt sich bei schwerer, langfristiger Agentenarbeit — aber es ist nicht das Standard-Upgrade. Es kostet mehr pro Token, nutzt einen neuen Tokenizer, der deine Token-Zahlen um ~30 % aufbläht, lässt ein dauerhaft aktives Thinking laufen, das du nicht abschalten kannst, und kann Anfragen auf Klassifikator-Ebene ablehnen. Für die meisten Workloads ist Opus 4.8 weiterhin die richtige Wahl. Greif zu Fable 5, wenn die Aufgabe wirklich schwer ist. **[Betreiber-Lektüre]** Ich betreibe über 30 produktive Agenten quer durch eine Beratungsmarke und eine Pickleball-Anlage, deshalb ist ein neues Flaggschiff-Modell für mich kein Benchmark — es ist ein Kostenposten und eine Migration. Hier ist, was sich verändert hat, als ich Fable 5 tatsächlich in ein paar von ihnen verdrahtet habe, und wo ich Opus 4.8 unangetastet gelassen habe. ## Was Fable 5 eigentlich ist [Claude](/recommends/claude) Fable 5 ist das leistungsfähigste Modell, das Anthropic breit ausgerollt hat. Es zielt auf das anspruchsvolle Ende des Spektrums: tiefes Schlussfolgern und langfristige Agentenarbeit — die Durchläufe, bei denen ein Agent über Dutzende von Tool-Aufrufen hinweg einen Plan halten muss, ohne den Faden zu verlieren. Die API-Oberfläche ist nahezu identisch mit Opus 4.7/4.8, was das Testen leicht machte. 1M-Token-Kontextfenster standardmäßig, bis zu 128K Output-Tokens pro Anfrage. Wenn du irgendetwas auf der jüngsten Opus-Linie gebaut hast, ist dir die Anfrageform vertraut. Die Unterschiede stecken im Detail, und im Detail steckt das Geld — und die Überraschungen. Eine Anmerkung zur Benennung, damit du nicht durcheinanderkommst: **Mythos 5** ist dasselbe Modell — dieselben Fähigkeiten, derselbe Preis, dasselbe Verhalten — nur verfügbar über Anthropics Project-Glasswing-Programm. Wenn du nicht in diesem Programm bist, ist das Modell, das du willst, `claude-fable-5`. Alles weiter unten gilt für beide. ## Wo es wirklich besser ist Ich habe ihm zuerst meine härteste Agentenaufgabe vorgesetzt: einen mehrstufigen Recherche-und-Synthese-Durchlauf, der einen Stapel Quellen liest, Behauptungen gegenprüft und ein belegtes Briefing schreibt. Das ist die Art von Job, bei der schwächere Modelle abdriften — etwa zehn Tool-Aufrufe weit hinein verlieren sie den Überblick, welche Behauptung aus welcher Quelle stammt. Fable 5 hielt den Faden. Die Synthese war präziser, die Belege blieben an den richtigen Behauptungen hängen, und es fing zwei Widersprüche zwischen Quellen ein, über die meine Opus-4.8-Version stillschweigend hinweggemittelt hatte. Bei langem, strukturiertem Schlussfolgern ist es ein echter Schritt nach vorn — kein marginaler Benchmark-Sprung. Das ist das ehrliche Argument dafür. Wenn der Versagensmodus deines Agenten lautet „bricht bei den schweren 10 % zusammen", verkleinert Fable 5 diese Lücke. Wenn dein Agent Newsletter zusammenfasst oder Social-Posts entwirft, wirst du den Unterschied nicht spüren — und du wirst für Leistungsfähigkeit zahlen, die du nicht nutzt. ## Die Kostenfalle, vor der dich niemand warnt Hier ist die, die dich erwischt, wenn du die Release Notes nur überfliegst. Fable 5 kommt mit einem **neuen Tokenizer**, und derselbe Inhalt tokenisiert zu rund **30 % mehr Tokens** als auf der Opus-Linie. Lies das noch einmal, denn es verstärkt sich mit dem Preis. Fable 5 ist von vornherein oberhalb der Opus-Stufe bepreist (10 $ pro Million Input-Tokens, 50 $ pro Million Output). Leg nun auf jedes Prompt und jede Completion eine Token-Inflation von ~30 % obendrauf. Ein unveränderter Workload — dieselben Prompts, dieselben Outputs — kann nach der Migration deutlich mehr kosten, bevor du auch nur eine Kleinigkeit daran geändert hast, was der Agent tut. Verwende also nicht deine alten Zahlen wieder. Deine `max_tokens`-Einstellungen, deine Kontextfenster-Budgets, deine Kosten-pro-Durchlauf-Schätzungen — sie alle wurden auf einem anderen Tokenizer gemessen. Die gute Nachricht: Der Token-Counting-Endpunkt liefert Zählungen unter **beiden** Tokenizern zurück, wenn du `model: "claude-fable-5"` übergibst, sodass du den Unterschied an deinen tatsächlichen Prompts messen kannst, bevor du irgendetwas umstellst. ```bash # Measure the tokenizer delta on YOUR prompt before migrating. # The response includes input_tokens (new) AND input_tokens_prior_tokenizer (old). curl https://api.anthropic.com/v1/messages/count_tokens \ -H "x-api-key: $ANTHROPIC_API_KEY" \ -H "anthropic-version: 2023-06-01" \ -H "content-type: application/json" \ -d '{ "model": "claude-fable-5", "messages": [{"role":"user","content":""}] }' ``` Ich habe das zuerst über meine schwersten Prompts laufen lassen. Der Unterschied war nicht gleichmäßig — er variiert je nach Inhalt — aber „kalkuliere mit ~30 % mehr, dann rechne den Preisaufschlag dazu" war das richtige Denkmodell. ## Thinking ist immer an — und du kannst es nicht abschalten Bei Fable 5 läuft adaptives Thinking permanent. Die eine neue Breaking Change gegenüber der Opus-Linie: Wenn du ein explizites `thinking: {type: "disabled"}` sendest, bekommst du einen 400. Die Lösung ist simpel — lass den `thinking`-Parameter einfach komplett weg — aber wenn du Code hattest, der Thinking für billige, schnelle Aufrufe explizit deaktiviert hat, wirft dieser Code jetzt einen Fehler. Du bekommst außerdem die rohe Gedankenkette nicht zurück. Fable 5 schützt sie: Du erhältst normale `thinking`-Blöcke und kannst mit `display: "summarized"` eine lesbare Zusammenfassung anfordern, aber das ungefilterte Schlussfolgern wird nie offengelegt. Für die meisten Apps ist das kein Thema — lies die Zusammenfassung, wenn du Einblick brauchst. Wo es darauf ankommt, sind **mehrstufige Agenten**: Wenn du ein Gespräch auf demselben Modell fortsetzt, musst du die Thinking-Blöcke **unverändert** zurückgeben. Lässt du sie weg oder bearbeitest sie, bricht der Zug. Wenn du Agenten-Loops baust, behandle Thinking-Blöcke als undurchsichtige Tokens, die du wortwörtlich weiterträgst. ## Ablehnungen sind jetzt ein Control-Flow-Problem Das ist die Änderung, die am stärksten beeinflusst, wie du den Code rund um das Modell schreibst. Fable 5 lässt Sicherheitsklassifikatoren auf eingehende Anfragen laufen, vor allem auf Forschungsbiologie und den Großteil von Cybersecurity-Inhalten. Wenn eine Anfrage abgelehnt wird, bekommst du ein **erfolgreiches HTTP 200** mit `stop_reason: "refusal"` — keinen Fehler, keine Exception. Das `content`-Array kann leer sein. Wenn dein Code `response.content[0].text` ausführt, ohne vorher `stop_reason` zu prüfen, stürzt er an dem Tag ab, an dem eine Anfrage abgelehnt wird. Und harmlose angrenzende Arbeit — legitime Security-Tools, Aufgaben aus den Life Sciences — kann gelegentlich einen False Positive auslösen, also ist das nicht nur ein Problem für Leute, die zwielichtige Dinge tun. Die Regel lautet: **verzweige auf `stop_reason`, niemals auf `stop_details`.** ```typescript const res = await client.messages.create({ model: "claude-fable-5", max_tokens: 1024, messages, }); if (res.stop_reason === "refusal") { // classifiers declined — content is empty or partial. Don't read content[0]. await handleRefusal(res); } else { console.log(res.content[0].text); } ``` Für die Produktion gibt es einen saubereren Weg: einen serverseitigen `fallbacks`-Parameter (in der Beta), der eine abgelehnte Anfrage im selben Round-Trip automatisch auf `claude-opus-4-8` erneut versucht, mit einer gutschriftartigen Neuberechnung des Preises. Wenn du Agenten unbeaufsichtigt laufen lässt, verdrahte das, damit eine einzige False-Positive-Ablehnung nicht einen ganzen Durchlauf in eine Sackgasse führt. Das ist dieselbe Lektion, die ich über Agenten immer wieder neu lerne, die [in der Produktion ständig scheitern](/blog/why-your-ai-agent-keeps-failing-in-production-and-how-to-fix-it): Dass das Modell schlauer wird, beseitigt nicht die Notwendigkeit, seine Randfälle zu behandeln — es verschiebt die Randfälle nur. ## Zwei weitere Migrationsdetails Ein paar kleinere Dinge, die mich Zeit gekostet haben, damit sie dich nicht deine kosten: - **Kein Assistant-Prefill.** Wenn du den Output gesteuert hast, indem du den letzten Assistant-Zug vorbefüllt hast, ist dieses Muster weg. Nutze stattdessen strukturierte Outputs (`output_config.format`) oder Anweisungen im System-Prompt. - **30 Tage Datenaufbewahrung sind Pflicht.** Fable 5 ist nicht unter Zero-Data-Retention verfügbar. Wenn du aus Compliance-Gründen auf ZDR bist, ist Fable 5 vom Tisch, und Opus 4.8 bleibt deine Obergrenze. Prüf das *bevor* du eine Migration planst, nicht danach. ## Solltest du wirklich wechseln? Hier ist meine Betreiber-Einschätzung, nachdem ich damit gelebt habe. **Fable 5 ist nicht das Standardziel für „auf das neueste Modell upgraden" — das ist Opus 4.8.** Das überrascht Leute, aber es ist die richtige Einordnung. Opus 4.8 ist ein Modell-ID-Tausch gegenüber 4.7 ohne neue Breaking Changes, es ist günstiger, und für die überwältigende Mehrheit der Agentenarbeit ist es in der Output-Qualität nicht zu unterscheiden. Fable 5 verdient seinen Platz bei den wirklich schweren Aufgaben: langfristige Agenten, die über viele Schritte hinweg kohärent bleiben müssen, tiefes Schlussfolgern über mehrere Quellen, die Durchläufe, bei denen das Versagen, das du auszumerzen versuchst, subtil ist. Dafür ist die Leistungsfähigkeit real und den Aufpreis wert. Für alles andere — Content-Entwürfe, Klassifikation, Routing, Zusammenfassung — zahlst du mehr Tokens zu einem höheren Preis für Qualität, die du nicht wahrnehmen kannst. Ich bin am Ende dabei gelandet, beide zu betreiben. Mein Recherche-und-Synthese-Agent zog zu Fable 5 um. Alles andere blieb auf Opus 4.8. Genau dieser Split ist der ganze Punkt: Wähle das Modell pro Job, nicht pro Mode. Wenn du eine Flotte von Agenten betreibst, gilt dieselbe Disziplin, über die ich in [meinem Betreiber-Stack 2026](/blog/the-5-ai-tools-i-actually-use-to-run-my-business-2026-operator-stack) geschrieben habe — leite die schwere Arbeit zum teuren Modell und hör auf, für die leichte Arbeit zu viel zu zahlen. ## Das Fazit des Betreibers Teste Fable 5 an deiner einzigen schwersten Aufgabe, bevor du irgendetwas anderes anfasst — dort zahlt es sich aus, und wenn es dort nichts bewegt, dann nirgends. Lass den Token-Counter gegen deine echten Prompts laufen, damit dich die ~30-%-Tokenizer-Inflation und der Preisaufschlag nicht auf der Rechnung überraschen. Füge überall dort, wo Fable 5 die Produktion berührt, eine `stop_reason: "refusal"`-Prüfung hinzu (oder den serverseitigen Fallback auf Opus 4.8). Und dann route bewusst: Fable 5 für die schweren 10 %, Opus 4.8 für den Rest. Das beste Modell ist nicht das leistungsfähigste — es ist das, das zur Aufgabe passt. --- ## Der ultimative Einsteigerleitfaden zu KI-Agenten: Cowork, Codex und die Tools, die die Arbeit wirklich erledigen Source: https://alejandrorioja.com/de/ai-agents-for-beginners-cowork-codex-guide/ Published: 2026-06-11 Updated: 2026-06-11 Tags: Productivity, AI TL;DR: KI-Agenten sind der Schritt über Chatbots hinaus: Du gibst ihnen ein Ziel auf Deutsch und sie erledigen die Arbeit – Dateien lesen, entwerfen, organisieren, Code schreiben und ausführen. Cowork ist die einsteigerfreundliche No-Code-Rampe; Codex und Claude Code sind für alle, die mit einer Codebasis arbeiten. Die entscheidende Fähigkeit ist eine klare, klar abgegrenzte Anweisung – kein Programmieren. ## Table of contents _Aktualisiert Juni 2026._ **TL;DR:** KI-Agenten sind der Schritt über Chatbots hinaus: Du gibst ihnen ein Ziel in einfacher Sprache und sie erledigen die Arbeit – Dateien lesen, entwerfen, organisieren, Code schreiben und ausführen und ihre eigenen Ergebnisse prüfen. **Cowork** ist die No-Code-Einstiegsrampe für Nicht-Techniker; **Codex** und **Claude Code** sind für alle, die mit einer Codebasis arbeiten. Die einzige Fähigkeit, auf die es ankommt, ist das Schreiben einer klaren, klar abgegrenzten Anweisung – nicht das Programmierenlernen. **[Anmerkung des Autors]** Ich verwalte täglich mehr als 30 codierte Agenten, aber die meisten Menschen brauchen keinen Code, um 80 % des Mehrwerts zu erzielen. Sie brauchen eine klare Anweisung und einen Ort, um sie auszuführen. Dieser Leitfaden ist der Einstieg, den ich einem klugen Freund geben würde, der noch nie eine Zeile Code geschrieben hat. ## Was ein „KI-Agent" wirklich ist Ein Chatbot beantwortet eine Frage. Ein **Agent** erledigt eine Aufgabe. Der Unterschied besteht darin, dass ein Agent Aktionen in einer Schleife ausführen kann – ein Dokument lesen, entscheiden was als nächstes zu tun ist, eine Datei schreiben, einen Befehl ausführen, das Ergebnis prüfen, reparieren was kaputt ist – ohne dass du jeden Schritt steuern musst. Konkret: Du fragst nicht „Wie bereinige ich diese Tabelle?" Du sagst „Hier ist die Tabelle – entferne Duplikate, korrigiere die Datumsformate und markiere Zeilen mit fehlenden E-Mail-Adressen", und der Agent erledigt es und übergibt dir die bereinigte Datei. Diese Verschiebung – von *Ratschlag* zu *erledigter Arbeit* – ist der gesamte Sinn. ## Die zwei Werkzeugfamilien Es gibt zwei Türen in diese Welt, und du brauchst nur die, die zu deiner Arbeit passt. ### Tür 1: No-Code-Agenten (hier anfangen, wenn du nicht programmierst) **Claude Cowork** ist ein Arbeitsbereich, in dem du Claude ein Ziel plus die Materialien gibst – Dateien, Links, Notizen – und es produziert das Ergebnis, das du prüfst und nutzt: einen Entwurf, eine Zusammenfassung, einen Plan, eine bereinigte Tabelle. Du schreibst Anweisungen, keinen Code. Denke an „einen sehr fähigen Assistenten, der schnell liest und nie müde wird", nicht an „ein Programmierwerkzeug". Dies ist der richtige Ausgangspunkt für Marketer, Gründer, Operatoren, Autoren, Analysten – alle, deren Arbeit hauptsächlich Dokumente, Recherche und Entscheidungen umfasst. ### Tür 2: Coding-Agenten (diese verwenden, sobald eine Codebasis involviert ist) **OpenAI Codex** und **Claude Code** sind Agenten, die dort leben, wo Software entwickelt wird – ein Terminal, eine IDE oder die Cloud. Du beschreibst eine Änderung („füge einen Dunkelmodus-Schalter hinzu", „behebe diesen fehlschlagenden Test", „migriere diese Datei zur neuen API") und der Agent bearbeitet den Code, führt ihn aus und iteriert, bis er funktioniert. Du prüfst weiterhin alles; der Agent macht das Tippen. Du musst kein Senior-Ingenieur sein, um diese zu nutzen. Viele Nicht-Entwickler verwenden Coding-Agenten, um kleine Websites zu starten, Tabellen als Skripte zu automatisieren und Fehler in Tools zu beheben, die sie nicht geschrieben haben. Aber es gibt eine echte Lernkurve, daher sind die meisten Einsteiger gut bedient, wenn sie bei Tür 1 anfangen und Tür 2 durchschreiten, sobald sie auf eine Aufgabe stoßen, die wirklich Code erfordert. ## Dein erster Erfolg (mach das heute) Wähle eine kleine, lästige Aufgabe, die du oft erledigst. Gute erste Kandidaten: - Ein unordentliches Besprechungsprotokoll in saubere Notizen plus eine Aktionspunkte-Liste umwandeln. - Ein langes PDF in 5 Stichpunkte und 3 lohnenswerte Fragen zusammenfassen. - Eine holprige E-Mail so umschreiben, dass sie klar, freundlich und unter 120 Wörtern ist. Verwende dann die Struktur, die Agenten zuverlässig statt unvorhersehbar macht – **Rolle → Eingabe → genaue Anweisung → Einschränkung → eine Prüfung**: > Du bist mein Assistent. Hier ist ein [Besprechungsprotokoll / PDF / E-Mail-Entwurf] unten eingefügt. Mach Folgendes: [wandle es in saubere Notizen mit einer fetten „Aktionspunkte"-Liste um / fasse es in 5 Stichpunkten + 3 Folgefragen zusammen / schreibe es so um, dass es klar, freundlich und unter 120 Wörtern ist]. Behalte meinen Stil. Stelle mir eine Frage, wenn etwas unklar ist, bevor du anfängst. > > [füge deinen Inhalt hier ein] Das war's. Du hast gerade eine Aufgabe delegiert. Die Struktur ist das gesamte Spiel – und sie funktioniert identisch in Cowork, ChatGPT oder einem Coding-Agenten. ## Der vierteilige Prompt, der Agenten zuverlässig macht Einsteiger denken, das Geheimnis sei eine Zauberformel. Das stimmt nicht. Es ist Präzision. Jede zuverlässige Agentenanweisung hat vier Teile: 1. **Rolle** – wer der Agent für diese Aufgabe ist („Du bist mein Recherche-Assistent"). 2. **Kontext** – die Materialien und das *Warum* („Ich bereite mich auf ein Verkaufsgespräch mit einem Fintech-Gründer vor"). 3. **Aufgabe** – die genaue, abgegrenzte Aktion („Finde drei aktuelle Fakten zu Finanzierungsrunden und formuliere zwei Einstiegsfragen"). 4. **Einschränkungen + eine Prüfung** – Format, Länge, Ton und eine Anweisung, zu fragen statt zu raten („Nur Stichpunkte, Quellen angeben, stelle mir eine Rückfrage wenn das Unternehmen mehrdeutig ist"). Vage rein, vage raus. Je mehr ein Agent *tun* kann, desto mehr zählt deine Klarheit – ein Chatbot, der falsch versteht, verschwendet einen Satz; ein Agent, der falsch versteht, verschwendet einen Nachmittag Arbeit, den du rückgängig machen musst. ## Anfängerfehler, die du überspringen solltest - **Ihn wie eine Suchmaschine behandeln.** Stelle keine einzeiligen Fragen. Gib ihm echte Arbeit mit echten Dateien. - **Die Einschränkung weglassen.** „Schreib mir einen Plan" liefert dir eine Textwand. „Schreib mir einen einseitigen Plan mit drei Phasen und einem Verantwortlichen pro Aufgabe" liefert dir etwas Brauchbares. - **Keine Prüfung verlangen.** Füge „stelle mir eine Frage, wenn etwas unklar ist" hinzu und du erkennst Missverständnisse *bevor* der Agent losläuft, nicht danach. - **Coding-Agenten unbeaufsichtigt auf wichtigem Code laufen lassen.** Überprüfe den Diff. Agenten sind schnell und meistens richtig, aber „meistens" leistet Arbeit in diesem Satz – halte einen Menschen in der Schleife bei allem, was ausgeliefert wird. - **Zu früh zu Tür 2 springen.** Wenn deine Aufgabe Dokumente und Entscheidungen betrifft, musst du nie ein Terminal öffnen. ## Wie du dein erstes Tool wählst - **Deine Arbeit sind Dokumente, Recherche und Texte** → fange mit **Cowork** an (oder dem Chat-Produkt, das du schon bezahlst, im Agentenmodus genutzt). - **Du möchtest Software bauen oder reparieren** → **Claude Code** oder **OpenAI Codex**. - **Du möchtest wiederkehrende, autonome Arbeit** (ein tägliches Digest, ein wöchentlicher Bericht) → steige auf **[geplante Aufgaben](https://alejandrorioja.com/how-to-use-claude-scheduled-tasks/)** um, sobald du den Prompt manuell gemeistert hast. ## KI-Agenten für Einsteiger — FAQ 2026 ### Muss ich programmieren können, um KI-Agenten zu nutzen? Nein. No-Code-Agenten wie Claude Cowork sind für nicht-technische Nutzer entwickelt – du schreibst Anweisungen in einfacher Sprache. Coding-Agenten wie Codex und Claude Code haben eine Lernkurve, aber selbst diese werden zunehmend von Menschen genutzt, die sich nicht als Programmierer betrachten. Fange ohne Code an, wechsle zu Code nur wenn eine Aufgabe es erfordert. ### Was ist der Unterschied zwischen einem Chatbot und einem KI-Agenten? Ein Chatbot beantwortet Fragen; ein Agent erledigt Aufgaben. Der Agent kann eine Abfolge von Aktionen ausführen – lesen, entscheiden, handeln, prüfen, korrigieren – in einer Schleife, die erledigte Arbeit statt Ratschläge produziert. In der Praxis macht dasselbe Produkt oft beides; der „Agentenmodus" ist das Agentenverhalten. ### Ist Cowork besser als Codex? Sie sind für verschiedene Aufgaben gedacht, nicht besser oder schlechter. Cowork ist ein No-Code-Arbeitsbereich für Dokumente, Recherche und Betrieb. Codex (und Claude Code) sind Coding-Agenten zum Entwickeln und Reparieren von Software. Wähle den, der zu deiner Aufgabe passt. ### Wie erhalte ich gute Ergebnisse von einem KI-Agenten? Präzision. Verwende die vierteilige Struktur: Rolle, Kontext, genaue Aufgabe und Einschränkungen plus eine Prüfung. Gib ihm echte Materialien, teile ihm das gewünschte Format mit und bitte ihn, Unklarheiten zu melden, bevor er anfängt. Klare Anweisungen sind wichtiger als irgendein „Zauberprompt". ### Ist es sicher, KI-Agenten allein laufen zu lassen? Bei risikoarmen, umkehrbaren Aufgaben (Entwerfen, Zusammenfassen, Organisieren) ja – überprüfe die Ausgabe und mach weiter. Bei allem, was echte Systeme verändert (Code ausliefern, Nachrichten senden, Daten löschen), halte einen Menschen in der Schleife und überprüfe, bevor es handelt. Umkehrbarkeit ist der richtige Test: Je leichter etwas rückgängig zu machen ist, desto mehr Autonomie kann es sicher haben. **Weiterführende Lektüre:** [Wie man in ChatGPT-Antworten zitiert wird](https://alejandrorioja.com/how-to-get-cited-in-chatgpt-answers/) · [Das llms.txt-Handbuch](https://alejandrorioja.com/llms-txt-playbook/) · [Wie man geplante Claude-Aufgaben nutzt](https://alejandrorioja.com/how-to-use-claude-scheduled-tasks/) --- **Möchtest du Hilfe dabei, Agenten in deinem Unternehmen einzusetzen?** Ich entwickle KI-Agentensysteme für Operator-Teams — [melde dich](https://alejandrorioja.com/contact/) oder lies mehr darüber, [wie ich darüber denke](https://alejandrorioja.com/seo-tips/). --- ## Wie verdient Anthropic Geld? Das Geschäftsmodell von Claude erklärt Source: https://alejandrorioja.com/de/how-does-anthropic-make-money/ Published: 2026-06-11 Updated: 2026-06-11 Tags: Business, AI TL;DR: Anthropic verkauft den Zugang zu seinen Claude-KI-Modellen über fünf Hauptkanäle: eine nutzungsbasierte API (Zahlung pro Token), Verbraucherabonnements (Claude Pro und Max), Unternehmenspläne (Team- und Enterprise-Lizenzen), Claude Code für Entwickler sowie den Vertrieb über Cloud-Marktplätze wie Amazon Bedrock und Google Vertex. Die API und das Unternehmensgeschäft – nicht die Verbraucher-App – sind die stärksten Umsatztreiber. ## Table of contents _Aktualisiert Juni 2026._ **TL;DR:** Anthropic verkauft den Zugang zu seinen Claude-KI-Modellen über fünf Hauptkanäle: eine **nutzungsbasierte API** (Zahlung pro Token), **Verbraucherabonnements** (Claude Pro und Max), **Unternehmenspläne** (Team- und Enterprise-Lizenzen), **Claude Code** für Entwickler sowie den **Vertrieb über Cloud-Marktplätze** wie Amazon Bedrock und Google Vertex AI. Die API und das Unternehmensgeschäft – nicht die Verbraucher-Chat-App – sind die stärksten Umsatztreiber. **[Hinweis des Betreibers]** Ich entwickle täglich auf der API von Anthropic, daher sehe ich das Geschäft von innen. Das Wichtigste: Anthropic ist ein B2B-Unternehmen mit einer Verbraucherfront. Die Chat-App, die Sie nutzen, ist Marketing und eine Umsatzlinie; das eigentliche Geld liegt bei Entwicklern und Unternehmen, die Token über die API messen und im großen Maßstab für Lizenzen zahlen. ## Was ist Anthropic Anthropic ist ein KI-Sicherheits- und Forschungsunternehmen, gegründet 2021, das die **Claude**-Familie großer Sprachmodelle entwickelt. Es verkauft diese Modelle – und die dazugehörigen Tools – an Verbraucher, Entwickler und Unternehmen. Es ist ein privates Unternehmen, stark unterstützt von strategischen Investoren wie Amazon und Google, die beide auch als Cloud- und Vertriebspartner fungieren. Das Produkt ist Intelligence-as-a-Service: Sie kaufen keine Software in einer Box, sondern mieten den Zugang zu einem Modell, das in Ihrem Namen liest, schreibt, denkt und handelt. Jeder der folgenden Kanäle ist eine andere Verpackung rund um dasselbe Kernangebot. ## Wie verdient Anthropic Geld? ### 1. Die API (nutzungsbasiert, der Kernmotor) Das Fundament des Geschäfts. Entwickler und Unternehmen rufen Claude über eine API auf und zahlen **pro Token** – grob gesagt pro Textbaustein ein- und ausgegeben. Die Preisgestaltung skaliert mit der Modellfähigkeit: - **Claude Opus** (die leistungsstärkste Stufe) wird am höchsten berechnet – in der Größenordnung von einigen Dollar pro Million Eingabe-Token und dem Mehrfachen davon für die Ausgabe. - **Claude Sonnet** (das ausgewogene Arbeitspferd) liegt in der Mitte. - **Claude Haiku** (die schnelle, günstige Stufe) ist am günstigsten, für einfache Aufgaben mit hohem Volumen. Ausgabe-Token kosten mehr als Eingabe-Token, und Funktionen wie langer Kontext, Prompt-Caching und Stapelverarbeitung haben ihre eigene Preisgestaltung. Die entscheidende Dynamik: **Der Umsatz skaliert direkt mit der Nutzung**. Ein Startup, das Claude in sein Produkt integriert und auf Millionen von Nutzern anwächst, generiert jeden Monat mehr API-Umsatz, ohne dass Anthropic einen neuen Vertrag unterzeichnen muss. Dieses nutzungsbasierte Modell erklärt, warum KI-Labore von so schnell wachsenden „Laufumsätzen" sprechen – sie multiplizieren sich mit dem Wachstum der eigenen Kunden. ### 2. Verbraucherabonnements (Claude Pro und Max) Die Claude-Apps (Web, Desktop, Mobil) sind kostenlos ausprobierbar, mit kostenpflichtigen Stufen für Intensivnutzer: - **Claude Pro** – eine monatliche Pauschale für höhere Nutzungslimits, Zugang zu den besten Modellen und Funktionen wie größerem Kontext und priorisiertem Zugang. - **Claude Max** – eine teurere Stufe für Power-User, die an die Grenzen von Pro stoßen, mit deutlich mehr Nutzungsspielraum. Dies ist der sichtbarste Teil von Anthropic, aber für ein Unternehmen, dessen Kunden hauptsächlich andere Unternehmen sind, macht er einen kleineren Anteil aus als die API- und Enterprise-Linien. Sein strategischer Wert liegt ebenso sehr im Trichter und der Markenpräsenz wie in einer Einnahmequelle. ### 3. Enterprise (Team- und Enterprise-Lizenzen) Hier liegt ein Großteil des dauerhaften Geldes. Unternehmen kaufen Claude für ihre Mitarbeiter auf **Lizenz-pro-Nutzer-Basis**, mit Plänen für Organisationen: - **Team** – für kleinere Unternehmen: gebündelter Einsatz, zentralisierte Abrechnung, Kollaborationsfunktionen. - **Enterprise** – für große Organisationen: höhere Sicherheit und Compliance, Single Sign-on, größere Kontextfenster, Administratorkontrollen und Nutzungsgarantien. Enterprise-Verträge sind wiederkehrend, wachsen im Laufe der Zeit (mehr Lizenzen, mehr Nutzung) und bringen die Art von Wechselkosten mit sich, die Umsätze stabil machen. Das ist die klassische SaaS-Bewegung, die auf das Modell aufgesetzt wird. ### 4. Claude Code (Entwickler-Tools) **Claude Code** ist Anthropics agentisches Coding-Tool – ein Agent, der Code in Ihrem Terminal, Ihrer IDE oder der Cloud schreibt, bearbeitet und ausführt. Es wird über dieselben Abonnement- und Nutzungsschienen monetarisiert (es ist in den Pro-/Max-/Team-/Enterprise-Stufen enthalten und wird gegen Ihren Plan gerechnet). Strategisch erfüllt es zwei Aufgaben: Es ist eine eigenständige Umsatzlinie und treibt viel hochwertigen Token-Verbrauch an, da Coding-Agenten eine erhebliche Menge an Modellkapazität verbrauchen. ### 5. Cloud-Marktplatz-Vertrieb (AWS, Google und weitere) Anthropic verkauft Claude nicht nur direkt – es vertreibt auch über die großen Cloud-Plattformen: - **Amazon Bedrock** und **Claude Platform on AWS** – Kunden, die bereits AWS nutzen, greifen über Amazons Infrastruktur und Abrechnung auf Claude zu. - **Google Vertex AI** und **Microsoft Foundry** – dasselbe Konzept auf Google Cloud und Microsofts Plattform. Diese Kanäle erreichen Unternehmen dort, wo ihre Cloud-Ausgaben und Beschaffungsprozesse bereits angesiedelt sind, was die Hürde für die Einführung von Claude senkt. Der Umsatz wird mit der Plattform geteilt, aber die Reichweite ist enorm – und die tiefen Investitionen von Amazon und Google machen diese Partnerschaften strategisch, nicht nur kommerziell. ### 6. Die aufkommende Agentenplattform Zunehmend verkauft Anthropic nicht nur reine Modellaufrufe, sondern **Agenteninfrastruktur** – verwaltete Dienste, bei denen Anthropic die Agentenschleife betreibt und die Umgebung hostet, in der Agenten Aufgaben ausführen. Je mehr Kunden von „dem Modell eine Frage stellen" zu „einen Agenten die Arbeit erledigen lassen" übergehen, desto mehr wird diese übergeordnete Schicht zu einem neuen Ort, um zusätzlich zum Per-Token-Kern Wert abzuschöpfen. ## Ist Anthropic profitabel? Anthropic ist privat und veröffentlicht keine geprüften Finanzberichte, aber das öffentliche Bild ist dasselbe wie bei seinen Wettbewerbern: **Der Umsatz wächst extrem schnell**, während das Unternehmen enorme Summen für Rechenleistung (Training und Betrieb von Modellen) und Forschungstalente ausgibt. Wie andere Frontier-KI-Labore befindet es sich in einer intensiven Investitionsphase, in der Umsatzwachstum, nicht aktueller Gewinn, die Schlagzeile ist. Die Wette, die Investoren eingehen, lautet, dass nutzungsbasierte Umsätze weiter wachsen, da KI in immer mehr Software eingebettet wird und schließlich die Rechenkosten übersteigt. ### Wie vergleicht sich das mit OpenAI Die Strukturen sind ähnlich – beide monetarisieren über Verbraucherabonnements, eine nutzungsbasierte API, Enterprise-Lizenzen und Entwicklertools. Die Unterschiede liegen in der Gewichtung und den Partnerschaften: Anthropic setzt stark auf die Entwickler-/Enterprise-API und wird von Amazon und Google unterstützt; OpenAI hat eine größere Verbraucherpräsenz und eine tiefe Microsoft-Partnerschaft. Wenn Sie die andere Seite des Vergleichs sehen möchten, lesen Sie [wie OpenAI Geld verdient](https://alejandrorioja.com/how-does-openai-make-money/). ## Anthropic-Umsatzmodell — FAQ 2026 ### Was ist Anthropics wichtigste Einnahmequelle? Die **nutzungsbasierte API** und **Enterprise-Verträge** sind die stärksten Treiber. Entwickler und Unternehmen zahlen pro Token für den Aufruf von Claude, und Organisationen kaufen Pro-Nutzer-Pläne für ihre Teams. Das Claude-Verbraucherabonnement ist das sichtbarste Produkt, macht aber einen kleineren Anteil am Umsatz aus als die Unternehmenslinien. ### Wie funktioniert die Preisgestaltung der Claude-API? Sie zahlen pro Token – Eingabe und Ausgabe gemessen in Textbausteinen. Leistungsfähigere Modelle (Opus) kosten mehr pro Token als ausgewogene (Sonnet) oder schnelle (Haiku) Modelle, und Ausgabe-Token kosten mehr als Eingabe-Token. Funktionen wie langer Kontext, Prompt-Caching und Stapelverarbeitung haben ihre eigene Preisgestaltung. Der Umsatz skaliert direkt mit der Modellnutzung der Kunden. ### Ist Anthropic börsennotiert? Nein. Anthropic ist ein privates Unternehmen, das von strategischen und Risikokapitalinvestoren, darunter Amazon und Google, unterstützt wird. Seine Anteile sind nicht an öffentlichen Börsen verfügbar, und es gibt keinen bestätigten Börsengang. ### Verdient Anthropic Geld mit der kostenlosen Claude-App? Nicht direkt von kostenlosen Nutzern – die kostenlose Stufe ist ein Trichter. Geld fließt, wenn kostenlose Nutzer auf **Pro** oder **Max** upgraden, wenn Teams **Enterprise-Lizenzen** kaufen und insbesondere wenn Entwickler auf der **API** aufbauen. Die Aufgabe der kostenlosen App ist Reichweite und Marke; die kostenpflichtigen Stufen und die API sind der Bereich, in dem konvertiert wird. ### Wer sind Anthropics größte Kunden? Hauptsächlich andere Unternehmen: Softwareunternehmen, die Claude über die API in ihre Produkte integrieren, und Konzerne, die Claude für ihre Mitarbeiter ausrollen. Der Cloud-Marktplatz-Vertrieb über AWS, Google und Microsoft zieht auch große Unternehmenskunden an, die über ihre bestehenden Cloud-Anbieter kaufen. **Weiterführende Lektüre:** [Wie verdient OpenAI Geld](https://alejandrorioja.com/how-does-openai-make-money/) · [Der Einsteigerleitfaden zu KI-Agenten](https://alejandrorioja.com/ai-agents-for-beginners-cowork-codex-guide/) · [So werden Sie in ChatGPT-Antworten zitiert](https://alejandrorioja.com/how-to-get-cited-in-chatgpt-answers/) --- ## Die Kurzversion Anthropic vermietet den Zugang zu seinen Claude-Modellen. Entwickler zahlen pro Token über die API, Verbraucher zahlen monatlich für Pro und Max, Unternehmen zahlen pro Lizenz für Team und Enterprise, Ingenieure nutzen Claude Code in denselben Plänen, und die Cloud-Riesen (AWS, Google, Microsoft) verkaufen Claude über ihre Marktplätze weiter an Unternehmen. Es ist ein B2B-Geschäft mit einer Verbraucherfront – und der Zähler, nicht die Chat-App, ist der Ort, wo das Geld liegt. --- ## Wie verdient OpenAI Geld? Das Geschäftsmodell von ChatGPT und der API Source: https://alejandrorioja.com/de/how-does-openai-make-money/ Published: 2026-06-11 Updated: 2026-06-11 Tags: Business, AI TL;DR: OpenAI verdient auf vier Hauptwegen Geld: ChatGPT-Abonnements (Plus, Pro, Team, Enterprise, Edu), eine nutzungsbasierte API, bei der Entwickler pro Token zahlen, große Unternehmensverträge und die Microsoft-Partnerschaft (Vertrieb plus Umsatzbeteiligung). Anders als die meisten KI-Labore ist das Verbraucherabonnementgeschäft von OpenAI seine größte Einnahmequelle – die Reichweite von ChatGPT ist der Motor. ## Table of contents _Aktualisiert im Juni 2026._ **TL;DR:** OpenAI verdient auf vier Hauptwegen Geld: **ChatGPT-Abonnements** (Plus, Pro, Team, Enterprise, Edu), eine **nutzungsbasierte API**, bei der Entwickler pro Token zahlen, große **Unternehmensverträge** und seine **Microsoft-Partnerschaft** (Vertrieb plus Umsatzbeteiligung). Anders als die meisten KI-Labore ist das Verbraucherabonnementgeschäft von OpenAI seine größte Einnahmequelle – die enorme Reichweite von ChatGPT ist der Motor. **[Einschätzung für Operatoren]** OpenAI ist das Gegenteil eines typischen KI-Unternehmens im Unternehmensbereich: Es hat zuerst ein Verbraucherphänomen aufgebaut und danach ein Entwickler- und Unternehmensgeschäft. Die Hunderte von Millionen ChatGPT-Nutzer sind sowohl die Marke als auch die Einnahmenmaschine. Alle anderen in diesem Bereich wünschen sich einen solchen Zulauf am oberen Ende des Trichters. ## Was ist OpenAI? OpenAI ist das KI-Forschungsunternehmen hinter **ChatGPT** und der **GPT**-Modellfamilie sowie Produkten wie dem Videomodell Sora, der Bildgenerierung und dem Programmiersystem Codex. 2015 gegründet, erlangte es breite Bekanntheit, als ChatGPT Ende 2022 auf den Markt kam und zu einem der am schnellsten wachsenden Verbraucherprodukte der Geschichte wurde. Die Struktur ist ungewöhnlich: Es begann als gemeinnützige Organisation und baute einen gewinnorientierten Arm mit Gewinnbeschränkung auf, um das enorme Kapital zu beschaffen, das das Training von Frontier-Modellen erfordert. Es ist nicht börsennotiert und unterhält eine tiefgehende, mehrjährige Partnerschaft mit **Microsoft**, die Rechenkapazität, Vertrieb und Kapital bereitstellt. Das Produkt ist, wie bei jedem KI-Labor, Intelligenz als Dienstleistung – verkauft über Verbraucher-, Entwickler- und Unternehmenskanäle. ## Wie verdient OpenAI Geld? ### 1. ChatGPT-Abonnements (die größte Einnahmequelle) Das ist es, was OpenAI von seinen Mitbewerbern unterscheidet. ChatGPT ist kostenlos nutzbar, mit kostenpflichtigen Stufen, die einen Teil seiner riesigen Nutzerbasis in wiederkehrende Einnahmen umwandeln: - **ChatGPT Plus** – eine monatliche Pauschale für Zugang zu den besten Modellen, höheren Limits und Premium-Funktionen. Die Massenmarktstufe. - **ChatGPT Pro** – eine höherpreisige Stufe für Power-User, die maximale Nutzung und die leistungsfähigsten Modelleinstellungen wünschen. - **ChatGPT Team** – Pläne pro Arbeitsplatz für kleine Unternehmen, mit gemeinsamen Arbeitsbereichen und Verwaltungstools. - **ChatGPT Enterprise** – für große Organisationen: erweiterte Sicherheit, Compliance, SSO, größerer Kontext und Nutzungsgarantien. - **ChatGPT Edu** – eine auf Universitäten und Schulen zugeschnittene Version. Da ChatGPT Hunderte von Millionen wöchentlicher Nutzer erreicht, ergibt selbst eine niedrige einstellige Konversionsrate zu kostenpflichtigen Plänen ein gewaltiges Abonnementgeschäft. Diese Verbraucherskalierung ist OpenAIs entscheidender Vorteil, und Abonnements sind Berichten zufolge die größte Einnahmequelle. ### 2. Die API (nutzungsbasiert, für Entwickler) Entwickler und Unternehmen integrieren OpenAIs Modelle in ihre eigenen Produkte und zahlen **pro Token** – pro Textabschnitt (oder Bild oder Audio), der verarbeitet wird. Die Preise skalieren mit der Modellkapazität: Die führenden Reasoning-Modelle kosten mehr pro Token als die kleineren, schnelleren und günstigeren, und die Ausgabe ist teurer als die Eingabe. Die API verwandelt jedes Unternehmen, das auf GPT aufbaut, in einen gemessenen Kunden, dessen Rechnung mit seiner eigenen Nutzung wächst. Das ist dieselbe kumulative Dynamik, auf die sich jedes KI-Labor verlässt: Ein Startup, das OpenAI integriert und auf Millionen von Nutzern skaliert, generiert jeden Monat mehr API-Einnahmen ohne neuen Vertrag. ### 3. Unternehmensverträge Über die Self-Service-API und Team-Pläne hinaus schließt OpenAI große, individuelle Verträge mit großen Unternehmen ab – Mengennutzung, dedizierte Kapazität, individueller Support und Sicherheits-/Compliance-Verpflichtungen. Diese sind wiederkehrend, weiten sich im Laufe der Zeit aus und werden dauerhaft, sobald ein Unternehmen kritische Workflows auf den Modellen aufbaut. Dieses Unternehmensgeschäft ergänzt das Verbrauchergeschäft und ist ein wichtiges Wachstumsfeld. ### 4. Die Microsoft-Partnerschaft Microsoft ist OpenAIs wichtigster strategischer Partner. Die Beziehung funktioniert auf mehreren Ebenen: - **Rechenkapazität** – Microsofts Azure-Cloud stellt einen Großteil der Infrastruktur bereit, auf der OpenAI Modelle trainiert und betreibt. - **Vertrieb** – OpenAIs Modelle werden über Microsofts Plattformen angeboten (Azure KI-Dienste, Copilot-Produkte) und bringen GPT vor Microsofts gigantische Unternehmenskundenbasis. - **Umsatzbeteiligung** – Die beiden Unternehmen teilen Einnahmen im Rahmen ihrer Handelsvereinbarung, und Microsoft hat erheblich in OpenAI investiert. Diese Partnerschaft ist teils Kapital, teils Vertriebsweg: Sie gibt OpenAI Zugang zu Unternehmen, für deren direkten Verkauf es Jahre brauchen würde. ### 5. Neuere und angrenzende Produkte OpenAI erweitert kontinuierlich die Fläche, die es monetarisieren kann: - **Codex** – das agentische Programmierwerkzeug, über Abonnements und API-Nutzung monetarisiert (und ein Treiber hoher Token-Nutzung). - **Sora** – Videogenerierung, innerhalb kostenpflichtiger Stufen und als eigenständiges Produkt angeboten. - **Bildgenerierung und andere Modalitäten** – in Abonnements gebündelt und über die API gemessen. - **Ein Entwickler-/Agenten-Ökosystem** – benutzerdefinierte GPTs, eine Agenten-Plattform und Tools, die es Unternehmen ermöglichen, auf OpenAIs Modellen aufzubauen. Jedes davon ist eine weitere Hülle um dasselbe Kernasset, darauf ausgerichtet, mehr von dem zu erfassen, was Nutzer und Entwickler bereit sind zu zahlen. ## Ist OpenAI profitabel? OpenAI ist privat und veröffentlicht keine geprüften Finanzberichte. Das weit verbreitete Bild: **Die Einnahmen sind sehr groß und wachsen schnell**, aber auch die Kosten – das Training von Frontier-Modellen und die Versorgung von Hunderten Millionen Nutzern verbraucht atemberaubende Rechenmengen. Wie seine Mitbewerber befindet sich OpenAI in einer Phase intensiver Investitionen, in der Wachstum und Kapazität Vorrang vor kurzfristigem Gewinn haben. Die Wette ist, dass Skalierung und zunehmende Unternehmensadoption die Rechenkosten letztendlich übertreffen. ## Vergleich mit Anthropic Die Bausteine sind ähnlich – Verbraucherabonnements, eine nutzungsbasierte API, Unternehmensverträge, Programmiertools – aber die Schwerpunkte unterscheiden sich. OpenAIs entscheidender Vorteil ist **Verbraucherskalierung** (ChatGPT) und seine **Microsoft**-Partnerschaft; Anthropic setzt stärker auf die **Entwickler-/Unternehmens-API** und wird von Amazon und Google unterstützt. Für die andere Seite des Vergleichs, siehe [wie Anthropic Geld verdient](https://alejandrorioja.com/how-does-anthropic-make-money/). ## OpenAI-Einnahmenmodell – FAQ 2026 ### Was ist OpenAIs größte Einnahmequelle? **ChatGPT-Abonnements.** Da ChatGPT Hunderte von Millionen Nutzern erreicht, machen seine kostenpflichtigen Stufen (Plus, Pro, Team, Enterprise, Edu) OpenAIs größte Einnahmelinie aus – ein ungewöhnliches Profil für ein KI-Labor, von denen die meisten mehr durch APIs und Unternehmen als durch Verbraucher verdienen. ### Wie verdient OpenAIs API Geld? Entwickler zahlen **pro Token**, um OpenAIs Modelle in ihren eigenen Apps zu nutzen – pro Textabschnitt, Bild oder Audio, der verarbeitet wird. Leistungsfähigere Modelle kosten mehr pro Token, und die Ausgabe ist teurer als die Eingabe. Die Einnahmen wachsen automatisch, wenn die Nutzung der Kunden zunimmt. ### Ist OpenAI börsennotiert? Kann ich OpenAI-Aktien kaufen? Nein. OpenAI ist in Privatbesitz, und seine Anteile sind nicht an öffentlichen Börsen erhältlich. Die meisten Menschen können nicht direkt investieren. Microsoft hält über seine Partnerschaft eine bedeutende Beteiligung, aber das ist nicht dasselbe wie eine Börsennotierung von OpenAI. ### Wie bringt die Microsoft-Partnerschaft OpenAI Geld ein? Microsoft stellt Azure-Rechenkapazität bereit, vertreibt OpenAIs Modelle über seine Produkte und Cloud an eine riesige Unternehmenskundenbasis, und die beiden Unternehmen teilen Einnahmen im Rahmen ihrer Handelsvereinbarung. Microsoft hat auch erheblich in OpenAI investiert. Es ist sowohl eine Finanzierungsquelle als auch ein Vertriebskanal. ### Verdient OpenAI an kostenlosen ChatGPT-Nutzern? Nicht direkt – die kostenlose Stufe ist ein Trichter. Einnahmen fließen, wenn kostenlose Nutzer auf **Plus** oder **Pro** upgraden, wenn Unternehmen **Team**- oder **Enterprise**-Lizenzen kaufen und wenn Entwickler auf der **API** aufbauen. Die Rolle des kostenlosen Produkts ist Reichweite; die kostenpflichtigen Stufen und die API wandeln sie um. **Weiterführende Lektüre:** [Wie verdient Anthropic Geld](https://alejandrorioja.com/how-does-anthropic-make-money/) · [Wie verdient SpaceX Geld](https://alejandrorioja.com/how-does-spacex-make-money/) · [Der Einsteigerleitfaden zu KI-Agenten](https://alejandrorioja.com/ai-agents-for-beginners-cowork-codex-guide/) --- ## Die Kurzfassung OpenAI wandelt ChatGPTs enorme Nutzerbasis in Abonnementeinnahmen um (Plus, Pro, Team, Enterprise), berechnet Entwicklern über seine API pro Token, schließt große Unternehmensverträge ab und stützt sich auf Microsoft für Rechenkapazität, Vertrieb und gemeinsame Einnahmen. Sein kennzeichnendes Merkmal ist Verbraucherskalierung – die meisten KI-Labore monetarisieren zuerst Entwickler; OpenAI hat zuerst ein Verbraucherphänomen und danach ein Geschäftsmodell dahinter aufgebaut. --- ## Wie verdient SpaceX Geld? Starts, Starlink und die IPO-Frage Source: https://alejandrorioja.com/de/how-does-spacex-make-money/ Published: 2026-06-11 Updated: 2026-06-11 Tags: Business TL;DR: SpaceX verdient auf drei Wegen Geld: Startdienste (Verkauf von Starts in die Erdumlaufbahn mit wiederverwendbaren Falcon-Raketen), Starlink (Satelliteninternet für Verbraucher, Unternehmen, Seefahrt/Luftfahrt und Regierungen) und Regierungsverträge (NASA-Besatzung und -Fracht, Mondlandesysteme, sicherheitsrelevante Starts). Starlink ist inzwischen der größte Umsatztreiber. SpaceX bleibt privat; ein Börsengang von SpaceX selbst ist nicht unmittelbar bevorstehend, obwohl ein künftiger Starlink-Spin-off seit Langem im Gespräch ist. ## Table of contents _Aktualisiert Juni 2026._ **TL;DR:** SpaceX verdient auf drei Wegen Geld: **Startdienste** (Verkauf von Starts in die Erdumlaufbahn mit wiederverwendbaren Falcon-Raketen), **Starlink** (Satelliteninternet für Verbraucher, Unternehmen, Seefahrt/Luftfahrt und Regierungen) und **Regierungsverträge** (NASA-Besatzung und -Fracht, Mondlandesysteme, sicherheitsrelevante Starts). Starlink ist inzwischen der größte Umsatztreiber. SpaceX bleibt privat; ein Börsengang von SpaceX selbst ist nicht unmittelbar bevorstehend, obwohl ein künftiger Starlink-Spin-off seit Langem diskutiert und immer wieder abgekühlt wird. **[Einschätzung des Betreibers]** SpaceX ist das deutlichste moderne Beispiel eines Unternehmens, das einen Burggraben aus Harttechnologie (wiederverwendbare Raketen) nutzte, um darüber ein Geschäft mit Software-Ökonomie (Satelliteninternet) aufzubauen. Das Startgeschäft erkämpft das Recht zu existieren; Starlink ist das Kerngeschäft mit wiederkehrenden, skalierbaren Einnahmen. Das ist die ganze Geschichte in einem Satz. ## Was ist SpaceX? SpaceX (Space Exploration Technologies Corp.) entwickelt, baut und betreibt Raketen und Raumfahrzeuge und betreibt das Satelliteninternet-Netzwerk Starlink. Gegründet im Jahr 2002 mit dem langfristigen Ziel, die Menschheit zu einem multiplanetaren Wesen zu machen, wurde das Unternehmen zum dominanten Startanbieter der Welt, indem es etwas tat, das niemand anderes in diesem Maßstab getan hatte: die erste Stufe einer Orbitalrakete zu landen und wiederzuverwenden, was die Kosten für den Zugang zum Weltall drastisch senkte. Dieser Kostenvorteil ist der Motor für alles andere. Günstige, häufige und zuverlässige Starts machen eine Konstellation von mehr als 7.000 Satelliten wirtschaftlich möglich – und die Konstellation ist das, was ein holpriges, projektbasiertes Startgeschäft in ein Geschäft mit wiederkehrenden Einnahmen verwandelt. ## Wie verdient SpaceX Geld? ### 1. Startdienste Das ursprüngliche Geschäft. SpaceX verkauft Starts an drei Arten von Kunden: - **Kommerzielle Satellitenbetreiber** – Unternehmen, die eine Nutzlast in die Umlaufbahn benötigen, zahlen für einen dedizierten Start oder einen Platz auf einer **Rideshare**-Mission (viele kleine Satelliten auf einer Rakete, preislich per Kilogramm). - **Regierung und Militär** – sicherheitsrelevante Nutzlasten und Wissenschaftsmissionen, oft mit einem Aufschlag für Zuverlässigkeit und Gewährleistung. - **Andere Raumfahrtunternehmen** – darunter zunehmend Wettbewerber, die noch auf SpaceX angewiesen sind, weil es die günstigste und verfügbarste Mitfahrgelegenheit ist. Die Einheitswirtschaft funktioniert dank **Wiederverwendbarkeit**: Dieselbe Erststufenbooster fliegt viele Male, sodass die Grenzkosten eines Starts weit unter dem Preis liegen. Falcon 9 ist das Arbeitstier; Falcon Heavy bewältigt die schwersten Nutzlasten. ### 2. Starlink (die Maschine für wiederkehrende Einnahmen) Starlink ist eine Konstellation von Tausenden von Satelliten im niedrigen Erdorbit, die schnelles Internet an Orte liefern, die terrestriales Breitband nicht erreichen kann oder nicht bedient. Es ist nun der Teil von SpaceX, der einem echten Abonnementgeschäft ähnelt, mit mehreren Schichten: - **Verbraucher** – Haushalte zahlen für eine Schüssel (Hardware) plus ein monatliches Abonnement. - **Unternehmen und Mobilität** – teurere Tarife für Unternehmen, Seefahrt (Schiffe, Yachten) und **Luftfahrt** (In-Flight-WLAN-Vereinbarungen mit Fluggesellschaften). - **Regierung** – einschließlich **Starshield**, der verteidigungsorientierten Variante für Militär- und Regierungskunden. - **Direct-to-Cell** – Partnerschaften mit Mobilfunkanbietern, um Satellitenkonnektivität direkt an normale Telefone in Funklöchern zu liefern. Starlink kombiniert Hardware-Verkäufe (das Terminal) mit wiederkehrenden monatlichen Einnahmen (das Abonnement) bei Millionen von Abonnenten – die klassische Rasierer-und-Klingen-Form, auf planetarischer Ebene. Deshalb schätzen die meisten Analysten Starlink inzwischen als größte Einnahmelinie von SpaceX vor den Starts ein. ### 3. Regierungsverträge Ein eigenständiger, sehr großer Bereich, der sich mit Starts überschneidet, aber es wert ist, getrennt betrachtet zu werden: - **NASA** – SpaceX bringt Astronauten zur Internationalen Raumstation im Rahmen des **Commercial Crew**-Programms (Crew Dragon) und versorgt sie mit **Cargo Dragon**. Das Unternehmen gewann auch einen Vertrag zum Bau eines **Starship**-basierten menschlichen Landesystems für die Mondambitionen der NASA. - **Nationale Sicherheit** – wiederkehrende Startverträge für Verteidigungs- und Aufklärungsnutzlasten. Diese Verträge sind hochwertig, mehrjährig und finanzieren einen Großteil der Entwicklung, die dem kommerziellen Bereich zugute kommt. ### 4. Starship (der Motor der Zukunft, noch kein Gewinnzentrum) Starship ist SpaceXs vollständig wiederverwendbares Schwerlast-Trägerrakete – der langfristige Ersatz für Falcon und der Schlüssel sowohl für Mond-/Marsmissionen als auch für die nächste, größere Generation von Starlink-Satelliten. Heute ist es ein Kostenzentrum, das durch die anderen drei Geschäftsbereiche finanziert wird. Wenn es Routineflüge erreicht, senkt es die Startkosten erneut dramatisch und ermöglicht eine weitaus größere Starlink-Bereitstellung – das ist die Wette, auf die Investoren tatsächlich setzen. ## Ist SpaceX profitabel? SpaceX ist privat und veröffentlicht keine geprüften Finanzberichte, daher ist alles Genaue eine Schätzung. Das weit verbreitete Bild: Starts sind dank Wiederverwendbarkeit auf Missions-Basis profitabel, und Starlink wechselte in positives Cash-Flow-Territorium, als seine Abonnentenbasis wuchs. Das Unternehmen steckt enorme Summen in die Starship-Entwicklung, daher hängt „Gewinn" stark davon ab, wie man diese F&E behandelt. Die Entwicklungsrichtung – wachsende wiederkehrende Starlink-Einnahmen über einem dominanten Startgeschäft – ist das, was die enorme private Bewertung des Unternehmens stützt. ## Die IPO-Frage Das ist der Teil, den alle fragen, hier ist also die ehrliche Version. **Es wird nicht erwartet, dass SpaceX bald an die Börse geht.** Elon Musk hat wiederholt gesagt, dass er SpaceX lieber privat hält, solange Starship und das Mars-Programm kapitalintensiv und langfristig ausgerichtet sind – der vierteljährliche Druck der öffentlichen Märkte passt nicht zu einer jahrzehntelangen Mission. Stattdessen bietet SpaceX Mitarbeitern und frühen Investoren durch periodische **Tender Offers** Liquidität (das Unternehmen erleichtert Aktienverkäufe zu einem festgelegten Preis), was es Menschen ermöglicht, ohne öffentliche Notierung auszuzahlen. Diese Sekundärverkäufe sind es, die die Schlagzeilen-Bewertungszahlen erzeugen – SpaceX wurde in jüngsten Runden mit mehreren Hundert Milliarden Dollar bewertet. **Ein Starlink-Spin-off-IPO wird seit Langem diskutiert** – Musk selbst deutete vor Jahren an, dass Starlink schließlich an die Börse gehen könnte, sobald seine Einnahmen stabil und vorhersehbar wären. Aber er hat auch wiederholt kurzfristige Zeitpläne gedämpft. Stand 2026 hat Starlink keinen Börsengang durchgeführt, und es gibt kein bestätigtes Datum. Behandeln Sie jeden „Starlink-IPO-Datum"-Titel mit Skepsis, es sei denn, er stammt vom Unternehmen selbst. ## Fazit SpaceXs Modell ist ein Stapel: Wiederverwendbare Starts schaffen einen Kostenvorteil, dieser Vorteil macht Starlink wirtschaftlich möglich, Starlink verwandelt das Ganze in ein Geschäft mit wiederkehrenden Einnahmen, und Regierungsverträge finanzieren die Pionierarbeit (Starship), die die Kostenkurve erneut zurücksetzt. Es bleibt bewusst privat und nutzt Tender Offers statt eines Börsengangs – und der wahrscheinlichste Weg zu den öffentlichen Märkten ist eine künftige Starlink-Notierung, nicht SpaceX als Ganzes, wenn das Unternehmen entscheidet, dass die Zeit reif ist. ## SpaceX-Erlösmodell – FAQ 2026 ### Was ist SpaceXs größte Einnahmequelle? Die meisten Schätzungen sehen **Starlink** inzwischen vor den Startdiensten als SpaceXs größte Einnahmelinie, angetrieben von Millionen von Verbraucher-, Unternehmens-, Mobilitäts- und Regierungsabonnements plus Terminal-Hardware-Verkäufen. Startdienste bleiben groß und je Mission hochprofitabel, aber Starlinkss wiederkehrendes Modell skaliert schneller. ### Ist SpaceX börsennotiert? Kann ich SpaceX-Aktien kaufen? Nein. SpaceX ist ein privates Unternehmen und seine Aktien sind nicht an öffentlichen Börsen verfügbar. Die meisten Menschen können nicht direkt investieren; der Zugang ist in der Regel auf Mitarbeiter und akkreditierte Investoren beschränkt, die an privaten Runden oder Tender Offers teilnehmen. Seien Sie vorsichtig bei „SpaceX-Aktien"-Angeboten, die etwas anderes suggerieren. ### Wird SpaceX oder Starlink an die Börse gehen? Es wird nicht erwartet, dass SpaceX in naher Zukunft an die Börse geht – Musk hat gesagt, er möchte es während der kapitalintensiven Starship/Mars-Phase privat halten. Ein **Starlink**-Börsengang wird seit Jahren als Möglichkeit diskutiert, sobald seine Einnahmen vorhersehbar sind, aber Stand 2026 gibt es kein bestätigtes Datum. Jede spezifische „IPO-Datum"-Behauptung sollte skeptisch behandelt werden, es sei denn, sie kommt vom Unternehmen. ### Wie verdient Starlink Geld? Starlink berechnet Kunden für eine Satellitenschüssel (Hardware) plus ein monatliches Abonnement, über Verbraucher-, Geschäfts-, Seefahrt-, Luftfahrt- und Regierungsstufen – einschließlich des verteidigungsorientierten Starshield und Direct-to-Cell-Anbieterpartnerschaften. Es ist ein Rasierer-und-Klingen-Modell: Hardware im Voraus, danach wiederkehrende Einnahmen. ### Wie hilft Wiederverwendbarkeit SpaceXs Gewinnen? Das Landen und Wiederfliegen desselben Raketenboosters viele Male senkt die Grenzkosten jedes Starts weit unter den berechneten Preis. Dieser Kostenvorteil ist es, was SpaceX zum günstigsten Startanbieter macht und was den Aufbau einer Starlink-Konstellation mit mehreren Tausend Satelliten wirtschaftlich tragfähig macht. **Weiterführende Lektüre:** [Wie verdient Uber Geld](https://alejandrorioja.com/how-does-uber-make-money/) · [Wie verdient Shopify Geld](https://alejandrorioja.com/how-shopify-makes-money/) · [Wie verdient PayPal Geld](https://alejandrorioja.com/how-does-paypal-make-money/) --- ## Die Kurzversion SpaceX verkauft günstig Starts in die Umlaufbahn, weil es seine Raketen wiederverwendet, und nutzt dann diesen Kostenvorteil, um Starlink zu betreiben – ein Satelliteninternet-Abonnementgeschäft, das nun sein größter Umsatzbringer ist –, während Regierungsverträge das Starship der nächsten Generation finanzieren. Es bleibt bewusst privat; ein Starlink-Börsengang, kein SpaceX-Börsengang, ist der wahrscheinlichste eventuelle Weg zu den öffentlichen Märkten. --- ## Claude Scheduled Tasks nutzen: Wiederkehrende Aufgaben per Cron automatisieren Source: https://alejandrorioja.com/de/how-to-use-claude-scheduled-tasks/ Published: 2026-06-11 Updated: 2026-06-11 Tags: Productivity, AI TL;DR: Geplante Aufgaben verwandeln einen einmaligen Claude-Prompt in einen wiederkehrenden Job: Er läuft nach einem Cron-Zeitplan, erledigt die Arbeit und liefert das Ergebnis. Die Claude-App eignet sich für persönliche Routinen (ein Morgen-Digest, eine Wochenzusammenfassung), Claude Code-Routinen und Managed-Agents-Deployments für Entwicklerautomatisierung in der Cloud. Der Gewinn liegt darin, Arbeit zu automatisieren, die man sonst täglich oder wöchentlich per Hand erledigen würde. ## Table of contents _Aktualisiert Juni 2026._ **TL;DR:** Geplante Aufgaben verwandeln einen einmaligen Claude-Prompt in einen wiederkehrenden Job: Er läuft nach einem Cron-Zeitplan, erledigt die Arbeit und liefert das Ergebnis. Die **Claude-App** eignet sich für persönliche Routinen (ein Morgen-Digest, eine Wochenzusammenfassung), **Claude Code-Routinen** oder **Managed-Agents-Deployments** für Entwicklerautomatisierung in der Cloud. Der Gewinn liegt darin, Arbeit zu automatisieren, die man sonst täglich oder wöchentlich per Hand erledigen würde. **[Lektüre für Betreiber]** Die wirkungsvollsten Automatisierungen sind nicht spektakulär — es sind die kleinen, wiederkehrenden Jobs, die einem täglich still und leise 20 Minuten kosten. Eine geplante Aufgabe ist der Weg, diese ein einziges Mal an Claude zu übergeben und nie wieder daran zu denken. Ich betreibe mehrere: einen morgendlichen Konkurrenz-Scan, eine nächtliche PR-Statusprüfung, einen wöchentlichen Content-Pipeline-Entwurf. Keine davon brauchte länger als zehn Minuten zum Einrichten. ## Was eine geplante Aufgabe ist Eine normale Claude-Sitzung ist synchron: Man schreibt, es antwortet, man ist dabei. Eine **geplante Aufgabe** ist asynchron und wiederkehrend: Man definiert einen Prompt (oder einen ganzen Agenten-Workflow) plus einen Zeitplan, und Claude führt ihn eigenständig aus — um 7 Uhr an jedem Werktag, jeden Montag, jede Stunde — und übergibt das Ergebnis, wenn es fertig ist. Unter der Haube ist es ein Cron-Job mit einem LLM im Mittelpunkt. Man schreibt keinen Code, um APIs zusammenzukleben; man beschreibt das Ergebnis auf Deutsch und lässt den Agenten bei jedem Auslösen selbst die Schritte herausfinden. ## Die drei Orte, an denen man sie einrichtet Es gibt nicht eine Schaltfläche — es gibt drei Oberflächen, je nach Nutzerprofil. ### 1. Die Claude-App (für alle) Die Claude-Consumer-Apps unterstützen wiederkehrende Aufgaben: Man speichert einen Prompt und eine Kadenz, Claude führt ihn planmäßig aus und benachrichtigt einen mit dem Ergebnis. Das ist der No-Code-Weg — ideal für ein tägliches Briefing, eine wiederkehrende Recherche, einen Job „Fasse meine ungelesenen Newsletter jeden Morgen zusammen". Wer kein Entwickler ist, fängt hier an. ### 2. Claude Code-Routinen (für Terminal-Bewohner) Wer **Claude Code** nutzt, kann einen Prompt oder einen Slash-Befehl so planen, dass er nach einem Cron-Zeitplan als Cloud-Agent läuft — eine „Routine". Sie läuft serverseitig auf dem eigenen Repository oder Workspace, funktioniert also auch wenn der Laptop zugeklappt ist. Typische Anwendungsfälle: offene Pull Requests überwachen, einen nächtlichen Lint-und-Fix-Durchlauf ausführen, jeden Morgen einen Postentwurf zur Überprüfung generieren. Man definiert Zeitplan und Aufgabe; Claude Code übernimmt das Auslösen und das Ausführungsprotokoll. ### 3. Managed-Agents-Deployments (für Entwickler, die Produkte bauen) Für Teams, die auf der Claude API aufbauen, führen **geplante Deployments** einen Agenten nach einem wiederkehrenden Cron-Zeitplan aus — jedes Auslösen startet eine Sitzung, die die Arbeit autonom erledigt (ein nächtlicher Compliance-Scan, ein Wochenbericht, ein stündlicher Monitor). Man erhält ein Ausführungsprotokoll pro Auslösen, um Erfolge und Fehler zu prüfen. Das ist die programmatische, produktionsreife Version derselben Idee. ## Wie man über den Zeitplan nachdenkt Alle drei verwenden dasselbe mentale Modell — **welche Aufgabe, wie oft, was mit dem Ergebnis tun**: 1. **Die Aufgabe** — sie so formulieren, wie man jeden guten Agenten-Prompt schreiben würde: Rolle, Kontext, genaue Aktion, Einschränkungen und eine Prüfung. Eine geplante Aufgabe kann mitten im Lauf keine Rückfrage stellen, also muss sie *von Anfang an vollständig spezifiziert* sein. Das ist der entscheidende Unterschied zur interaktiven Nutzung. 2. **Die Kadenz** — täglich, wöchentlich, stündlich, nur Werktage, eine bestimmte Uhrzeit in der eigenen Zeitzone. Sie an die tatsächliche Änderungsrate der zugrundeliegenden Sache anpassen; ein „täglicher" Digest einer wöchentlich aktualisierten Quelle sind verschwendete Läufe. 3. **Die Zustellung** — wo das Ergebnis landet (eine Benachrichtigung, eine Datei, eine Nachricht, ein Entwurf). Das vorab entscheiden, damit das Ergebnis nützlich ist, sobald es eintrifft. ## Muster, die sich wirklich lohnen - **Der Morgen-Digest.** „Jeden Werktag um 7 Uhr, hole die neuesten Informationen zu [Themen], fasse die drei wichtigsten Punkte zusammen und schicke mir ein 5-Punkte-Briefing." Ersetzt 20 Minuten manuelles Scannen. - **Der Wochenbericht.** „Jeden Montag, kompiliere [Metriken] in eine einseitige Zusammenfassung mit dem, was sich geändert hat und warum." Verwandelt eine wiederkehrende Pflichtaufgabe in eine Überprüfung. - **Der Nachtarbeiter.** Eine Code-Routine, die einen langen, gut spezifizierten Job ausführt, während man schläft — ein Refactoring, ein Test-Durchlauf, eine Datenbereinigung — sodass man mit einem überprüfbaren Ergebnis aufwacht. - **Der Monitor.** „Jede Stunde [Sache] prüfen; nur melden, wenn [Bedingung] wahr ist." Die besten Automatisierungen sind meist still und melden sich nur, wenn es wichtig ist. ## Einrichtungstipps aus dem Produktionseinsatz - **Den Prompt übergenau formulieren.** Mitten im Lauf sind keine Rückfragen möglich. Format, Quellen, Einschränkungen und Vorgehen in Grenzfällen angeben. - **Mit einem manuellen Test beginnen.** Den genauen Prompt einmal von Hand ausführen. Wenn er interaktiv das Gewünschte liefert, planen. Wenn nicht, zuerst den Prompt korrigieren — einen schlechten Prompt zu planen, produziert nur zuverlässig schlechte Ergebnisse. - **Kadenz an die Änderungsrate anpassen.** Keine stündlichen Läufe gegen etwas, das sich wöchentlich aktualisiert. - **Bei hohem Einsatz Ergebnisse als Entwürfe behalten.** Für alles, was in die Welt hinausgeht — ein veröffentlichter Post, eine versendete E-Mail — die Aufgabe einen *Entwurf* zur eigenen Überprüfung produzieren lassen, keine Live-Aktion. Das vollständig autonome „Einfach machen" für risikoarme, reversible Arbeit reservieren. - **Die ersten Läufe beobachten.** Geplante Jobs driften — eine Quelle ändert ihr Format, ein Feed verstummt. Die frühen Ausführungsprotokolle prüfen, dann vertrauen. ## Claude Scheduled Tasks — FAQ 2026 ### Was sind geplante Claude-Aufgaben? Es sind wiederkehrende Jobs: Man definiert einen Prompt oder Agenten-Workflow plus einen Cron-Zeitplan, und Claude führt ihn automatisch aus — täglich, wöchentlich, stündlich — und liefert das Ergebnis, ohne dass man am Rechner sein muss. Sie existieren in den Claude-Consumer-Apps (für persönliche wiederkehrende Prompts), in Claude Code (als Cloud-Routinen) und in der Claude API (als Managed-Agents-Deployments). ### Muss ich Entwickler sein, um sie zu nutzen? Nein. Die Claude-App unterstützt wiederkehrende Aufgaben ohne Code — nur ein gespeicherter Prompt und eine Kadenz. Claude Code-Routinen und Managed-Agents-Deployments sind die entwicklerseitigen Versionen zur Automatisierung von Code- und Produkt-Workflows. ### Wie unterscheidet sich eine geplante Aufgabe von einem normalen Claude-Chat? Ein normaler Chat ist interaktiv — man ist da, um auf Rückfragen zu antworten. Eine geplante Aufgabe ist autonom und wiederkehrend, weshalb der Prompt von Anfang an vollständig spezifiziert sein muss; Claude kann mitten im Lauf nicht pausieren, um zu fragen. Sie wird planmäßig ausgelöst, erledigt die Arbeit und übergibt das Ergebnis. ### Was ist eine gute erste geplante Aufgabe? Ein Morgen-Digest. „Jeden Werktag um 7 Uhr, fasse die neuesten Informationen zu [deinen Themen] in fünf Punkten zusammen." Es ist risikoarm, leicht zu überprüfen und ersetzt sofort eine wiederkehrende manuelle Aufgabe — die perfekte Vorlage, um den Workflow zu erlernen, bevor man etwas Größeres automatisiert. ### Kann eine geplante Aufgabe echte Aktionen ausführen, wie E-Mails senden? Ja, aber mit Bedacht. Für reversible, risikoarme Arbeit kann sie agieren. Für alles nach außen Gerichtete oder schwer Rückgängig-zu-Machende sollte die Aufgabe einen Entwurf zur Genehmigung erstellen, statt automatisch zu handeln — besonders bei unbeaufsichtigten Läufen. Reversibilität ist der richtige Maßstab dafür, wie viel Autonomie man gewähren sollte. **Weiterführende Lektüre:** [Der Einsteigerleitfaden zu KI-Agenten](https://alejandrorioja.com/ai-agents-for-beginners-cowork-codex-guide/) · [Wie verdient Anthropic Geld](https://alejandrorioja.com/how-does-anthropic-make-money/) · [Wie man in ChatGPT-Antworten zitiert wird](https://alejandrorioja.com/how-to-get-cited-in-chatgpt-answers/) --- **Sie möchten ein System geplanter Agenten, das Ihre wiederkehrende Arbeit übernimmt?** Genau das baue ich — [nehmen Sie Kontakt auf](https://alejandrorioja.com/contact/). --- ## Kostenrechnung für KI-Agenten: Wann Haiku Sonnet schlägt (und wann nicht) Source: https://alejandrorioja.com/de/ai-agent-cost-math-when-haiku-beats-sonnet/ Published: 2026-06-08 Tags: AI Agents, Operations TL;DR: Claude Haiku statt Sonnet zu wählen kann die Kosten pro Aufruf drastisch senken, aber nur wenn die Aufgabe eine niedrigere Erfolgsquote verträgt. Die eigentliche Kennzahl sind nicht die Kosten pro Aufruf — es sind die Kosten pro erfolgreichem Ergebnis, inklusive Wiederholungen und menschlicher Nacharbeit. Ich route nach Aufgabe, nicht nach Standard. ## Inhaltsverzeichnis _Aktualisiert Juni 2026._ **TL;DR:** Claude Haiku statt Sonnet zu wählen kann die Kosten pro Aufruf um eine Größenordnung senken, aber nur wenn die Aufgabe Haikus niedrigere Erfolgsquote verträgt. Die Kennzahl, die zählt, sind die **Kosten pro erfolgreichem Ergebnis** — Aufrufkosten plus Wiederholungen plus menschliche Nacharbeit — nicht der Listenpreis pro Token. Ich route pro Aufgabe, und ein bedeutender Anteil meiner Schritte mit hohem Volumen läuft auf Haiku, während die Ermessensentscheidungen auf Sonnet bleiben. **Sicht des Operators:** Ich betreibe über 100 Agenten, und Inferenz ist ein echter Kostenposten. Aber ich habe Teams beobachtet, die „Geld sparten", indem sie alles auf das billigste Modell zwangen, und dann die Kosten in Wiederholungen, Eskalationen und verärgerten Kunden bezahlten. Die Kostenrechnung funktioniert nur, wenn man den gesamten Funnel misst. Das billigste Modell ist nicht das mit dem niedrigsten Preis pro Token. Es ist das mit den niedrigsten Gesamtkosten, um die Arbeit richtig zu erledigen. Das sind verschiedene Zahlen, und die Lücke zwischen ihnen ist genau dort, wo die meisten Kostenentscheidungen bei Agenten schiefgehen. ## Die Token-Ökonomie, klar gesagt Anthropic berechnet Claude pro Million Tokens, Eingabe und Ausgabe werden getrennt abgerechnet, wobei die Ausgabe ein Mehrfaches der Eingabe kostet. Die genauen Zahlen ändern sich im Laufe der Zeit, prüfen Sie also die aktuellen Preise von Anthropic — aber es ist die **Struktur**, die die Entscheidung treibt: - **Haiku** ist die billige, schnelle Stufe — mit Abstand die niedrigsten Kosten pro Token in der Familie. - **Sonnet** liegt in der Mitte — deutlich teurer als Haiku, deutlich billiger als Opus. - **Opus** ist die Premium-Stufe für das schwierigste Schlussfolgern. Daraus folgen zwei Dinge. Erstens dominieren Ausgabe-Tokens die Kosten bei generativen Aufgaben, sodass ein wortreiches Modell selbst beim gleichen Preis pro Token mehr kostet. Zweitens ist die Preislücke pro Token zwischen Haiku und Sonnet groß genug, dass sie bei einem Schritt mit hohem Volumen absolut auf der Rechnung auftaucht. Das ist das Argument *für* Haiku. Jetzt das Argument dagegen. ## Die Kennzahl, die wirklich zählt: Kosten pro erfolgreichem Ergebnis Die Kosten pro Aufruf sind eine Eitelkeitszahl. Hier ist die Formel, die ich tatsächlich verwende: ``` kosten_pro_erfolg = (aufrufkosten × versuche) + nacharbeitskosten ÷ erfolgsquote ``` Wobei `versuche` die Wiederholungen berücksichtigt und `nacharbeitskosten` die erwarteten Kosten dafür sind, dass ein Mensch die durchgerutschten Fehler behebt. Sehen Sie, was das mit dem Vergleich macht. Angenommen, Haiku kostet ungefähr ein Zehntel von Sonnet pro Aufruf. Wenn Haiku bei einer Aufgabe in 80 % der Fälle erfolgreich ist und Sonnet in 98 %, sehen die Einsparungen pro Aufruf enorm aus. Aber wenn jeder Haiku-Fehler eine Wiederholung auslöst und 1 von 10 trotzdem einen Menschen braucht, der echtes Geld kostet, kann der Nacharbeitsterm die Token-Einsparungen verschlingen. Bei einer Aufgabe mit niedrigem Einsatz und hohem Volumen begünstigt die Rechnung Haiku überwältigend. Bei einer Aufgabe, bei der ein Fehler eine E-Mail an den falschen Kunden schickt, kann sie sich komplett umkehren. Sie können diese Entscheidung nicht treffen, ohne die Erfolgsquote pro Modell zu messen — was genau das ist, was Ihnen ein [Eval-Harness](/the-eval-harness-i-use-to-ship-ai-agents/) liefert. Lassen Sie denselben Eval-Satz gegen beide Modelle laufen und lesen Sie die Erfolgsquoten am selben Maßstab ab. ## Wo Haiku eindeutig gewinnt Haiku ist die richtige Wahl, wenn die Aufgabe **eng, strukturiert und überprüfbar** ist: - **Klassifizierung und Routing** — „ist diese eingehende Nachricht eine Buchung, eine Beschwerde oder Spam?" Drei Kategorien, leicht zu überprüfen, läuft ständig. Haiku den ganzen Tag. - **Extraktion mit einem Schema** — ein Datum, einen Namen, einen Betrag aus Text ziehen, validiert mit Zod. Wenn die Ausgabe parst, ist sie fast sicher richtig. - **Kurze Umschreibungen und Formatierung** — Tonanpassungen, eine bekannt gute Eingabe zusammenfassen, Daten normalisieren. - **Filterung im ersten Durchgang** — Haiku triagiert, und nur die mehrdeutigen Fälle werden an Sonnet eskaliert. Das ist das Muster mit dem höchsten Hebel. Der rote Faden: Die Kosten eines Haiku-Fehlers sind niedrig und der Fehler ist billig zu erkennen. Wenn die Überprüfung billig und der Einsatz niedrig ist, gewinnt das billige Modell. ## Wo Sonnet seinen Preis verdient Sonnet (und manchmal Opus) lohnt sich, wenn die Aufgabe **offen, mehrstufig oder teuer im Fehlerfall** ist: - **Multi-Tool-Agentenschleifen**, bei denen ein falscher Tool-Aufruf eine Kaskade auslöst. Höhere Schlussfolgerungs-Zuverlässigkeit summiert sich über die Schritte — die Orchestrierungsmuster, die ich in [Multi-Agenten-Orchestrierung](/multi-agent-orchestration-patterns-queues-state-handoffs/) behandle, hängen davon ab, dass das Modell nicht den Faden verliert. - **Kundenseitige Generierung**, bei der eine schlechte Ausgabe Vertrauen kostet, nicht nur eine Wiederholung. - **Alles, wo die Überprüfung selbst schwierig ist.** Wenn Sie nicht billig feststellen können, ob die Ausgabe richtig ist, können Sie sich kein Modell leisten, das häufig falsch liegt. Ein Fehler hier kostet nicht eine Wiederholung — er kostet eine Rückerstattung, einen abgewanderten Kunden oder meine Zeit. Dagegen ist der Aufpreis pro Token ein Rundungsfehler. ## Die Routing-Regel, die ich tatsächlich ausliefere Ich wähle nicht ein Modell pro Agent. Ich route pro **Aufgabe** innerhalb des Agenten, meist mit einem billigen Klassifikator, der entscheidet, welches nachgelagerte Modell die Arbeit übernimmt: ```typescript function pickModel(task: Task): string { // Billig, überprüfbar, hohes Volumen → Haiku if (task.type === "classify" || task.type === "extract") { return "claude-haiku"; } // Offen oder kundenseitig → Sonnet if (task.customerFacing || task.steps > 2) { return "claude-sonnet"; } return "claude-sonnet"; // standardmäßig die sichere Wahl } ``` Zwei Prinzipien sind hier kodiert. **Standardmäßig das sichere Modell**, nicht das billige — man optimiert die Kosten *nach unten* von einer funktionierenden Basis aus, niemals die Zuverlässigkeit *nach oben* von einer kaputten aus. Und **eskalieren, nicht zocken**: Lass Haiku die einfachen 80 % erledigen und übergib die schwierigen 20 % an Sonnet. Dieser Hybrid schlägt fast immer den Betrieb von allem auf einem der beiden Modelle allein. Es gibt auch Prompt-Caching, das man obendrauf legen kann: Wenn Ihr System-Prompt groß und wiederverwendet ist, senkt Caching die Eingabekosten unabhängig von der Stufe erheblich, was Sonnet manchmal billig genug macht, dass die Haiku-Frage hinfällig wird. ## Ein durchgerechnetes Beispiel aus meinem eigenen Stack Nehmen Sie einen Triage-Schritt für eingehende Nachrichten mit hohem Volumen. Er läuft Tausende Male, die Aufgabe ist eine Drei-Wege-Klassifizierung, und ein Fehler bedeutet nur, dass das Element in einer Prüfwarteschlange landet — billig zu erkennen, niedriger Einsatz. Das ist eine Lehrbuch-Haiku-Aufgabe, und sie von Sonnet wegzunehmen senkte die Kosten dieses Schritts merklich ohne messbaren Einfluss auf das Ergebnis, das zählte. Nehmen Sie nun den Schritt, der die eigentliche Antwort an den Kunden entwirft. Geringeres Volumen, offen, und ein schlechter Entwurf, der rausgeht, kostet Vertrauen. Der bleibt auf Sonnet. Gleicher Agent, zwei Modelle, geroutet nach Einsatz. Ich beobachte die Kosten pro Lauf und die Erfolgskennzahlen für beide, so wie ich es in [wie ich messe, ob ein KI-Agent tatsächlich funktioniert](/how-i-measure-whether-an-ai-agent-is-actually-working/) beschreibe — und ich schiebe einen Schritt erst dann eine Stufe nach unten, nachdem die Eval sagt, dass das billigere Modell die Erfolgsquote hält. ## FAQ ### Ist Claude Haiku in der Praxis immer billiger als Sonnet? Pro Token, ja — mit großem Abstand. Pro erfolgreichem Ergebnis, nicht immer. Wenn Haikus niedrigere Erfolgsquote Wiederholungen und menschliche Nacharbeit auslöst, können die Gesamtkosten die von Sonnet übersteigen — bei Aufgaben, wo Fehler teuer zu erkennen oder zu beheben sind. ### Wie entscheide ich für eine gegebene Aufgabe zwischen Haiku und Sonnet? Bewerten Sie die Aufgabe auf zwei Achsen: wie überprüfbar die Ausgabe ist und wie kostspielig ein Fehler ist. Billig zu überprüfende Arbeit mit niedrigem Einsatz und hohem Volumen geht an Haiku; offene, kundenseitige oder schwer zu überprüfende Arbeit geht an Sonnet. Routen Sie pro Aufgabe, nicht pro Agent. ### Welche einzelne Kostenkennzahl sollte ich verfolgen? Kosten pro erfolgreichem Ergebnis — Aufrufkosten mal Versuche plus erwartete Nacharbeitskosten, geteilt durch die Erfolgsquote. Der Preis pro Aufruf allein verbirgt Wiederholungen und menschliche Zeit, und genau dort werden billige Modelle klammheimlich teuer. ### Kann ich beide Modelle in einem Agenten verwenden? Ja, und das sollten Sie meist auch. Das stärkste Muster ist ein billiger erster Durchgang (Haiku klassifiziert oder filtert), der nur mehrdeutige Fälle an Sonnet eskaliert. Dieser Hybrid schlägt typischerweise den Betrieb von allem auf einer einzigen Stufe. --- ## Wie man einen KI-Agenten in Produktion debuggt (Ein Praxisleitfaden) Source: https://alejandrorioja.com/de/how-to-debug-an-ai-agent-in-production/ Published: 2026-06-08 Tags: AI Agents, Operations TL;DR: Einen Produktions-KI-Agenten zu debuggen heißt vor allem, zu isolieren, welche Schicht versagt hat — Prompt, Tool, Modell oder Orchestrierung. Ich protokolliere jeden Schritt mit einer Trace-ID, spiele die exakten Eingaben erneut ab und halbiere. In meinen Agenten erweisen sich ~70 % der 'KI-Bugs' als Verkabelungs-Bugs, nicht als Modell-Bugs. ## Inhaltsverzeichnis _Aktualisiert Juni 2026._ **TL;DR:** Einen Produktions-KI-Agenten zu debuggen heißt vor allem, zu isolieren, welche Schicht versagt hat — Prompt, Tool-Aufruf, Modellausgabe oder Orchestrierung. Ich protokolliere jeden Schritt mit einer Trace-ID, spiele die exakten Eingaben erneut ab und halbiere von dort aus. In meinen Agenten erweisen sich rund 70 % dessen, was wie ein „KI-Bug" aussieht, als Verkabelung: ein fehlerhaftes Tool-Ergebnis, eine abgeschnittene Eingabe, eine stillschweigend verschluckte Ausnahme. **Sicht des Operators:** Ich betreibe über 100 Produktions-Agenten — Buchungsabläufe für Pickleland, Content-Pipelines, Posteingangs-Triage. Sie brechen so, wie jede Software bricht, plus ein paar neue Arten. Dies ist der Praxisleitfaden, den ich mir gewünscht hätte: wie man die fehlerhafte Schicht findet, ohne auf eine Wand aus Tokens zu starren. Wenn ein Agent sich in Produktion fehlerhaft verhält, ist der Instinkt, dem Modell die Schuld zu geben. „Claude hat halluziniert." Manchmal stimmt das. Meist nicht. Das Modell ist eine Schicht in einem Stapel aus fünf oder sechs, und der Bug steckt weit häufiger in der Schicht, die du geschrieben hast, als in der, die Anthropic ausgeliefert hat. Dieser Beitrag beschreibt die systematische Art, wie ich ihn finde. ## Mach jeden Lauf nachverfolgbar, bevor du irgendetwas debuggst Du kannst nicht debuggen, was du nicht sehen kannst. Das Wirkungsvollste, was du tun kannst — bevor irgendein konkreter Bug auftaucht — ist, jedem Agentenlauf eine Trace-ID anzuhängen und jeden Schritt zu protokollieren, den er macht. Ein „Schritt" ist alles, was eine Grenze überschreitet: der eingehende Trigger, jeder Modellaufruf (mit dem vollständigen Messages-Array), jeder Tool-Aufruf (mit Argumenten), jedes Tool-Ergebnis und die finale Ausgabe. Protokolliere sie als strukturiertes JSON, indiziert über die Trace-ID. ```typescript function logStep(traceId: string, step: string, payload: unknown) { console.log(JSON.stringify({ traceId, step, // "trigger" | "model_call" | "tool_call" | "tool_result" | "output" ts: Date.now(), payload, })); } ``` Auf Cloudflare Workers schicke ich diese an eine Queue und in eine Tabelle; lokal gehen sie nach stdout. Die Regel ist absolut: Wenn ein Schritt nicht protokolliert ist, hat er für das Debugging nicht stattgefunden. Das spiegelt die Instrumentierung wider, die ich in [dem Agenten-Stack, den ich verwende](/the-agent-stack-i-use-to-run-30-production-agents-no-python/) beschreibe — die Trace-ID ist das Rückgrat, an dem alles andere hängt. ## Isoliere die Schicht: Prompt, Tool, Modell oder Orchestrierung Sobald du eine Trace hast, wird Debugging zu einer Bisektion. Es gibt vier Schichten, und der Bug lebt die meiste Zeit in genau einer von ihnen. ### 1. Die Eingabeschicht (der häufigste Übeltäter) Zieh das exakte `messages`-Array heraus, das in den fehlgeschlagenen Modellaufruf ging. Keine Rekonstruktion — das wörtliche Payload aus dem Log. Dann lies es, wie es ein Fremder tun würde. Die Hälfte meiner Bugs „das Modell hat die Anweisungen ignoriert" sind in Wirklichkeit: - Ein Tool-Ergebnis, das als `"[object Object]"` zurückkam, weil etwas falsch in einen String umgewandelt wurde. - Eine Eingabe, mitten im Satz abgeschnitten, weil sie das Kontextfenster gesprengt hat und ein naiver Slice sie zerschnitten hat. - Eine Variable, die als `undefined` interpoliert wurde und den Prompt stillschweigend vergiftet hat. Wenn die Eingabe falsch ist, hat das Modell seine Arbeit perfekt auf Müll erledigt. Repariere die Verkabelung. ### 2. Die Tool-Schicht Wenn die Eingabe sauber aussieht, prüfe, ob ein Tool einen Fehler zurückgegeben hat, den der Agent als Erfolg behandelt hat. Ein Klassiker: Eine API gibt `200` mit einem Body von `{ "error": "rate limited" }` zurück, dein Tool-Wrapper prüft den Body nicht, und der Agent handelt selbstbewusst auf einer Fehlermeldung. Protokolliere Tool-Ergebnisse roh und überprüfe ihre Form. ### 3. Die Modellschicht Erst nachdem ich 1 und 2 ausgeschlossen habe, verdächtige ich das Modell. Selbst dann bedeutet „Modell-Bug" meist „mein Prompt ist mehrdeutig". Nimm die exakte fehlgeschlagene Eingabe, leg sie in ein einmaliges Skript gegen dasselbe Modell und dieselbe Temperatur und schau, ob es sich reproduziert. Wenn ja, ist die Lösung Prompt-Arbeit oder eine [strengere Eval](/the-eval-harness-i-use-to-ship-ai-agents/), kein hektischer Modellwechsel. ### 4. Die Orchestrierungsschicht Wenn ein einzelner Schritt isoliert in Ordnung ist, aber der mehrstufige Lauf fehlschlägt, steckt der Bug in der Übergabe — verlorener Zustand zwischen Schritten, eine Race Condition, ein Retry, der eine nicht-idempotente Aktion erneut ausgeführt hat. Das sind die ekligsten, und ich behandle die Muster in [Mehr-Agenten-Orchestrierungsmustern](/multi-agent-orchestration-patterns-queues-state-handoffs/). ## Reproduziere Nicht-Determinismus, statt ihn zu bekämpfen Was Agenten undebugbar erscheinen lässt, ist Nicht-Determinismus: Dieselbe Eingabe erzeugt über Läufe hinweg unterschiedliche Ausgaben. Du kannst ihn zähmen. Erstens: **Fixiere, was du kannst.** Setze `temperature: 0` während des Debuggings. Es macht Claude nicht vollständig deterministisch, aber es engt die Varianz stark ein, sodass du einen echten Bug von Sampling-Rauschen unterscheiden kannst. Zweitens: **Führe es N-mal aus.** Wenn ein Fehler 1 von 20 Läufen auftritt, lass die exakte Eingabe 50-mal laufen und erfasse jede Ausgabe. Jetzt hast du eine Stichprobe, keine Anekdote. Ein Bug, der in 5 % der Fälle feuert, ist ein echter Bug — du brauchst nur Volumen, um ihn zu sehen. ```bash for i in $(seq 1 50); do node replay.mjs --trace=abc123 >> runs.jsonl done # dann zähle die Fehlschläge grep -c '"status":"fail"' runs.jsonl ``` Drittens: **Vergleiche die erfolgreichen und die fehlgeschlagenen Läufe.** Mit fixierter Temperatur und derselben Eingabe bedeutet ein Unterschied in der Ausgabe einen Unterschied in der Eingabe, den du noch nicht entdeckt hast — ein Zeitstempel im Prompt, ein variierendes Tool-Ergebnis, ein abgerufenes Dokument, das sich geändert hat. ## Bau ein Replay-Harness, damit du aufhörst, in Produktion zu debuggen Debugging durch erneutes Auslösen des Live-Agenten ist langsam und riskant — er versendet echte E-Mails, bucht echte Plätze. Erfasse stattdessen die Trace und spiele sie offline erneut ab. Das Replay-Harness lädt eine protokollierte Trace, rekonstruiert die exakten Eingaben für jeden beliebigen Schritt und führt nur diesen Schritt erneut gegen das Modell aus. Weil du das vollständige `messages`-Array protokolliert hast, brauchst du das vorgelagerte System überhaupt nicht. Das verwandelt einen 10-minütigen Produktions-Roundtrip in eine 2-sekündige lokale Schleife und ist die größte Beschleunigung in meinem Debugging-Workflow. Ein gutes Replay-Harness lässt dich auch **mutieren und erneut ausführen**: Ändere eine Zeile des System-Prompts, spiele dieselben 50 fehlgeschlagenen Traces erneut ab und schau, wie viele jetzt bestehen. Das ist die Brücke vom Debugging zur Eval — sobald du ein Korpus fehlgeschlagener Traces hast, hast du den Anfang einer Regressions-Suite. ## Beobachte die Metriken, die Ausfälle tatsächlich vorhersagen Manche Fehler werfen nie eine Ausnahme. Der Agent läuft, gibt etwas Plausibles zurück und tut still das Falsche. Um die zu erwischen, beobachtest du Verhaltensmetriken, nicht nur Fehlerraten: - **Tool-Aufruf-Erfolgsrate** pro Tool. Ein Rückgang hier geht oft einem sichtbaren Ausfall voraus. - **Gültigkeit des Ausgabeschemas** — wie viel % der Ausgaben gegen die erwartete Struktur parsen. Ich validiere jede Ausgabe mit Zod und alarmiere, wenn die Gültigkeit sinkt. - **Schleifenlänge** — durchschnittliche Anzahl der Schritte pro Lauf. Ein plötzlicher Anstieg bedeutet meist, dass der Agent in Wiederholungen feststeckt. - **Kosten pro Lauf** — eine außer Kontrolle geratene Schleife zeigt sich als Kostenspitze, bevor sie sich als Beschwerde zeigt. (Wenn Kosten zählen, lohnt sich die [Haiku-vs-Sonnet-Rechnung](/ai-agent-cost-math-when-haiku-beats-sonnet).) Ich verfolge diese genauso wie alles andere — siehe [wie ich messe, ob ein KI-Agent tatsächlich funktioniert](/how-i-measure-whether-an-ai-agent-is-actually-working/). Die Metrik, die einen stillen Ausfall erwischt, ist zehn wert, die laute erwischen. ## Die 5-Minuten-Triage-Checkliste Wenn ein Agent bricht und die Uhr läuft, gehe ich diese der Reihe nach durch: 1. **Hol die Trace-ID** des fehlgeschlagenen Laufs. 2. **Lies die exakte Eingabe** des fehlgeschlagenen Schritts. Ist sie wohlgeformt? (Löst hier ~50 % der Fälle.) 3. **Prüfe die Tool-Ergebnisse** in dieser Trace auf als Erfolg getarnte Fehler. 4. **Spiele den Schritt offline erneut ab** bei `temperature: 0`. Reproduziert er sich? 5. **Wenn er sich reproduziert,** ist es ein Prompt-/Modellproblem — beheben und das Trace-Korpus erneut ausführen. **Wenn nicht,** ist es Nicht-Determinismus oder ein Zustands-/Orchestrierungs-Bug — 50× durchlaufen lassen, um ihn zu charakterisieren. Disziplinierte Isolation schlägt cleveres Prompting jedes Mal. Das Modell ist selten das Problem; das System drumherum meist schon. ## FAQ ### Wie debugge ich einen KI-Agenten, der nur manchmal fehlschlägt? Erfasse die exakte Eingabe aus einer protokollierten Trace und spiele sie über 50-mal bei Temperatur 0 erneut ab. Intermittierende Fehler sind echte Bugs mit niedriger Auslöserate — Volumen verwandelt die Anekdote in eine reproduzierbare Stichprobe, die du vergleichen und beheben kannst. ### Steckt der Bug meist im Modell oder in meinem Code? In meinen Produktions-Agenten sind rund 70 % der scheinbaren „KI-Bugs" Verkabelung: fehlerhafte Tool-Ergebnisse, abgeschnittene Eingaben, verschluckte Ausnahmen oder verlorener Zustand zwischen Schritten. Schließe die Eingabe- und Tool-Schichten aus, bevor du das Modell verdächtigst. ### Was ist das Minimum an Protokollierung, das ich zum Debuggen von Agenten brauche? Eine Trace-ID bei jedem Lauf, plus strukturierte Logs des Triggers, jedes Modellaufrufs (vollständiges Messages-Array), jedes Tool-Aufrufs und seines rohen Ergebnisses und der finalen Ausgabe. Wenn ein Schritt nicht protokolliert ist, kannst du ihn nicht debuggen. ### Wie höre ich auf, gegen die Live-Produktion zu debuggen? Bau ein Replay-Harness, das eine protokollierte Trace lädt und jeden einzelnen Schritt offline mit den erfassten Eingaben erneut ausführt. Es verwandelt einen langsamen, riskanten Produktions-Roundtrip in eine schnelle lokale Schleife und wird zum Samen deiner Regressions-Suite. --- ## Wie man misst, ob die KI-Suche dir wirklich Traffic schickt Source: https://alejandrorioja.com/de/how-to-measure-ai-search-traffic/ Published: 2026-06-08 Tags: GEO, Analytics TL;DR: Der Großteil des KI-Such-Traffics zeigt sich als dünnes Rinnsal von Verweisen aus chatgpt.com, perplexity.ai und claude.ai — aber der größere Effekt ist dunkel: Menschen lesen die Antwort der KI und klicken nie. Ich messe beides, nutze Referrer für die Klicks und den Anstieg von Marken-Suchanfragen für den Einfluss. ## Inhaltsverzeichnis _Aktualisiert im Juni 2026._ **TL;DR:** Der Großteil des KI-Such-Traffics kommt als dünner Strom von Verweisen aus `chatgpt.com`, `perplexity.ai` und `claude.ai` an — leicht zu zählen, sobald man weiß, wo man hinschauen muss. Aber der größere Effekt ist **dunkel**: Menschen lesen die Antwort der KI, nehmen deine Marke auf und klicken nie. Ich verfolge die Klicks mit Referrer-Segmenten und den Einfluss mit dem Anstieg von Marken-Suchanfragen, Verschiebungen im Direkt-Traffic und Citation-Monitoring. Nur die Klicks zu zählen, unterschätzt die KI-Suche gewaltig. **Sicht des Operators:** Ich betreibe eine Content-Maschine und beobachte deren Analytics täglich. Die Frage „Schickt mir die KI-Suche Traffic?" hat eine frustrierende Antwort: ja, aber der größte Teil des Werts taucht in deinem Sessions-Bericht nicht auf. So messe ich den Teil, der es tut, und schließe auf den, der es nicht tut. Jeder will eine einzige Zahl: „Wie viel Traffic schickt mir ChatGPT?". Die ehrliche Antwort ist, dass die KI-Suche zwei sehr unterschiedliche Effekte erzeugt, und du brauchst zwei verschiedene Messungen. Vermischst du sie, gerätst du entweder in Panik (die Klicks sehen winzig aus) oder belügst dich selbst (du übersiehst die echte Wirkung). ## Effekt 1: Direkte Verweise — zählbar und kleiner als erhofft Wenn jemand auf eine Quellenangabe innerhalb von ChatGPT, Perplexity oder einer Claude-Antwort klickt, zeichnet deine Analytics einen Referrer auf. Das sind echte, zurechenbare Sitzungen. Baue in GA4 oder jedem Analyse-Tool ein Segment, das die KI-Engines erfasst: ``` session source matches any of: chatgpt.com chat.openai.com perplexity.ai claude.ai gemini.google.com copilot.microsoft.com ``` Speichere das als Kanal „KI-Suche" und beobachte ihn über die Zeit. Ein paar Vorbehalte, die viele übersehen: - **Referrer gehen verloren.** Manche KI-Oberflächen entfernen oder verstümmeln den Referrer, sodass ein Teil echter KI-Klicks stattdessen unter „Direkt" landet. Deine Verweis-Zählung ist eine Untergrenze, nicht die Wahrheit. - **Das Volumen ist niedrig im Verhältnis zu den Antwort-Impressionen.** KI-Engines beantworten die Frage auf der Seite; nur die neugierige Minderheit klickt durch. Eine Handvoll täglicher Verweise kann weit mehr Menschen entsprechen, die dich zitiert gesehen haben. Das Verweis-Segment ist also notwendig, aber unzureichend. Es sagt dir, dass die KI-Suche *etwas* Traffic schickt. Es unterzählt den Einfluss gewaltig. ## Effekt 2: Dunkler Einfluss — die größere, schwerer sichtbare Hälfte Das eigentliche Geschehen ist klicklos. Jemand stellt ChatGPT eine Frage, deine Marke erscheint in der Antwort als empfohlene Quelle, und er klickt nie — er erinnert sich einfach an dich. Das zeigt sich später als **Marken-Suchanfrage** oder **direkter Besuch**, der nichts zugeordnet wird. Es ist dieselbe Dynamik, die Featured Snippets so schwer messbar machte, nur verstärkt. Dunklen Einfluss kannst du nicht direkt messen, aber du kannst ihn triangulieren: 1. **Volumen der Marken-Suchanfragen.** Verfolge Suchanfragen nach deinem Namen/deiner Marke in der Google Search Console über die Zeit. Wenn du anfängst, von KI-Engines zitiert zu werden, und deine Marken-Impressionen ohne passende Kampagne steigen, ist dieser Anstieg ein Fingerabdruck des KI-Einflusses. 2. **Trend des Direkt-Traffics.** Ein anhaltender Anstieg der „Direkt"-Sitzungen, der keiner Kampagne folgt, spiegelt oft KI-Verweise ohne ihren Referrer wider, plus Menschen, die dich nach einer KI-Erwähnung direkt eintippen. 3. **Assistierte Conversions.** Schau, ob KI-Such-Sitzungen, selbst wenn sie selten sind, als *erster* Kontaktpunkt in konvertierenden Journeys auftauchen. Ein Kanal, der beim Last-Click winzig ist, kann beim First-Touch bedeutsam sein. Keine dieser Größen ist eine saubere Zahl. Zusammen sagen sie dir, ob sich die dunkle Hälfte bewegt. ## Verfolge Zitate, nicht nur Klicks Hier ist die Kennzahl, die mir bei der KI-Suche am wichtigsten ist, und sie steht überhaupt nicht in deiner Analytics: **Werde ich zitiert, und für welche Anfragen?** Pflege eine Liste der 20-40 Anfragen, die für dein Geschäft zählen, und schicke sie planmäßig durch ChatGPT, Perplexity und Claude — wöchentlich reicht völlig. Protokolliere für jede Anfrage und jede Engine: Wirst du zitiert, und an welcher Position? Das ist das GEO-Äquivalent zum Rank-Tracking, und es ist der Frühindikator. Zitate bewegen sich *vor* dem nachgelagerten Traffic und dem Markenanstieg, also siehst du hier, ob deine [GEO-Arbeit für lokale Unternehmen](/geo-for-local-business-getting-a-brick-and-mortar-cited-by-ai-search/) greift. Ich habe einen kleinen Agenten gebaut, der diese Prüfungen ausführt und die Ergebnisse protokolliert — die Art von Sache, die trivial wird, sobald man einen Agenten-Stack hat. Wenn du es lieber von Hand machst, funktioniert eine Tabelle und ein wöchentlicher 30-Minuten-Durchlauf für den Anfang gut. Die Methodik entspricht meinem [ChatGPT-vs-Google-Citation-Test](/chatgpt-search-vs-google-50-term-test/), nur kontinuierlich statt einmalig ausgeführt. ## Baue das Dashboard: vier Zahlen, wöchentlich Ich ertrinke nicht in Kennzahlen. Für die KI-Suche beobachte ich vier Dinge und überprüfe sie wöchentlich: 1. **KI-Verweis-Sitzungen** — die zählbaren Klicks aus dem Referrer-Segment. Trend, nicht Absolutwert. 2. **Citation-Abdeckung** — % meiner verfolgten Anfragen, bei denen ich über die drei Engines zitiert werde. Der Frühindikator. 3. **Marken-Such-Impressionen** — aus der Search Console, als Proxy für den dunklen Einfluss. 4. **KI-stammende Conversions** — selbst wenn klein, ob KI-Sitzungen je eine konvertierende Journey starten. Wenn die Citation-Abdeckung steigt, während die Verweis-Sitzungen flach bleiben, ist das *kein* Misserfolg — meist bedeutet es, dass die dunkle Hälfte wächst und die Marken-Such-Zahl folgen sollte. Wenn die Citation-Abdeckung fällt, ist das eine frühe Warnung, auf die man reagieren sollte, bevor sich irgendeine Traffic-Zahl bewegt. Das ist dieselbe „den Frühindikator messen"-Disziplin, die ich bei Agenten anwende in [wie ich messe, ob ein KI-Agent wirklich funktioniert](/how-i-measure-whether-an-ai-agent-is-actually-working/). ## Was man mit den Zahlen anfängt Messung ist nur nützlich, wenn sie ändert, was du tust. Das Playbook: - **Citation-Abdeckung niedrig für eine Anfrage, die dir wichtig ist?** Das ist ein Content- + [Schema](/schema-markup-for-ai-engines-the-types-that-punch-above-their-weight/)-Problem. Die Seite existiert entweder nicht, ist nicht für die Extraktion strukturiert oder nicht autoritativ genug, um in die Antwort aufgenommen zu werden. - **Zitiert, aber kein Verweis-Traffic?** Erwartet und völlig in Ordnung — die KI-Suche leistet Markenarbeit, keine Klickarbeit. „Repariere" es nicht, indem du Klicks hinterherjagst; setze darauf, die zitierte Quelle zu sein. - **Verweise von einer Engine, aber nicht von anderen?** Engines weichen bei den Quellen stark voneinander ab (ich habe ~40 % Überschneidung zwischen ChatGPT und Google gemessen). Von einer zitiert zu werden, bringt dir die anderen nicht — bearbeite die Abdeckung jeder Engine separat. ## Eine Anmerkung zur Ehrlichkeit bei der Attribution Widerstehe dem Drang, eine Präzision zu behaupten, die du nicht hast. KI-Such-Messung im Jahr 2026 ist Triangulation, nicht Attribution. Wer dir eine saubere Zahl „ChatGPT hat dir X Dollar gebracht" verkauft, übertreibt, was wissbar ist, denn die Referrer gehen verloren und der größte Effekt ist konstruktionsbedingt klicklos. Die richtige Haltung: zähle, was du zählen kannst, beobachte die Proxies für das, was du nicht kannst, und triff Entscheidungen anhand des Trends. Der Trend ist vertrauenswürdig, auch wenn die absolute Zahl es nicht ist. ## FAQ ### Wie sehe ich Traffic von ChatGPT oder Perplexity in GA4? Baue einen Kanal/ein Segment, das den Domains der KI-Engines entspricht — chatgpt.com, chat.openai.com, perplexity.ai, claude.ai, gemini.google.com, copilot.microsoft.com — als Session-Quelle. Das erfasst die Klick-Verweise, obwohl einige zu „Direkt" entfernt werden, also behandle die Zählung als Untergrenze. ### Warum ist mein KI-Such-Verweis-Traffic so niedrig? Weil die KI-Suche überwiegend klicklos ist — die Engine antwortet auf der Seite, und nur eine Minderheit klickt durch. Niedrige Verweis-Zählungen fallen oft mit weit größeren Citation-Impressionen zusammen. Miss Zitate und den Anstieg von Marken-Suchanfragen, um den Teil zu sehen, den Verweise verfehlen. ### Was ist der beste Frühindikator für die KI-Suche? Die Citation-Abdeckung: der Prozentsatz deiner verfolgten geschäftskritischen Anfragen, bei denen du über ChatGPT, Perplexity und Claude zitiert wirst. Sie bewegt sich vor Traffic und Markenanstieg, sagt dir also früh, ob deine GEO-Arbeit greift. ### Kann ich aus der KI-Suche eine exakte Umsatz-Attribution bekommen? Nein, nicht zuverlässig im Jahr 2026. Referrer gehen in „Direkt" verloren, und der Großteil der Wirkung ist konstruktionsbedingt klicklos. Behandle die KI-Such-Messung als Triangulation — zähle Klicks, beobachte die Proxies für Marken-Suchanfragen und Direkt-Traffic, und entscheide anhand des Trends, nicht anhand einer scheinpräzisen Dollar-Zahl. --- ## Multi-Agenten-Orchestrierungsmuster: Queues, State und Übergaben Source: https://alejandrorioja.com/de/multi-agent-orchestration-patterns-queues-state-handoffs/ Published: 2026-06-08 Tags: AI Agents, Operations TL;DR: Zuverlässige Multi-Agenten-Systeme entstehen nicht durch clevere Prompts — sie entstehen durch die langweilige Disziplin verteilter Systeme: dauerhafte Queues zwischen Agenten, State außerhalb des Modells und idempotente Übergaben, die Wiederholungen überstehen. Das Modell ist der Worker; die Queue ist das Rückgrat. ## Inhaltsverzeichnis _Aktualisiert Juni 2026._ **TL;DR:** Zuverlässige Multi-Agenten-Systeme gewinnt man nicht mit cleveren Prompts — man gewinnt sie mit der langweiligen Disziplin verteilter Systeme. Setze eine dauerhafte **Queue** zwischen die Agenten, halte den **State außerhalb des Modells** und mache jede **Übergabe idempotent**, damit eine Wiederholung nicht doppelt handeln kann. Das Modell ist der Worker; die Queue ist das Rückgrat. Bekommst du diese drei richtig hin, hört Orchestrierung auf, beängstigend zu sein. **Operator-Sicht:** Die meisten meiner über 100 Agenten sind einstufig. Die, die es nicht sind — die Pipelines, die klassifizieren, dann anreichern, dann handeln — wurden erst zuverlässig, als ich aufhörte, in „Prompt-Kette" zu denken, und anfing, in „Job-Queue mit LLM-Workern" zu denken. Das ist Architektur, nicht Prompt-Engineering. „Multi-Agent" klingt so, als würden die Agenten miteinander reden. In der Praxis ist die zuverlässige Version das Gegenteil: Agenten kommunizieren überhaupt nicht direkt. Sie legen Nachrichten auf eine Queue und nehmen Arbeit aus einer Queue, und die Orchestrierung lebt in der Verrohrung zwischen ihnen. Hier sind die Muster, die in der Produktion standhalten. ## Muster 1: Setze eine dauerhafte Queue zwischen jeden Agenten Der erste Instinkt ist, Agent B direkt aus Agent A heraus aufzurufen. Tu das nicht. Direkte Aufrufe koppeln die beiden: Ist B langsam, blockiert A; schlägt B fehl, ist A's Arbeit verloren; musst du B skalieren, kannst du das nicht, ohne A anzufassen. Stattdessen beendet A seine Arbeit und **reiht eine Nachricht** für B ein. B ist ein separater Worker, der die Queue in seinem eigenen Tempo leert. ```typescript // Agent A ist fertig und übergibt via Queue — kein direkter Aufruf von B await env.ENRICH_QUEUE.send({ traceId, type: "enrich", payload: classifierResult, }); // A's Job ist erledigt. B wird das unabhängig aufgreifen. ``` Auf Cloudflare nutze ich Workers Queues genau dafür — dieselben Primitiven hinter [dem Agenten-Stack, den ich verwende](/the-agent-stack-i-use-to-run-30-production-agents-no-python/). Die Queue gibt dir vier Dinge gratis: **Buffering** (B kann ausfallen, ohne Arbeit zu verlieren), **Wiederholungen** (fehlgeschlagene Nachrichten werden erneut zugestellt), **Gegendruck** (eine Spitze wird eingereiht, statt abzustürzen) und **Entkopplung** (skaliere oder redeploye B, ohne A anzufassen). Jedes davon ist etwas, das du sonst von Hand bauen und falsch machen müsstest. ## Muster 2: Halte den State immer außerhalb des Modells Der häufigste Multi-Agenten-Bug ist die Annahme, dass das Modell sich zwischen Schritten an irgendetwas erinnert. Das tut es nicht. Jeder Modellaufruf ist zustandslos; das einzige Gedächtnis ist das, was du in den Prompt schreibst. Also muss die Quelle der Wahrheit für „wo steht dieser Job in der Pipeline" in einer Datenbank leben, nicht in einer Konversation. Ich halte einen einzigen Job-Datensatz, den jeder Agent liest und aktualisiert: ```typescript interface JobState { traceId: string; stage: "classified" | "enriched" | "acted" | "done" | "failed"; data: Record; attempts: number; updatedAt: number; } ``` Jeder Agent durchläuft dieselbe Schleife: den Job-State **lesen**, seine Arbeit tun, den neuen State **schreiben**, die nächste Stufe einreihen. Das Modell hält niemals den State — es erhält den relevanten Ausschnitt als Eingabe und gibt ein Ergebnis zurück. Genau das macht das System neustartbar: Stirbt ein Worker mitten im Job, sagt der State-Datensatz immer noch genau, wo die Dinge standen, und die erneut zugestellte Queue-Nachricht setzt von dort fort. Es macht auch das Debugging handhabbar, denn die State-Tabelle ist ein abfragbarer Datensatz der Reise jedes Jobs — dieselbe Instrumentierungs-Denkweise wie in [wie ich messe, ob ein Agent funktioniert](/how-i-measure-whether-an-ai-agent-is-actually-working/). ## Muster 3: Mache jede Übergabe idempotent Queues garantieren *Mindestens-einmal*-Zustellung, nicht Genau-einmal. Das heißt, eine Nachricht kann zweimal zugestellt werden — Netzwerkausfälle, Wiederholungen, Redeployments. Ist die Aktion deines Agenten nicht idempotent, handelt eine Doppelzustellung doppelt: zwei Bestätigungsmails, zwei Buchungen, zwei Abbuchungen. Das ist die übelste Klasse von Orchestrierungs-Bug, und es ist die, die Teams in der Produktion entdecken. Die Lösung ist, Aktionen mit einem Schlüssel idempotent zu machen: ```typescript async function handleEnrich(msg: QueueMessage, env: Env) { const job = await getJob(env, msg.traceId); if (job.stage !== "classified") { // Bereits über diese Stufe hinaus verarbeitet — eine Doppelzustellung. Überspringen. return; } const result = await enrich(job.data); await advanceJob(env, msg.traceId, "enriched", result); await env.ACT_QUEUE.send({ traceId: msg.traceId, type: "act" }); } ``` Die Stufenprüfung macht die Operation sicher zweimal ausführbar: Die zweite Zustellung sieht, dass der Job bereits vorangeschritten ist, und tut nichts. Für externe Nebeneffekte (eine Mail senden, eine Karte belasten) übergib einen Idempotenz-Schlüssel an die nachgelagerte API, damit *sie* ebenfalls dedupliziert. Geh davon aus, dass jede Nachricht zweimal zugestellt wird, und entwirf so, dass das harmlos ist — denn irgendwann wird es passieren. ## Muster 4: Orchestrator vs. Choreografie — bewusst wählen Es gibt zwei Wege, den Fluss zu verdrahten, und die richtige Wahl hängt von der Komplexität ab. **Choreografie** (mein Standard): Jeder Agent kennt nur den nächsten Schritt und reiht ihn ein. Der Fluss ergibt sich aus der Kette. Einfach, dezentral, leicht erweiterbar — füge eine Stufe hinzu, indem du eine Queue einfügst. Der Nachteil ist, dass kein einzelner Ort den gesamten Fluss beschreibt, sodass eine komplexe Pipeline schwer nachvollziehbar werden kann. **Orchestrierung** (ein zentraler Koordinator): Ein Orchestrator besitzt den Fluss, ruft jeden Agenten der Reihe nach auf und entscheidet anhand der Ergebnisse, was als Nächstes kommt. Der gesamte Fluss lebt an einem lesbaren Ort, und die Verzweigungslogik ist explizit. Der Preis ist eine zentrale Komponente, die selbst dauerhaft sein muss — ist der eigene State des Orchestrators nicht ausgelagert (Muster 2), wird er zum Single Point of Failure. Meine Regel: **Choreografie, bis die Verzweigung komplex wird, dann ein dauerhafter Orchestrator.** Eine lineare dreistufige Pipeline ist Choreografie. Ein Fluss mit bedingtem Routing, parallelem Fan-out und Joins will einen Orchestrator, dessen State in der Datenbank lebt, damit er nach einem Absturz fortsetzen kann. ## Muster 5: Fan-out, Fan-in ohne Teile zu verlieren Wenn ein Job N parallele Teilaufgaben erzeugt (50 Datensätze anreichern, 20 Dokumente zusammenfassen) und du auf alle warten musst, bevor es weitergeht, brauchst du einen **Join**. Der Trick ist ein Zähler im Job-State: 1. Der Parent reiht N Child-Nachrichten ein und schreibt `expected: N, completed: 0` in den Job-Datensatz. 2. Jedes Child tut seine Arbeit und **inkrementiert atomar** `completed`. 3. Das Child, das `completed` auf `expected` hochbringt, reiht die nächste Stufe ein. Das atomare Inkrement ist tragend — ohne es können zwei gleichzeitig fertig werdende Children beide glauben, sie seien nicht das letzte, und der Join feuert nie. Verwende einen Zähler, den der Datastore atomar inkrementieren kann, oder eine Transaktion. Dieses Muster lässt dich die teure Mitte einer Pipeline parallelisieren (oft Haiku-günstige Arbeit — siehe die [Haiku-vs-Sonnet-Kostenrechnung](/ai-agent-cost-math-when-haiku-beats-sonnet)) und am Ende einen sauberen Join behalten. ## Was ich auslassen würde Du brauchst kein schwergewichtiges Agenten-Framework, um irgendetwas davon zu tun. Queues, eine State-Tabelle und Idempotenz-Schlüssel sind Primitiven, die jede Plattform bereits hat. Ich habe Teams gesehen, die zu aufwendigen Multi-Agenten-Frameworks griffen, um Features zu bekommen, die eine Queue ihnen gratis gibt, und sich eine Blackbox einhandelten, die schwerer zu debuggen war als die Verrohrung, die sie ersetzte. Beginne mit den langweiligen Primitiven. Greife erst zu einem Framework, wenn du einen konkreten Schmerz gespürt hast, den es löst. Die Zusammenfassung: Agenten sind zustandslose Worker, Queues sind das dauerhafte Rückgrat, der State lebt in einer Datenbank und jede Übergabe ist sicher zweimal ausführbar. Das ist das ganze Spiel. ## FAQ ### Sollten sich Agenten direkt aufrufen oder über eine Queue gehen? Über eine Queue. Direkte Aufrufe koppeln Agenten — der Ausfall oder die Langsamkeit des einen pflanzt sich auf den anderen fort, und du kannst nicht unabhängig skalieren oder redeployen. Eine dauerhafte Queue gibt dir Buffering, Wiederholungen, Gegendruck und Entkopplung gratis. ### Wo sollte Multi-Agenten-State leben? Außerhalb des Modells, in einer Datenbank, als Job-Datensatz, den jeder Agent liest und aktualisiert. Modellaufrufe sind zustandslos, also muss die Quelle der Wahrheit für den Pipeline-Fortschritt extern sein — genau das macht das System nach einem Absturz neustartbar. ### Wie verhindere ich, dass ein Agent zweimal auf denselben Job handelt? Mache Übergaben idempotent. Prüfe die Stufe des Jobs vor dem Handeln und tue nichts, wenn er bereits vorangeschritten ist, und übergib Idempotenz-Schlüssel an externe APIs. Queues stellen mindestens einmal zu, also geh davon aus, dass jede Nachricht zweimal ankommen kann, und entwirf so, dass Duplikate harmlos sind. ### Brauche ich ein Multi-Agenten-Framework? Meistens nein. Dauerhafte Queues, eine State-Tabelle und Idempotenz-Schlüssel decken die meisten Produktionsbedürfnisse mit Primitiven ab, die deine Plattform bereits bietet. Übernimm ein Framework nur, wenn du auf ein konkretes Problem triffst, das es einzigartig löst, nicht standardmäßig. --- ## Das Eval-Harness, mit dem ich KI-Agenten ohne Angst ausliefere Source: https://alejandrorioja.com/de/the-eval-harness-i-use-to-ship-ai-agents/ Published: 2026-06-08 Tags: AI Agents, Operations TL;DR: Agenten ohne Angst auszuliefern hängt an einer Sache: einem Eval-Harness. Ein fester Satz bewerteter Testfälle, automatisch gescort (Assertions plus ein LLM-Richter), ausgeführt vor jeder Prompt- oder Modelländerung. Hält der Score, wird ausgeliefert. Das Testset wird aus echten Produktionsfehlern gebaut. ## Inhaltsverzeichnis _Aktualisiert Juni 2026._ **TL;DR:** Der Grund, warum ich einen Prompt ändern oder ein Modell bei einem Live-Agenten austauschen kann, ohne den Atem anzuhalten, ist eine Sache: ein **Eval-Harness**. Ein fester Satz bewerteter Testfälle, automatisch gescort — harte Assertions, wo ich sie schreiben kann, ein LLM-Richter, wo ich es nicht kann — ausgeführt vor jeder Änderung. Hält der Score, liefere ich aus. Fällt der Score, tue ich es nicht. Das Testset ist nicht synthetisch; es wird aus echten Produktionsfehlern gebaut, sodass jeder Bug zu einem dauerhaften Regressionstest wird. **Operator's read:** Über mehr als 100 Agenten hinweg ist der Unterschied zwischen denen, die ich selbstbewusst anfasse, und denen, vor denen ich Angst habe, ob sie Evals haben. Kein Eval-Harness bedeutet, dass jede Prompt-Anpassung ein Glücksspiel ist. Ein Eval-Harness verwandelt „ich glaube, das ist besser" in „das ist messbar 4 Punkte besser und hat nichts kaputt gemacht". Das ist der ganze Durchbruch. Du würdest keinen Code ohne Tests ausliefern. Leute liefern ständig Agenten ohne Evals aus und fragen sich dann, warum eine „winzige Prompt-Anpassung" die Produktion zerlegt hat. Ein Eval-Harness ist die Testsuite für nicht-deterministische Software. Hier ist das, das ich tatsächlich ausführe. ## Beginne mit einem Testset, das aus echten Fehlern gebaut ist Das Harness ist nur so gut wie seine Testfälle, und die besten Testfälle kommen aus der Produktion, nicht aus deiner Fantasie. Jedes Mal, wenn ein Agent in freier Wildbahn versagt, erfasse ich die exakte Eingabe (ich logge jeden Lauf mit einer Trace-ID — siehe [wie man einen Agenten in der Produktion debuggt](/how-to-debug-an-ai-agent-in-production)) und verwandle sie in einen Eval-Fall: ```typescript interface EvalCase { id: string; input: AgentInput; // die exakte Produktionseingabe expected?: string; // Ground Truth, wenn es eine gibt assertions: Assertion[]; // harte Prüfungen, die bestehen müssen rubric?: string; // für den LLM-Richter, wenn die Ausgabe offen ist } ``` Zwei Praktiken zählen hier. **Zieh aus der Produktion**, damit deine Evals testen, was tatsächlich kaputtgeht, nicht das, was du geraten hast. Und **deck die Bandbreite ab** — Happy Path, Randfälle, adversariale Eingaben und die leeren/fehlerhaften Eingaben, die stille Fehler verursachen. Ein Testset aus 30 bis 50 gut gewählten Fällen fängt weit mehr als 500 faule. Ich hätte lieber 40 Fälle, die jeweils einen echten Fehlermodus darstellen, als tausend, die alle denselben einfachen Pfad testen. ## Score zuerst mit Assertions, dann mit einem LLM-Richter Nicht jede Ausgabe braucht ein Modell zur Bewertung. Ich greife zum billigsten Scorer, der funktioniert. **Harte Assertions** für alles Strukturierte. Parst die Ausgabe als gültiges JSON? Enthält sie das erforderliche Feld? Liegt das extrahierte Datum im Bereich? Hat sie das richtige Tool mit den richtigen Argumenten aufgerufen? Diese sind deterministisch, kostenlos und eindeutig — schreib so viele wie du kannst. ```typescript const assertions: Assertion[] = [ (out) => isValidJSON(out), (out) => parse(out).category in ALLOWED_CATEGORIES, (out) => parse(out).confidence >= 0 && parse(out).confidence <= 1, ]; ``` **Ein LLM-Richter** für den offenen Rest — Ton, Hilfsbereitschaft, „hat das die Frage wirklich beantwortet". Hier gibst du einem Modell die Eingabe, die Ausgabe und eine Rubrik und bittest es, zu bewerten. Zwei Regeln halten den Richter ehrlich: mach die Rubrik **spezifisch** (eine 1-5-Skala mit beschriebenen Ankern schlägt „bewerte die Qualität"), und nutze ein **starkes Modell als Richter** — Bewerten ist eine Reasoning-Aufgabe, also ist das eine Stelle, an der ich gerne für Sonnet zahle, selbst wenn der Agent selbst auf Haiku läuft, gemäß der [Kostenrechnung](/ai-agent-cost-math-when-haiku-beats-sonnet). Eine vage Rubrik oder ein schwacher Richter gibt dir Rauschen, das wie Signal aussieht. ## Führe das Harness vor jeder Änderung aus Das Harness existiert, um eine Frage zu beantworten: *hat diese Änderung den Agenten besser oder schlechter gemacht?* Also führe ich es vor jeder Prompt-Bearbeitung, jedem Modellwechsel oder jeder Tool-Änderung aus. ```bash # Baseline auf main npm run eval -- --suite=booking-agent > baseline.json # mach die Änderung, dann erneut ausführen npm run eval -- --suite=booking-agent > candidate.json # vergleichen npm run eval:diff baseline.json candidate.json ``` Das Diff zeigt den aggregierten Score, das Bestanden/Durchgefallen pro Fall und — entscheidend — **welche spezifischen Fälle regressiert sind.** Ein Aggregat, das steigt, während drei Fälle still brechen, ist keine Verbesserung; es ist ein Tausch, den ich sehen und genehmigen will, nicht einer, der sich durchschleicht. Das Diff pro Fall zu beobachten ist, wie man „eine Sache behoben, zwei andere kaputt gemacht" vermeidet — den Fehlermodus, der Leute Angst vor ihren eigenen Prompts macht. ## Setze ein Regressions-Gate und lass es blockieren Sobald du dem Harness vertraust, verdrahte es als Gate in den Pfad zur Produktion. Meine Regel ist unverblümt: **eine Änderung, die den Score unter die Baseline-Schwelle drückt, wird nicht ausgeliefert.** Kein „ich schau mir das später an" — sie ist blockiert, genau wie ein fehlschlagender CI-Test. ```typescript const PASS_THRESHOLD = 0.90; // 90 % der Fälle müssen bestehen if (candidate.passRate < PASS_THRESHOLD || candidate.passRate < baseline.passRate) { throw new Error(`Eval regression: ${candidate.passRate} < ${baseline.passRate}`); } ``` Das ist es, was Evals von einem Nice-to-have in das verwandelt, was dir erlaubt, schnell zu sein. Das Gate ist, was „ohne Angst ausliefern" buchstäblich wahr macht: der schlimmste Fall für eine schlechte Änderung ist ein roter Eval-Lauf, kein Produktionsvorfall. Und weil das Testset jedes Mal wächst, wenn etwas kaputtgeht, wird das Gate von selbst mit der Zeit strenger und schützender. ## Berücksichtige Nicht-Determinismus beim Scoring Eine Feinheit, über die Leute stolpern: dieselbe Eingabe kann über Läufe hinweg unterschiedlich scoren, weil das Modell anders sampelt. Wenn du jeden Fall einmal ausführst, siehst du Phantom-Regressionen — ein Fall, der „kaputtging", ist in Wahrheit nur Sampling-Rauschen. Zwei Gegenmaßnahmen. Führe Evals bei **`temperature: 0`** aus, um die Varianz zu verkleinern (es wird sie nicht vollständig beseitigen). Und für Fälle, die du flackern gesehen hast, **führe sie N-mal aus und nimm die Bestehensrate**, nicht ein einzelnes Bestanden/Durchgefallen. Ein Fall, der 9 von 10 besteht, ist in besserer Verfassung als einer, der 5 von 10 besteht, auch wenn beide einen grünen Einzellauf zeigen können. Das ist dasselbe Prinzip von Volumen-über-Anekdote, das ich beim [Debuggen intermittierender Fehler](/how-to-debug-an-ai-agent-in-production) nutze — ein Lauf ist eine Meinung, fünfzig Läufe sind Daten. ## Schließe die Schleife mit Produktionsüberwachung Das Eval-Harness testet gegen bekannte Fälle. Die Produktion wirft neue. Also ist die Schleife: überwache das Live-Verhalten, fang einen neuen Fehlermodus, verwandle ihn in einen Eval-Fall, behebe ihn, und nun ist er dauerhaft abgesichert. Die Überwachungsseite — Erfolgsrate, Ausgabenvalidität und Kosten pro Lauf auf Live-Traffic zu verfolgen — ist das, was ich in [wie ich messe, ob ein KI-Agent tatsächlich funktioniert](/how-i-measure-whether-an-ai-agent-is-actually-working/) behandle. Evals und Überwachung sind zwei Hälften desselben Systems: die Überwachung findet die Bugs, die Evals stellen sicher, dass sie tot bleiben. Diese Feedback-Schleife ist das eigentliche Produkt. Jedes einzelne Eval-Set veraltet; ein *Prozess*, der jeden Produktionsfehler in einen dauerhaften Test verwandelt, wird jede Woche stärker. So wird aus einem Agenten von „beängstigend anzufassen" etwas, das ich an einem Freitagnachmittag ohne mit der Wimper zu zucken refaktoriere. ## FAQ ### Was gehört in ein Eval-Set für einen KI-Agenten? Echte Produktionseingaben, in bewertete Fälle verwandelt — Happy Path, Randfälle, adversariale und fehlerhafte Eingaben — jeweils mit harten Assertions und, für offene Ausgaben, einer LLM-Richter-Rubrik. 30 bis 50 Fälle aus echten Fehlern schlagen Hunderte synthetischer, die alle den einfachen Pfad testen. ### Sollte ich ein LLM nutzen, um Agenten-Ausgaben zu bewerten? Nutze harte Assertions überall dort, wo die Ausgabe strukturiert ist (gültiges JSON, korrektes Feld, richtiger Tool-Aufruf) — sie sind kostenlos und deterministisch. Reserviere einen LLM-Richter für offene Qualitäten wie Ton und Hilfsbereitschaft, mit einer spezifischen Rubrik und einem starken Richter-Modell, damit du Signal bekommst, kein Rauschen. ### Wie verhindere ich, dass eine Prompt-Änderung die Produktion still kaputt macht? Führe das Eval-Harness vor jeder Änderung aus und vergleiche gegen eine Baseline, wobei du auf Regressionen pro Fall achtest, nicht nur auf den aggregierten Score. Dann mach Deployments vom Ergebnis abhängig, sodass jede Änderung, die unter die Baseline-Schwelle fällt, wie ein fehlschlagender Test blockiert wird. ### Wie gehe ich mit Nicht-Determinismus in Evals um? Führe bei Temperatur 0 aus, um die Varianz zu reduzieren, und für Fälle, die flackern, führe sie mehrfach aus und score die Bestehensrate statt eines einzelnen Laufs. Ein Fall, der 9 von 10 Mal besteht, ist gesünder als einer, der 5 von 10 besteht, selbst wenn ein Einzellauf beide grün zeigt. --- ## Wie man seinen Newsletter mit einem KI-Agenten automatisiert Source: https://alejandrorioja.com/de/how-to-automate-your-newsletter-with-an-ai-agent/ Published: 2026-06-06 Updated: 2026-06-06 Tags: AI Agents, Growth TL;DR: Ein Claude-Agent liest meine Content-Queue, wählt den stärksten Blickwinkel der Woche, entwirft einen Newsletter in meiner Stimme, segmentiert die Liste nach Engagement-Stufe und plant den Versand über die Kit-API — alles ohne dass ich einen Editor öffne. Ich überprüfe eine gerenderte Vorschau und klicke auf Genehmigen. Die harte kreative Arbeit gehört mir; die mechanische Ausführung gehört dem Agenten. ## Inhaltsverzeichnis _Aktualisiert Juni 2026._ **TL;DR:** Ein Claude-Agent liest meine Content-Queue, wählt den stärksten Blickwinkel der Woche, entwirft einen Newsletter in meiner Stimme, segmentiert die Liste nach Engagement-Stufe und plant den Versand über die Kit-API — alles ohne dass ich einen Editor öffne. Ich überprüfe eine gerenderte Vorschau und klicke auf Genehmigen. Die harte kreative Arbeit gehört mir; die mechanische Ausführung gehört dem Agenten. **[Operator-Lektüre]** Ein Newsletter, der konsistent versendet wird, schlägt einen, der "besser" ist, aber nur versendet wird, wenn die Inspiration kommt. Die Einschränkung war der Ausführungsaufwand, nicht die Ideen. Ich hatte Ideen; ich hatte nicht die Kapazität, sie jede Woche zu formatieren, zu planen und zu segmentieren. Der Agent hat diese Lücke beseitigt. ## Der tatsächliche Engpass in den meisten Newsletter-Workflows Die meisten Newsletter-Automatisierungsratschläge konzentrieren sich auf das Falsche: Willkommenssequenzen, Automatisierungen, Tagging-Logik. Das ist in Ordnung, aber es löst nicht das wöchentliche Erstellungsproblem. Das eigentliche Problem ist folgendes: Sie wissen, was Sie sagen wollen, aber sich hinzusetzen, um es zu formatieren, die Betreffzeilen-Varianten zu schreiben, das richtige Segment auszuwählen und es zur richtigen Zeit zu planen, kostet 2-3 Stunden Kontextwechsel pro Woche. Multipliziert mit 52 Wochen haben Sie eine ganze Arbeitswoche damit verbracht, Newsletter zu *versenden*. Der Agent übernimmt jeden Schritt nach "Ich weiß, was der Blickwinkel dieser Woche ist." ## Der Stack, den ich verwende - **[Kit](/recommends/convertkit)** (früher ConvertKit) — die E-Mail-Plattform. Exzellente API, solides Abonnenten-Tagging, saubere Analytik. Die agentenfreundliche API hat mich überzeugt. - **Claude (Anthropic SDK)** — die Generierungsschicht - **Cloudflare Workers** — geplanter Auslöser (läuft jeden Dienstag um 8 Uhr CT) - **Airtable** — Content-Queue und Genehmigungs-Posteingang Wenn Sie nicht auf Kit sind, funktioniert dasselbe Muster mit jeder Plattform, die eine REST-API zum Erstellen und Planen von Broadcasts hat. ## Schritt 1: Die Content-Queue Der Agent braucht eine Wahrheitsquelle dafür, "worüber wir schreiben." Meine ist eine [Airtable](/recommends/airtable)-Tabelle mit Spalten: - `Topic` — der Blickwinkel oder die Frage - `Status` — Queue / Approved / Sent - `Tier` — ob dies für alle Abonnenten oder nur für engagierte ist - `Notes` — alle Einschränkungen (diesen Ton vermeiden, diesen Link einfügen, usw.) Jede Woche verbringe ich 10 Minuten damit, 2-3 Themen zur Queue hinzuzufügen. Das ist mein kreativer Input. Der Rest ist die Aufgabe des Agenten. ## Schritt 2: Der Entwurfs-Agent ```typescript // workers/newsletter-agent/index.ts import Anthropic from "@anthropic-ai/sdk"; import Airtable from "airtable"; const client = new Anthropic(); const VOICE_SYSTEM = `You are writing a weekly newsletter for Alejandro Rioja's subscribers. His audience: founders and operators interested in AI agents, SEO, and growing a one-person business. Voice: direct, first-person, practitioner. No hype, no "exciting times," no excessive bullet lists. Structure every newsletter as: 1. One-sentence hook (the problem or observation) 2. The core insight (3–5 paragraphs, no headers, conversational) 3. One concrete action the reader can take this week 4. A short sign-off (2 sentences max) Subject line: specific, outcome-oriented, under 50 chars. No clickbait. Return JSON: { "subject": "...", "preheader": "...", "body": "..." }`; async function getNextTopic(): Promise<{ id: string; topic: string; notes: string; tier: string }> { const base = new Airtable({ apiKey: process.env.AIRTABLE_API_KEY }).base(process.env.AIRTABLE_BASE_ID!); const records = await base("Newsletter Queue") .select({ filterByFormula: "{Status} = 'Queue'", sort: [{ field: "Created", direction: "asc" }], maxRecords: 1 }) .firstPage(); if (!records.length) throw new Error("Queue is empty. Add topics."); const r = records[0]; return { id: r.id, topic: r.get("Topic") as string, notes: (r.get("Notes") as string) ?? "", tier: (r.get("Tier") as string) ?? "all" }; } async function draftNewsletter(topic: string, notes: string): Promise<{ subject: string; preheader: string; body: string }> { const msg = await client.messages.create({ model: "claude-sonnet-4-6", max_tokens: 2048, system: VOICE_SYSTEM, messages: [{ role: "user", content: `Write this week's newsletter on: "${topic}". Additional notes: ${notes || "none"}` }], }); const text = (msg.content[0] as any).text.replace(/```json\n?/, "").replace(/```/, "").trim(); return JSON.parse(text); } async function scheduleWithKit(draft: { subject: string; preheader: string; body: string }, tier: string): Promise { const segmentId = tier === "engaged" ? process.env.KIT_ENGAGED_SEGMENT_ID : null; const sendAt = new Date(); sendAt.setDate(sendAt.getDate() + ((4 - sendAt.getDay() + 7) % 7)); // next Thursday sendAt.setHours(9, 0, 0, 0); // 9am CT const payload: any = { broadcast: { subject: draft.subject, content: draft.body, description: draft.preheader, send_at: sendAt.toISOString(), email_layout_template: "minimal", }, }; if (segmentId) payload.broadcast.segment_id = segmentId; const res = await fetch("https://api.kit.com/v4/broadcasts", { method: "POST", headers: { "Content-Type": "application/json", "X-Kit-Api-Key": process.env.KIT_API_KEY! }, body: JSON.stringify(payload), }); const data = await res.json(); return data.broadcast?.id ?? ""; } export default { async scheduled(_event: ScheduledEvent, env: Env) { // Inject env vars Object.assign(process.env, env); const { id, topic, notes, tier } = await getNextTopic(); const draft = await draftNewsletter(topic, notes); const broadcastId = await scheduleWithKit(draft, tier); // Mark as Approved in Airtable (not Sent — human reviews the Kit preview before confirm) const base = new Airtable({ apiKey: env.AIRTABLE_API_KEY }).base(env.AIRTABLE_BASE_ID); await base("Newsletter Queue").update(id, { Status: "Approved", KitBroadcastId: broadcastId }); console.log(`Scheduled broadcast ${broadcastId} for topic: ${topic}`); }, }; ``` ## Schritt 3: Der Genehmigungsschritt Der Agent erstellt den Broadcast im Entwurfsstatus von Kit und markiert den Airtable-Eintrag als "Approved." Kit sendet mir eine Benachrichtigung mit einem Vorschau-Link. Ich klicke darauf, lese es, und wenn es richtig aussieht, bestätige ich den Versand. Wenn ich Änderungen möchte, bearbeite ich direkt in Kit. Das ist das Tor, das verhindert, dass der Agent beim ausgehenden E-Mail vollständig autonom wird. Ich vertraue den Entwürfen etwa 90% der Zeit. Die 10%, die ich bei der Überprüfung entdecke — ein leicht falscher Ton, eine Statistik, die ich verifizieren möchte, ein Link, den ich hinzufügen möchte — sind die 3-minütige Überprüfung wert. ## Was der Agent übernimmt, das ich nie wieder tun möchte - Betreffzeilen-Varianten schreiben und die beste auswählen - Den Preheader-Text formatieren - Die richtige Versandzeit berechnen (mein Publikum öffnet donnerstagmorgens; der Agent weiß das) - Korrekt nach dem Tier des Themas segmentieren - Alles in Airtable protokollieren, damit ich eine Aufzeichnung habe ## Was mir noch gehört Die *Idee*. Das Thema in der Queue ist meins. Der Blickwinkel ist meiner. Der Agent ist ein großartiger Ausführender eines klaren Briefings; er ist keine Strategieschicht. Wenn ich ein schlechtes Thema in die Queue stelle, bekomme ich einen gut geschriebenen Newsletter über ein schlechtes Thema. Außerdem: das erste Überprüfungstor. Jeder einzelne Versand wird von mir überprüft, bevor er rausgeht. Das wird sich nicht ändern. ## Das Fazit des Operators Wenn Sie mehr als eine Stunde pro Woche mit Newsletter-Mechanik verbringen — Formatierung, Planung, Segmentierung — sollten Sie es automatisieren. Die Kit-API ist sauber, der Worker-Cron-Auslöser ist felsenfest, und die Claude-Entwurfsqualität ist hoch genug, dass ich ~90% der ersten Entwürfe unverändert genehmige. Bauen Sie die Queue in Airtable, verbinden Sie den Worker und kehren Sie zur Ideengenerierung zurück, anstatt Versendungen auszuführen. --- ## Wie man in der KI-Suche rankt, ohne einen einzigen neuen Blogbeitrag zu schreiben Source: https://alejandrorioja.com/de/how-to-rank-in-ai-search-without-writing-a-single-new-blog-post/ Published: 2026-06-06 Updated: 2026-06-06 Tags: GEO, SEO TL;DR: KI-Suchmaschinen zitieren Inhalte, die Fragen direkt beantworten, klare Autorenschaft beanspruchen und Wissen so strukturieren, dass das Abrufen einfach ist. Die meisten bestehenden Blogbeiträge können durch Bearbeitungen, nicht durch Neufassungen, so angepasst werden, dass sie alle drei Kriterien erfüllen. Der Plan: Einen direkten TL;DR hinzufügen, Entitätssignale stärken, FAQ-Schema hinzufügen und an llms.txt übermitteln. Neuer Inhalt ist optional; Umstrukturierung ist es nicht. ## Inhaltsverzeichnis _Aktualisiert Juni 2026._ **TL;DR:** KI-Suchmaschinen zitieren Inhalte, die Fragen direkt beantworten, klare Autorenschaft beanspruchen und Wissen so strukturieren, dass das Abrufen einfach ist. Die meisten bestehenden Blogbeiträge können durch Bearbeitungen, nicht durch Neufassungen, so angepasst werden, dass sie alle drei Kriterien erfüllen. Der Plan: Einen direkten TL;DR hinzufügen, Entitätssignale stärken, FAQ-Schema hinzufügen und an llms.txt übermitteln. Neuer Inhalt ist optional; Umstrukturierung ist es nicht. **[Betreiber-Lektüre]** Ich habe diesen Prozess auf 341 bestehende Beiträge angewendet, bevor ich einen einzigen neuen GEO-orientierten Artikel geschrieben habe. Zitierungen in ChatGPT und Perplexity stiegen. Neue Inhalte beschleunigten die Gewinne — aber das Audit der bestehenden Inhalte war mein Ausgangspunkt, und es zahlte sich schneller aus als erwartet. ## Warum KI-Suchmaschinen Ihre bestehenden Inhalte nicht zitieren Bevor Sie irgendetwas Neues schreiben, fragen Sie: Warum wird das, was ich bereits habe, nicht zitiert? Die Antwort ist fast nie "der Inhalt existiert nicht." Normalerweise ist es eines davon: 1. **Keine direkte Antwort oben** — der Beitrag vergräbt die Antwort in Absatz 6 2. **Schwache Autorsignale** — keine klare Autorentität, keine Qualifikationen im Inhalt 3. **Strukturelles Rauschen** — lange Einleitungen, irrelevante Abschnitte, keine klare Überschriftenhierarchie 4. **Keine maschinenlesbare Frage-Antwort** — KI-Suchmaschinen bevorzugen strukturierte Frage-Antwort-Paare; die meisten Blogbeiträge haben diese nicht 5. **Nicht in einem für KI lesbaren Index** — kein llms.txt, keine Sitemaps, die Crawler finden Alle fünf sind bei bestehenden Inhalten behebbar. Keiner erfordert einen neuen Beitrag. ## Der Vier-Schritte-Retrofitting-Prozess ### Schritt 1: Direkten TL;DR in den ersten 100 Wörtern hinzufügen KI-Suchmaschinen tun etwas Analoges zu dem, was Sie tun, wenn Sie überfliegen — sie suchen nach der direkten Antwort, bevor sie tiefer gehen. Wenn Ihr Beitrag mit einer Geschichte, einer Frage oder einer Kontexteinstellung beginnt, liest das Modell möglicherweise nie weit genug, um Ihre eigentliche Antwort zu finden. Lösung: Fügen Sie einen **TL;DR**-Block in den ersten 100 Wörtern hinzu. Format: Schlussfolgerung → warum → Einschränkung oder Vorbehalt. Zwei bis vier Sätze. Kein Füllmaterial. Beispiel vorher: > *Haben Sie sich schon einmal gefragt, warum einige Unternehmen die Google-Suchergebnisse zu dominieren scheinen? In diesem Beitrag werden wir die Strategien erkunden, die die bestplazierten Websites verwenden...* Beispiel nachher: > **TL;DR:** Drei Dinge bewegen die Nadel für lokales SEO in 2026: Vollständigkeit des Google-Unternehmensprofils, Konsistenz der Zitate in Verzeichnissen und strukturiertes Schema für Ihre NAP-Daten. Taktiken wie "täglich posten" und "schnell 100 Bewertungen erhalten" sind sekundär gegenüber diesen drei. Das Limit ist Ihre GBP-Genauigkeit — beheben Sie das zuerst. Die Umschreibung ist nicht länger. Sie ist nur nach vorne geladen. ### Schritt 2: Ihre Entitätssignale stärken KI-Suchmaschinen bauen einen Wissensgraphen auf. Sie wollen wissen: Wer hat das geschrieben, worum geht es und ist der Autor auf diesem Gebiet glaubwürdig? Für Autorentität: Stellen Sie sicher, dass Ihre Über-uns-Seite von jedem Beitrag verlinkt ist, Ihr Autorenschema `sameAs`-Links zu LinkedIn und Twitter enthält, und Ihre Autorenbiografie in jedem Beitrag spezifische Qualifikationen erwähnt (nicht "Marketingprofi" — "leitete SEO für drei SaaS-Unternehmen von 0 auf 100K monatliche Besucher"). Für Themenentität: Verwenden Sie die genauen Begriffe, nach denen Ihre Zielgruppe sucht. Wenn Sie "GEO" (generative Engine-Optimierung) behandeln, sagen Sie "generative Engine-Optimierung" irgendwo, nicht nur die Abkürzung. Modelle verwenden das gemeinsame Auftreten von Begriffen zur Klassifizierung von Inhalten. ### Schritt 3: FAQ-Schema zu jedem Beitrag hinzufügen, der Fragen beantwortet FAQPage-Schema ist der wirkungsvollste Schema-Typ für GEO-Zitierungen, weil es explizit Frage auf Antwort in einem Format abbildet, das Modelle direkt analysieren können. Nehmen Sie die 3–5 Fragen, die Ihr Beitrag implizit beantwortet, und machen Sie sie explizit: ```json { "@context": "https://schema.org", "@type": "FAQPage", "mainEntity": [ { "@type": "Question", "name": "How long does it take to rank in AI search?", "acceptedAnswer": { "@type": "Answer", "text": "Most sites see initial citation improvements within 4–8 weeks of restructuring existing content for direct answers and adding FAQ schema. Brand-new domains take longer — expect 3–6 months before consistent citations appear." } } ] } ``` Fügen Sie dies zum `` Ihres Beitrags oder über das Schema-Feld Ihres CMS hinzu. Jede wichtige KI-Suchmaschine crawlt und analysiert dies. ### Schritt 4: An llms.txt und den KI-Index Ihrer Plattform übermitteln `llms.txt` ist ein aufkommender Standard — eine Klartextdatei unter `ihreseite.com/llms.txt`, die KI-Crawlern mitteilt, welcher Inhalt hochwertig ist und wie er priorisiert werden soll. Es ist analog zu `robots.txt` aber für LLMs. Ein einfaches llms.txt: ``` # llms.txt # alejandrorioja.com — AI agents and GEO for operators ## Priority content - /blog/geo-for-local-business (definitive guide, updated monthly) - /blog/schema-markup-for-ai-engines (technical reference) - /blog/how-to-get-cited-by-chatgpt (step-by-step) ## Author Alejandro Rioja — operator, AI agent builder, GEO practitioner. LinkedIn: https://linkedin.com/in/alejandrorioja ``` Kombinieren Sie dies mit einer sauberen Sitemap, die `lastmod`-Zeitstempel enthält. KI-Crawler deprioritisieren Inhalte, die veraltet aussehen. ## Wie man priorisiert, welche Beiträge zu retrofiten sind Nicht jeder Beitrag lohnt das Retrofitting. Konzentrieren Sie Ihren ersten Durchgang auf: 1. **Beiträge, die bereits auf Seite 1 für ein frageförmiges Keyword ranken** — diese sind dem Zitiertwerden am nächsten; sie brauchen nur die Strukturkorrektur 2. **Beiträge zu Themen, auf denen Sie nachweislich glaubwürdig sind** — KI-Suchmaschinen gewichten Autorenschaft stark; ein Beitrag, bei dem Ihre Qualifikationen relevant sind, erhält durch Entitätssignale einen Zitierungsschub 3. **Beiträge, die direkt eine Frage beantworten vs. Beiträge, die informieren** — "Wie man X macht" und "Was ist X" lassen sich besser retrofiten als Listicles oder Meinungsbeiträge Verwenden Sie Ihre Search-Console-Daten: Filtern Sie nach Anfragen, die Fragen sind (wie, was, warum, bester Weg zu). Beiträge, die für diese Anfragen auf Rang 5–15 sind, sind Ihre besten Retrofit-Kandidaten — sie sind relevant, aber noch nicht nah genug oben, um zitiert zu werden. ## Der Fehler, den die meisten Leute machen Sie schreiben einen neuen Beitrag, der für die KI-Suche optimiert ist, bevor sie ihre bestehenden Archive retrofiten. Neue Inhalte helfen, aber die bestehenden Beiträge haben Alter, Backlinks und Crawl-Historie auf ihrer Seite. Ein gut strukturierter drei Jahre alter Beitrag wird einen neuen Beitrag zum gleichen Thema monatelang übertreffen. Machen Sie zuerst das Retrofitting. Schreiben Sie neue Inhalte, wo echte Lücken bestehen — Fragen, die Ihre bestehenden Beiträge überhaupt nicht beantworten. Das ist, wenn Neues besser als Altes ist. ## Das Fazit des Betreibers Wenn Sie mehr als 20 bestehende Blogbeiträge haben, beginnt Ihre GEO-Arbeit mit Audit und Retrofitting, nicht mit einem Content-Kalender. Fügen Sie TL;DRs hinzu, stärken Sie Entitätssignale, fügen Sie FAQ-Schema hinzu und übermitteln Sie an llms.txt. Tun Sie das bei Ihren Top-20-Beiträgen, bevor Sie irgendetwas Neues schreiben. Sie werden in Wochen, nicht Monaten, Verbesserungen bei den Zitierungen sehen — und Sie haben eine sauberere Ausgangslinie, um zu messen, ob neue Inhalte tatsächlich die Nadel bewegen. --- ## Ich habe eine Claude-Kompetenz gebaut, die meine Facebook-Anzeigen verwaltet — hier ist der Code Source: https://alejandrorioja.com/de/i-built-a-claude-skill-that-runs-my-facebook-ads-heres-the-code/ Published: 2026-06-06 Updated: 2026-06-06 Tags: AI Agents TL;DR: Ich habe eine Claude-Kompetenz gebaut, die mein Meta-Ads-Konto über die Graph API liest, Underperformer identifiziert, Anzeigentexte in meiner Markenstimme umschreibt und neue Anzeigengruppen erstellt, ohne dass ich den Anzeigenmanager anfassen muss. Das Ganze umfasst weniger als 300 Zeilen TypeScript. Der ROI war sofort spürbar: Ich habe die wöchentliche Anzeigenverwaltungszeit von ~3 Stunden auf etwa 20 Minuten reduziert. ## Inhaltsverzeichnis _Aktualisiert Juni 2026._ **TL;DR:** Ich habe eine Claude-Kompetenz gebaut, die mein Meta-Ads-Konto über die Graph API liest, Underperformer identifiziert, Anzeigentexte in meiner Markenstimme umschreibt und neue Anzeigengruppen erstellt, ohne dass ich den Anzeigenmanager anfassen muss. Das Ganze umfasst weniger als 300 Zeilen TypeScript. Der ROI war sofort spürbar: Ich habe die wöchentliche Anzeigenverwaltungszeit von ~3 Stunden auf etwa 20 Minuten reduziert. **[Betreiber-Lektüre]** Ich schalte Anzeigen für Pickleland und für meine Beratungsmarke. Zwei Konten, unterschiedliche Zielgruppen, ständige kreative Ermüdung. Ich verbrachte Sonntagnachmittage im Anzeigenmanager mit Dingen, die ein Modell erledigen sollte. Also habe ich es automatisiert. ## Warum ich aufgehört habe, Facebook-Anzeigen manuell zu verwalten Die eigentliche Arbeit bei der Verwaltung von Facebook-Anzeigen lässt sich in drei Aufgaben unterteilen: 1. **Überwachung** — prüfen, welche Anzeigengruppen Geld verbrennen vs. verdienen 2. **Diagnose** — herausfinden, *warum* etwas underperformt (kreative Ermüdung? schlechtes Targeting? Landingpage?) 3. **Iteration** — neue Texte schreiben, neue Anzeigengruppen erstellen, Budgets anpassen Aufgabe 1 ist mechanisch. Aufgabe 3 ist größtenteils mechanisch (mit einer Stimmbeschränkung). Aufgabe 2 erfordert Urteilsvermögen — und ist die einzige, die von einem Menschen in der Schleife profitiert. Eine Claude-Kompetenz kann 1 und 3 erledigen. Ich überprüfe die Ergebnisse von Aufgabe 2, bevor irgendetwas veröffentlicht wird. Das ist die Architektur, auf die ich mich geeinigt habe. ## Die Meta Graph API-Einrichtung (das ist der lästige Teil) Vor dem Code: Sie benötigen ein Meta Business-Konto, einen Systembenutzer und ein dauerhaftes Zugriffstoken. Facebooks Entwicklerportal ist feindlich, aber der Weg ist: 1. Eine **Meta App** auf developers.facebook.com erstellen (Typ: Business) 2. Das Produkt **Marketing API** hinzufügen 3. In Ihrem Business Portfolio → Einstellungen → Benutzer → Systembenutzer einen Systembenutzer erstellen und ihm die Rolle `ADVERTISER` für Ihr Anzeigenkonto geben 4. Ein Token mit diesen Berechtigungen generieren: `ads_read`, `ads_management`, `business_management` Speichern Sie das Token als `META_ACCESS_TOKEN` und Ihre Anzeigenkonto-ID (Format: `act_XXXXXXXX`) als `META_AD_ACCOUNT_ID` in Ihrer `.env`. ## Die Dateistruktur der Kompetenz ``` .claude/skills/fb-ads/ SKILL.md ← Anweisungen, die Claude liest index.ts ← die eigentliche Tool-Implementierung types.ts ← gemeinsame Typen ``` Die `SKILL.md` teilt Claude mit, wann und wie die Kompetenz genutzt werden soll. Meine lautet: ```markdown # Facebook Ads Manager Skill Use this skill when the user says "check my ads", "run ads report", "pause underperformers", or "write new ad copy". Never run this without explicit user instruction — it touches live ad spend. ## What it can do - Pull performance data for all active ad sets (last 7 or 30 days) - Flag ad sets with ROAS < 1.5 or CTR < 0.8% as underperformers - Rewrite ad copy for flagged creatives in Ale's voice - Create new ad sets with revised copy (PAUSED by default — you approve before activating) ## What it will NOT do - Change budgets on live ad sets without explicit confirmation - Activate new ad sets automatically - Delete anything ``` Die Einschränkung „niemals automatisch aktivieren" ist nicht verhandelbar. Diese Kompetenz erstellt Dinge im Zustand PAUSIERT. Ich überprüfe und aktiviere manuell. Alles, was Live-Werbeausgaben berührt, benötigt einen menschlichen Kontrollpunkt. ## Der TypeScript-Kerncode (Codeblöcke bleiben auf Englisch — nur der umgebende Text wird übersetzt.) ## Wie ich es täglich nutze Die Kompetenz wird von Claude Code aufgerufen (mein tägliches Werkzeug). Eine typische Montagmorgen-Sitzung: ``` > check my ads from the last 7 days ``` Claude führt `runAdsReport(7)` aus, formatiert die Ergebnisse als Tabelle, markiert Underperformer und fragt, ob ich Umschreibungen möchte. Ich sage ja. Es generiert neuen Text, zeigt mir beide Versionen nebeneinander und erstellt PAUSIERTE Anzeigengruppen mit dem neuen Kreativmaterial. Ich überprüfe sie im Anzeigenmanager, aktiviere die, die mir gefallen, und archiviere die Verlierer. Gesamtzeit: 20 Minuten. Null Sonntagnachmittage im Anzeigenmanager. ## Was dies nicht ersetzt Die Kompetenz kann mir nicht sagen, ob sich ein Produkt-Markt-Fit-Problem als Textproblem tarnt. Wenn der ROAS insgesamt schlecht ist, handelt es sich um ein Funnel- oder Angebotsproblem, nicht um ein Überschriftenproblem. Claude wird getreu Text auf einem kaputten Funnel umschreiben — und die Umschreibungen werden ihn nicht retten. Der Diagnoseschritt bleibt meiner. Ich lese den Bericht, schaue mir die Funnel-Daten an und entscheide, ob wir kreativ iterieren oder etwas weiter oben lösen. Der Agent ist bei allem schnell *außer* bei diesem Urteil. ## Das Fazit des Betreibers Wenn Sie Anzeigen manuell verwalten und mehr als zweimal pro Woche den Anzeigenmanager anfassen, erledigen Sie Vorgänge, die ein Skript erledigen sollte. Die Graph API ist gut dokumentiert und der Meta-Berechtigungsfluss ist, obwohl lästig, eine einmalige Einrichtung. Bauen Sie die Kompetenz an einem Nachmittag. Die Rendite an zurückgewonnener Zeit zeigt sich in der ersten Woche. --- ## Die 5 KI-Tools, die ich wirklich nutze, um mein Unternehmen zu führen (2026) Source: https://alejandrorioja.com/de/the-5-ai-tools-i-actually-use-to-run-my-business-2026-operator-stack/ Published: 2026-06-06 Updated: 2026-06-06 Tags: AI Agents, Growth TL;DR: Fünf Tools: Claude (Operator-Schicht + Programmierung), Cursor (TypeScript-Entwicklung), Airtable (Daten-Backbone für alle Agenten), Kit (Newsletter + E-Mail-Automatisierung) und Cloudflare Workers (Agenten-Hosting). Alles andere, was ich ausprobiert habe, wurde durch eines davon ersetzt oder vollständig gestrichen. Das ist der Stack, den ich neu aufbauen würde, wenn ich heute von vorne anfangen müsste. ## Inhaltsverzeichnis _Aktualisiert Juni 2026._ **TL;DR:** Fünf Tools: Claude (Operator-Schicht + Programmierung), Cursor (TypeScript-Entwicklung), [Airtable](/recommends/airtable) (Daten-Backbone für alle Agenten), [Kit](/recommends/convertkit) (Newsletter + E-Mail-Automatisierung) und Cloudflare Workers (Agenten-Hosting). Alles andere, was ich ausprobiert habe, wurde durch eines davon ersetzt oder vollständig gestrichen. Das ist der Stack, den ich neu aufbauen würde, wenn ich heute von vorne anfangen müsste. **[Betreiber-Lektüre]** Ich führe zwei Unternehmen: eine persönliche KI-Beratungsmarke (alejandrorioja.com) und Pickleland, eine Pickleball-Anlage in Pflugerville, TX. Unterschiedliche Kontexte, unterschiedliche Zielgruppen, unterschiedliche Abläufe. Diese fünf Tools betreiben beide. Ich liste sie nicht auf, weil sie im Trend liegen; ich liste sie auf, weil ich ihre Nachfolger gelöscht habe. ## 1. Claude — die Operator-Schicht Claude (über Claude Code und das Anthropic SDK) ist das Gehirn von allem, was sich bewegt. Ich nutze es in drei Modi: **Claude Code** ist mein tägliches Entwicklungswerkzeug. Ich schreibe TypeScript, baue Agenten, debugge Infrastrukturprobleme und verwalte Inhalte — alles über die Claude Code-Oberfläche. Es ist nicht nur Autovervollständigung; es ist ein Mitarbeiter, der eine 500-Zeilen-Datei lesen, die Absicht verstehen und eine Refaktorierung vorschlagen kann, die ich nicht in Betracht gezogen hatte. **Das Anthropic SDK** treibt jeden Agenten an, den ich gebaut habe. Mein Newsletter-Agent, meine Facebook-Ads-Fähigkeit, meine Content-Pipeline, mein OG-Kartengenerator — alles Claude im Backend. Die Modellqualität ist hoch genug, dass ich Erstentwürfen etwa 85% der Zeit vertraue. **Claudes Stimme und Marken**-Urteil wird unterschätzt. Wenn ich etwas schreibe, das wie ich klingen muss, habe ich festgestellt, dass Claude + ein detaillierter System-Prompt jeden anderen Modell übertrifft, das ich getestet habe. Der Trick ist ein spezifischer, meinungsstarker System-Prompt — nicht "schreib in einem lockeren Ton", sondern "schreib wie Alejandro: direkt, praktisch, kein Hype, nummeriert, erste Person, mit ehrlichen Einschränkungen." Ich zahle für Claude Max. Es ist das meistgenutzte Abonnement, das ich habe, und der ROI ist nicht annähernd vergleichbar. ## 2. Cursor — wo das TypeScript geschrieben wird Cursor ist die IDE. Ich wechselte vor etwa einem Jahr von VS Code und habe nicht zurückgeschaut. Die Tab-Vervollständigung ist schnell genug, dass sie wirklich verändert, wie ich Code schreibe — ich denke auf einer höheren Ebene und lasse Cursor das syntaktische Boilerplate erledigen. Die Diff-Ansicht für KI-Vorschläge ist sauber. Das Multi-Datei-Kontextfenster bedeutet, dass ich es bitten kann, eine Funktion zu aktualisieren, und es aktualisiert auch die Aufrufer. Ich benutze Cursor nicht für Architekturentscheidungen. Ich skizziere diese noch auf Papier oder in Claude. Aber sobald das Design klar ist, ist Cursor der schnellste Weg vom Design zu laufendem TypeScript. Die größte Entsperrung: Cursor + Claude Code parallel. Ich benutze Claude Code für die übergeordnete Planung und Agenten-Orchestrierung; ich benutze Cursor für die detaillierte Implementierungsarbeit. Sie konkurrieren nicht — sie decken verschiedene Ebenen ab. ## 3. Airtable — das Daten-Backbone Jeder KI-Agent, den ich betreibe, braucht einen Ort zum Lesen und Schreiben. Dieser Ort ist [Airtable](/recommends/airtable). Das nutze ich dafür in beiden Unternehmen: - **Content-Warteschlange** — Beiträge und Newsletter-Themen in Bearbeitung, mit Statusverfolgung - **Buchungsunterlagen** — Pickleland-Platzbuchungen synchronisiert vom Buchungssystem - **Affiliate-Link-Katalog** — 105+ Slugs mit Metadaten, die der Content-Agent bei der Generierung liest - **Agenten-Audit-Log** — was gelaufen ist, wann, was es produziert hat, alle Fehler Die API ist sauber und schnell. Airtable ist keine Datenbank für Hochdurchsatz-Workloads — aber für Agenten-Nebentabellen, Überprüfungswarteschlangen und Genehmigungs-Workflows mit menschlicher Beteiligung ist es genau das richtige Tool. Die visuelle Oberfläche bedeutet, dass ich jede Tabelle inspizieren kann, ohne eine Abfrage zu schreiben. Die Alternative, die ich ausprobiert habe: Notion-Datenbanken. Die Notion-API ist langsamer und das Datenmodell ist umständlicher für Agenten-Lesevorgänge. Airtable gewinnt für agentenbenachbarte Daten. ## 4. Kit — Newsletter und E-Mail-Automatisierung Ich wechselte zu [Kit](/recommends/convertkit) (früher ConvertKit) aus einem Grund: die API ist tatsächlich gut. Die meisten E-Mail-Plattformen behandeln ihre API als Nachgedanken. Kit behandelt sie als erstklassiges Produkt. Ich kann Sendungen erstellen, Sendezeitpläne planen, nach Tag segmentieren und Analysen lesen — alles programmatisch. Mein Newsletter-Agent tut all das, ohne dass ich den Composer berühre. Kit-spezifische Dinge, die ich nutze: - **Broadcasts-API** — mein Agent erstellt jede Woche programmatisch geplante Sendungen - **Abonnenten-Tagging** — ich tagge Abonnenten nach Verhalten (letzte 5 Sendungen geöffnet = "engagiert"; seit 60 Tagen nicht geöffnet = "gefährdet") und mein Agent zielt entsprechend auf Segmente - **Formulare + Landingpages** — sauber, schnell ladend, kein Code. Ich manipuliere diese nicht programmatisch; sie funktionieren einfach. Wenn Sie auf Mailchimp oder einer Legacy-Plattform sind: Die Migration lohnt sich. Mailchimps API erfordert drei zusätzliche Aufrufe, um das zu tun, was Kit in einem schafft. ## 5. Cloudflare Workers — wo die Agenten leben Jeder geplante Agent läuft auf Cloudflare Workers. Das Argument: globales Edge-Deployment, keine Kaltstarts auf der kostenlosen Stufe und ein Cron-Trigger-System, das tatsächlich funktioniert. Meine Agenten brauchen keinen Server. Sie brauchen eine geplante Funktion, die zuverlässig läuft, externe API-Aufrufe machen kann und bei meiner Größenordnung fast nichts kostet. Workers ist die Antwort. Was ich auf Workers laufen habe: - **Content-Pipeline** — generiert EN-Beitrag, verteilt auf 12 Übersetzungen, generiert OG-Karte - **Newsletter-Agent** — entwirft und plant den wöchentlichen Versand - **Facebook-Ads-Monitor** — liest Performance, markiert Underperformer, benachrichtigt mich - **Pickleland-Auslastungsreporter** — liest Buchungsdaten, sendet mir eine tägliche Zusammenfassung Gesamte monatliche Kosten für all das: ~5$. Das ist der bezahlte Workers-Plan. Die Agenten laufen zuverlässig nach dem Cron-Zeitplan; ich hatte in sechs Monaten einen Ausfall (ein DNS-Problem auf Metas Seite, nicht meiner). ## Was ich gestrichen habe und warum **Zapier** — ersetzt durch Workers + die jeweiligen Plattform-APIs direkt. Zapier fügt Latenz hinzu, kostet bei Skalierung mehr und hat eine Obergrenze, die Workers nicht hat. **ChatGPT** — Claudes Kontextfenster, Toolnutzung und System-Prompt-Qualität sind für den Operator-Anwendungsfall besser. Ich behalte einen ChatGPT-Tab für schnelle Websuchen, baue aber nicht darauf. **Webflow** — habe meine Website auf Astro + Cloudflare Pages verschoben. Mehr Kontrolle, bessere Performance, Build-Prozess, gegen den ich scripten kann. **Grammarly** — Claude macht alles, was Grammarly macht, und behält meine Stimme besser bei. ## Das Fazit des Betreibers Die fünf oben genannten Tools sind nicht die neuesten oder meistdiskutierten. Sie sind diejenigen, die dem täglichen Produktionseinsatz in zwei verschiedenen Unternehmen standgehalten haben. Bevor Sie ein neues Tool zu Ihrem Stack hinzufügen, fragen Sie: Welches dieser fünf könnte diesen Job erledigen? Sie werden überrascht sein, wie oft die Antwort lautet: "Eines davon kann es bereits." --- ## Warum Ihr KI-Agent in der Produktion immer wieder versagt (Und wie man es behebt) Source: https://alejandrorioja.com/de/why-your-ai-agent-keeps-failing-in-production-and-how-to-fix-it/ Published: 2026-06-06 Updated: 2026-06-06 Tags: AI Agents TL;DR: Die meisten Agenten-Ausfälle in der Produktion haben fünf Ursachen: brüchige Prompts, die Randfälle nicht behandeln, fehlende Wiederholungslogik für transiente API-Fehler, keine Observierbarkeit, um zu sehen, was kaputt geht, unkontrollierte Schleifen ohne Austrittsbedingung und Tooldefinitionen, die mehrdeutig genug sind, damit das Modell die falsche auswählt. Alle fünf sind ohne Modell- oder Framework-Wechsel behebbar. ## Inhaltsverzeichnis _Aktualisiert Juni 2026._ **TL;DR:** Die meisten Agenten-Ausfälle in der Produktion haben fünf Ursachen: brüchige Prompts, die Randfälle nicht behandeln, fehlende Wiederholungslogik für transiente API-Fehler, keine Observierbarkeit, um zu sehen, was kaputt geht, unkontrollierte Schleifen ohne Austrittsbedingung und Tooldefinitionen, die mehrdeutig genug sind, damit das Modell die falsche auswählt. Alle fünf sind ohne Modell- oder Framework-Wechsel behebbar. **[Betreiber-Lektüre]** Ich betreibe mehr als 30 Agenten in der Produktion. Ich hatte all diese Ausfälle. Die, die am meisten Zeit verbrannten, waren nicht die exotischen — es waren die langweiligen Infrastrukturausfälle, von denen ich dachte, ich hätte sie gehandhabt. ## Ausfall 1: Brüchige Prompts, die bei Randfällen versagen Ein Prompt, der bei Ihren Testfällen funktioniert, wird bei Eingaben versagen, die Sie nicht antizipiert haben. Das ist keine Modellbeschränkung — es ist ein Anweisungsschreibproblem. **Symptome:** Der Agent produziert unsinnige Ausgaben, ruft das falsche Tool auf oder gibt malformatiertes JSON aus, wenn die Eingabe geringfügig anders ist als das, was Sie getestet haben. **Ursache:** Ihr System-Prompt beschreibt nur den Glückspfad. Er sagt dem Modell nicht, was zu tun ist, wenn Daten fehlen, malformatiert oder mehrdeutig sind. **Behebung:** Fügen Sie explizite Randfall-Behandlung zu Ihrem System-Prompt hinzu: ``` If the input data is missing a required field, return: { "status": "error", "reason": "missing_field", "field": "" } Do NOT attempt to infer or hallucinate missing values. If you are uncertain which tool to call, call no tool and return: { "status": "clarification_needed", "question": "..." } ``` Das Modell folgt expliziten Anweisungen für Randfälle zuverlässig. Der Fehler ist anzunehmen, dass es die Glückspfad-Anweisungen auf die unordentlichen Fälle verallgemeinern wird. ## Ausfall 2: Keine Wiederholungslogik für transiente API-Fehler Jede externe API, die Ihr Agent aufruft, wird irgendwann versagen. Die Claude-API, die Meta Graph API, Ihre Datenbank — sie alle geben 5xx-Fehler zurück, laufen ab oder begrenzen die Rate. Wenn Ihr Agent keine Wiederholungslogik hat, tötet ein transienter Fehler den gesamten Lauf. **Symptome:** Agenten-Läufe schlagen zufällig bei verschiedenen Schritten fehl. Die Logs zeigen einen 503 oder 429 ohne Folgeversuche. **Behebung:** Wickeln Sie jeden externen Aufruf in eine Wiederholung mit exponentiellem Backoff ein: ```typescript async function withRetry(fn: () => Promise, retries = 3, baseDelayMs = 500): Promise { for (let attempt = 0; attempt <= retries; attempt++) { try { return await fn(); } catch (err: any) { const isTransient = err.status === 429 || err.status >= 500 || err.code === "ECONNRESET"; if (!isTransient || attempt === retries) throw err; const delay = baseDelayMs * Math.pow(2, attempt) + Math.random() * 100; await new Promise((r) => setTimeout(r, delay)); } } throw new Error("unreachable"); } // Usage const result = await withRetry(() => client.messages.create({ ... })); ``` Drei Wiederholungen mit exponentiellem Backoff behandeln ~99% der transienten Ausfälle. Fügen Sie dies jedem externen Aufruf hinzu und die Hälfte Ihrer zufälligen Ausfälle verschwindet. ## Ausfall 3: Keine Observierbarkeit — Sie können nicht sehen, was kaputt geht Dies ist der häufigste Ausfallmodus in der Produktion und der, der am meisten Zeit zum Debuggen kostet: der Agent versagt still oder produziert falsche Ausgaben, und Sie haben keine Ahnung, wo in der Kette es schiefging. **Symptome:** Sie wissen, dass etwas nicht stimmt, aber können den Schritt nicht identifizieren. Sie fügen `console.log`-Anweisungen hinzu und führen manuell erneut aus, um zu versuchen zu reproduzieren. **Behebung:** Strukturiertes Logging bei jedem Schritt, mit einer Ausführungs-ID, die die gesamte Ausführung verfolgt: ```typescript function createLogger(runId: string, agentName: string) { return { step: (step: string, data: object) => console.log(JSON.stringify({ runId, agent: agentName, step, ts: new Date().toISOString(), ...data })), error: (step: string, err: unknown) => console.error(JSON.stringify({ runId, agent: agentName, step, error: String(err), ts: new Date().toISOString() })), }; } const log = createLogger(crypto.randomUUID(), "newsletter-agent"); log.step("fetch_topic", { topicId: topic.id, topic: topic.name }); // ... do work ... log.step("draft_complete", { subject: draft.subject, wordCount: draft.body.split(" ").length }); ``` Wenn Sie auf Cloudflare Workers sind, gehen diese Logs an Logpush oder Workers Tail. Wenn Sie lokal oder auf einem VPS laufen, leiten Sie sie an einen Log-Aggregator weiter. Das strukturierte JSON bedeutet, dass Sie nach `runId` filtern können, um genau zu sehen, was in einem einzelnen Lauf passiert ist. ## Ausfall 4: Unkontrollierte Schleifen ohne Austrittsbedingung Agentische Schleifen — wo das Modell Tools aufruft und iteriert, bis eine Bedingung erfüllt ist — können ewig laufen, wenn diese Bedingung nie erfüllt wird oder das Modell sie falsch identifiziert. **Symptome:** Der Agent gibt Hunderte von Dollar an API-Kosten aus, bevor er abläuft. Oder er führt immer wieder denselben Tool-Aufruf aus, ohne Fortschritte zu machen. **Behebung:** Haben Sie immer eine harte Iterationsobergrenze und eine Fortschrittsprüfung: ```typescript const MAX_ITERATIONS = 10; let iterations = 0; let lastToolCallName = ""; let sameToolCallCount = 0; while (true) { iterations++; if (iterations > MAX_ITERATIONS) { log.error("loop", { reason: "exceeded_max_iterations" }); break; } const response = await client.messages.create({ ... }); // Detect stuck loops: same tool called 3x in a row const toolCall = response.content.find(b => b.type === "tool_use"); if (toolCall?.name === lastToolCallName) { sameToolCallCount++; if (sameToolCallCount >= 3) { log.error("loop", { reason: "stuck_loop", tool: toolCall.name }); break; } } else { sameToolCallCount = 0; lastToolCallName = toolCall?.name ?? ""; } if (response.stop_reason === "end_turn") break; } ``` Dies fängt sowohl die "zu lange gelaufen" als auch die "an Ort und Stelle gedreht" Ausfallmodi. Die Obergrenze sollte großzügig genug für den Glückspfad, aber eng genug sein, um den Explosionsradius zu begrenzen. ## Ausfall 5: Mehrdeutige Tooldefinitionen, die das Modell falsch auflöst Wenn Sie dem Modell zwei Tools mit überlappenden Beschreibungen geben, wird es manchmal das falsche aufrufen. Dies ist besonders häufig bei Tools wie `search_database` vs `get_record` oder `send_email` vs `create_draft`. **Symptome:** Das Modell ruft die richtige Kategorie von Tool auf, aber wählt das falsche spezifische. Oder es ruft ein Tool im falschen Kontext auf (verwendet ein Schreib-Tool, wenn nur Lesen angemessen war). **Behebung:** Machen Sie Tooldefinitionen gegenseitig exklusiv und fügen Sie explizit "wann NICHT zu verwenden" hinzu: ```typescript const tools = [ { name: "get_subscriber", description: "Fetch a single subscriber record by email. Use ONLY when you have a specific email address. Do NOT use for searching or listing subscribers.", input_schema: { ... } }, { name: "search_subscribers", description: "Search subscribers by tag, segment, or status. Use when you need to find subscribers matching a criteria — NOT when you have a specific email address.", input_schema: { ... } } ]; ``` Die "NICHT verwenden wenn X"-Klausel ist der Teil, den die meisten Leute überspringen. Es ist der wichtigste Teil. Modelle sind besser darin, explizite negative Einschränkungen zu befolgen, als sie aus positiven Beschreibungen zu inferieren. ## Noch eine Sache: Testen Sie Ihre Agenten mit schlechten Eingaben Die meisten Agenten werden nur auf sauberen Glückspfad-Eingaben getestet. Die Produktion hat schmutzige Eingaben: leere Zeichenketten, null-Felder, Unicode-Randfälle, API-Antworten, die 200 zurückgeben, aber mit einem unerwarteten Schema. Fügen Sie eine Testsuite hinzu, die explizit ausübt: - Leere oder null-Eingaben - Eingaben bei der maximalen Länge, die Sie erwarten würden - Eingaben mit Sonderzeichen oder Nicht-ASCII-Text - Externe APIs, die unerwartete Antwortformen zurückgeben Wenn Ihr Agent bei einem davon bricht, beheben Sie es, bevor es live geht. Die Produktionsumgebung wird jede Annahme finden, die Sie gemacht haben. ## Das Fazit des Betreibers Die meisten Agenten-Ausfälle in der Produktion sind Infrastrukturprobleme, die sich als Modellprobleme tarnen. Bevor Sie das Modell wechseln, fügen Sie Wiederholungen, strukturiertes Logging, Schleifencaps und explizite Randfall-Behandlung zu Ihren Prompts hinzu. Beheben Sie die mehrdeutigen Tooldefinitionen. Dann testen Sie auf schlechten Eingaben. Tun Sie all das, bevor Sie das Modell beschuldigen — in meiner Erfahrung ist das Modell normalerweise das Letzte, was geändert werden muss. --- ## So baust du deinen ersten KI-Agenten in 15 Minuten Source: https://alejandrorioja.com/de/how-to-build-your-first-ai-agent-in-15-minutes/ Published: 2026-06-02 Updated: 2026-06-02 Tags: AI Agents TL;DR: Du brauchst kein Framework, keinen Kurs und keinen Doktortitel. Du brauchst Node.js, das Anthropic SDK und 25 Zeilen TypeScript. Dieses Tutorial baut einen echten, funktionierenden Agenten — einen strukturierten Content-Zusammenfasser, den du in derselben Sitzung auf Cloudflare deployen kannst. Die einzige Voraussetzung ist ein kostenloser API-Schlüssel. ## Inhaltsverzeichnis _Aktualisiert Juni 2026._ **TL;DR:** Du brauchst kein Framework, keinen Kurs und keinen Doktortitel. Du brauchst Node.js, das Anthropic SDK und 25 Zeilen TypeScript. Dieses Tutorial baut einen echten, funktionierenden Agenten — einen strukturierten Content-Zusammenfasser, den du in derselben Sitzung auf Cloudflare deployen kannst. Die einzige Voraussetzung ist ein kostenloser API-Schlüssel. **[Operator-Sicht]** Das Häufigste, was ich von Gründern höre, die mit KI automatisieren wollen, ist „Ich muss erst noch mehr lernen". Musst du nicht. Das Agenten-Muster ist einfach, und der schnellste Weg, es zu verstehen, ist, einen zu bauen. Hier ist der genaue Weg, den ich nehmen würde, wenn ich heute bei null anfangen müsste. ## Warum die meisten „Bau einen KI-Agenten"-Tutorials dich im Stich lassen Sie verwenden entweder Python (in Ordnung für ML-Ingenieure, Reibung für alle anderen), verstecken den echten Code hinter einem Framework wie LangChain oder bauen etwas zu Abstraktes, um es mit deiner tatsächlichen Arbeit zu verbinden. Dieses Tutorial macht drei Dinge anders: 1. **Nur TypeScript** — wenn du jemals JavaScript geschrieben hast, kannst du dem hier folgen 2. **Kein Framework** — du siehst jede Codezeile, die das Modell berührt 3. **Ein nützliches Ergebnis** — du baust einen strukturierten Zusammenfasser, den du tatsächlich für Kunden-E-Mails, Bewertungen oder Meeting-Notizen nutzen kannst ## Was du baust Einen **Content-Zusammenfasser-Agenten**: Füge einen beliebigen Textblock ein und erhalte eine strukturierte Zusammenfassung in einem konsistenten Format zurück. Eine HTTP-Anfrage rein, eine saubere Zusammenfassung raus. Warum das als erstes Projekt: Das Muster — System-Prompt + Nutzereingabe → strukturierte Ausgabe — ist das Fundament jedes Agenten, den ich betreibe. Tausche den System-Prompt aus und du hast einen Fragebeantworter, einen Ton-Umschreiber, einen Klassifizierer oder einen Entwurfsgenerator. Lerne das einmal und du hast 80 % von dem gelernt, was Produktions-Agenten tatsächlich tun. ## Voraussetzungen (2 Minuten) - **Node.js 18+** — prüfe mit `node --version`. Installiere bei Bedarf von nodejs.org. - **Ein Anthropic-API-Schlüssel** — registriere dich bei [Claude](/recommends/claude) und hol dir einen Schlüssel aus der Konsole. Die kostenlose Stufe funktioniert. - Ein Terminal und ein Texteditor. Kein Docker. Keine virtuelle Umgebung. Kein `pip install` von irgendetwas. ## Schritt 1: Das Projekt erstellen (2 Minuten) ```bash mkdir my-first-agent && cd my-first-agent npm init -y npm install @anthropic-ai/sdk npm install -D tsx typescript ``` Füge ein Skript zu `package.json` hinzu, damit du den Agenten leicht ausführen kannst: ```json { "scripts": { "agent": "tsx agent.ts" } } ``` ## Schritt 2: Den Agenten schreiben (5 Minuten) Erstelle `agent.ts` und füge dies ein: ```typescript import Anthropic from "@anthropic-ai/sdk"; const client = new Anthropic({ apiKey: process.env.ANTHROPIC_API_KEY, }); const SYSTEM_PROMPT = `You are a precise content summarizer. When given any block of text, return a structured summary in this exact format: **One-line summary:** **Key points:** - - - **Action item (if any):** Be specific. No filler. Under 150 words total.`; async function summarize(text: string): Promise { const message = await client.messages.create({ model: "claude-haiku-4-5", max_tokens: 512, system: SYSTEM_PROMPT, messages: [{ role: "user", content: text }], }); const block = message.content[0]; if (block.type !== "text") throw new Error("Unexpected response type"); return block.text; } const sample = ` Hey team — following up on the Q2 review meeting. We agreed to push the launch to July 15th instead of June 30th due to the payment integration delay. Marketing needs the new landing page copy by June 20th or we can't start the email campaign. Budget for the launch campaign is confirmed at $8,000. Please confirm receipt. `; const result = await summarize(sample); console.log(result); ``` ## Schritt 3: Ausführen (1 Minute) ```bash ANTHROPIC_API_KEY=sk-ant-... npm run agent ``` Erwartete Ausgabe: ``` **One-line summary:** Launch pushed to July 15th due to payment delay; landing page copy needed by June 20th to unblock email campaign. **Key points:** - Launch date moved from June 30th to July 15th - Landing page copy deadline: June 20th (blocks email campaign) - Campaign budget confirmed at $8,000 **Action item (if any):** Confirm receipt and deliver landing page copy by June 20th. ``` Das ist ein funktionierender KI-Agent. Echte Eingabe, individueller System-Prompt, strukturierte Ausgabe. Das Ganze sind 30 Zeilen Code. ## Schritt 4: Passe ihn für deinen Anwendungsfall an Der System-Prompt ist das Einzige, was diesen Agenten zu deinem macht. Hier sind drei einsatzbereite Alternativen: **Klassifizierer für Kundenbewertungen:** ```text Classify this customer review as POSITIVE, NEGATIVE, or MIXED. Then extract the main complaint or praise in one sentence. Format: SENTIMENT: