Alejandro Rioja.
AI Agents Operations

AI 에이전트 비용 계산: 언제 Haiku가 Sonnet를 이기는가 (그리고 언제 아닌가)

Alejandro Rioja
Alejandro Rioja
4 분 읽기
TL;DR

Sonnet 대신 Claude Haiku를 선택하면 호출당 비용을 극적으로 줄일 수 있지만, 작업이 더 낮은 성공률을 감내할 수 있을 때만 그렇습니다. 진짜 지표는 호출당 비용이 아니라 재시도와 사람의 정리 작업까지 포함한 '성공한 결과당 비용'입니다. 나는 기본값이 아니라 작업별로 라우팅합니다.

무료 뉴스레터

매주 수요일. 28,400명+ 구독자. 핵심만.

목차

2026년 6월 업데이트.

요약: Sonnet 대신 Claude Haiku를 선택하면 호출당 비용을 한 자릿수만큼 줄일 수 있지만, 작업이 Haiku의 더 낮은 성공률을 감내할 수 있을 때만 그렇습니다. 중요한 지표는 성공한 결과당 비용 — 호출 비용에 재시도와 사람의 정리 작업을 더한 것 — 이지, 토큰당 표시 가격이 아닙니다. 나는 작업별로 라우팅하며, 판단이 필요한 작업은 Sonnet에 남겨두고 고볼륨 단계의 상당 부분을 Haiku에서 돌립니다.

운영자의 시각: 나는 100개 이상의 에이전트를 운영하며, 추론은 실제 비용 항목입니다. 하지만 모든 것을 가장 싼 모델에 밀어 넣어 “돈을 아꼈다”고 여긴 뒤, 재시도·에스컬레이션·화난 고객의 형태로 비용을 치르는 팀들을 봐 왔습니다. 비용 계산은 깔때기 전체를 측정할 때만 성립합니다.

가장 싼 모델은 토큰당 단가가 가장 낮은 모델이 아닙니다. 일을 제대로 끝내는 데 드는 총비용이 가장 낮은 모델입니다. 이 둘은 서로 다른 숫자이며, 그 사이의 간극이야말로 대부분의 에이전트 비용 결정이 어긋나는 지점입니다.

토큰 경제학을, 솔직하게 말하면

Anthropic은 Claude를 100만 토큰 단위로 과금하며, 입력과 출력을 따로 청구하고, 출력은 입력보다 몇 배 더 비쌉니다. 정확한 수치는 시간이 지나며 바뀌니 Anthropic의 현재 가격을 확인하세요 — 하지만 결정을 좌우하는 것은 구조입니다:

여기서 두 가지가 따라옵니다. 첫째, 생성 작업에서는 출력 토큰이 비용을 지배하므로, 장황한 모델은 같은 토큰 단가에서도 더 비쌉니다. 둘째, Haiku와 Sonnet 사이의 토큰당 가격 차이는 고볼륨 단계에서는 청구서에 확실히 드러날 만큼 큽니다. 이것이 Haiku를 택하는 근거입니다. 이제 택하지 않는 근거를.

정말로 중요한 지표: 성공한 결과당 비용

호출당 비용은 허영의 숫자입니다. 내가 실제로 쓰는 공식은 다음과 같습니다:

code
성공당_비용 = (호출_비용 × 시도횟수) + 정리_비용
              ÷ 성공률

여기서 시도횟수는 재시도를 반영하고, 정리_비용은 빠져나간 실패를 사람이 바로잡는 데 드는 기대 비용입니다. 이것이 비교에 무슨 일을 하는지 보세요.

Haiku가 호출당 Sonnet의 약 10분의 1 비용이라고 합시다. 어떤 작업에서 Haiku가 80%, Sonnet이 98% 성공한다면, 호출당 절감은 막대해 보입니다. 하지만 Haiku의 실패마다 재시도가 한 번씩 발생하고 10건 중 1건은 여전히 실제 돈이 드는 사람이 필요하다면, 정리 항목이 토큰 절감을 집어삼킬 수 있습니다. 저위험·고볼륨 작업에서는 계산이 압도적으로 Haiku에 유리합니다. 실패하면 엉뚱한 고객에게 이메일이 가는 작업에서는, 완전히 뒤집힐 수 있습니다.

이 결정은 모델별 성공률을 측정하지 않고는 내릴 수 없습니다 — 그것이 바로 평가 하니스가 제공하는 것입니다. 같은 평가 세트를 두 모델에 돌리고 같은 잣대로 성공률을 읽으세요.

Haiku가 결정적으로 이기는 곳

작업이 좁고, 구조화되어 있고, 검증 가능할 때 Haiku가 정답입니다:

공통된 맥락: Haiku 실수의 비용은 낮고 실수는 싸게 잡힙니다. 검증이 싸고 위험이 낮을 때, 값싼 모델이 이깁니다.

Sonnet이 제값을 하는 곳

작업이 개방형이거나, 여러 단계거나, 틀리면 비싸게 먹힐 때 Sonnet(때로는 Opus)은 그만한 값을 합니다:

여기서의 실패는 재시도 한 번으로 끝나지 않습니다 — 환불, 이탈하는 고객, 혹은 내 시간이 듭니다. 그에 비하면 토큰당 할증은 반올림 오차입니다.

내가 실제로 출시하는 라우팅 규칙

나는 에이전트마다 하나의 모델을 고르지 않습니다. 에이전트 안에서 작업별로 라우팅하며, 보통은 값싼 분류기가 어느 하위 모델이 작업을 처리할지 결정합니다:

typescript
function pickModel(task: Task): string {
  // 저렴, 검증 가능, 고볼륨 → Haiku
  if (task.type === "classify" || task.type === "extract") {
    return "claude-haiku";
  }
  // 개방형 또는 고객 대면 → Sonnet
  if (task.customerFacing || task.steps > 2) {
    return "claude-sonnet";
  }
  return "claude-sonnet"; // 기본값은 안전한 선택
}

여기에는 두 가지 원칙이 새겨져 있습니다. 기본값은 안전한 모델로, 값싼 모델이 아니라 — 비용은 작동하는 기준선에서 아래로 최적화하는 것이지, 망가진 상태에서 신뢰성을 위로 끌어올리는 것이 아닙니다. 그리고 도박하지 말고 에스컬레이션하라: 쉬운 80%는 Haiku에 맡기고 어려운 20%는 Sonnet에 넘기세요. 이 하이브리드는 두 모델 중 하나로만 전부 돌리는 것을 거의 항상 이깁니다.

그 위에 얹을 수 있는 프롬프트 캐싱도 있습니다: 시스템 프롬프트가 크고 재사용된다면, 캐싱은 등급과 무관하게 입력 비용을 상당히 줄이며, 때로는 Sonnet을 충분히 싸게 만들어 Haiku 문제 자체를 무의미하게 합니다.

내 스택에서 가져온 실제 예시

고볼륨 수신 트리아지 단계를 봅시다. 수천 번 돌고, 작업은 세 갈래 분류이며, 놓쳐도 항목이 검토 큐에 떨어질 뿐 — 싸게 잡히고 위험이 낮습니다. 교과서적인 Haiku 작업이며, 이를 Sonnet에서 빼내자 중요한 결과에 측정 가능한 타격 없이 그 단계의 비용을 눈에 띄게 줄일 수 있었습니다.

이제 실제 고객 회신을 작성하는 단계를 봅시다. 볼륨은 낮고, 개방형이며, 나쁜 초안이 나가면 신뢰를 잃습니다. 그것은 Sonnet에 남겨둡니다. 같은 에이전트, 두 모델, 위험에 따라 라우팅. 나는 AI 에이전트가 실제로 작동하는지 어떻게 측정하는가에서 설명한 방식으로 둘의 실행당 비용과 성공 지표를 지켜봅니다 — 그리고 평가가 “더 싼 모델이 성공률을 유지한다”고 말한 뒤에만 단계를 한 등급 낮춥니다.

자주 묻는 질문

실무에서 Claude Haiku는 항상 Sonnet보다 쌉니까?

토큰당으로는, 예 — 큰 차이로. 성공한 결과당으로는, 항상 그렇지는 않습니다. Haiku의 낮은 성공률이 재시도와 사람의 정리 작업을 유발하면, 실수를 잡거나 고치는 데 비용이 드는 작업에서는 총비용이 Sonnet을 넘어설 수 있습니다.

주어진 작업에서 Haiku와 Sonnet을 어떻게 결정합니까?

작업을 두 축으로 채점하세요: 출력이 얼마나 검증 가능한지, 그리고 실수가 얼마나 비싼지. 검증이 싸고 저위험·고볼륨인 작업은 Haiku로; 개방형, 고객 대면, 또는 검증이 어려운 작업은 Sonnet으로. 에이전트별이 아니라 작업별로 라우팅하세요.

추적해야 할 단 하나의 비용 지표는 무엇입니까?

성공한 결과당 비용 — 호출 비용 곱하기 시도 횟수에 기대 정리 비용을 더하고, 성공률로 나눈 값. 호출당 가격만으로는 재시도와 사람의 시간이 가려지며, 바로 그곳에서 값싼 모델이 조용히 비싸집니다.

한 에이전트에서 두 모델을 모두 쓸 수 있습니까?

예, 그리고 대개 그래야 합니다. 가장 강력한 패턴은 값싼 1차 처리(Haiku가 분류 또는 필터링)가 모호한 경우만 Sonnet으로 에스컬레이션하는 것입니다. 이 하이브리드는 보통 단일 등급으로 전부 돌리는 것을 이깁니다.

계속 읽기

AI 플레이북을 받아보세요

매주 수요일. 28,400명+ 구독자. 핵심만.

↵ 전체 결과 보기 esc esc 닫기