Alejandro Rioja.
AI Agents

Primeiras impressões do Claude Fable 5: a visão de um operador

Alejandro Rioja
Alejandro Rioja
8 min de leitura
TL;DR

O Fable 5 é o modelo mais capaz da Anthropic e isso fica evidente em trabalho de agente difícil e de longo horizonte — mas não é a atualização padrão. Custa mais por token, usa um novo tokenizer que infla suas contagens de tokens em cerca de 30%, roda thinking sempre ativo que você não consegue desligar e pode recusar requisições no nível do classificador. Para a maioria das cargas de trabalho, o Opus 4.8 ainda é a escolha certa. Use o Fable 5 quando a tarefa for de fato difícil.

Newsletter gratuita

Toda quarta-feira. 28.400+ operadores. Zero enrolação.

Índice

Atualizado em junho de 2026.

TL;DR: O Fable 5 é o modelo mais capaz da Anthropic e isso fica evidente em trabalho de agente difícil e de longo horizonte — mas não é a atualização padrão. Custa mais por token, usa um novo tokenizer que infla suas contagens de tokens em cerca de 30%, roda thinking sempre ativo que você não consegue desligar e pode recusar requisições no nível do classificador. Para a maioria das cargas de trabalho, o Opus 4.8 ainda é a escolha certa. Use o Fable 5 quando a tarefa for de fato difícil.

[Leitura do operador] Eu opero mais de 30 agentes em produção, entre uma marca de consultoria e uma quadra de pickleball, então um novo modelo de ponta não é um benchmark para mim — é uma linha de custo e uma migração. Aqui está o que mudou quando eu de fato liguei o Fable 5 a alguns deles, e onde mantive o Opus 4.8 no lugar.

O que o Fable 5 realmente é

O Claude Fable 5 é o modelo mais capaz que a Anthropic já lançou de forma ampla. Ele mira a ponta mais exigente do espectro: raciocínio profundo e trabalho agêntico de longo horizonte — as execuções em que um agente precisa manter um plano ao longo de dezenas de chamadas de ferramenta sem perder o fio da meada.

A superfície da API é quase idêntica à do Opus 4.7/4.8, o que facilitou os testes. Janela de contexto de 1M tokens por padrão, até 128K tokens de saída por requisição. Se você construiu qualquer coisa sobre a linha recente do Opus, o formato da requisição é familiar. As diferenças estão nos detalhes, e é nos detalhes que moram o dinheiro e as surpresas.

Uma observação sobre nomes para você não se confundir: Mythos 5 é o mesmo modelo — mesmas capacidades, mesmo preço, mesmo comportamento — disponível apenas através do programa Project Glasswing da Anthropic. Se você não está nesse programa, o modelo que você quer é o claude-fable-5. Tudo abaixo se aplica aos dois.

Onde ele é genuinamente melhor

Joguei minha tarefa de agente mais difícil nele primeiro: uma execução de pesquisa-e-síntese em várias etapas que lê uma pilha de fontes, faz a verificação cruzada de afirmações e escreve um resumo com citações. É o tipo de trabalho em que modelos mais fracos derrapam — eles perdem o controle de qual afirmação veio de qual fonte umas dez chamadas de ferramenta adiante.

O Fable 5 manteve o fio da meada. A síntese ficou mais coesa, as citações permaneceram coladas às afirmações certas e ele pegou duas contradições entre fontes que a minha versão com Opus 4.8 vinha silenciosamente nivelando. Em raciocínio longo e estruturado, é um salto real — não um avanço marginal de benchmark.

Esse é o argumento honesto a favor dele. Se o modo de falha do seu agente é “desmorona nos 10% difíceis”, o Fable 5 estreita essa lacuna. Se o seu agente resume newsletters ou escreve posts para redes sociais, você não vai sentir a diferença — e vai pagar por capacidade que não está usando.

A pegadinha de custo que ninguém avisa

Aqui está a que vai te pegar se você passar os olhos por cima das notas de versão. O Fable 5 vem com um novo tokenizer, e o mesmo conteúdo é tokenizado em cerca de 30% mais tokens do que na linha do Opus.

Leia isso de novo, porque compõe com o preço. O Fable 5 já é mais caro do que o nível Opus de partida (US$ 10 por milhão de tokens de entrada, US$ 50 por milhão de saída). Agora some uma inflação de tokens de cerca de 30% sobre cada prompt e cada resposta. Uma carga de trabalho inalterada — mesmos prompts, mesmas saídas — pode custar significativamente mais depois da migração, antes de você mudar uma única coisa no que o agente faz.

Então não reutilize seus números antigos. Suas configurações de max_tokens, seus orçamentos de janela de contexto, suas estimativas de custo por execução — todos foram medidos em um tokenizer diferente. A boa notícia: o endpoint de contagem de tokens retorna as contagens sob ambos os tokenizers quando você passa model: "claude-fable-5", então você pode medir o delta nos seus prompts reais antes de virar qualquer chave.

bash
# Measure the tokenizer delta on YOUR prompt before migrating.
# The response includes input_tokens (new) AND input_tokens_prior_tokenizer (old).
curl https://api.anthropic.com/v1/messages/count_tokens \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "content-type: application/json" \
  -d '{ "model": "claude-fable-5", "messages": [{"role":"user","content":"<your real prompt>"}] }'

Rodei isso nos meus prompts mais pesados primeiro. O delta não foi uniforme — varia conforme o conteúdo — mas “reserve cerca de 30% a mais e depois acrescente o prêmio de preço” foi o modelo mental certo.

O thinking está sempre ativo — e você não consegue desligá-lo

No Fable 5, o thinking adaptativo está sempre rodando. A única nova mudança que quebra compatibilidade em relação à linha do Opus: se você enviar um thinking: {type: "disabled"} explícito, recebe um 400. A correção é simples — basta omitir o parâmetro thinking por completo — mas se você tinha código que desabilitava explicitamente o thinking para chamadas baratas e rápidas, esse código agora dá erro.

Você também não recebe de volta a cadeia de raciocínio bruta. O Fable 5 a protege: você recebe blocos thinking normais e pode pedir um resumo legível com display: "summarized", mas o raciocínio sem filtro nunca é exposto. Para a maioria dos apps isso é irrelevante — leia o resumo se precisar de visibilidade. Onde importa é em agentes multi-turno: quando você continua uma conversa no mesmo modelo, precisa devolver os blocos de thinking sem alterações. Descarte-os ou edite-os e o turno quebra. Se você está construindo loops de agente, trate os blocos de thinking como tokens opacos que você carrega adiante na íntegra.

As recusas agora são um problema de fluxo de controle

Essa é a mudança que mais afeta a forma como você escreve o código em volta do modelo. O Fable 5 roda classificadores de segurança nas requisições recebidas, mirando principalmente conteúdo de biologia de pesquisa e a maior parte de cibersegurança. Quando uma requisição é recusada, você recebe um HTTP 200 bem-sucedido com stop_reason: "refusal" — não um erro, não uma exceção. O array content pode estar vazio.

Se o seu código faz response.content[0].text sem checar o stop_reason antes, ele vai quebrar no dia em que uma requisição for recusada. E trabalho benigno e adjacente — ferramentas legítimas de segurança, tarefas de ciências da vida — pode ocasionalmente disparar um falso positivo, então isso não é só problema de quem faz coisas duvidosas.

A regra é: ramifique com base em stop_reason, nunca em stop_details.

typescript
const res = await client.messages.create({
  model: "claude-fable-5",
  max_tokens: 1024,
  messages,
});

if (res.stop_reason === "refusal") {
  // classifiers declined — content is empty or partial. Don't read content[0].
  await handleRefusal(res);
} else {
  console.log(res.content[0].text);
}

Para produção, há um caminho mais limpo: um parâmetro fallbacks do lado do servidor (em beta) que reexecuta automaticamente uma requisição recusada no claude-opus-4-8 na mesma viagem de ida e volta, com reprecificação em estilo de crédito aplicada. Se você roda agentes sem supervisão, configure isso para que uma única recusa por falso positivo não trave uma execução inteira. Essa é a mesma lição que continuo reaprendendo sobre agentes que continuam falhando em produção: o modelo ficar mais inteligente não elimina a necessidade de tratar seus casos extremos — apenas desloca esses casos extremos de lugar.

Mais dois detalhes de migração

Algumas coisas menores que me custaram tempo, para que não custem o seu:

Você deve mesmo migrar?

Aqui está minha avaliação de operador depois de conviver com ele. O Fable 5 não é o alvo padrão de “atualizar para o modelo mais recente” — o Opus 4.8 é. Isso surpreende as pessoas, mas é o enquadramento certo. O Opus 4.8 é uma troca de model-ID em relação ao 4.7, sem novas mudanças que quebrem compatibilidade, é mais barato e, para a esmagadora maioria do trabalho de agente, é indistinguível na qualidade da saída.

O Fable 5 conquista seu lugar nas tarefas genuinamente difíceis: agentes de longo horizonte que precisam manter a coerência ao longo de muitas etapas, raciocínio profundo com múltiplas fontes, as execuções em que a falha que você está tentando eliminar é sutil. Para essas, a capacidade é real e vale o prêmio. Para todo o resto — redação de conteúdo, classificação, roteamento, resumo — você está pagando mais tokens a um preço mais alto por uma qualidade que não consegue perceber.

Acabei rodando os dois. Meu agente de pesquisa-e-síntese passou para o Fable 5. Todo o resto ficou no Opus 4.8. Essa divisão é o ponto central: escolha o modelo por trabalho, não por moda. Se você opera uma frota de agentes, vale a mesma disciplina sobre a qual escrevi no meu stack de operador de 2026 — direcione o trabalho difícil ao modelo caro e pare de pagar demais pelo trabalho fácil.

A conclusão do operador

Teste o Fable 5 na sua única tarefa mais difícil antes de tocar em qualquer outra coisa — é aí que ele compensa, e se não mover o ponteiro ali, não vai mover em lugar nenhum. Rode o contador de tokens contra seus prompts reais para que a inflação de cerca de 30% do tokenizer e o prêmio de preço não te surpreendam na fatura. Adicione uma checagem de stop_reason: "refusal" (ou o fallback do lado do servidor para o Opus 4.8) onde quer que o Fable 5 toque a produção. Depois roteie deliberadamente: Fable 5 para os 10% difíceis, Opus 4.8 para o resto. O melhor modelo não é o mais capaz — é o que está ajustado ao trabalho.

Continue lendo

Receba o manual de IA na sua caixa de entrada

Toda quarta-feira. 28.400+ operadores. Zero enrolação.

↵ ver todos os resultados esc esc para fechar