llms.txt Explicado: Ele Realmente Move as Citações da IA?
llms.txt é um arquivo de texto simples em yoursite.com/llms.txt que diz aos crawlers de IA quais páginas priorizar. O Perplexity o lê ativamente; ChatGPT e Bing Copilot provavelmente ainda não. Leva 20 minutos para implementar e não custa nada — faça, mas não espere um pico de citações na próxima semana.
Toda quarta-feira. 28.400+ operadores. Zero enrolação.
✓ Check your inbox — click the confirmation link to complete sign-up.
✓ You're subscribed!
✓ You're already on the list.
Índice
Atualizado maio 2026.
TL;DR: llms.txt é um arquivo de texto simples em yoursite.com/llms.txt que diz aos crawlers de IA quais páginas priorizar. O Perplexity o lê ativamente; ChatGPT e Bing Copilot provavelmente ainda não. Leva 20 minutos para implementar e não custa nada — faça, mas não espere um pico de citações na próxima semana.
[Perspectiva do operador] Eu gerencio agentes de IA que monitoram como meus sites são citados no Perplexity, ChatGPT e Google SGE. llms.txt é a primeira camada de sinais que realmente pertence a você — aqui está o que os dados mostram até agora.
O que llms.txt realmente é
Pense nisso como um robots.txt para crawlers de IA, mas invertido. robots.txt diz “não rastrear isso.” llms.txt diz “quando você está construindo contexto sobre meu site, aqui está o que importa mais.”
A especificação foi proposta no final de 2024 por Jeremy Howard (do fast.ai). A ideia: colocar um arquivo em yoursite.com/llms.txt que lista suas páginas mais importantes em Markdown simples. Um crawler de IA que raspa seu site para contexto pode ler esse arquivo e saber imediatamente o que priorizar — em vez de adivinhar por PageRank ou profundidade de rastreamento.
Também existe uma variante opcional llms-full.txt que inclui o texto completo de suas páginas-chave concatenadas em um único documento. Alguns crawlers preferem esse formato porque reduz as idas e vindas.
Nenhum arquivo é ainda um padrão W3C. É uma proposta da comunidade com adoção crescente entre fundadores técnicos e equipes de conteúdo.
Como o arquivo se parece
Aqui está o llms.txt que uso para alejandrorioja.com:
# Alejandro Rioja
> Operador, consultor de IA e fundador do Pickleland. Escrevo sobre GEO, agentes de IA e crescimento para fundadores.
## Páginas principais
- [Sobre](https://alejandrorioja.com/about/): Histórico, serviços de consultoria e como trabalhar comigo.
- [Blog](https://alejandrorioja.com/blog/): Todos os posts sobre GEO, SEO, agentes de IA e crescimento para fundadores.
- [Consultoria](https://alejandrorioja.com/consultation/30/): Agende uma sessão paga de 30 minutos.
## Melhores posts
- [Como ser citado nas respostas do ChatGPT](https://alejandrorioja.com/blog/how-to-get-cited-in-chatgpt-answers/): O playbook de GEO que uso em sites de clientes.
- [Arquitetura de agentes de IA para fundadores](https://alejandrorioja.com/blog/ai-agent-architecture-for-founders/): Como projetar sistemas multi-agente sem uma equipe de engenharia completa.
- [GEO vs SEO](https://alejandrorioja.com/blog/geo-vs-seo/): O que muda quando o Google não é mais o único mecanismo de busca que importa.
## Opcional: ignorar
- /drafts/
- /admin/Algumas coisas a notar:
- O H1 é o nome da sua marca.
- A citação em bloco é uma descrição de 1-2 frases de quem você é. Esta é a linha mais importante — é o que um LLM usará para construir um modelo mental rápido do seu site.
- As seções agrupam páginas por propósito.
- As URLs são absolutas. Alguns crawlers não resolvem caminhos relativos.
- A seção
## Opcional: ignorarnão está oficialmente na especificação, mas algumas implementações a leem como linhas Disallow do robots.txt.
Quais mecanismos de IA realmente o leem
É aqui que preciso ser honesto: o cenário está fragmentado e parcialmente não documentado.
Perplexity — Sim, confirmado. O crawler do Perplexity (PerplexityBot) lê llms.txt ao indexar sites. Sua equipe de engenharia referenciou a especificação publicamente. Se o Perplexity é uma fonte de referência significativa para você, implementar llms.txt tem um caminho claro para o impacto.
ChatGPT / OpenAI — Não confirmado. O crawler da OpenAI (GPTBot) não parece ler llms.txt em meados de 2026. Seu comportamento de rastreamento é governado pelo robots.txt e pela priorização interna da OpenAI. Não há declaração pública da OpenAI reconhecendo a especificação.
Bing Copilot / Microsoft — Não confirmado. Situação semelhante à OpenAI. O crawler de IA do Bing (BingBot) segue o robots.txt, mas não há sinal de que leia llms.txt.
Google AI Overviews / Gemini — Não confirmado. O Google tem seu próprio ecossistema de dados estruturados (schema.org, sitemaps) e não indicou que adotará especificações de terceiros.
Anthropic — O crawler da Anthropic (ClaudeBot) rastreia a web para dados de treinamento. Não há documentação pública de que leia llms.txt, mas vários praticantes de GEO relatam melhores citações do Claude após a implementação. Correlação, não causalidade — mas vale notar.
Mecanismos de busca de IA menores — You.com, Phind e várias ferramentas de busca de IA vertical declararam ou insinuaram que leem llms.txt. A especificação é mais fácil de adotar para equipes menores porque não têm anos de infraestrutura de rastreamento para refatorar.
O resumo honesto: agora, llms.txt é uma otimização para o Perplexity com algum benefício especulativo em outros lugares. Essa proporção provavelmente mudará à medida que a especificação amadurece.
Como implementar em 20 minutos
Se você está em um site estático (Astro, Next.js com exportação estática, Hugo, etc.), crie o arquivo em public/llms.txt. Ele será servido na raiz.
Para um site Next.js com app router, você pode gerá-lo dinamicamente:
// app/llms.txt/route.ts
import { allPosts } from "@/lib/content";
export async function GET() {
const topPosts = allPosts
.filter((p) => p.featured || p.views > 1000)
.slice(0, 10);
const lines = [
"# Alejandro Rioja",
"",
"> Operador, consultor de IA, fundador do Pickleland. Escrevo sobre GEO, agentes de IA e crescimento para fundadores.",
"",
"## Melhores posts",
"",
...topPosts.map(
(p) => `- [${p.title}](https://alejandrorioja.com/blog/${p.slug}/): ${p.description}`
),
"",
"## Páginas principais",
"",
"- [Sobre](https://alejandrorioja.com/about/): Serviços e histórico.",
"- [Consultoria](https://alejandrorioja.com/consultation/30/): Agendar uma sessão.",
];
return new Response(lines.join("\n"), {
headers: { "Content-Type": "text/plain; charset=utf-8" },
});
}Para um site Astro, o equivalente é um endpoint .txt.ts em src/pages/:
// src/pages/llms.txt.ts
import type { APIRoute } from "astro";
import { getCollection } from "astro:content";
export const GET: APIRoute = async () => {
const posts = await getCollection("posts", (p) => p.data.lang === "en");
const top = posts
.sort((a, b) => b.data.pubDate.valueOf() - a.data.pubDate.valueOf())
.slice(0, 10);
const body = [
"# Alejandro Rioja",
"",
"> Consultor de IA e operador. Escrevo sobre GEO, agentes de IA e crescimento para fundadores.",
"",
"## Posts recentes",
"",
...top.map(
(p) =>
`- [${p.data.title}](https://alejandrorioja.com/blog/${p.slug}/): ${p.data.description}`
),
].join("\n");
return new Response(body, {
headers: { "Content-Type": "text/plain; charset=utf-8" },
});
};Após o deployment, verifique com curl -s https://yoursite.com/llms.txt. Se você ver Markdown, terminou.
Você também deve criar llms-full.txt?
Talvez. llms-full.txt é um dump concatenado de suas páginas-chave — título, URL e texto completo do corpo, uma página após a outra, separadas por ---. A ideia é que um crawler pode pegar tudo em uma única solicitação e ter contexto suficiente para responder perguntas sobre seu site sem rastrear páginas individuais.
A desvantagem: é um arquivo grande. O meu tem cerca de 400KB para os 30 melhores posts. Alguns crawlers podem expirar ou truncá-lo. Outros podem ponderá-lo mais pesadamente porque o conteúdo está pré-digerido.
Minha abordagem atual: gero llms-full.txt, mas o limito aos 15 posts com melhor desempenho por tráfego. Mantenho abaixo de 250KB. Regenero a cada deployment.
O que os dados realmente mostram
Venho monitorando citações do Perplexity para este site e três sites de clientes desde janeiro de 2026. Aqui está o que observei:
- Sites com llms.txt: Média de 2,3x mais citações do Perplexity por mês em comparação com sua baseline pré-implementação. Tamanho da amostra: 4 sites, 4 meses de dados. Isso não é estatisticamente significativo em nenhum intervalo de confiança razoável.
- O fator confundidor: Cada site que adicionou llms.txt também fez outros trabalhos de GEO ao mesmo tempo (dados estruturados melhores, cabeçalhos mais limpos, formatação de resposta mais específica). A atribuição é impossível.
- Citações do ChatGPT: Nenhuma diferença mensurável em nenhum site após adicionar llms.txt. Consistente com a falta de suporte confirmado.
A interpretação honesta: llms.txt provavelmente ajuda com o Perplexity. O mecanismo é claro — o Perplexity o lê. Se o aumento é especificamente do llms.txt ou das melhorias gerais de GEO que tendem a acompanhá-lo, ainda não posso dizer.
O que colocar na citação em bloco
A descrição de uma linha na citação em bloco é a parte em que eu gastaria mais tempo. Este é o texto que um LLM usará para resumir você em um contexto RAG. Precisa ser:
- Específico: “Consultor de IA que gerencia agentes de produção para PMEs” supera “empreendedor e consultor.”
- Consciente de palavras-chave: Inclua os termos pelos quais quer ser citado. Se quer citações por “GEO”, coloque “GEO” nessa linha.
- Ancorado em entidades: Mencione nomes próprios que ajudem um LLM a desambiguá-lo. Seu nome + sua empresa + sua cidade supera apenas seu nome.
Ruim: > Ajudando empresas a crescer com IA.
Melhor: > Alejandro Rioja — consultor de IA em Austin TX, fundador do Pickleland, escrevendo sobre GEO, agentes de IA e crescimento para fundadores desde 2019.
A conclusão do operador
llms.txt leva 20 minutos para implementar, não custa nada para servir e tem um caminho de leitura confirmado com o Perplexity. Faça. A especificação ou se tornará um padrão real (nesse caso, os adotantes precoces ganham) ou desaparecerá (nesse caso, você perdeu 20 minutos). A assimetria é óbvia. Só não deixe que isso o distraia do trabalho de GEO com maior ROI: dados estruturados, sinais de entidade claros e respostas formatadas para extração de snippets. Esses movem todos os mecanismos de IA. llms.txt atualmente move um.
Toda quarta-feira. 28.400+ operadores. Zero enrolação.
✓ Check your inbox — click the confirmation link to complete sign-up.
✓ You're subscribed!
✓ You're already on the list.
Receba o manual de IA na sua caixa de entrada
Toda quarta-feira. 28.400+ operadores. Zero enrolação.
Check your inbox.
We sent you a confirmation email — click the link inside to complete your subscription. Check spam if you don't see it within a minute.
You're subscribed.
Welcome — the next edition lands in your inbox soon.
You're already on the list — look for it every Wednesday.