Alejandro Rioja.
GEO SEO

llms.txt 详解:它真的能影响AI引用吗?

Alejandro Rioja
Alejandro Rioja
1 分钟阅读
TL;DR

llms.txt是位于yoursite.com/llms.txt的纯文本文件,告诉AI爬虫优先处理哪些页面。Perplexity会主动读取它;ChatGPT和Bing Copilot可能还不会。实施只需20分钟且免费——去做吧,但不要期望下周就会出现引用高峰。

免费新闻通讯

每周三。28,400+ 读者。纯干货。

目录

2026年5月更新。

TL;DR: llms.txt是位于yoursite.com/llms.txt的纯文本文件,告诉AI爬虫优先处理哪些页面。Perplexity会主动读取它;ChatGPT和Bing Copilot可能还不会。实施只需20分钟且免费——去做吧,但不要期望下周就会出现引用高峰。

[运营者视角] 我运营着多个AI代理,监控我的网站在Perplexity、ChatGPT和Google SGE中的引用情况。llms.txt是真正属于你的第一个信号层——以下是数据目前显示的情况。

llms.txt到底是什么

把它想象成AI爬虫的robots.txt,但方向相反。robots.txt说”不要爬取这个”。llms.txt说”当你在构建关于我网站的上下文时,这是最重要的内容”。

该规范由Jeremy Howard(fast.ai创始人)于2024年底提出。核心思想:在yoursite.com/llms.txt放置一个文件,用纯Markdown列出你最重要的页面。AI爬虫扫描你的网站获取上下文时,可以读取该文件并立即知道优先处理什么——而不是根据PageRank或爬取深度来猜测。

还有一个可选的llms-full.txt变体,将你关键页面的完整文本合并到一个文档中。一些爬虫偏好这种格式,因为它减少了请求次数。

这两个文件都还不是W3C标准。这是一个社区提案,在技术创始人和内容团队中采用率不断增长。

文件看起来是什么样的

以下是我在alejandrorioja.com使用的llms.txt:

markdown
# Alejandro Rioja

> 运营者、AI顾问和Pickleland创始人。撰写关于GEO、AI代理和创始人增长的内容。

## 核心页面

- [关于我](https://alejandrorioja.com/about/): 背景、咨询服务以及如何与我合作。
- [博客](https://alejandrorioja.com/blog/): 关于GEO、SEO、AI代理和创始人增长的所有文章。
- [咨询](https://alejandrorioja.com/consultation/30/): 预约30分钟付费会话。

## 热门文章

- [如何在ChatGPT回答中被引用](https://alejandrorioja.com/blog/how-to-get-cited-in-chatgpt-answers/): 我在客户网站使用的GEO手册。
- [创始人的AI代理架构](https://alejandrorioja.com/blog/ai-agent-architecture-for-founders/): 如何在没有完整工程团队的情况下设计多代理系统。
- [GEO vs SEO](https://alejandrorioja.com/blog/geo-vs-seo/): 当Google不再是唯一重要的搜索引擎时,什么会改变。

## 可选:忽略

- /drafts/
- /admin/

几点需要注意:

哪些AI引擎真正读取它

这里我必须坦诚:情况很分散,部分信息没有文档记录。

Perplexity — 是的,已确认。Perplexity的爬虫(PerplexityBot)在索引网站时会读取llms.txt。他们的工程团队曾公开引用该规范。如果Perplexity是你重要的引荐来源,实施llms.txt有清晰的影响路径。

ChatGPT / OpenAI — 未确认。截至2026年中,OpenAI的爬虫(GPTBot)似乎不读取llms.txt。其爬取行为由robots.txt和OpenAI自己的内部优先级控制。OpenAI没有公开声明承认该规范。

Bing Copilot / 微软 — 未确认。与OpenAI类似。Bing的AI爬虫(BingBot)遵循robots.txt,但没有迹象表明它读取llms.txt。

Google AI Overviews / Gemini — 未确认。Google有自己的结构化数据生态系统(schema.org、站点地图),没有表示会采用第三方规范。

Anthropic — Anthropic的爬虫(ClaudeBot)爬取网络以获取训练数据。没有公开文档表明它读取llms.txt,但几位GEO实践者报告说实施后Claude引用有所改善。相关性,非因果性——但值得注意。

较小的AI搜索引擎 — You.com、Phind和几个垂直AI搜索工具已声明或暗示它们读取llms.txt。对于较小的团队来说,该规范更容易采用,因为他们不需要重构多年积累的爬取基础设施。

诚实的总结:目前,llms.txt是Perplexity的优化工具,在其他地方有一些推测性的好处。随着规范的成熟,这个比例可能会改变。

如何在20分钟内实施

如果你使用静态网站(Astro、带静态导出的Next.js、Hugo等),在public/llms.txt创建文件。它将在根路径提供服务。

对于使用app router的Next.js网站,你可以动态生成:

ts
// app/llms.txt/route.ts
import { allPosts } from "@/lib/content";

export async function GET() {
  const topPosts = allPosts
    .filter((p) => p.featured || p.views > 1000)
    .slice(0, 10);

  const lines = [
    "# Alejandro Rioja",
    "",
    "> 运营者、AI顾问、Pickleland创始人。撰写关于GEO、AI代理和创始人增长的内容。",
    "",
    "## 热门文章",
    "",
    ...topPosts.map(
      (p) => `- [${p.title}](https://alejandrorioja.com/blog/${p.slug}/): ${p.description}`
    ),
    "",
    "## 核心页面",
    "",
    "- [关于我](https://alejandrorioja.com/about/): 服务和背景。",
    "- [咨询](https://alejandrorioja.com/consultation/30/): 预约会话。",
  ];

  return new Response(lines.join("\n"), {
    headers: { "Content-Type": "text/plain; charset=utf-8" },
  });
}

对于Astro网站,等效方案是在src/pages/中的.txt.ts端点:

ts
// src/pages/llms.txt.ts
import type { APIRoute } from "astro";
import { getCollection } from "astro:content";

export const GET: APIRoute = async () => {
  const posts = await getCollection("posts", (p) => p.data.lang === "en");
  const top = posts
    .sort((a, b) => b.data.pubDate.valueOf() - a.data.pubDate.valueOf())
    .slice(0, 10);

  const body = [
    "# Alejandro Rioja",
    "",
    "> AI顾问和运营者。撰写关于GEO、AI代理和创始人增长的内容。",
    "",
    "## 最新文章",
    "",
    ...top.map(
      (p) =>
        `- [${p.data.title}](https://alejandrorioja.com/blog/${p.slug}/): ${p.data.description}`
    ),
  ].join("\n");

  return new Response(body, {
    headers: { "Content-Type": "text/plain; charset=utf-8" },
  });
};

部署后,用curl -s https://yoursite.com/llms.txt验证。如果看到Markdown,就完成了。

你也应该创建llms-full.txt吗?

也许。llms-full.txt是你关键页面的拼接转储——标题、URL和完整正文,一页接一页,用---分隔。其思路是爬虫可以一次请求获取所有内容,并有足够的上下文回答关于你网站的问题,无需爬取单个页面。

权衡:这是个大文件。我的文件对于前30篇文章约400KB。一些爬虫可能超时或截断它。其他爬虫可能更重视它,因为内容已预先消化。

我当前的方法:生成llms-full.txt,但将其限制为按流量排名前15的文章。保持在250KB以下。每次部署时重新生成。

数据真正显示了什么

自2026年1月以来,我一直在监控本网站和三个客户网站的Perplexity引用情况。以下是我观察到的:

诚实的解读:llms.txt可能对Perplexity有帮助。机制很清楚——Perplexity读取它。增长是专门来自llms.txt还是来自通常伴随它的总体GEO改进,我目前还说不清楚。

引用块中该写什么

引用块中的单行描述是我会花最多时间的部分。这是LLM在RAG上下文中用来概括你的文本。它需要:

差劲:> 帮助企业用AI实现增长。

更好:> Alejandro Rioja——德克萨斯州奥斯汀的AI顾问,Pickleland创始人,自2019年起撰写关于GEO、AI代理和创始人增长的内容。

运营者的最终结论

llms.txt实施需要20分钟,提供服务不花任何成本,并且与Perplexity有已确认的读取路径。去做吧。该规范要么成为真正的标准(在这种情况下早期采用者获益),要么消失(在这种情况下你损失了20分钟)。不对称性显而易见。只是不要让它分散你对更高ROI的GEO工作的注意力:结构化数据、清晰的实体信号以及为片段提取格式化的答案。那些能影响每个AI引擎。llms.txt目前影响一个。

继续阅读

将AI实战手册发送到您的邮箱

每周三。28,400+ 读者。纯干货。

↵ 查看全部结果 esc esc 关闭