llms.txt 详解:它真的能影响AI引用吗?
llms.txt是位于yoursite.com/llms.txt的纯文本文件,告诉AI爬虫优先处理哪些页面。Perplexity会主动读取它;ChatGPT和Bing Copilot可能还不会。实施只需20分钟且免费——去做吧,但不要期望下周就会出现引用高峰。
每周三。28,400+ 读者。纯干货。
✓ Check your inbox — click the confirmation link to complete sign-up.
✓ You're subscribed!
✓ You're already on the list.
目录
2026年5月更新。
TL;DR: llms.txt是位于yoursite.com/llms.txt的纯文本文件,告诉AI爬虫优先处理哪些页面。Perplexity会主动读取它;ChatGPT和Bing Copilot可能还不会。实施只需20分钟且免费——去做吧,但不要期望下周就会出现引用高峰。
[运营者视角] 我运营着多个AI代理,监控我的网站在Perplexity、ChatGPT和Google SGE中的引用情况。llms.txt是真正属于你的第一个信号层——以下是数据目前显示的情况。
llms.txt到底是什么
把它想象成AI爬虫的robots.txt,但方向相反。robots.txt说”不要爬取这个”。llms.txt说”当你在构建关于我网站的上下文时,这是最重要的内容”。
该规范由Jeremy Howard(fast.ai创始人)于2024年底提出。核心思想:在yoursite.com/llms.txt放置一个文件,用纯Markdown列出你最重要的页面。AI爬虫扫描你的网站获取上下文时,可以读取该文件并立即知道优先处理什么——而不是根据PageRank或爬取深度来猜测。
还有一个可选的llms-full.txt变体,将你关键页面的完整文本合并到一个文档中。一些爬虫偏好这种格式,因为它减少了请求次数。
这两个文件都还不是W3C标准。这是一个社区提案,在技术创始人和内容团队中采用率不断增长。
文件看起来是什么样的
以下是我在alejandrorioja.com使用的llms.txt:
# Alejandro Rioja
> 运营者、AI顾问和Pickleland创始人。撰写关于GEO、AI代理和创始人增长的内容。
## 核心页面
- [关于我](https://alejandrorioja.com/about/): 背景、咨询服务以及如何与我合作。
- [博客](https://alejandrorioja.com/blog/): 关于GEO、SEO、AI代理和创始人增长的所有文章。
- [咨询](https://alejandrorioja.com/consultation/30/): 预约30分钟付费会话。
## 热门文章
- [如何在ChatGPT回答中被引用](https://alejandrorioja.com/blog/how-to-get-cited-in-chatgpt-answers/): 我在客户网站使用的GEO手册。
- [创始人的AI代理架构](https://alejandrorioja.com/blog/ai-agent-architecture-for-founders/): 如何在没有完整工程团队的情况下设计多代理系统。
- [GEO vs SEO](https://alejandrorioja.com/blog/geo-vs-seo/): 当Google不再是唯一重要的搜索引擎时,什么会改变。
## 可选:忽略
- /drafts/
- /admin/几点需要注意:
- H1是你的品牌名称。
- 引用块是关于你是谁的1-2句描述。这是最重要的一行——LLM会用它快速构建对你网站的心智模型。
- 各节按目的对页面进行分组。
- URL是绝对路径。一些爬虫无法解析相对路径。
## 可选:忽略部分不在官方规范中,但一些实现会像robots.txt的Disallow行一样读取它。
哪些AI引擎真正读取它
这里我必须坦诚:情况很分散,部分信息没有文档记录。
Perplexity — 是的,已确认。Perplexity的爬虫(PerplexityBot)在索引网站时会读取llms.txt。他们的工程团队曾公开引用该规范。如果Perplexity是你重要的引荐来源,实施llms.txt有清晰的影响路径。
ChatGPT / OpenAI — 未确认。截至2026年中,OpenAI的爬虫(GPTBot)似乎不读取llms.txt。其爬取行为由robots.txt和OpenAI自己的内部优先级控制。OpenAI没有公开声明承认该规范。
Bing Copilot / 微软 — 未确认。与OpenAI类似。Bing的AI爬虫(BingBot)遵循robots.txt,但没有迹象表明它读取llms.txt。
Google AI Overviews / Gemini — 未确认。Google有自己的结构化数据生态系统(schema.org、站点地图),没有表示会采用第三方规范。
Anthropic — Anthropic的爬虫(ClaudeBot)爬取网络以获取训练数据。没有公开文档表明它读取llms.txt,但几位GEO实践者报告说实施后Claude引用有所改善。相关性,非因果性——但值得注意。
较小的AI搜索引擎 — You.com、Phind和几个垂直AI搜索工具已声明或暗示它们读取llms.txt。对于较小的团队来说,该规范更容易采用,因为他们不需要重构多年积累的爬取基础设施。
诚实的总结:目前,llms.txt是Perplexity的优化工具,在其他地方有一些推测性的好处。随着规范的成熟,这个比例可能会改变。
如何在20分钟内实施
如果你使用静态网站(Astro、带静态导出的Next.js、Hugo等),在public/llms.txt创建文件。它将在根路径提供服务。
对于使用app router的Next.js网站,你可以动态生成:
// app/llms.txt/route.ts
import { allPosts } from "@/lib/content";
export async function GET() {
const topPosts = allPosts
.filter((p) => p.featured || p.views > 1000)
.slice(0, 10);
const lines = [
"# Alejandro Rioja",
"",
"> 运营者、AI顾问、Pickleland创始人。撰写关于GEO、AI代理和创始人增长的内容。",
"",
"## 热门文章",
"",
...topPosts.map(
(p) => `- [${p.title}](https://alejandrorioja.com/blog/${p.slug}/): ${p.description}`
),
"",
"## 核心页面",
"",
"- [关于我](https://alejandrorioja.com/about/): 服务和背景。",
"- [咨询](https://alejandrorioja.com/consultation/30/): 预约会话。",
];
return new Response(lines.join("\n"), {
headers: { "Content-Type": "text/plain; charset=utf-8" },
});
}对于Astro网站,等效方案是在src/pages/中的.txt.ts端点:
// src/pages/llms.txt.ts
import type { APIRoute } from "astro";
import { getCollection } from "astro:content";
export const GET: APIRoute = async () => {
const posts = await getCollection("posts", (p) => p.data.lang === "en");
const top = posts
.sort((a, b) => b.data.pubDate.valueOf() - a.data.pubDate.valueOf())
.slice(0, 10);
const body = [
"# Alejandro Rioja",
"",
"> AI顾问和运营者。撰写关于GEO、AI代理和创始人增长的内容。",
"",
"## 最新文章",
"",
...top.map(
(p) =>
`- [${p.data.title}](https://alejandrorioja.com/blog/${p.slug}/): ${p.data.description}`
),
].join("\n");
return new Response(body, {
headers: { "Content-Type": "text/plain; charset=utf-8" },
});
};部署后,用curl -s https://yoursite.com/llms.txt验证。如果看到Markdown,就完成了。
你也应该创建llms-full.txt吗?
也许。llms-full.txt是你关键页面的拼接转储——标题、URL和完整正文,一页接一页,用---分隔。其思路是爬虫可以一次请求获取所有内容,并有足够的上下文回答关于你网站的问题,无需爬取单个页面。
权衡:这是个大文件。我的文件对于前30篇文章约400KB。一些爬虫可能超时或截断它。其他爬虫可能更重视它,因为内容已预先消化。
我当前的方法:生成llms-full.txt,但将其限制为按流量排名前15的文章。保持在250KB以下。每次部署时重新生成。
数据真正显示了什么
自2026年1月以来,我一直在监控本网站和三个客户网站的Perplexity引用情况。以下是我观察到的:
- 有llms.txt的网站:与实施前的基准相比,每月Perplexity引用平均增加2.3倍。样本大小:4个网站,4个月的数据。在任何合理的置信区间下,这在统计上都不显著。
- 混淆因素:每个添加llms.txt的网站同时也进行了其他GEO工作(更好的结构化数据、更清晰的标题、更具体的回答格式)。归因是不可能的。
- ChatGPT引用:添加llms.txt后,任何网站都没有可测量的差异。与缺乏已确认支持一致。
诚实的解读:llms.txt可能对Perplexity有帮助。机制很清楚——Perplexity读取它。增长是专门来自llms.txt还是来自通常伴随它的总体GEO改进,我目前还说不清楚。
引用块中该写什么
引用块中的单行描述是我会花最多时间的部分。这是LLM在RAG上下文中用来概括你的文本。它需要:
- 具体:“为中小企业运营生产代理的AI顾问”胜过”企业家和顾问”。
- 关键词意识:包含你希望被引用的术语。如果你想要”GEO”的引用,在那一行写上”GEO”。
- 实体锚定:提及帮助LLM消除歧义的专有名词。你的名字+你的公司+你的城市胜过仅有你的名字。
差劲:> 帮助企业用AI实现增长。
更好:> Alejandro Rioja——德克萨斯州奥斯汀的AI顾问,Pickleland创始人,自2019年起撰写关于GEO、AI代理和创始人增长的内容。
运营者的最终结论
llms.txt实施需要20分钟,提供服务不花任何成本,并且与Perplexity有已确认的读取路径。去做吧。该规范要么成为真正的标准(在这种情况下早期采用者获益),要么消失(在这种情况下你损失了20分钟)。不对称性显而易见。只是不要让它分散你对更高ROI的GEO工作的注意力:结构化数据、清晰的实体信号以及为片段提取格式化的答案。那些能影响每个AI引擎。llms.txt目前影响一个。
每周三。28,400+ 读者。纯干货。
✓ Check your inbox — click the confirmation link to complete sign-up.
✓ You're subscribed!
✓ You're already on the list.
将AI实战手册发送到您的邮箱
每周三。28,400+ 读者。纯干货。
Check your inbox.
We sent you a confirmation email — click the link inside to complete your subscription. Check spam if you don't see it within a minute.
You're subscribed.
Welcome — the next edition lands in your inbox soon.
You're already on the list — look for it every Wednesday.