Alejandro Rioja.
GEO SEO

llms.txt समझाया: क्या यह AI Citations को वाकई बदलता है?

Alejandro Rioja
Alejandro Rioja
7 मिनट पढ़ें
TL;DR

llms.txt yoursite.com/llms.txt पर एक plain-text फ़ाइल है जो AI क्रॉलर को बताती है कि किन pages को प्राथमिकता देनी है। Perplexity इसे सक्रिय रूप से पढ़ता है; ChatGPT और Bing Copilot शायद अभी नहीं। लागू करने में 20 मिनट लगते हैं और कोई लागत नहीं — करें, लेकिन अगले हफ्ते citations में spike की उम्मीद न करें।

मुफ़्त न्यूज़लेटर

हर बुधवार। 28,400+ पाठक। बिना फालतू बात।

विषय-सूची

मई 2026 में अपडेट।

TL;DR: llms.txt yoursite.com/llms.txt पर एक plain-text फ़ाइल है जो AI क्रॉलर को बताती है कि किन pages को प्राथमिकता देनी है। Perplexity इसे सक्रिय रूप से पढ़ता है; ChatGPT और Bing Copilot शायद अभी नहीं। लागू करने में 20 मिनट लगते हैं और कोई लागत नहीं — करें, लेकिन अगले हफ्ते citations में spike की उम्मीद न करें।

[ऑपरेटर का नज़रिया] मैं AI agents चलाता हूं जो monitor करते हैं कि Perplexity, ChatGPT और Google SGE में मेरी साइटों को कैसे cite किया जाता है। llms.txt पहला signal layer है जो वास्तव में आपका है — यहां बताया गया है कि data अभी तक क्या दिखाता है।

llms.txt वास्तव में क्या है

इसे AI क्रॉलर के लिए robots.txt की तरह सोचें, लेकिन उलटा। robots.txt कहता है “इसे crawl मत करो।” llms.txt कहता है “जब तुम मेरी साइट के बारे में context बना रहे हो, तो यह सबसे महत्वपूर्ण है।”

यह specification 2024 के अंत में Jeremy Howard (fast.ai के) ने प्रस्तावित की थी। विचार: yoursite.com/llms.txt पर एक फ़ाइल रखें जो plain Markdown में आपके सबसे महत्वपूर्ण pages को सूचीबद्ध करे। आपकी साइट को context के लिए scrape करने वाला AI क्रॉलर वह फ़ाइल पढ़ सकता है और तुरंत जान सकता है कि क्या प्राथमिकता देनी है — PageRank या crawl depth से अनुमान लगाने के बजाय।

एक optional llms-full.txt variant भी है जिसमें आपके key pages का पूरा text एक document में concatenate किया गया है। कुछ क्रॉलर इस format को prefer करते हैं क्योंकि यह round-trips कम करता है।

कोई भी फ़ाइल अभी तक W3C standard नहीं है। यह एक community proposal है जो technical founders और content teams में बढ़ती adoption के साथ है।

फ़ाइल कैसी दिखती है

यहां वह llms.txt है जो मैं alejandrorioja.com के लिए use करता हूं:

markdown
# Alejandro Rioja

> ऑपरेटर, AI consultant, और Pickleland के founder। मैं GEO, AI agents, और founders के लिए growth के बारे में लिखता हूं।

## Core pages

- [About](https://alejandrorioja.com/about/): Background, consulting services, और मेरे साथ काम करने का तरीका।
- [Blog](https://alejandrorioja.com/blog/): GEO, SEO, AI agents, और founder growth पर सभी posts।
- [Consultation](https://alejandrorioja.com/consultation/30/): एक paid 30-minute session book करें।

## Top posts

- [ChatGPT answers में cite कैसे हों](https://alejandrorioja.com/blog/how-to-get-cited-in-chatgpt-answers/): GEO playbook जो मैं client sites पर use करता हूं।
- [Founders के लिए AI Agent Architecture](https://alejandrorioja.com/blog/ai-agent-architecture-for-founders/): बिना full engineering team के multi-agent systems कैसे design करें।
- [GEO vs SEO](https://alejandrorioja.com/blog/geo-vs-seo/): जब Google एकमात्र search engine नहीं रहता तो क्या बदलता है।

## Optional: ignore

- /drafts/
- /admin/

कुछ ध्यान देने योग्य बातें:

कौन से AI engines इसे वास्तव में पढ़ते हैं

यहां मुझे honest होना होगा: landscape fragmented है और partially undocumented है।

Perplexity — हां, confirmed। Perplexity का crawler (PerplexityBot) sites index करते समय llms.txt पढ़ता है। उनकी engineering team ने publicly specification को reference किया है। अगर Perplexity आपके लिए एक significant referral source है, तो llms.txt implement करने का impact का एक clear path है।

ChatGPT / OpenAI — Confirmed नहीं। OpenAI का crawler (GPTBot) mid-2026 तक llms.txt नहीं पढ़ता लगता है। इसका crawl behavior robots.txt और OpenAI की अपनी internal prioritization से governed है। OpenAI की ओर से specification को acknowledge करने का कोई public statement नहीं है।

Bing Copilot / Microsoft — Confirmed नहीं। OpenAI जैसी ही situation। Bing का AI crawler (BingBot) robots.txt follow करता है लेकिन कोई signal नहीं है कि यह llms.txt पढ़ता है।

Google AI Overviews / Gemini — Confirmed नहीं। Google का अपना structured data ecosystem है (schema.org, sitemaps) और इसने third-party specifications adopt करने का संकेत नहीं दिया है।

Anthropic — Anthropic का crawler (ClaudeBot) training data के लिए web crawl करता है। llms.txt पढ़ने का कोई public documentation नहीं है, लेकिन कई GEO practitioners implementation के बाद बेहतर Claude citations report करते हैं। Correlation, causation नहीं — लेकिन noting worth।

छोटे AI search engines — You.com, Phind, और कई vertical AI search tools ने कहा है या imply किया है कि वे llms.txt पढ़ते हैं। Specification छोटी teams के लिए adopt करना आसान है क्योंकि उनके पास refactor करने के लिए years of crawl infrastructure नहीं है।

Honest summary: अभी llms.txt एक Perplexity optimization है जिसके कुछ speculative benefits अन्यत्र हैं। जैसे-जैसे specification mature होगी वह ratio बदलेगा।

20 मिनट में implement कैसे करें

अगर आप static site पर हैं (Astro, Next.js with static export, Hugo, etc.), तो public/llms.txt में फ़ाइल बनाएं। यह root पर serve होगी।

Next.js app router site के लिए, आप इसे dynamically generate कर सकते हैं:

ts
// app/llms.txt/route.ts
import { allPosts } from "@/lib/content";

export async function GET() {
  const topPosts = allPosts
    .filter((p) => p.featured || p.views > 1000)
    .slice(0, 10);

  const lines = [
    "# Alejandro Rioja",
    "",
    "> ऑपरेटर, AI consultant, Pickleland के founder। GEO, AI agents, और founder growth के बारे में लिखता हूं।",
    "",
    "## Top posts",
    "",
    ...topPosts.map(
      (p) => `- [${p.title}](https://alejandrorioja.com/blog/${p.slug}/): ${p.description}`
    ),
    "",
    "## Core pages",
    "",
    "- [About](https://alejandrorioja.com/about/): Services और background।",
    "- [Consultation](https://alejandrorioja.com/consultation/30/): Session book करें।",
  ];

  return new Response(lines.join("\n"), {
    headers: { "Content-Type": "text/plain; charset=utf-8" },
  });
}

Astro site के लिए, equivalent src/pages/ में एक .txt.ts endpoint है:

ts
// src/pages/llms.txt.ts
import type { APIRoute } from "astro";
import { getCollection } from "astro:content";

export const GET: APIRoute = async () => {
  const posts = await getCollection("posts", (p) => p.data.lang === "en");
  const top = posts
    .sort((a, b) => b.data.pubDate.valueOf() - a.data.pubDate.valueOf())
    .slice(0, 10);

  const body = [
    "# Alejandro Rioja",
    "",
    "> AI consultant और operator। GEO, AI agents, और founder growth के बारे में लिखता हूं।",
    "",
    "## Recent posts",
    "",
    ...top.map(
      (p) =>
        `- [${p.data.title}](https://alejandrorioja.com/blog/${p.slug}/): ${p.data.description}`
    ),
  ].join("\n");

  return new Response(body, {
    headers: { "Content-Type": "text/plain; charset=utf-8" },
  });
};

Deploy करने के बाद, curl -s https://yoursite.com/llms.txt से verify करें। अगर आपको Markdown दिखता है, तो आप done हैं।

क्या आपको llms-full.txt भी बनाना चाहिए?

शायद। llms-full.txt आपके key pages का concatenated dump है — title, URL, और full body text, एक page के बाद दूसरी, --- से separated। Idea यह है कि एक crawler एक request में सब कुछ get कर सकता है और individual pages crawl किए बिना आपकी साइट के बारे में questions का जवाब देने के लिए enough context रख सकता है।

Trade-off: यह एक large file है। मेरी top 30 posts के लिए लगभग 400KB है। कुछ crawlers timeout हो सकते हैं या इसे truncate कर सकते हैं। अन्य इसे अधिक weight दे सकते हैं क्योंकि content pre-digested है।

मेरा current approach: मैं llms-full.txt generate करता हूं लेकिन इसे traffic के हिसाब से top 15 posts तक limit करता हूं। इसे 250KB से कम रखता हूं। हर deploy पर regenerate करता हूं।

Data वास्तव में क्या दिखाता है

मैं जनवरी 2026 से इस site और तीन client sites के लिए Perplexity citations monitor कर रहा हूं। यहां मैंने क्या observe किया:

Honest interpretation: llms.txt शायद Perplexity के साथ मदद करता है। Mechanism clear है — Perplexity इसे पढ़ता है। क्या lift specifically llms.txt से है या general GEO improvements से जो इसके साथ tend to accompany होते हैं, यह मैं अभी नहीं कह सकता।

Block quote में क्या डालें

Block quote में एक-line description वह हिस्सा है जिस पर मैं सबसे ज्यादा समय बिताऊंगा। यह वह text है जिसका उपयोग LLM RAG context में आपको summarize करने के लिए करेगा। इसे होना चाहिए:

बुरा: > AI के साथ businesses को grow करने में मदद करता हूं।

बेहतर: > Alejandro Rioja — Austin TX में AI consultant, Pickleland के founder, 2019 से GEO, AI agents, और founder growth के बारे में लिख रहे हैं।

ऑपरेटर का निष्कर्ष

llms.txt implement करने में 20 मिनट लगते हैं, serve करने में कुछ नहीं लगता, और Perplexity के साथ एक confirmed read path है। करें। Specification या तो एक real standard बनेगी (उस case में early adopters जीतते हैं) या fade out हो जाएगी (उस case में आपने 20 मिनट खोए)। Asymmetry obvious है। बस इसे higher-ROI GEO work से distract न होने दें: structured data, clear entity signals, और snippet extraction के लिए formatted answers। वे हर AI engine को move करते हैं। llms.txt currently एक को move करता है।

पढ़ते रहें

AI प्लेबुक अपने इनबॉक्स में पाएं

हर बुधवार। 28,400+ पाठक। बिना फालतू बात।

↵ सभी परिणाम देखें esc esc बंद करें