Logo苏江
  • 博客
  • 知识库
  • 关于我
苏江:llms.txt完全指南,AI时代网站的新robots.txt
2025/12/12

苏江:llms.txt完全指南,AI时代网站的新robots.txt

llms.txt是什么?它对SEO有用吗?Google会用它吗?这篇文章从技术规范、实际案例、行业争议三个维度,带你完整理解这个AI时代的新标准。

一、10分钟能做的事,值不值得做

llms.txt是一个Markdown文件,放在网站根目录,告诉AI模型哪些内容最重要。

创建它只需要10分钟。

问题是:有用吗?

Google说不用。John Mueller说没有AI在用。服务器日志却显示OpenAI每15分钟爬取一次。

Semrush说缺少llms.txt会让AI误解你的网站。Anthropic、Cloudflare、Zapier都已经部署了。

一边是明确的否定,一边是悄悄的行动。

这篇文章会告诉你:llms.txt是什么、谁在用、争议在哪、以及你应该怎么做。


二、llms.txt是什么

robots.txt禁止访问sitemap.xml全量索引llms.txt优先推荐

2.1 核心概念

llms.txt是一个放在网站根目录的Markdown文件。

位置:https://yoursite.com/llms.txt

它的作用是告诉AI模型:这个网站最重要的内容在哪里。

传统网站有两个标准文件:

  • robots.txt:告诉搜索引擎爬虫"哪些页面不要爬"
  • sitemap.xml:告诉搜索引擎"网站有哪些页面"

llms.txt的定位不同。它不是告诉AI"不要爬哪里",而是告诉AI"应该优先看哪里"。

2.2 为什么需要这个文件

Jeremy Howard在提案中解释了背景:

"大语言模型越来越依赖网站信息,但面临一个关键限制:上下文窗口太小,无法处理大多数网站的全部内容。把复杂的HTML页面(包含导航、广告、JavaScript)转换成LLM友好的纯文本,既困难又不精确。"

换句话说,AI模型在"阅读"网页时,面临三个问题:

  1. 上下文窗口有限:即使是最强的模型,也无法一次性处理整个网站
  2. HTML太乱:广告、导航栏、JavaScript代码混在一起,AI很难提取核心内容
  3. 没有优先级:AI不知道哪些页面是重要的,哪些是次要的

llms.txt试图解决这三个问题。

2.3 技术规范

llms.txt的格式非常简单,使用标准Markdown语法:

# 项目名称

> 项目简要介绍(一两句话)

重要说明和背景信息

## 文档
- [快速入门](https://example.com/docs/quickstart.md): 新手必读的入门教程
- [API参考](https://example.com/docs/api.md): 完整的API文档

## 示例
- [完整案例](https://example.com/examples/demo.md): 一个完整的应用案例

## Optional
- [高级功能](https://example.com/docs/advanced.md): 可选的高级内容

文件结构包含四个部分:

# 项目名称必需> 项目简介(一两句话)推荐额外说明信息...可选## 文档- 链接标题: 描述- 链接标题: 描述核心内容## Optional- 可选链接: 描述可跳过
  1. H1标题:项目或网站名称(必需)
  2. 引用块:一两句话的简介
  3. 正文段落:额外的说明信息
  4. H2分组 + 链接列表:按类别组织的内容链接

特别注意:Optional 这个H2标题有特殊含义。它下面的链接是"可选的",当AI需要更短的上下文时,可以跳过这部分。

2.4 两个文件的区别

标准实际上包含两个文件:

文件用途
llms.txt精简版,只包含链接和描述
llms-full.txt完整版,包含所有内容的全文

llms.txt是导航图,llms-full.txt是完整内容。

有些网站只提供llms.txt,有些两个都提供。选择哪种取决于你的内容量和使用场景。


三、真实案例:谁在用llms.txt

3.1 官方示例:FastHTML

Jeremy Howard自己的FastHTML项目是标准的示范案例:

# FastHTML

> FastHTML是一个Python库,整合了Starlette、Uvicorn、HTMX和fastcore的FT "FastTags",用于创建服务端渲染的超媒体应用。

重要说明:
- 虽然API设计受FastAPI启发,但它与FastAPI语法不兼容
- FastHTML兼容JS原生Web组件和任何原生JS库,但不兼容React、Vue或Svelte

## Docs
- [FastHTML快速入门](https://fastht.ml/docs/tutorials/quickstart_for_web_devs.html.md): FastHTML核心功能概览
- [HTMX参考](https://github.com/bigskysoftware/htmx/blob/master/www/content/reference.md): HTMX属性、CSS类、事件等完整参考

## Examples
- [Todo应用](https://github.com/AnswerDotAI/fasthtml/blob/main/examples/adv_app.py): 完整CRUD应用的详细演示

## Optional
- [Starlette文档](https://gist.githubusercontent.com/.../starlette-sml.md): FastHTML开发有用的Starlette文档子集

这个示例展示了几个要点:

  • 清晰的层级结构
  • 每个链接都有描述
  • 合理使用Optional区分主次

3.2 大公司采用情况

以下公司已经部署了llms.txt:

Anthropic(Claude的创建者)

  • 地址:https://docs.anthropic.com/llms.txt
  • 内容:API文档、Prompt库、SDK参考

Cloudflare

  • 按服务分类:AI Gateway、Workers、Pages等

Perplexity

  • 地址:https://docs.perplexity.ai/llms-full.txt

Zapier

  • 地址:https://docs.zapier.com/llms-full.txt
  • 聚焦API端点和自动化工作流

3.3 转折点:2024年11月

llms.txt的采用出现过一次爆发。

2024年11月,文档平台Mintlify宣布:为所有托管在其平台上的文档站点自动生成llms.txt。

这意味着数千个文档站点瞬间支持了llms.txt,包括Anthropic和Cursor的文档。

这是一个典型的"平台推动采用"的案例。


四、行业争议:有用还是没用

反对方Google: 不支持John Mueller: 没有AI在用SEJ: 存在安全风险Reddit: 可能是营销噱头支持方Jeremy Howard: 标准提案Anthropic/Cloudflare: 已采用日志显示: OpenAI在爬取成本极低: 值得一试

4.1 Google的态度:明确拒绝

Google搜索代言人Gary Illyes在2025年的Search Central Deep Dive活动上明确表示:

"Google不支持llms.txt,也没有计划支持。"

他的同事John Mueller在Reddit上说得更直接:

"据我所知,没有任何AI服务表示他们在使用llms.txt。你从服务器日志也能看出来,它们甚至不会检查这个文件。"

Google的官方建议是:想在AI Overviews中获得排名,就做好传统SEO。

不需要GEO,不需要LLMO,不需要llms.txt。

4.2 SEO工具的态度:疯狂推广

有趣的是,虽然AI平台不支持,SEO工具却在大力推广llms.txt。

Semrush的审计功能会提示:

"如果你的网站缺少清晰的llms.txt文件,它有被AI系统误解的风险。"

Rank Math的描述更夸张:

"当AI聊天机器人试图总结或回答关于你网站的问题时,它不会猜测,它会参考你提供的精选版本。"

这和实际情况完全不符。

4.3 真相:没有官方支持,但有爬取行为

SEO专家Ray Martinez分享了他的服务器日志分析:

"OpenAI每隔15分钟左右就会爬取我的llms.txt文件。"

GEO监测公司Profound也报告:Microsoft、OpenAI等公司的模型确实在爬取和索引llms.txt文件。

这说明什么?

AI公司没有公开承诺使用llms.txt,但它们的系统可能在悄悄实验。

4.4 为什么AI平台可能选择不使用

Search Engine Journal的Roger Montti给出了一个深刻的分析:

"llms.txt本质上是不可信的。"

原因很简单:llms.txt可以与网页内容完全不同。

一个不道德的SEO可以在llms.txt中添加网页上不存在的内容,专门用来欺骗AI。

2024年的一篇研究论文《Adversarial Search Engine Optimization for Large Language Models》证明了这一点:

"攻击者可以欺骗LLM推荐他们的内容而不是竞争对手的。我们在Bing和Perplexity等生产环境的LLM搜索引擎上验证了这种攻击的有效性。"

如果网页HTML内容和llms.txt可以不一致,AI平台就很难信任llms.txt。


五、llms.txt vs robots.txt vs sitemap.xml

三者的区别需要明确:

文件对象功能
robots.txt搜索引擎爬虫告诉爬虫哪些页面不要访问
sitemap.xml搜索引擎爬虫列出网站所有可索引页面
llms.txtAI模型告诉AI优先看哪些内容

关键区别:

  1. robots.txt是"禁止",llms.txt是"推荐"
  2. sitemap.xml是"全量",llms.txt是"精选"
  3. robots.txt针对爬虫,llms.txt针对推理时的AI

另一个重要区别:robots.txt有法律约束力(虽然弱),llms.txt完全靠自愿遵守。


六、如何创建llms.txt

6.1 手动创建

最简单的方法是手动编写一个Markdown文件。

步骤:

  1. 创建一个名为llms.txt的文件
  2. 按照规范格式填写内容
  3. 上传到网站根目录

示例模板:

# 你的网站名称

> 一句话描述你的网站是做什么的。

## 核心内容
- [首页](https://yoursite.com/): 网站主页
- [关于我们](https://yoursite.com/about): 公司介绍
- [产品列表](https://yoursite.com/products): 所有产品

## 博客
- [最新文章](https://yoursite.com/blog/latest): 最近发布的内容

## Optional
- [条款协议](https://yoursite.com/terms): 使用条款

6.2 使用生成工具

Firecrawl

Firecrawl是最知名的llms.txt生成工具。

API访问方式:

http://llmstxt.firecrawl.dev/{YOUR_URL}
http://llmstxt.firecrawl.dev/{YOUR_URL}/full

它会爬取你的网站,使用GPT-4o-mini提取关键信息,生成llms.txt和llms-full.txt。

WordPress插件

如果你用WordPress,有几个插件可选:

  1. Website LLMs.txt:3000+下载,支持Yoast、Rank Math集成
  2. LLMs.txt and LLMs-Full.txt Generator:自动生成两个文件

这些插件会:

  • 自动扫描你的文章和页面
  • 排除设置为noindex的内容
  • 定期更新文件

6.3 文档平台自动支持

以下平台已经原生支持llms.txt生成:

  • Mintlify:自动为所有文档站点生成
  • VitePress:通过vitepress-plugin-llms插件
  • Docusaurus:通过docusaurus-plugin-llms插件
  • Drupal:通过LLM Support模块

七、实施建议

7.1 应该部署llms.txt吗

我的建议:可以部署,但不要期望奇迹。

原因:

  1. 成本极低:创建一个Markdown文件花不了多少时间
  2. 没有坏处:即使AI不用,也不会影响你的网站
  3. 可能有用:虽然官方不承认,但日志显示有爬取行为
  4. 内容梳理的副产品:创建llms.txt会逼你梳理网站结构

7.2 不应该做什么

  1. 不要在llms.txt中作弊:添加网页不存在的内容是短视行为
  2. 不要替代传统SEO:Google明确说了,做好基础SEO才是正道
  3. 不要指望排名提升:目前没有证据表明llms.txt能提升AI搜索排名

7.3 最佳实践

  1. 内容与网页一致:llms.txt中的描述要准确反映网页内容
  2. 定期更新:新增重要内容时同步更新llms.txt
  3. 使用Optional合理分层:把次要内容放在Optional区域
  4. 监控日志:观察哪些AI爬虫在访问你的llms.txt

7.4 Google的建议

Google建议:给llms.txt添加noindex标签。

为什么?因为llms.txt是给AI看的,不是给用户看的。如果被Google索引,用户搜索时可能会看到这个技术文件,体验很差。

实现方法:在HTTP响应头中添加:

X-Robots-Tag: noindex

八、llms.txt的未来

8.1 会成为标准吗

目前看,llms.txt离"标准"还很远。

robots.txt花了十几年才被广泛接受。llms.txt才刚开始。

关键变量:

  • AI平台是否官方支持:如果OpenAI或Google宣布支持,采用率会暴涨
  • 是否有替代方案:其他AI优化标准可能会出现
  • 内容安全问题:如果llms.txt被大规模滥用,AI平台可能直接忽略它

8.2 更大的图景

llms.txt只是冰山一角。

真正的趋势是:内容发现正在从搜索引擎转向AI助手。

用户越来越多地直接问ChatGPT、Claude、Perplexity,而不是Google。

这对内容创作者意味着什么?

  1. 结构化内容更重要:AI更容易理解结构清晰的内容
  2. 专业深度更重要:AI会优先引用权威来源
  3. 直接回答问题更重要:AI喜欢能直接回答问题的内容

llms.txt是适应这个趋势的一个小工具。它本身不重要,重要的是它背后的思维转变:

我们不再只为人类读者写内容,也要为AI读者优化内容。


九、总结

llms.txt是Jeremy Howard在2024年9月提出的一个标准提案。

它是什么:一个Markdown文件,告诉AI模型网站最重要的内容在哪里。

谁在用:Anthropic、Cloudflare、Zapier等公司,以及数千个通过Mintlify托管的文档站点。

争议点:Google明确不支持,主流AI平台没有官方表态,但日志显示它们在悄悄爬取。

我的建议:可以花10分钟创建一个,但不要指望它带来排名提升。做好传统SEO才是正道。

最后,记住:llms.txt本身不重要,重要的是理解AI如何消费内容,然后据此优化你的内容策略。


参考资料

  1. llms.txt官方规范
  2. Jeremy Howard的提案公告
  3. Search Engine Land: Meet llms.txt
  4. Search Engine Journal: LLMs.txt For AI SEO
  5. Google says normal SEO works for AI Overviews
  6. Firecrawl llms.txt Generator
  7. llms.txt目录网站
全部文章

作者

avatar for Jimmy Su
Jimmy Su

分类

  • AI探索
一、10分钟能做的事,值不值得做二、llms.txt是什么2.1 核心概念2.2 为什么需要这个文件2.3 技术规范2.4 两个文件的区别三、真实案例:谁在用llms.txt3.1 官方示例:FastHTML3.2 大公司采用情况3.3 转折点:2024年11月四、行业争议:有用还是没用4.1 Google的态度:明确拒绝4.2 SEO工具的态度:疯狂推广4.3 真相:没有官方支持,但有爬取行为4.4 为什么AI平台可能选择不使用五、llms.txt vs robots.txt vs sitemap.xml六、如何创建llms.txt6.1 手动创建6.2 使用生成工具6.3 文档平台自动支持七、实施建议7.1 应该部署llms.txt吗7.2 不应该做什么7.3 最佳实践7.4 Google的建议八、llms.txt的未来8.1 会成为标准吗8.2 更大的图景九、总结参考资料

更多文章

套利AI机器人:割韭菜神器还是印钞机?一个从坑里爬出来的人说几句真话
AI探索

套利AI机器人:割韭菜神器还是印钞机?一个从坑里爬出来的人说几句真话

深度调研Arbitrage AI Agent的真实现状。从Polymarket套利到DEX MEV,从CEX跨所搬砖到预测市场,看看这个热门概念背后的真相。

avatar for Jimmy Su
Jimmy Su
2025/12/19
苏江:如何下载和使用Sora 2
AI探索

苏江:如何下载和使用Sora 2

苏江:如何下载和使用Sora 2

avatar for Jimmy Su
Jimmy Su
2025/10/02
苏江:人类痛苦的唯一解药。
AI探索

苏江:人类痛苦的唯一解药。

苏江:人类痛苦的唯一解药。

avatar for Jimmy Su
Jimmy Su
2025/10/24

需要定制方案?

遇到问题或想让我帮你完成繁重的工作?给我发条消息,我会在24小时内回复——简单咨询永远免费。

100% 隐私保护,无垃圾邮件,只有解决方案。

邮件列表

加入我们的社区

订阅邮件列表,及时获取最新消息和更新

Logo苏江

AI独立开发者 · 作家 · 投资人

TwitterX (Twitter)Email

微信号: iamsujiang

WeChat QR Code
扫码加微信交流
内容
  • AI探索
  • 创业笔记
  • 投资思考
资源
  • 博客
  • 书籍
关于
  • 关于我
  • 联系我
  • 邮件订阅
法律
  • Cookie政策
  • 隐私政策
  • 服务条款
© 2026 苏江 All Rights Reserved.