
苏江:llms.txt完全指南,AI时代网站的新robots.txt
llms.txt是什么?它对SEO有用吗?Google会用它吗?这篇文章从技术规范、实际案例、行业争议三个维度,带你完整理解这个AI时代的新标准。
一、10分钟能做的事,值不值得做
llms.txt是一个Markdown文件,放在网站根目录,告诉AI模型哪些内容最重要。
创建它只需要10分钟。
问题是:有用吗?
Google说不用。John Mueller说没有AI在用。服务器日志却显示OpenAI每15分钟爬取一次。
Semrush说缺少llms.txt会让AI误解你的网站。Anthropic、Cloudflare、Zapier都已经部署了。
一边是明确的否定,一边是悄悄的行动。
这篇文章会告诉你:llms.txt是什么、谁在用、争议在哪、以及你应该怎么做。
二、llms.txt是什么
2.1 核心概念
llms.txt是一个放在网站根目录的Markdown文件。
位置:https://yoursite.com/llms.txt
它的作用是告诉AI模型:这个网站最重要的内容在哪里。
传统网站有两个标准文件:
- robots.txt:告诉搜索引擎爬虫"哪些页面不要爬"
- sitemap.xml:告诉搜索引擎"网站有哪些页面"
llms.txt的定位不同。它不是告诉AI"不要爬哪里",而是告诉AI"应该优先看哪里"。
2.2 为什么需要这个文件
Jeremy Howard在提案中解释了背景:
"大语言模型越来越依赖网站信息,但面临一个关键限制:上下文窗口太小,无法处理大多数网站的全部内容。把复杂的HTML页面(包含导航、广告、JavaScript)转换成LLM友好的纯文本,既困难又不精确。"
换句话说,AI模型在"阅读"网页时,面临三个问题:
- 上下文窗口有限:即使是最强的模型,也无法一次性处理整个网站
- HTML太乱:广告、导航栏、JavaScript代码混在一起,AI很难提取核心内容
- 没有优先级:AI不知道哪些页面是重要的,哪些是次要的
llms.txt试图解决这三个问题。
2.3 技术规范
llms.txt的格式非常简单,使用标准Markdown语法:
# 项目名称
> 项目简要介绍(一两句话)
重要说明和背景信息
## 文档
- [快速入门](https://example.com/docs/quickstart.md): 新手必读的入门教程
- [API参考](https://example.com/docs/api.md): 完整的API文档
## 示例
- [完整案例](https://example.com/examples/demo.md): 一个完整的应用案例
## Optional
- [高级功能](https://example.com/docs/advanced.md): 可选的高级内容文件结构包含四个部分:
- H1标题:项目或网站名称(必需)
- 引用块:一两句话的简介
- 正文段落:额外的说明信息
- H2分组 + 链接列表:按类别组织的内容链接
特别注意:Optional 这个H2标题有特殊含义。它下面的链接是"可选的",当AI需要更短的上下文时,可以跳过这部分。
2.4 两个文件的区别
标准实际上包含两个文件:
| 文件 | 用途 |
|---|---|
| llms.txt | 精简版,只包含链接和描述 |
| llms-full.txt | 完整版,包含所有内容的全文 |
llms.txt是导航图,llms-full.txt是完整内容。
有些网站只提供llms.txt,有些两个都提供。选择哪种取决于你的内容量和使用场景。
三、真实案例:谁在用llms.txt
3.1 官方示例:FastHTML
Jeremy Howard自己的FastHTML项目是标准的示范案例:
# FastHTML
> FastHTML是一个Python库,整合了Starlette、Uvicorn、HTMX和fastcore的FT "FastTags",用于创建服务端渲染的超媒体应用。
重要说明:
- 虽然API设计受FastAPI启发,但它与FastAPI语法不兼容
- FastHTML兼容JS原生Web组件和任何原生JS库,但不兼容React、Vue或Svelte
## Docs
- [FastHTML快速入门](https://fastht.ml/docs/tutorials/quickstart_for_web_devs.html.md): FastHTML核心功能概览
- [HTMX参考](https://github.com/bigskysoftware/htmx/blob/master/www/content/reference.md): HTMX属性、CSS类、事件等完整参考
## Examples
- [Todo应用](https://github.com/AnswerDotAI/fasthtml/blob/main/examples/adv_app.py): 完整CRUD应用的详细演示
## Optional
- [Starlette文档](https://gist.githubusercontent.com/.../starlette-sml.md): FastHTML开发有用的Starlette文档子集这个示例展示了几个要点:
- 清晰的层级结构
- 每个链接都有描述
- 合理使用Optional区分主次
3.2 大公司采用情况
以下公司已经部署了llms.txt:
Anthropic(Claude的创建者)
- 地址:
https://docs.anthropic.com/llms.txt - 内容:API文档、Prompt库、SDK参考
Cloudflare
- 按服务分类:AI Gateway、Workers、Pages等
Perplexity
- 地址:
https://docs.perplexity.ai/llms-full.txt
Zapier
- 地址:
https://docs.zapier.com/llms-full.txt - 聚焦API端点和自动化工作流
3.3 转折点:2024年11月
llms.txt的采用出现过一次爆发。
2024年11月,文档平台Mintlify宣布:为所有托管在其平台上的文档站点自动生成llms.txt。
这意味着数千个文档站点瞬间支持了llms.txt,包括Anthropic和Cursor的文档。
这是一个典型的"平台推动采用"的案例。
四、行业争议:有用还是没用
4.1 Google的态度:明确拒绝
Google搜索代言人Gary Illyes在2025年的Search Central Deep Dive活动上明确表示:
"Google不支持llms.txt,也没有计划支持。"
他的同事John Mueller在Reddit上说得更直接:
"据我所知,没有任何AI服务表示他们在使用llms.txt。你从服务器日志也能看出来,它们甚至不会检查这个文件。"
Google的官方建议是:想在AI Overviews中获得排名,就做好传统SEO。
不需要GEO,不需要LLMO,不需要llms.txt。
4.2 SEO工具的态度:疯狂推广
有趣的是,虽然AI平台不支持,SEO工具却在大力推广llms.txt。
Semrush的审计功能会提示:
"如果你的网站缺少清晰的llms.txt文件,它有被AI系统误解的风险。"
Rank Math的描述更夸张:
"当AI聊天机器人试图总结或回答关于你网站的问题时,它不会猜测,它会参考你提供的精选版本。"
这和实际情况完全不符。
4.3 真相:没有官方支持,但有爬取行为
SEO专家Ray Martinez分享了他的服务器日志分析:
"OpenAI每隔15分钟左右就会爬取我的llms.txt文件。"
GEO监测公司Profound也报告:Microsoft、OpenAI等公司的模型确实在爬取和索引llms.txt文件。
这说明什么?
AI公司没有公开承诺使用llms.txt,但它们的系统可能在悄悄实验。
4.4 为什么AI平台可能选择不使用
Search Engine Journal的Roger Montti给出了一个深刻的分析:
"llms.txt本质上是不可信的。"
原因很简单:llms.txt可以与网页内容完全不同。
一个不道德的SEO可以在llms.txt中添加网页上不存在的内容,专门用来欺骗AI。
2024年的一篇研究论文《Adversarial Search Engine Optimization for Large Language Models》证明了这一点:
"攻击者可以欺骗LLM推荐他们的内容而不是竞争对手的。我们在Bing和Perplexity等生产环境的LLM搜索引擎上验证了这种攻击的有效性。"
如果网页HTML内容和llms.txt可以不一致,AI平台就很难信任llms.txt。
五、llms.txt vs robots.txt vs sitemap.xml
三者的区别需要明确:
| 文件 | 对象 | 功能 |
|---|---|---|
| robots.txt | 搜索引擎爬虫 | 告诉爬虫哪些页面不要访问 |
| sitemap.xml | 搜索引擎爬虫 | 列出网站所有可索引页面 |
| llms.txt | AI模型 | 告诉AI优先看哪些内容 |
关键区别:
- robots.txt是"禁止",llms.txt是"推荐"
- sitemap.xml是"全量",llms.txt是"精选"
- robots.txt针对爬虫,llms.txt针对推理时的AI
另一个重要区别:robots.txt有法律约束力(虽然弱),llms.txt完全靠自愿遵守。
六、如何创建llms.txt
6.1 手动创建
最简单的方法是手动编写一个Markdown文件。
步骤:
- 创建一个名为
llms.txt的文件 - 按照规范格式填写内容
- 上传到网站根目录
示例模板:
# 你的网站名称
> 一句话描述你的网站是做什么的。
## 核心内容
- [首页](https://yoursite.com/): 网站主页
- [关于我们](https://yoursite.com/about): 公司介绍
- [产品列表](https://yoursite.com/products): 所有产品
## 博客
- [最新文章](https://yoursite.com/blog/latest): 最近发布的内容
## Optional
- [条款协议](https://yoursite.com/terms): 使用条款6.2 使用生成工具
Firecrawl
Firecrawl是最知名的llms.txt生成工具。
API访问方式:
http://llmstxt.firecrawl.dev/{YOUR_URL}
http://llmstxt.firecrawl.dev/{YOUR_URL}/full它会爬取你的网站,使用GPT-4o-mini提取关键信息,生成llms.txt和llms-full.txt。
WordPress插件
如果你用WordPress,有几个插件可选:
- Website LLMs.txt:3000+下载,支持Yoast、Rank Math集成
- LLMs.txt and LLMs-Full.txt Generator:自动生成两个文件
这些插件会:
- 自动扫描你的文章和页面
- 排除设置为noindex的内容
- 定期更新文件
6.3 文档平台自动支持
以下平台已经原生支持llms.txt生成:
- Mintlify:自动为所有文档站点生成
- VitePress:通过
vitepress-plugin-llms插件 - Docusaurus:通过
docusaurus-plugin-llms插件 - Drupal:通过LLM Support模块
七、实施建议
7.1 应该部署llms.txt吗
我的建议:可以部署,但不要期望奇迹。
原因:
- 成本极低:创建一个Markdown文件花不了多少时间
- 没有坏处:即使AI不用,也不会影响你的网站
- 可能有用:虽然官方不承认,但日志显示有爬取行为
- 内容梳理的副产品:创建llms.txt会逼你梳理网站结构
7.2 不应该做什么
- 不要在llms.txt中作弊:添加网页不存在的内容是短视行为
- 不要替代传统SEO:Google明确说了,做好基础SEO才是正道
- 不要指望排名提升:目前没有证据表明llms.txt能提升AI搜索排名
7.3 最佳实践
- 内容与网页一致:llms.txt中的描述要准确反映网页内容
- 定期更新:新增重要内容时同步更新llms.txt
- 使用Optional合理分层:把次要内容放在Optional区域
- 监控日志:观察哪些AI爬虫在访问你的llms.txt
7.4 Google的建议
Google建议:给llms.txt添加noindex标签。
为什么?因为llms.txt是给AI看的,不是给用户看的。如果被Google索引,用户搜索时可能会看到这个技术文件,体验很差。
实现方法:在HTTP响应头中添加:
X-Robots-Tag: noindex八、llms.txt的未来
8.1 会成为标准吗
目前看,llms.txt离"标准"还很远。
robots.txt花了十几年才被广泛接受。llms.txt才刚开始。
关键变量:
- AI平台是否官方支持:如果OpenAI或Google宣布支持,采用率会暴涨
- 是否有替代方案:其他AI优化标准可能会出现
- 内容安全问题:如果llms.txt被大规模滥用,AI平台可能直接忽略它
8.2 更大的图景
llms.txt只是冰山一角。
真正的趋势是:内容发现正在从搜索引擎转向AI助手。
用户越来越多地直接问ChatGPT、Claude、Perplexity,而不是Google。
这对内容创作者意味着什么?
- 结构化内容更重要:AI更容易理解结构清晰的内容
- 专业深度更重要:AI会优先引用权威来源
- 直接回答问题更重要:AI喜欢能直接回答问题的内容
llms.txt是适应这个趋势的一个小工具。它本身不重要,重要的是它背后的思维转变:
我们不再只为人类读者写内容,也要为AI读者优化内容。
九、总结
llms.txt是Jeremy Howard在2024年9月提出的一个标准提案。
它是什么:一个Markdown文件,告诉AI模型网站最重要的内容在哪里。
谁在用:Anthropic、Cloudflare、Zapier等公司,以及数千个通过Mintlify托管的文档站点。
争议点:Google明确不支持,主流AI平台没有官方表态,但日志显示它们在悄悄爬取。
我的建议:可以花10分钟创建一个,但不要指望它带来排名提升。做好传统SEO才是正道。
最后,记住:llms.txt本身不重要,重要的是理解AI如何消费内容,然后据此优化你的内容策略。
参考资料
作者
分类
更多文章
需要定制方案?
遇到问题或想让我帮你完成繁重的工作?给我发条消息,我会在24小时内回复——简单咨询永远免费。
邮件列表
加入我们的社区
订阅邮件列表,及时获取最新消息和更新


