TL;DR
我们审计了数十个品牌官网,发现共性问题:JS渲染的SPA在原始HTML里只有几十字节的loading文字、没有任何结构化标签、robots.txt屏蔽了所有爬虫、标题层级混乱。这些问题用户感知不到——网站看起来一切正常,但对AI爬虫来说,这个网站约等于不存在。
1. JSON-LD 结构化数据
在 <head> 中添加 Organization 和 WebSite 两种 Schema。这是AI识别"这个网站是谁的、做什么的"的基础:
{
"@context": "https://schema.org",
"@type": "Organization",
"name": "你的品牌名称",
"alternateName": "品牌英文名",
"url": "https://你的域名",
"email": "联系邮箱",
"description": "品牌描述,一段话讲清楚",
"knowsAbout": ["业务关键词1", "业务关键词2", "业务关键词3"]
}
没有JSON-LD的网站,AI只能靠猜。验证方式:curl -s https://你的域名 | grep 'application/ld+json'。
2. AI 专用文件
| 文件 | 用途 | 位置 |
|---|---|---|
| robots.txt | 明确允许AI爬虫访问,列出sitemap | 网站根目录 |
| llms.txt | AI爬虫的站点索引,列出核心页面和实体 | 网站根目录 |
| ai.txt | 声明AI对网站内容的使用权限 | 网站根目录 |
| sitemap.xml | 搜索引擎和AI爬虫的完整页面索引 | 网站根目录 |
重点:robots.txt 要明确放行 DeepSeekBot、Bytespider、Baiduspider 等国内主流AI爬虫。很多网站默认屏蔽所有爬虫,等于主动拒绝被AI发现。
3. 标题层级
确保每页有且仅有一个 H1。H2-H6 按层级嵌套,不跳级。标题文字要包含关键词——“简介"“关于我们"这类无信息量的标题对AI没有价值。
AI模型依赖标题层级来理解页面结构。混乱的标题 = AI提取信息时丢失上下文。
4. 时间信号
添加 <meta name="date"> 标签,或在内容中显式标注发布日期。AI模型对信息新鲜度很敏感——没有时间信号的页面,引用权重直接打折。
具体做法:在HTML的 <head> 中添加 <meta name="date" content="2026-06-06">,并在文章正文中标注"发布于2026年6月”。
5. 语言声明
<html lang="zh-CN"> 告诉AI这是中文内容。少了这个标签,AI可能用错误的语言模型处理你的页面,导致语义提取偏差。
6. 渲染方案
CSR(客户端渲染)对AI爬虫极不友好。原始HTML只有 <div id="root"></div> 和几行JS引用——AI拿到的就是这几十个字节。
解决路径(按推荐优先级):
- Hugo、Astro 等静态生成(最优)
- Next.js SSG、Nuxt 等服务端生成
- 已有CSR项目加 prerender.io 等预渲染服务兜底
验收标准
# 1. 原始HTML至少2KB可读文本
curl -s https://你的域名 | wc -c
# 2. 有标题层级
curl -s https://你的域名 | grep -o '<h[1-6]'
# 3. AI爬虫未被拦截
curl -s https://你的域名/robots.txt | grep -i 'bytespider\|deepseekbot'
# 4. JSON-LD有效
# 访问 https://validator.schema.org 输入网址
四条全过,你的网站在AI眼里才算"存在”。