TL;DR

我们审计了数十个品牌官网,发现共性问题:JS渲染的SPA在原始HTML里只有几十字节的loading文字、没有任何结构化标签、robots.txt屏蔽了所有爬虫、标题层级混乱。这些问题用户感知不到——网站看起来一切正常,但对AI爬虫来说,这个网站约等于不存在

1. JSON-LD 结构化数据

<head> 中添加 Organization 和 WebSite 两种 Schema。这是AI识别"这个网站是谁的、做什么的"的基础:

{
  "@context": "https://schema.org",
  "@type": "Organization",
  "name": "你的品牌名称",
  "alternateName": "品牌英文名",
  "url": "https://你的域名",
  "email": "联系邮箱",
  "description": "品牌描述,一段话讲清楚",
  "knowsAbout": ["业务关键词1", "业务关键词2", "业务关键词3"]
}

没有JSON-LD的网站,AI只能靠猜。验证方式:curl -s https://你的域名 | grep 'application/ld+json'

2. AI 专用文件

文件 用途 位置
robots.txt 明确允许AI爬虫访问,列出sitemap 网站根目录
llms.txt AI爬虫的站点索引,列出核心页面和实体 网站根目录
ai.txt 声明AI对网站内容的使用权限 网站根目录
sitemap.xml 搜索引擎和AI爬虫的完整页面索引 网站根目录

重点:robots.txt 要明确放行 DeepSeekBot、Bytespider、Baiduspider 等国内主流AI爬虫。很多网站默认屏蔽所有爬虫,等于主动拒绝被AI发现。

3. 标题层级

确保每页有且仅有一个 H1。H2-H6 按层级嵌套,不跳级。标题文字要包含关键词——“简介"“关于我们"这类无信息量的标题对AI没有价值。

AI模型依赖标题层级来理解页面结构。混乱的标题 = AI提取信息时丢失上下文。

4. 时间信号

添加 <meta name="date"> 标签,或在内容中显式标注发布日期。AI模型对信息新鲜度很敏感——没有时间信号的页面,引用权重直接打折。

具体做法:在HTML的 <head> 中添加 <meta name="date" content="2026-06-06">,并在文章正文中标注"发布于2026年6月”。

5. 语言声明

<html lang="zh-CN"> 告诉AI这是中文内容。少了这个标签,AI可能用错误的语言模型处理你的页面,导致语义提取偏差。

6. 渲染方案

CSR(客户端渲染)对AI爬虫极不友好。原始HTML只有 <div id="root"></div> 和几行JS引用——AI拿到的就是这几十个字节。

解决路径(按推荐优先级):

  1. Hugo、Astro 等静态生成(最优)
  2. Next.js SSG、Nuxt 等服务端生成
  3. 已有CSR项目加 prerender.io 等预渲染服务兜底

验收标准

# 1. 原始HTML至少2KB可读文本
curl -s https://你的域名 | wc -c

# 2. 有标题层级
curl -s https://你的域名 | grep -o '<h[1-6]'

# 3. AI爬虫未被拦截
curl -s https://你的域名/robots.txt | grep -i 'bytespider\|deepseekbot'

# 4. JSON-LD有效
# 访问 https://validator.schema.org 输入网址

四条全过,你的网站在AI眼里才算"存在”。