TL;DR

你的用户看到的是精美的页面,AI爬虫看到的是 <div id="root"></div> 加上几行JS引用——就这几十个字节。AI爬虫(DeepSeekBot、Bytespider)不会执行JavaScript,它们拿到的是服务器返回的原始HTML。如果网站是CSR架构,AI眼里的你就是一张白纸。这不是bug,这是架构问题。

第一步:JSON-LD,AI的身份证

<head> 里加一段结构化数据:

<script type="application/ld+json">
{
  "@context": "https://schema.org",
  "@type": "Organization",
  "name": "你的品牌名称",
  "url": "https://你的域名",
  "email": "联系邮箱",
  "description": "一句话讲清楚你的业务",
  "knowsAbout": ["核心业务1", "核心业务2", "核心业务3"]
}
</script>

这段代码用户看不见,但AI爬虫拿它来建立对品牌的认知。没有JSON-LD的网站,AI只能靠猜。

验证:curl -s https://你的域名 | grep 'application/ld+json'

第二步:给AI爬虫一份地图

创建三个文件放在网站根目录:

robots.txt — 明确放行AI爬虫:

User-agent: DeepSeekBot
Allow: /
User-agent: Bytespider
Allow: /
User-agent: Baiduspider
Allow: /
Sitemap: https://你的域名/sitemap.xml

llms.txt — AI的站点索引(Markdown格式):

# 品牌名称
> 一句话描述

## 核心页面
- [首页](https://域名) — 品牌介绍
- [服务](https://域名/services) — 服务详情
- [联系](https://域名/contact)

ai.txt — 声明AI使用权限:

Allow: *

这三个文件是AI时代的 robots.txt + sitemap + Terms of Service 三件套。

第三步:语义化HTML

AI不需要你的UI漂亮,但它非常需要你告诉它"这段文字是什么":

<!-- ❌ AI不知道这是什么 -->
<div class="title">我们的服务</div>

<!-- ✅ AI知道这是标题 -->
<h2>企业AI搜索可见度优化服务</h2>

检查清单:

  • 每页有且只有一个 <h1>,H1-H6不跳级
  • 标题文字包含关键词,不是"简介"“关于"这类无信息量文字
  • <html lang="zh-CN"> 不要漏——告诉AI这是中文内容
  • 列表用 <ul>/<ol>,表格用 <table>,不要用div模拟

第四步:时间信号和新鲜度

AI模型对"信息有多新"非常敏感。添加 <meta name="date" content="2026-06-06"> 标签,或在内容中显式标注发布日期。

没有时间信号的页面,AI可能当成"不知道哪年的老内容”,引用权重直接打折。

第五步:如果不能SSR,至少用SSG

当前公司网站技术栈:

  • ❌ React/Vue CSR(create-react-app、Vite SPA)——AI拿到的是一张白纸
  • ✅ Next.js SSR/SSG、Nuxt、Hugo、Astro——AI能读到完整内容

Hugo是目前最简单、最安全的纯静态方案——Go写的,编译一次出纯HTML,AI爬虫读起来没有任何障碍。

实在改不了架构的话,至少用 prerender.io 或类似的预渲染服务给AI爬虫兜底。

验收

# 1. 原始HTML有没有可读内容?
curl -s https://你的域名 | wc -c          # 至少 > 2048

# 2. 有没有标题结构?
curl -s https://你的域名 | grep -o '<h[1-6]'

# 3. robots.txt有没有放行AI爬虫?
curl -s https://你的域名/robots.txt | grep -i 'bytespider\|deepseekbot'

# 4. JSON-LD是否正确?
# 访问 https://validator.schema.org 粘贴你的网址

四条全过,你的网站在AI眼里才算"存在"。

为什么现在就要做

SEO的红利期在2015年就基本结束了。GEO的红利期正在发生。国内几家大模型的爬虫还处于"给什么读什么"的阶段,对网站质量的要求远低于Google。这意味着现在入场,技术门槛低、竞争少。等各家开始收紧标准、引入类似PageRank的权重体系,再想进场就晚了。