TL;DR
你的用户看到的是精美的页面,AI爬虫看到的是 <div id="root"></div> 加上几行JS引用——就这几十个字节。AI爬虫(DeepSeekBot、Bytespider)不会执行JavaScript,它们拿到的是服务器返回的原始HTML。如果网站是CSR架构,AI眼里的你就是一张白纸。这不是bug,这是架构问题。
第一步:JSON-LD,AI的身份证
在 <head> 里加一段结构化数据:
<script type="application/ld+json">
{
"@context": "https://schema.org",
"@type": "Organization",
"name": "你的品牌名称",
"url": "https://你的域名",
"email": "联系邮箱",
"description": "一句话讲清楚你的业务",
"knowsAbout": ["核心业务1", "核心业务2", "核心业务3"]
}
</script>
这段代码用户看不见,但AI爬虫拿它来建立对品牌的认知。没有JSON-LD的网站,AI只能靠猜。
验证:curl -s https://你的域名 | grep 'application/ld+json'。
第二步:给AI爬虫一份地图
创建三个文件放在网站根目录:
robots.txt — 明确放行AI爬虫:
User-agent: DeepSeekBot
Allow: /
User-agent: Bytespider
Allow: /
User-agent: Baiduspider
Allow: /
Sitemap: https://你的域名/sitemap.xml
llms.txt — AI的站点索引(Markdown格式):
# 品牌名称
> 一句话描述
## 核心页面
- [首页](https://域名) — 品牌介绍
- [服务](https://域名/services) — 服务详情
- [联系](https://域名/contact)
ai.txt — 声明AI使用权限:
Allow: *
这三个文件是AI时代的 robots.txt + sitemap + Terms of Service 三件套。
第三步:语义化HTML
AI不需要你的UI漂亮,但它非常需要你告诉它"这段文字是什么":
<!-- ❌ AI不知道这是什么 -->
<div class="title">我们的服务</div>
<!-- ✅ AI知道这是标题 -->
<h2>企业AI搜索可见度优化服务</h2>
检查清单:
- 每页有且只有一个
<h1>,H1-H6不跳级 - 标题文字包含关键词,不是"简介"“关于"这类无信息量文字
<html lang="zh-CN">不要漏——告诉AI这是中文内容- 列表用
<ul>/<ol>,表格用<table>,不要用div模拟
第四步:时间信号和新鲜度
AI模型对"信息有多新"非常敏感。添加 <meta name="date" content="2026-06-06"> 标签,或在内容中显式标注发布日期。
没有时间信号的页面,AI可能当成"不知道哪年的老内容”,引用权重直接打折。
第五步:如果不能SSR,至少用SSG
当前公司网站技术栈:
- ❌ React/Vue CSR(create-react-app、Vite SPA)——AI拿到的是一张白纸
- ✅ Next.js SSR/SSG、Nuxt、Hugo、Astro——AI能读到完整内容
Hugo是目前最简单、最安全的纯静态方案——Go写的,编译一次出纯HTML,AI爬虫读起来没有任何障碍。
实在改不了架构的话,至少用 prerender.io 或类似的预渲染服务给AI爬虫兜底。
验收
# 1. 原始HTML有没有可读内容?
curl -s https://你的域名 | wc -c # 至少 > 2048
# 2. 有没有标题结构?
curl -s https://你的域名 | grep -o '<h[1-6]'
# 3. robots.txt有没有放行AI爬虫?
curl -s https://你的域名/robots.txt | grep -i 'bytespider\|deepseekbot'
# 4. JSON-LD是否正确?
# 访问 https://validator.schema.org 粘贴你的网址
四条全过,你的网站在AI眼里才算"存在"。
为什么现在就要做
SEO的红利期在2015年就基本结束了。GEO的红利期正在发生。国内几家大模型的爬虫还处于"给什么读什么"的阶段,对网站质量的要求远低于Google。这意味着现在入场,技术门槛低、竞争少。等各家开始收紧标准、引入类似PageRank的权重体系,再想进场就晚了。