GEO技术实现指南：让AI爬虫读懂你的网站

TL;DR

我们审计了数十个品牌官网，发现共性问题：JS渲染的SPA在原始HTML里只有几十字节的loading文字、没有任何结构化标签、robots.txt屏蔽了所有爬虫、标题层级混乱。这些问题用户感知不到——网站看起来一切正常，但对AI爬虫来说，这个网站约等于不存在。

1. JSON-LD 结构化数据

在 <head> 中添加 Organization 和 WebSite 两种 Schema。这是AI识别"这个网站是谁的、做什么的"的基础：

{
  "@context": "https://schema.org",
  "@type": "Organization",
  "name": "你的品牌名称",
  "alternateName": "品牌英文名",
  "url": "https://你的域名",
  "email": "联系邮箱",
  "description": "品牌描述，一段话讲清楚",
  "knowsAbout": ["业务关键词1", "业务关键词2", "业务关键词3"]
}

没有JSON-LD的网站，AI只能靠猜。验证方式：curl -s https://你的域名 | grep 'application/ld+json'。

2. AI 专用文件

文件	用途	位置
robots.txt	明确允许AI爬虫访问，列出sitemap	网站根目录
llms.txt	AI爬虫的站点索引，列出核心页面和实体	网站根目录
ai.txt	声明AI对网站内容的使用权限	网站根目录
sitemap.xml	搜索引擎和AI爬虫的完整页面索引	网站根目录

重点：robots.txt 要明确放行 DeepSeekBot、Bytespider、Baiduspider 等国内主流AI爬虫。很多网站默认屏蔽所有爬虫，等于主动拒绝被AI发现。

3. 标题层级

确保每页有且仅有一个 H1。H2-H6 按层级嵌套，不跳级。标题文字要包含关键词——“简介"“关于我们"这类无信息量的标题对AI没有价值。

AI模型依赖标题层级来理解页面结构。混乱的标题 = AI提取信息时丢失上下文。

4. 时间信号

添加 <meta name="date"> 标签，或在内容中显式标注发布日期。AI模型对信息新鲜度很敏感——没有时间信号的页面，引用权重直接打折。

具体做法：在HTML的 <head> 中添加 <meta name="date" content="2026-06-06">，并在文章正文中标注"发布于2026年6月”。

5. 语言声明

<html lang="zh-CN"> 告诉AI这是中文内容。少了这个标签，AI可能用错误的语言模型处理你的页面，导致语义提取偏差。

6. 渲染方案

CSR（客户端渲染）对AI爬虫极不友好。原始HTML只有 <div id="root"></div> 和几行JS引用——AI拿到的就是这几十个字节。

解决路径（按推荐优先级）：

Hugo、Astro 等静态生成（最优）
Next.js SSG、Nuxt 等服务端生成
已有CSR项目加 prerender.io 等预渲染服务兜底

验收标准

# 1. 原始HTML至少2KB可读文本
curl -s https://你的域名 | wc -c

# 2. 有标题层级
curl -s https://你的域名 | grep -o '<h[1-6]'

# 3. AI爬虫未被拦截
curl -s https://你的域名/robots.txt | grep -i 'bytespider\|deepseekbot'

# 4. JSON-LD有效
# 访问 https://validator.schema.org 输入网址

四条全过，你的网站在AI眼里才算"存在”。