AI爬虫到底看到了什么？用curl模拟AI视角审计你的网站

给客户做 AI 可见度诊断的时候，我干的第一个动作永远是打开终端，敲 curl。

“这是什么？“客户问。我说这是你的网站在 AI 眼里的样子。

绝大部分人看完之后表情都不太好。有人看到自己的首页只返回了两行导航栏。有人看到的是 <div id="root"></div> 加一个 js 引用。最安静的一次——对方沉默了大概十秒——因为他打开了一个估值几千万的公司官网，curl 返回了 44 个字。

44 个字。一个 HTML 标签都没有的纯文本。剩下全靠 JS 渲染。

AI 爬虫看不懂 JS。这条规则说出来好像很简单，但大部分网站到今天仍然是 React 或者 Vue 做的。浏览器打开花里胡哨，爬虫打开就是一张白纸。Googlebot 勉强能渲染一部分，但 ByteSpider 呢？DeepSeekBot 呢？不一定。它们的行为跟 Google 不一样，而且没人公开过它们具体能渲染到什么程度。

所以我一直建议客户：自己看一次。

三条命令：

curl -s https://你的域名 | wc -c
curl -s https://你的域名 | grep -o '<h[1-6]'
curl -s https://你的域名 | grep 'ld+json'

第一条看大小。小于 2KB 基本等于空白。第二条看标题层级。一个 h1 都没有的话，AI 读完也不知道这页在讲什么。第三条看 JSON-LD，没有的话 AI 识别不了你的品牌实体。

去年查了一家旅行社区，内容几千万字，全由用户贡献。但首页 curl 出来就是导航栏加个 footer。搜索引擎把它当成了一个链接目录，而不是旅行网站。这不是技术能力的问题，这是历史架构的问题——当年选 SPA 框架的时候，谁能想到有一天 AI 爬虫要来读你的 HTML？

好消息是修起来不难。把品牌名、业务描述、地址这些关键信息放在服务端渲染出来的 HTML 里，加几行 JSON-LD，robots.txt 放行爬虫。一个下午的活。

真正难的是你知道有这个问题。大部分企业根本不知道自己网站在 AI 眼里是空的。