上层裁人，底层缺机：AI 经济正在两端同时收紧

2026-05-25 · 悦微日报

这几天我连续看了两篇访谈，分别来自 The Pragmatic Engineer Podcast 和 Dwarkesh Podcast。一篇是 Steve Yegge 讲软件工程师正在经历什么，一篇是 Dylan Patel 拆 AI 算力的最底层瓶颈。两个人聊的事情看似毫无关联——一个谈应用层，一个谈芯片层——但我一边看一边发现，他们其实在描述同一根链条的两端。

中间那一段，几乎没人系统地写过。这篇我想把它补上。

第一根线索：Amazon 为什么要在 AI 时代裁 1.6 万人？

Steve Yegge 在访谈里给了一个我此前没见过的解释：

每家公司都有一个 0–100% 的「裁员调节钮」。要让剩下一半工程师全速用 AI（自己烧 token），必须先裁掉另一半为他们付 token 钱。默认值大约是 50%。

把"裁员"和"AI 采购预算"放进同一个等式，这件事我从来没有听任何一家公司公开承认过。但反过来看，它解释了非常多此前看起来不一致的现象：

Amazon 一边裁 16,000 人，一边宣布加码 AI 投资，两件事其实是同一件事的两个面。
一线工程师拿到的"AI 工具预算"在过去半年急剧上升，公司内部已经在为下一年的 token 账单做长期合同采购。
高层不愿明说"我们要把生产力工资转移给 OpenAI/Anthropic"，所以这件事在 PR 上必须被包装成"AI 战略转型"。

Steve 顺手给了一个判断指标，我觉得比任何"AI 成熟度评估表"都更接近真相：

Token burn 是衡量一家公司 AI 成熟度最重要的代理指标。烧得多说明工程师在尝试、在失败、在学习。

这条规则反过来用也成立：一家公司每月 token 账单不增长，就说明它的工程师还在 L1-L2（Steve 把工程师分了 8 级，L1 完全不用 AI，L8 已经在用多 agent 编排器跑 agent 跑 agent；他估计 70% 的工程师还卡在底部两级）。这类公司即将进入"看起来活着但拿不到 AI 红利"的状态——而它们大概率就是接下来 18 个月里会做下一轮裁员的公司。

Steve 还提到 monolith 架构公司的处境更尴尬：整个代码库塞不进 context window，要么花一年拆，要么花两年重写，期间一直在跟 microservice 公司比 AI 生产力——后者已经先把 50% 的人裁了，把省下的钱倒进 token 账单了。

这是上层的故事：裁人不是 AI 替代了人，是 AI 抢走了人的预算。

第二根线索：估值千亿的 AI 公司为什么在抢一张三年前的卡？

如果故事到此为止，那就是又一个"AI 重构组织"的常规叙事。但 Dylan Patel 那一边讲的事情完全反直觉：

H100 今天比 2024 年更值钱。部分长约已经签到 $2.40 每小时。

按常理，三年前的芯片应该被新一代 Blackwell / Rubin 折现。Dylan 给出的解释非常漂亮：

在供给紧约束的市场里，资产价格不是由"下一代多便宜"决定的，而是由"它现在能产出的最有价值的产品"决定的。H100 之所以比三年前更值钱，是因为它现在能跑 GPT-5.4 而不是 GPT-4，单卡每小时产出的 token 价值远高于过去。

这就是定价权从供给端转移到价值端的转折点。看似一个抽象的金融判断，落到产业里就是：只要 token 经济每多一个新应用，旧卡的二手价格就会被往上推一格。

但故事还没到底。Dylan 接着说，所有人都在抢 H100、抢 Blackwell、抢电力、抢数据中心，最后真正的瓶颈会落到一个普通人完全不熟悉的环节：

一个吉瓦的 AI 数据中心需要约 3.5 台 ASML 的 EUV 光刻机（约 12 亿美元），却撑起 500 亿美元的数据中心 CapEx 与上千亿美元的 token 经济价值。ASML 今年只能造 70 台 EUV 工具，2030 年最多 100 台。

折算下来，全球 AI 算力的年新增上限大约就是 200GW——这个数字是被 ASML 一家公司的产能锁死的。OpenAI / Anthropic / Google / Meta / xAI 加起来想抢的总量，远超这个上限。这就是为什么会出现一个我之前完全不理解的现象：Anthropic 因为「不想破产」保守签约，结果反而被 OpenAI 反超——后者签了 5 年长约，锁定了未来好几代芯片的优先供应权。在 capacity-bound 的涨价市场里，"克制"是没有奖励的。

更荒诞的是 Google：

Google 把 100 万颗自家的 Ironwood TPU 卖给 Anthropic，等到 Nano Banana 和 Gemini 3 起飞才意识到自家算力的真实价值，但 TSMC 当时已无产能可补。

这是底层的故事：钱不是问题，电不是问题，GPU 也不是问题，唯一物理上无法快速扩张的，是 ASML 的光刻机产能。

中间那一段：钱在两端之间是怎么流动的

把这两个故事并排放，链条就清楚了。

公司裁掉一半工程师
  ↓ 省下的工资预算
转化为 token 采购预算
  ↓ 流向 OpenAI / Anthropic / Google
转化为 AI 公司收入
  ↓ 拿去签长期算力合同
推高 H100 / Blackwell / EUV 工具的单位价值
  ↓ AI 数据中心 CapEx 进一步抬升
逼迫剩下的公司进一步裁员、采购更多 token
  ↓ 闭环

这个闭环至少有三个我觉得值得停下来想一会儿的地方：

1. 工程师的工资正在被结构性地转化为算力资产

公司账面上看不到这笔钱了，它变成了 OpenAI 的收入、变成了 Nvidia 的订单、变成了 TSMC 的 fab 排程、最后变成了 ASML 的设备库存。这不是隐喻，是现金流的真实路径。十年前我们说"软件吃掉世界"，现在更准确的描述是"算力正在把工资吃掉"。

2. 这个闭环的扩张速度被 ASML 物理锁死了

即使所有公司都想加倍下注，全球 AI 算力的年增量也无法突破 200GW。这意味着接下来 3-5 年里，绝大多数公司其实"想买都买不到"足够的算力——这正是为什么 Anthropic 不得不接受 Bedrock / Vertex / Foundry 50% 分成换算力的窘境。算力会从"用钱解决"变成"用关系和长约解决"。

3. 这给独立工程师和小团队留出了一个意想不到的窗口

Steve 那边的判断是大公司创新已死，未来软件创新会来自 2-20 人的小团队和非技术个体。Dylan 那边的判断是大公司在算力上互相卡脖子。两边的结论虽然路径不同，但都指向同一个方向：当大组织被结构性的瓶颈卡住的时候，小团队反而可以在边缘飞快地推进——因为他们要的算力总量小，反而买得到。

这一点我特别想强调，因为它跟主流叙事完全相反。媒体里讲的故事都是"大公司在 AI 时代会赢"，但 Steve 和 Dylan 一个从应用端一个从硬件端给出了相反的证据：大公司的组织能力跟不上、算力调度跟不上、产品决策跟不上。它们手里有钱，但花不下去；想转型，但 monolith 拆不开；想堆算力，但 ASML 不卖。

我自己的几个小判断

写到这里我意识到，这两篇访谈合起来其实回答了一个我过去半年一直在想的问题：AI 时代的"个人开发者"到底还有没有机会？

之前我倾向悲观——觉得算力越集中、模型越大，普通人能做的事越少。但 Steve 和 Dylan 提供的证据让我换了一个角度：

算力会被结构性短缺，所以小用量反而是优势。
大公司会被自己的组织重力压垮，所以小团队不需要拼速度。
Token 经济的折扣点在边缘——开放权重模型（Gemma 4、GLM-5.1、Qwen3.6-35B-A3B）已经能在笔记本上跑出"远超预期"的效果（这是 Simon Willison 在另一篇里讲的）。

把这三件事拼起来，我现在的判断是：接下来 18 个月里，独立开发者最值得做的事情不是去跟大公司抢前沿模型，而是把开放权重 + 小算力的组合用到极致，做大公司因为组织瓶颈而做不了的事情。yuewei-digest 这个项目本身就是这条路线的一个实验——一台台式机 + BGE-M3 本地 embedding + 偶尔调一次 codex/claude，跑出来的资产库密度，不见得比一个十人团队加百万 token 预算少多少。

我也意识到，判断这个时代的关键指标不是"我用了多少 AI"，而是"我用 AI 解锁了多少原本做不了的事"。这条标准下，Steve 说的 L4-L5 才是真正的分水岭——你敢不敢让 agent 在你看不见的地方批量产出代码、批量做研究、批量改文档。我自己还在 L3-L4 之间，但写到这里我意识到该往上走了。

最后留一个还没想清楚的问题给自己（也给愿意一起想的朋友）：如果 ASML 真的成为全球 AI 算力的最底层瓶颈，地缘政治会以什么节奏接管这条链？ Dylan 在最后用了一个让我读完之后没睡着觉的比喻：

台湾是 snake-eating-tail 的风险——EUV 光刻机的制造需要台积电的芯片，而台积电的芯片生产又依赖 EUV。任何单点失效都会让全球 AI 算力年增量从几百 GW 跌到 10-20GW。

这个循环依赖意味着，AI 经济的下一个剧烈拐点很可能不是来自模型能力的突破，而是来自这条循环里某一个不起眼的物理节点。这条线我会继续追下去。

信源

Steve Yegge × The Pragmatic Engineer Podcast — From IDEs to AI Agents（2026 年 5 月）
Dylan Patel × Dwarkesh Podcast — Deep dive on the 3 big bottlenecks to scaling AI compute（2026 年 5 月）
Simon Willison — The last six months in LLMs in five minutes（PyCon US 2026 lightning talk）