368 个开发者 30 天烧了 1580 亿 Token:AI 编程消耗月报
基于 Vibe Usage 的真实聚合数据,拆 2026 年 5 月这一期的 AI 编程 token 消耗结构——谁在涨、谁在掉、缓存吃掉了多少、输出为什么这么少。一份能对照自己的群体账本。
过去 30 天,368 个开发者在 Vibe Usage 上一共烧掉约 1580 亿 token。这是 AI 编程 token 消耗的一期月报,我把这个数字拆开给你看,顺便让你对照自己在群体里的位置。
先抛一个反常识结论:真正决定这 1580 亿的不是「谁写代码多」,而是「谁的输入没被缓存」。下面用数据说。
总盘子:1580 亿里,输出只占 6%
把这 30 天的总量拆成三块:
| 类型 | 量级 | 占比 |
|---|---|---|
| 输入 token(计费) | 约 1478 亿 | 93% |
| 输出 token | 约 90 亿 | 6% |
| 推理 token | 约 13 亿 | 0.8% |
很多人以为 AI 编程贵在「模型生成了多少代码」,其实输出只占 6%。你每次让 agent 读一遍仓库、塞一堆上下文进去,那才是账单主体。这个结构每个月看都一样,是 AI 编程成本的底层规律,不是某个工具的问题。
工具盘:Codex 用更少的人烧了更多的量
按来源拆 30 天总消耗:
| 工具 | 30 天总消耗 | 用户数 | 人均强度 |
|---|---|---|---|
| Codex | 约 730 亿 | 286 | 最高 |
| Claude Code | 约 491 亿 | 307 | 中 |
| openclaw | 约 181 亿 | 97 | 高 |
| OpenCode | 约 125 亿 | 98 | 中低 |
| Hermes | 约 32 亿 | 64 | 低 |
| Gemini CLI | 约 7 亿 | 50 | 最低 |
注意 Codex 和 Claude Code:Codex 用户数(286)比 Claude Code(307)还少,总消耗却高出近 49%。这说明 Codex 的单用户强度明显更猛——它默认塞更多上下文、更爱跑长 agent。这一点和我们之前那篇 Codex 为什么这么烧 token 的实测 是一致的,这个月数据再次验证,不是噪声。
缓存盘:被缓存的输入是计费输入的 9 倍
这期最值得讲的一个数:30 天里被缓存命中的输入 token 约 1.33 万亿——是实际计费输入(1478 亿)的九倍多。
换句话说,如果没有 prompt 缓存,这 368 个人的账单要乘以将近 10。缓存不是「优化项」,是 AI 编程能用得起的前提。但各工具差距很大:Codex、Claude Code 的缓存命中率稳定在 91%-92%,而有些工具只有 50% 多。命中率差一半,等额工作量账单就差一倍。具体每个工具的命中率我们单独写过 六个工具的缓存命中率实测对比,这里不重复。
90 天视角:用户在涨,结构没变
拉长到 90 天:480 个开发者、约 3661 亿 token。30 天 368 人对 90 天 480 人,说明新增用户在持续进来,但消耗结构(输入主导、输出 6%、缓存 9 倍)三个月几乎没变。
这是个好消息也是个提醒——好消息是规律稳定,你可以照着它做预算;提醒是别指望「换个工具就省一半」,结构性的东西换工具改不了,只能改用法。怎么改,我们写过 真正有效的省 token 方法。
这份月报怎么用
不要把它当排行榜看,当尺子用:
- 你日均消耗远低于工具中位数但月支出很高 → 你大概率订阅档位选错了
- 你输出占比明显高于 6% → 你可能在让模型生成大段内容而不是改代码,可以省
- 你缓存命中率低于 80% → 检查是不是频繁清上下文 / 换 session,把缓存打没了
想知道自己这 30 天的真实结构,不用估,打开 Vibe Usage 看自己的 token 消耗 就行——它把你的输入、输出、缓存分开摆出来,和这份月报一栏一栏对得上。我自己每个月初都看一次,比看银行卡账单还准。