GPT-5.4 凭什么成了最烧 Token 的模型?289 个用户 725 亿实测
Vibe Usage 30 天数据里,GPT-5.4 一个模型就吃掉约 725 亿 token,接近全站的一半。这篇拆它为什么这么猛——不是因为人多,是因为它的用法本身就重,以及这对你的账单意味着什么。
把 Vibe Usage 过去 30 天的消耗按模型拆开,GPT-5.4 一个模型就烧掉约 725 亿 token——接近全站 1580 亿的一半。它凭什么这么猛?答案不是「用的人多」,下面用数据拆。
不是人多,是单个用得重
GPT-5.4 这 30 天有 289 个用户。听起来不少,但 Claude Opus 4.6 有 214 个用户,消耗却只有约 77 亿——只有 GPT-5.4 的九分之一。用户数差不到 40%,消耗差九倍。
所以「GPT-5.4 烧 token」不是因为人多,是它的单用户强度极高。它主要跑在 Codex 这类 CLI agent 里,而 Codex 的默认行为就是大上下文、长 agent 链路。模型本身不烧 token,是「这个模型被用的方式」烧。这点和我们 Codex 为什么这么烧 token 那篇能对上。
模型消耗排行(30 天)
| 模型 | 30 天消耗 | 用户数 |
|---|---|---|
| GPT-5.4 | 约 725 亿 | 289 |
| MiniMax-M2.7 | 约 123 亿 | 62 |
| Claude Opus 4.6 | 约 77 亿 | 214 |
| GLM-5.1 | 约 49 亿 | 88 |
| GLM-5 | 约 45 亿 | 54 |
| GPT-5.5 | 约 38 亿 | 163 |
一个反常识点:GPT-5.5 有 163 个用户,消耗(38 亿)却只有 GPT-5.4(289 用户、725 亿)的零头。同一家的新版本,人不少,但大家还没把重活切过去——新模型上线不等于消耗立刻迁移,真实数据里这个滞后非常明显。
推理 token:贵,但量很小
GPT-5.4 的推理 token 约 10 亿,听着多,但放进它 725 亿的总盘子里只占 1.4%。全站推理 token 加起来也才 0.8%。
很多人担心「推理模型是不是偷偷烧很多」——数据说没有。推理 token 单价高,但量小,它不是你账单变大的原因。真正撑起 GPT-5.4 这 725 亿的,还是输入:反复把仓库、历史、工具结果喂进去。想细看推理 token 到底怎么回事,我们单独写过 推理 token 是什么、贵在哪。
缓存替 GPT-5.4 挡掉了一个数量级
GPT-5.4 这么大的量,账单没有爆炸式失控,靠的是缓存。30 天里它被缓存命中的输入约 6630 亿 token,而真正按全价计费的输入只有约 698 亿——缓存挡掉的部分是计费部分的将近十倍。
这意味着 GPT-5.4 的「贵」其实高度依赖一个前提:缓存得打得住。一旦你频繁清上下文、换 session,把这层缓存打没,GPT-5.4 的账单不是涨一点,是按那个十倍的比例往上窜。它是全站对缓存最敏感的模型,没有之一。缓存为什么这么关键,我们单独拆过 缓存输入 token 是什么、为什么能让账单差十倍。
所以用 GPT-5.4 的人,真正要盯的不是「我今天烧了多少」,是「我的缓存命中率有没有掉」。命中率稳,725 亿也花不了多少钱;命中率塌,几十亿都能让你月底超支。
这对你的账单意味着什么
如果你在用 Codex + GPT-5.4,你大概率在全站消耗分布的偏上区间。这不一定是坏事——重活交给强模型是合理的——但有两件事要做:
- 别拿按 token 计费的方式跑 GPT-5.4 重 agent,月底大概率超预算,要么上套餐要么设硬上限
- 区分任务:改两行代码别动 GPT-5.4,留给真正需要它的长任务。模型选择本身就是省钱手段,细节见 真正有效的省 token 方法
我自己的判断很直接:GPT-5.4 是好模型,但它是「贵的默认值」。不主动管,它会替你做花钱的决定。
想知道你自己有多少 token 花在 GPT-5.4 上,别估,打开 Vibe Usage 按模型看一眼——它把每个模型的消耗分开列,你一眼能看出哪个模型在吃你的预算。我看完当天就把日常小改的默认模型换掉了。