2026 年 5 月 6 日· Codex· Claude Code

GPT-5.4 凭什么成了最烧 Token 的模型？289 个用户 725 亿实测

Vibe Usage 30 天数据里，GPT-5.4 一个模型就吃掉约 725 亿 token，接近全站的一半。这篇拆它为什么这么猛——不是因为人多，是因为它的用法本身就重，以及这对你的账单意味着什么。

把 Vibe Usage 过去 30 天的消耗按模型拆开，GPT-5.4 一个模型就烧掉约 725 亿 token——接近全站 1580 亿的一半。它凭什么这么猛？答案不是「用的人多」，下面用数据拆。

不是人多，是单个用得重

GPT-5.4 这 30 天有 289 个用户。听起来不少，但 Claude Opus 4.6 有 214 个用户，消耗却只有约 77 亿——只有 GPT-5.4 的九分之一。用户数差不到 40%，消耗差九倍。

所以「GPT-5.4 烧 token」不是因为人多，是它的单用户强度极高。它主要跑在 Codex 这类 CLI agent 里，而 Codex 的默认行为就是大上下文、长 agent 链路。模型本身不烧 token，是「这个模型被用的方式」烧。这点和我们 Codex 为什么这么烧 token 那篇能对上。

模型消耗排行（30 天）

模型	30 天消耗	用户数
GPT-5.4	约 725 亿	289
MiniMax-M2.7	约 123 亿	62
Claude Opus 4.6	约 77 亿	214
GLM-5.1	约 49 亿	88
GLM-5	约 45 亿	54
GPT-5.5	约 38 亿	163

一个反常识点：GPT-5.5 有 163 个用户，消耗（38 亿）却只有 GPT-5.4（289 用户、725 亿）的零头。同一家的新版本，人不少，但大家还没把重活切过去——新模型上线不等于消耗立刻迁移，真实数据里这个滞后非常明显。

推理 token：贵，但量很小

GPT-5.4 的推理 token 约 10 亿，听着多，但放进它 725 亿的总盘子里只占 1.4%。全站推理 token 加起来也才 0.8%。

很多人担心「推理模型是不是偷偷烧很多」——数据说没有。推理 token 单价高，但量小，它不是你账单变大的原因。真正撑起 GPT-5.4 这 725 亿的，还是输入：反复把仓库、历史、工具结果喂进去。想细看推理 token 到底怎么回事，我们单独写过推理 token 是什么、贵在哪。

缓存替 GPT-5.4 挡掉了一个数量级

GPT-5.4 这么大的量，账单没有爆炸式失控，靠的是缓存。30 天里它被缓存命中的输入约 6630 亿 token，而真正按全价计费的输入只有约 698 亿——缓存挡掉的部分是计费部分的将近十倍。

这意味着 GPT-5.4 的「贵」其实高度依赖一个前提：缓存得打得住。一旦你频繁清上下文、换 session，把这层缓存打没，GPT-5.4 的账单不是涨一点，是按那个十倍的比例往上窜。它是全站对缓存最敏感的模型，没有之一。缓存为什么这么关键，我们单独拆过缓存输入 token 是什么、为什么能让账单差十倍。

所以用 GPT-5.4 的人，真正要盯的不是「我今天烧了多少」，是「我的缓存命中率有没有掉」。命中率稳，725 亿也花不了多少钱；命中率塌，几十亿都能让你月底超支。

这对你的账单意味着什么

如果你在用 Codex + GPT-5.4，你大概率在全站消耗分布的偏上区间。这不一定是坏事——重活交给强模型是合理的——但有两件事要做：

别拿按 token 计费的方式跑 GPT-5.4 重 agent，月底大概率超预算，要么上套餐要么设硬上限
区分任务：改两行代码别动 GPT-5.4，留给真正需要它的长任务。模型选择本身就是省钱手段，细节见真正有效的省 token 方法

我自己的判断很直接：GPT-5.4 是好模型，但它是「贵的默认值」。不主动管，它会替你做花钱的决定。

想知道你自己有多少 token 花在 GPT-5.4 上，别估，打开 Vibe Usage 按模型看一眼——它把每个模型的消耗分开列，你一眼能看出哪个模型在吃你的预算。我看完当天就把日常小改的默认模型换掉了。

不是人多，是单个用得重

模型消耗排行（30 天）

推理 token：贵，但量很小

缓存替 GPT-5.4 挡掉了一个数量级

这对你的账单意味着什么

相关阅读