推理 Token 是什么?为什么 GPT-5.4 加了它价格反而稳定
GPT-5.4 引入 reasoning_output_tokens 之后,很多人以为"思考链就是单纯加钱"。但实测下来 reasoning token 让模型给出更精准答案,反而降低了重试和澄清的成本。这篇拆解原理。
第一次看到账单上多出 reasoning_output_tokens 字段时,多数人的反应是「又是一种新方式收钱」。
但用了三个月之后,我反而觉得 reasoning token 是个被低估的省钱机制——因为它让模型一次性把事想清楚,减少了后续来回澄清的成本。这篇讲清 reasoning token 是什么、它怎么影响你的账单、以及怎么和它共处。
什么是 reasoning token
GPT-5.4、GPT-5.5、Claude Opus 4.7 这一代模型都引入了"思考链"(chain of thought)推理能力——在给你最终输出之前,模型会先在内部"思考"一段时间。
这段思考的 Token 叫 reasoning_output_tokens。它和普通的 output_tokens 计费方式相同(一般和 output 同价),但它不会显示给你——你看不到模型在想什么,只看到最终结论。
API 的响应字段大致长这样:
{
"usage": {
"input_tokens": 5000,
"output_tokens": 800,
"reasoning_output_tokens": 3500,
"cached_input_tokens": 12000
}
}
也就是说:你看到的输出 800 字,但模型在内部"思考"了 3500 字。这 3500 字也要付钱。
为什么 GPT-5.4 加了 reasoning,价格反而稳
直觉上"多了 reasoning 等于多花钱"——但实测数据反过来。
我看 Vibe Usage 上 Codex CLI 用户的数据:
- Codex(用 GPT-5.4):30 天 730 亿 Token,286 个用户
- 单用户均消耗:2.55 亿 Token / 月
折算成钱:约 95 美元 / 月。
而早前用 GPT-4 / GPT-4o(无 reasoning)时代的 Codex 用户均消耗约 60 美元/月——但那时候 Codex 的成功率明显更低。我自己当时跑同样的重构任务,GPT-4 时代经常要跑 3-4 次(前两次走偏),现在 GPT-5.4 跑 1 次基本就成。
每次失败的成本比"思考链增加的成本"大 3-5 倍。reasoning 让一次成功的概率提高,反而让总账单稳定。
reasoning 的价格结构
具体单价(GPT-5.4 当前定价):
- input:1.25 美元/百万
- output:10 美元/百万
- reasoning_output:和 output 同价,10 美元/百万
- cached input:0.125 美元/百万
reasoning 算 output 价。所以一段任务里如果模型"想"了 5000 token,相当于多了 5000 个 output token。
但因为 reasoning 让模型给出更精准答案,最终的实际 output 反而变短——总和经常是降的。
实测对比
我做过一个对照:让 Codex 修同一个 bug,分别用:
- GPT-4o(无 reasoning):5 次实验
- GPT-5.4(有 reasoning):5 次实验
| 模式 | 平均 input | 平均 output | 平均 reasoning | 平均成功率 | 单次成本(美元) |
|---|---|---|---|---|---|
| GPT-4o | 320K | 8K | 0 | 60% | 0.48 |
| GPT-5.4 | 280K | 5K | 12K | 100% | 0.52 |
单次任务 GPT-5.4 贵了 0.04 美元(8%),但成功率高 40%。考虑到失败重试成本,GPT-5.4 的总账单反而比 GPT-4o 便宜 30%——因为不用重试。
怎么和 reasoning 模型共处
1. 不要追求"压制 reasoning"
有些人会问:"能不能让模型少思考?"——可以,但你会换来更糟的输出。reasoning 是模型给出好答案的前提,砍它反而省小钱赔大钱。
2. 关注 input + reasoning 的总和
reasoning 是 output 同价,但触发它的是 input 的复杂度。如果你的 input 很长很乱,模型 reasoning 量也大。优化 input 的清晰度 是降低 reasoning 的正确方式。
3. 简单任务用无 reasoning 模型
如果你只是写一段简单代码,不需要 reasoning。可以选 GPT-4o-mini 或 Claude Haiku 这种轻量模型,跳过 reasoning 步骤。
4. 用 Vibe Usage 监控 reasoning 比例
Vibe Usage 把 reasoning_output_tokens 单独显示。如果你看到某个任务 reasoning 占比超过 50%——说明这个任务可能太复杂或 prompt 不清楚,可以拆任务或重写 prompt。
真实数据:reasoning 占比分布
我看 Vibe Usage 上各模型的 reasoning_tokens 占总 output 的比例:
| 模型 | reasoning / output 比例 |
|---|---|
| gpt-5.4 | 36% |
| gpt-5.5 | 32% |
| glm-5.1 | 0.5% |
| claude-opus-4-6 | 0.001% |
| claude-sonnet-4-6 | 0.001% |
| MiniMax-M2.7 | 0% |
GPT-5 系列的 reasoning 占比明显高——因为这是 OpenAI 的招牌特性。Claude 4.6 系列默认 reasoning 极少(Anthropic 在 4.7 才大幅启用 thinking 模式)。GLM 几乎不用 reasoning。
这种差异意味着:跑 GPT-5 = 接受较高 reasoning 成本换较高成功率,跑 Claude 4.6 = reasoning 成本低但需要更精准 prompt。
一个心态校正
Reasoning Token 不是"给你额外收费"——它是把"输出质量提升"明码标价了。
之前模型让你重试 3 次,账单高但你说不清贵在哪。现在加了 reasoning 字段,模型一次给好答案,账单降但你"看到"了 reasoning 那一行,反而觉得贵。
数据上看,加了 reasoning 之后单任务总成本反而稳。值不值得?我用 Codex 跑了三个月,结论是值——成功率和省心度都上去了。
把 Vibe Usage 装上看自己 reasoning 占比,能更精准评估自己模型选择是否合理。