2026 年 3 月 31 日Codex CLI通用

推理 Token 是什么？为什么 GPT-5.4 加了它价格反而稳定

GPT-5.4 引入 reasoning_output_tokens 之后，很多人以为"思考链就是单纯加钱"。但实测下来 reasoning token 让模型给出更精准答案，反而降低了重试和澄清的成本。这篇拆解原理。

第一次看到账单上多出 reasoning_output_tokens 字段时，多数人的反应是「又是一种新方式收钱」。

但用了三个月之后，我反而觉得 reasoning token 是个被低估的省钱机制——因为它让模型一次性把事想清楚，减少了后续来回澄清的成本。这篇讲清 reasoning token 是什么、它怎么影响你的账单、以及怎么和它共处。

什么是 reasoning token

GPT-5.4、GPT-5.5、Claude Opus 4.7 这一代模型都引入了"思考链"（chain of thought）推理能力——在给你最终输出之前，模型会先在内部"思考"一段时间。

这段思考的 Token 叫 reasoning_output_tokens。它和普通的 output_tokens 计费方式相同（一般和 output 同价），但它不会显示给你——你看不到模型在想什么，只看到最终结论。

API 的响应字段大致长这样：

{
  "usage": {
    "input_tokens": 5000,
    "output_tokens": 800,
    "reasoning_output_tokens": 3500,
    "cached_input_tokens": 12000
  }
}

也就是说：你看到的输出 800 字，但模型在内部"思考"了 3500 字。这 3500 字也要付钱。

为什么 GPT-5.4 加了 reasoning，价格反而稳

直觉上"多了 reasoning 等于多花钱"——但实测数据反过来。

我看 Vibe Usage 上 Codex CLI 用户的数据：

Codex（用 GPT-5.4）：30 天 730 亿 Token，286 个用户
单用户均消耗：2.55 亿 Token / 月

折算成钱：约 95 美元 / 月。

而早前用 GPT-4 / GPT-4o（无 reasoning）时代的 Codex 用户均消耗约 60 美元/月——但那时候 Codex 的成功率明显更低。我自己当时跑同样的重构任务，GPT-4 时代经常要跑 3-4 次（前两次走偏），现在 GPT-5.4 跑 1 次基本就成。

每次失败的成本比"思考链增加的成本"大 3-5 倍。reasoning 让一次成功的概率提高，反而让总账单稳定。

reasoning 的价格结构

具体单价（GPT-5.4 当前定价）：

input：1.25 美元/百万
output：10 美元/百万
reasoning_output：和 output 同价，10 美元/百万
cached input：0.125 美元/百万

reasoning 算 output 价。所以一段任务里如果模型"想"了 5000 token，相当于多了 5000 个 output token。

但因为 reasoning 让模型给出更精准答案，最终的实际 output 反而变短——总和经常是降的。

实测对比

我做过一个对照：让 Codex 修同一个 bug，分别用：

GPT-4o（无 reasoning）：5 次实验
GPT-5.4（有 reasoning）：5 次实验

模式	平均 input	平均 output	平均 reasoning	平均成功率	单次成本（美元）
GPT-4o	320K	8K	0	60%	0.48
GPT-5.4	280K	5K	12K	100%	0.52

单次任务 GPT-5.4 贵了 0.04 美元（8%），但成功率高 40%。考虑到失败重试成本，GPT-5.4 的总账单反而比 GPT-4o 便宜 30%——因为不用重试。

怎么和 reasoning 模型共处

1. 不要追求"压制 reasoning"

有些人会问："能不能让模型少思考？"——可以，但你会换来更糟的输出。reasoning 是模型给出好答案的前提，砍它反而省小钱赔大钱。

2. 关注 input + reasoning 的总和

reasoning 是 output 同价，但触发它的是 input 的复杂度。如果你的 input 很长很乱，模型 reasoning 量也大。优化 input 的清晰度 是降低 reasoning 的正确方式。

3. 简单任务用无 reasoning 模型

如果你只是写一段简单代码，不需要 reasoning。可以选 GPT-4o-mini 或 Claude Haiku 这种轻量模型，跳过 reasoning 步骤。

4. 用 Vibe Usage 监控 reasoning 比例

Vibe Usage 把 reasoning_output_tokens 单独显示。如果你看到某个任务 reasoning 占比超过 50%——说明这个任务可能太复杂或 prompt 不清楚，可以拆任务或重写 prompt。

真实数据：reasoning 占比分布

我看 Vibe Usage 上各模型的 reasoning_tokens 占总 output 的比例：

模型	reasoning / output 比例
gpt-5.4	36%
gpt-5.5	32%
glm-5.1	0.5%
claude-opus-4-6	0.001%
claude-sonnet-4-6	0.001%
MiniMax-M2.7	0%

GPT-5 系列的 reasoning 占比明显高——因为这是 OpenAI 的招牌特性。Claude 4.6 系列默认 reasoning 极少（Anthropic 在 4.7 才大幅启用 thinking 模式）。GLM 几乎不用 reasoning。

这种差异意味着：跑 GPT-5 = 接受较高 reasoning 成本换较高成功率，跑 Claude 4.6 = reasoning 成本低但需要更精准 prompt。

一个心态校正

Reasoning Token 不是"给你额外收费"——它是把"输出质量提升"明码标价了。

之前模型让你重试 3 次，账单高但你说不清贵在哪。现在加了 reasoning 字段，模型一次给好答案，账单降但你"看到"了 reasoning 那一行，反而觉得贵。

数据上看，加了 reasoning 之后单任务总成本反而稳。值不值得？我用 Codex 跑了三个月，结论是值——成功率和省心度都上去了。

把 Vibe Usage 装上看自己 reasoning 占比，能更精准评估自己模型选择是否合理。