Codex CLI通用

推理 Token 是什么?为什么 GPT-5.4 加了它价格反而稳定

GPT-5.4 引入 reasoning_output_tokens 之后,很多人以为"思考链就是单纯加钱"。但实测下来 reasoning token 让模型给出更精准答案,反而降低了重试和澄清的成本。这篇拆解原理。

第一次看到账单上多出 reasoning_output_tokens 字段时,多数人的反应是「又是一种新方式收钱」。

但用了三个月之后,我反而觉得 reasoning token 是个被低估的省钱机制——因为它让模型一次性把事想清楚,减少了后续来回澄清的成本。这篇讲清 reasoning token 是什么、它怎么影响你的账单、以及怎么和它共处。

什么是 reasoning token

GPT-5.4、GPT-5.5、Claude Opus 4.7 这一代模型都引入了"思考链"(chain of thought)推理能力——在给你最终输出之前,模型会先在内部"思考"一段时间。

这段思考的 Token 叫 reasoning_output_tokens。它和普通的 output_tokens 计费方式相同(一般和 output 同价),但它不会显示给你——你看不到模型在想什么,只看到最终结论。

API 的响应字段大致长这样:

{
  "usage": {
    "input_tokens": 5000,
    "output_tokens": 800,
    "reasoning_output_tokens": 3500,
    "cached_input_tokens": 12000
  }
}

也就是说:你看到的输出 800 字,但模型在内部"思考"了 3500 字。这 3500 字也要付钱。

为什么 GPT-5.4 加了 reasoning,价格反而稳

直觉上"多了 reasoning 等于多花钱"——但实测数据反过来。

我看 Vibe Usage 上 Codex CLI 用户的数据:

  • Codex(用 GPT-5.4):30 天 730 亿 Token,286 个用户
  • 单用户均消耗:2.55 亿 Token / 月

折算成钱:约 95 美元 / 月。

而早前用 GPT-4 / GPT-4o(无 reasoning)时代的 Codex 用户均消耗约 60 美元/月——但那时候 Codex 的成功率明显更低。我自己当时跑同样的重构任务,GPT-4 时代经常要跑 3-4 次(前两次走偏),现在 GPT-5.4 跑 1 次基本就成。

每次失败的成本比"思考链增加的成本"大 3-5 倍。reasoning 让一次成功的概率提高,反而让总账单稳定。

reasoning 的价格结构

具体单价(GPT-5.4 当前定价):

  • input:1.25 美元/百万
  • output:10 美元/百万
  • reasoning_output:和 output 同价,10 美元/百万
  • cached input:0.125 美元/百万

reasoning 算 output 价。所以一段任务里如果模型"想"了 5000 token,相当于多了 5000 个 output token。

但因为 reasoning 让模型给出更精准答案,最终的实际 output 反而变短——总和经常是降的。

实测对比

我做过一个对照:让 Codex 修同一个 bug,分别用:

  • GPT-4o(无 reasoning):5 次实验
  • GPT-5.4(有 reasoning):5 次实验
模式 平均 input 平均 output 平均 reasoning 平均成功率 单次成本(美元)
GPT-4o 320K 8K 0 60% 0.48
GPT-5.4 280K 5K 12K 100% 0.52

单次任务 GPT-5.4 贵了 0.04 美元(8%),但成功率高 40%。考虑到失败重试成本,GPT-5.4 的总账单反而比 GPT-4o 便宜 30%——因为不用重试。

怎么和 reasoning 模型共处

1. 不要追求"压制 reasoning"

有些人会问:"能不能让模型少思考?"——可以,但你会换来更糟的输出。reasoning 是模型给出好答案的前提,砍它反而省小钱赔大钱。

2. 关注 input + reasoning 的总和

reasoning 是 output 同价,但触发它的是 input 的复杂度。如果你的 input 很长很乱,模型 reasoning 量也大。优化 input 的清晰度 是降低 reasoning 的正确方式。

3. 简单任务用无 reasoning 模型

如果你只是写一段简单代码,不需要 reasoning。可以选 GPT-4o-mini 或 Claude Haiku 这种轻量模型,跳过 reasoning 步骤。

4. 用 Vibe Usage 监控 reasoning 比例

Vibe Usage 把 reasoning_output_tokens 单独显示。如果你看到某个任务 reasoning 占比超过 50%——说明这个任务可能太复杂或 prompt 不清楚,可以拆任务或重写 prompt。

真实数据:reasoning 占比分布

我看 Vibe Usage 上各模型的 reasoning_tokens 占总 output 的比例:

模型 reasoning / output 比例
gpt-5.4 36%
gpt-5.5 32%
glm-5.1 0.5%
claude-opus-4-6 0.001%
claude-sonnet-4-6 0.001%
MiniMax-M2.7 0%

GPT-5 系列的 reasoning 占比明显高——因为这是 OpenAI 的招牌特性。Claude 4.6 系列默认 reasoning 极少(Anthropic 在 4.7 才大幅启用 thinking 模式)。GLM 几乎不用 reasoning。

这种差异意味着:跑 GPT-5 = 接受较高 reasoning 成本换较高成功率,跑 Claude 4.6 = reasoning 成本低但需要更精准 prompt。

一个心态校正

Reasoning Token 不是"给你额外收费"——它是把"输出质量提升"明码标价了。

之前模型让你重试 3 次,账单高但你说不清贵在哪。现在加了 reasoning 字段,模型一次给好答案,账单降但你"看到"了 reasoning 那一行,反而觉得贵。

数据上看,加了 reasoning 之后单任务总成本反而稳。值不值得?我用 Codex 跑了三个月,结论是值——成功率和省心度都上去了。

把 Vibe Usage 装上看自己 reasoning 占比,能更精准评估自己模型选择是否合理。

相关阅读

相关阅读

推理 Token 是什么?为什么 GPT-5.4 加了它价格反而稳定