2026 年 4 月 16 日Codex CLI

为什么 Codex CLI 单用户消耗远超 Claude Code？数据拆解

Vibe Usage 30 天数据——Codex 单用户均消耗 2.55 亿 token，比 Claude Code 高 60%。但用户数比 Claude Code 少。这种"少而重"的分布是怎么形成的？这篇拆开讲。

我看 Vibe Usage 数据时一个反直觉的发现：Codex CLI 的用户数比 Claude Code 少（286 vs 307），但消耗比 Claude Code 多 50%（73 亿 vs 49 亿）。

折算成单用户均消耗：Codex 2.55 亿 / 月，Claude Code 1.6 亿 / 月——Codex 用户消耗是 Claude Code 用户的 1.6 倍。

为什么？这篇分析背后的机制。

第一个原因：Codex 是 Agent 模式

Codex 默认就是 Agent 模式——你给一个任务，它自己规划、读、写、测、修，循环到搞定。

我看 session 数据：

工具	平均消息数 / session	p50 消息数
Claude Code	63	10
Codex CLI	544	104

Codex 单 session 平均 544 条消息——是 Claude Code 的 8.6 倍。每条消息是一次完整 LLM 调用——循环越多 token 越多。

第二个原因：用户群体类型不同

Claude Code 用户分布广——从 part-time 偶尔用到全职重度都有。Codex 用户偏向后者。

理由：Codex 没有"订阅模式"——必须直接 API 计费。新手不愿意一开始就接 OpenAI key 跑 Agent，所以 Codex 用户群体天然偏专业。

也就是说，Codex 用户的"基线"就比 Claude Code 高。

第三个原因：Codex 任务类型偏重

Claude Code 的常见用法：chat 模式、单文件改动、简单 debug。

Codex 的常见用法：跨文件大重构、库迁移、长流程自动化。后者天然耗 token。

我自己用两个工具的分工：

Claude Code：日常 80% 时间，写代码 + 单文件改动 + 修小 bug
Codex CLI：20% 时间，专门搞跨文件大事

Codex 单次任务 token 消耗是 Claude Code 单次的 5-15 倍。

第四个原因：缓存命中率拉平

Codex 缓存命中率 92%——和 Claude Code 91% 几乎一样。也就是说"按全价付的 input"占比都很小。

这意味着 Codex 的"绝对 token 数高 60%"在实际计费里没有那么夸张——可能是 30-50% 的钱差。

Codex 用户每月真实账单

按 GPT-5.4 当前定价折算：

单用户月均消耗 2.55 亿 token
90% 走缓存（0.125 美元 / 百万）
10% 全价 input（1.25 美元 / 百万）
output 估算 4% × 总 token = 1000 万（10 美元 / 百万）

钱：

缓存 input：2.3 亿 × 0.125 / 1M = 0.029 美元 → 等等，乘错了
缓存 input：2.3 亿 × 0.125 美元/百万 = 28.75 美元
全价 input：0.255 亿 × 1.25 美元/百万 = 31.9 美元
output：1000 万 × 10 美元/百万 = 100 美元

合计 160 美元 / 月——这是 Codex 用户的"群体均值"。

中位数用户低一些（约 80-100 美元），重度用户 300-500 美元，极端 1000+。

跟 Claude Code 用户对比

Claude Code 单用户均月消耗 1.6 亿 token，按 Sonnet 计费约 25-40 美元 / 月（订阅或 API）。

Codex 用户均 160 美元——是 Claude Code 用户的 5 倍。

但要看绝对收益：Codex 用户跑的是大型 Agent 任务，单次替换的人工时间是 Claude Code 的 5-10 倍。所以 ROI 上 Codex 用户可能并不差。

Codex 真省钱的用法

如果你想用 Codex 但不想破产：

1. 只在大任务上用

不要让 Codex 替代日常 chat。日常用 Claude Code / Cursor，大任务才上 Codex。

2. 限制 Agent 探索

prompt 里明确写「只看 X 文件」、「不要 grep」——减少不必要的循环。

3. 任务超 20 分钟没结果就停

跑岔的成本是成功跑的 2-3 倍。

4. 用 GPT-5.4 而不是 GPT-5.5 thinking

5.5 thinking 单价更高，reasoning 占比也更大。普通编码任务 5.4 够用。

怎么知道自己的位置

Vibe Usage 让你的 Codex 消耗一目了然：

你 Codex 消耗占整体多少
单 session 累计 token 中位数
失败任务的 token 浪费

我自己装 Vibe Usage 之前以为 Claude Code 是大头，看完发现 Codex 占了 65% 总消耗。这个洞察让我重新思考"主力工具"——决定明确分工是 Claude Code 80%、Codex 20%。

执行下来月支出降了 30%——同样的产出，更便宜。

一个心态校正

Codex 不便宜，但不必便宜。它解决的是"长任务自动化"——你睡觉时 Codex 在干活。这种省心程度是 Claude Code 的 chat 模式给不了的。

如果你的工作有这种"长任务"特征——比如代码迁移、批量重构、库升级——Codex 月 100-300 美元换来 8 小时的连续自动化产出，按工程师时薪算明显划算。

如果你的工作主要是日常 chat——Claude Code 20 美元 / 月就够，不需要 Codex。

用 Vibe Usage 看自己用 Codex 真的在做什么任务，决策更精准。