Claude Code

Claude Code Token 消耗太快怎么办?6 个真实有效的省 Token 方法

看到 Claude Code 一天烧几千万 Token 的截图就慌——但慌之前先问:你的消耗在哪个分位?这篇给出 6 个真正有效的省 Token 动作,按效果从大到小排,不掺假数据。

「Claude Code 烧得太快」是最近两周群里最高频的话题。但聊下去发现一半人不是真烧得快——是没数据,焦虑放大。

这篇做两件事:第一,告诉你「消耗多」的客观参考线;第二,给你 6 个真正能省 Token 的动作。

先看自己在哪个分位

「我今天烧了 800 万 Token,是不是太多了?」

答案:在 368 个真实 Vibe Usage 用户的近 30 天分布里——

  • 中位数(p50):每天 467 万 Token
  • p75:每天 1378 万
  • p90:每天 3717 万
  • p95:每天 6340 万

如果你日均 800 万,你在前 30%——比一半人多,但远不到「重度」。如果你日均 200 万——你比一半人还少。如果你日均超过 5000 万——你确实可以考虑省一省了。

很多焦虑是基于网上那些晒"一天 1 亿 token"截图——那是前 1% 的极端用户,不是基线。

1. 检查你的缓存命中率

Claude Code 的 cache 命中率是省钱的最大杠杆。我看真实数据,Vibe Usage 上 Claude Code 用户的缓存命中率中位数 91%——说明设计本身偏向缓存友好。

但有些人只有 50%-70%。原因通常是:

  • CLAUDE.md / AGENTS.md 频繁改动——每次改完缓存重建
  • prompt 模板里有时间戳 / 计数器之类的动态字段
  • 频繁切换不同项目——每个项目第一次都得重建缓存

打开 Vibe Usage 看自己的缓存命中率。如果低于 80%,就有大量优化空间——你能直接砍掉几十美元月支出。

2. 长 session 主动 /compact

Claude Code 的 /compact 把当前会话历史压缩。

  • 一天用 8 小时的话,建议每 1-2 小时 compact 一次
  • 跨阶段时主动——比如"找完 bug 开始改代码了"
  • compact 本身要消耗 Token,但下条消息开始 input 直接降回低位,回本快

我自己装 Vibe Usage 之后看到自己的会话长度——p90 高达 280 万 Token / 会话。系统性 compact 之后降到 120 万,单 session 消耗砍半。

3. 关 Opus 开 Sonnet

Claude Opus 4.6 的 input 价格是 Sonnet 的 5 倍。

我有一段时间一直挂在 Opus 上写代码,后来切到 Sonnet——输出质量没明显变化,账单降 80%。

具体场景判断:

  • 简单代码任务:Sonnet 完胜
  • 跨文件大重构:Sonnet 够用
  • debug 一般 bug:Sonnet 够用
  • 大型架构设计 / 极端复杂并发问题:才需要 Opus

把默认模型设成 Sonnet,遇到真搞不定的事再切 Opus。这一项就能省 30-50% 月支出(如果你一直挂 Opus)。

4. 控制单次任务的上下文

我看 Claude Code 用户的真实数据,单 session 累计 Token 中位数 100 万左右——但 p95 高达 1500 万。p95 那种长上下文 session 不光贵,输出质量也低(注意力被稀释)。

控制方法:

  • 明确 @ 文件——你知道相关文件就直接 @,别让模型自己 grep
  • 不让 Agent 模式自己读全仓库——大仓库尤其要警惕
  • 关闭"自动包含历史聊天"——上下文里塞历史对话是 Token 黑洞

这一项不光省钱,还让模型给的代码质量更高。

5. 关掉低 ROI 的"自动魔术"

很多 IDE 集成有「行内 AI 建议」「自动 lint 修复」「自动生成 commit message」这类功能,长期挂着零碎消耗很可观。

挨个评估:

  • 用得上吗? 如果一个月用不到 3 次,直接关
  • 可以手动触发吗? 自动 → 手动通常省 80% 消耗
  • 能换便宜模型吗? commit message 这种事用 Haiku 完全够,没必要 Sonnet

我关掉自动 commit message 后,月消耗少了 8 美元。听上去不多,但累计是钱。

6. 用数据驱动优化

最重要的不是上面 5 个具体动作,是你必须先看清自己的消耗结构再优化

我之前以为 Claude Code 是大头,看了数据发现 Codex CLI 才是。我之前以为 Opus 用得不多,看了数据发现一半 Token 都花在 Opus 上。我之前以为缓存命中率挺高,看了数据发现只有 50%。

凭感觉的优化效果总是事倍功半。

打开 Vibe Usage 装上看自己的真实消耗结构——免费、本地、自动同步。装好之后看一周,你会知道 6 项里哪些值得做、哪些不值得。

焦虑通常基于无知

最后一句:「Token 消耗快」这种焦虑往往来自看了别人的极端账单截图。

把数据放到 Vibe Usage 自己看一遍,多数人会松一口气——「原来我并不算烧得快」。如果真的烧得快——你也至少知道烧在哪了,能精准下手。

相关阅读

相关阅读

Claude Code Token 消耗太快怎么办?6 个真实有效的省 Token 方法