Claude Code Token 消耗太快怎么办?6 个真实有效的省 Token 方法
看到 Claude Code 一天烧几千万 Token 的截图就慌——但慌之前先问:你的消耗在哪个分位?这篇给出 6 个真正有效的省 Token 动作,按效果从大到小排,不掺假数据。
「Claude Code 烧得太快」是最近两周群里最高频的话题。但聊下去发现一半人不是真烧得快——是没数据,焦虑放大。
这篇做两件事:第一,告诉你「消耗多」的客观参考线;第二,给你 6 个真正能省 Token 的动作。
先看自己在哪个分位
「我今天烧了 800 万 Token,是不是太多了?」
答案:在 368 个真实 Vibe Usage 用户的近 30 天分布里——
- 中位数(p50):每天 467 万 Token
- p75:每天 1378 万
- p90:每天 3717 万
- p95:每天 6340 万
如果你日均 800 万,你在前 30%——比一半人多,但远不到「重度」。如果你日均 200 万——你比一半人还少。如果你日均超过 5000 万——你确实可以考虑省一省了。
很多焦虑是基于网上那些晒"一天 1 亿 token"截图——那是前 1% 的极端用户,不是基线。
1. 检查你的缓存命中率
Claude Code 的 cache 命中率是省钱的最大杠杆。我看真实数据,Vibe Usage 上 Claude Code 用户的缓存命中率中位数 91%——说明设计本身偏向缓存友好。
但有些人只有 50%-70%。原因通常是:
- CLAUDE.md / AGENTS.md 频繁改动——每次改完缓存重建
- prompt 模板里有时间戳 / 计数器之类的动态字段
- 频繁切换不同项目——每个项目第一次都得重建缓存
打开 Vibe Usage 看自己的缓存命中率。如果低于 80%,就有大量优化空间——你能直接砍掉几十美元月支出。
2. 长 session 主动 /compact
Claude Code 的 /compact 把当前会话历史压缩。
- 一天用 8 小时的话,建议每 1-2 小时 compact 一次
- 跨阶段时主动——比如"找完 bug 开始改代码了"
- compact 本身要消耗 Token,但下条消息开始 input 直接降回低位,回本快
我自己装 Vibe Usage 之后看到自己的会话长度——p90 高达 280 万 Token / 会话。系统性 compact 之后降到 120 万,单 session 消耗砍半。
3. 关 Opus 开 Sonnet
Claude Opus 4.6 的 input 价格是 Sonnet 的 5 倍。
我有一段时间一直挂在 Opus 上写代码,后来切到 Sonnet——输出质量没明显变化,账单降 80%。
具体场景判断:
- 简单代码任务:Sonnet 完胜
- 跨文件大重构:Sonnet 够用
- debug 一般 bug:Sonnet 够用
- 大型架构设计 / 极端复杂并发问题:才需要 Opus
把默认模型设成 Sonnet,遇到真搞不定的事再切 Opus。这一项就能省 30-50% 月支出(如果你一直挂 Opus)。
4. 控制单次任务的上下文
我看 Claude Code 用户的真实数据,单 session 累计 Token 中位数 100 万左右——但 p95 高达 1500 万。p95 那种长上下文 session 不光贵,输出质量也低(注意力被稀释)。
控制方法:
- 明确 @ 文件——你知道相关文件就直接 @,别让模型自己 grep
- 不让 Agent 模式自己读全仓库——大仓库尤其要警惕
- 关闭"自动包含历史聊天"——上下文里塞历史对话是 Token 黑洞
这一项不光省钱,还让模型给的代码质量更高。
5. 关掉低 ROI 的"自动魔术"
很多 IDE 集成有「行内 AI 建议」「自动 lint 修复」「自动生成 commit message」这类功能,长期挂着零碎消耗很可观。
挨个评估:
- 用得上吗? 如果一个月用不到 3 次,直接关
- 可以手动触发吗? 自动 → 手动通常省 80% 消耗
- 能换便宜模型吗? commit message 这种事用 Haiku 完全够,没必要 Sonnet
我关掉自动 commit message 后,月消耗少了 8 美元。听上去不多,但累计是钱。
6. 用数据驱动优化
最重要的不是上面 5 个具体动作,是你必须先看清自己的消耗结构再优化。
我之前以为 Claude Code 是大头,看了数据发现 Codex CLI 才是。我之前以为 Opus 用得不多,看了数据发现一半 Token 都花在 Opus 上。我之前以为缓存命中率挺高,看了数据发现只有 50%。
凭感觉的优化效果总是事倍功半。
打开 Vibe Usage 装上看自己的真实消耗结构——免费、本地、自动同步。装好之后看一周,你会知道 6 项里哪些值得做、哪些不值得。
焦虑通常基于无知
最后一句:「Token 消耗快」这种焦虑往往来自看了别人的极端账单截图。
把数据放到 Vibe Usage 自己看一遍,多数人会松一口气——「原来我并不算烧得快」。如果真的烧得快——你也至少知道烧在哪了,能精准下手。