2026 年 3 月 14 日Claude Code

Claude Code Token 消耗太快怎么办？6 个真实有效的省 Token 方法

看到 Claude Code 一天烧几千万 Token 的截图就慌——但慌之前先问：你的消耗在哪个分位？这篇给出 6 个真正有效的省 Token 动作，按效果从大到小排，不掺假数据。

「Claude Code 烧得太快」是最近两周群里最高频的话题。但聊下去发现一半人不是真烧得快——是没数据，焦虑放大。

这篇做两件事：第一，告诉你「消耗多」的客观参考线；第二，给你 6 个真正能省 Token 的动作。

先看自己在哪个分位

「我今天烧了 800 万 Token，是不是太多了？」

答案：在 368 个真实 Vibe Usage 用户的近 30 天分布里——

中位数（p50）：每天 467 万 Token
p75：每天 1378 万
p90：每天 3717 万
p95：每天 6340 万

如果你日均 800 万，你在前 30%——比一半人多，但远不到「重度」。如果你日均 200 万——你比一半人还少。如果你日均超过 5000 万——你确实可以考虑省一省了。

很多焦虑是基于网上那些晒"一天 1 亿 token"截图——那是前 1% 的极端用户，不是基线。

1. 检查你的缓存命中率

Claude Code 的 cache 命中率是省钱的最大杠杆。我看真实数据，Vibe Usage 上 Claude Code 用户的缓存命中率中位数 91%——说明设计本身偏向缓存友好。

但有些人只有 50%-70%。原因通常是：

CLAUDE.md / AGENTS.md 频繁改动——每次改完缓存重建
prompt 模板里有时间戳 / 计数器之类的动态字段
频繁切换不同项目——每个项目第一次都得重建缓存

打开 Vibe Usage 看自己的缓存命中率。如果低于 80%，就有大量优化空间——你能直接砍掉几十美元月支出。

2. 长 session 主动 /compact

Claude Code 的 /compact 把当前会话历史压缩。

一天用 8 小时的话，建议每 1-2 小时 compact 一次
跨阶段时主动——比如"找完 bug 开始改代码了"
compact 本身要消耗 Token，但下条消息开始 input 直接降回低位，回本快

我自己装 Vibe Usage 之后看到自己的会话长度——p90 高达 280 万 Token / 会话。系统性 compact 之后降到 120 万，单 session 消耗砍半。

3. 关 Opus 开 Sonnet

Claude Opus 4.6 的 input 价格是 Sonnet 的 5 倍。

我有一段时间一直挂在 Opus 上写代码，后来切到 Sonnet——输出质量没明显变化，账单降 80%。

具体场景判断：

简单代码任务：Sonnet 完胜
跨文件大重构：Sonnet 够用
debug 一般 bug：Sonnet 够用
大型架构设计 / 极端复杂并发问题：才需要 Opus

把默认模型设成 Sonnet，遇到真搞不定的事再切 Opus。这一项就能省 30-50% 月支出（如果你一直挂 Opus）。

4. 控制单次任务的上下文

我看 Claude Code 用户的真实数据，单 session 累计 Token 中位数 100 万左右——但 p95 高达 1500 万。p95 那种长上下文 session 不光贵，输出质量也低（注意力被稀释）。

控制方法：

明确 @ 文件——你知道相关文件就直接 @，别让模型自己 grep
不让 Agent 模式自己读全仓库——大仓库尤其要警惕
关闭"自动包含历史聊天"——上下文里塞历史对话是 Token 黑洞

这一项不光省钱，还让模型给的代码质量更高。

5. 关掉低 ROI 的"自动魔术"

很多 IDE 集成有「行内 AI 建议」「自动 lint 修复」「自动生成 commit message」这类功能，长期挂着零碎消耗很可观。

挨个评估：

用得上吗？ 如果一个月用不到 3 次，直接关
可以手动触发吗？ 自动 → 手动通常省 80% 消耗
能换便宜模型吗？ commit message 这种事用 Haiku 完全够，没必要 Sonnet

我关掉自动 commit message 后，月消耗少了 8 美元。听上去不多，但累计是钱。

6. 用数据驱动优化

最重要的不是上面 5 个具体动作，是你必须先看清自己的消耗结构再优化。

我之前以为 Claude Code 是大头，看了数据发现 Codex CLI 才是。我之前以为 Opus 用得不多，看了数据发现一半 Token 都花在 Opus 上。我之前以为缓存命中率挺高，看了数据发现只有 50%。

凭感觉的优化效果总是事倍功半。

打开 Vibe Usage 装上看自己的真实消耗结构——免费、本地、自动同步。装好之后看一周，你会知道 6 项里哪些值得做、哪些不值得。

焦虑通常基于无知

最后一句：「Token 消耗快」这种焦虑往往来自看了别人的极端账单截图。

把数据放到 Vibe Usage 自己看一遍，多数人会松一口气——「原来我并不算烧得快」。如果真的烧得快——你也至少知道烧在哪了，能精准下手。