2026 年 3 月 7 日Claude CodeCodex CLIOpenCode通用

如何降低 AI 编程的 Token 消耗

看到月账单破百觉得心疼之后，我做了 8 件事把消耗降了一半。这篇就是那 8 件事的清单——按实际效果排序，每条都给出具体动作和预估节省。

去年 12 月我账单破 200 美元——给我创了 AI 编程消费的最高纪录。那个月之后我系统性地搞了一轮"省 Token 行动"，把月支出压到 100 美元上下，但写代码量没减少。

这篇是那次行动里有效动作的清单。按"省下来的钱占比"排序，从大到小。

1. 让缓存命中（占节省的 35%）

最大的杠杆。Claude Sonnet 的缓存输入价格是普通输入的十分之一——只要让缓存命中，你就直接省 90% 的 input 成本。

具体动作：

我装 Vibe Usage 之前以为我的缓存命中率挺高，装上看发现只有 50%。优化之后到了 88%。这一项就是月账单从 200 降到 130 的主因。

Output Token 是 input 的 5 倍贵。让模型少说话直接省钱。

明确写"只给代码不要解释"。我在 CLAUDE.md 里加了一行：「除非我明确问，否则不要解释代码做什么」。这一句让我的 output 平均下降 40%。
关 commit message 自动生成。每次 commit 让 AI 写一段话听上去很美好，每次 200-500 token output，一个月几千 token 累计。
拒绝长 docstring。AI 倾向于给你写 5 行的 docstring。我现在让它只写一行简短的 purpose，参数说明能从类型推断出来就别写。

Anthropic 这边 Opus 和 Sonnet 单价差 5 倍。OpenAI 那边 GPT-5.4 和 GPT-5.5 / thinking 也差几倍。

Sonnet 是 95% 任务的正确答案。Opus 留给真的搞不定的事——大型架构设计、极端复杂的并发 bug。我之前一直挂在 Opus 上写日常代码，切到 Sonnet 后输出质量没看出来差别。
小任务用小模型。简单问答、代码补全、跑单元测试——用 Haiku 或 GPT-mini 就够。

很多人养成了「让 AI 读全仓库」的习惯。这是最贵的奢侈品。

明确 @ 文件。Cursor 里手动 @ 5 个相关文件，比让它自动找 30 个相关文件便宜 6 倍。
不让 Codex / Agent 自己 grep。让它自己读全仓库找相关文件，单次任务上下文 100 万 Token 起。我现在习惯先自己定位，再让 Agent 改。
关掉历史对话保留。如果你跑完了一个任务跟下一个无关，开新 session。否则前一段历史都被纳入上下文。

Claude Code 的 /compact 命令把当前会话历史压缩成摘要。

Agent 跑岔的成本是成功跑的 2-3 倍。

最后一条不是直接动作，而是元动作——你必须先看清自己的消耗结构再做优化。

我之前以为 Claude Code 是大头，看了数据发现 Codex CLI 才是。我之前以为缓存命中率高，看了数据发现只有 50%。我之前以为 Opus 用得不多，看了数据发现一半 Token 都在 Opus 上。

不看数据的优化都是凭感觉，效果通常事倍功半。我自己 200 美元降到 100 美元那一波节省，最关键的不是上面 7 条具体动作，而是看到了自己的真实分布——知道哪一项值得改，哪一项不值得。

最后一句：如果你做的是高价值工作，AI 编程的钱就是该花的钱。100 美元换 30 小时高质量产出，时薪 3 美元——比任何工程师都便宜。

但前提是你知道自己花的每一笔在干嘛。打开 Vibe Usage 自己看一遍——你会从盲目消费变成精准投资。