Claude CodeCodex CLIOpenCode通用

如何降低 AI 编程的 Token 消耗

看到月账单破百觉得心疼之后,我做了 8 件事把消耗降了一半。这篇就是那 8 件事的清单——按实际效果排序,每条都给出具体动作和预估节省。

去年 12 月我账单破 200 美元——给我创了 AI 编程消费的最高纪录。那个月之后我系统性地搞了一轮"省 Token 行动",把月支出压到 100 美元上下,但写代码量没减少。

这篇是那次行动里有效动作的清单。按"省下来的钱占比"排序,从大到小。

1. 让缓存命中(占节省的 35%)

最大的杠杆。Claude Sonnet 的缓存输入价格是普通输入的十分之一——只要让缓存命中,你就直接省 90% 的 input 成本。

具体动作:

  • 绝不在系统提示里放变化内容。最常见的错误是写「现在是 {now()}」这种动态时间戳——每次都不一样,缓存全部失效。
  • 稳定的内容靠前,多变的靠后。模型缓存是"前缀缓存"——只要从开头到某一点完全一致就能命中。把"项目背景 / 工具说明 / 风格约定"放在最前面。
  • 5 分钟内连续做事。缓存的 TTL 默认 5 分钟。中间走神超过 5 分钟,前缀缓存失效。

我装 Vibe Usage 之前以为我的缓存命中率挺高,装上看发现只有 50%。优化之后到了 88%。这一项就是月账单从 200 降到 130 的主因。

2. 关掉不必要的"详细输出"(占节省的 20%)

Output Token 是 input 的 5 倍贵。让模型少说话直接省钱。

  • 明确写"只给代码不要解释"。我在 CLAUDE.md 里加了一行:「除非我明确问,否则不要解释代码做什么」。这一句让我的 output 平均下降 40%。
  • 关 commit message 自动生成。每次 commit 让 AI 写一段话听上去很美好,每次 200-500 token output,一个月几千 token 累计。
  • 拒绝长 docstring。AI 倾向于给你写 5 行的 docstring。我现在让它只写一行简短的 purpose,参数说明能从类型推断出来就别写。

3. 用对模型档位(占节省的 15%)

Anthropic 这边 Opus 和 Sonnet 单价差 5 倍。OpenAI 那边 GPT-5.4 和 GPT-5.5 / thinking 也差几倍。

  • Sonnet 是 95% 任务的正确答案。Opus 留给真的搞不定的事——大型架构设计、极端复杂的并发 bug。我之前一直挂在 Opus 上写日常代码,切到 Sonnet 后输出质量没看出来差别。
  • 小任务用小模型。简单问答、代码补全、跑单元测试——用 Haiku 或 GPT-mini 就够。

4. 控制单次任务的上下文(占节省的 12%)

很多人养成了「让 AI 读全仓库」的习惯。这是最贵的奢侈品。

  • 明确 @ 文件。Cursor 里手动 @ 5 个相关文件,比让它自动找 30 个相关文件便宜 6 倍。
  • 不让 Codex / Agent 自己 grep。让它自己读全仓库找相关文件,单次任务上下文 100 万 Token 起。我现在习惯先自己定位,再让 Agent 改。
  • 关掉历史对话保留。如果你跑完了一个任务跟下一个无关,开新 session。否则前一段历史都被纳入上下文。

5. 长会话主动 compact(占节省的 8%)

Claude Code 的 /compact 命令把当前会话历史压缩成摘要。

  • 长任务里每 30-60 分钟主动 compact 一次
  • 减少了未来对话的 context 长度,每条新消息都受益
  • 注意 compact 本身要消耗 Token(让模型读完整历史 + 写摘要)——但回本快

6. 警惕 Agent 任务跑偏(占节省的 6%)

Agent 跑岔的成本是成功跑的 2-3 倍。

  • 大任务前先用 chat 模式让模型说计划——确认方案再让 Agent 跑
  • 任务跑超 5 分钟还在循环?停下来检查,多半已经走偏了
  • 失败重试之前先看 Agent 在哪步卡住——直接 prompt「不要做 X」

7. 关掉低 ROI 的"自动化魔术"(占节省的 3%)

  • 关 IDE 的 inline AI 建议——除非你真的在用。它在后台一直跑,零碎消耗。
  • 关闭"自动 lint 错误修复"——每次 lint 报错都自动调用 AI 改,烦躁且贵。

8. 收集数据再决定(占节省的 1%,但放大效果)

最后一条不是直接动作,而是元动作——你必须先看清自己的消耗结构再做优化。

我之前以为 Claude Code 是大头,看了数据发现 Codex CLI 才是。我之前以为缓存命中率高,看了数据发现只有 50%。我之前以为 Opus 用得不多,看了数据发现一半 Token 都在 Opus 上。

把 Vibe Usage 装上看自己的真实消耗结构——免费,本地,自动同步。

不看数据的优化都是凭感觉,效果通常事倍功半。我自己 200 美元降到 100 美元那一波节省,最关键的不是上面 7 条具体动作,而是看到了自己的真实分布——知道哪一项值得改,哪一项不值得。

不是让你省到底

最后一句:如果你做的是高价值工作,AI 编程的钱就是该花的钱。100 美元换 30 小时高质量产出,时薪 3 美元——比任何工程师都便宜。

但前提是你知道自己花的每一笔在干嘛。打开 Vibe Usage 自己看一遍——你会从盲目消费变成精准投资。

相关阅读

相关阅读

如何降低 AI 编程的 Token 消耗