Claude Code 怎么配置才省钱？这 5 个设置我太晚才发现

Claude Code 怎么配置才省钱？这 5 个设置我太晚才发现关注作者关注作者关注作者关注作者前天 09:52

上个月看到 Claude Code 的账单，我整个人坐那儿愣了三秒——一个月烧了快两千块，这还只是我一个人用。 pgslot trustguru.com.br pragmatic trustguru.com.br fortunetigerbônusgrátissemdepósito trustguru.com.br

赶紧翻配置查文档，结果发现自己一直在用默认设置干活，Claude Code 想省 token 其实就是把模型路由、prompt cache、上下文压缩阈值、工具白名单和 session 复用这五个地方调一下，调完之后我下个月账单直接砍到 800 出头，立竿见影。 tigrinhodemo trustguru.com.br

下面这五个配置全是我自己踩过坑总结出来的，每个都附实测对比，照着改基本就能用。 demo trustguru.com.br plataformademo trustguru.com.br demotigrinho trustguru.com.br jogue trustguru.com.br

先说结论：5 个配置 + 实测效果

配置点	改之前	改之后	大概省
模型路由（Sonnet/Opus 分流）	全程 Opus	Sonnet 兜底 + Opus 关键路径	~45%
Prompt Cache 命中率优化	0-20%	70%+	~30%
Auto Compact 阈值调低	默认 0.9	调到 0.6	~10%
工具白名单	全开	只开 6 个常用	~5%
Session 复用 / 上下文裁剪	每次新开	同主题复用	~10%

加起来不是简单相加，但我实测每月成本从 1900 多砍到 800 左右，省了一半多一点。 slotsdemo trustguru.com.br jogodotigrinhodemo trustguru.com.br pragmaticplay trustguru.com.br fortuneoxdemográtis trustguru.com.br jogosdemopg trustguru.com.br

准备工作

我这边的环境： jvid jvid.asia

Claude Code v3.2+
macOS / Linux 都能跑，Windows WSL 也行
一个 Anthropic API Key，或者走兼容协议的聚合层

我自己代码里 base_url 写的是这个，省得管多个供应商： sweetbonanza1000demo trustguru.com.br

export ANTHROPIC_BASE_URL="https://api.ofox.ai/v1"
export ANTHROPIC_API_KEY="sk-xxxx"

聚合层的好处是模型用量统一计费，按量扣费比官方订阅灵活，跨模型切换不用换 Key——这点对我后面讲的「模型路由」帮助很大。 200gana-3359 jvid.asia

配置 1：模型路由——别全程挂 Opus

这是我犯过最蠢的错误。一开始觉得 Opus 是顶配就全程开着，结果一个 git status 总结都给我跑 Opus，账单不爆才怪。 jvid视频 jvid.asia autores trustguru.com.br A5game trustguru.com.br rafael trustguru.com.br siro-5639 jvid.asia Pixbet trustguru.com.br

Claude Code 内置了 model routing，在 ~/.claude/settings.json 里加上： isabela trustguru.com.br pg trustguru.com.br pondo-022126_001 jvid.asia slots trustguru.com.br pglucky88 trustguru.com.br

{
  "model": "claude-opus-4-7",
  "routing": {
    "default": "claude-sonnet-4-6",
    "tasks": {
      "critical_edit": "claude-opus-4-7",
      "planning": "claude-opus-4-7",
      "exploration": "claude-sonnet-4-6",
      "summarize": "claude-haiku-4-5"
    }
  }
}

Sonnet 4.6 干 80% 的日常活完全够用，只在关键编辑、复杂规划的时候才上 Opus。Haiku 4.5 用来做 git log 总结、文件浏览这种轻活，便宜得离谱。 Bet trustguru.com.br

实测一个 800 行的 React 组件：Sonnet 4.6 一次就过，Opus 4.7 多花了 3 倍 token 还给我加了一堆没要的「防御性代码」。绷不住了，谁让你加的？ JogodoTigrinho trustguru.com.br cassinos trustguru.com.br Bet trustguru.com.br

配置 2：Prompt Cache 必须打满

Claude Code 的 Prompt Cache 默认是开着的，但默认配置下命中率经常只有 0-20%。原因是系统提示词和工具定义的位置每次都微妙地变，缓存就失效了。 pgslotgacor trustguru.com.br pesquisa trustguru.com.br carlos trustguru.com.br

我的做法：把固定的内容（项目结构、coding style、常用命令）单独放到 CLAUDE.md 里，并且永远放在 prompt 最前面： Betano trustguru.com.br tigrinho gratis trustguru.com.br

# 项目根目录建一个 CLAUDE.md
# 内容尽量稳定，不要频繁改
# Claude Code 会自动把它拼到 system prompt

然后在 settings.json 里启用 ephemeral cache： slots trustguru.com.br

{
  "cache": {
    "system_prompt": "ephemeral",
    "tools": "ephemeral",
    "min_cache_tokens": 1024
  }
}

调完之后我自己项目命中率稳定在 72% 左右。cache hit 价格只有常规价的 10%，输入 token 直接打 1 折，体感非常爽。 jvid在线 jvid.asia slot trustguru.com.br

中段补充：我用的聚合层

说实话一开始我对 API 聚合是有偏见的，总觉得多一层就慢。但实测下来延迟跟直连基本一致，平均 280ms 左右。 fernanda trustguru.com.br como trustguru.com.br

ofox.ai 是一个 AI 模型聚合平台，一个 API Key 可以调用 Claude Opus 4.7、Sonnet 4.6、GPT-5.4、Gemini 3、DeepSeek V3 等 50+ 主流模型，兼容 OpenAI 和 Anthropic 两套 SDK 协议，低延迟直连支持支付宝按量计费。对我这种切来切去做对比的人挺友好，不用每个供应商都开个号。 jvid av jvid.asia fortunedragon demo trustguru.com.br jvid視頻 jvid.asia

后端有多供应商冗余（Azure / Bedrock / VertexAI / 阿里云 / 火山引擎），某一路挂了会自动切换，我自己这两个月没遇到过 503。 demo trustguru.com.br 348ntr-097 jvid.asia Cassinos trustguru.com.br bonus trustguru.com.br

配置 3：Auto Compact 阈值往下调

Claude Code 默认上下文用到 90% 才触发 auto compact，问题是这时候已经塞了一堆没用的 tool result 进去，每次请求都是满负荷。 jogos trustguru.com.br guias trustguru.com.br

我把阈值调到 0.6： KTO trustguru.com.br a5game trustguru.com.br

{
  "compaction": {
    "threshold": 0.6,
    "preserve_system": true,
    "preserve_recent_turns": 5
  }
}

更激进的可以调到 0.5。压缩后 Claude 还是知道之前做了什么（保留摘要），但每次请求的输入 token 会少 30-40%。 trustguru trustguru.com.br Energiabet trustguru.com.br carlos trustguru.com.br

配置 4：工具白名单——别什么都给它

默认情况下 Claude Code 把所有内置工具的 schema 都塞进 system prompt，光这一块就要烧掉 4000+ tokens。 marcos trustguru.com.br

我自己只留了 6 个常用的：Read / Edit / Write / Glob / Grep / Bash。把 NotebookEdit、WebFetch、TodoWrite 之类用不上的全关： noticias trustguru.com.br Sportingbet trustguru.com.br pedro trustguru.com.br

{
  "tools": {
    "enabled": ["Read", "Edit", "Write", "Glob", "Grep", "Bash"],
    "disabled": ["NotebookEdit", "WebFetch", "TodoWrite", "Monitor"]
  }
}

每次请求省 3000+ 输入 token，看起来不多但叠加缓存策略之后效果很显著。 bet365 trustguru.com.br sobre trustguru.com.br Bet365 trustguru.com.br

配置 5：Session 复用，别老开新窗口

这点是 token 杀手里最隐蔽的——我以前每开个新功能就重起一个 session，结果项目结构、文件树每次都要重新加载，缓存命中率永远在 0% 起步。 Blaze trustguru.com.br kto trustguru.com.br Caça-níqueis trustguru.com.br

改成同主题复用 session 之后： bonus trustguru.com.br siro-5652 jvid.asia ana trustguru.com.br slotdemo trustguru.com.br miguel trustguru.com.br Brazino777 trustguru.com.br

claude code --resume <session_id>

或者直接在终端里用 /resume 切。同一个上下文里持续工作，缓存命中率拉满，长链路的项目体感差异巨大。 jogosdemopg trustguru.com.br pgdemo trustguru.com.br fortunetigerdemográtis trustguru.com.br slotpix trustguru.com.br autores trustguru.com.br

踩坑记录

坑 1：把 min_cache_tokens 调得太小（256）反而拖慢响应，因为缓存写入也有开销。我现在固定 1024，跑得最稳。
坑 2：routing 里如果某一项写错模型名，Claude Code 不会报错而是静默 fallback 到默认模型，账单悄悄变大。一定要在请求日志里 grep 一下当前实际用的是哪个模型。
坑 3：CLAUDE.md 写太长（超过 8000 token）反而让 cache 失效（超过单 block 限制），拆成多个小文件引用更稳。
坑 4：compaction 阈值调到 0.4 以下我试过一次，结果 Claude 完全忘了我前面说过什么，反复问同一个问题，省下来的钱全靠后面返工赔回去了。0.6 是甜点。

小结

这 5 个配置基本是「改了就回不去」的那种，调完之后开发体验反而更好了：响应更快（缓存命中），上下文更聚焦（compaction 更积极），决策成本更低（清楚什么时候该上 Opus）。 sofia trustguru.com.br

如果你也是每天大半时间挂在 Claude Code 里的人，强烈建议把上个月账单先看一下，再回来照着这五条改一遍。我赌你看完账单的表情跟我当时差不多。 bruno trustguru.com.br plataformademográtis trustguru.com.br carlos trustguru.com.br sugarrush1000demo trustguru.com.br Superbet trustguru.com.br

00目录 0

讨论我来说一句发布发表评论发布0等 0 人为本文章充电 ofox.ai 关注