链接:https://www.bridgebench.ai/
BridgeBench 是一个专注于 AI 编码能力 的基准测试平台(AI Coding Benchmark)。它包含 130+ 个真实世界任务,覆盖算法、调试(debugging)、重构(refactoring)、代码生成、UI 生成、安全检查、创意 HTML 等多个维度。除了准确率,还会评估速度、成本、完成率、幻觉率(hallucination/fabrication) 等实际使用指标。
登录后评论
另外有一个非常热门的 issue
Claude Code 在 2026 年 2 月更新(尤其是 redact-thinking 功能)后严重退化,导致复杂工程任务中频繁忽略指令、乱改代码、虚假完成,彻底无法使用。
这使得复杂工作流基本崩溃,需要大量手动干预,效率大幅下降(中断次数激增、API 调用暴涨)。