Semgrep 在其安全研究博客中发布了这篇文章,重点测试了多种 AI 模型在 IDOR(Insecure Direct Object Reference,不安全的直接对象引用) 漏洞检测任务上的表现。
IDOR 是一种常见的访问控制漏洞,属于业务逻辑问题(缺少权限检查),传统静态分析工具和 LLM 都较难有效检测。它也是 HackerOne 漏洞榜单上的高频问题。
文章核心结论:在相同简单 Prompt 条件下,Zhipu AI 的开源权重模型 GLM 5.2 以 39% F1 分数击败 Claude Code(32%),展现出惊人的性价比和实际能力。
| # | 配置 | Harness | % |
|---|---|---|---|
| 1 | Semgrep Multimodal (GPT 5.5) | Semgrep 自定义管道 | 61% |
| 2 | Semgrep Multimodal (Opus 4.8) | Semgrep 自定义管道 | 53% |
| 3 | GLM 5.2 | 简单 Pydantic AI (仅 Prompt) | 39% |
| 4 | Claude Code (Opus 4.6) | Claude SDK | 37% |
| 5 | Claude Code (Opus 4.8/4.7) | Claude SDK | 28% |
| 6 | MiniMax M3 | 简单 Pydantic AI | 23% |
| 7 | Kimi K2.7 Code | 简单 Pydantic AI | 22% |
| 8 | GPT-5.5 | Codex | 20% |
| 9 | Nemotron Super 3 120B | 简单 Pydantic AI | 18% |
| 10 | DeepSeek V4 | 简单 Pydantic AI | 17% |
成本亮点:GLM 5.2 发现单个漏洞的成本约为 0.17 美元。
重要说明:GLM 5.2 是在无特殊 scaffolding 的情况下取得优异成绩的,这进一步凸显了其原始能力。
注意:这是一个单一任务(IDOR)、单一数据集的结果,不能完全泛化到其他漏洞类型(如 SSRF)。Semgrep 表示会继续扩展测试。

We have Mythos at Home: GLM 5.2 beats Claude in our Cyber Benchmarks
Among models given nothing but a prompt, the best open-weight option beat Claude Opus 4.8.
semgrep.dev
登录后评论