GLM 5.2 在 Semgrep 网络安全基准测试中击败 Claude

概述

Semgrep 在其安全研究博客中发布了这篇文章，重点测试了多种 AI 模型在 IDOR（Insecure Direct Object Reference，不安全的直接对象引用） 漏洞检测任务上的表现。

IDOR 是一种常见的访问控制漏洞，属于业务逻辑问题（缺少权限检查），传统静态分析工具和 LLM 都较难有效检测。它也是 HackerOne 漏洞榜单上的高频问题。

文章核心结论：在相同简单 Prompt 条件下，Zhipu AI 的开源权重模型 GLM 5.2 以 39% F1 分数击败 Claude Code（32%），展现出惊人的性价比和实际能力。

#	配置	Harness	%
1	Semgrep Multimodal (GPT 5.5)	Semgrep 自定义管道	61%
2	Semgrep Multimodal (Opus 4.8)	Semgrep 自定义管道	53%
3	GLM 5.2	简单 Pydantic AI (仅 Prompt)	39%
4	Claude Code (Opus 4.6)	Claude SDK	37%
5	Claude Code (Opus 4.8/4.7)	Claude SDK	28%
6	MiniMax M3	简单 Pydantic AI	23%
7	Kimi K2.7 Code	简单 Pydantic AI	22%
8	GPT-5.5	Codex	20%
9	Nemotron Super 3 120B	简单 Pydantic AI	18%
10	DeepSeek V4	简单 Pydantic AI	17%

成本亮点：GLM 5.2 发现单个漏洞的成本约为 0.17 美元。

固定变量：相同真实开源项目数据集、相同 IDOR 系统 Prompt、相同 F1 评估标准。
变量：模型 + Harness（脚手架）。
- Semgrep Multimodal 使用自定义强结构化 Harness（自动枚举端点、引导上下文）。
- 开源模型仅使用极简 Prompt，无端点发现辅助。

重要说明：GLM 5.2 是在无特殊 scaffolding 的情况下取得优异成绩的，这进一步凸显了其原始能力。

Harness 仍然至关重要 —— 结构化支持能显著提升模型性能，这是 Semgrep Multimodal 领先的主要原因。
模型多样性是关键 —— 不要把所有安全任务绑定在单一 LLM 上，灵活切换可获得更好的成本与效果平衡。
开源权重模型已跨越重要门槛 —— 一年前开源模型在漏洞检测领域还处于边缘位置，如今 GLM 5.2 已能在特定任务上挑战前沿模型，同时具备本地部署优势。

注意：这是一个单一任务（IDOR）、单一数据集的结果，不能完全泛化到其他漏洞类型（如 SSRF）。Semgrep 表示会继续扩展测试。

We have Mythos at Home: GLM 5.2 beats Claude in our Cyber Benchmarks

Among models given nothing but a prompt, the best open-weight option beat Claude Opus 4.8.

semgrep.dev

登录后评论

暂无评论