- 顶级编码性能:SWE-Bench Pro达58.4%,超越GLM-5(55.1%)、GPT-5.4(57.7%)等多款顶尖模型;在NL2Repo和Terminal-Bench 2.0上也显著领先。
- 长时程优化能力:在数百至上千次迭代中持续提升性能(如VectorDBBench达21.5k QPS,KernelBench实现3.6×加速),而GLM-5易早早 plateau。
- 强Agent持久性:支持8小时以上复杂真实任务(如自主构建Linux桌面并迭代完善功能),展现出色自我评估与长周期精炼能力
→ https://z.ai/blog/glm-5.1