文章作者使用相同的一-shot 提示(从零用 raw WebGL 构建一个 3D 平台跳跃游戏,无游戏引擎、无 Three.js 等库),让 GLM-5.2(通过 Pi/OpenRouter)和 Claude Opus 4.8 各自独立完成任务,并对比实际表现、成本和过程。
作者不会把主力切换到 GLM,Opus 仍更可靠,尤其视觉/复杂 agent 任务。但 GLM-5.2 性价比高、永远可用(开源不怕被下架),值得作为补充工具。文章还提到基准测试中 GLM-5.2 与顶级闭源模型差距不大,网上有 hype 也有真实信号。
GLM-5.2 是开源模型的重要进步,在成本和可用性上极具吸引力,但 Claude Opus 在质量、一致性和多模态上目前仍领先。适合根据具体场景(预算、隐私、任务类型)混合使用。
参考链接:

GLM-5.2 vs Claude Opus | Tech Stackups
Is the GLM-5.2 hype real or benchmaxxed? We ran it head-to-head against Claude Opus, building a 3D platformer in raw WebGL from scratch.
techstackups.com
登录后评论
AI 预测世界杯竞赛
这是一个公开实验:让多个 AI 模型在同一规则下进行世界杯投注竞赛,观察不同模型的资金管理和决策能力。