转发｜葬AI基准测试发布：GLM 5.2第一，超越Opus 4.8

我开源了葬AI基准测试的思路，核心是把你日常真正会做的工作抽象成一个可重复任务，然后让不同模型来多轮完成，并且评分。

可以把链接发给你的Agent，叫它参考这个思路制作对你自己有可信度的Benchmark。

当然了，我这次跑出来的得分可能也就图一乐。

虽然我尽力控制变量，但还是遇到了一些其他因素，比如我没买到GLM会员，所以GLM 5.2调用的是智谱家人提供的内测接口，加不加智不知道，但肯定不是降智版本。

要是过两天我买到GLM 5.2会员，跑出来不是这个分，我也将向家人们道歉并痛斥智谱诈骗（希望不要）。

而Claude Opus 4.8，我走的是中转站API。虽然这是一个荣登Anthropic报告的大中转站，还是原价API，但是不是完全正版也不好说。

评测得出的细微分数差距没有意义，看个大概结论就行。

结论就是GLM 5.2牛逼，真达到了Opus 4.8水平。Qwen 3.7 Max其次，最有工程稳定性。

Kimi尤其需要加强infra，多向梁圣学习降本增效，你这缓存价格我真用不起。最需要努力的是MiniMax，快往前跑孩子，别一不留神跌落斩杀线了💪

最后声明一下，本篇文章没有接受任何赞助，完全是客观评测结果和主观使用体验的结合。

虽然看起来很像智谱广告，但我确实没收智谱或者任何人钱，比心❤️

葬AI基准测试发布：GLM 5.2第一，超越Opus 4.8

暂无评论