我开源了葬AI基准测试的思路,核心是把你日常真正会做的工作抽象成一个可重复任务,然后让不同模型来多轮完成,并且评分。
https://github.com/FrichXi/personal-work-benchmark
可以把链接发给你的Agent,叫它参考这个思路制作对你自己有可信度的Benchmark。
当然了,我这次跑出来的得分可能也就图一乐。
虽然我尽力控制变量,但还是遇到了一些其他因素,比如我没买到GLM会员,所以GLM 5.2调用的是智谱家人提供的内测接口,加不加智不知道,但肯定不是降智版本。
要是过两天我买到GLM 5.2会员,跑出来不是这个分,我也将向家人们道歉并痛斥智谱诈骗(希望不要)。
而Claude Opus 4.8,我走的是中转站API。虽然这是一个荣登Anthropic报告的大中转站,还是原价API,但是不是完全正版也不好说。
评测得出的细微分数差距没有意义,看个大概结论就行。
结论就是GLM 5.2牛逼,真达到了Opus 4.8水平。Qwen 3.7 Max其次,最有工程稳定性。
Kimi尤其需要加强infra,多向梁圣学习降本增效,你这缓存价格我真用不起。最需要努力的是MiniMax,快往前跑孩子,别一不留神跌落斩杀线了💪
最后声明一下,本篇文章没有接受任何赞助,完全是客观评测结果和主观使用体验的结合。
虽然看起来很像智谱广告,但我确实没收智谱或者任何人钱,比心❤️

葬AI基准测试发布:GLM 5.2第一,超越Opus 4.8
不是广告,真没收钱
mp.weixin.qq.com
登录后评论