Andon Labs 发布的最新 Vending-Bench 2 评测显示,开源模型 GLM 5.2 成功夺得第二名。评测通过代码模拟了自动贩卖机企业为期 365 天的虚拟运营,每天向模型输入当前的库存和财务数据,并由模型调用接口进行进货、定价等决策,旨在评估大语言模型在长期任务中的决策连贯性。数据分析显示,GLM 历代版本在评测中的表现呈现出极强的线性增长趋势,平均每月利润表现提升近 1000 美元(其中 GLM 5 平均得分为 4432 美元,GLM 5.1 提升至 5634 美元)。
与 GLM 的稳定进步相比,其他主流国产模型在最新版本中表现各异。Kimi K2.7 Code 在评测中的表现较前代 Kimi K2.6 有所下滑。Minimax M3 的表现相比前代 M2.5 取得了显著提升,但整体盈利水平仍大幅落后于 Kimi 和 GLM 系列模型。
声明:本文所有内容均来源于第三方平台,币圈子对于其内容不作任何类型的保证,不构成任何投资、不对任何因使用本网站信息而导致的任何损失负责。您需谨慎使用相关数据及内容,并自行承担所带来的一切风险。