Gemini 3 Flash在代理任务测试中表现领先

第三方机构PinchBench发布的基准测试结果显示,Google Gemini 3 Flash在OpenClaw代理任务中的处理成功率高达95.1%,成为当前表现最优的AI大语言模型。该测试聚焦于模型在复杂任务场景下的自主决策与执行能力,反映其在真实应用环境中的综合表现。

多模型竞争激烈,排名差距微小

紧随其后的是minimax-m2.1与kimi-k2.5,成功率为93.6%与93.4%,两者之间仅相差0.2个百分点,显示出国内及国际主流模型在任务执行效率上的高度接近。Claude Sonnet 4.5以92.7%的成绩位列第四,而GPT-4o则以85.2%的成绩排在末位,反映出不同模型在特定任务路径规划与上下文理解上的差异。