+
53
-

为啥最新由Meta / 斯坦福 / 哈佛出的ProgramBench基准GPT-5.4、Claude Opus 4.7、Gemini 3.1 Pro 等全部 0% 通过率?

为啥最新由Meta / 斯坦福 / 哈佛出的ProgramBench基准GPT-5.4、Claude Opus 4.7、Gemini 3.1 Pro 等全部 0% 通过率?不是说ai编程代码能力很强嘛,怎么不如人类,都是0%?

网友回复

+
21
-

最新的 ProgramBench 基准测试非常严格,它考察的不只是能否写出代码,而是要求代码 完全正确、逻辑严密、处理所有边界情况,还要符合特定规范和执行环境。即便一点小错误,比如变量名拼错、数组越界或时间复杂度不符合要求,都会判作失败。

而 GPT-5.4、Claude Op...

点击查看剩余70%

我知道答案,我要回答