搜索

+

83

-

为啥最新由Meta / 斯坦福 / 哈佛出的ProgramBench基准GPT-5.4、Claude Opus 4.7、Gemini 3.1 Pro 等全部 0% 通过率？

人工智能

为啥最新由Meta / 斯坦福 / 哈佛出的ProgramBench基准GPT-5.4、Claude Opus 4.7、Gemini 3.1 Pro 等全部 0% 通过率？不是说ai编程代码能力很强嘛，怎么不如人类，都是0%？

网友回复

+

21

-

最新的 ProgramBench 基准测试非常严格，它考察的不只是能否写出代码，而是要求代码完全正确、逻辑严密、处理所有边界情况，还要符合特定规范和执行环境。即便一点小错误，比如变量名拼错、数组越界或时间复杂度不符合要求，都会判作失败。

而 GPT-5.4、Claude Op...

点击查看剩余70%

我知道答案，我要回答

我有问题

最新提问