全球顶尖大模型这么强,为啥AGI 测试集体溃败 人类满分 AI 最高仅 0.37%?
网友回复
现在的 AI 都是 “超级做题家”,但 ARC-AGI-3 考的是 “荒野求生”。人类天生会,AI 完全不会。
一、先讲清:这是什么测试?(ARC-AGI-3)
不是考试,是 “盲玩游戏”:150 多个全新小游戏,没规则、没教程、没目标、没提示。人类:随便来个普通人,玩几分钟就摸清规律,100% 通关。
AI(GPT-5、Gemini 3.1 等):最强的才 0.37%,基本等于 “完全玩不明白”。二、AI 为啥这么拉胯?(3 个根本原因)
...
点击查看剩余70%
ai能写出比黑客还厉害的零日漏洞等攻击工具攻击任意软件系统工程?
js如何获取浏览器的音频上下文指纹、Canvas指纹、WebGL渲染特征?
为啥ai开始抛弃markdown文本,重新偏好html文本了?
网站有没有办法鉴别访问请求是由ai操控chrome-devtools-mcp发出的?
有没有python自动操作浏览器让网站无法鉴别是机器行为?
为啥最新由Meta / 斯坦福 / 哈佛出的ProgramBench基准GPT-5.4、Claude Opus 4.7、Gemini 3.1 Pro 等全部 0% 通过率?
有没有免费的api查询域名是否完成icp工信部备案?
codex用HyperFrames与 Remotion自动做视频那个更好?
claude code中Skill MCP CLI SubAgent Hooks Plugin区别?
浏览器webrtc点对点通讯如何才能走系统代理?


