现在的 AI 都是 “超级做题家”,但 ARC-AGI-3 考的是 “荒野求生”。人类天生会,AI 完全不会。
一、先讲清:这是什么测试?(ARC-AGI-3)
不是考试,是 “盲玩游戏”:150 多个全新小游戏,没规则、没教程、没目标、没提示。人类:随便来个普通人,玩几分钟就摸清规律,100% 通关。
AI(GPT-5、Gemini 3.1 等):最强的才 0.37%,基本等于 “完全玩不明白”。二、AI 为啥这么拉胯?(3 个根本原因)
1. AI 是 “死记硬背”,人类是 “从零摸索”
AI:只会套训练过的模板、统计规律。遇到完全没见过、没文字说明的环境,直接懵圈。
人类:天生会好奇、试探、观察、总结规律—— 就像婴儿玩新玩具,不用教就会。2. AI 没有 “自我反思”,错了也不知道改
人类:试错→发现不对→推翻思路→换方法→再试,天生会纠错。
AI:一条路走到黑,不会怀疑自己错了,只会无限重复无效操作。3. 评分规则:AI 最擅长的 “蛮力试错” 被直接判死刑
得分公式:(人类步数 ÷ AI 步数)²
人类 10 步搞定,AI 走 100 步:得分不是 10%,而是 (10/100)² = 1%
AI 走 500 步:得分只剩 0.04%
AI 靠算力硬试,分数直接跌到接近 0三、一句话总结差距
现在的大模型:数据喂大、指令驱动、模仿超强、只会做题。
AGI 需要:自主探索、抽象建模、自我纠错、随机应变 —— 这些人类天生有,AI 结构上就没有。
所以:AI 再强,也只是 “专用智能”;离真正的 AGI,还差着 人类和动物 那种本质差距。网友回复
开源ai大模型文件格式GGUF、MLX、Safetensors、 ONNX 有什么区别?
出海挣钱支付收款PayPal、Wise 、PingPong、Stripe如何选择?
如何实现类似google的图片隐形水印添加和识别技术?
linux上如何运行任意windows程序?
ai能写出比黑客还厉害的零日漏洞等攻击工具攻击任意软件系统工程?
js如何获取浏览器的音频上下文指纹、Canvas指纹、WebGL渲染特征?
为啥ai开始抛弃markdown文本,重新偏好html文本了?
网站有没有办法鉴别访问请求是由ai操控chrome-devtools-mcp发出的?
有没有python自动操作浏览器让网站无法鉴别是机器行为?
为啥最新由Meta / 斯坦福 / 哈佛出的ProgramBench基准GPT-5.4、Claude Opus 4.7、Gemini 3.1 Pro 等全部 0% 通过率?


