现在的 AI 都是 “超级做题家”,但 ARC-AGI-3 考的是 “荒野求生”。人类天生会,AI 完全不会。
一、先讲清:这是什么测试?(ARC-AGI-3)
不是考试,是 “盲玩游戏”:150 多个全新小游戏,没规则、没教程、没目标、没提示。人类:随便来个普通人,玩几分钟就摸清规律,100% 通关。
AI(GPT-5、Gemini 3.1 等):最强的才 0.37%,基本等于 “完全玩不明白”。二、AI 为啥这么拉胯?(3 个根本原因)
1. AI 是 “死记硬背”,人类是 “从零摸索”
AI:只会套训练过的模板、统计规律。遇到完全没见过、没文字说明的环境,直接懵圈。
人类:天生会好奇、试探、观察、总结规律—— 就像婴儿玩新玩具,不用教就会。2. AI 没有 “自我反思”,错了也不知道改
人类:试错→发现不对→推翻思路→换方法→再试,天生会纠错。
AI:一条路走到黑,不会怀疑自己错了,只会无限重复无效操作。3. 评分规则:AI 最擅长的 “蛮力试错” 被直接判死刑
得分公式:(人类步数 ÷ AI 步数)²
人类 10 步搞定,AI 走 100 步:得分不是 10%,而是 (10/100)² = 1%
AI 走 500 步:得分只剩 0.04%
AI 靠算力硬试,分数直接跌到接近 0三、一句话总结差距
现在的大模型:数据喂大、指令驱动、模仿超强、只会做题。
AGI 需要:自主探索、抽象建模、自我纠错、随机应变 —— 这些人类天生有,AI 结构上就没有。
所以:AI 再强,也只是 “专用智能”;离真正的 AGI,还差着 人类和动物 那种本质差距。网友回复


