最近,Meta AI 和加州大学圣地亚哥分校一起想出了个新办法叫 Deep Think with Confidence(DeepConf),专门用来提高 AI 答题的正确率。
简单来说,它就像给 AI 装了个 “靠谱度检测器”,答题时能实时判断答案靠不靠谱,把不靠谱的答案扔掉,靠谱的答案重点参考,又快又准。
一、怎么判断答案靠不靠谱AI 答题时,每写一个字心里都有个 “底气值”。比如它特别确定答案时,这个值就高;拿不准的时候,值就低。这是最基础的判断标准。
但 DeepConf 还会从整体分析。它会像滑动取景框一样,看看一段话里的平均 “底气值”,快速判断这段话靠不靠谱。而且最后几句话尤其关键,因为答案往往在结尾。要是答题过程中有一步明显错得离谱,那这条答题思路基本就废了。把这些因素综合起来,就能算出每条答题思路的 “靠谱总分”。
二、根据靠谱程度优化答案
(一)全部答完再筛选(离线推理模式)当 AI 把所有可能的答案都写出来后,DeepConf 用两个办法选出最靠谱的答案:按靠谱程度投票:以前投票选答案,不管答案靠不靠谱,权重都一样。现在不同了,靠谱的答案在投票时话语权更大,不靠谱的答案就算跟别人选一样,影响力也很小。就像投票选班长,大家肯定更信得过平时成绩好又负责的同学。筛选优质答案:
只留前 10%:直接把最靠谱的 10% 答案留下来,这样能保证答案质量特别高。但如果 AI 对错误答案过于自信,可能会把错的也留下。
淘汰最差 10%:保留 90% 靠谱的答案,淘汰最差的 10%。这种方法既能保留多种思路,又能保证答案靠谱,更稳定实用。
(二)边答题边筛选(在线推理模式)
这个方法能让 AI 在答题过程中,及时发现不靠谱的思路并停止,避免浪费时间:
提前摸底:遇到新问题时,先快速生成 16 条答案,算出其中最不靠谱的 “底线分数”,再根据设定好的比例(比如保留 10% 或 90%)确定停止标准。动态筛选:在大量生成答案时,每写 2048 个字就检查一次 “靠谱度”。如果低于标准,就立刻放弃这条思路。而且每当完成一条答案,就看看目前所有答案里,有没有 95% 以上都达成共识的,如果有,就直接交卷给出答案。
在 AIME 2025 的测试里,DeepConf 效果特别好。用 GPT - OSS - 120B 模型测试时,全部答完再筛选的方法,正确率从 97% 提升到了 99.9%;边答题边筛选的方法,在少写 85% 字的情况下,正确率还能达到 97.9%。经过多个模型和测试题验证,DeepConf 不仅让 AI 答题正确率平均提高了 10%,还节省了大量时间和资源,真正做到了又快又准。
网友回复