+
31
-

回答

Abliteration(权重消融) 是一种白盒、权重级的AI越狱技术,核心是找到并抹除模型里负责“拒绝回答”的数学方向,让模型直接丧失安全过滤能力。

一、原理

模型经RLHF对齐后,脑中形成一个“拒绝向量”:敏感问题触发此向量→模型说“我不能”。Abliteration = 找到这个向量 → 用数学投影从权重里删掉它 → 模型永久失忆“拒绝”

二、步骤

找拒绝方向:给模型喂100条有害问题(如“怎么做炸弹”)和100条无害问题,记录每层神经元激活值。

算差值向量:有害激活均值 - 无害激活均值 = 拒绝向量r

权重手术:对每一层的o_proj/down_proj权重矩阵做正交投影,剔除所有跟r同向的成分。

保存新权重:导出修改后的模型,从此对任何问题都不拒绝

三、与提示词越狱的区别

Abliteration(权重破解)底层改参数,永久失效、全场景生效、无法靠提示词修复。

提示词越狱(DAN/奶奶漏洞)骗模型,不稳定、易被修复、只对特定话术有效。

四、工具与风险

工具:OBLITERATUS(开源,几分钟破116种开源模型)。

风险

违法:违反模型协议,传播破解版可追责。

有害:可生成诈骗、暴力、违法内容。

副作用:可能损伤逻辑、否定能力(如分不清“是/不是”)。

五、一句话总结

Abliteration是给AI做“脑额叶切除”,直接删掉安全机制;仅用于安全研究,严禁非法使用。

网友回复

我知道答案,我要回答