搜索

回答

Abliteration（权重消融） 是一种白盒、权重级的AI越狱技术，核心是找到并抹除模型里负责“拒绝回答”的数学方向，让模型直接丧失安全过滤能力。

一、原理

模型经RLHF对齐后，脑中形成一个“拒绝向量”：敏感问题触发此向量→模型说“我不能”。Abliteration = 找到这个向量 → 用数学投影从权重里删掉它 → 模型永久失忆“拒绝”。

二、步骤

找拒绝方向：给模型喂100条有害问题（如“怎么做炸弹”）和100条无害问题，记录每层神经元激活值。

算差值向量：有害激活均值 - 无害激活均值 = 拒绝向量r。

权重手术：对每一层的o_proj/down_proj权重矩阵做正交投影，剔除所有跟r同向的成分。

保存新权重：导出修改后的模型，从此对任何问题都不拒绝。

三、与提示词越狱的区别

Abliteration（权重破解）：底层改参数，永久失效、全场景生效、无法靠提示词修复。

提示词越狱（DAN/奶奶漏洞）：骗模型，不稳定、易被修复、只对特定话术有效。

四、工具与风险

工具：OBLITERATUS（开源，几分钟破116种开源模型）。

风险：

违法：违反模型协议，传播破解版可追责。

有害：可生成诈骗、暴力、违法内容。

副作用：可能损伤逻辑、否定能力（如分不清“是/不是”）。

五、一句话总结

Abliteration是给AI做“脑额叶切除”，直接删掉安全机制；仅用于安全研究，严禁非法使用。

网友回复

我知道答案，我要回答

我有问题