Abliteration(权重消融) 是一种白盒、权重级的AI越狱技术,核心是找到并抹除模型里负责“拒绝回答”的数学方向,让模型直接丧失安全过滤能力。
一、原理
模型经RLHF对齐后,脑中形成一个“拒绝向量”:敏感问题触发此向量→模型说“我不能”。Abliteration = 找到这个向量 → 用数学投影从权重里删掉它 → 模型永久失忆“拒绝”。
二、步骤
找拒绝方向:给模型喂100条有害问题(如“怎么做炸弹”)和100条无害问题,记录每层神经元激活值。
算差值向量:有害激活均值 - 无害激活均值 = 拒绝向量r。
权重手术:对每一层的o_proj/down_proj权重矩阵做正交投影,剔除所有跟r同向的成分。
保存新权重:导出修改后的模型,从此对任何问题都不拒绝。
三、与提示词越狱的区别
Abliteration(权重破解):底层改参数,永久失效、全场景生效、无法靠提示词修复。
提示词越狱(DAN/奶奶漏洞):骗模型,不稳定、易被修复、只对特定话术有效。
四、工具与风险
工具:OBLITERATUS(开源,几分钟破116种开源模型)。
风险:
违法:违反模型协议,传播破解版可追责。
有害:可生成诈骗、暴力、违法内容。
副作用:可能损伤逻辑、否定能力(如分不清“是/不是”)。
五、一句话总结
Abliteration是给AI做“脑额叶切除”,直接删掉安全机制;仅用于安全研究,严禁非法使用。
网友回复


