+
62
-

如何对ai大模型进行破解越狱Abliteration?

如何对ai大模型进行破解越狱Abliteration?


网友回复

+
26
-

Abliteration(权重消融) 是一种白盒、权重级的AI越狱技术,核心是找到并抹除模型里负责“拒绝回答”的数学方向,让模型直接丧失安全过滤能力。

一、原理

模型经RLHF对齐后,脑中形成一个“拒绝向量”:敏感问题触发此向量→模型说“我不能”。Abliteration = 找到这个向量 → 用数学投影从权重里删掉它 → 模型永久失忆“拒绝”

二、步骤

找拒绝方向:给模型喂100条有害...

点击查看剩余70%

我知道答案,我要回答