搜索

+

92

-

如何对ai大模型进行破解越狱Abliteration？

人工智能反编译安全

如何对ai大模型进行破解越狱Abliteration？

网友回复

+

26

-

Abliteration（权重消融） 是一种白盒、权重级的AI越狱技术，核心是找到并抹除模型里负责“拒绝回答”的数学方向，让模型直接丧失安全过滤能力。

一、原理

模型经RLHF对齐后，脑中形成一个“拒绝向量”：敏感问题触发此向量→模型说“我不能”。Abliteration = 找到这个向量 → 用数学投影从权重里删掉它 → 模型永久失忆“拒绝”。

二、步骤

找拒绝方向：给模型喂100条有害...

点击查看剩余70%

我知道答案，我要回答

我有问题

最新提问