开源项目 Heretic,该项目旨在无需昂贵的后训练即可去除基于 Transformer 的大语言模型中的内容审查机制。
Heretic 的核心特点包括:
全自动去审查:基于“定向消融”(directional ablation,也称 abliteration)技术,结合 Optuna 优化器自动搜索最优参数。
保留模型能力:通过最小化“拒绝回答率”和与原始模型输出的 KL 散度,使解禁后的模型既减少拒绝行为,又最大程度保留原有智能。易用性强:只需一行命令即可运行,例如:
pip install -U heretic-llmheretic Qwen/Qwen3-4B-Instruct-2507
支持广泛模型:兼容大多数密集型模型(包括部分多模态和 MoE 架构),但不支持状态空间模型(SSM)或层结构不一致的模型。研究友好:提供可选的 research 功能,支持残差向量分析、PaCMAP 降维可视化、拒绝方向量化等,便于可解释性研究。
https://github.com/p-e-w/heretic
网友回复
webgl与webgpu有啥不同?
Zero Trust的Tunnels怎么设置泛域名解析及http服务获取当前访问域名?
Spec Coding(规范驱动编码)和 Vibe Coding(氛围编程)有啥区别?
如何在国内服务器上正常运行未备案的域名网站?
Cloudflared 和WARP Connector有啥不同?
有没有让本地开源大模型越狱的方法或插件啥的?
如何使用Zero Trust的Tunnels技术将局域网电脑web服务可以公网访问呢?
编程领域ai大模型的排名是怎么样的?
如何修改别人发给我的微信笔记内容?
fbx、obj、glb三维格式模型如何在浏览器中通过three相互转换格式?


