本期为TechBeat人工智能社区第615期线上Talk。
长按识别二维码,一键预约TALK!
各种不同的越狱方式体现出大语言模型的安全机制具有相当程度的脆弱性,最近的研究发现即使是非恶意的微调也有可能让模型失去安全性。本工作通过使用剪枝(pruning)和低秩修改 (Low-Rank modification)来探究具体是模型的哪一部分对安全对齐起到了至关重要的作用。我们发现这个区域非常稀疏,只占全参数量的3%左右,从而为理解安全对齐提供了一种新的角度。
1. 背景——大语言模型攻击概述
2. 动机——为什么要寻找安全关键区域
3. 方法——如何寻找安全关键区域
4. 实验——剪枝与低秩修改
5. 结论与展望
▼
论文链接:
https://arxiv.org/2402.05162
项目名称:
Assessing the Brittleness of Safety Alignment via Pruning and Low-Rank Modifications
项目链接:
https://github.com/boyiwei/alignment-attribution-code
Talk·提问交流
▼
Talk·嘉宾介绍
魏博逸
个人主页:
https://www.techbeat.net/grzytrkj?id=41020
长按识别二维码,一键预约TALK!
-The End-
如果你也想成为讲者
▼
关于TechBeat人工智能社区
更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区