报告介绍
01
大语言模型安全基准
随着大型模型能力的日益增强,随之而来的安全风险也在不断上升,包括毒性、隐私泄露、公平性等方面的风险。
本次讲座将探讨大型模型安全基准相关的问题,介绍我们团队在该领域的研究成果。具体内容包括针对大语言模型的安全基准 SALAD-BENCH 及其评测模型,以及针对扩散模型的安全基准 T2ISafety。通过全面评估大模型的安全性,我们能够在实际应用前更好地识别潜在风险和问题,从而进行相应的改进。
02
大语言模型内生安全
为了应对和降低 AI 潜在风险,目前业界提升 AI 模型安全性的技术路线是获取或模拟人类价值偏好的数据对模型进行“安全对齐”, 例如 RLHF 和 DPO 等技术。然而这类方法未能真正解决 AI 风险,一方面是因为对安全对齐方法的底层机理认识不深刻,另一方面是 RLHF 等方法仅教导 AI 模型拒绝回答敏感问题,并没有从模型内部删除敏感知识。
本次报告将探讨团队在“内生安全”技术路线上的探索和最新研究成果。具体内容包括分析大语言模型安全能力的建模过程、内在神经元的冲突、表征的可靠性以及自身漏洞检查。
刘东瑞
上海人工智能实验室青年研究员
李力骏
上海人工智能实验室青年研究员
扫码备注「LLM安全」
一键预约直播
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧