直播预告 | 上海人工智能实验室:大语言模型安全评测与内生安全

科技   2024-12-06 12:39   北京  





 AI安全说 第10期 


嘉宾在线解读✔️

在线实时Q&A✔️


 直播主题 


大语言模型安全评测与内生安全

 直播嘉宾 


李力骏
上海人工智能实验室青年研究员


刘东瑞
上海人工智能实验室青年研究员

 直播时间 


2024年12月7日(周六)
20:00-21:00

 观看方式 


PaperWeekly视频号
PaperWeekly B站直播间


一键预约直播




 报告介绍 


01

大语言模型安全基准

随着大型模型能力的日益增强,随之而来的安全风险也在不断上升,包括毒性、隐私泄露、公平性等方面的风险。


本次讲座将探讨大型模型安全基准相关的问题,介绍我们团队在该领域的研究成果。具体内容包括针对大语言模型的安全基准 SALAD-BENCH 及其评测模型,以及针对扩散模型的安全基准 T2ISafety。通过全面评估大模型的安全性,我们能够在实际应用前更好地识别潜在风险和问题,从而进行相应的改进。



02

大语言模型内生安全

为了应对和降低 AI 潜在风险,目前业界提升 AI 模型安全性的技术路线是获取或模拟人类价值偏好的数据对模型进行“安全对齐”, 例如 RLHF 和 DPO 等技术。然而这类方法未能真正解决 AI 风险,一方面是因为对安全对齐方法的底层机理认识不深刻,另一方面是 RLHF 等方法仅教导 AI 模型拒绝回答敏感问题,并没有从模型内部删除敏感知识。


本次报告将探讨团队在“内生安全”技术路线上的探索和最新研究成果。具体内容包括分析大语言模型安全能力的建模过程、内在神经元的冲突、表征的可靠性以及自身漏洞检查。



 嘉宾介绍 

刘东瑞

上海人工智能实验室青年研究员

刘东瑞,上海人工智能实验室可信安全中心青年研究员,博士毕业于上海交通大学。长期从事安全可信人工智能研究,包括大模型的可解释性、攻防、对齐和评测等。在 NeurIPs、CVPR、AAAI、ACL、T-ITS、TCSVT 等会议期刊上发表论文数十篇。曾获得 CVPR 2024 最佳论文候选奖和上海交通大学优秀博士毕业生等荣誉。


李力骏

上海人工智能实验室青年研究员

李力骏,上海人工智能实验室可信安全中心青年研究员,研究方向为大模型安全与评测、对抗攻击等,相关工作发表在 ICML, ICCV, ACL 等会议上。目前,他的研究兴趣集中于大模型安全评测与防御,包括图像、文本上的模型安全及其评测,为大模型系统的安全提供更加可靠的评测与保障。


技术交流群

扫码备注「LLM安全」

立刻加入技术交流群


一键预约直播


🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
 最新文章