直播预告 | 上海人工智能实验室：大语言模型安全评测与内生安全

科技 2024-12-06 12:39 北京

AI安全说第10期

嘉宾在线解读✔️

在线实时Q&A✔️

直播主题

大语言模型安全评测与内生安全

直播嘉宾

李力骏

上海人工智能实验室青年研究员

刘东瑞

上海人工智能实验室青年研究员

直播时间

2024年12月7日（周六）

20:00-21:00

观看方式

PaperWeekly视频号

PaperWeekly B站直播间

一键预约直播

▼

报告介绍

大语言模型安全基准

随着大型模型能力的日益增强，随之而来的安全风险也在不断上升，包括毒性、隐私泄露、公平性等方面的风险。

本次讲座将探讨大型模型安全基准相关的问题，介绍我们团队在该领域的研究成果。具体内容包括针对大语言模型的安全基准 SALAD-BENCH 及其评测模型，以及针对扩散模型的安全基准 T2ISafety。通过全面评估大模型的安全性，我们能够在实际应用前更好地识别潜在风险和问题，从而进行相应的改进。

大语言模型内生安全

为了应对和降低 AI 潜在风险，目前业界提升 AI 模型安全性的技术路线是获取或模拟人类价值偏好的数据对模型进行“安全对齐”, 例如 RLHF 和 DPO 等技术。然而这类方法未能真正解决 AI 风险，一方面是因为对安全对齐方法的底层机理认识不深刻，另一方面是 RLHF 等方法仅教导 AI 模型拒绝回答敏感问题，并没有从模型内部删除敏感知识。

本次报告将探讨团队在“内生安全”技术路线上的探索和最新研究成果。具体内容包括分析大语言模型安全能力的建模过程、内在神经元的冲突、表征的可靠性以及自身漏洞检查。

嘉宾介绍

刘东瑞

上海人工智能实验室青年研究员

刘东瑞，上海人工智能实验室可信安全中心青年研究员，博士毕业于上海交通大学。长期从事安全可信人工智能研究，包括大模型的可解释性、攻防、对齐和评测等。在 NeurIPs、CVPR、AAAI、ACL、T-ITS、TCSVT 等会议期刊上发表论文数十篇。曾获得 CVPR 2024 最佳论文候选奖和上海交通大学优秀博士毕业生等荣誉。

李力骏

上海人工智能实验室青年研究员

李力骏，上海人工智能实验室可信安全中心青年研究员，研究方向为大模型安全与评测、对抗攻击等，相关工作发表在 ICML, ICCV, ACL 等会议上。目前，他的研究兴趣集中于大模型安全评测与防御，包括图像、文本上的模型安全及其评测，为大模型系统的安全提供更加可靠的评测与保障。

技术交流群

扫码备注「LLM安全」

立刻加入技术交流群

一键预约直播

▼

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

最新文章

大语言模型的知识蒸馏（KD）应该用Reverse KL？

AAAI 2025 | 基于自适应图结构和动态原型对比学习的空间多组学解析框架

超越ControlNet++！腾讯优图提出动态条件选择新架构DynamicControl

北京内推 | 高通中国招聘端到端AI模型量化研发实习生

低秩近似之路（四）：插值分解（Interpolative Decomposition）

NeurIPS 2024 | 基于信息论，决策模型有了全新预训练范式统一框架

直播预告 | 香港中文大学王文轩博士：可信大模型的测试与评估

北京内推 | 微软亚洲研究院通用人工智能组招聘大模型算法实习生

GPT-4o掀起全模态热潮！一文梳理全模态大模型最新研究进展

南加大团队提出MARVEL：基于认知科学的多维抽象视觉推理基准测试

AAAI 2025 | 浙大、蚂蚁等提出全新跨域微调框架，构筑更好的大模型隐私保护

博后招募 | 复旦大学肖仰华教授课题组招聘大模型数据科学博士后研究员

今年顶会这情况。。。大家提前做准备吧！

NeurIPS 2024 | 如何缓解长文本情境下的中间信息丢失问题？

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

直播预告 | 香港中文大学王文轩博士：可信大模型的测试与评估

直播预约 | 字节跳动豆包大模型团队NeurIPS 2024中选论文今晚精讲！

北大团队提出ConsisID：基于频域分解的身份保真文本到视频生成模型

GPT-4其实根本听不懂声音？港中文、斯坦福等联合打造视觉听觉评估新基准

北京内推 | 阿里妈妈搜索广告算法团队招聘广告算法实习生

为什么说在中国做科研最忌讳踏实？

纯文本对齐就能解决多模态安全问题？上海AI Lab发布VLSBench给出否定答案

模仿、探索与自我提升：慢思考推理系统的复现之路

博士申请 | 密歇根大学计算机视觉实验室高俊老师招收3D生成方向博士生

AAAI 2025接收结果出炉！Mamba魔改再次爆发

KDD 2025 | 新大、新国大等提出ProNoG：非同配图上的提示学习

谷歌“狙击”OpenAI，发布新一代大模型Gemini 2.0！主打Agent+多模态

北京内推 | 启元实验室大模型团队招聘多模态大模型算法实习生

NeurIPS 2024 | 阿里云提出个性化提示策略IAP，突破大语言模型零样本推理局限

苹果发布视频生成大模型STIV，实现可扩展的文本与图像条件视频生成

智能体不够聪明怎么办？清华&蚂蚁团队：让它像学徒一样持续学习

博士申请 | 伊利诺伊大学香槟分校张欢老师招收人工智能全奖博士/硕士/博后/实习生

Muon优化器赏析：向量与矩阵有何本质区别？

NeurIPS 2024 | 中科院自动化所提出MetaLA！线性模型架构的大一统

田渊栋团队论文火了！连续思维链优于CoT，打开LLM推理新范式

上海内推 | 中国电信人工智能研究院招聘智能编码方向算法实习生

NeurIPS 2024 | 让模型预见分布漂移：动态系统颠覆性设计引领时域泛化新革命

北理工重磅开启「流星雨计划」，深度探究大模型的自我进化能力

博士申请 | 香港城市大学苗宁老师招收LLM Reasoning方向全奖博士/RA

简单有效！Vector Quantization的又一技巧：给编码表加一个线性变换

CIKM 2024 | 通过学习相对偏好，利用预训练语言模型缓解流行度偏差

UCL、上交大等提出自然语言强化学习范式：可处理语言反馈的强化学习框架

北京师范大学智能技术与教育应用教育部招聘工程研究中心科研助理

ACL 2024 | 多快好省！上科大提出层间KV共享的大模型高效推理新方法

上海AI Lab提出Critic-V框架：提升视觉语言模型在多模态推理中的准确性与可靠性

NeurIPS 2024 | 哈工深提出新型智能体Optimus-1，横扫Minecraft长序列任务

博士申请 | 南京大学-NTU-CMU招收人工智能方向联培博士/实习生

【内含双12福利】今年读过最绝的一本LLM书！下载量10W+！看完少走一半弯路

阿里通义实验室发布IOPO，提升LLM复杂指令遵循能力

准确性超Moshi和GLM-4-Voice！端到端语音双工模型Freeze-Omni

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉