CSA GCR 2024 | 深度解析大模型原生安全的系统构建

文摘 2024-11-21 08:00 浙江

11月15日，第八届云安全联盟大中华区大会在北京成功举办，本次大会以"云安全·AI，迎接未来"为主题，汇聚联合国科学和技术促进发展委员会主席Muhammadou M.O. Kah、中国友谊促进会理事长陈智敏、工信部国际经济技术合作中心信息化所所长李苑、云安全联盟CEO Jim Reavis、CSA大中华区主席李雨航等来自全球的顶尖专家和行业先锋，聚焦数字化时代的技术与安全变革，探讨云安全进入3.0时代AI与云计算的融合下的安全挑战。会上，百度安全技术委员会主席包沉浮以"大模型原生安全构建之路"为题，深入剖析了大模型安全体系的系统构建。

百度安全技术委员会主席包沉浮

大模型在其训练、部署、运营等各阶段面临着不同的安全挑战，如训练数据的选择与保护、防止模型参数泄露、应对恶意输入等，需要全面的、系统的安全策略来应对。随着新技术的快速发展，其安全问题也日益凸显。包沉浮在演讲中首先强调了大模型内生安全的三大支柱：基础能力、语料安全和安全对齐。他指出，提升模型的基础能力是保障安全的根本，这一理念基于"更强大的智能往往意味着更好的安全性"的假设。在语料安全方面，通过严格的数据筛选和清洗，可以从源头降低模型产生不安全内容的风险。而安全对齐则试图通过强化学习等方式调整模型行为，使其符合预期的安全标准。这种多层次的内生安全架构为大模型的基础安全提供了重要保障。

然而，仅依靠内生安全是远远不够的。百度安全技术委员会主席包沉浮，向与会专家示例即使经过安全对齐的模型也可能存在"表面对齐"的局限性，在面对特定提示词时可能产生意想不到的输出。这种现象不仅凸显了构建更全面的原生安全体系的必要性，也反映出大模型安全问题的复杂性远超传统安全范畴。而大模型原生安全框架包含四大核心要素：内生安全、纵深防御、红蓝对抗和持续运营。即在保持内生安全基础的同时，通过纵深防御在模型外围构建多重防护屏障。这包括专门的内容安全机制、大模型防火墙系统、多模型协同以及RAG检索增强等技术手段，形成立体化的防护体系。

大模型原生安全

在纵深防御建设方面，百度特别关注对抗性攻击的防护，包括越狱攻击检测、注入攻击检测、异常输入检测等多个维度。结合多模型协同机制，系统能够针对特定场景调用专门训练的安全模型，与主模型形成分工配合，从而提升整体安全性。并基于RAG技术的引入有效解决了知识不足导致的"幻觉"等安全问题。

在红蓝对抗上，不同于传统静态的安全评估方式，转而采用动态模型红队测试。这种方法不仅包括人工红队测试，还包括自动化的安全评估和结果分析，通过持续的攻防对抗来提升系统的安全防护能力。特别值得一提的是，百度安全建立了包含文本、图像、多模态混合等多个维度的评测体系，确保安全防护的全面性。这种动态进化的安全评估方法，使得系统能够不断适应新出现的安全威胁。

在持续运营层面，百度构建了多维度的风险感知和处置机制。通过语义干预技术，系统能够及时识别和应对突发性风险；通过安全巡检，可以定期发现潜在的安全隐患；而基于设备、账号、流量等多维度信息的安全风控体系，则确保了异常行为的实时识别和处置。这种全方位的运营体系不仅提高了安全防护的效率，也增强了系统应对未知威胁的能力。

此外，百度安全的格外重视智能体应用场景下的安全问题。随着AI技术向智能体方向演进，新的安全挑战不断涌现，包括Prompt泄露、RAG检索增强生成投毒、非预期执行等新型风险。针对这些新兴威胁，百度安全开发了一系列创新性的防御措施，包括行为约束机制、权限管控体系等，为智能体应用的安全发展提供了重要保障。

百度大模型安全解决方案

随着大模型应用场景的不断拓展，相应的安全需求也将持续增长。百度安全技术委员会主席包沉浮认为，尽管大模型带来了全新的安全挑战，但传统安全领域积累的经验仍然具有重要价值，大模型安全的核心关键在于如何将传统安全理念与大模型的特点有机结合。基于这一理念，百度安全将继续深耕大模型安全领域，秉持着开放合作的理念，携手产业各方共同探索更安全、更可靠的大模型应用实践，通过技术创新和实践积累，为人工智能技术的健康发展保驾护航，构建更加全面、可靠的大模型安全防护体系。

推荐阅读

国际云安全联盟CSA

国际云安全联盟（CSA）是世界领先的中立权威的国际标准组织，创立于2009年，致力于定义和提高业界对云计算和下一代数字技术安全最佳实践的认识。CSA大中华区在中国注册备案，立足于中国，在全球范围与其他国际组织、政府、高校、企业等广泛合作。

最新文章

真体验才敢说真话：听听学员与专家眼中的CCSK v5升级价值

CSA发布 | AI组织责任：核心安全责任

使用云访问凭证蜜标及时发现入侵行为

CSA大中华区携手新华网数字联合实验室，共筑数字安全新防线

从V4到V5，CCSK将AI、零信任和数据湖融入云安全实践中

CSA发布 | 大语言模型威胁分类

小米集团 | 智联未来，人车家全生态网络安全建设实践

数据安全的变革：AI和ML如何塑造下一代数据安全工具

天桥脑科学研究院 | AI驱动的脑科学研究：数据共享、开放科学与数据安全的平衡

看阿里云、京东云、移动云、腾讯云论生成式AI在云安全的应用与风险管理

观安信息丨应对生成式AI安全挑战：技术与法律的协同之路

CSA发布 | 数据分类分级实践指南2.0

天融信丨应对云原生安全威胁：构建原子化安全模块与动态策略

成员动态 | 祝贺小米集团、为辰信安加入CSA大中华区

AI时代的自我验证：如何证明‘你’依然是‘你’

CSA大中华区重磅发布《SASE神兽方阵报告》，深信服、奇安信、网宿科技等企业入围

CSA| 全球AI大模型攻防挑战赛乌镇收官，国内十强战队亮相世界互联网大会

云安全联盟多位专家入选世界互联网大会人工智能专业委员会

携手构建网络空间命运共同体：CSA携手世界互联网大会开启第二个十年

云安全认证（CCSKv5＆ACSE）项目发布 | 完善数字安全人才培养体系

CSA GCR 2024 | 深度解析大模型原生安全的系统构建

辛顿诺奖合作者邓力：现代人工智能是一场正在发生的革命

云安全联盟大中华区主席李雨航：AI 是一个成长中的小孩

互联网之父、谷歌副总裁Vinton G. Cerf | 确保数字空间的责任

第八届云安全联盟大中华区大会成功举办，云安全·AI，迎接未来

本周五召开-CSA参会指南| 第八届云安全联盟大中华区大会北京启幕

CCSKv5云安全知识认证课程介绍

以AI鉴别技术守护数字内容真实性

威胁情报在企业安全中的关键作用：攻防新策略解析

云安全新课程（CCSKv5、ACSE）即将上线！11月15日北京发布

CDSP2.0数据安全认证专家首期班圆满收官：全面更新安全能力

CSA发布 | 医疗行业变革下的治理、风险管理与合规性策略

大模型安全挑战：全生命周期的原生构建与风险应对

探索熵增视角下的云原生安全体系：从挑战到解决方案的全面解析

大会成果抢先看 | CSA大中华区20份关键领域研究报告

CSA发布 | 2024年云计算顶级威胁Top11

CDSP认证2.0全新升级，创新技术与实战案例携手，助力数据安全有效实施

中国电信AI安全优秀实践：生成式AI崛起背后的安全挑战与应对策略

《网络数据安全管理条例》解读--数字经济发展的坚强后盾

知识体系决定组织的安全高度 | 由Meta明文存储密码被罚9100万欧元引发的对数据安全人才培养的思考

即刻参与 | 2024年云安全联盟大中华区奖项评选启动！

联合国最高级别会议—未来峰会，CSA GCR成功举办行动日边会

2024 SASE神兽方阵项目调研正式启动，迎接云网安融合新趋势

Kubernetes has its “ADCS”

数据安全认证专家CDSP1.0→2.0 技能跃升行动

CSA GCR将出席联合国未来峰会开幕式，并联合主办行动日边会

CDSP 2.0数据安全认证专家课程介绍

【丰厚奖金池】外滩大会：CSA大中华区携手学界与业界，以科技竞赛推动大模型安全发展

万象AI，安全新生！CSA大中华区参加国家网络安全宣传周活动

国家网络安全宣传周 | 首个AI安全产业图谱重磅发布

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉