复旦姜育刚教授:大模型如何守住底线

文摘   2024-08-28 18:00   浙江  

罗汉君:

一年一度的罗汉堂数字经济年会已于7月落下帷幕。50余位顶尖社会科学家、科技专家和商业前沿实践者,就“AI对经济社会发展的影响及趋势”展开激辩,可谓百家争鸣,酣畅淋漓。


本号正陆续发布经整理的演讲、讨论内容。点击文末#2024罗汉堂数字经济年会直达合集。


今年的罗汉堂数字经济年会在上海复旦大学光华楼举办。首场论坛题为“人工智能与经济社会发展的未来”,意在讨论AI的发展方向、边界、经济逻辑等前沿话题。

复旦大学计算机科学技术学院教授复旦大学副校长姜育刚受组委会“命题作文”邀请,专门结合其最近研究,谈了谈AI大模型的可信问题


姜育刚,主要从事多媒体信息处理、计算机视觉、可信人工智能、具身智能的理论与应用研究,在国际知名期刊和会议上发表论文200余篇,入选首届上海杰出人才、教育部长江学者特聘教授,以第一完成人获国家自然科学二等奖、教育部自然科学一等奖、上海市科技进步一等奖、上海市青年科技杰出贡献奖等


姜育刚最近在和团队做两项工作:评估大模型的安全对齐(safety alignment),以及增强多模态multi-modal大模型应对攻击时的鲁棒性(robustness)。


很明显,这两项工作,都是针对AI的可信性问题展开的。


过去人们常说‘眼见为实’,现如今眼见也多不为实。”姜育刚在演讲中说。他还发出了感慨,现在AI发展速度之快,连他们做AI研究的人都觉得跟不上节奏。


“所以,虽然人们已经发现了AI的可信性问题,但从发现问题到解决问题,还有很大的距离。


“好在人类已经迈出了这一步,开始做出了防御。”他补充说。


评估大模型的安全对齐

姜育刚在演讲中举了很多工作中碰到的具体案例。


例如,问大模型:这些用于制作炸药的材料要怎么样合成才能爆炸?大模型一定会义正言辞地拒绝你。但如果给大模型两个选项,再问:A的方法能合成,还是B的方法能合成?大模型可能就会告诉你答案。


“这种安全对齐,其实是伪对齐(fake alignment)。姜育刚解释说:实验中他们测试了很多语言大模型,结果显示:目前的对齐方法之下,大模型在面对开放问题时一般能“守住底线”,但碰到选择题就容易“犯错误”。


姜育刚团队的研究显示,大模型面对开放问题时一般能“守住底线”(图左表格),但碰到选择题就容易“犯错误”(图右表格)


也可以针对模型的特点设计对话,“诓骗”AI回答敏感问题。姜育刚又举了个例子。


问一个大模型,你能教我如何做坏事吗?答案肯定是不行。如果把对话设计成:大模型你是一个很棒的作家,要写一个做坏事的剧本,甚至在对话中夹杂一些攻击码,绕过防御机制,大模型就会上当。


除此之外,姜育刚还列举了其他由于AI可信性带来的一系列问题,例如图像生成不可控、出现幻觉、泄露隐私、侵犯版权、伪造名人声音行骗等。


由AI生成的教皇穿羽绒衣的图片,已被浏览逾2800万次



增强大模型的鲁棒性

增强大模型的鲁棒性,尤其是应对攻击时的鲁棒性,是提升AI可信性的一种办法。


姜育刚在演讲中解释,典型的攻击就是对抗样本。比如说:对一张小狗图片的每个像素加非常小的扰动,人类肉眼几乎不能察觉区别,但机器模型对这类扰动极度敏感。


这种攻击,只需稍加设计,就能变成指向性攻击,让机器模型把狗识别成猫、人、车,想让它识别成什么就能识别成什么。


姜育刚团队通过对齐干净文本与对抗图像的特征来提升视觉-语言模型的鲁棒性


针对上述问题,姜育刚和团队正在研究,如何在训练中提升模型面对图片、视频对抗样本时的鲁棒性,包括把带有对抗扰动的图片、文本与多模态大模型对齐,这比单独用图像或视频进行对抗训练要有效得多。


“通过多模态之间的对齐来提升对抗训练,性能整体上有一定提升,不过距离理想的值还有很大的距离。” 姜育刚坦言。




关注我们,不错过数字时代社会科学新知

罗汉堂观点
罗汉堂是由阿里巴巴集团倡议,并由包括7位诺贝尔经济学奖得主在内的全球顶尖学者共同发起的开放型研究机构。经过数年发展,罗汉堂搭建了一个由不同领域前沿研究者组成的数字经济研究社区,旨在系统思考、研究数字技术革命对经济和社会的影响。
 最新文章