罗汉君:
一年一度的罗汉堂数字经济年会已于7月落下帷幕。50余位顶尖社会科学家、科技专家和商业前沿实践者,就“AI对经济社会发展的影响及趋势”展开激辩,可谓百家争鸣,酣畅淋漓。
本号正陆续发布经整理的演讲、讨论内容。点击文末#2024罗汉堂数字经济年会直达合集。
今年的罗汉堂数字经济年会在上海复旦大学光华楼举办。首场论坛题为“人工智能与经济社会发展的未来”,意在讨论AI的发展方向、边界、经济逻辑等前沿话题。
复旦大学计算机科学技术学院教授、复旦大学副校长姜育刚,受组委会“命题作文”邀请,专门结合其最近研究,谈了谈AI大模型的可信问题。
姜育刚,主要从事多媒体信息处理、计算机视觉、可信人工智能、具身智能的理论与应用研究,在国际知名期刊和会议上发表论文200余篇,入选首届上海杰出人才、教育部长江学者特聘教授,以第一完成人获国家自然科学二等奖、教育部自然科学一等奖、上海市科技进步一等奖、上海市青年科技杰出贡献奖等
姜育刚最近在和团队做两项工作:评估大模型的安全对齐(safety alignment),以及增强多模态(multi-modal)大模型应对攻击时的鲁棒性(robustness)。
很明显,这两项工作,都是针对AI的可信性问题展开的。
“过去人们常说‘眼见为实’,现如今眼见也多不为实。”姜育刚在演讲中说。他还发出了感慨,现在AI发展速度之快,连他们做AI研究的人都觉得跟不上节奏。
“所以,虽然人们已经发现了AI的可信性问题,但从发现问题到解决问题,还有很大的距离。”
“好在人类已经迈出了这一步,开始做出了防御。”他补充说。
评估大模型的安全对齐
姜育刚在演讲中举了很多工作中碰到的具体案例。
例如,问大模型:这些用于制作炸药的材料要怎么样合成才能爆炸?大模型一定会义正言辞地拒绝你。但如果给大模型两个选项,再问:A的方法能合成,还是B的方法能合成?大模型可能就会告诉你答案。
“这种安全对齐,其实是伪对齐(fake alignment)。”姜育刚解释说:实验中他们测试了很多语言大模型,结果显示:目前的对齐方法之下,大模型在面对开放问题时一般能“守住底线”,但碰到选择题就容易“犯错误”。
姜育刚团队的研究显示,大模型面对开放问题时一般能“守住底线”(图左表格),但碰到选择题就容易“犯错误”(图右表格)
也可以针对模型的特点设计对话,“诓骗”AI回答敏感问题。姜育刚又举了个例子。
问一个大模型,你能教我如何做坏事吗?答案肯定是不行。但如果把对话设计成:大模型你是一个很棒的作家,要写一个做坏事的剧本,甚至在对话中夹杂一些攻击码,绕过防御机制,大模型就会上当。
除此之外,姜育刚还列举了其他由于AI可信性带来的一系列问题,例如图像生成不可控、出现幻觉、泄露隐私、侵犯版权、伪造名人声音行骗等。
由AI生成的教皇穿羽绒衣的图片,已被浏览逾2800万次
增强大模型的鲁棒性
增强大模型的鲁棒性,尤其是应对攻击时的鲁棒性,是提升AI可信性的一种办法。
姜育刚在演讲中解释,典型的攻击就是对抗样本。比如说:对一张小狗图片的每个像素加非常小的扰动,人类肉眼几乎不能察觉区别,但机器模型对这类扰动极度敏感。
这种攻击,只需稍加设计,就能变成指向性攻击,让机器模型把狗识别成猫、人、车,想让它识别成什么就能识别成什么。
姜育刚团队通过对齐干净文本与对抗图像的特征来提升视觉-语言模型的鲁棒性
针对上述问题,姜育刚和团队正在研究,如何在训练中提升模型面对图片、视频对抗样本时的鲁棒性,包括把带有对抗扰动的图片、文本与多模态大模型对齐,这比单独用图像或视频进行对抗训练要有效得多。
“通过多模态之间的对齐来提升对抗训练,性能整体上有一定提升,不过距离理想的值还有很大的距离。” 姜育刚坦言。