2024年10月28日,VLRLab团队受字节跳动安全与数据部门邀请,进行基于大模型的多模态风险内容识别的汇报,分享者为团队iPad本科生管海粟,字节跳动安全与数据部门百余名员工一同参与本次会议。
在本次会议中,团队介绍了风险识别的背景知识。随着科技的不断发展,AI多人换脸、语音人脸伪造、短信网页诈骗等诈骗案件频出,严重危害公民安全,检测风险信息已经刻不容缓。目前风险信息可以分为图像伪造,音频伪造和文本网页诈骗三类。其中的图像伪造主要可以分为传统伪造和AIGC伪造两种方法。而目前的检测技术大多基于图像特征,边缘噪声等方式来实现检测,但是只能针对固定的伪造方式,泛化能力不足。而音频伪造主要分为文本语音转换,语音到语音的转换,情感伪造,场景伪造以及部分语音伪造这五个方式,而检测技术同样依赖于伪造数据的生成方式,同样具有较弱的泛化性。而关于文本网页诈骗需要生成更好的可解释性语句来提高检测的可信度。
为此我们团队构建了基于多模态风险内容识别框架defend-monkey,对于输入的图像、语音、纯文本或者是富含文字信息的图片,模型能根据不同的 instruction给出相应的判断,并输出判断理由。
具体而言,多模态大模型的整体框架如下图所示。对于图像输入,我们会进行一个输入,首先图片会通过vision encoder提取图片特征,并使用 SegForgery分割模型提取图片的mask图,并输出包含伪造区域定位信息的 position token,最后将这两部分token 与人为构造的instruction进行contact操作再输入大模型。对于语音输入,首先使用专有的语音分割模型细致地分割出语音的篡改部分,再将分割的结果,语音转成的文本的信息以及相应的instruction一同输入大模型,使得大模型能给出相应的分析。对于文本信息输入,也进行类似的操作,将文本信息转换为对应的 text token,再contact 对应的instruction,最后我们模型可以统一地对这整个信息进行整合,并输出结果。
本次汇报还介绍了模型的实验结果和一些实际例子。其中,在图像伪造和音频伪造识别任务上,Defend-monkey在众多公开数据集上都取得了最优的结果。在文本网页诈骗识别中,Defend-monkey检测的结果也优于GPT-4o mini。
实际使用中,模型不仅会判断各种输入是否存在伪造风险,还会给出判断的理由。
通讯|匡嚞玢
审核|罗琪頔