本期为TechBeat人工智能社区第647期线上Talk。
长按识别二维码,一键预约TALK!
本次分享将探讨如何弥合这一差距。我们首次探索了如何在互联网级别的图像-文本对数据上进行对抗训练,并通过引入一种高效的二阶段训练策略,使其计算成本可控。我们的模型在此前的标准视觉鲁棒性测试基准RobustBench上取得了SOTA结果。
进一步研究表明,这一方法还可以拓展到CLIP和LLaVA等大视觉-语言模型上,相比于原始的CLIP和LLaVA模型,能以较小的性能损失,极大地提升模型在零样本识别和视觉问答等场景对对抗攻击的鲁棒性。
2. 大规模视觉对抗训练:从1M ImageNet 有标注图像数据到1B DataComp 互联网图像-文本对
3. 从纯视觉模型到视觉语言模型:Delta-CLIP和Delta-LLaVA模型
4. 技术总结
Talk·预习资料
▼
论文链接:
https://arxiv.org/abs/2305.07017
项目主页:
https://github.com/UCSC-VLAA/CLIPA
论文链接:
https://arxiv.org/abs/2401.04727
项目主页:
https://github.com/UCSC-VLAA/AdvXL
Talk·提问交流
▼
Talk·嘉宾介绍
王泽宇
个人主页:
https://www.techbeat.net/grzytrkj?id=42920
长按识别二维码,一键预约TALK!
-The End-
如果你也想成为讲者
▼
关于TechBeat人工智能社区
更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区