2024年9月30日,在意大利米兰举办的ECCV2024数据集蒸馏挑战赛上,在白翔教授和刘禹良研究员的指导下VLRLab实验室硕士管一然,博士祝星馗等人的工作 Well Begun is Half Done: The Importance of Initialization in Dataset Distillation 获首届数据集蒸馏挑战赛亚军。并且被邀请进行海报展示和口头汇报(oral),管一然同学远程进行了汇报。
本次比赛吸引了来自华中科技大学,新加坡国立大学,南洋理工大学,北京人工智能研究院等二十多支团队参加,共6支队伍受邀进行口头汇报。
摘要
数据集蒸馏使用深度学习方法合成数据量小但信息丰富的数据集。然而,当前的方法面临的主要挑战是生成合成图像的过程非常耗时,有时会超过在原始数据集上训练所需的时间。为了应对这一挑战,我们揭示了数据集蒸馏中的初始依赖关系。我们发现,精心设计的合成数据初始化可以加快数据生成速度并提高合成集的质量。利用这一见解,我们开发了一种即插即用的方法,称为初始化改进数据集蒸馏 (IIDD)。该方法在 ECCV 2024 数据集蒸馏workshop的Tiny ImageNet性能中获得了第一名,总成绩获得了亚军,对过去的方法有通用且显著的提升。
该论文从数据集蒸馏的初始依赖关系现象入手,探究数据初始分布对蒸馏的合成集产生的影响。并使用基于贝叶斯理论的分布约束损失函数,使得合成集包含了更多的信息。在几个经典的数据集蒸馏基线任务上均有显著的性能提升。
The End
VLRLab
编辑:管一然
审核:罗琪頔