Face2QR: A Unified Framework for Aesthetic, Face-Preserving, and Scannable QR Code Generation
崔学浩,吴广阳,干正浩,翟广涛,刘笑宏 单位:上海交通大学 NeurIPS, 2024 通讯作者:刘笑宏 论文链接:https://openreview.net/forum?id=rvBabL7DUu 项目主页:https://neurips.cc/virtual/2024/poster/93410
背景
因其卓越的信息存储能力和在基础摄像设备上的便捷使用性,二维码已经成为数字时代中非常流行的数据载体。二维码不仅在商业交易、信息验证和日常沟通中扮演着关键角色,其应用范围也随着技术的不断进步而持续扩大。
随着二维码在社会中的普及,越来越多的人开始追求融入个人人脸信息的个性化设计,同时注重二维码的美观性。然而,尽管传统的二维码功能强大,但它由单一的黑白方块组成的外观往往显得过于单调,难以满足人们对个性化和美学的追求。
为了解决这一问题,上海交通大学的研究人员提出了一种专为生成个性化人脸二维码设计的全新框架Face2QR。该论文已被NeurIPS 2024接收。
传统与创新:人脸二维码的进化之路
随着二维码在各个领域的广泛应用,相关技术也在不断进步。
一方面,早期的人脸二维码生成方法主要依赖图像变换技术和风格迁移技术,虽然它们能够在一定程度上保留人脸特征,但在感知质量和美学性方面的表现仍然有限。
另一方面,基于生成模型的方法可以生成质量更高、更多样化的二维码,但在精确控制生成内容,尤其是在保留人脸特征方面,仍面临挑战。
全新Face2QR框架:人脸与美学与功能性的完美结合
Face2QR框架旨在实现人脸身份、美学设计和功能性的和谐融合,面临的挑战主要包括:
首先,如何在一个统一的流程中实现人脸身份的严格保留以及多样化定制背景风格之间的和谐平衡,传统的风格迁移方法可能导致人脸纹理不自然,而图像转换方法可能在人脸区域引入可见的伪影;
其次,如何协调人脸身份与二维码图案之间的冲突,基于生成模型的方法虽然能够控制二维码图案,但难以将图案排除在人脸区域之外,导致人脸的不自然阴影和伪影,而直接移除图案又可能导致图像无法扫描,因此需要在保持人脸的视觉质量与确保二维码的正确性之间找到平衡;
最后,如何在生成的图像中平衡美学性与功能性,采用后处理操作在增强功能性的同时可能会破坏人脸区域的自然美感。
1. 身份精细化二维码集成(IDQR)
Face2QR的第一阶段是利用身份精细化二维码集成(IDQR)模块来创建初始的二维码图像。用户可以根据自己的个性化需求,输入定制的人脸图像,二维码以及文本提示,IDQR模块将综合这些输入信息,生成一个定制化的二维码。该模块由几个关键部分组成:一个预先训练好的SDXL模型,用于处理和生成图像;一个InstantID网络,确保在生成的二维码图像中准确保留人脸身份信息;以及一个二维码控制器,负责引导图像的亮度分布。
然而,如图2所示,IDQR生成的初始输出图像存在较高的误差率,超过了43%。这一问题的根本原因在于前景人脸信息与背景二维码图案之间存在的固有冲突:在图像的中心区域,这两者是无法兼容的。
2. 身份感知二维码重排(IDRS)
在第二阶段,Face2QR框架引入了身份感知二维码重排(IDRS)模块,专门用来解决人脸身份信息与二维码图案之间的冲突。IDRS模块的职责是调解这些冲突,并通过精细化的二维码蓝图来重新生成图像,以实现更好的兼容性。
为了解决人脸区域的控制冲突,我们设计了一种新的二维码蓝图,它允许人脸信息和二维码图案和谐共存。利用二维码编码的灵活性,我们能够自适应地重新排列二维码的各个模块。具体来说,我们保持了人脸区域的亮度分布不变,同时对其余的黑白模块进行了相应的重新排列,以确保二维码的准确性和人脸特征的清晰度。
虽然IDRS模块生成的图像不仅包含了特定的二维码图案,也保持了人脸图像的特征,但是仍然无法被正常扫描。
3. ID保留扫描增强(IDSE)
在Face2QR的最终阶段,我们设计了ID保留扫描增强(IDSE)模块,旨在实现两个关键目标:首先,尽量减少对二维码图像的修改,尤其是人脸区域,以确保其功能性;其次,强化标记区域,使其与人脸区域和谐融合,同时不牺牲扫描的鲁棒性。
IDSE模块的操作流程首先从增强二维码的定位符和对齐模式开始,这些元素对于二维码的解码至关重要,确保了二维码功能区域的功能性。接着,IDSE模块会采用空间动态损失函数,通过梯度下降方法更新潜在编码,并在不同区域采用使用不同权重和不同大小的高斯核的解码器,这样既在人脸区域保持了平滑、又在背景区域实现了无损。此外,同时采用美学内容损失确保在增强过程中保留图像的视觉特征,以达到优质的定制二维码效果。
最终生成的二维码巧妙地平衡了美学质量、人脸特征和功能性,从而生成了最佳的定制人脸二维码图像。
实验数据:Face2QR的优越性能
在对比实验中,Face2QR表现出色。我们的方法与现有其他方法相比,在人脸信息的保存,二维码的美学性以及扫描稳定性方面均取得了显著的提升。在实际应用中,Face2QR向需要将人脸信息融入二维码并保持美学性和功能性的场景提供了一种理想的解决方案,展现出了广阔的应用前景。
展望未来:美学二维码的应用前景
通过提高二维码的视觉吸引力和与个人身份的联系,Face2QR有潜力使得二维码在娱乐,社交媒体,市场营销等许多领域产生革命性的用途,二维码将不仅仅是信息传输的工具,更是自我表达和体现美学价值的载体。我们也期望未来的研究能够在Face2QR的基础上继续探索我们的技术在不同技术生态下的应用与融合,进一步丰富二维码的社会价值和功能用途。
参考文献
[1] Hung-Kuo Chu, Chia-Sheng Chang, Ruen-Rone Lee, and Niloy J Mitra. Halftone QR Codes. ACM Transactions on Graphics (TOG), 32(6):1–8, 2013. [2] Russ Cox. Qartcodes. https://research.swtch.com/qart, 2012. [3] Hao Su, Jianwei Niu, Xuefeng Liu, Qingfeng Li, Ji Wan, Mingliang Xu, and Tao Ren. Artcoder: an end-to-end method for generating scanning-robust stylized qr codes. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021. [4] Guangyang Wu, Xiaohong Liu, Jun Jia, Xuehao Cui, and Guangtao Zhai. Text2qr: Harmonizing aesthetic customization and scanning robustness for text-guided qr code generation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 8456–8465, 2024.
团队介绍
刘笑宏,上海交通大学电子信息与电气工程学院助理教授、博士生导师。博士毕业于加拿大麦克马斯特大学,研究方向为计算机视觉与多媒体信息处理,现已在顶级国际会议与期刊上发表学术论文80余篇,包括CVPR、ICCV、ECCV、NeurIPS等。入选2022年上海市领军人才(海外)、2022年上海市浦江人才、2024年微软亚洲研究院铸星计划。主持国家自然科学基金青年科学基金项目、四川省自然科学基金青年科学基金项目、“交大之星”医工交叉研究基金青年项目,参与国家自然科学基金重点项目2项,还承担了国内外多家高科技公司的技术研发项目,荣获华为“火花奖”。现担任多媒体领域知名期刊ACM TOMM副主编、上海市计算机学会计算机视觉专委会副秘书长。个人主页:https://jhc.sjtu.edu.cn/~xiaohongliu/
翟广涛,上海交通大学电子信息与电气工程学院教授、博士生导师。主持承担了国家杰出青年科学基金、优秀青年科学基金项目、自然科学基金重点项目、科技部重点研发项目等课题。主要研究方向为多媒体信号处理,发表期刊论文超过300余篇,h-index为69,论文谷歌引用2万余次,多次入选全球高被引科学家。科技成果被应用于国家广播电视总局、央视、华为、阿里巴巴、腾讯、哔哩哔哩等多个单位的产品中。获得中国电子学会自然科学一等奖、中国图像图形学会技术发明一等奖。所培养的2名博士生获得中国电子学会优秀博士论文奖。任Elsevier期刊Displays主编、《中国科学:信息科学》编委、IEEE CAS VSPC/ MSA成员、中国电子学会青年科学家俱乐部副主席、中国图象图形学学会理事、上海市图像图形学学会理事长。