“他山之石,可以攻玉”,站在巨人的肩膀才能看得更高,走得更远。在科研的道路上,更需借助东风才能更快前行。为此,我们特别搜集整理了一些实用的代码链接,数据集,软件,编程技巧等,开辟“他山之石”专栏,助你乘风破浪,一路奋勇向前,敬请关注!
前言今年,腾讯优图实验室共有10篇论文被录用,内容涵盖大型语言模型、深度伪造检测等研究方向,展示了腾讯优图实验室在人工智能领域的技术能力和研究成果。
Transformer 彻底改变了点云学习任务,但二次复杂度阻碍了其向长序列的扩展。这给有限的计算资源带来了负担。最近出现的 RWKV 是一种新型的深度序列模型,在 NLP 任务中显示出序列建模的巨大潜力。在这项工作中,我们提出了 PointRWKV,这是一种线性复杂度的新模型,源自 NLP 领域的 RWKV 模型,具有 3D 点云学习任务的必要适应性。具体而言,以嵌入的点块作为输入,我们首先提出使用改进的多头矩阵值状态和动态注意递归机制探索 PointRWKV 块内的全局处理能力。为了同时提取局部几何特征,我们设计了一个并行分支,使用图稳定器在固定半径的近邻图中有效地对点云进行编码。此外,我们将 PointRWKV 设计为 3D 点云分层特征学习的多尺度框架,以促进各种下游任务。对不同点云学习任务进行的大量实验表明,我们提出的 PointRWKV 优于基于 transformer 和 mamba 的同类产品,同时显著节省了约 42% 的 FLOP,展示了构建基础 3D 模型的潜在选择。
论文链接:
https://hithqd.github.io/projects/PointRWKV/
Exploring Unbiased Deepfake Detection via Token-Level Shuffling and Mixing
Xinghe Fu(浙大), Zhiyuan Yan, Taiping Yao, Shen Chen, Xi Li(浙大)
泛化问题被广泛认为是深度伪造检测任务的关键挑战。大多数先前的研究认为,泛化问题是由各种伪造方法之间的差异造成的。然而,我们的研究表明,当与伪造无关的因素发生变化时,泛化问题仍然可能发生。在这项工作中,我们确定了检测器可能过拟合的两个偏差:位置偏差和内容偏差。对于位置偏差,我们观察到检测器倾向于“惰性地”依赖于图像内的特定位置(例如中心区域)。至于内容偏差,我们认为检测器可能会错误地利用与伪造无关的信息进行检测(例如背景和头发)。为了干预这些偏差,我们提出了两个分支,用于在 transformer 的隐空间中对token进行打乱和混合。对于打乱分支,我们重新排列每个图像的标记和相应的位置嵌入,同时保持局部相关性。对于混合分支,我们在小批量内随机选择和混合具有相同标签的两个图像之间的潜在空间中的token,以重新组合内容信息。在学习过程中,我们在特征空间和预测空间中对齐来自不同分支的检测器的输出,应用特征的对比损失和预测的散度损失来获得无偏的特征表示和分类器。我们通过在广泛使用的评估数据集上进行实验验证了我们方法的有效性。
掌静脉识别是一种新兴的生物识别技术,它提供了更高的安全性和隐私保护。然而,由于数据采集的高成本和隐私保护限制,获取足够的掌静脉数据以训练深度学习识别模型是一个挑战。这导致了对使用生成模型生成伪掌静脉数据的兴趣日益增加。然而,现有的方法往往产生不真实的掌静脉图案,或者在控制身份和风格属性方面存在困难。为了解决这些问题,我们提出了一种新的掌静脉生成框架,命名为PVTree。首先,通过使用改进的约束建设优化(CCO)算法创建的复杂且真实的3D掌血管树定义掌静脉身份。其次,通过将相同身份的3D血管树从不同角度投影到2D图像,并使用生成模型将其转换为真实图像,从而生成相同身份的掌静脉图案。因此,PVTree满足了身份一致性和类内多样性的需求。在主流公开数据集上的大量实验表明,我们提出的掌静脉生成方法优于现有方法,并在1:1开放设定下取得了更高的TAR@FAR = 1e-4。据我们所知,这是第一次训练在合成掌静脉数据上的识别模型性能超过了训练在真实数据上的识别模型的性能,这表明掌静脉图像生成研究有着光明的前景。
基于预训练文生图扩散模型的能量引导优化个性化图像编辑方法
预训练文本驱动扩散模型的快速发展极大地丰富了图像生成和编辑中的应用。然而,随着个性化内容编辑需求的增加,新的挑战也随之出现,尤其是在处理任意目标对象和复杂场景时。现有方法通常将掩码认为是对象形状先验,难以实现目标物体的无缝合成。最常用的反转噪声初始化也阻碍了对目标对象的身份一致性。为了应对这些挑战,我们提出了一种新颖的免训练框架,将个性化内容编辑建模为隐空间中对图像的能量函数优化问题,使用扩散模型作为参考文本-图像对的能量函数指导。我们提出了一种由粗到细的策略,在早期阶段采用文本能量指导实现向目标类的自然过渡,并使用点对点特征级图像能量指导与目标对象进行细粒度外观对齐。此外,我们引入了隐空间内容组合以增强与目标的整体身份一致性。大量实验表明,即使原始图像和目标差异较大,我们的方法在对象替换方面也表现出色,凸显了其在高质量、个性化图像编辑方面的潜力。
基于球面线性插值的人脸模板保护
Zhizhou Zhong (复旦), Yuxi Mi(复旦), Yuge Huang, Jianqing Xu, Guodong Mu, Shouhong Ding, Jingyun Zhang(微信支付33号实验室), Rizen Guo(微信支付33号实验室), Yunsheng Wu, Shuigeng Zhou(复旦)
当前的人脸识别系统通常需要从人脸图像中提取特征来进行注册,这些特征被称为模板。这些模板包含了用户的相关信息,因此需要通过人脸模板保护技术来隐藏存储在模板中的属性信息。本文发现了一种新的基于扩散模型的人脸模板攻击方式,该方式可以从人脸特征中恢复原始人脸图像,使得以往的人脸特征保护方案效果不佳。基于对扩散模型生成能力的特性观察,本文提出了一种通过将模板旋转到近似高斯噪声的分布来进行防御的方法,名为SlerpFace。该方法通过在模板超球面上进行线性插值来有效实现特征模板保护,并进一步将旋转后的模板的特征进行分组和应用dropout,以增强旋转模板的不可逆性。通过各类实验证明,SlerpFace在识别效率、识别准确性和保护安全性方面均优于以往的方法。
本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。
收藏,分享、在看,给个三连击呗!