AAAI 2025｜腾讯优图10篇论文入选！深度伪造检测、图像编辑等研究方向

科技 2025-01-02 22:01 广东

↑ 点击蓝字关注极市平台

作者丨腾讯优图实验室

来源丨腾讯优图实验室

编辑丨极市平台

极市导读

腾讯优图实验室共有10篇论文被录用，内容涵盖大型语言模型、深度伪造检测等研究方向，展示了腾讯优图实验室在人工智能领域的技术能力和研究成果。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

近日，第39届年度AAAI国际人工智能顶级会议（AAAI Conference on Artificial Intelligence, AAAI 2025）公布了论文录取结果。AAAI 2025共收到来自全球的12957篇有效投稿，最终录用了3,032篇论文，录用率为23.4%。AAAI是中国计算机学会（CCF）推荐的A类国际学术会议，也是人工智能领域历史最悠久、涵盖内容最广泛的国际顶级学术会议之一，该会议旨在促进人工智能领域的研究与科学交流。

今年，腾讯优图实验室共有10篇论文被录用，内容涵盖大型语言模型、深度伪造检测等研究方向，展示了腾讯优图实验室在人工智能领域的技术能力和研究成果。

以下为腾讯优图实验室部分入选论文概览：

用于分层点云学习的高效 RWKV 类模型

PointRWKV: Efficient RWKV-Like Model for Hierarchical Point Cloud Learning

Qingdong He, Jiangning Zhang, Jinlong Peng, Haoyang He（浙江大学）, Xiangtai Li（南洋理工大学）, Yabiao Wang, Chengjie Wang

Transformer 彻底改变了点云学习任务，但二次复杂度阻碍了其向长序列的扩展。这给有限的计算资源带来了负担。最近出现的 RWKV 是一种新型的深度序列模型，在 NLP 任务中显示出序列建模的巨大潜力。在这项工作中，我们提出了 PointRWKV，这是一种线性复杂度的新模型，源自 NLP 领域的 RWKV 模型，具有 3D 点云学习任务的必要适应性。具体而言，以嵌入的点块作为输入，我们首先提出使用改进的多头矩阵值状态和动态注意递归机制探索 PointRWKV 块内的全局处理能力。为了同时提取局部几何特征，我们设计了一个并行分支，使用图稳定器在固定半径的近邻图中有效地对点云进行编码。此外，我们将 PointRWKV 设计为 3D 点云分层特征学习的多尺度框架，以促进各种下游任务。对不同点云学习任务进行的大量实验表明，我们提出的 PointRWKV 优于基于 transformer 和 mamba 的同类产品，同时显著节省了约 42% 的 FLOP，展示了构建基础 3D 模型的潜在选择。

论文链接：

https://hithqd.github.io/projects/PointRWKV/

通过令牌级打乱和混合探索无偏见的深度伪造检测

Exploring Unbiased Deepfake Detection via Token-Level Shuffling and MixingXinghe Fu（浙大）, Zhiyuan Yan, Taiping Yao, Shen Chen, Xi Li（浙大）

泛化问题被广泛认为是深度伪造检测任务的关键挑战。大多数先前的研究认为，泛化问题是由各种伪造方法之间的差异造成的。然而，我们的研究表明，当与伪造无关的因素发生变化时，泛化问题仍然可能发生。在这项工作中，我们确定了检测器可能过拟合的两个偏差：位置偏差和内容偏差。对于位置偏差，我们观察到检测器倾向于“惰性地”依赖于图像内的特定位置（例如中心区域）。至于内容偏差，我们认为检测器可能会错误地利用与伪造无关的信息进行检测（例如背景和头发）。为了干预这些偏差，我们提出了两个分支，用于在 transformer 的隐空间中对token进行打乱和混合。对于打乱分支，我们重新排列每个图像的标记和相应的位置嵌入，同时保持局部相关性。对于混合分支，我们在小批量内随机选择和混合具有相同标签的两个图像之间的潜在空间中的token，以重新组合内容信息。在学习过程中，我们在特征空间和预测空间中对齐来自不同分支的检测器的输出，应用特征的对比损失和预测的散度损失来获得无偏的特征表示和分类器。我们通过在广泛使用的评估数据集上进行实验验证了我们方法的有效性。

面向识别的拟真可控掌静脉生成

PVTree: Realistic and Controllable Palm Vein Generation for Recognition Tasks

Sheng Shang(合工大), Chenglong Zhao, Ruixin Zhang, Jianlong Jin(合工大), Jingyun Zhang(微信支付33号实验室), Rizen Guo(微信支付33号实验室), Shouhong Ding, Yunsheng Wu, Yang Zhao(合工大), Wei Jia(合工大)

掌静脉识别是一种新兴的生物识别技术，它提供了更高的安全性和隐私保护。然而，由于数据采集的高成本和隐私保护限制，获取足够的掌静脉数据以训练深度学习识别模型是一个挑战。这导致了对使用生成模型生成伪掌静脉数据的兴趣日益增加。然而，现有的方法往往产生不真实的掌静脉图案，或者在控制身份和风格属性方面存在困难。为了解决这些问题，我们提出了一种新的掌静脉生成框架，命名为PVTree。首先，通过使用改进的约束建设优化（CCO）算法创建的复杂且真实的3D掌血管树定义掌静脉身份。其次，通过将相同身份的3D血管树从不同角度投影到2D图像，并使用生成模型将其转换为真实图像，从而生成相同身份的掌静脉图案。因此，PVTree满足了身份一致性和类内多样性的需求。在主流公开数据集上的大量实验表明，我们提出的掌静脉生成方法优于现有方法，并在1:1开放设定下取得了更高的TAR@FAR = 1e-4。据我们所知，这是第一次训练在合成掌静脉数据上的识别模型性能超过了训练在真实数据上的识别模型的性能，这表明掌静脉图像生成研究有着光明的前景。

大模型编码提升序列推荐

LLMEmb: Large Language Model Can Be a Good Embedding Generator for Sequential Recommendation

Qidong Liu（西交）, Xian Wu, Wanyu Wang（香港城大）, Yejing Wang（香港城大）, Yuanshao Zhu（香港城大）, Xiangyu Zhao（香港城大）, Feng Tian（西交）, Yefeng Zheng（西湖大学）

在本文中，我们介绍了一种新方法LLMEmb，利用LLM生成项目嵌入，以提升SRS的性能。为了弥合通用LLM与推荐领域之间的差距，我们提出了一种监督对比微调（SCFT）方法。该方法包括属性级数据增强和定制的对比损失，使LLM更适合推荐任务。此外，我们强调了将协同信号整合到LLM生成的嵌入中的重要性，为此我们提出了推荐适应训练（RAT）。这进一步优化了嵌入，以便在SRS中达到最佳效果。

LLMEmb生成的嵌入可以无缝集成到任何SRS模型中，突显其实用价值。在三个真实世界数据集上进行的综合实验表明，LLMEmb在多个SRS模型中显著优于现有方法。

视觉语言模型重编程下的通用深度伪造检测

Standing on the Shoulders of Giants: Reprogramming Visual-Language Model for General Deepfake Detection

Kaiqing Lin（深大）, Yuzhen Lin（深大）, Weixiang Li（深大）, Taiping Yao, Bin Li（深大）

深度伪造技术的快速演进，不可避免地带来了一系列安全挑战。尽管近年来在深度伪造检测方面取得了实质性进展，但现有方法在应对来自未见过的数据集或由新兴生成模型创建的伪造图像时，其检测的泛化能力仍然受限。在本文中，考虑到视觉-语言模型（VLMs）的优秀泛化性，我们提出了一种新颖的方法，将一个训练良好的VLM迁移到通用深度伪造检测任务上。受模型重编程范式的启发，我们的方法仅通过调整输入来使用预训练的VLM模型（例如CLIP）进行深度伪造检测，而无需调整其内部参数。首先，我们使用可学习的视觉扰动来优化模型的特征提取以进行深度伪造检测。然后，我们利用人脸特征的信息创建样本级自适应文本提示，从而提高性能。在多个流行的基准数据集上进行的大量实验表明：（1）我们的方法在深度伪造检测中跨数据集和跨伪造方法的设置上可以显著地提高性能（例如，在从FF++到WildDeepfake的跨数据集设置中，模型性能AUC超过88%）；（2）我们通过较少的可训练参数实现了卓越的性能，以更为高效地方式完成模型迁移

基于预训练文生图扩散模型的能量引导优化个性化图像编辑方法

Energy-Guided Optimization for Personalized Image Editing with Pretrained Text-to-Image Diffusion Models

Rui Jiang（浙大）, Xinghe Fu（浙大）, Guangcong Zheng（浙大）, Teng Li, Taiping Yao, Xi Li（浙大）

预训练文本驱动扩散模型的快速发展极大地丰富了图像生成和编辑中的应用。然而，随着个性化内容编辑需求的增加，新的挑战也随之出现，尤其是在处理任意目标对象和复杂场景时。现有方法通常将掩码认为是对象形状先验，难以实现目标物体的无缝合成。最常用的反转噪声初始化也阻碍了对目标对象的身份一致性。为了应对这些挑战，我们提出了一种新颖的免训练框架，将个性化内容编辑建模为隐空间中对图像的能量函数优化问题，使用扩散模型作为参考文本-图像对的能量函数指导。我们提出了一种由粗到细的策略，在早期阶段采用文本能量指导实现向目标类的自然过渡，并使用点对点特征级图像能量指导与目标对象进行细粒度外观对齐。此外，我们引入了隐空间内容组合以增强与目标的整体身份一致性。大量实验表明，即使原始图像和目标差异较大，我们的方法在对象替换方面也表现出色，凸显了其在高质量、个性化图像编辑方面的潜力。

基于球面线性插值的人脸模板保护

SlerpFace: Face Template Protection via Spherical Linear Interpolation

Zhizhou Zhong （复旦）, Yuxi Mi（复旦）, Yuge Huang, Jianqing Xu, Guodong Mu, Shouhong Ding, Jingyun Zhang（微信支付33号实验室）, Rizen Guo（微信支付33号实验室）, Yunsheng Wu, Shuigeng Zhou（复旦）

当前的人脸识别系统通常需要从人脸图像中提取特征来进行注册，这些特征被称为模板。这些模板包含了用户的相关信息，因此需要通过人脸模板保护技术来隐藏存储在模板中的属性信息。本文发现了一种新的基于扩散模型的人脸模板攻击方式，该方式可以从人脸特征中恢复原始人脸图像，使得以往的人脸特征保护方案效果不佳。基于对扩散模型生成能力的特性观察，本文提出了一种通过将模板旋转到近似高斯噪声的分布来进行防御的方法，名为SlerpFace。该方法通过在模板超球面上进行线性插值来有效实现特征模板保护，并进一步将旋转后的模板的特征进行分组和应用dropout，以增强旋转模板的不可逆性。通过各类实验证明，SlerpFace在识别效率、识别准确性和保护安全性方面均优于以往的方法。

论文链接：

https://arxiv.org/abs/2407.03043

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏：多模态大模型超详细解读专栏｜搞懂Tranformer系列｜大视觉模型 (LVM) 解读｜扩散模型系列｜极市直播

技术综述：小目标检测那点事｜大模型面试八股含答案｜万字长文！人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

极市平台

为计算机视觉开发者提供全流程算法开发训练平台，以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。

ACCV 2024 | ViT涨点神器！DeBiFormer：双层路由注意力新框架

深度强化学习中SAC算法：数学原理、网络架构及其PyTorch实现

聊一聊大模型六小虎和四大厂的2024！

NeurIPS 2024 | 像素级LLM实现图像视频理解、生成、分割和编辑大统一（昆仑万维等）

AAAI'25开源 | SUTrack：简单的模型，统一全部单目标跟踪任务！

AAAI 2025｜腾讯优图10篇论文入选！深度伪造检测、图像编辑等研究方向

每月都有重磅研究，2024全年值得一读的论文都在这了

参数减少99.5%，媲美全精度FLUX！字节跳动等发布首个1.58-bit FLUX量化模型

AAAI 2025 | SparseViT：参数高效的稀疏化视觉Transformer

CUDA-MODE课程笔记｜GPU集合通信(NCCL)

DeepSeek V3获竞技场最强开源认证！与Claude 3.5 Sonnet对比实测来了

当红炸子鸡 LoRA，是当代微调 LLMs 的正确姿势？

大模型轻量化解读系列 (五)：QuaRot：基于 Rotation 的 4-bit LLM 量化

谈谈DeepSeek-v3在算力约束下的出色工作

我与vLLM的2024：清华大佬的vLLM开发之路

NeurIPS 2024 | DACER：扩散模型与在线强化学习强强联合创造新SOTA！

实践教程｜图解NumPy，这是理解数组最形象的一份教程了

谷歌劈柴立军令状：必斩OpenAI，夺回第一！

AAAI 2025 | 港大提出SparX：强化Vision Mamba和Transformer的稀疏跳跃连接机制

4比特量化三倍加速不掉点！清华即插即用的SageAttention迎来升级

AAAI 2025 | 合成数据助力自驾点云异常检测新SOTA

国产之光DeepSeek把AI大佬全炸出来了！671B大模型训练只需此前算力1/10，细节全公开

位置编码背后的理论解释——傅里叶特征 (Fourier Feature）与核回归

超越ControlNet++！腾讯优图提出动态条件选择新架构

【CUDA编程】手撸一个大模型推理框架 FasterLLaMA

写代码的时候，请心疼一下读代码的同事

文生图击败所有扩散SOTA方案！智源研究院等提出NOVA：迈向统一的多任务大模型

大模型轻量化系列解读 (四)：LLM.int8()：大语言模型 8-bit 量化初探

AAAI 2025｜多场景行人属性识别基准数据集MSP60K：57个类别和8个特定场景

MIT、OpenAI等震撼力作：AI首次自主发现人工生命！人类窥见上帝造物

深度学习工作：从追求 SoTA 到揭示新现象

[vLLM vs TensorRT-LLM] #5 动态序列长度场景对比

Meta、斯坦福等：AI的下一个前沿，正是陶哲轩说的形式化数学推理

超越YOLO11和D-FINE！DEIM：最强实时目标检测算法

超越CogVideoX-5B、Pika、Kling 和 Gen-3！苹果再发新作，视频生成大模型全面报告

使用 PyTorch 加速生成式 AI 之 GPT Fast

我在 NeurIPS’24 上感受到了焦虑和挫败

NIPS 2024 最佳论文 VAR 深度解读：下一尺度预测为何能超越扩散模型？

统一视觉理解与生成，MetaMorph模型问世，LeCun、谢赛宁、刘壮等参与

使用OpenCV测量图像中物体之间的距离

李飞飞曾入选的AI2050最新名单出炉！清华校友等25位Fellow上榜

恺明新作Fluid：文生图质量刷新纪录

低空经济万字综述｜基于深度学习的无人机检测和识别研究

刚刚，OpenAI元老级研究员Alec Radford离职，他主导了GPT-1、GPT-2的研发

首次实现8K图像生成！南洋理工&阿里&复旦提出FreeScale：让扩散模型解锁更高分辨率

大模型轻量化系列解读 (三)：LLM-QAT：无需数据的 LLM 量化感知训练

[vLLM vs TensorRT-LLM] #4 系统调度schedule比较

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉