作者:范晨悠
图片来源于网络
研究背景
本工作[1]发表在人工智能领域顶级期刊IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI),其影响因子高达24.314,在人工智能、计算机视觉、模式识别等多个领域的期刊中常年位居第一。本文第一作者为范晨悠博士,合作者来自深圳市人工智能与机器人研究院的胡君杰博士、研究员,通讯作者为香港中文大学(深圳)黄建伟教授。
研究文章原文链接 https://ieeexplore.ieee.org/document/10149393
本工作的研究问题为“多智能体少样本感知”, 简称FS-MAP (Few-Shot Multi-Agent Perception)。FS-MAP研究如何利用大量具有有限自主算力和通讯带宽的智能体,进行联合的环境感知任务。该任务由我们的前置工作[2]首次提出并发表在多媒体与人工智能A类会议 ACM Multimedia 2021.
本工作针对FS-MAP任务,提出一种全新的基于排序的特征学习方法,用于进一步构建具有区分度的特征空间。在该空间内,相同标签的特征距离较近,而不同标签的数据距离较远,使得模型的判别能力进一步增加,在各类多智能体少样本感知任务上取得了5-20%的性能提升。
设想在未来的校园中,校园送餐车或者警务车执行点到点的个体服务任务,首先需要在人群中识别目标个体再进行路径规划。设想一种高效的多智能体空地协同模式:1)利用多个无人机进行人脸识别,获取校园内人群动态信息;2)自动驾驶送餐车或者警务车通过发送目标人脸到多个无人机数据进行匹配,再返回相似度,从而确定目标任务的地理位置再进行路径规划。
图1 多智能体协同感知示意图
我们研究这个过程中的多智能体协同感知过程。如图1所示,查询智能体(query agent,左)通过发送自己的少样本数据特征(如单张人脸图片)到多个支持智能体(support agents,右)。支持智能体自身可以不断更新自己的人脸数据库,通过不断地飞行持续感知地面情况,更新目标的坐标和外观特征。支持智能体不断收取查询智能体的查询,通过比对自身的数据,提供相似度计算结果并返回给查询智能体。查询智能体接收所有支持智能体的返回值,并进行排序和筛选,从而最终确定目标位置,即哪一个支持智能体发现了目标。
图2 分布式度量学习框架示意图
研究方法
通过上述多智能体感知的过程,我们需要解决如下三个难点。1)查询智能体如何提取感知数据的特征并发送给支持智能体;2)分布式支持智能体如何高效地计算查询-支持数据之间的相似度;3)如何优化特征空间,使得查询和支持特征更具有区分度。以下分别介绍我们提出的解决方案。
2.1感知特征提取
我们设计一种分布式特征提取与度量学习的架构,如图2所示。对于典型的感知数据,如图像、音频频谱,我们首先通过深度神经网络对其进行编码,生成特征图(feature maps)。紧接着,我们从查询数据的特征图生成紧凑的低维度查询特征qu,用于通讯网络进行高效传输。同时,各支持智能体生成维度较大的支持数据特征kv并保留在支持智能体本地,用于和接收到的查询特征进行匹配。
2.2 基于最优传输距离的查询-支持相似度
我们在前置研究[2]中提出,为了保证对图像数据的移动、视角和旋转等变换的鲁棒性,可以将图像2D特征图空间上分成个特征区域,利用最优传输(optimal transport) 优化得出查询-支持数据各个区域之间最佳匹配,通过加权平均匹配值获得查询-支持数据整体的最优匹配值,获得更加鲁棒的相似度度量。
具体来说,首先我们计算查询特征qu的H×W个特征区域与支持特征kv的HW个区域的余弦距离,得到维度的距离(代价)矩阵Cuv。通过计算一个查询数据与所有支持数据之间的相似度,得到最优匹配的支持数据,从而赋予其对应的数据标签作为回答。
图3 基于最优传输优化的目标函数
随后,我们利用最优传输优化目标,计算得出查询-支持数据各个区域之间最佳匹配。如图-3所示,搜索一个代价最小的匹配方式P,将查询特征的各个区域匹配到支持特征各个区域。最后,通过对各区域加权求和
可以求得查询-支持数据的总体相似度。
2.3 基于排序学习的特征空间优化方法
我们在TPAMI文章[1]中进一步提出一种基于排序学习的度量学习方法。该方法基于两个优化目标:在一个完善的特征空间中,具有相同标签的两个数据特征应当距离较近,而不同标签的数据特征应当距离较远。因此,构造这样一个具有较强区分度的特征空间,可以使得模型的判别能力进一步提高。
我们设计以下学习步骤,显式地优化模型参数,来构造具有区分度的特征空间,使得对于一个标准的N-类K-样本(N-way K-shot)少样本学习问题,同一个类的 K个样本具有更高的相似度,而不同类的样本之间具有更小的相似度。等价的来说,不同类别之间应当有较远的距离,而同类别之间应当有更小的距离。
图4 最大化类间距离的任务示意图
首先我们举例说明,如何显式地最大化不同类的类间距离(maximize inter-class distance)。如图4所示,在训练时,对于查询数据Query(金毛犬),我们希望与之匹配的K(图中K=3)个样本均是同一个类别(dog),即具有较小的距离,在数轴上更靠近左边的原点。而其他类别的样本(cat)则应当与之距离较远,表现为在数轴上靠右边。图中还展示了一只橘猫(相似度=0.2)出现在top-3却与查询数据(金毛犬)类别不匹配的情况。针对不匹配的情况,我们将提出如何利用top-K排序学习来优化模型。
具体来说,我们对所有 N*K 个样本与Query的距离进行排序。我们设计一个训练损失函数,对于top-K 最小距离的样本,如果出现与Query不是同一类别的数据,则产生损失值。通过最小化训练损失,可以让模型参数更好地提取图像特征,构造更具有区分性的特征空间。我们简要阐述损失函数的设计方法。
我们根据上述公式(7),计算当前查询数据到所有支持数据的相似度,构成一个N*K的数组。随后,我们设计一种可以端到端训练的排序算法,该算法可以可导并迭代地计算当前N*K数组中 top-K 最小的值,即与查询数据最相似的K个支持数据。该方法首先构造如下代价矩阵,描述各(查询-支持)数据相似度归结为 top-K 和non-top-K 的代价,如公式(12)所示。
通过代价矩阵,我们再次使用最优传输优化,计算一个将各(查询-支持)相似度映射到top-K 和non-top-K的最优分配。如公式(17)所示:
其中优化结果 S 代表了 N*K 个支持数据中与查询数据最相似的K个数据的概率预测。通过与真实标签比对,可以得出当前模型预测的特征匹配损失。通过标准的梯度下降法,可以将损失回传给整个模型,优化模型的特征提取能力。理想情况下,当模型能够准确找出与查询特征相同的K个支持数据,该匹配损失为0,即达到最优的感知结果。
进一步的,我们提出最小化相同标签的类内距离(minimize intra-class distance)。如图5所示。根据Cat和Dog类别各自的K(图中K=3)个支持样本,我们先构造各类的中心特征。然后将查询数据与 N个类别的中心分别比较。理想情况下,top-1相似的类别应当为查询数据的真实类别,即相似度在数轴上最靠近原点。
图5 最小化类内距离的任务示意图
2.4 多目标优化
我们结合任务损失、类间距离最大化损失和类内距离最小化损失,对整个模型进行多目标优化。优化函数如下图所示。
其中各损失项的权重可以通过交叉验证来确定。
值得注意的是,我们的方法遵循中心化训练、分布式执行的原则(centralized training and decentralized execution)。因此,排序学习仅在训练过程中对模型进行优化和正则。在执行推理的时候,无需任何基于排序学习的计算开销。
研究结果
我们通过实验验证了所提方法,在图像分类、图像分割、人脸识别、音频频谱分析等人工智能目前的典型应用场景下,均大幅超越现有的方法。
图6 多智能体视频、人脸图像、音频采集示意图
在人脸识别方面,我们收集了 Celebrity of Airs数据,验证了在小样本学习设定下(5-way 1-shot/5-shot)无人机和地面的人脸识别精度为 67%/70%,我们的FS-MAP方法精度比原有方法[3,4]相对提高10-15%。在加入排序学习之后,我们的FS-MAP-Rank方法将精度进一步提升到70%/71.6%, 相对提高4.3%/3.3%。
图7 Air-Sim 少样本道路分割结果
在道路分割任务上,我们利用Airs-Sim无人机模拟数据,在道路的语义分割任务上进行验证, 在小样本学习设定下(3-way 1-shot/5-shot) 我们的FS-MAP方法精度为72.7%/78.3%,比原有方法相对提高5%左右。而加入排序学习之后,我们的FS-MAP-Rank方法精度提高为73.8%/81.3%,相对提高1.5%/3.8%。
我们进一步定性分析了所提出的类内距离、类间距离优化方法的贡献。在3-way 5-shot情形下,分别单独使用类间距离最大化或类内距离最小化,对模型性能贡献提升分别为 5.0% 和6.9%, 而同时使用两者对模型进行正则化可以获得 9.9% 的整体提升。
总结
本文提出了一种解决数据稀缺场景下的多智能体感知任务的方法。我们设计了一种查询-支持通信机制来协调多个支持智能体进行感知任务,并提出了一种细粒度的基于最优传输的度量学习方法,用于鲁棒地估算查询-支持数据的相似性。此外,我们还设计了两种基于排序的度量学习目标,用于端到端地训练模型,以建立更好的特征空间。实验结果表明,我们的方法可以显著提高多智能体感知任务的精度,在图像分类、人脸识别、语义分割和声音风格识别等任务上均取得了良好的效果。
相关论文
[1] Chenyou Fan, Junjie Hu, Jianwei Huang. "Few-Shot Multi-Agent Perception with Ranking-Based Feature Learning." IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023. https://ieeexplore.ieee.org/document/10149393.
[2] Chenyou Fan, Junjie Hu, Jianwei Huang. "Few-Shot Multi-Agent Perception." 29th ACM International Conference on Multimedia 2021 (ACM MM'21). https://dl.acm.org/doi/10.1145/3474085.3475315.
[3] Abhishek Das, Théophile Gervet, Joshua Romoff, Dhruv Batra, Devi Parikh, Mike Rabbat, and Joelle Pineau. 2019. TarMac: Targeted multi-agent communication. In ICML.
[4] Jake Snell, Kevin Swersky, and Richard Zemel. 2017. Prototypical networks for few-shot learning. In NIPS.
写在最后
我们的文章可以转载了呢~欢迎转载与转发呦
想了解更多前沿科技与资讯?
长按二维码关注我们!
欢迎点击右上方分享到朋友圈
香港中文大学(深圳)
网络通信与经济学实验室
微信号 : ncel_cuhk