蚂蚁集团20篇论文入选全球AI顶会NeurIPS2024

企业   2024-12-11 12:23   浙江  


当地时间12月10日-15日,全球AI顶级会议 NeurIPS(神经信息处理系统大会)在加拿大温哥华举办,这一顶会涵盖了机器学习、深度学习、神经网络等多个研究方向。


官方数据显示,NeurIPS 2024共收到15671篇有效论文投稿。投稿量创新高,论文录取率为25.8%,相比去年略有下降。


蚂蚁集团共有20篇论文被NeurIPS 2024收录,其中一篇为Spotlight。NeurIPS的Spotlight论文录取率约为3%



以下为部分论文解读。




MKGL: Mastery of a Three-Word Language / MKGL:掌握一门三元组构成的语言

论文来源:蚂蚁集团联合实验室


论文链接:

https://openreview.net/attachment?id=eqMNwXvOqn&name=pdf


Paper类型:Spotlight


涉及领域:

大型语言模型、知识图谱、图谱补全


论文摘要:

大型语言模型(LLMs)在一系列自然语言处理(NLP)任务中取得了显著的性能提升。然而,它们在知识图谱(KGs)中的应用——即以三元组的形式描述事实并允许最小化幻觉——仍然是一个未被充分探索的领域。在本文中,我们通过引入一种专门的知识图谱语言(KGL),研究了LLMs与KGs的整合。在这种语言中,一个句子由一个实体名词、一个关系动词和另一个实体名词组成。尽管KGL的词汇对LLM来说是陌生的,我们通过定制的词典和示例句子来促进其学习,并通过实时知识图谱上下文检索和KGL词嵌入增强来提高上下文理解。我们在知识图谱补全的实验结果表明,与传统的KG嵌入方法相比,我们的方法错误率大幅降低。此外,我们增强的LLM在从初始实体生成准确的三字句子以及解释知识图谱中未见过的新术语方面表现出色。    





Collaborative Refining for Learning from Inaccurate Labels / 噪声标签下的协同精炼学习框架


论文来源:蚂蚁集团独立完成


论文链接:

https://openreview.net/pdf?id=RQQGbBqvbL


Paper类型:Poster


涉及领域:

机器学习、弱监督学习、噪声标签学习


论文摘要:

深度学习在多个应用领域取得了显著成就,其成功的关键在于高质量的数据集。然而,在工业环境中,获取准确标签往往成本高昂且耗时。作为替代,许多银行和公司会使用一些低成本的自动标注工具,例如规则等方式来进行标注,这样的标注往往是不够准确的。而如何从这些标注工具提供的不准确标签中学习,是一个需要解决的问题。大多数相关工作忽视了数据精炼的重要性。虽然一些方法注意到了数据精炼,但它们仅采用small-loss准则来筛选噪声样本,精炼并不是它们的核心贡献。我们认为,在训练过程中精炼出精炼相对干净的数据集是关键,可以减轻对模型设计的要求并提高模型性能。为此,我们提出了一个名为协同精炼学习(CRL)的新框架,利用多标注者一致性信息来评估标签的可靠性。对于标签存在不一致的样本,基于理论推导,我们提出了一种标签精炼方法(LRD),通过借助多个标签对应的损失值来识别最可靠的标签;对于标签都一致的样本,基于理论指导,我们设计了一种鲁棒样本选择方法(RUS),借助多个子模型的判断选择可信样本。实验结果表明,我们的框架在基准和真实世界数据集上均表现出色,并且与大多数现有方法兼容。




AMOR: A Recipe for Building Adaptable Modular Knowledge Agents Through Process Feedback / AMOR: 可适应的知识智能体构建方法


论文来源:校企合作


论文链接:

https://openreview.net/forum?id=jImXgQEmX3


Paper类型:Poster


涉及领域:

问答、知识推理、大模型智能体


论文摘要:

本研究提出了一个能够利用事实知识或领域知识进行生成的知识智能体。它在有限状态机之上构建与外部知识库交互的推理逻辑,通过自主执行不同的模块以及在模块间的转移来解决用户提出的开放问题。这使得用户可以向各个模块提供直接反馈,从而自然地形成了过程监督。基于这一推理和反馈框架,本研究通过两阶段微调来训练该智能体的基座语言模型:预热和适应。前者使用从多个公开数据集自动构建的样例来对语言模型进行微调,使得该智能体能够泛化到不同的知识环境中,而后者则利用过程反馈将该智能体适配到特定的知识环境。在多个领域的广泛实验表明,该智能体相较于强大的基线模型在知识正确性上具有显著优势。





Exploring Fixed Point in Image Editing: Theoretical Support and Convergence Optimization / 图像编辑中的固定点探索:理论支持与收敛优化


论文来源:蚂蚁集团定向专项合作


论文链接:

https://neurips.cc/virtual/2024/poster/96785


Paper类型:Poster


涉及领域:图像增强与生成


论文摘要:

在图像编辑中,去噪扩散隐式模型(DDIM)反演已成为一种广泛采用的方法,并在各种图像编辑方法中得到了广泛应用。


DDIM反演的核心概念源于DDIM的确定性采样技术,这使得DDIM过程可以被视为一种可逆的常微分方程(ODE)过程。这使得可以根据参考图像预测相应的噪声,从而确保从该噪声恢复的图像与参考图像保持一致。图像编辑利用这个特性,通过修改文本与图像之间的交叉注意力,来编辑特定对象,同时保留其余区域。然而,在DDIM反演中,利用t - 1时间步来近似时间步t的噪声预测,会导致恢复图像与参考图像之间的误差。最近的方法将DDIM反演过程的每一步建模为寻找隐式函数的固定点问题。这种方法显著减少了恢复图像中的误差,但缺乏有关此类固定点存在性理论支持。


因此,本文着重研究DDIM反演中的固定点,并提供理论支持。基于获得的理论见解,我们进一步优化了原始DDIM反演中的损失函数,以促进固定点的收敛,从而改善编辑图像的视觉质量。最后,我们将基于固定点的图像编辑扩展到无监督图像去雾的应用,提出了一种新颖的基于文本的无监督去雾方法。




DeepITE: Designing Variational Graph Autoencoders for Intervention Target Estimation / DeepITE: 面向干预目标估计的变分图自编码器


论文来源:蚂蚁集团独立完成


论文链接:

https://openreview.net/pdf?id=GMsi9966DR


Paper类型:Poster


涉及领域:因果推断


论文摘要:

干预目标估计(ITE)对于复杂系统的理解和决策至关重要,但仍未得到充分探索。当前的ITE方法存在无法从不同的干预实例和标记数据中学习的缺陷,这使得需要对因果图中产生的微小数据变化或改变而重新估计干预目标,从而导致效率低下。


在本文中,我们提出了DeepITE,一个基于变分图自动编码器的新深度学习框架。DeepITE可以同时从具有不同干预目标和因果图的无标记和有标记数据中学习,并以自监督或半监督的方式利用相关信息。该模型的推理能力允许有效识别未见样本和新因果图上的干预目标,从而避免重新训练。大量的实验表明,DeepITE不仅在Recall@k指标上超越了13种基线方法,而且还具备快速的推理能力,尤其是在大图上。此外,结合少量标记数据(5-10%)可大大增强DeepITE的性能,进一步巩固其实际适用性。




End-to-end Learnable Clustering for Intent Learning in Recommendation / 基于端到端可学聚类的意图学习


论文来源:蚂蚁集团独立完成 


论文链接:

https://openreview.net/pdf?id=As91fJvY9E


Paper类型:Poster


涉及领域:

推荐算法、意图学习、聚类算法


论文摘要:

意图学习近年来已成为热门研究领域,旨在更好地进行用户理解和商品推荐。然而,现有的方法(EM)存在复杂繁琐的交替优化问题,限制了性能和可扩展性。为此,我们提出了一种新的意图学习方法,称为ELCRec,通过将行为表示学习统一到端到端可学习的聚类框架中,实现了高效的推荐。具体来说,我们对用户行为序列进行编码,并将聚类中心(潜在意图)初始化为可学习的神经元。然后,我们设计了一个新颖的可学习聚类模块,以分离不同的聚类中心,从而解耦用户的复杂意图。同时,模型通过迫使行为表征接近聚类中心引导网络从行为中学习意图,该算法使得可以通过小批量数据同时优化推荐和聚类。此外,我们提出了基于意图辅助的对比学习,利用聚类中心作为自监督信号,进一步增强了两者的相互促进。实验结果和理论分析从六个方面证明了ELCRec的优越性。与次优的模型相比,ELCRec在Beauty数据集上提高了8.9%NDCG@5,减少了22.5%的计算成本。此外,由于其可扩展性和通用适用性,我们将这种方法部署在具有1.3亿 pv 的工业推荐系统上,并取得了预期结果。





Identify Then Recommend: Towards Unsupervised Group Recommendation / 无监督群组推荐:先识别再推荐


论文来源:蚂蚁集团独立完成


论文链接:

https://openreview.net/pdf?id=oTZYhOAMhX


Paper类型:Poster


涉及领域:

推荐算法、意图学习、聚类算法


论文摘要:

群体推荐(GR),旨在向用户群组推荐物品,已成为推荐系统的一个有前景和实用的方向。本文指出了当前最先进的GR模型存在的两个问题:

(1)预先定义和固定的用户群数量不足以应对实时工业推荐系统,其中群组分布可能动态变化;

(2)现有GR方法的训练方案是有监督的,需要昂贵的用户-群组和群组-物品标签,导致显著的标注成本。


为此,我们提出了一种名为"先识别再推荐"(ITR)的新型无监督群体推荐框架,该框架首先以无监督的方式识别用户群,即没有预定义的群组数量,然后设计了两个预处理任务来进行自监督群体推荐。具体而言,在群组识别阶段,我们首先估计每个用户点的自适应密度,其中密度较高的区域更有可能被识别为群组中心。然后,设计了一种启发式的合并和分割策略来发现用户群和决策边界。随后,在自监督学习阶段,提出了拉力和排斥预处理任务来优化用户-群组分布。


此外,还设计了伪群组推荐预处理任务来辅助推荐。广泛的实验表明,ITR在用户推荐(例如,NDCG@5↑22.22%)和群组推荐(例如,NDCG@5↑22.95%)方面都表现出优越性和有效性。




Nimbus: Secure and Efficient Two-Party Inference for Transformers / Nimbus: 面向Transformer模型的安全高效两方隐私推理框架


论文来源:蚂蚁集团研究型实习生


论文链接:

https://openreview.net/pdf?id=G7QS68ICPJ


Paper类型:Poster


涉及领域:大模型、密态加速


论文摘要:

Transformer神经网络在各领域上展现出了惊人的效果,也是最热门大模型的结构基础,在众多任务上有潜在的实际应用。为了解决伴随而来的隐私问题,本论文提出了新的两方隐私推理框架Nimbus,为 Transformer神经网络中线性层的矩阵乘法及非线性层的激活函数提出了针对性的加速。


Nimbus基于Secretflow-SPU框架实现了Transformer模型的两方密态推理。我们在不同尺寸的Transformer网络以及不同输入句长上进行了大量实验。在保持模型精度不变的前提下,Nimbus相比于最新的工作BumbleBee(NDSS 2024)可以实现2.7到4.7倍的加速。其中,矩阵乘法的加速更加显著,为2.9到12.5倍;激活函数的加速为2.9到4.0倍。




Fine-Grained Dynamic Framework for Bias-Variance Joint Optimization on Data Missing Not at Random / 非随机缺失数据下偏差-方差联合优化的细粒度动态框架


论文来源:蚂蚁集团独立完成


论文链接:

https://openreview.net/pdf?id=gLoe70Tn8V


Paper类型:Poster


涉及领域:

推荐系统、在线广告、因果推断


论文摘要:

在诸如推荐系统、展示广告等实际应用中,所收集到的数据往往包含缺失值,并且这些缺失值通常是非随机缺失的,这会在模型训练中引入样本选择偏差。一些现有的估计器和正则化器试图实现方差较小的无偏估计以提升模型的预测性能。然而,当倾向分数趋于零时,这些方法的方差和泛化误差通常是无界的,从而损害了模型的稳定性和鲁棒性。


在本文中,我们首先从理论上揭示了正则化技术的局限性。此外,从理论层面揭示了,对于广义形式的估计器,其无偏性必然会导致方差和泛化误差的无界。这些定理启示我们,预估模型的设计并非仅仅关乎消除偏差、减小方差或者简单地实现偏差-方差的权衡。我们从一个全新的视角重新审视对于非随机缺失数据预估建模的本质——偏差和方差的定量联合优化。网商银行智能营销团队提出细粒度动态学习框架来联合优化偏差和方差,该框架能够依据预先定义的目标函数为每个用户-商品对自适应地选择合适的估计器。通过这种操作,可以实现模型泛化误差的最小化,并从理论层面保证了预测模型方差和泛化误差的有界性,进一步提高模型在随机缺失数据上的泛化能力。




Rethinking Memory and Communication Costs for Efficient Large Language Model Training / 

 重新审视显存和通信成本对大语言模型高效数据并行训练的影响


论文来源:蚂蚁集团独立完成


论文链接:

https://openreview.net/pdf?id=gLoe70Tn8V


Paper类型: Poster


涉及领域:

大语言模型,分布式训练,性能优化


论文摘要:

论文摘要:近期涌现出了很多用于大语言模型(LLMs)分布式训练的优化策略。可以将这些策略分类为基础策略和复合策略,通过详细的分析我们发现现有的基础策略提供的选项有限,在某些场景下训练速度上存在较大的优化空间。本文重新思考了在采用数据并行技术时,显存和通信成本对LLM训练速度的影响。我们考虑了组内和组间通信性能差异的影响,并提出了一组新的基础策略——部分冗余优化器(PaRO)。



其中PaRO 数据并行(PaRO-DP)通过更精细的分片策略以适配不同的训练场景,加速了LLM的训练。



此外,PaRO 集合通信(PaRO-CC)通过重新排列拓扑结构,提升了集合通信的速度。



我们还提出了一种基于简单定量计算选择不同数据并行策略的指南,该方法能够最小化排序错误。


实验结果表明,PaRO在LLM的一些训练场景下速度比ZeRO-3最快提高到266%。此外,PaRO-CC也可以单独使用在模型并行策略中(如Megatron),能获得17%的训练速度提升。



十一


Accelerating Pre-training of Multimodal LLMs via Chain-of-Sight / 通过视觉链加速多模态大模型预训练


论文来源:校企合作


论文链接:

https://openreview.net/pdf?id=KHcB1drMRX


Paper类型:Poster


涉及领域:

多模态大模型,多尺度视觉特征,训练加速


论文摘要:

本文提出Chain-of-Sight将视觉多尺度层次的概念引入到多模态大模型中,从而加速多模态大模型的训练。Chain-of-Sight采用一系列视觉重采样器,能够在不同空间尺度上捕捉视觉细节。这种架构不仅有效地利用了全局和局部的视觉上下文,还通过复合令牌扩展(Compound token scaling)策略促进了视觉令牌的灵活扩展,使得预训练后视觉令牌数量可增加高达16倍。


因此,Chain-of-Sight在预训练阶段所需的视觉令牌显著少于微调阶段。这种在预训练过程中有意减少视觉令牌的做法显著加快了预训练过程,将实际训练时间缩短了约73%。在一系列视觉-语言基准测试上的实验证明,通过Chain-of-Sight进行的预训练加速是在不牺牲性能的情况下实现的,其性能匹配或超过了在整个训练过程中始终使用所有视觉令牌的标准流程。进一步增加预训练中的视觉令牌数量可以带来更强的性能,在一系列基准测试中与现有方法具有竞争力。




十二


Referencing Where to Focus: Improving Visual Grounding with Referential Query / 通过优化查询改善视觉定位能力


论文来源:蚂蚁集团研究型实习生


论文链接:

https://openreview.net/pdf/4ee331051d6635715c830b6da249a25520489f44.pdf


Paper类型:Poster


涉及领域:多模态视觉定位


论文摘要:

视觉定位旨在根据自然语言描述在图像中定位目标对象。近年来,基于DETR的视觉定位方法取得了显著进展,吸引了广泛关注。这些方法无需依赖诸如预生成的候选框或预定义的锚框等额外步骤,直接预测目标对象的坐标。然而,现有研究主要集中于设计更强大的多模态解码器,这些解码器通常通过随机初始化或使用语言嵌入生成可学习查询。 这种原始的查询生成方法在解码开始时未包含任何目标相关信息,不可避免地增加了模型的学习难度。此外,它们在查询学习过程中仅使用最深层的图像特征,忽略了其他层次特征的重要性。


为了解决这些问题,我们提出了一种名为RefFormer的新方法。RefFormer包括一个查询适配模块,可以无缝集成到CLIP 中,用于生成引用查询,为解码器提供先验上下文,同时配备一个任务特定的解码器。通过将引用查询引入解码器,我们能够有效缓解解码器的学习难度,并准确聚焦于目标对象。此外,我们提出的查询适配模块还可以作为适配器,在不调整主干网络参数的情况下,保留CLIP中丰富的知识。 大量实验表明,我们的方法在五个视觉定位基准上优于现有最先进方法,同时具有高效性和优越性。



基于DETR的方法与我们提出的视觉定位方法对比。

 (a) 现有方法通常直接将随机初始化的查询输入解码器,用于预测目标对象。

(b) 我们引入了查询适配模块(QA),逐步学习与目标相关的上下文,为解码器提供有价值的先验知识。

 (c) 分别展示了每个Q模块和解码器最后一层的注意力图。



十三


DomainGallery: Few-shot Domain-driven Image Generation by Attribute-centric Finetuning / 基于属性中心微调的少样本领域驱动图像生成


论文来源:校企合作


论文链接:

https://openreview.net/pdf/4420bc032c629beaa3ba3ef4ac5fedfc964bac7d.pdf


Paper类型:Poster


涉及领域:图像生成


论文摘要:

近年来,基于大规模数据集预训练的文本到图像模型取得了显著进展,使我们只需提供描述需求的文本提示即可生成各种图像。然而,当我们希望生成属于特定领域的图像时(这一领域可能难以描述或在模型中未曾见过),这些模型的适用性仍然受到限制。在这项工作中,我们提出了DomainGallery,一种基于少样本领域驱动的图像生成方法,其核心是在少量目标数据集上以属性为中心的方式微调预训练的Stable Diffusion模型。


具体而言,DomainGallery包括了先验属性消除、属性解耦、正则化以及增强功能。这些技术针对少样本领域驱动生成的关键问题进行了优化,解决了以往研究未能解决的难题。我们通过大量实验验证了 DomainGallery在多种领域驱动生成场景中的卓越性能。



十四


A Layer-Wise Natural Gradient Optimizer for Training Deep Neural Networks / 一种用于训练深度神经网络的层次自然梯度优化器


论文来源:蚂蚁集团独立完成


论文链接:

https://openreview.net/pdf/4e9a309d32add1feb680de166d83ef130bbc0ada.pdf


Paper类型:Poster


涉及领域:深度神经网络优化器


论文摘要:

二阶优化算法,如牛顿方法和自然梯度下降(NGD)方法在训练深度神经网络时表现出优异的收敛性,但计算成本高限制了其实际应用价值。本文重点关注NGD方法,提出了一种新颖的分层自然梯度下降(LNGD)方法,以进一步降低计算成本并加速训练过程。


基于对Fisher信息矩阵的块对角线近似,我们首先提出了分层采样方法,在不执行完整反向传播的情况下计算每个块矩阵。然后,每个块矩阵被近似为两个较小矩阵的Kronecker积,其中一个是对角矩阵,同时保持近似前后的迹相等。通过这两个步骤,我们为Fisher信息矩阵提供了一种新的近似方法,这样不仅可以有效降低计算成本,同时可以保留每个块矩阵的主要信息。


此外,我们还提出了一种新的自适应分层学习率,以进一步加速训练。最后,基于一些假设,我们建立了LNGD的全局收敛性分析。在图像分类和机器翻译任务上丰富的实验表明,我们的方法可以达到SOTA的性能。




十五


On provable privacy vulnerabilities of graph representations / 图表征的可证明隐私脆弱性


论文来源:校企合作


论文链接:

https://openreview.net/pdf?id=LSqDcfX3xU


Paper类型:Poster


涉及领域:图神经网络,隐私保护


论文摘要:

图表示学习(Graph Representation Learning)是建模关系型数据的一种重要手段。在图表示学习的应用中,最常用的工具之一是节点表征(Node embedding)。


节点表征在融合了关系型数据信息的同时,也不免会导致一部分属于隐私数据的信息简介暴露在节点表征中,形成潜在的边隐私(edge privacy)泄漏风险。本文就这一潜在风险进行了理论度量:通过对于一类简单且有效的边信息推断算法SERA的非渐近分析(non-asymptotic analysis),本文证实了在稀疏随机图(sparse random graph)下边信息在线性图神经网络表征下可证脆弱(即>在足够大的图上能够被接近完全反推)。此外,本文进一步讨论了SERA算法在稠密图上的性能上限,以及防御机制随机扰动聚合(Noisy aggregation)的理论与实际性能。




十六


PSL: Rethinking and Improving Softmax Loss from Pairwise Perspective for Recommendation / PSL:从成对比较的角度重新思考和改进Softmax损失在推荐系统中的应用


论文来源:校企合作


论文链接:

https://openreview.net/pdf?id=PhjnK9KWOx


Paper类型:Poster


涉及领域:

AI,数据挖掘,推荐系统


论文摘要:

Softmax损失(SL)被广泛应用于推荐系统(RS)并展现出了有效性。本研究从成对比较的角度分析SL,揭示了两个显著的局限性:

1)SL与传统排序指标如DCG之间的关系不够紧密;

2)SL对假阴性实例高度敏感。我们的分析表明,这些局限性主要是由于使用了指数函数。


为了解决这些问题,本研究将SL扩展为一类新的损失函数,称为成对Softmax损失(PSL),它用其他合适的激活函数替代SL中的指数函数。尽管修改很小,但我们强调PSL有三个优点:


1) 使用合适的激活函数,它可以更紧密地作为DCG的代理;

2) 它能更好地平衡数据的贡献;

3) 它作为一种通过分布鲁棒优化(DRO)增强的特定BPR损失。我们还通过实验证明了PSL的有效性和鲁棒性。



十七


LLMDFA: Analyzing Dataflow in Code with Large Language Models /  LLMDFA: 基于大语言模型的代码数据流分析


论文来源:校企合作


论文链接:

https://openreview.net/pdf?id=QZ2d8E8Whu


Paper类型:Poster


涉及领域:

机器学习应用, 推理任务, 代码分析


论文摘要:

随着生成式人工智能技术的迅猛发展,编程行为的重点正从代码编写逐渐转向分析和验证代码的正确性。传统程序分析技术,例如基于抽象解释、数据流分析和符号执行等理论框架的经典算法,在实践中通常面临适用性差和定制化难度高的挑战。如图 1 所示,这些方法大多依赖编译器生成的中间表示(如 C/C++ 分析中的 LLVM IR),限制了传统技术在开发阶段尚未编译的代码上的适用性,从而导致分析流程滞后。此外,实际场景中的多样化分析需求,使得程序分析技术的可定制性成为一个关键要求。然而,基于编译过程的分析通常需要深入理解编译器及其中间表示,这大幅提高了定制化分析的门槛。


图一: 传统基于编译的程序分析


图二: 基于 LLM 的程序分析


我们观察到大语言模型(LLM)具备一定的程序语义理解能力,因此尝试探索一种新的程序分析模式。如图2所示,我们计划通过在prompt中提供待分析的代码和程序分析需求,利用prompt engineering技术引导LLM输出高质量的分析结果。


本研究聚焦于一种特殊的源-汇不可达数据流问题,能够有效支持空指针解引用(NPD)、除零错误(DBZ)以及一系列污点类缺陷(taint vulnerability)等漏洞检测任务。由于LLM固有的幻觉现象(Hallucination),在长代码中检测复杂形式的缺陷容易引发不可接受的漏报和误报。为缓解幻觉现象,我们尝试将长段代码上的复杂属性分析转化为多个短代码上的简单属性分析。进一步地,我们借鉴传统数据流分析中基于摘要的跨函数分析算法的思想,将分析问题分解为图 3 所示的三个子问题:

(1) 源-汇的抽取,

(2) 数据流摘要生成,

(3) 路径可达性判定。


与直接面向整个程序的分析相比,分解后的子问题更为简单易解。基于这一核心思路,我们提出了一种基于 LLM 的数据流分析技术LLMDFA。


图三: LLMDFA 的工作流程


为进一步缓解和解决每个子问题中的幻觉现象,我们采用 LLM 生成程序代码的方式,调用代码语法解析库(tree-sitter)和 SMT solver Z3 的 API 接口,分别识别代码中的源-汇关系并编码路径条件。通过将问题规约为程序合成问题,LLMDFA 在现有工具(如代码语法解析库和 SMT solver Z3)的基础上,自治地合成了新的工具(源-汇抽取器和路径条件验证器),从而有效缓解了第一阶段和第三阶段中的幻觉现象。


同时,LLMDFA在第二阶段应用了few-shot chain-of-thought prompting策略,大幅提高了函数内数据流分析的精度和召回率。LLMDFA在Juliet Test Suite和TaintBench对Android恶意应用程序的分析中,表现出了与传统基于编译的程序分析技术相当甚至更优的效果。


具体而言,LLMDFA在Juliet Test Suite中针对除零缺陷、OS命令注入以及跨站攻击三类缺陷的检测,以及在TaintBench的定制化污点分析中,达到了87.10%的精度和80.77%的召回率。特别地,在TaintBench的分析结果的F1 score比已有传统程序分析技术高出0.12。


由于prompting的时间和token开销限制,目前LLMDFA尚无法支持大规模软件的全程序分析,但在局部模块上进行定制化分析等特定问题中展现了明显的优势。相信随着模型推理速度的提升,LLMDFA的分析效率也将进一步提高。同时,一个重要研究方向是在现有基础设施的基础上,改进和扩展LLMDFA,使其能够应用于大规模程序分析任务,从而实现仓库级别的程序分析。



十八


LotCLIP: Improving Language-Image Pre-training for Long Text Understanding


论文来源:蚂蚁集团研究型实习生


Paper类型:Poster


论文摘要:

Understanding long text is of great demands in practice but beyond the reach of most language-image pre-training (LIP) models. In this work, we empirically confirm that the key reason causing such an issue is that the training images are usually paired with short captions, leaving certain tokens easily overshadowed by salient tokens. Towards this problem, our initial attempt is to relabel the data with long captions, however, directly learning with which may lead to performance degradation in understanding short text (e.g., in the image classification task). Then, after incorporating corner tokens to aggregate diverse textual information, we manage to help the model catch up to its original level of short text understanding yet greatly enhance its capability of long text understanding. We further look into whether the model can continuously benefit from longer captions and notice a clear trade-off between the performance and the efficiency. Finally, we validate the effectiveness of our approach using a self-constructed large-scale dataset, which consists of 100M long caption oriented text-image pairs. It is noteworthy that, on the task of long-text image retrieval, we beat the competitor using long captions with 11.1% improvement (i.e., from 72.62% to 83.72%). The project page is available here.



十九


UKnow: A Unified Knowledge Protocol with Multimodal Knowledge Graph Datasets for Reasoning and Vision-Language Pre-Training


论文来源:校企合作


论文链接:

https://arxiv.org/pdf/2302.06891v4


Paper类型:Poster


论文摘要:

This work presents a unified knowledge protocol, called UKnow, which facilitates knowledge-based studies from the perspective of data. Particularly focusing on visual and linguistic modalities, we categorize data knowledge into five unit types, namely, in-image, in-text, cross-image, cross-text, and image-text, and set up an efficient pipeline to help construct the multimodal knowledge graph from any data collection. Thanks to the logical information naturally contained in knowledge graph, organizing datasets under UKnow format opens up more possibilities of data usage compared to the commonly used image-text pairs. Following UKnow protocol, we collect, from public international news, a large-scale multimodal knowledge graph dataset that consists of 1,388,568 nodes (with 571,791 vision-related ones) and 3,673,817 triplets. The dataset is also annotated with rich event tags, including 11 coarse labels and 9,185 fine labels. Experiments on 4 benchmarks demonstrate the potential of UKnow in supporting common-sense reasoning and boosting vision-language pre-training with a single dataset, benefiting from its unified form of knowledge organization. See Appendix Ato download the dataset.



二十


Zero-shot Image Editing with Reference Imitation


论文来源:校企合作


论文链接:

https://openreview.net/pdf?id=LZV0U6UHb6


Paper类型:Poster


论文摘要:

Image editing serves as a practical yet challenging task considering the diverse demands from users, where one of the hardest parts is to precisely describe how the edited image should look like. In this work, we present a new form of editing, termed imitative editing, to help users exercise their creativity more conveniently. Concretely, to edit an image region of interest, users are free to directly draw inspiration from some in-the-wild references (e.g., some relative pictures come across online), without having to cope with the fit between the reference and the source. Such a design requires the system to automatically figure out what to expect from the reference to perform the editing. For this purpose, we propose a generative training framework, dubbed MimicBrush, which randomly selects two frames from a video clip, masks some regions of one frame, and learns to recover the masked regions using the information from the other frame. That way, our model, developed from a diffusion prior, is able to capture the semantic correspondence between separate images in a self-supervised manner. We experimentally show the effectiveness of our method under various test cases as well as its superiority over existing alternatives. We also construct a benchmark to facilitate further research.



Figure 2: Conceptual comparisons for different pipelines. To edit a local region, besides taking the source image and source mask (indicates the to-edit region), inpainting models use text prompts to guide the generation. Image composition methods take a reference image along with a mask/box to crop out the specific reference region. Differently, our pipeline simply takes a reference image, the reference regions are automatically discovered by the model itself.

蚂蚁技术AntTech
科技是蚂蚁创造未来的核心动力
 最新文章