数据挖掘顶会KDD2024亮相西班牙,蚂蚁集团19篇论文被收录

文摘   2024-08-29 15:16   北京  


当地时间8月25日至29日,为期5天的国际知识发现与数据挖掘大会KDD2024在西班牙巴塞罗那举办。官方数据显示,本届会议共收到2046篇论文投稿,最终接收论文409篇,录用率为20%。


KDD始于1989年,是全球数据挖掘领域历史最悠久、规模最大的国际顶级学术会议。


蚂蚁集团有19篇论文被KDD2024收录,其中7篇为研究性论文(Research Paper),研究课题涉及图表征学习,数据挖掘、图神经网络、大语言模型,自然语言处理,检索增强等。


以下是论文摘要介绍。



Efficient and Effective Anchored Densest Subgraph Search: A Convex-programming based Approach / 高效锚定最稠密子图搜索:一种基于凸优化的方法

收录类别:Research Paper


论文链接:

https://ronghuali.github.io/PaperFiles/Efficient%20and%20Effective%20Anchored%20Densest%20Subgraph%20Search%20A%20Convex-programming%20based%20Approach.pdf


论文来源:蚂蚁集团研究型实习生


涉及领域:数据挖掘,图论,图计算,社区挖掘,图聚类


论文摘要:

在众多应用中,识别与预定义的种子节点密切相关的局部密集社区至关重要。给定种子节点集𝑅,子图𝑆的R-subgraph密度定义为𝑆的传统图密度,并对𝑆\𝑅中的节点进行惩罚。


基于R-subgraph密度的最新最先进(SOTA)锚定最密子图模型旨在解决社区搜索问题。然而,该模型常常难以高效地发现真正密集的社区。为了解决这个问题,我们提出了一种新颖的 NR-subgraph密度度量,这是一种细化的测度,可以识别与种子节点紧密相连且整体图密度也较高的社区。


我们通过NR-subgraph密度重新定义了锚定最密子图搜索问题,并将其表示为线性规划(LP)问题。这使我们能够转换为一个对偶问题,利用基于凸编程的迭代算法的效率和效果。为了解决这个重新定义的问题,我们提出了两种算法:FDP,一种快速达到近最优解的迭代方法;以及FDPE,一种确保完全收敛的精确方法。


我们在12个真实世界网络上进行了广泛的实验。结果表明,我们提出的算法在运行时间上比SOTA方法快3.6到14.1 倍,同时生成的子图具有更优的内部质量。




Optimizing Long-tailed Link Prediction in Graph Neural Networks through Structure Representation Enhancement / 基于结构增强的图链接预测长尾方案

收录类别:Research Paper


论文链接:

https://openreview.net/forum?id=vNyOM8InFS


论文来源:独立完成


涉及领域:图神经网络、链接预测、长尾问题


论文摘要:

长尾问题作为机器学习中非常经典的问题,图学习表征的质量也经常会受到长尾样问题的影响,在该工作中我们首次发现并提出了图链接预测长尾问题的定义和常见的节点分类长尾定义不同,图链接预测问题的长尾问题和子图中结构信息比如共同邻居数量更相关,而不是与度相关,因此之前基于度的图长尾方案在链接预测上并不适用。


我们提出了一种基于子图结构增强的新长尾框架,该框架通过在子图中添加高置信的连边来提升尾部样本中的结构信息,并将其转换为头部样本以提升预测准确率,最终该框架不仅在尾部样本上提升明显,整体表现上也优于SOTA。



On Finding Bi-objective Pareto-optimal Fraud Prevention Rule Sets for Fintech Applications / 基于帕累托最优的规则挖掘在反欺诈金融科技领域的应用

收录类别:ADS Paper


论文链接:

https://arxiv.org/abs/2311.00964


论文来源:独立完成


涉及领域:多目标优化规则学习、子集选择


论文摘要:

在金融科技机构中,逻辑规则因其高度可解释性的"if-then"结构,被广泛应用于反欺诈决策。


实际上,在大型金融科技机构中,规则挖掘框架通常包括两个阶段;第一阶段生成规则池,第二阶段则根据某些标准(通常基于精确度和召回率)生成高质量的规则子集。本文着重于提升这一两阶段框架的灵活性和效能,关注于在双目标空间(如精确度和召回率)中寻找高质量的规则子集。为此,我们首先引入了一种名为SpectralRules的规则生成算法,该算法在第一阶段直接生成一个紧凑且多样化的规则池,我们发现,这种多样性提高了最终规则子集的质量。


此外,我们在第一阶段和第二阶段之间引入了一个中间阶段,采用帕累托最优的概念,旨在找到一组非支配的规则子集,构成帕累托前沿。这个中间阶段极大地简化了选择标准并增加了第二阶段的灵活性。对于这一中间阶段,我们提出了一种基于启发式的框架,称为PORS,并确定其核心问题是前沿上的子集选择(SSF)。我们对SSF问题进行了系统性的分类,并在公共和专有数据集上对各种SSF方法进行了全面的实证评估,同时两个真实应用场景中,我们展示了我们所提出的方案相较于现有工作的优势。



FoRAG: Factuality-optimized Retrieval Augmented Generation for Web-enhanced Long-form Question Answering / 网络增强型长文本问答场景下的事实性优化方法

收录类别:Research Paper


论文链接:

https://arxiv.org/abs/2406.13779


论文来源:独立完成


涉及领域:大语言模型、自然语言处理、检索增强


论文摘要:

检索增强生成 (RAG) 因其能够利用搜索引擎来提高长篇问答 (LFQA) 的质量而在问答 (QA) 任务中变得普遍。尽管出现了各种开源方法和 Bing Chat 等 Web 增强商业系统,但仍有两个关键问题尚未解决,即生成的长篇答案缺乏事实性和清晰的逻辑性。


在本文中,我们通过对Web增强LFQA中的答案生成的系统研究来解决这些问题。具体而言,我们首先提出了一种新颖的提纲增强生成器,以实现多方面答案生成的清晰逻辑,并据此构建了两个数据集。然后,我们提出了一种基于精心设计的双细粒度RLHF框架的事实性优化方法,其中包含不同粒度级别的自动评估和奖励建模。我们的通用框架包括传统的细粒度 RLHF 方法作为特殊情况,并且可以推广到其他指标或任务。


大量实验验证了我们提出的基于事实性优化的RAG (FoRAG) 方法在英语和中文基准上的优越性。特别是,当将我们的方法应用于 Llama2-7B时,派生模型 FoRAGL-7B 在三个常用指标(即连贯性、帮助性和事实性)方面优于WebGPT-175B,而参数数量要少得多(仅为WebGPT-175B的1/24)。



Self-Supervised Learning for Graph Dataset Condensation / 自监督的图数据集蒸馏方法

收录类别:Research Paper


论文链接:

https://dl.acm.org/doi/10.1145/3637528.3671682


论文来源:CCF-蚂蚁科研基金


涉及领域:图学习, 数据集压缩, 图神经网络


论文摘要:

图数据集浓缩(Graph Dataset Condensation,GDC)将包含许多图的大数据集压缩为包含较少图的较小数据集,同时保持模型训练的准确率。


GDC节省了存储成本,因此能加速模型训练。虽然已经提出了几种GDC方法,但它们都是监督的,并要求为图数据提供大量的标签,然而在许多实际场景中,图标签可能是非常稀缺的。


为了填补这个空白,我们提出了一种名为自监督图数据集浓缩的方法(Self-supervised Graph Dataset Condensation, SGDC),该方法不需要标签信息。我们的初始设计从数据集浓缩的经典双层优化范例开始,并结合了对比学习技术。但是,由于数据增强导致有偏差的梯度估计,这样的解决方案准确性较差。


为了解决这个问题,我们引入了表示匹配,它通过将浓缩图产生的表示与预训练SSL模型生成的目标表示对齐来进行训练。这种设计消除了对数据增强的需要,并避免了有偏差的梯度。我们进一步提出了一种图注意力核,它不仅能提高准确性,而且当与自监督核岭回归(KRR)结合时,还可以减少运行时间。为了简化SGDC并使其更具鲁棒性,我们采用了一种邻接矩阵重用方法,该方法重用原始图的拓扑结构作为浓缩图的拓扑,而不是在训练期间反复学习拓扑。


我们对7个图数据集的评估发现,即使它们使用标签信息,SGDC也比5个最先进的基线方法准确率提高9.7%。此外,SGDC比基线方法更加效率。



Cost-Efficient Fraud Risk Optimization with Submodularity in Insurance Claim / 基于次模特性的保险理赔欺诈风险优化

收录类别:Research Paper


论文链接:

https://openreview.net/pdf?id=jfSSgeUvQW


论文来源:CCF-蚂蚁科研基金


涉及领域:机器学习,运筹优化,在线决策


论文摘要:

欺诈理赔是保险行业面临的重要问题。为了更准确地判定保险理赔的欺诈风险,保险公司或代理平台需要从多个数据源收集信息。数据源的增加能够提高风险验证的准确性,也不可避免地带来更多成本。


因此,如何平衡风险验证过程的判定准确性和成本至关重要。为此,本文提出了一种基于次模特性并具有成本效益的欺诈风险优化方法(CEROS)。CEROS能够有效地决策保险理赔对应的调查数据源,实现准确率和成本之间的权衡。CEROS包括两部分:次模集合分类模型(SSCM)和基于分割点的原始-对偶算法(PDA-SP)。


具体来说,SSCM建模与多个数据源相关的集合欺诈概率,并在非独立假设前提下确保模型输出概率的次模特性;基于该特性,在全局成本约束下,PDA-SP能够快速迭代更新对偶系数,显著加速对偶优化过程。理论上,PDA-SP优化对偶问题的过程是单调的。最后,PDA-SP获得的对偶系数作为风险验证准确性和成本的权衡系数,应用于在线保险理赔决策。


我们在蚂蚁保的相关业务场景进行了离线实验和在线A/B测试。结果表明,CEROS提升了66.9%的求解速度,同时在保证验证准确性的前提下降低了18.8%的调查成本。目前,CEROS已成功部署应用。




Enhancing Pre-Ranking Performance: Tackling Intermediary Challenges in Multi-Stage Cascading Recommendation Systems / 提升预排序性能:解决多阶段级联推荐系统中的中间挑战

收录类别:ADS Paper


论文链接:

https://doi.org/10.1145/3637528.3671580


论文来源:独立完成


涉及领域:推荐系统


论文摘要:

大型搜索引擎和推荐系统使用三级级联架构——召回、预排序和排序——在严格的延迟限制内提供相关结果。


预排序阶段在将大量召回的项目过滤成一个可管理的集合供排序阶段使用时起着至关重要的作用,极大地影响了系统的性能。预排序面临两个中间挑战:样本选择偏差(SSB)当训练基于排序阶段的反馈但评估基于更广泛的召回数据集时产生。


此外,相比排序阶段,较简单的预排序模型可能表现更差且不够稳定。传统方法包括使用所有召回结果并将未曝光部分作为负例进行训练,这可能代价高昂且噪声大。为了提升性能和稳定性,一些预排序特征交互增强器不能完全解决一致性问题,而像知识蒸馏这样的排序模型方法则忽略了曝光偏差。


我们提出的框架通过三个重要模块来解决这些问题:样本选择、领域适应和无偏蒸馏。样本选择筛选召回结果以减少SSB和计算成本。领域适应通过为未曝光样本分配伪标签提升模型的鲁棒性。无偏蒸馏使用来自领域适应的与曝光无关的分数来实施预排序模型的无偏蒸馏。该框架专注于优化预排序同时保持训练效率。我们引入了新的预排序评估指标,实验结果证实了我们框架的有效性。我们的框架也已部署在实际工业系统中。


DDCDR: A Disentangle-based Distillation Framework for Cross-Domain Recommendation / 基于解耦的跨域知识蒸馏方案

收录类别:ADS Paper


论文链接:

https://dl.acm.org/doi/pdf/10.1145/3637528.3671605


论文来源:独立完成


涉及领域:跨域推荐、知识蒸馏


论文摘要:

现代推荐平台通常会涵盖多个领域场景,以便满足用户的不同偏好。最近,跨域学习已成为推荐系统背景下的重要方法,它能够利用源域中的丰富信息来增强目标域,后者往往受到数据资源不足的限制。跨域推荐的主要关注点是减轻负面迁移——确保从源域选择性地迁移领域共享知识到目标域,同时保持目标域内领域特定知识的完整性。


在本文中,我们提出了一种新颖的基于解耦的跨域知识蒸馏框架(DDCDR),其采用教师-学生知识蒸馏范式,同时在表征粒度上进行知识迁移。我们的方法从建立一个跨域教师模型开始,该模型与一个领域判别器进行对抗训练。接着创建一个目标领域的特定学生模型。通过使用经过训练的领域判别器,我们成功地将领域共享的表征与领域特定的表征解耦开来。教师模型指导域共享表征的学习,而域独有表征则通过对比学习方法进行增强。


在公共数据集和工业数据集上进行的实验表明,DDCDR均达到了新的SOTA效果。在蚂蚁集团平台内的实现进一步证实了其在线有效性,在两种不同的推荐场景中,相对于基准,分别实现了0.33%和0.45%的UVCTR提升。



RJUA-MedDQA: A Multimodal Benchmark for Medical Document Question Answering and Clinical Reasoning / RJUA-MedDQA: 一个用于医学文档理解和临床推理的多模态基准测试

收录类别:ADS Paper


论文链接:

https://arxiv.org/pdf/2402.14840


论文来源:独立完成


论文涉及领域:多模态大模型、文档理解、上下文推理、评测基准


论文摘要:

最近在大型语言模型(LLMs)和大型多模态模型(LMMs)方面的进展在各种医疗应用中显示出潜力,如智能医疗诊断。我们发现在目前的医疗研究领域,现有的基准测试并没有反映出真实医疗报告的复杂性和专业深入的医疗推理能力。因此,我们和仁济医院泌尿专科的医生合作,提出一个医疗报告中文问答评测基准旨在评测多模态大模型基于各种版式的文档问答的能力,和基于给定的医学上下文知识进行临床推理的能力,其特点:


●布局多样性:数据集包含多种类型的图像,如照片、扫描的PDF和截屏。这些图像展示了复杂的布局和不同的质量。数据集包括由于旋转、倾斜、文本模糊或信息不完整等因素导致质量降低的图像,反映了实际场景中的挑战。


●真实世界聚焦:数据集反馈真实世界的医疗场景,为AI模型提供实用和真实的挑战集合。它具有两个主要任务:图像内容识别VQA和临床推理VQA,这些任务评估从数据提取到复杂临床推理的一系列模型能力。


●临床专家注释:数据集已由泌尿外科专家精心注释,确保上下文推理任务基于临床专业知识。这确保了数据不仅准确,而且反映了真实临床实践的细微差别和复杂性。


●临床推理医学规则知识库:数据集提供了一个知识库,包括疾病诊断、分期和治疗建议的逻辑链。这些信息主要来源于临床经验和官方泌尿外科疾病诊断和治疗指南,旨在弥合临床环境中泌尿外科疾病诊断和研究社区之间的差距



我们精心设计了数据生成流程,并提出了高效结构恢复标注(ESRA)方法,旨在恢复医疗报告图像中的文本和表格内容。这种方法大大提高了注释效率,使每位标注者的效率提高一倍,并在准确性上提高26.8%。



在实验中,我们对5种能够解决中文医疗问答任务的LMMs进行全面的评估。与此同时,为了进一步研究当前LMMs的不足和潜力,我们使用ESRA方法生成图像-文本结合LLMs进行比较实验。实验发现包括:


(1)现有LMMs的整体性能仍然有限;然而,与LLMs相比,LMMs对低质量和多样化结构的图像识别更为鲁棒。

(2)在上下文和图像内容之间的跨模态推理对于LMMs来说仍呈现巨大的挑战。我们希望这个基准测试能够推动学术界在多模态文档VQA研究方面取得进展,并支持医疗界开发提高临床推理能力的应用。


LASCA:A Large-Scale Customer Segmentation Approach to Credit Risk Assessment / LASCA:一种适用于信用风险评估任务中的大规模稳定性的用户细分方法

收录类别:ADS Paper


论文链接:

https://dl.acm.org/doi/pdf/10.1145/3637528.3671550


论文来源:CCF-蚂蚁科研基金


涉及领域:黑盒优化,机器学习,人工智能


论文摘要:

用户细分(Customer Segmentation)在信用风险评估中扮演着重要角色,它指的是通过根据用户的连续的信用评分将用户划分为离散的风险等级。例如用户的信用评分是0~1之间的实数,现在要求将用户划分为10 个风险等级,那么用户细分要做的事情就是选取9个切分点将用户映射到10个等级中去。


过去的用户细分方法设计比较原始,如等频,等距或带简单的单调性约束方法,这些方法虽然能够处理一些简单的用户划分任务,却不能满足蚂蚁信贷部门提出的稳定性(Stability)需求。


简单来讲,用户的信用评分在不同月份间会有一些轻微的浮动,稳定性需求指的是用户的人数分布,统计指标单调性和用户留存率在不同月份间尽可能的保持稳定。很显然,过去的方法仅仅只能满足统计指标单调性的需求,没能考虑人数分布和用户留存稳定性。稳定性需求对于信贷领域十分重要,因为一旦用户划分稳定性不足(言外之意,切分点设置的不好),这导致用户的风险等级随时间经常变动,这会影响总体用户风险大盘,进而影响公司决策并带来潜在风险。


本文首先提出并定义了细分过程中的稳定性遗憾(Stability Regret)的概念。这个遗憾分用来度量用户细分方法的稳定性表现,即遗憾分越小稳定性越强。我们在计算稳定性遗憾的时候,需要统计不同月份的实际人数分布,单调性情况以及用户的留存率,这是一个黑盒过程,我们只能通过 SQL 查询才能知道当前用户细分的结果是否满足稳定性指标。因此黑盒(Black-box Nature)是当前工作的第一个挑战。此外,在真实的信贷场景,每天的用户信息量巨大,达到千万或者亿级,查询时的计算消耗和时间消耗十分巨大,因此计算高代价(High Evaluation Cost)时当前工作的第二个挑战。


为应对上述两个挑战,本文提出了一种名为LASCA(LArge-scale Stable Customer segmentation Approach)的大规模稳定客户细分方法。


LASCA包括两个阶段:高质量数据集构建(HDC,High-quality Dataset Collection)和可靠的数据驱动优化(RDO,Reliable Data-driven Optimization)。具体而言,HDC利用进化算法收集高质量的细分方案,旨在解决挑战一。随后,RDO建立可靠的代理模型,基于收集到的数据集预测出最稳定的细分方案,旨在解决挑战二。


在HDC中,为了提高进化算法性能,我们设计了一套初始化方法PDA(Probabilistic Density Approximation)。在RDO中,为了提高代理模型的可靠性,我们设计了一套机器学习模型的评估方式RSE(Reliable Surrogate Evaluation)


我们在蚂蚁信贷的大规模数据集(最高达到8亿)上对LASCA进行了评估,实验表明LASCA在寻找最稳定的分箱方案方面超越了先前先进的用户细分方法。HDC大大提高了收集数据的质量(稳定性提升了50%),而 RDO 通过数据驱动的评估,在节省计算开销的同时(速度提升25倍)能够发现更多的稳定的细分方案。目前,LASCA已成功部署在支付宝的大规模信用风险评估系统中。


图1. 稳定性需求示例(用户人数分布,单调性,留存率)


图2. LASCA方法框架图(HDC+RDO)


算法1. HDC阶段的PDA初始化方法


图3. RDO阶段的RSE过程


表1. 不同数据集(BEHAVE,POR,TRADE)上不同方法间的Stability Regret 对比(越小越好)



图4. 验证PDA初始化方法对于进化算法收敛性的影响



图 5. 验证RDO阶段带来的影响


十一

Know Your Needs Better:Towards Structured Understanding of Marketer Demands with Analogical Reasoning Augmented LLMs / 基于类比推理增强的大语言模型在支付宝营销场景中的探索与实践

收录类别:ADS Paper


论文链接:

https://arxiv.org/abs/2401.04319


论文来源:独立完成


涉及领域:大语言模型


论文摘要:

互联网营销旨在根据运营者的个性化需求向特定的人群精准投放广告,在降低投放开销的同时提高转化率。


在支付宝中,以往的营销算法主要分为两类:


(1)基于深度学习模型算法,该方法依赖于事先给定的种子人群,并且需要设计复杂的神经网络模型对种子人群进行扩散;

(2)基于标签手工选择的方法,该方法在支付宝域内构建了人群特征标签,运营者根据自身理解挑选特征标签,对指定标签下的人群进行投放。


然而,现有的两种方案都强制要求运营者自己将其运营需求解构为多个标签或种子人群,操作便捷性较差,并且可能存在理解偏差。


因此,我们探索了一种新的基于大语言模型的营销工具,我们希望能够使运营者在只给出自然语言形式的运营Query的情况下,系统可以直接对原生的运营Query进行理解,并输出目标人群,在操作友好性、可解释性和理解准确性上带来提升。该方法利用大语言模型并基于已有标签库,将运营者自然语言形式的运营Query,转化为结构化、逻辑化的“人群表达式”,在结构化理解之后通过解析和聚合模块直接输出目标人群。




十二

Integrating System State into Spatio Temporal Graph Neural Network for Microservice Workload Prediction / 基于时空图神经网络系统状态融合的微服务工作负载预测

收录类别:ADS Paper


论文链接:

https://openreview.net/forum?id=BQg8XFMUg4¬eId=iVJtIsHqAZ


论文来源:CCF-蚂蚁科研基金


涉及领域:时空图神经网络,工作负载预测,数据挖掘


论文摘要:

微服务架构在提升网络应用程序的模块化和可扩展性方面发挥着关键作用,在支付宝等大型应用上展现了广泛应用前景。但是,这类架构常遇到的问题是,由于资源配置不够灵活,导致CPU等关键计算资源使用效率低下。这加大了对动态且精确工作负载预测模型的需求,以便优化资源调度。


面对这一需求,我们设计了STAMP,一种专为预测微服务工作负载的时空图神经网络模型。STAMP旨在全面考虑微服务间的复杂交互、工作负载随时间的变化,以及系统状态对资源利用的影响。STAMP利用图结构来描绘微服务间的交互模式,有效抽象了微服务网络的复杂联系。它结合时间序列分析来把握工作负载变化的趋势,并整合系统状态信息来提升预测的准确性。


在三个真实微服务数据集上的测试显示,与现有基线模型相比,STAMP的预测精确度平均提高了5.72%。在支付宝云平台的实际线上测试中,STAMP的运用能够节省33.10%的CPU资源消耗,带来了经济效益的同时促进了绿色计算发展。





十三

Lookahead:An Inference Acceleration Framework for Large Language Model with Lossless Generation Accuracy / lookahead: 一个精度无损的大语言模型推理加速框架

收录类别:Research Paper


论文链接:

https://arxiv.org/abs/2312.12728


论文来源:独立完成


涉及领域:大语言模型,推理性能优化


论文摘要:

大语言模型在在问答、翻译、摘要、对话等任务上效果取得了显著提升,但是在支付宝类似的金融场景,精确度是至关重要的,因此这篇论文提出了一种通用的推理加速框架,可以在基于大语言模型的场景获得显著的速度提升及成本下降。传统的推理过程中,每个词元都是按顺序产生的,导致推理时间基本正比于推理次数。


为了提高推理过程速度,我们的lookahead框架采用了一种基于trie树的多分支方案,可以在一次推理过程中输出多个词元。我们的方法有两个优势:

(1)它的效果是无损的。

(2)最差情况下推理速度跟传统方法是有竞争力的。我们的框架,从2023年4月开始,在支付宝场景得到广泛应用,获得了可观的2.66倍到6.26倍的加速比。




十四

Intelligent Agents with LLM-based Process Automation / 基于大语言模型的流程自动化智能代理

收录类别:ADS Paper


论文链接:

https://arxiv.org/abs/2312.06677


论文来源:独立完成


涉及领域:智能助手,智能代理,大语言模型,流程自动化


论文摘要:

尽管智能虚拟助手如Siri、Alexa和Google Assistant在现代生活中已经变得无处不在,但它们在遵循多步骤指令和完成基于自然语言的复杂目标方面仍然存在局限性。然而,大语言模型的最新突破展示了通过增强自然语言处理和推理能力,有望克服现有障碍的可能性。


尽管前景可期,但将大语言模型应用于创建更先进的虚拟助手时仍面临挑战,比如确保鲁棒性能和处理现实世界用户指令的多样性。本文提出了一种新颖的基于大语言模型的虚拟助手,该助手可以根据高级用户请求自动在移动应用程序内执行多步骤操作。系统在解析指令、推理目标和执行操作方面提供了一个端到端的解决方案。


该系统包含分解指令、生成描述、检测界面元素、预测下一步操作和错误检查等模块。实验展示了系统在支付宝中根据自然语言指令完成复杂移动操作任务。这表明大型语言模型如何使自动化助手完成现实世界的任务。主要贡献包括优化用于应用进程自动化的新颖LLMPA架构,将大语言模型应用于移动应用程序的方法论,以及在真实环境中完成多步骤任务的演示。


值得注意的是,这项工作代表了基于大型语言模型的虚拟助手在一个拥有数亿用户的广泛使用的移动应用程序中的首次真实部署和广泛评估。




十五

Towards Automatic Evaluation for LLMs’ Clinical Capabilities: Metric, Data, and Algorithm / 医疗大模型自动化评测框架:指标,数据,算法

收录类别:ADS Paper


论文链接:

https://arxiv.org/abs/2403.16446


论文来源:独立完成


涉及领域:大模型


论文摘要:

得益于在建模自然语言方面的优势,大语言模型(LLMs)在提高医学诊断临床效率方面受到越来越多的关注。确保临床应用的安全可靠对LLMs的评估变得至关重要,可以更好地减轻潜在风险,例如幻觉现象。然而,当前的评估方法严重依赖人人工参与来实现人类偏好的判断。


为了解决这一挑战,我们提出了一种自动评估范式,专门用于评估LLMs在提供临床服务(如疾病诊断和治疗)方面的能力。该评估范式包含三个基本要素:指标、数据和算法。


具体来说,受专业临床实践路径的启发,我们制定了一种特定于LLM的临床路径(LCP)来定义医疗大模型应具备的临床能力。然后,医学教育中的标准化病人(SPs)作为收集评估医疗数据的指南,这可以很好地确保评估程序的完整性。利用这些步骤,我们开发了一个多代理框架来模拟SPs和医疗大模型之间的互动环境,该环境配备了检索增强评估(RAE),以确定医疗大模型的行为是否符合LCP。


上述范式可以扩展到任何类似的临床场景,以自动评估LLMs的医学能力。应用这种范式,我们在泌尿学领域构建了一个评估基准,包括LCP、SPs数据集和一个自动化的RAE。我们进行了广泛的实验以证明所提方法的有效性,从而为LLMs在临床实践中的安全可靠部署提供了更多见解。




十六

MFTCoder:Boosting Code LLMs with Multitask Fine-Tuning / MFTCoder:多任务微调提升代码大模型性能 

收录类别:ADS Paper


论文链接:

https://arxiv.org/abs/2311.02303


论文来源:独立完成


涉及领域:人工智能,大模型技术


论文摘要:

代码大模型(Code LLMs)已经成为一个专门的研究领域,不少出色的研究致力于通过对预训练模型进行微调来增强模型的编码能力。之前的微调方法通常针对特定的下游任务或场景,意味着每个任务都需要单独进行微调,这需要大量的训练资源,并在部署和维护方面带来了挑战。此外,这些方法未能利用不同代码相关任务之间的内在关联性。


为了克服这些局限性,我们提出了一个多任务微调框架MFTCoder,它能够同时并行地对多个任务进行微调。通过结合各种损失函数,我们有效地解决了多任务学习中的常见挑战,如数据不平衡、难度不同以及收敛速度不一致等。大量实验结果明确表明,我们的多任务微调方法在表现上超越了对单个任务进行单独微调和对多任务混合为一进行微调的方法。


此外,MFTCoder提供了高效的训练能力,包括高效的数据打包模式和参数高效微调(PEFT)技术,与传统微调方法相比,显著提高了速度。


MFTCoder能够无缝集成多个主流开源大语言模型,如CodeLLama和Qwen。使用MFTCoder微调的CodeFuse-DeepSeek-33B在2024年1月30日的WinRate排行榜上荣登Big Code Models排行榜的榜首。MFTCoder已在https://github.com/codefuse-ai/MFTCoder上开源。





 最新文章