如何提高代码LLM的表现?基于高质量数据强化的代码指令微调 | Open-MAGVIT2:一种向自动回归视觉生成的开源项目...

文摘   2024-09-09 23:38   广东  

前言:如果你想成为一只科学界的“独角兽”,那么看论文是必不可少的。只有掌握了最新的技术和理论,才能在这个竞争激烈的市场中脱颖而出,成为那只最闪亮的“独角兽”!


1. 如何提高代码LLM的表现?利用高质量数据强化代码指令微调

  标题:How Do Your Code LLMs Perform? Empowering Code Instruction Tuning with High-Quality Data

  关键词:代码LLM、指令微调、数据质量、XCoder

  作者:Yejie Wang,  Keqing He,  Dayuan Fu

  分析:这篇论文主要研究如何构建更好的代码指令微调数据集。研究发现,虽然某些数据集在HumanEval上表现良好,但在LiveCodeBench等基准测试中表现不佳。这表明许多数据集存在严重的数据泄露问题。为了解决这个问题,论文提出了一个有效的代码数据剪枝策略,基于指令复杂性、响应质量和指令多样性三个维度选取样本。通过所选数据,作者提出了XCoder模型系列,在LLaMA3的基础上进行微调。实验表明,XCoder在使用更少训练数据的情况下达到了新的最先进性能,验证了数据策略的有效性。

  地址:https://arxiv.org/pdf/2409.03810

  代码:https://github.com/banksy23/XCoder


2. 开源模型能否击败ChatGPT?——针对文本到代码生成的大模型的比较研究

  标题:Can OpenSource beat ChatGPT? -- A Comparative Study of Large Language Models for Text-to-Code Generation

  机构:慕尼黑大学、慕尼黑机器学习中心

  关键词:大型语言模型、文本到代码生成、模型评估、性能表现

  作者:Luis Mayer,  Christian Heumann,  Matthias Aßenmacher

  分析:这篇论文主要研究了不同的大型语言模型(LLMs)在文本到代码生成任务上的性能表现。通过实证实验,对比了多个模型在解决典型编程挑战时的效果,并深入分析了各模型的优缺点和改进方向。

  地址:https://arxiv.org/pdf/2409.04164


3. Open-MAGVIT2:一种向自动回归视觉生成的开源项目

  标题:Open-MAGVIT2: An Open-Source Project Toward Democratizing Auto-regressive Visual Generation

  机构:清华大学、南京大学

  作者:Zhuoyan Luo,  Fengyuan Shi,  Yixiao Ge

  分析:Open-MAGVIT2是一种从300M到1.5B的自动回归图像生成模型家族。该项目实现了对Google的MAGVIT-v2分词器的开源复制,该分词器具有超大的代码库(即2^18个代码),并在ImageNet $256 times 256$上实现了最先进的重构性能(1.17 rFID)。此外,该论文探索了它在普通自动回归模型中的应用,并验证了其可扩展性。为了帮助自动回归模型使用超大词汇表进行预测,该论文通过非对称标记分解将其分解为两个不同大小的子词汇表,并进一步引入“下一个子标记预测”以增强子标记交互以提高生成质量。该论文将所有模型和代码发布,以促进自动回归视觉生成领域的创新和创造力。

  地址:https://arxiv.org/pdf/2409.04410


4. VILA-U: 一个综合视觉理解和生成的统一基础模型

  标题:VILA-U: a Unified Foundation Model Integrating Visual Understanding and Generation

  机构:英伟达、清华大学、麻省理工学院

  关键词:统一基础模型、视觉理解、图像生成、多模态融合

  作者:Yecheng Wu,  Zhuoyang Zhang,  Junyu Chen

  分析:本文提出了一种综合视频、图像和语言理解的统一基础模型VILA-U。与传统需要多个模块分别处理理解和生成任务的视觉语言模型(VLMs)不同,VILA-U采用单一的基于自回归的下一个词预测框架来解决这两个任务,减少了复杂性,并且在视觉语言理解和生成的多个领域都达到了领先的水平。VILA-U的成功主要得益于其在预训练过程中使用统一的视觉塔来对视觉和文本输入进行对齐,从而提高了视觉感知能力,并且使用自回归图像生成技术在高质量的数据集上能够达到与扩散模型相当的质量。

  地址:https://arxiv.org/pdf/2409.04429


5. Qihoo-T2X:基于代理令牌的高效扩散Transformer,适用于文本到任何任务

  标题:Qihoo-T2X: An Efficiency-Focused Diffusion Transformer via Proxy Tokens for Text-to-Any-Task

  关键词:代理令牌扩散Transformer、全局自注意力机制、冗余计算、文本到任何任务

  作者:Jing Wang,  Ao Ma,  Jiasong Feng

  分析:这篇论文提出了一种新的扩散Transformer——代理令牌扩散Transformer(PT-DiT),旨在解决扩散Transformer在全局自注意力机制中存在的冗余计算问题。论文通过采用稀疏代表性令牌注意力,在每个Transformer块中随机选择一个令牌作为该区域的代理令牌,通过代理令牌的自我关注来捕捉全局语义信息,然后注入所有潜在令牌。同时,论文还引入了窗口和移位窗口注意力来解决细节建模的局限性。基于PT-DiT的设计,论文进一步发展了Qihoo-T2X系列模型,包括适用于T2I、T2V和T2MV任务的多种模型。实验结果表明,PT-DiT在图像和视频生成任务中实现了竞争性能,并降低了计算复杂度。

  地址:https://arxiv.org/pdf/2409.04005

  代码:https://github.com/360CVGroup/Qihoo-T2X


6. 神经网络的神经崩溃在多元回归中的普遍性

  标题:The Prevalence of Neural Collapse in Neural Multivariate Regression

  机构:纽约大学

  关键词:神经网络、神经回归、负荷崩溃、多变量回归

  作者:George Andriopoulos,  Zixuan Dong,  Li Guo

  分析:最近发现神经网络在分类问题的训练的最后阶段会出现神经崩溃(Neural Collapse,NC)。本文实证性地表明,在模仿学习和其他应用中使用的多变量回归(Multivariate Regression)会出现一种新的神经崩溃形式:神经回归崩溃(Neural Regresion Collapse,NRC)。(NRC1)输出层特征向量会塌缩到特征向量的$n$个主成分所在的子空间;以为单变量回归为例,$n=1$;(NRC2)输出层特征向量也会塌缩到输出层权重向量的子空间;(NRC3)权重向量的加权和矩阵会收敛到一个特定的函数形式,该函数形式依赖于目标方差矩阵。对(NRC1)-(NRC3)在各种数据集和网络体系结构上的普遍性进行实证分析后,本文在Unconstrained Feature Model(UFM)的背景下,将回归任务视为自由变量,以最小化损失函数,给出这些现象的解释。该论文将UFM模型中的常规化参数设置为严格正值时,会发现在UFM优化问题的解中也出现了(NRC1)-(NRC3)。如果UFM模型中的常规化参数设置为零,则不会出现塌陷。本文是首个实证和理论研究中理解神经崩溃在回归领域的行为。这篇研究扩宽了神经崩溃应用的领域,并暗示神经崩溃可能是深度学习的普遍行为。

  地址:https://arxiv.org/pdf/2409.04180


7. 自我协调思维链

  标题:Self-Harmonized Chain of Thought

  关键词:自我协调思维链、思维链、大模型推理、提示技术

  作者:Ziqi Jin,  Wei Lu

  分析:这篇论文介绍了自我协调思维链(Self-Harmonized Chain of Thought)这一新型提示技术,该技术针对大语言模型在复杂推理过程中的错误推理问题,提出了将多种解决方案路径统一为有效解路径的方法。这一工作在大模型推理领域具有重要意义。

  地址:https://arxiv.org/pdf/2409.04057


8. 加速神经网络训练的几种方法

  标题:Accelerating Training with Neuron Interaction and Nowcasting Networks

  关键词:神经元交互、预测网络、加速训练、自适应优化器

  作者:Boris Knyazev,  Abhinav Moudgil,  Guillaume Lajoie

  分析:本文介绍了一种加速神经网络训练的新方法。传统的自适应优化器(如Adam)可以加速训练,但它们可能昂贵且不稳定。最近提出的一种更简单的方法是,使用Adam进行大部分优化步骤,只每隔几次步长,进行参数预测。该论文通过神经元交互和预测网络(NiNo)改进了这种方法。NiNo利用神经元连通性和图神经网络更准确地预测参数,通过学习多个任务上的训练轨迹。该论文发现,在某些网络(如Transformer)中,神经元连通性是非平凡的。通过准确模拟神经元连通性,该论文让NiNo在视觉和语言任务上加速Adam训练(最多达到50%的加速)

  地址:https://arxiv.org/pdf/2409.04434


9. Sigmoid Self-Attention的理论分析与应用最佳实践

  标题:Theory, Analysis, and Best Practices for Sigmoid Self-Attention

  关键词:Sigmoid Self-Attention、Transformer架构、理论分析、实证研究

  作者:Jason Ramapuram,  Federico Danieli,  Eeshan Dhekane

  分析:本文主要探讨了Sigmoid Self-Attention在Transformer架构中的应用,进行了理论分析和实证研究,并发现其在某些情况下可以替代Softmax Attention。文章详细分析了Sigmoid Attention的优势,包括其在训练大型模型时的稳定性和性能优势。此外,文章还提出了一种针对Sigmoid Attention的高效硬件实现方法,并在语言、图像和语音等多个领域进行了实验验证。

  地址:https://arxiv.org/pdf/2409.04431


10. 大模型的泛化问题

  标题:A naive aggregation algorithm for improving generalization in a class of learning problems

  关键词:大语言模型、高维非线性函数、点估计

  作者:Getachew K Befekadu

  分析:这篇论文主要介绍了一种用于提高学习问题泛化性能的朴素聚合算法。具体来说,该算法是针对高维非线性函数的点估计问题,其中一组专家使用离散时间梯度系统和带噪声的小增量进行参数更新,并根据从原始数据集中获得的子样本数据集进行指导。该论文的研究目标是找出在何种条件下,这种算法能够逐步确定一组混合分布策略,用于聚合专家的估计值,最终得到一个优于任何单个专家估计的最优参数估计值作为所有专家的共识解,从而在泛化或学习性能方面有所改进。

  地址:https://arxiv.org/pdf/2409.04352


11. Learning vs Retrieval:LLM中上下文示例在回归任务中的作用

   标题:Learning vs Retrieval: The Role of In-Context Examples in Regression with LLMs

   关键词:大型语言模型、上下文学习、回归任务、元学习

   作者:Aliakbar Nafar,  Kristen Brent Venable,  Parisa Kordjamshidi

   分析:本文提出了一个框架,用于评估LLM中上下文学习机制的效果。该论文发现LLM可以通过回归任务进行实际应用,并通过实验研究了模型在回归任务中检索内部知识与从上下文示例中学习之间的程度。该论文的研究结果表明,这一过程位于这两种极端之间的某种程度上。该论文深入分析了这一过程在各种因素(如对任务的先验知识、上下文示例的信息类型和丰富程度)的影响下被触发的程度。该论文使用了三种LLM和多个数据集来验证该论文的发现。这些结果为该论文如何利用来自上下文示例的元学习和促进知识检索提供了洞见。

   地址:https://arxiv.org/pdf/2409.04318


12. From Calculation to Adjudication:考察大模型在数学推理任务中的判断性能

   标题:From Calculation to Adjudication: Examining LLM judges on Mathematical Reasoning Tasks

   关键词:大型语言模型(LLM),数学推理任务,性能评估,判断规律,写作风格

   作者:Andreas Stephan,  Dawei Zhu,  Matthias Aßenmacher

   分析:这篇论文研究大型语言模型(LLM)在数学推理任务中的表现。通过详细性能分析发现,LLM评委大多无法提升任务性能,但能够选择更好的模型。论文还探讨了评委判断与候选模型任务性能之间的强相关性,并发现评委倾向于选择质量较高的模型,即使其答案不正确。此外,论文展示了使用统计预测判断性能的可能性,并通过实验证明了评委在判断时会考虑写作风格。总之,论文揭示了LLM评委判断规律的可量化性,为相关领域提供了多种研究角度。

   地址:https://arxiv.org/pdf/2409.04168


13. RWKV模型进行内容审核的实验研究

   标题:Experimentation in Content Moderation using RWKV

   关键词:大模型、内容审核、知识蒸馏

   作者:Umut Yildirim,  Rohan Dutta,  Burak Yildirim

   分析:本论文主要研究了RWKV模型在内容审核方面的效果,并通过针对性的实验来验证其有效性。该论文引入了一个专门用于蒸馏到更小模型的新数据集,以增强内容审核实践。这个全面的数据集包括了图像、视频、声音和文本数据,这些都代表了社会上的各种挑战。利用先进的大型语言模型(LLMs),该论文生成了大量的响应——对于文本558958个,对于图像83625个——来训练和优化内容审核系统。该论文的核心实验是针对RWKV模型的微调,利用其高效的CPU架构来应对大规模的内容审核任务。通过突出该数据集的知识蒸馏潜力,本研究不仅展示了RWKV在提高内容审核系统的准确性和效率方面的能力,而且为在这个领域开发更紧凑、资源效率更高的模型铺平了道路。数据集和模型可以在HuggingFace找到:https://huggingface.co/modrwkv

   地址:https://arxiv.org/pdf/2409.03939

   代码:https://huggingface.co/modrwkv


14. 快速进阶低秩训练

   标题:Fast Forwarding Low-Rank Training

   关键词:低秩适应、快速进阶、优化策略、模型微调

   作者:Adir Rahamim,  Naomi Saphra,  Sara Kangaslahti

   分析:本文研究了参数效率化的微调方法,如低秩适应(LoRA),其目标是减少预训练语言模型(LMs)微调的计算成本。基于低秩设置,该论文提出了一个更高效的优化策略:快速进阶。该策略在一段大规模的训练中加速了优化过程,通过重复最近的优化器步骤,直到微小验证集上的损失停止改善。通过在标准SGD和Adam优化器之间交替使用常规优化步骤和快速进阶阶段,快速进阶提供了高达87%的FLOPs减少和高达81%的训练时间减少。本文通过在不同任务上微调多种模型进行验证,证明了快速进阶加快了训练过程而不会影响模型性能。此外,该论文还分析了何时以及如何应用快速进阶。

   地址:https://arxiv.org/pdf/2409.04206


15. 领域专用基础模型综述:关键技术、应用和挑战

   标题:An overview of domain-specific foundation model: key technologies, applications and challenges

   关键词:领域专用基础模型、通用模型、领域数据、构建方法

   作者:Haolong Chen,  Hanzhi Chen,  Zijian Zhao

   分析:这篇论文主要介绍了领域专用基础模型的构建方法,旨在解决通用模型无法完全捕捉特定领域数据的独特模式和需求的问题。作者详细介绍了基本概念、通用架构以及构建特定领域模型的关键方法,并探讨了可以从这些专用模型中受益的各种领域以及面临的挑战。通过这个综述,作者希望能为来自不同领域的研究人员和实践者提供有价值的指导和参考,帮助他们开发自己的领域专用基础模型。

   地址:https://arxiv.org/pdf/2409.04267


16. 中文拼写校正:两面性问题

   标题:A Coin Has Two Sides: A Novel Detector-Corrector Framework for Chinese Spelling Correction

   机构:武汉大学、上海交通大学

   关键词:中文拼写校正、错误检测器-校正器框架、特征融合、遮罩策略

   作者:Xiangke Zeng,  Zuchao Li,  Lefei Zhang

   分析:这篇论文探讨了中文拼写校正任务中存在的问题。传统方法试图将校正过程分解为检测错误位置和纠正错误两个步骤,但由于误差检测器的性能限制,精确度和召回率往往是不可兼得的。本文提出了一种基于错误检测器-校正器框架的新方法,通过设计能够产生高精确度和高召回率的两种错误检测结果,并采用创新的特征融合策略和选择性的遮罩策略,将错误检测结果巧妙地融入到拼写校正任务中。实验结果表明,该方法在主流的中文拼写校正数据集上表现优秀。

   地址:https://arxiv.org/pdf/2409.04150


17. MetaBGM:具备环境感知与个性化功能的连续多场景动态背景音乐转换框架

   标题:MetaBGM: Dynamic Soundtrack Transformation For Continuous Multi-Scene Experiences With Ambient Awareness And Personalization

   机构:浙江大学

   关键词:MetaBGM、动态场景、背景音乐生成、模型结构改进

   作者:Haoxuan Liu,  Zihao Wang,  Haorong Hong

   分析:这篇论文介绍了一个名为MetaBGM的框架,用于生成与动态场景和实时用户交互相适应的背景音乐。该框架可以解决将后端数据转换为音乐描述文本的问题,采用两阶段生成方法,将连续场景和用户状态数据转化为音乐描述文本,并实时生成配乐。实验结果表明,MetaBGM能生成与上下文相关且动态的背景音乐,适用于交互式应用。

   地址:https://arxiv.org/pdf/2409.03844


18. 基于预测反馈的强化学习在用户摘要生成中的研究与应用

   标题:RLPF: Reinforcement Learning from Prediction Feedback for User Summarization with LLMs

   机构:Google、Google DeepMind

   关键词:大型语言模型(LLMs),预测反馈,强化学习,用户摘要生成,模型蒸馏

   作者:Jiaxing Wu,  Lin Ning,  Luyang Liu

   分析:这篇论文提出了一种基于预测反馈的强化学习(RLPF)方法,用于优化大型语言模型(LLMs)在用户摘要生成中的性能。RLPF通过精细调整LLMs来生成简洁且人类可读的摘要,这些摘要针对下游任务进行了优化。通过最大化摘要的实用性,RLPF能够提炼出大量的用户历史数据,同时保留下游任务所需的关键信息。研究结果显示,该方法在下游任务效用和内在摘要质量方面均表现出显著提高,尤其是在事实性、抽象性和可读性方面取得了显著成果。

   地址:https://arxiv.org/pdf/2409.04421


19. MLIR Transform Dialect:让您的编译器比您想象的更强大

   标题:The MLIR Transform Dialect. Your compiler is more powerful than you think

   机构:伊利诺伊大学、柏林工业大学、Google

   关键词:MLIR Transform、编译器控制、性能优化、精确组合

   作者:Martin Lücke,  Oleksandr Zinenko,  William S. Moses

   分析:这篇论文提出了一种使用MLIR Transform Dialect的方法,让性能工程师能精确、安全地组合和重用现有的编译器优化功能,而无需实现新_pass或重新构建编译器。它解决了现代编译器难以控制、通常依赖于粗粒度黑盒优化或预定义注释的问题。通过 Transform Dialect,工程师能针对不同的计算负载进行定制优化,而不需要专业知识。案例研究证实了其实际效果,展现了对大模型优化的可能性,但并未直接说明其在大模型研究的具体领域,所以domain为'无'。推荐指数为95,理由是它提供了一种强大的工具来改进编译器,这对硬件优化和大规模模型的性能调整至关重要。关键词:MLIR Transform、编译器控制、性能优化、精确组合

   地址:https://arxiv.org/pdf/2409.03864


20. Sirius:基于上下文稀疏性的高效大模型修正机制

   标题:Sirius: Contextual Sparsity with Correction for Efficient LLMs

   机构:卡内基梅隆大学、Meta AI

   关键词:大语言模型,上下文稀疏性,推理效率,模型修正

   作者:Yang Zhou,  Zhuoming Chen,  Zhaozhuo Xu

   分析:这篇论文关注大语言模型的推理效率问题,提出了一种基于上下文稀疏性的高效修正机制Sirius。研究发现,虽然上下文稀疏性在提高模型效率方面表现出色,但在推理、演绎和基于知识的任务中会降低模型性能。Sirius旨在恢复稀疏模型的质量,同时保持其效率优势。论文在多个模型和任务上验证了Sirius的有效性和效率,并提供了系统实现方案。

   地址:https://arxiv.org/pdf/2409.03856

   代码:https://github.com/Infini-AI-Lab/Sirius.git


21. PoTo:一种用于Python的混合安德森风格点分析技术

   标题:PoTo: A Hybrid Andersen's Points-to Analysis for Python

   机构:IBM研究院

   关键词:Python静态分析、点分析技术、类型推断、外部库调用

   作者:Ingkarat Rak-amnouykit,  Ana Milanova,  Guillaume Baudart

   分析:这篇论文介绍了一种针对Python的混合安德森风格点分析技术PoTo,用于静态分析Python代码。论文提出了一种新颖的方法来解决Python的动态特性和丰富的外部库所带来的挑战。此外,论文还介绍了基于点分析的静态类型推断PoTo+。评估结果显示,PoTo+在现有Python包上的表现优于其他两种先进的Python类型推断技术。

   地址:https://arxiv.org/pdf/2409.03918


22. Serp-Mamba:基于选择性状态空间模型的高分辨率视网膜血管分割研究

   标题:Serp-Mamba: Advancing High-Resolution Retinal Vessel Segmentation with Selective State-Space Model

   机构:武汉大学、香港科技大学、电子科技大学

   关键词:Serp-Mamba网络,高分辨率视网膜血管分割,蛇形扫描机制,类别不平衡问题,双校准模块

   作者:Hongqiu Wang,  Yixian Chen,  Wu Chen

   分析:这篇论文针对超高宽场扫描激光眼科图像的高分辨率视网膜血管分割问题,提出了一种新型的Serp-Mamba网络解决方案。论文观察到了血管结构的复杂性和独特性,并针对高分辨率图像中的类别不平衡问题进行了深入研究。为此,论文设计了一种蛇形交织自适应扫描机制,用于有效捕获弯曲的血管结构特征。同时,论文还提出了一种歧义驱动的双校准模块来解决类别不平衡问题。实验结果表明,Serp-Mamba网络在高分辨率血管分割方面表现出卓越性能。

   地址:https://arxiv.org/pdf/2409.04356


23. 结合大模型和知识图谱以减少问答中的幻想要素

   标题:Combining LLMs and Knowledge Graphs to Reduce Hallucinations in Question Answering

   关键词:大型语言模型(LLM)、知识图谱(KG)、问答系统、准确性提高

   作者:Larissa Pusch,  Tim O. F. Conrad

   分析:本文主要探讨了一种新型方法,将大型语言模型(LLM)和知识图谱(KG)结合,旨在提高问答系统的准确性和可靠性。文章介绍了如何在生物医学知识图谱的上下文中应用此方法,通过引入查询检查器来确保语言模型生成的查询的语法和语义有效性,从而减少如幻想要素等错误。此外,该研究还开发了一个用户友好的Web界面,允许用户输入自然语言查询并验证结果的准确性。

   地址:https://arxiv.org/pdf/2409.04181

   代码:https://git.zib.de/lpusch/cyphergenkg-gui


24. UNIT:统一图像和文本识别的视觉编码器

   标题:UNIT: Unifying Image and Text Recognition in One Vision Encoder

   关键词:大模型、双模态学习、模型结构、预训练

   作者:Yi Zhu,  Yanpeng Zhou,  Chunwei Wang

   分析:本文提出了一种名为UNIT的训练框架,旨在在单一模型中统一图像和文本识别。该框架从预训练的视觉编码器开始,引入轻量级的语言解码器和视觉解码器,以保留原图像编码能力的同时学习统一表示。通过两种训练阶段提高图像和文本识别的能力,并且不影响自然图像的识别性能,证明了对文本识别的显著增强。

   地址:https://arxiv.org/pdf/2409.04095


25. UI-JEPA: 走近用户意图通过屏幕上用户活动的主动感知

   标题:UI-JEPA: Towards Active Perception of User Intent through Onscreen User Activity

   关键词:主动感知、用户意图、屏幕活动、轻量级解决方案

   作者:Yicheng Fu,  Raviteja Anantha,  Prabal Vashisht

   分析:本文提出了一种名为UI-JEPA的新型框架,它通过自我监督学习从未标记数据中学习抽象的用户界面(UI)嵌入,结合一个经过微调和的大型语言模型(MLLM)解码器来预测用户意图。同时,本文引入了两个新的多模态用户界面理解数据集——Intent in the Wild (IIW)和Intent in the Tame (IIT),用于few-shot和zero-shot UI理解任务。UI-JEPA在IIW数据集上的性能与GPT-4 Turbo和Claude 3.5 Sonnet相当,但具有显著的减少标注和部署资源的能力。在IIW数据集上,UI-JEPA在计算成本和延迟方面分别实现了50.5x和6.6x的改进。这些结果表明UI-JEPA在轻量级、高性能的用户界面理解方面的有效性。

   地址:https://arxiv.org/pdf/2409.04081


26. MATWA:基于偏好的匹配Web工具包

   标题:MATWA: A Web Toolkit for Matching under Preferences

   关键词:MATWA、偏好匹配、算法工具包、实验资源

   作者:Frederik Glitzner,  David Manlove

   分析:这篇论文介绍了一个基于偏好的匹配问题的Web工具包MATWA。MATWA提供了一系列算法用于解决各种涉及偏好匹配的问题模型,它提供匹配算法的输出结果和可视化,并支持不同的问题实例。此外,MATWA还旨在成为该领域研究人员的资源,支持实验并帮助理解匹配算法。

   地址:https://arxiv.org/pdf/2409.04402

   代码:https://matwa.optimalmatching.com),


27. GALLa:图对齐大模型改进源代码理解

   标题:GALLa: Graph Aligned Large Language Models for Improved Source Code Understanding

   机构:上海交通大学

   关键词:图神经网络、跨模态对齐、源代码理解、大型语言模型

   作者:Ziyin Zhang,  Hang Yu,  Shijie Li

   分析:这篇论文提出了一种名为GALLa的图对齐大型语言模型,旨在改进源代码理解。它结合了图神经网络和跨模态对齐技术,将源代码的结构信息注入到大型语言模型中。通过微调期间的辅助任务,GALLa框架可以提高任何代码LLM在任何下游任务上的性能。该框架具有模型无关性和任务无关性,可在训练时从与微调数据无关的语料库中获取结构图数据,而在推理时则不会增加基线LLM的成本。

   地址:https://arxiv.org/pdf/2409.04183


28. 大模型中多编程语言集成用于代码生成

   标题:Multi-Programming Language Ensemble for Code Generation in Large Language Model

   关键词:大语言模型、多编程语言集成、代码生成、模型性能提升

   作者:Tengfei Xue,  Xuefeng Li,  Tahir Azim

   分析:这篇论文提出了一种名为Multi-Programming Language Ensemble (MPLE)的新方法,旨在通过整合多种编程语言的代码生成过程,提高大语言模型在代码生成任务中的整体性能。它通过将每种编程语言的代码生成视为一个“弱专家”,并有效地整合它们的输出,减轻了语言特定的错误和偏差。这种方法能够结合不同编程语言的优势,产生更加准确和稳健的代码。实验结果表明,该方法在现有基准测试(HumanEval和HumanEval-plus)上,将基线性能提高了高达17.92%,在HumanEval基准测试中达到了96.25%的准确率,创造了新的最先进成果。

   地址:https://arxiv.org/pdf/2409.04114

   代码:https://github.com/NinjaTech-AI/MPLE


29. HUMOS: 基于身体形状的人类运动模型

   标题:HUMOS: Human Motion Model Conditioned on Body Shape

   关键词:人类运动、身体形状、生成模型、物理真实

   作者:Shashank Tripathi,  Omid Taheri,  Christoph Lassner

   分析:本文旨在生成多样且物理上合理的真实人类运动。当前大部分的运动模型忽视了不同身体类型带来的影响,导致在不同体型上动作显得统一且不真实。本文通过应用循环一致性、直观物理学和稳定性约束,开发了一种新方法来利用未配对的训练数据,训练出一个基于身体形状的生成运动模型。这种方法能够在不忽略身体形态差异的前提下,生成多样、稳定且物理真实的动作,超越了当前最先进的生成模型。

   地址:https://arxiv.org/pdf/2409.03944

   代码:https://CarstenEpic.github.io/humos/


30. 基于自信度的文档OCR错误检测研究

   标题:Confidence-Aware Document OCR Error Detection

   关键词:OCR、信心得分、错误检测、预训练

   作者:Arthur Hemmer,  Mickaël Coustaty,  Nicola Bartolo

   分析:本文研究了OCR信心得分在增强后OCR错误检测方面的应用。通过分析不同OCR系统信心得分与错误率之间的关系,该论文开发了ConfBERT模型,该模型在词嵌入中融合了OCR信心得分,并提供了预训练阶段以调整噪声。实验结果表明,集成OCR信心得分可提升错误检测能力。本文强调了OCR信心得分在提高检测准确度方面的作用,并揭示了商业和开源OCR技术之间显著的性能差距。

   地址:https://arxiv.org/pdf/2409.04117


31. CoxKAN:Kolmogorov-Arnold网络用于可解释、高性能的生存分析

   标题:CoxKAN: Kolmogorov-Arnold Networks for Interpretable, High-Performance Survival Analysis

   关键词:CoxKAN、Kolmogorov-Arnold网络、生存分析、风险函数

   地址:https://arxiv.org/pdf/2409.04290


32. Karakalpak语言的大模型发展

   标题:Open Language Data Initiative: Advancing Low-Resource Machine Translation for Karakalpak

   关键词:大语言模型、机器翻译、低资源语言、Karakalpak语

   地址:https://arxiv.org/pdf/2409.04269


33. 神经音频编码器对语言模型生成语音的影响研究

   标题:Investigating Neural Audio Codecs for Speech Language Model-Based Speech Generation

   机构:微软、香港中文大学

   关键词:神经音频编码、语言模型、语音生成、codec性能

   地址:https://arxiv.org/pdf/2409.04016


34. NESTFUL:用于评估语言模型在嵌套API调用序列上能力的基准

   标题:NESTFUL: A Benchmark for Evaluating LLMs on Nested Sequences of API Calls

   关键词:NESTFUL、API调用、模型评估、大型语言模型

   地址:https://arxiv.org/pdf/2409.03797


35. 视觉Transformer中上下文是关键:具有动态行为的任务相关型反向攻击

   标题:Context is the Key: Backdoor Attacks for In-Context Learning with Vision Transformers

   关键词:视觉Transformer、任务相关型反向攻击、数据篡改、模型安全

   地址:https://arxiv.org/pdf/2409.04142


36. 大模型能生成新的研究想法吗?一项超大型与人工智能相关的语言学家评估实验

   标题:Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers

   关键词:大型语言模型,生成新研究思想,评估实验,模型评估,应用前景

   地址:https://arxiv.org/pdf/2409.04109


37. 大模型精炼维基数据分类法

   标题:Refining Wikidata Taxonomy using Large Language Models

   关键词:大型语言模型、维基数据分类法、图挖掘

   地址:https://arxiv.org/pdf/2409.04056


38. 数据高效生成用于数据集蒸馏的研究

   标题:Data-Efficient Generation for Dataset Distillation

   关键词:数据集蒸馏、类条件潜在扩散模型、图像生成、数据高效生成

   地址:https://arxiv.org/pdf/2409.03929


39. 大模型的时间成本模型回顾与改进

   标题:Revisiting the Time Cost Model of AllReduce

   地址:https://arxiv.org/pdf/2409.04202


今天的论文分享完啦,欢迎👏🏻👏🏻明天再来~

AI for Research
每天分享最新最热的Arxiv论文、一起来关注大模型、AIGC、AGI
 最新文章