仅需100条样本即可实现LLM在未知数据分布上的泛化?数据规模对语言模型表现的影响:以微调翻译大模型为例...

文摘   2024-09-07 12:32   广东  

前言:科研就像一场冒险,而看论文就是你的探险工具!只有通过深入阅读,才能找到宝藏,发现那些意想不到的科研奇遇哦!


1. 100 instances is all you need:通过在少量实例上测试预测新LLM在未见数据上的成功

  标题:100 instances is all you need: predicting the success of a new LLM on unseen data by testing on a few instances

  相关领域:模型评估

  作者:Lorenzo Pacchiardi,  Lucy G. Cheke,  José Hernández-Orallo

  分析:论文探讨了如何预测大型语言模型的个体任务表现,实现高可靠性和高效评估。研究提出了一种方法,通过评估模型在少数参考实例上的表现,训练一个通用的评估器,预测模型在其他实例上的表现。实验在HELM-Lite和KindsOfReasoning数据集上进行,使用OpenAI模型评估了不同版本的GPT,结果表明,使用同一分布的少量实例训练的评估器,预测性能与使用大量实例训练的评估器相当。

  地址:https://arxiv.org/pdf/2409.03563


2. 针对领域适应的大模型微调:训练策略、扩展性、模型合并及协同效应的探索

  标题:Fine-tuning large language models for domain adaptation: Exploration of training strategies, scaling, model merging and synergistic capabilities

  相关领域:模型结构改进、预训练、指令微调、模型评估

  作者:Wei Lu,  Rachel K. Luu,  Markus J. Buehler

  分析:这篇论文探索了大型语言模型(LLM)在领域适应中的微调策略,研究了继续预训练(CPT)、监督微调(SFT)以及基于偏好的优化方法,如直接偏好优化(DPO)和赔率比率偏好优化(ORPO)对微调LLM性能的影响。论文还发现了合并多个微调模型能催生超越单一模型能力的新能力,并在特定领域评估中取得了更好的性能。此外,论文也探讨了模型规模对微调策略效果的影响,并在图像生成和建筑设计中展示了LLM的潜力。

  地址:https://arxiv.org/pdf/2409.03444


3. 数据规模对语言模型表现的影响:以微调翻译大模型为例

  标题:How Much Data is Enough Data? Fine-Tuning Large Language Models for In-House Translation: Performance Evaluation Across Multiple Dataset Sizes

  机构:剑桥大学

  相关领域:模型评估、数据集构建

  作者:Inacio Vieira,  Will Allred,  Seamus Lankford

  分析:本文主要研究大型语言模型在内部翻译任务中的微调效果。实验以Llama 3 8B Instruct模型为基础,利用翻译记忆库(TMs)增强翻译质量和效率。通过对不同规模训练数据集的分析(从1k到207k片段),发现大规模数据集能提高翻译性能。集成TMs的LLM模型在特定业务领域翻译中表现出潜力,有助于提高翻译质量和缩短周转时间。

  地址:https://arxiv.org/pdf/2409.03454


4. Strategic CoT:通过策略引导增强大模型的推理能力

  标题:Strategic Chain-of-Thought: Guiding Accurate Reasoning in LLMs through Strategy Elicitation

  机构:西安交通大学、上海交通大学

  相关领域:模型结构改进、指令微调

  作者:Yu Wang,  Shiwan Zhao,  Zhihu Wang

  分析:论文提出战略思维链(SCoT)方法,旨在改进大语言模型(LLM)的推理能力。该方法在生成中间推理步骤之前,先融入战略知识,分为两个阶段:首先引出有效的解决问题策略,然后利用这些策略指导高质量的思维链路径生成和最终答案。实验表明,该方法在多个复杂推理任务上表现优异,提高了LLM性能。

  地址:https://arxiv.org/pdf/2409.03271


5. SegTalker:基于分割的说话人生成

  标题:SegTalker: Segmentation-based Talking Face Generation with Mask-guided Local Editing

  机构:浙江大学、北京大学、华南理工大学

  作者:Lingyu Xiong,  Xize Cheng,  Jintao Tan

  分析:这篇论文提出了一种名为SegTalker的新颖框架,旨在解决音频驱动的说话人生成中的纹理保留问题。通过引入分割作为中间表示,将唇部运动与图像纹理解耦。具体来说,利用解析网络的掩码来驱动生成说话人的分割,然后使用掩码引导编码器将图像语义区域分解为样式代码。最后,将之前生成的说话人分割和样式代码注入到掩码引导StyleGAN中,从而合成视频帧。这种方法能够有效地保留纹理细节,并在保持唇部同步的同时生成时间一致的视频。

  地址:https://arxiv.org/pdf/2409.03605


6. ChartMoE:专家连接器混合模型在高级图表理解中的应用

  标题:ChartMoE: Mixture of Expert Connector for Advanced Chart Understanding

  机构:IDEA、清华大学、北京大学

  相关领域:模型结构改进、多模态

  作者:Zhengzhuo Xu,  Bowen Qu,  Yiyan Qi

  分析:这篇论文提出了一种基于专家混合模型(MoE)的图表理解方法ChartMoE。它旨在解决自动图表理解问题,包括内容理解和文档解析。通过引入MoE架构来改进传统的线性投影器以缩短模态间距,并训练多个线性连接器来完成不同的对齐任务。此外,论文还介绍了ChartMoE-Align数据集,用于进行三种对齐任务,并通过实验验证了MoE连接器和初始化策略的有效性。

  地址:https://arxiv.org/pdf/2409.03277


7. mPLUG-DocOwl2:高分辨率压缩技术助力无OCR多页文档理解

  标题:mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding

  机构:阿里巴巴集团、中国人民大学、麻省理工学院

  相关领域:模型结构改进、预训练、多模态

  作者:Anwen Hu,  Haiyang Xu,  Liang Zhang

  分析:针对多页文档理解中的挑战,如文档图像分辨率增加带来的GPU内存消耗和推理速度减慢问题,本文提出了一种高分辨率DocCompressor模块,用于将高分辨率文档图像压缩成324个令牌。通过低分辨率全局视觉特征进行引导,以提高多页文档的理解能力和令牌效率。此外,本文还介绍了DocOwl2模型,该模型采用三阶段训练框架,包括单图像预训练、多图像继续预训练和多任务微调。DocOwl2在多页文档理解基准测试中达到了最新水平,并实现了超过50%的首个令牌延迟降低。该研究为跨页结构理解和问答系统提供了新的思路。

  地址:https://arxiv.org/pdf/2409.03420

  代码:https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl2


8. 基于直接偏好优化诱导的隐式奖励模型的有限泛化能力研究

  标题:On the Limited Generalization Capability of the Implicit Reward Model Induced by Direct Preference Optimization

  相关领域:奖励模型、RLHF

  作者:Yong Lin,  Skyler Seto,  Maartje ter Hoeve

  分析:论文研究了直接偏好优化(DPO)中隐式奖励模型(DPORM)的泛化能力。实验表明,尽管DPORM在训练集上的表现与显式奖励模型(EXRM)相当,但在验证集上,尤其是当数据分布发生变化时,其泛化效果不如EXRM。研究指出DPORM的有限泛化能力,并建议将显式奖励模型纳入迭代DPO方法中。

  地址:https://arxiv.org/pdf/2409.03650


9. 关注先行,整合在后:关于不同LLM层级中注意力重要性的探讨

  标题:Attend First, Consolidate Later: On the Importance of Attention in Different LLM Layers

  相关领域:模型结构改进、模型评估

  作者:Amit Ben Artzy,  Roy Schwartz

  分析:这篇论文探讨了基于解码器的大型语言模型(LLM)的工作机制,特别是在不同层级中注意力的角色和重要性。作者发现模型的后期层级更多地专注于内部信息处理,而不是依赖之前token的输入,这使得对先前token的操纵对这些层级性能的影响较小。同时,该研究还指出了模型的两个处理阶段:初步收集来自先前token的输入信息,然后进行内部处理。这为理解LLM的工作机制提供了新的视角。

  地址:https://arxiv.org/pdf/2409.03621


10. AdEMAMix优化器:更好、更快、更老

  标题:The AdEMAMix Optimizer: Better, Faster, Older

  机构:Apple、瑞士洛桑联邦理工学院

  作者:Matteo Pagliardini,  Pierre Ablin,  David Grangier

  分析:这篇论文主要探讨了动量优化器在机器学习应用中的中心地位,以及它们通常依赖于梯度指数移动平均(EMA)来累积过去的梯度。然而,这种方法可能无法同时给近期和较旧的梯度赋予高权重。作者提出了AdEMAMix,这是一种改进版的Adam优化器,通过混合两种EMA以更好地利用过去的梯度。实验结果表明,即使经过数万步,梯度仍然具有一定的相关性,有助于更快地收敛并降低最小值。此外,AdEMAMix在训练过程中显著减缓了遗忘。这篇论文的研究结果对于探索如何利用过去的梯度以改进优化器具有重要的启示意义。

  地址:https://arxiv.org/pdf/2409.03137


11. 调试大模型:一项初步评估

   标题:Debugging with Open-Source Large Language Models: An Evaluation

   相关领域:大型语言模型、软件工程、机器学习

   作者:Yacine Majdoub,  Eya Ben Charrada

   分析:这篇论文主要评估了开源大型语言模型在解决编程错误方面的表现。通过使用包含4000多份Python、Java和C++的BuggyCode基准测试,这些模型在修复代码错误方面的得分从43.9%到66.6%。DeepSeek-Coder在所有三种编程语言中都取得了最佳成绩。这表明开源大型语言模型在调试方面具有潜力,可以用于支持软件开发任务,尤其是在公司代码共享政策限制的情况下。

   地址:https://arxiv.org/pdf/2409.03031


12. 基于RAG的大模型在问答系统中的应用

   标题:RAG based Question-Answering for Contextual Response Prediction System

   机构:宾夕法尼亚州立大学

   相关领域:大模型、预训练、指令微调、奖励模型

   作者:Sriram Veturi,  Saurabh Vaichal,  Nafis Irtiza Tripto

   分析:这篇论文主要介绍了如何利用大型语言模型(LLMs)和检索增强生成(RAG)技术来构建一个有效的问答系统。这种系统可以用于处理客户查询,并根据查询提供相关的回应。然而,这个过程存在一些挑战,包括数据可用性、生成内容的质量评估以及人力评估的成本问题。为了解决这些问题,作者提出了一种端到端的解决方案,该方案结合了LLMs和RAG能力,并在一个零售公司的客户服务中心进行了验证。通过自动化和人工评估,该方案证明比当前的BERT基算法更准确和相关。这表明基于RAG的大型LLMs可以作为人类客户服务代表的有力支持,从而减轻他们的工作负担。

   地址:https://arxiv.org/pdf/2409.03708


13. MARAGS:一种用于多任务检索增强生成问答的多适配器系统

   标题:MARAGS: A Multi-Adapter System for Multi-Task Retrieval Augmented Generation Question Answering

   相关领域:模型结构改进、多模态

   作者:Mitchell DeHaven

   分析:这篇论文介绍了一种多适配器检索增强生成系统(MARAGS),用于KDD杯赛2024中的Meta的全面RAG(CRAG)竞赛。CRAG是一个问答数据集,包含三个不同子任务,旨在应对与RAG相关的现实问答任务,具有多样化的主题、类型、动态答案和不同的实体流行度。论文采用基于网页的RAG标准设置,使用处理后的网页为LLM提供上下文以产生生成内容,同时查询API端点以获取附加信息。MARAGS使用多个不同的适配器来解决这些任务的各种要求,并使用标准交叉编码器模型来排名与回答问题相关的候选段落。该系统在任务1中获得第二名,在任务2中获得第三名。

   地址:https://arxiv.org/pdf/2409.03171


14. 室内设计领域的专业扩散模型:RoomDiffusion

   标题:RoomDiffusion: A Specialized Diffusion Model in the Interior Design Industry

   相关领域:模型结构改进、特定领域应用

   作者:Zhaowei Wang,  Ying Hao,  Hao Wei

   分析:论文介绍了一种针对室内设计领域的专业扩散模型RoomDiffusion。该模型从数据管道构建开始,通过多方面训练、多阶段微调等技术提升生成结果的视觉吸引力和精确度。同时,利用潜在一致性蒸馏方法,实现模型的优化和加速。RoomDiffusion解决了室内设计中的特定挑战,如缺乏时尚元素、家具重复率高以及风格不准确等问题,并在美学、准确性和效率方面表现出行业领先水平。

   地址:https://arxiv.org/pdf/2409.03198


15. ScreenMark: 屏幕上的任意视觉内容水印技术

   标题:ScreenMark: Watermarking Arbitrary Visual Content on Screen

   机构:复旦大学

   相关领域:模型结构改进

   作者:Xiujian Liang,  Gaozhi Liu,  Yichao Si

   分析:数字水印已经证明了其对多媒体内容保护的有效性。然而,现有的水印方法主要针对特定的媒体类型,而对于在计算机屏幕上展示的动态、多模态内容的保护效果较差,突出表现在易于通过截图窃取和泄露,并且当前的水印方法无法充分解决这些问题。视觉屏幕内容(VSC)特别容易受到截图抄袭的影响。为解决这些问题,该论文提出了ScreenMark,一个专门用于任意VSC保护的鲁棒且实用的水印方法。ScreenMark采用了一个三阶段渐进式水印框架。首先,该论文根据扩散原理初始化常规水印信息与异常水印图案之间的相互转换。随后,将这些模式与屏幕内容通过预乘α融合技术结合,并使用预训练的屏幕解码器进行准确的水印检索。复杂程度渐进递增的扰乱器增强了水印在真实世界截图场景中的鲁棒性。最后,模型通过指导性扰乱器进行微调,以确保最佳性能。通过收集来自不同设备和分辨率的100,000张截图构建数据集并进行广泛实验,证明了ScreenMark在稳定性、透明度和实用性方面均优于现有方法。

   地址:https://arxiv.org/pdf/2409.03487


16. 大模型的注意力头研究概览

   标题:Attention Heads of Large Language Models: A Survey

   相关领域:模型结构改进、模型评估

   作者:Zifan Zheng,  Yezhaohui Wang,  Yuxin Huang

   分析:本文旨在通过探索大型语言模型(LLM)的注意力头机制,揭示其内部推理过程。文章通过构建一个四阶段框架来模拟人类的思维过程,进而深入研究注意力头的作用和功能分类。此外,文章还总结了用于发现特殊注意力头的研究方法和评估方法,讨论了当前研究的局限性,并展望了未来的研究方向。

   地址:https://arxiv.org/pdf/2409.03752

   代码:https://github.com/IAAR-Shanghai/Awesome-Attention-Heads


17. Sketch工具包:简化大模型操作

   标题:Sketch: A Toolkit for Streamlining LLM Operations

   机构:电子科技大学、南洋理工大学、北京AI研究院

   相关领域:模型应用、工具包、输出格式控制、数据集构建

   作者:Xin Jiang,  Xiang Li,  Wenjia Ma

   分析:这篇论文介绍了一个名为Sketch的工具包,旨在简化大语言模型(LLMs)的操作。Sketch包含任务描述模式、提示模板、输出格式控制数据集和模型构建工具等组件,旨在提高LLMs在各种领域中的易用性和适用性。该工具包通过提供一种用户友好的方式,使得用户能够轻松地构建针对特定自然语言处理任务的定制LLM服务,并控制输出格式。

   地址:https://arxiv.org/pdf/2409.03346

   代码:https://github.com/cofe-ai/Sketch


18. xLAM:为人工智能代理系统赋能的大型动作模型家族

   标题:xLAM: A Family of Large Action Models to Empower AI Agent Systems

   机构:Salesforce AI

   相关领域:模型结构改进、预训练、数据集构建

   作者:Jianguo Zhang,  Tian Lan,  Ming Zhu

   分析:介绍xLAM系列模型,这是一个为人工智能代理任务设计的大型动作模型家族。该论文通过统一、增强和合成各种数据集,使用可扩展和灵活的训练管道来训练模型,旨在提高人工智能代理在多种环境中的通用性和性能。实验结果表明,xLAM在多个代理能力基准测试中表现出卓越性能。论文的目标是推进开源LLM在自主人工智能代理方面的性能,并加速代理任务的高性能模型民主化。

   地址:https://arxiv.org/pdf/2409.03215

   代码:https://huggingface.co/collections/Salesforce/xlam-models-65f00e2a0a63bbcd1c2dade4


19. HGAMN:面向百度地图多语言POI检索的异质图注意力匹配网络

   标题:HGAMN: Heterogeneous Graph Attention Matching Network for Multilingual POI Retrieval at Baidu Maps

   机构:百度、北京邮电大学

   相关领域:模型结构改进、多模态

   作者:Jizhou Huang,  Haifeng Wang,  Yibo Sun

   分析:该论文提出了一种异质图注意力匹配网络(HGAMN),用于解决百度地图中的多语言POI检索问题。网络构建了异质图,包含POI节点和查询节点两种类型的节点,以应对访问稀疏和多语言查询POI匹配两个关键挑战。通过构建边缘连接不同的POI节点和POI与查询节点,实现了知识转移和跨语言查询的聚合。此外,论文还设计了一个基于注意力的网络来联合学习节点的表示,以及一个交叉注意力模块来融合两种类型节点的表示,以进行查询POI相关性评分。实验证明HGAMN在真实数据集上的优越性和有效性,并已成功部署在百度地图产品中服务。

   地址:https://arxiv.org/pdf/2409.03504


20. 生成式图像中实际人体部位的两种级联方法

   标题:RealisHuman: A Two-Stage Approach for Refining Malformed Human Parts in Generated Images

   机构:阿里巴巴集团

   作者:Benzhi Wang,  Jingkai Zhou,  Jingqi Bai

   分析:近年来,扩散模型革命性推动了视觉生成,超越了传统框架如生成对抗网络(GANs)。然而,生成拥有实际语义部位的人体图像,如手和脸,仍然面临重大挑战,因为它们的结构复杂性。为此,该论文提出了一个名为RealisHuman的新颖后处理解决方案。RealisHuman框架由两个阶段组成。首先,它使用原始异常部分作为参考,生成拥有实际人体部件,如手或脸,确保与原始图像的细节保持一致。其次,它通过涂抹周围区域,以无缝地将修复的人体部件合并回相应位置,确保平滑和现实融合。RealisHuman框架显著提高了人体生成的真实性,并体现在质性和定量指标上的显著改进。

   地址:https://arxiv.org/pdf/2409.03644

   代码:https://github.com/Wangbenzhi/RealisHuman


21. RoVi-Aug:机器人与视角增强技术助力跨实体机器人学习

   标题:RoVi-Aug: Robot and Viewpoint Augmentation for Cross-Embodiment Robot Learning

   机构:UC伯克利分校

   相关领域:数据集构建、模型结构改进

   作者:Lawrence Yunliang Chen,  Chenfeng Xu,  Karthik Dharmarajan

   分析:本文主要介绍了机器人学习中数据扩充的一种新方法——RoVi-Aug技术。该技术在利用图像到图像的生成模型的基础上,通过合成不同机器人和相机视角的演示数据,解决了机器人学习中的数据多样性和效率问题。实验表明,RoVi-Aug可以在未见过的机器人上实现零射移部署,显著提高策略成功率。

   地址:https://arxiv.org/pdf/2409.03403


22. 大模型基于软件工程的代理:综述

   标题:Large Language Model-Based Agents for Software Engineering: A Survey

   机构:复旦大学、南洋理工大学、伊利诺伊大学

   相关领域:模型结构改进、预训练、指令微调、奖励模型

   作者:Junwei Liu,  Kaixin Wang,  Yixuan Chen

   分析:这篇论文主要探讨了基于大型语言模型(LLM)的软件工程代理的研究。LLM-based agents通过增强LLM的能力,使其能够感知和利用外部资源和工具,从而大大扩展了LLM的通用性和专业知识。这种新型AI代理在软件工程领域已经得到了有效的应用,并且通过多个代理与人类的交互,进一步解决了复杂的实际软件工程问题。作者还对这个领域的开放性挑战和未来方向进行了讨论。

   地址:https://arxiv.org/pdf/2409.02977

   代码:https://github.com/FudanSELab/Agent4SE-Paper-List


23. VeriX+: 提升机器学习模型解释的验证

   标题:Better Verified Explanations with Applications to Incorrectness and Out-of-Distribution Detection

   机构:斯坦福大学

   相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

   作者:Min Wu,  Xiaofu Li,  Haoze Wu

   分析:这篇论文主要介绍了VeriX+,这是一个在机器学习模型输出中生成最优验证解释的系统。他们基于VeriX构建了VeriX+,大大提升了验证解释的大小和生成时间。他们引入了一种基于边界传播的敏感性技术来提高大小,以及一种基于二分搜索的带有置信度排名的遍历来改善时间。实验结果表明,在各种标准基准上都有显著的改进,例如在GTSRB数据集上的大小减少了38%,在MNIST上的时间减少了90%。此外,他们还探索了VeriX+的应用,并证明解释大小是一个有用的不正确性和out-of-distribution检测的代理。

   地址:https://arxiv.org/pdf/2409.03060

   代码:https://arxiv.org/abs/2212.01051),


24. 掩码感官-时间关注:四足机器人运动中的传感器泛化处理

   标题:Masked Sensory-Temporal Attention for Sensor Generalization in Quadruped Locomotion

   机构:英伟达、南洋理工大学

   作者:Dikai Liu,  Tianwei Zhang,  Jianxiong Yin

   分析:随着四足机器人越来越多的关注,一种能够处理不同机器人模型和传感器输入的通用策略将非常有益。尽管已经提出了几种解决不同形态的方法,但是对于学习基于的策略来说,管理各种传感器数据的组合仍然是一个挑战。本文提出了一种新颖的基于Transform的模型Masked Sensory-Temporal Attention (MSTA),利用直接传感器级别的注意力来增强感知-时间理解并处理不同的传感器数据组合,这为将未见信息纳入通用策略奠定了基础。这个模型在大部分缺失传感器数据的情况下,仍然可以有效地理解其状态,并且足够灵活可以在基于物理系统的部署中使用,即使输入序列较长。

   地址:https://arxiv.org/pdf/2409.03332


25. 视觉不变的策略学习:通过零样本新视角合成

   标题:View-Invariant Policy Learning via Zero-Shot Novel View Synthesis

   机构:斯坦福大学

   相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

   作者:Stephen Tian,  Blake Wulfe,  Kyle Sargent

   分析:视觉不变的策略学习是开发可泛化操纵系统的一种有前景的方法。然而,能够在各种实施、环境和观察模态上部署的政策仍然难以实现。在这项工作中,该论文研究了如何利用世界大规模视觉数据的知识来解决可泛化操纵的一个变化轴:观察视角。具体来说,该论文研究了单图像的新视角合成模型,这些模型通过从不同的摄像机视角渲染同一场景的图像来学习3D感知的场景级先验条件,给定单个输入图像。为了将这些模型应用于各种机器人数据的实际应用,它们必须在零样本的情况下操作,对看不见的任务和环境进行视图合成。该论文通过分析该论文称之为视图合成增强(VISTA)的简单数据增强方案中的视图合成模型来实证了解它们从单视图演示数据中学习观察视角不变策略的能力。在评估了使用该论文的方法训练的策略对离群相机视角的鲁棒性后,该论文发现它们在模拟和实际操纵任务中的表现优于基线。有关更多信息和可视化,请访问https://s-tian.github.io/projects/vista。

   地址:https://arxiv.org/pdf/2409.03685

   代码:https://s-tian.github.io/projects/vista


26. CLUE:概念层级不确定度估计 for Large Language Models

   标题:CLUE: Concept-Level Uncertainty Estimation for Large Language Models

   机构:UC洛杉矶分校、卡内基梅隆大学

   相关领域:模型不确定度估计

   作者:Yu-Hsiang Wang,  Andrew Bai,  Che-Ping Tsai

   分析:这篇论文主要提出了一种名为CLUE的概念层级不确定度估计方法,它针对大型语言模型中的序列不确定性,尤其是忽略了对序列中每个元素单独的不确定度评估。与以往主要关注序列不确定性的方法不同,CLUE能够将生成序列转换为概念层级表示,从而单独评估每个概念的不确定度。作者通过实验验证了CLUE能够提供更为可解释的 uncertainty 估计结果,并且可以应用于诸如 hallucination detection(作梦检测) 和 story generation(故事生成)等任务。

   地址:https://arxiv.org/pdf/2409.03021


27. Debate on Graph:大模型中灵活而可靠的理由框架

   标题:Debate on Graph: a Flexible and Reliable Reasoning Framework for Large Language Models

   机构:山东大学、香港科技大学、西北工业大学

   相关领域:模型结构改进

   作者:Jie Ma,  Zhitao Gao,  Qi Chai

   分析:论文主要探讨了大型语言模型在实际应用中存在的想象问题,这些问题通常是因为缺乏相关知识导致的。知识图谱以其丰富的多关系结构存储大量符号事实而备受关注。本次研究提出了一种迭代交互式框架,结合了LLMs的交涉学习能力来执行推理,并引入了辩论图(DoG)机制。该方法通过一种聚焦机制减少推理过程中长路径的影响,并通过辩论团队简化复杂问题,从而减少了假阳性关系的影响。实验结果表明该架构的有效性,尤其是在WebQuestions和GrailQA数据集中,DoG相对于ToG方法有着显著的提升。

   地址:https://arxiv.org/pdf/2409.03155

   代码:https://github.com/reml-group/DoG


28. OccLLaMA:基于占用语言动作的自主驾驶生成式世界模型

   标题:OccLLaMA: An Occupancy-Language-Action Generative World Model for Autonomous Driving

   机构:复旦大学、清华大学

   相关领域:模型结构改进、多模态

   作者:Julong Wei,  Shanshuai Yuan,  Pengfei Li

   分析:这篇论文提出了一种基于占用语言动作的自主驾驶生成式世界模型OccLLaMA。该模型使用语义占用作为通用视觉表示,并通过自回归模型统一视觉语言动作(VLA)模态。论文引入了新型的VQVAE类场景标记器,能够高效地离散化和重建语义占用场景,并建立了跨视觉、语言和动作的统一多模态词汇。此外,论文还强化了大型语言模型LLaMA,以在统一词汇上进行下一个标记/场景预测,完成自主驾驶的多个任务。实验表明,OccLLaMA在多个任务上表现出竞争力,包括4D占用预测、运动规划和视觉问答,可作为自主驾驶的基石模型。

   地址:https://arxiv.org/pdf/2409.03272


29. 基于TOPSIS实时感知手机性能状态的应用研究

   标题:Application Research On Real-Time Perception Of Device Performance Status

   机构:字节跳动

   作者:Zhe Wang,  Zhen Wang,  Jianwen Wu

   分析:研究了一种基于TOPSIS法结合熵权法及时间序列建模的实时性能感知评估方法,用于准确识别移动设备性能状态并调整用户体验。研究通过PCA降维等方法处理设备性能特征,利用TOPSIS等方法研究性能特征和描述设备实时状态的潜力,并建立特征集的时间序列模型进行多重敏感性感知,包括实时感知结果与长期稳定性预测数据的提供等。

   地址:https://arxiv.org/pdf/2409.03218


30. 规划自然语言改进LLM搜索for代码生成

   标题:Planning In Natural Language Improves LLM Search For Code Generation

   机构:东北大学、加州理工学院

   相关领域:模型结构改进、预训练、指令微调、模型搜索

   作者:Evan Wang,  Federico Cassano,  Catherine Wu

   分析:这篇论文提出了一个名为PLANSEARCH的新型搜索算法,它通过在自然语言中搜索解决问题的计划来减轻大型语言模型(LLM)输出缺乏多样性的问题,从而提高搜索效率。PLANSEARCH通过生成问题的一系列多样化的观察,然后根据这些观察来构建解决问题的方法。与基于重复采样的基准方法相比,PLANSEARCH在LiveCodeBench(一个用于评估编程竞争的 contamination-free benchmark)上的表现取得了 state-of-the-art 的成就,并且它也 outperformed 没有搜索(pass@1 = 41.4%)的情况。论文还展示了基于生成的想法 Diversity 的准确度量可以预测搜索带来的性能提高。

   地址:https://arxiv.org/pdf/2409.03733


31. 内容审查 by LLM: 从准确性到合法性

   标题:Content Moderation by LLM: From Accuracy to Legitimacy

   机构:香港城市大学

   相关领域:模型评估、内容审查、合法性

   地址:https://arxiv.org/pdf/2409.03219


32. 材料科学领域大模型的解决问题能力评估基准:MaterialBENCH

   标题:MaterialBENCH: Evaluating College-Level Materials Science Problem-Solving Abilities of Large Language Models

   相关领域:模型评估、数据集构建

   地址:https://arxiv.org/pdf/2409.03161


33. LLM检测器在现实世界的短板:以LLM生成的短新闻类帖子为例

   标题:LLM Detectors Still Fall Short of Real World: Case of LLM-Generated Short News-Like Posts

   机构:瑞士洛桑联邦理工学院

   相关领域:模型评估、数据集构建

   地址:https://arxiv.org/pdf/2409.03291

   代码:https://github.com/Reliable-Information-Lab-HEVS/dynamic_llm_detector_benchmark)


34. 语言模型aware的语音分词:LAST

   标题:LAST: Language Model Aware Speech Tokenization

   机构:希伯来大学

   相关领域:模型结构改进、预训练

   地址:https://arxiv.org/pdf/2409.03701


35. Con-ReCall:通过对比解码检测大模型中的预训练数据

   标题:Con-ReCall: Detecting Pre-training Data in LLMs via Contrastive Decoding

   机构:新加坡国立大学、UC洛杉矶分校

   相关领域:模型评估、预训练

   地址:https://arxiv.org/pdf/2409.03363


36. GraphEx:基于图的广告关键词推荐提取方法

   标题:GraphEx: A Graph-based Extraction Method for Advertiser Keyphrase Recommendation

   机构:宾夕法尼亚州立大学

   相关领域:模型评估

   地址:https://arxiv.org/pdf/2409.03140


37. 基于三重条件扩散模型的合成人脸风格化研究

   标题:TCDiff: Triple Condition Diffusion Model with 3D Constraints for Stylizing Synthetic Faces

   相关领域:模型结构改进、数据集构建

   地址:https://arxiv.org/pdf/2409.03600

   代码:https://github.com/BOVIFOCR/tcdiff


38. 基于N-gram预测和词差异表示的建模技术研究

   标题:N-gram Prediction and Word Difference Representations for Language Modeling

   相关领域:模型结构改进、预训练

   地址:https://arxiv.org/pdf/2409.03295


39. 基于ELO评分的序列奖励强化学习模型研究

   标题:ELO-Rated Sequence Rewards: Advancing Reinforcement Learning Models

   机构:华中科技大学

   相关领域:奖励模型、强化学习

   地址:https://arxiv.org/pdf/2409.03301


40. Lexicon3D: 探究视觉基础模型对复杂3D场景理解的深度

   标题:Lexicon3D: Probing Visual Foundation Models for Complex 3D Scene Understanding

   机构:伊利诺伊大学、卡内基梅隆大学

   相关领域:模型结构改进、预训练、视觉基础模型性能评估

   地址:https://arxiv.org/pdf/2409.03757


41. Rx Strategist:使用LLM代理系统

   标题:Rx Strategist: Prescription Verification using LLM Agents System

   相关领域:模型结构改进、模型应用

   地址:https://arxiv.org/pdf/2409.03440


42. 基于双重系统理论的CogniDual框架自我训练大模型以改善认知任务

   标题:CogniDual Framework: Self-Training Large Language Models within a Dual-System Theoretical Framework for Improving Cognitive Tasks

   机构:莫纳什大学

   相关领域:模型结构改进、预训练、模型评估

   地址:https://arxiv.org/pdf/2409.03381


43. 人工智能数据透明度探究:以人工智能事件为视角

   标题:AI data transparency: an exploration through the lens of AI incidents

   机构:伦敦国王学院

   相关领域:数据集构建、模型评估

   地址:https://arxiv.org/pdf/2409.03307


44. 混合梯度计算训练数字相关模拟块

   标题:Towards training digitally-tied analog blocks via hybrid gradient computation

   相关领域:人工智能、数字电路、模拟技术

   地址:https://arxiv.org/pdf/2409.03306


45. iText2KG:利用大模型进行增量知识图谱构建

   标题:iText2KG: Incremental Knowledge Graphs Construction Using Large Language Models

   相关领域:模型结构改进、数据集构建

   地址:https://arxiv.org/pdf/2409.03284


46. 风格增强生动肖像谈话头扩散模型(SVP)

   标题:SVP: Style-Enhanced Vivid Portrait Talking Head Diffusion Model

   机构:腾讯、复旦大学

   相关领域:模型结构改进、多模态

   地址:https://arxiv.org/pdf/2409.03270


47. Well, that escalated quickly:单轮升级攻击(STCA)

   标题:Well, that escalated quickly: The Single-Turn Crescendo Attack (STCA)

   相关领域:模型评估、 adversarial attack

   地址:https://arxiv.org/pdf/2409.03131


48. Vec2Face:利用松散约束向量扩展人脸数据集生成

   标题:Vec2Face: Scaling Face Dataset Generation with Loosely Constrained Vectors

   机构:圣母大学、澳大利亚国立大学

   相关领域:数据集构建、模型结构改进

   地址:https://arxiv.org/pdf/2409.02979


49. ArtiFade:从瑕疵图像中学习生成高质量主题

   标题:ArtiFade: Learning to Generate High-quality Subject from Blemished Images

   相关领域:

   地址:https://arxiv.org/pdf/2409.03745


50. 基于领域指导的权重调制方法用于半监督领域泛化

   标题:Domain-Guided Weight Modulation for Semi-Supervised Domain Generalization

   相关领域:预训练

   地址:https://arxiv.org/pdf/2409.03509


51. L0正则化下的参数模型稀疏化研究

   标题:Sparsifying Parametric Models with L0 Regularization

   地址:https://arxiv.org/pdf/2409.03489

   代码:https://github.com/nicob15/Sparsifying-Parametric-Models-with-L0


52. LLM-CI:评估语言模型中的上下文一致规范

   标题:LLM-CI: Assessing Contextual Integrity Norms in Language Models

   机构:约克大学、滑铁卢大学

   相关领域:模型评估

   地址:https://arxiv.org/pdf/2409.03735


53. 大型视觉语言模型在艺术史领域掌握情况探究

   标题:Have Large Vision-Language Models Mastered Art History?

   相关领域:多模态、模型结构改进

   地址:https://arxiv.org/pdf/2409.03521


54. No Detail Left Behind:重新审视自我检索在精细粒度图像描述中的应用

   标题:No Detail Left Behind: Revisiting Self-Retrieval for Fine-Grained Image Captioning

   相关领域:模型结构改进、奖励模型、模型评估、精细粒度图像描述

   地址:https://arxiv.org/pdf/2409.03025


55. 人工智能在音乐生成方面的应用与进展综述

   标题:Applications and Advances of Artificial Intelligence in Music Generation:A Review

   地址:https://arxiv.org/pdf/2409.03715


56. 大模型在少样本学习和微调任务中的表示格局

   标题:The representation landscape of few-shot learning and fine-tuning in large language models

   相关领域:模型结构改进、预训练、指令微调、奖励模型

   地址:https://arxiv.org/pdf/2409.03662


57. Beyond Model Interpretability:机器学习中的社会结构解释

   标题:Beyond Model Interpretability: Socio-Structural Explanations in Machine Learning

   机构:谷歌研究院

   地址:https://arxiv.org/pdf/2409.03632


58. 基于注意力控制的混合潜在扩散在现实视频编辑中的应用

   标题:Blended Latent Diffusion under Attention Control for Real-World Video Editing

   相关领域:模型结构改进、多模态

   地址:https://arxiv.org/pdf/2409.03514


59. 长期研究理解LLM发展:开曼大模型排行榜的见解

   标题:Understanding LLM Development Through Longitudinal Study: Insights from the Open Ko-LLM Leaderboard

   相关领域:模型评估

   地址:https://arxiv.org/pdf/2409.03257


60. Hallucination Detection in LLMs:快速且内存高效的微调模型

   标题:Hallucination Detection in LLMs: Fast and Memory-Efficient Finetuned Models

   相关领域:模型评估

   地址:https://arxiv.org/pdf/2409.02976


看论文是一天,不看论文也是一天,为什么不每天充实下自己呢^_^^_^

AI for Research
每天分享最新最热的Arxiv论文、一起来关注大模型、AIGC、AGI
 最新文章