前言:平淡无奇的一天又来了,今天要分享的内容主要是关于大模型、大语言模型、模型结构改进的,喜欢的小伙伴赶紧去阅读相关论文吧。
1. Molmo and PixMo:开放权重和开放数据的多模态顶尖模型
标题:Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models
机构:华盛顿大学、艾伦AI研究所
关键词:多模态语言模型、数据集构建、模型蒸馏、开放数据
作者:Matt Deitke, Christopher Clark, Sangho Lee
分析:这篇论文主要介绍了Molmo,这是一种新的多模态语言模型,它在开放权重和多模态模型中处于顶尖水平。论文指出,目前的顶尖多模态模型仍然属于专有技术,开放的重量模型依赖专门数据集来实现较好的性能。论文中提出了Molmo模型,这一创新包括了一个全新的、详细的图像描述数据集,以及多样化的数据集混合,用于微调,包括野外问答数据和2D指向数据。研究通过精心选择模型架构细节、训练流程和高质量数据集,成功地超越了同类的开放模型,并在公开基准和人类评估中表现良好。
地址:https://arxiv.org/pdf/2409.17146
代码:https://molmo.allenai.org
2. 利用多样性在预训练大模型中选择重要数据
标题:Harnessing Diversity for Important Data Selection in Pretraining Large Language Models
机构:商汤研究院、亚利桑那大学、上海AI实验室
关键词:大型语言模型、数据影响力、多样性、预训练
作者:Chi Zhang, Huaping Zhong, Kuan Zhang
分析:这篇论文主要探讨了在预训练大型语言模型中,如何通过数据影响力来衡量数据实例的重要性,以提高模型的性能。然而,现有的方法存在计算复杂度高和数据选择缺乏多样性的问题。因此,作者提出了一种名为‘Quad’的方法,该方法结合了数据的质量和多样性,通过使用数据影响力来实现最先进的预训练结果。具体来说,该方法将注意力层的速度计算方法进行了适应,以增强对数据影响力的评估能力。同时,对于多样性的考虑,‘Quad’将数据集划分为相似的数据实例组和不同的数据实例组,并从每个组中选择一部分样本进行评估,以防止处理所有实例。此外,为了确定应选择哪些组,该方法使用了经典的多臂赌博机策略,将每个组视为一个臂,从而更倾向于选择具有高度影响力的实例(确保高质量)或已被选择较少次数的组(确保多样性),从而在质量和多样性之间达到良好的平衡。
地址:https://arxiv.org/pdf/2409.16986
3. 编程优化每一份样本:像专家一样在规模上提升预训练数据质量
标题:Programming Every Example: Lifting Pre-training Data Quality like Experts at Scale
机构:上海AI实验室、Sea AI实验室
关键词:编程每例、数据精炼、大规模语言模型、预训练改进
作者:Fan Zhou, Zengzhi Wang, Qian Liu
分析:本文探讨了大规模语言模型的预训练过程,指出传统方法依赖于人类专家制定修正语料库质量的启发式规则,现已形成了众多规则,并分析了这些规则在应对每个实例独特特征时的局限性。实现每一项例子的个性化规则调整对人类专家来说实施效率低下。因此,论文提出了一个新颖的框架——Programming Every Example (ProX),这一框架将数据精炼视为编程任务,允许使用每样本微调操作,如字符串规范化,规模化提升数据质量。实验结果显示,经过ProX筛选的数据在下游任务中表现出优于原始数据和其它选样方法的性能提升,这一有效性不仅适用于各种模型规模和预训练语料库,包括C4、RedPajama-V2及FineWeb。此外,对于特定领域的连续预训练,ProX无需特定领域的设计也能超越人工编写的规则方法,显著提高了OpenWebMath的平均准确率,超过Mistral-7B占比7.6%,Llama-2-7B占比14.6%,CodeLlama-7B占比20.3%,在10B个模型参数下的效率远超使用200B个训练样本的LLemma-7B模型。此外,ProX还能大幅节省训练所需的浮点运算,为大规模语言模型的高效预训练提供了实例。
地址:https://arxiv.org/pdf/2409.17115
代码:https://github.com/GAIR-NLP/ProX
4. 自我博弈生成数据训练辩论语言模型以提高评判准确性研究
标题:Training Language Models to Win Debates with Self-Play Improves Judge Accuracy
关键词:语言模型、自我博弈、评估准确性、模型评估
作者:Samuel Arnesen, David Rein, Julian Michael
分析:该论文测试了辩论作为一种可扩展的监督方法的稳健性。它通过训练模型与自我博弈生成的数据进行辩论,发现当评判优化的辩论模型时,基于语言模型的评估者回答问题更准确。研究还表明,辩论训练鼓励更强和更有说服力的论证,有望为难以直接评估的任务提供高质量监督。
地址:https://arxiv.org/pdf/2409.16636
5. AlignedKV:减少混合精度KV缓存中参数的内存访问
标题:AlignedKV: Reducing Memory Access of KV-Cache with Precision-Aligned Quantization
机构:清华大学
关键词:混合精度量化、KV-Cache量化、参数重要性、深度学习模型优化
作者:Yifan Tan, Haoze Wang, Chao Yan
分析:深度学习模型大幅度的参数大缩放(比如16位精度到32位精度)可以有效减少模型大小,缓解内存消耗和提高推理速度。本文提出了一个新的关键度量原理'精度对齐',以全面评估混合精度量化中参数的重要性。深度学习中乘法的内容表明浮点数加法运算需要精确对齐,否则导致低精度数据浪费。本文还开发了一种动态KV-Cache量化技术来有效减少模型推理的内存访问延迟。这种量化方法对大模型的作用是什么,仍然值得关注。
地址:https://arxiv.org/pdf/2409.16546
6. 动态宽度推测式束解码技术在高效大模型推理中的应用研究
标题:Dynamic-Width Speculative Beam Decoding for Efficient LLM Inference
机构:UC洛杉矶分校
关键词:大语言模型、推测式解码、束采样、推断加速
作者:Zongyue Qin, Zifan He, Neha Prakriya
分析:这篇论文提出了一个名为动态宽度推测式束解码技术(DSBD)的新方法,旨在解决大语言模型(LLM)推理过程中的速度和成本问题。该技术结合了推测式解码和束采样,通过一个小型辅助模型来预测未来的token,并由大模型进行验证,实现了1-2倍的推理加速。论文着重探讨了如何在生成复杂序列的同时,平衡效率与准确率,并提出了适应性强、并行性高的解决方案。
地址:https://arxiv.org/pdf/2409.16560
7. INT-FlashAttention:实现INT8量化中的即时注意力加速
标题:INT-FlashAttention: Enabling Flash Attention for INT8 Quantization
机构:北京大学、北京航空航天大学
关键词:INT8量化、FlashAttention、大型语言模型、推理加速
作者:Shimao Chen, Zirui Liu, Zhiying Wu
分析:这篇论文介绍了一种名为INT-FlashAttention的技术,它将INT8量化与FlashAttention技术相结合,以加速大型语言模型的推理速度。论文解决了自注意力模块面临的时间复杂度和内存复杂度的挑战,通过利用GPU内存层次结构来加速注意力计算并减少内存使用。INT-FlashAttention的实现具有完全的INT8激活和通用矩阵乘法(GEMM)内核,显著提高了在Ampere GPU上的推理速度。此外,该技术还兼容其他数据格式,如INT4等。
地址:https://arxiv.org/pdf/2409.16997
8. 学习是否都是基于自然梯度下降?
标题:Is All Learning (Natural) Gradient Descent?
机构:麻省理工学院、IBM研究院
关键词:自然梯度下降、学习规则、模型结构改进
作者:Lucas Shoji, Kenta Suzuki, Leo Kozachkov
分析:这篇论文展示了广泛有效的学习规则,这些规则可以改善在给定时间窗口内的标量性能度量。论文把这些学习规则重新解释为关于适当定义的损失函数和度量的自然梯度下降。论文还展示了这些度量的规范形式,并确定了几个最优的度量,包括实现最小条件数的度量。这些结果适用于连续时间和离散时间、随机以及高阶学习规则,以及显式依赖于时间的损失函数。
地址:https://arxiv.org/pdf/2409.16422
9. FastTalker:从文本生成语音和对话手势的联合框架
标题:FastTalker: Jointly Generating Speech and Conversational Gestures from Text
机构:多伦多大学、早稻田大学
关键词:FastTalker、语音合成、手势生成、模型结构改进
作者:Zixin Guo, Jian Zhang
分析:本文介绍了一种名为FastTalker的高效有效框架,用于同时生成高质量语音音频和三维人体手势,实现高推理速度。通过在语音合成中重用中间特征来生成手势,这些特征比从生成语音中重新提取的特征具有更精确的节奏信息,从而解决语言和手势对齐不佳以及推理时间慢的问题。所提框架包含语音波形和全身手势生成的端到端架构,使用中间语音特征(如音调、起始时间、能量和持续时间)为动作解码直接提供信息。同时,作者构建了注意机制消除对未来输入的依赖,设计了因果网络结构,并通过强化学习基础上的神经架构搜索(NAS)优化网络架构以增强性能和推理速度。在BEAT2数据集上的实验结果表明,与现有技术相比,FastTalker在语音合成与手势生成上均达到最优性能,可在NVIDIA 3090上在0.17秒内处理每秒的语音和手势。
地址:https://arxiv.org/pdf/2409.16404
10. 基于简单参数高效调整的视觉语言模型微调研究
标题:Vision-Language Model Fine-Tuning via Simple Parameter-Efficient Modification
机构:东京大学、南加州大学、香港中文大学
关键词:视觉语言模型、参数微调、ClipFit方法、预训练模型优化
作者:Ming Li, Jike Zhong, Chenxin Li
分析:论文提出了一种新的微调视觉语言模型(VLMs)的方法,专注于通过微调特定参数而非全部参数来发掘经典模型在VLMs中的潜力。研究提出了一种名为ClipFit的简单有效方法,仅通过微调特定的偏差项和归一化层,就能提高CLIP模型的零样本学习能力。此外,论文还通过广泛的实验分析,探讨了ClipFit如何影响预训练模型的内部参数和表示。
地址:https://arxiv.org/pdf/2409.16718
代码:https://github.com/minglllli/CLIPFit
11. FineZip :推动大模型在无损文本压缩中的极限应用
标题:FineZip : Pushing the Limits of Large Language Models for Practical Lossless Text Compression
机构:UC伯克利分校
关键词:FineZip, 大语言模型(LLM), 文本压缩, 在线记忆, 动态上下文, 模型评估
作者:Fazal Mittu, Yihuan Bu, Akshat Gupta
分析:本文深入分析了基于神经网络和Transformer的压缩技术,比较了传统文本压缩系统与基于神经网络和大型语言模型(LLM)的文本压缩方法。虽然LLM系统显著优于传统压缩方法,但它们在实际应用中存在效率低下的问题。为解决这一问题,本文提出了FineZip系统,它结合了在线记忆和动态上下文的思想,显著缩短了压缩时间。然而,尽管FineZip取得了显著进展,但大型语言模型在大型文本压缩方面仍不是可行的解决方案。本文希望为未来的研究和创新铺平道路。
地址:https://arxiv.org/pdf/2409.17141
12. VPTQ: 极端低位Vector后训练量化用于大模型
标题:VPTQ: Extreme Low-bit Vector Post-Training Quantization for Large Language Models
机构:微软、中国科学技术大学
关键词:Vector Post-Training Quantization、大型语言模型量化、极端低位量化、向量量化
作者:Yifei Liu, Jicheng Wen, Yang Wang
分析:本论文针对大型语言模型(LLM)的极端低位量化(甚至到2位)问题进行了深入研究。论文提出了一种名为Vector Post-Training Quantization (VPTQ)的方法,通过压缩向量到索引并使用查找表进行量化。作者使用二次优化来表述LLM VQ问题并指导量化算法的设计,同时通过通道无关的二次优化对权重进行粒度量化。作者还提出了一种简洁有效的代码书初始化算法,并将VPTQ扩展到支持残差和孤立量化,以提高模型准确性和压缩模型。实验结果显示,VPTQ在LLaMA-2、Mistral-7B和LaMA-3上的模型量化降沟通分别降低了0.01%-0.34%,平均提高了0.79%-1.5%,推理吞吐量比赵等人提高了1.6%-1.8倍。
地址:https://arxiv.org/pdf/2409.17066
13. 遗传算法解决方程组问题
标题:Metaheuristic Method for Solving Systems of Equations
机构:FAIR、麻省理工学院
作者:Samson Odan
分析:本研究探讨了遗传算法(GAs)在解决线性和非线性方程组问题中的有效性,将其性能与高斯消元法、牛顿法和Levenberg-Marquardt等传统方法进行了比较。GA在各种测试用例中始终提供准确的解决方案,展示了其鲁棒性和灵活性。GA的一个关键优点是其能够在广泛的解空间中进行探索,发现多个解决方案集——这一功能在复杂的非线性系统中尤为重要,因为存在多个有效的解决方案,传统的方法通常会收敛到单一的解决方案,无法实现这一点。这在揭示复杂的解决方案景观方面证明了GA的优势。
地址:https://arxiv.org/pdf/2409.16958
14. Turn Every Application into an Agent:通过API-First LLM-Based代理实现高效的人机交互
标题:Turn Every Application into an Agent: Towards Efficient Human-Agent-Computer Interaction with API-First LLM-Based Agents
机构:微软、北京大学、南京大学
关键词:大型语言模型、人机交互、API
作者:Junting Lu, Zhiyang Zhang, Fangkai Yang
分析:该论文提出了一种新的基于大型语言模型(LLM)的代理框架,通过优先处理应用程序编程接口(API)上的操作而不是用户界面(UI)上的操作,从而解决大型语言模型代理在复杂任务中存在的高延迟和低可靠性问题。作者还通过自动化探索应用程序来促进API的创建和扩展。实验结果表明,与人类相比,使用AXIS框架可以显著减少任务完成时间65%-70%,认知负荷38%-53%,同时保持97%-98%的准确性。该研究为新的人机交互框架和应用程序提供商提供了新的视角,并探讨了将每个应用程序转化为代理的可能性,为构建以代理为中心的操作系统(Agent OS)铺平了道路。
地址:https://arxiv.org/pdf/2409.17140
15. Train Once, Deploy Anywhere:Matryoshka多模态表示学习的推荐系统
标题:Train Once, Deploy Anywhere: Matryoshka Representation Learning for Multimodal Recommendation
机构:伊利诺伊大学、UC伯克利分校、加利福尼亚大学
关键词:全尺度马约尔卡多表示学习、多功能推荐、多模态推荐系统、高效推荐策略
作者:Yueqi Wang, Zhenrui Yue, Huimin Zeng
分析:这篇论文主要探讨了如何通过轻量级框架全尺度马约尔卡多表示学习为多模态推荐系统定制高效的推荐策略。通过获取不同粒度下的项目特性,fMRLRec能够学习基于多维度信息的明智表示,从而优化跨多个表示和尺寸的推荐质量。它采用简单映射将从各种模态获取的项目特性投影到对齐的特征空间中,并设计高效线性变换,将小尺寸特征嵌入到大尺寸中,大幅减少了对面向推荐数据的大规模训练的内存需求。结合改进的状态空间建模技术,此框架能够扩展到不同的维度,并仅需一次训练即产生适用于不同粒度的多个模型。研究在多个基准数据集上进行了展示,证明了fMRLRec方法在性能上超越了最先进的基线方法。
地址:https://arxiv.org/pdf/2409.16627
16. PTQ4RIS:训练后量化用于引用图像分割
标题:PTQ4RIS: Post-Training Quantization for Referring Image Segmentation
机构:卡内基梅隆大学
关键词:引用图像分割、训练后量化、双区域量化、量化难题
作者:Xiaoyan Jiang, Hang Yang, Kaiying Zhu
分析:这篇论文研究的是引用图像分割(RIS)任务,旨在通过理解视觉和语言信息来分割图像中提到的对象。研究提出了一个名为PTQ4RIS的训练后量化框架,以解决在视觉和文字编码器中量化困难的问题。该框架通过双区域量化(DRQ)和基于重排的异常保留量化(RORQ)来解决性能 degradation 的问题,并在三个不同比特设置(从8到4位)的实验中展示了其优越性能。PTQ4RIS是第一个 specifically designed for RIS任务的训练后量化方法,证明了量化在 RIS 应用中的可行性。
地址:https://arxiv.org/pdf/2409.17020
代码:https://github.com/gugu511yy/PTQ4RIS
17. FLaRe: 通过大规模强化学习微调实现卓越和自适应的机器人策略
标题:FLaRe: Achieving Masterful and Adaptive Robot Policies with Large-Scale Reinforcement Learning Fine-Tuning
机构:华盛顿大学、德克萨斯大学、艾伦AI研究所
关键词:机器人政策、强化学习微调、通用性、模型蒸馏
作者:Jiaheng Hu, Rose Hendrix, Ali Farhadi
分析:研究领域已经尝试通过大规模多任务行为克隆构建通用的机器人政策,但这些政策在实际部署中表现不佳,因为政策难以处理新状态和任务。本文提出FLaRe,一个大型强化学习微调框架,它整合了强大的预训练表示、大规模训练和梯度稳定技术,将预训练的政策对准任务完成,在先前演示和全新任务上的表现达到行业领先水平。在长途移动操作任务上,FLaRe在未见过的环境中平均成功率为79.5%,相比先前行业领先方法,模拟中的绝对提高为23.6%,真实机器人上的提高为30.7%。通过仅使用稀疏奖励,本文的方法可以以极少的人类努力扩展到新的能力范围,无论这些能力是否在预训练数据中出现。此外,该论文展示了解决新化身和新行为的能力,仅需不到一天的时间进行微调。
地址:https://arxiv.org/pdf/2409.16578
代码:https://robot-flare.github.io/
18. MSI-Agent:融入多尺度洞察 into Embodied Agents for Superior Planning and Decision-Making
标题:MSI-Agent: Incorporating Multi-Scale Insight into Embodied Agents for Superior Planning and Decision-Making
机构:清华大学、斯坦福大学、北京邮电大学
关键词:Multi-Scale Insight、Embodied Agents、Planning、Decision-Making
作者:Dayuan Fu, Biqing Qi, Yihuai Gao
分析:这篇论文提出了Multi-Scale Insight Agent(MSI-Agent),一种用于提高LLM(大型语言模型)规划与决策能力的实体代理。MSI-Agent通过经验选择器、洞察生成器、洞察选择器来解决在长期记忆中有效利用洞察而遇到的关键问题:即如何抵御无关洞察和缺乏通用洞察所带来的负面影响。MSI-Agent通过三种组件的管道(经验选择器、洞察生成器、洞察选择器),可以在不同尺度上有效利用洞察,生成特定任务的高级洞察,存储到数据库中,并在决策过程中利用这些相关洞察。实验结果表明,MSI-Agent在Planning方面优于GPT-3.5。此外,通过选择种子经验洞察,MSI-Agent在面临领域变换时表现出良好的鲁棒性。
地址:https://arxiv.org/pdf/2409.16686
19. NoTeeline: 交互式视频笔记系统支持实时关键点转全笔记
标题:NoTeeline: Supporting Real-Time Notetaking from Keypoints with Large Language Models
机构:卡内基梅隆大学
关键词:实时笔记、关键点扩展、大型语言模型、个性化
作者:Faria Huq, Abdus Samee, David Chuan-en Lin
分析:NoTeeline是一项研究,通过大型语言模型开发,旨在实现实时、个性化的视频笔记。用户只需记录关键点,系统能自动扩展成全面内容,保持用户写作风格一致。研究发现,使用NoTeeline的用户在保持信息准确性的同时,减少了精力消耗和笔记文本量,节省了时间。它在解决观看视频时记笔记耗时问题上有应用价值。
地址:https://arxiv.org/pdf/2409.16493
20. APILOT: 通过规避过时API陷阱导引大模型生成安全代码
标题:APILOT: Navigating Large Language Models to Generate Secure Code by Sidestepping Outdated API Pitfalls
机构:西北大学、伊利诺伊大学、IBM研究院
关键词:APILOT、大型语言模型、代码安全、过时API
作者:Weiheng Bai, Keyang Xuan, Pengxiang Huang
分析:本文探讨了用于代码辅助的大型语言模型(LLMs)面临的挑战,这些问题主要由其需要频繁更新和资源密集进行训练引起。这导致即使时间相关的数据可能过时,也可能误导LLMs在时间感知任务中有误推荐。以发现新的程序漏洞为例,如果该论文不让LLMs更新其知识库,它们在生成代码时可能意外包含这些新发现的漏洞。目前,诸如提示工程和微调等策略未能有效地解决此问题。本文提出APILOT作为解决方案,它配置了一个实时更新的过时API数据集,并结合了一种增强生成方法,充分利用该数据集以使LLMs生成安全且版本感知的代码。该论文进行了全面的评估,以测量APILOT在减轻七种最先进的LLM推荐过时API方面的问题时的平均效率。评估结果显示,APILOT平均能将过时代码建议降低到89.42%,同时仅略带少量性能损耗。令人感兴趣的是,尽管增强了安全性,APILOT还提高了由LLM生成代码的可用性,平均提高了27.54%。由此可以指出,APILOT具备提升代码建议在现代软件开发环境中的既安全又实用性。
地址:https://arxiv.org/pdf/2409.16526
21. Decoding Large-Language Models:社会技术影响、约束与新兴问题系统概述
标题:Decoding Large-Language Models: A Systematic Overview of Socio-Technical Impacts, Constraints, and Emerging Questions
机构:斯坦福大学
关键词:大语言模型、社会技术影响、算法改进、伦理挑战
作者:Zeyneb N. Kaya, Souvick Ghosh
分析:这篇论文对大语言模型(LLMs)近年来在自然语言处理(NLP)和人工智能(AI)领域的快速发展进行了系统综述。研究集中于LLMs的发展方向、影响与局限,包括负责任的开发考虑、算法改进、伦理挑战以及社会影响。论文旨在为LLMs的最新研究提供严格而全面的概述,并为未来的发展指明潜在方向。
地址:https://arxiv.org/pdf/2409.16974
22. Omni 3D:与BEOL兼容的具有无处不在的电源、信号和时钟的3D逻辑
标题:Omni 3D: BEOL-Compatible 3D Logic with Omnipresent Power, Signal, and Clock
机构:斯坦福大学、卡内基梅隆大学
关键词:Omni 3D架构、后端制程兼容、信号和电源路由、模型结构改进
作者:Suhyeong Choi, Carlo Gilardi, Paul Gutwin
分析:这篇论文提出了一种名为Omni 3D的3D堆叠设备架构,该架构利用后端制程兼容的晶体管实现。Omni 3D任意交织金属层以提供信号和电源,并与三维中的场效应晶体管(FETs)进行组合。这种架构的最大特点是提供了对FET有源区域的精细粒度、全方位访问,从而最大化三维标准单元设计灵活性。论文还探讨了Omni 3D的不同变体,并进行了优化,通过物理设计流程实现高效的双面路由。相较于现有的技术,Omni 3D预计能提高能量延迟产品性能并减小面积。
地址:https://arxiv.org/pdf/2409.16608
23. DreamWaltz-G:基于骨架引导的2D扩散模型的表达性3D头像生成
标题:DreamWaltz-G: Expressive 3D Gaussian Avatars from Skeleton-Guided 2D Diffusion
机构:腾讯、IDEA、中国科学技术大学
关键词:3D头像生成、骨架引导、2D扩散模型、DreamWaltz-G
作者:Yukun Huang, Jianan Wang, Ailing Zeng
分析:本文提出DreamWaltz-G,一个用于文本驱动的动画3D头像生成的创新框架。它通过 Skeleton-guided Score Distillation 和 Hybrid 3D Gaussian Avatar 代表,解决了高质量、可表达动的3D头像生成难题。方法利用2D扩散模型和骨架控制增强一致性,避免了多面、多余肢体和模糊等问题。同时,混合3D高斯表示实现实时渲染和稳定优化。实验证明DreamWaltz-G在视觉质量和动画表现上超过现有方法,体现出在人类视频重现和多主体场景合成等应用中的价值。
地址:https://arxiv.org/pdf/2409.17145
24. 离线强化学习信息路径规划
标题:OffRIPP: Offline RL-based Informative Path Planning
机构:印度理工学院、卡内基梅隆大学
作者:Srikar Babu Gadipudi, Srujan Deolasee, Siva Kailas
分析:信息路径规划是机器人学中一个至关重要的任务,其中代理必须在遵循资源约束的同时设计路径以收集目标环境中有价值的信息。强化学习已被证明在信息路径规划中有效,但它需要环境交互,这在实践中可能是有风险且昂贵的。为了解决这个问题,该论文提出了一种离线的基于强化学习的信息路径规划框架,该框架在训练过程中优化信息增益,而无需要求实时交互,通过避免交互提供安全性和成本效率,并在执行期间提供卓越的性能和快速计算——这是强化学习的关键优势。该论文的框架利用批量受限强化学习来减轻外推误差,使代理能够从任意算法生成的预收集数据集中学习。该论文通过广泛的模拟和实际世界实验验证了该框架。数值结果表明,该论文的框架优于基线,证明了所提出方法的有效性。
地址:https://arxiv.org/pdf/2409.16830
25. 预训练图神经网络在大规模搜索排序中的应用
标题:Pre-trained Graphformer-based Ranking at Web-scale Search (Extended Abstract)
机构:百度、浙江实验室、上海交通大学
关键词:预训练、图神经网络、Transformer、搜索排序
作者:Yuchen Li, Haoyi Xiong, Linghe Kong
分析:这篇论文主要探讨了如何将图神经网络(GNNs)和Transformer模型的优势结合起来,解决大规模搜索排序中的链接预测和排名分数回归问题。作者提出了一种名为MPGraf的模型,该模型通过模块化和胶囊化的预训练策略,实现了Transformer的排名分数回归能力和GNN的链接预测能力的有效融合。
地址:https://arxiv.org/pdf/2409.16590
26. 视频LLM中的事件幻视诊断:EventHallusion
标题:EventHallusion: Diagnosing Event Hallucinations in Video LLMs
机构:复旦大学
关键词:EventHallusion、VideoLLM、幻视现象、Temporal Contrastive Decoding
作者:Jiacheng Zhang, Yang Jiao, Shaoxiang Chen
分析:论文提出了一种名为EventHallusion的新型基准测试,专注于评估视频事件理解的VideoLMMs的幻视现象。该基准测试旨在缩小与图像域相比在VideoLLM幻视问题上的研究差距。论文还提出了一种简单而有效的方法,即Temporal Contrastive Decoding(TCD),以解决VideoLLM的幻视问题。
地址:https://arxiv.org/pdf/2409.16597
代码:https://github.com/Stevetich/EventHallusion
27. MBC:在四足机器人领域的新突破
标题:MBC: Multi-Brain Collaborative Control for Quadruped Robots
机构:清华大学、密歇根大学
关键词:多脑协同控制、四足机器人、盲策略、感知策略
作者:Hang Liu, Yi Cheng, Rankun Li
分析:这篇论文主要探讨了四足机器人在复杂环境中的运动挑战。论文提出了一种多脑协同系统,结合了多智能体强化学习的概念,引入了盲策略和感知策略之间的协作。通过这一协同模型,机器人在感知系统受损或观测数据不完整的情况下也能保持稳定的运动。模拟和真实实验证明了该系统显著提高了机器人在复杂环境中的通行能力和对感知失败的鲁棒性。
地址:https://arxiv.org/pdf/2409.16460
28. 累加器感知的模型训练后量化研究
标题:Accumulator-Aware Post-Training Quantization
机构:UC圣迭戈分校
关键词:累加器感知、训练后量化、大规模模型、模型性能优化
作者:Ian Colbert, Fabian Grob, Giuseppe Franco
分析:本文主要研究累加器感知的模型训练后量化技术,旨在解决现有模型量化技术在处理大规模模型时面临的挑战。文章提出了一种名为AXE的实用框架,它通过累加器感知扩展来增强现有层级的训练后量化算法性能,并提供了防止溢出问题的保证。此外,该框架支持多阶段累加,为大规模语言模型的量化开辟了新的途径。通过图像分类和语言生成模型的评估,AXE在累加器位宽和模型精度之间取得了显著的改进。
地址:https://arxiv.org/pdf/2409.17092
29. Tell Me What You Don't Know:通过表示空间分析与编辑提高角色扮演代理的拒绝能力
标题:Tell Me What You Don't Know: Enhancing Refusal Capabilities of Role-Playing Agents via Representation Space Analysis and Editing
机构:腾讯、复旦大学
关键词:角色扮演代理,拒绝能力,表示空间分析,模型评估
作者:Wenhao Liu, Siyu An, Junru Lu
分析:论文提出了一种评价角色扮演代理的方法,解决在面对冲突请求时识别并适当应对的问题。通过对角色扮演代理的表现进行深入研究,分析其拒绝和直接回应的区域,提出了一种轻量级的表示编辑方法,提高了模型拒绝冲突请求的准确性,同时保持了其角色扮演的能力。
地址:https://arxiv.org/pdf/2409.16913
30. SynTQA:混合文本到SQL和端到端表格问答的协同作用
标题:SynTQA: Synergistic Table-based Question Answering via Mixture of Text-to-SQL and E2E TQA
机构:纽约大学、南洋理工大学
关键词:协同表格问答、答案选择器、模型编排、文本到SQL
作者:Siyue Zhang, Anh Tuan Luu, Chen Zhao
分析:本文比较了文本到SQL解析和端到端表格问答(E2E TQA)这两种表格问答任务的主要方法,并探讨了它们之间的协同效应。通过评估最新模型在基准数据集上的性能,该论文发现文本到SQL方法在处理涉及算术操作和长表格的问题时表现更好,而端到端表格问答则擅长解决含糊不清的问题、非标准表格结构和复杂表格内容。为此,该论文提出了一种协同表格问答方法,该方法通过答案选择器集成不同的模型,而无需考虑任何特定类型的模型。进一步的研究表明,使用特征选择器或基于语言模型(LLM)的答案选择器对模型进行编排,在性能上显著优于单独的模型。
地址:https://arxiv.org/pdf/2409.16682
31. Textoshop:借鉴绘画软件提升文本编辑体验
标题:Textoshop: Interactions Inspired by Drawing Software to Facilitate Text Editing
机构:多伦多大学
关键词:图文编辑、绘画软件启发、文本编辑体验、交互操作
地址:https://arxiv.org/pdf/2409.17088
32. RoleBreak:角色扮演系统中的角色幻觉攻击分析
标题:RoleBreak: Character Hallucination as a Jailbreak Attack in Role-Playing Systems
机构:天津大学
关键词:角色扮演系统、角色幻觉、攻击视角分析、防御策略
地址:https://arxiv.org/pdf/2409.16727
33. 基于想象的个性驱动创新故事生成
标题:A Character-Centric Creative Story Generation via Imagination
机构:首尔国立大学
地址:https://arxiv.org/pdf/2409.16667
34. Semi-LLIE:基于Mamba的半监督对比学习与低光图像增强
标题:Semi-LLIE: Semi-supervised Contrastive Learning with Mamba-based Low-light Image Enhancement
机构:西北工业大学
关键词:半监督学习、低光图像增强、对比学习、Mamba
地址:https://arxiv.org/pdf/2409.16604
35. Erase then Rectify:一种无需训练的参数编辑方法
标题:Erase then Rectify: A Training-Free Parameter Editing Approach for Cost-Effective Graph Unlearning
机构:中山大学、香港科技大学
关键词:图消融、无影响学习、GNN、参数编辑
地址:https://arxiv.org/pdf/2409.16684
36. 预训练语言模型对伪造文本的区分能力
标题:Pre-trained Language Models Return Distinguishable Probability Distributions to Unfaithfully Hallucinated Texts
机构:韩国高丽大学
关键词:预训练语言模型、生成文本、区分能力、伪造文本
地址:https://arxiv.org/pdf/2409.16658
37. 面向图像的文本语义通信与微调扩散模型的研究
标题:Language-oriented Semantic Communication for Image Transmission with Fine-Tuned Diffusion Model
机构:北京邮电大学
关键词:文本语义通信、图像传输、微调扩散模型、语义通信框架
地址:https://arxiv.org/pdf/2409.17104
38. 启发式搜索的多目标进化使用大模型
标题:Multi-objective Evolution of Heuristic Using Large Language Model
机构:香港城市大学
关键词:多目标启发式搜索、大型语言模型、MEoH框架、多目标优化
地址:https://arxiv.org/pdf/2409.16867
39. 理解我目前经历的完美方式:对LLM增强叙述干预的理解
标题:"It Explains What I am Currently Going Through Perfectly to a Tee": Understanding User Perceptions on LLM-Enhanced Narrative Interventions
机构:西北大学、多伦多大学
关键词:大型语言模型、定制叙述、心理问题
地址:https://arxiv.org/pdf/2409.16732
40. AI使你更聪明,但并不让你变得更明智:性能与元认知之间的脱节
标题:AI Makes You Smarter, But None The Wiser: The Disconnect Between Performance and Metacognition
机构:阿尔托大学、慕尼黑大学
地址:https://arxiv.org/pdf/2409.16708
41. Skyeyes:利用空中视角图像实现地面漫游
标题:Skyeyes: Ground Roaming using Aerial View Images
机构:南加州大学、俄亥俄州立大学
关键词:Skyeyes框架、空中视角图像、地面视角图像生成、视图一致性
地址:https://arxiv.org/pdf/2409.16685
代码:https://chaoren2357.github.io/website-skyeyes/
42. 时空Transformer赋能全球数值天气预报:WeatherFormer模型研究
标题:WeatherFormer: Empowering Global Numerical Weather Forecasting with Space-Time Transformer
机构:上海交通大学、上海AI实验室
关键词:WeatherFormer模型,数值天气预报,transformer框架,空间时间动态模拟,数据增强策略
地址:https://arxiv.org/pdf/2409.16321
43. PACE:将泛化与参数效率高效的微调结合
标题:PACE: marrying generalization in PArameter-efficient fine-tuning with Consistency rEgularization
关键词:参数效率微调、一致性正则化、适应器优化
地址:https://arxiv.org/pdf/2409.17137
代码:https://github.com/MaxwellYaoNi/PACE
44. 低精度大模型的调查:基础、系统与方法
标题:A Survey of Low-bit Large Language Models: Basics, Systems, and Algorithms
机构:北京航空航天大学、苏黎世联邦理工学院
关键词:低精度量化、大型语言模型、基本原理、系统实现
地址:https://arxiv.org/pdf/2409.16694
45. 预测代码复杂性选择代码生成中的提示工程技术
标题:Selection of Prompt Engineering Techniques for Code Generation through Predicting Code Complexity
机构:约克大学
关键词:提示工程技术、代码复杂性、大型语言模型、蒸馏技术
地址:https://arxiv.org/pdf/2409.16416
46. MultiTalk:为了实现人类-环境-大模型间的整体一致性进行的反思性和外在对话
标题:MultiTalk: Introspective and Extrospective Dialogue for Human-Environment-LLM Alignment
机构:纽约大学
关键词:大模型、任务规划、环境约束、反馈机制
地址:https://arxiv.org/pdf/2409.16455
47. PMSS: 预训练矩阵骨架选择在大模型微调中的应用
标题:PMSS: Pretrained Matrices Skeleton Selection for LLM Fine-tuning
关键词:PMSS、预训练矩阵骨架选择、大语言模型微调、低秩适应性
地址:https://arxiv.org/pdf/2409.16722
48. 基于语境增强的LLM测试代码重构框架
标题:Context-Enhanced LLM-Based Framework for Automatic Test Refactoring
地址:https://arxiv.org/pdf/2409.16739
49. Beyond Turing Test:GPT-4能影响专家的决策吗?
标题:Beyond Turing Test: Can GPT-4 Sway Experts' Decisions?
关键词:大语言模型、后图灵时代、读者反应、决策影响
地址:https://arxiv.org/pdf/2409.16710
50. CryptoTrain: 快速安全地在加密数据上训练
标题:CryptoTrain: Fast Secure Training on Encrypted Datase
关键词:加密训练、安全数据处理、多变量乘法、相关多项式卷积
地址:https://arxiv.org/pdf/2409.16675
51. Pix2Next:利用视觉基础模型从RGB到NIR图像的转换
标题:Pix2Next: Leveraging Vision Foundation Models for RGB to NIR Image Translation
关键词:Pix2Next、视觉基础模型、RGB到NIR图像转换、编码器-解码器架构
地址:https://arxiv.org/pdf/2409.16706
52. 如何将语音基础模型与大模型连接?关键要素与非关键要素
标题:How to Connect Speech Foundation Models and Large Language Models? What Matters and What Does Not
关键词:语音基础模型、大型语言模型、适配器模块、语音到文本转换
地址:https://arxiv.org/pdf/2409.17044
53. 以用户为中心的训练数据归属研究,推动人工智能的可解释性
标题:Towards User-Focused Research in Training Data Attribution for Human-Centered Explainable AI
关键词:训练数据归属、人工智能可解释性、用户需求、设计思维
地址:https://arxiv.org/pdf/2409.16978
54. Judgment of Thoughts:大模型中二元逻辑推断的法庭
标题:Judgment of Thoughts: Courtroom of the Binary Logical Reasoning in Large Language Models
关键词:大语言模型、二元逻辑推断、思维判断、模型结构改进
地址:https://arxiv.org/pdf/2409.16635
55. 统一幻觉抑制框架用于大型视觉语言模型
标题:A Unified Hallucination Mitigation Framework for Large Vision-Language Models
关键词:幻觉抑制、大型视觉语言模型、查询分类、模型评估
地址:https://arxiv.org/pdf/2409.16494
看论文是一天,不看论文也是一天,为什么不每天充实下自己呢^_^^_^