前言:如果你想成为一只科学界的“独角兽”,那么看论文是必不可少的。只有掌握了最新的技术和理论,才能在这个竞争激烈的市场中脱颖而出,成为那只最闪亮的“独角兽”!
1. 大模型真正遗忘了吗?一种简单方法恢复已遗忘的知识
标题:Does your LLM truly unlearn? An embarrassingly simple approach to recover unlearned knowledge
机构:哈佛大学、Amazon、宾夕法尼亚州立大学
相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态
作者:Zhiwei Zhang, Fali Wang, Xiaomin Li
分析:这篇论文主要探讨了大型语言模型(LLMs)在训练过程中可能会从其训练数据中学习到一些不适当或敏感的内容,如受版权保护或私人信息的内容。为了解决这个问题,提出了一种机器遗忘的方法,即在不重新训练的情况下去除这些有问题的内容。然而,现有的遗忘方法是否真的实现了遗忘,还是只是隐藏了知识,目前还没有明确的证据。这篇论文通过量化的方式揭示了这个现象:对已经进行过遗忘处理的模型应用量化技术可以恢复被遗忘的信息。通过对多种量化技术的实验,发现对于有实用约束的遗忘方法,全精度下遗忘的模型平均保留了21%的预期遗忘知识,而在4位量化后,这个比例提高到了83%。基于这一实证结果,论文提供了一个理论解释,并提出了一种量化鲁棒的遗忘策略来解决这个问题。
地址:https://arxiv.org/pdf/2410.16454
2. 大模型训练稳定性的提升方法
标题:Methods of improving LLM training stability
机构:英伟达
相关领域:模型结构改进、模型评估
作者:Oleg Rybakov, Mike Chrzanowski, Peter Dykas
分析:这篇论文探讨了大型语言模型(Large Language Models, LLMs)在训练过程中稳定性的问题。通过实验方法,作者研究了logits在注意力层中增长导致的训练不稳定。提出了对Transformer块中的线性层输出进行层归一化的新方法,并通过实验证明了这种方法能显著提高学习率而不导致模型发散,同时也改善了模型在基准上的困惑度。
地址:https://arxiv.org/pdf/2410.16682
3. 借助大模型进行数据合成:通过触发失败探索
标题:Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration
机构:香港大学、香港科技大学
相关领域:数据集构建、模型评估
作者:Qintong Li, Jiahui Gao, Sheng Wang
分析:论文提出了一种借助大型语言模型(LLM)进行数据合成的新方法,旨在通过生成能导致模型失败的查询来改进模型性能。该方法能够自动产生有效训练样本,暴露LLM的弱点,并据此改进模型性能。论文评估了该方法在三个关键应用上的表现,证明了其有效性和多样性。使用该方法对模型进行微调,性能优于使用人类注释或通用模型生成的数据。
地址:https://arxiv.org/pdf/2410.16736
4. From Attention to Activation:解开大模型的神秘面纱
标题:From Attention to Activation: Unravelling the Enigmas of Large Language Models
相关领域:模型结构改进, 注意力机制, 优化器设计
作者:Prannay Kaul, Chengcheng Ma, Ismail Elezi
分析:这篇论文主要研究了两项在自动递归Transformer中的奇怪现象:(1) 注意力heads中第一个token的支配地位;(2) 隐藏状态中巨大异常激活的出现。研究者发现,诸如Llama的大型语言模型,在98% 的注意力heads中,会最大化地对第一个token进行关注,这一现象被归因于softmax函数。为了解决这一问题,研究者提出了一种softmax的重新阐述,名为softmax-1。此外,研究者还确定了自适应优化器,如Adam,为异常激活的主要贡献者,并引入了OrthoAdam,一种利用正交矩阵来转换梯度的新优化器,以解决这一问题。最后,研究者的方法不仅阻止了这两种现象的发生,还使Transformer在基本算法量化下保持了性能,而标准方法则无法做到这一点。总的来说,研究者的方法将第一个token的关注比例从65%降低到3.3%,隐藏状态的激活峰值从1657降低到3.1,量化到4位权重时的 perplexity惩罚从3565降低到0.3。
地址:https://arxiv.org/pdf/2410.17174
5. 推理任务中的推理缩放定律的简单模型研究
标题:A Simple Model of Inference Scaling Laws
相关领域:模型评估
作者:Noam Levi
分析:这篇论文提出了一种基于记忆研究的简单统计模型,用于研究推理任务中的缩放定律。论文探讨了如何通过多次推理尝试提高性能,特别是在大语言模型中的覆盖率度量标准。同时定义了推理损失的概念,展示了一种随着试验次数增加而出现的幂律衰减现象,并与提示成本相联系。此外,论文还通过实验验证了模型的预测性能。
地址:https://arxiv.org/pdf/2410.16377
6. 直接偏好优化大模型:从数据效率角度的探讨
标题:Optimizing LLMs with Direct Preferences: A Data Efficiency Perspective
相关领域:模型调整与优化、强化学习与人类反馈(RLHF)、数据集构建与利用
作者:Pietro Bernardelle, Gianluca Demartini
分析:本文主要探讨了利用直接偏好优化(DPO)技术调整大型语言模型(LLM)的可行性,以减少对大量偏好数据的依赖。通过对不同比例偏好判断数据集的组合进行系统比较,研究DPO在微调预训练LLM时的可扩展性、数据效率和有效性。同时,研究也揭示了使用多种数据集组合的优越性以及不同类型提示对模型训练的影响。文章还提供了关于选择性使用偏好数据的最佳实践的一些见解。
地址:https://arxiv.org/pdf/2410.16586
7. PyramidDrop:通过金字塔视觉冗余缩减加速大型视觉语言模型
标题:PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction
机构:上海AI实验室
相关领域:模型结构改进、多模态
作者:Long Xing, Qidong Huang, Xiaoyi Dong
分析:论文关注大型视觉语言模型(LVLMs)中的计算效率问题。随着图像分辨率的增加,模型计算成本呈二次方增长。为解决这一问题,论文提出PyramidDrop策略,通过减少图像令牌数量来提升模型效率,同时保持性能。研究揭示了视觉令牌在模型浅层的重要性,以及在深层中逐渐增加的令牌冗余。PyramidDrop策略将模型分为几个阶段,在每个阶段末按照预定比例减少图像令牌,形成类似金字塔的视觉令牌结构。该策略基于轻量级相似性计算,具有极低的时间开销。实验表明,PyramidDrop可在不损失性能的情况下,实现LLaVA-NeXT模型的40%训练时间和55%推理FLOPs加速。此外,它还可以作为无需训练的推理加速策略,表现优于其他方法。论文希望为未来的视觉语言模型研究提供启示。
地址:https://arxiv.org/pdf/2410.17247
8. 自调整优化对大模型进行对齐
标题:Aligning Large Language Models via Self-Steering Optimization
机构:阿里巴巴集团、中国科学院大学
相关领域:模型偏好优化
作者:Hao Xiang, Bowen Yu, Hongyu Lin
分析:本文介绍了一种名为Self-Steering Optimization(SSO)的算法,它可以在迭代训练过程中自主生成高质量的偏好信号,无需人工标注。SSO通过确保选中和被拒绝的响应之间存在一致的差距,同时保持信号在政策模型学习容量允许的范围之内,确保了信号精度。此外,SSO能够同时支持在线和离线政策模型训练,以及增强奖励模型的训练。通过在Qwen2和Llama3.1两个基础模型上的验证,SSO在迭代训练过程中提供了准确的、政策相关的偏好信号。在没有人工标注或外部模型的情况下,SSO在六个主观或客观基准测试中取得了显著的性能提升,并且,SSO生成的偏好数据显著改善了奖励模型的性能。本文提出了一个可扩展的偏好优化方法,为更高效、有效的自动对齐铺平了道路。
地址:https://arxiv.org/pdf/2410.17131
9. 语言模型预训练中的忘记探索
标题:Exploring Forgetting in Large Language Model Pre-Training
机构:腾讯、清华大学
相关领域:LLM
作者:Chonghua Liao, Ruobing Xie, Xingwu Sun
分析:泛化丢失仍是大语言模型(LLM)中构建全知模型的主要障碍。尽管在LLM微调的任务层面上已经有了关于泛化的初步研究,但大部分的研究都集中在微调阶段,对预训练阶段存在泛化的关注较少。本文系统性地探讨了预训练阶段存在和测量的忘记,并涉及到传统指标很大的疑惑,如困惑度(PPL),同时引入了新的指标,以更好地检测实体记忆的保留。该论文的修订的忘记指标评估将为如何预计和使用预训练阶段中的忘记提供新的视角。在仔细分析忘记曲线的动力学的基础上,该论文可以找到低成本,方便的方法来减少训练阶段中的丢失。本文在预训练期的忘记上进行了大量评估和分析,这将有助于进一步的研究。
地址:https://arxiv.org/pdf/2410.17018
10. Magnetic Preference Optimization:实现语言模型最终收敛的对齐
标题:Magnetic Preference Optimization: Achieving Last-iterate Convergence for Language Models Alignment
机构:北京大学、南京大学、北京AI研究院
相关领域:模型结构改进、指令微调、RLHF
作者:Mingzhi Wang, Chengdong Ma, Qizhi Chen
分析:这篇论文介绍了磁性偏好优化(MPO)方法,它能够实现语言模型最终收敛的对齐,从而克服了现有方法的局限性。该方法基于磁性镜像下降(MMD),能够在RLHF场景下实现线性收敛速率,适用于精细调优LLM。文章通过磁性偏好优化解决了现有方法只能保证平均迭代收敛或收敛到修正式游戏的NE的问题。
地址:https://arxiv.org/pdf/2410.16714
11. DocEdit-v2: 文档结构编辑通过多模态语言模型实现
标题:DocEdit-v2: Document Structure Editing Via Multimodal LLM Grounding
机构:MBZUAI大学、Adobe Research
作者:Manan Suri, Puneet Mathur, Franck Dernoncourt
分析:文档结构编辑涉及根据用户请求在文档图像中操作文档文本ual和布局组件。过去,一些方法据说是为处理用户请求将这些请求和文档图像的准确结构组件关联起来并识别。然而,这些手段仍然是对这项任务的挑战。为了应对这些挑战,该论文引入了DocEdit-v2。这是一款实现端到端文档编辑的框架,通过利用大型多模态模型(LMMs)来实现。它主要由三个组件构成:(1)Doc2Command,该组件同时定位编辑区域(RoI)并消歧用户编辑请求;(2)LLM-based Command Reformulation,该组件根据原来的编辑命令,将其转变为通用LMMs适宜的编辑指令;(3)此外,DocEdit-v2通过像GPT-4V和Gemini等大型多模态模型处理这些结果,解析文档布局,在已定位的RoI执行编辑并生成编辑后的文档图像。在DocEdit数据集上的实验表明,与强大的基线相比,DocEdit-v2在编辑命令生成(2-33%)、RoI框检测(12-31%)和文档编辑(1-12%)三项任务上均有显著提高。
地址:https://arxiv.org/pdf/2410.16472
12. MiniPLM: 基于知识蒸馏的预训练语言模型训练方法
标题:MiniPLM: Knowledge Distillation for Pre-Training Language Models
机构:腾讯、清华大学
相关领域:模型蒸馏
作者:Yuxian Gu, Hao Zhou, Fandong Meng
分析:论文提出了一种名为MiniPLM的框架,用于通过利用大型语言模型(Teacher LMs)的知识来改进小规模语言模型(Student LMs)的预训练。这种方法通过利用知识蒸馏技术,可以高效地对多个学生模型(Student LMs)进行学习,同时无需进行实时教师模型推理,且可以灵活应用于不同的学生模型。此外,这一方法通过增强训练数据的难度和多样性,促进了学生模型知识获取的多样化和复杂化。实验结果表明,该方法在多个下游任务中显著提升了学生模型的性能,并降低了预训练的计算成本。
地址:https://arxiv.org/pdf/2410.17215
代码:https://github.com/thu-coai/MiniPLM
13. 无硬提示: SoftSRV提示用于合成数据生成
标题:No more hard prompts: SoftSRV prompting for synthetic data generation
机构:谷歌研究院
相关领域:模型结构改进、指令微调
作者:Giulia DeSalvo, Giulia DeSalvo, Jean-Fracois Kagy
分析:论文提出了一种基于软提示的框架SoftSRV,该框架利用预训练的大型语言模型(LLM)生成目标合成文本序列。与传统的硬提示方法不同,SoftSRV通过数据驱动损失最小化来训练参数化上下文软提示,从而引导冻结的LLM生成与目标分布相似的合成序列。论文认为SoftSRV在实际应用中比硬提示方法更具优势,后者依赖于人工制作的提示模板,具有特定性、劳动密集且需要针对每个领域进行专门定制。论文通过生成合成数据来微调Gemma模型,并比较SoftSRV和硬提示基线在三个不同领域(编码、数学和推理)的效果。实验结果表明,SoftSRV显著优于硬提示基线,生成的合成数据在微调性能和匹配目标分布方面具有更高的性能。
地址:https://arxiv.org/pdf/2410.16534
14. Altogether:通过重新对齐替代文本进行图像字幕生成
标题:Altogether: Image Captioning via Re-aligning Alt-text
机构:FAIR、纽约大学、华盛顿大学
相关领域:数据集构建、多模态
作者:Hu Xu, Po-Yao Huang, Xiaoqing Ellen Tan
分析:该论文探讨了通过合成数据提高图像字幕质量的方法。现有工作存在两个主要缺陷:一是直接从零开始为图像生成字幕,忽略了现有的替代文本元数据;二是如果训练数据(如GPT)的来源不明确,则会缺乏透明度。本文提出了一种名为Altogether的原理性方法,通过编辑和重新对齐与图像关联的替代文本。为了生成训练数据,进行人工标注,标注者从现有的替代文本开始,在多轮中对齐到图像内容,从而构建富含视觉概念的字幕。这与以前的工作不同,以前的工作将人工标注视为基于图像和标注者知识的单一描述任务。在上述数据上训练的字幕生成器可以大规模地泛化重新对齐替代文本的过程。结果表明,Altogether方法生成的图像字幕更加丰富,并改进了文本到图像生成和零样本图像分类任务。
地址:https://arxiv.org/pdf/2410.17251
15. LiNeS:层增长网络扩展——防止遗忘并提升模型融合能力
标题:LiNeS: Post-training Layer Scaling Prevents Forgetting and Enhances Model Merging
机构:瑞士洛桑联邦理工学院、Google DeepMind
相关领域:模型结构改进、预训练、模型评估
作者:Ke Wang, Nikolaos Dimitriadis, Alessandro Favero
分析:这篇论文提出了一种名为LiNeS的层增长网络扩展技术,旨在解决大型预训练模型在微调过程中遇到的灾难性遗忘问题。它通过层深度进行参数更新的线性缩放,既保留预训练模型的通用性,又提高针对特定任务的性能。同时,该技术也扩展到多任务模型融合场景,通过分层缩放融合参数减少任务间的负面干扰。LiNeS在视觉和自然语言处理的各种基准测试中,无论是单任务还是多任务环境,都显示出显著改进。此外,该方法易于实现,可与其他现有技术互补。
地址:https://arxiv.org/pdf/2410.17146
16. DENOASR:通过选择性降噪消除自动语音识别(ASR)中的偏差
标题:DENOASR: Debiasing ASRs through Selective Denoising
相关领域:模型评估、数据集构建、评估指标
作者:Anand Kumar Rai, Siddharth D Jaiswal, Shubham Prakash
分析:这篇论文探讨了自动语音识别(ASR)系统中的偏差问题,指出噪声对于某些口音、方言或说话方式的人群影响更大,导致这些人群的错误率偏高。论文提出了DENOASR框架,通过选择性降噪技术来降低男性和女性群体之间的错误率差距。通过在多个数据集上的实验,验证了该方法的有效性。
地址:https://arxiv.org/pdf/2410.16712
17. TIPS:具有空间意识的文本-图像预训练
标题:TIPS: Text-Image Pretraining with Spatial Awareness
机构:Google DeepMind
相关领域:模型结构改进
作者:Kevis-Kokitsi Maninis, Kaifeng Chen, Soham Ghosh
分析:这篇论文旨在解决当前图像文本表示学习方法中普遍存在的缺乏空间意识和难以直接应用于密集理解任务的问题。尽管预训练的图像单独方法在过去被广泛使用,但缺乏明确的监督信号。这篇文章提出了一种名为空间意识下的文本-图像预训练(TIPS)的新型通用文本-图像模型,该模型可以有效用于密集和全局视觉任务,而不需要进一步定制。TIPS方法基于两个简单且有效的洞察点:一是在文本监督方面,通过用合成生成的文本描述替换混乱的网络图像描述,显著增强了密集理解的表现,因为学习空间意识更丰富的表示需要更丰富的信号。提出了结合模糊和合成描述的训练方法,提升了密集和全局理解任务的表现。二是在学习技术方面,结合对比度图像-文本学习与自我监督掩码图像建模,以鼓励空间一致性,从而为下游应用带来显著的改进。
地址:https://arxiv.org/pdf/2410.16512
18. STAR: 一种简单的无训练深度学习模型用于推荐系统
标题:STAR: A Simple Training-free Approach for Recommendations using Large Language Models
机构:南加州大学、Google、Google DeepMind
相关领域:推荐系统
作者:Dong-Ho Lee, Adam Kraft, Long Jin
分析:近年来,大型语言模型(LLMs)在推荐系统(RecSys)任务方面取得了令人瞩目的进步。尽管当前最先进的方法依赖于针对 LLMs 的微调以获得最佳结果,但这一过程耗时且引入了严重的工程复杂性。相反,采用绕过微调并进行直接使用的 LLMs 方法,虽然资源消耗较少,但往往无法充分捕捉语义和协作信息,导致与经过微调的对比性能不佳。本文提出了一种名为 Simple Training-free Approach for Recommendation (STAR) 的框架,该框架利用 LLMs,且无需进行微调即可应用于各种推荐任务。该方法的检索阶段使用 LLMs 的语义嵌入并结合协作用户信息来检索候选项目。然后,应用 LLM 进行配对排序以增强下一项目预测。在 Amazon 评价数据集上的实验结果表明,即使仅使用检索阶段,也能取得竞争力的下一项目预测性能。该论文的完整方法在 Beauty、Toys and Games 上实现了 Hits@10 的性能+23.8%,在 Sports and Outdoors 上实现了 Hits@10 的性能-1.8%,相对于最好的有监督模型。本文的框架为一个有效的替代传统有监督模型,证明了在毫无训练或定制架构的情况下,LLMs 在推荐系统中的潜力。
地址:https://arxiv.org/pdf/2410.16458
19. 梯度轨迹追踪在数据选择中的影响力研究
标题:Influential Language Data Selection via Gradient Trajectory Pursuit
机构:Google DeepMind
相关领域:数据集构建
作者:Zhiwei Deng, Tao Li, Yang Li
分析:这篇论文关注大型语言模型的数据集构建问题,提出了一种新的数据选择算法——梯度轨迹追踪(GTP)。该算法通过联合选择数据点,在L0范数正则化的目标下追踪梯度轨迹,以提高模型性能。实验表明,GTP算法在域内和域外选择基准测试中均表现出优异性能,能够选择较低比例的数据就能达到目标指令调整任务的完全性能。
地址:https://arxiv.org/pdf/2410.16710
20. To the Globe(TTG):面向语言驱动的保障旅行规划
标题:To the Globe (TTG): Towards Language-Driven Guaranteed Travel Planning
机构:Meta AI
相关领域:模型结构改进、指令微调
作者:Da JU, Song Jiang, Andrew Cohen
分析:论文提出了一种实时演示系统To the Globe(TTG),该系统接收用户的自然语言请求,通过精细调整的大型语言模型将其转换为符号形式,并使用混合整数线性规划求解器生成最优旅行行程。系统使用合成数据管道训练,无需人工注释,基于现实世界数据集统计生成用户请求和航班酒店信息的符号形式。论文解决了旅行规划中的多约束问题,提高了行程的满意度和效率。
地址:https://arxiv.org/pdf/2410.16456
21. 视频误信息防范的新型多模态系统研究
标题:ViMGuard: A Novel Multi-Modal System for Video Misinformation Guarding
机构:Google
相关领域:多模态
作者:Andrew Kan, Christopher Kan, Zaid Nabulsi
分析:论文提出了一种名为ViMGuard的新型多模态系统,用于防范短视频中的误信息。该系统结合了视频和音频掩码自编码器,能够分析短视频中的文字、视觉和非语言音频三个组成部分,进行事实核查,从而有效识别并防范短视频中的误信息。此外,论文还介绍了ViMGuard的实际应用情况,包括其在三个先进事实核查系统中的优异表现和Chrome扩展程序的部署。论文促进了短视频信息真实性的研究,提高了社交媒体上新闻的可信度。
地址:https://arxiv.org/pdf/2410.16592
22. GE2E-KWS:端到端的关键词识别训练与评估框架的通用化研究
标题:GE2E-KWS: Generalized End-to-End Training and Evaluation for Zero-shot Keyword Spotting
机构:Google
相关领域:模型结构改进、模型评估
作者:Pai Zhu, Jacob W. Bartel, Dhruuv Agarwal
分析:该论文提出了一种全新的端到端的关键词识别训练与评估框架GE2E-KWS,主要解决定制关键词识别的相关问题。该研究将训练批次的关键词进行分类并分离,再通过计算嵌入质心的损失值,模拟运行时的注册和验证阶段,旨在提高模型收敛的稳定性和训练速度。同时,论文还提出了一种模拟生产环境的评估流程,并计算直接衡量关键词匹配准确率的指标。通过采用GE2E损失训练,论文展示了一个仅使用少量内存且可流式传输的关键词识别模型,能够在无需重新训练的情况下对新关键词进行zero-shot活。
地址:https://arxiv.org/pdf/2410.16647
23. PromptHive:通过协作式提示工程将领域专家重新带回教育内容的创建前沿
标题:PromptHive: Bringing Subject Matter Experts Back to the Forefront with Collaborative Prompt Engineering for Educational Content Creation
机构:多伦多大学、UC伯克利分校
相关领域:模型评估
作者:Mohi Reza, Ioannis Anastasopoulos, Shreya Bhandari
分析:论文介绍了PromptHive,一个协作式提示编辑界面,旨在通过鼓励快速迭代提示变化,将领域知识与提示工程更好地连接起来。研究通过数学领域的十位专家评估了该工具的设计,并通过学习者学习成果研究验证了其有效性。结果显示,该工具能够降低认知负荷,缩短内容创作周期,让非AI专家也能创建高质量的提示。
地址:https://arxiv.org/pdf/2410.16547
24. The Scene Language:用程序、词汇和嵌入来描述视觉场景
标题:The Scene Language: Representing Scenes with Programs, Words, and Embeddings
机构:斯坦福大学、UC伯克利分校
作者:Yunzhi Zhang, Zizhang Li, Matt Zhou
分析:本文介绍了一种称为“场景语言”的视觉场景表示方法,该方法通过三个关键组件精确而简洁地描述了视觉场景的结构、语义和身份。这三个组件包括:指定场景中实体的层次结构和关系的程序、概括每个实体语义类别的自然语言词汇以及捕获每个实体视觉身份的嵌入。这种表示可以通过训练免费的推理技术从预先训练的语言模型中推导出来,给定文本或图像输入。生成的场景可以使用传统的、神经的或混合图形渲染器呈现为图像。这一组合形成了一个强大且自动化的高质量3D和4D场景生成系统。与现有的场景图表示法相比,该论文提出的场景语言可以生成具有更高保真度的复杂场景,同时明确建模场景结构以实现精确控制和编辑。
地址:https://arxiv.org/pdf/2410.16770
25. QuickBind:一种轻便且可解释的分子对接模型
标题:QuickBind: A Light-Weight And Interpretable Molecular Docking Model
机构:纽约大学、哈佛医学院、哥伦比亚大学
相关领域:模型结构改进、数据集构建
作者:Wojtek Treyde, Seohyun Chris Kim, Nazim Bouatta
分析:这篇论文开发了一种轻量级的对接姿态预测算法QuickBind,该算法在广泛使用的基准测试上表现出良好的准确性和运行时间的平衡。它还增强了对亲和力模块的预测能力,并探讨了其预测机制,展示了其物理化学属性的学习。QuickBind旨在为虚拟筛选应用提供有效工具,同时作为探索新模型架构和创新的最小测试平台。
地址:https://arxiv.org/pdf/2410.16474
代码:https://github.com/aqlaboratory/QuickBind
26. 合成数据在自我生成世界中的危机与前景
标题:Collapse or Thrive? Perils and Promises of Synthetic Data in a Self-Generating World
机构:斯坦福大学
相关领域:预训练、模型评估
作者:Joshua Kazdan, Rylan Schaeffer, Apratim Dey
分析:这篇论文探讨了基于网络规模数据集预训练的生成机器学习模型的潜在问题。重点关注模型使用合成数据时的表现,研究在不同训练场景下模型是否会崩溃。文章通过对比不同的训练模式发现,当模型使用合成数据时,模型的性能会受到一定影响。文章还探讨了真实数据和合成数据之间的相互作用,以及它们在避免模型崩溃方面的作用。最终,该研究对于预测未来前沿生成模型是否会崩溃或蓬勃发展具有重要意义。
地址:https://arxiv.org/pdf/2410.16713
27. 音频语言模型是否理解语言变体?
标题:Do Audio-Language Models Understand Linguistic Variations?
机构:英伟达、马里兰大学
作者:Ramaneswaran Selvakumar, Sonal Kumar, Hemant Kumar Giri
分析:这篇论文主要讨论了开放式词汇音频语言模型(ALM)在文本查询下的音频-文本检索方面的实践。具体来说,研究者们在各种基准测试上进行了有控制的实验,发现现有的ALM很难适应语言查询的语法变化。为了解决这个问题,提出了RobustCLAP,这是一种计算效率高的新方法,用于学习不受语言变化影响的音频-语言表示。RobustCLAP通过引入多视角对比度学习目标来重新 formulate CLAP 架构中的对抗对比学习目标,即将 paraphrases 视为相同音频场景的不同视角,以此来训练模型。实验表明,这种方法在各种基准上提高了 CLAP 的文本到音频检索性能,并且在处理语言变体的鲁棒性方面也有所增强。
地址:https://arxiv.org/pdf/2410.16505
28. VistaDream:从单视图重建场景的多视图一致性图像采样
标题:VistaDream: Sampling multiview consistent images for single-view scene reconstruction
机构:武汉大学、香港科技大学、南洋理工大学
相关领域:模型结构改进、多模态
作者:Haiping Wang, Yuan Liu, Ziwei Liu
分析:这篇论文提出了一种新型框架VistaDream,可以从单视图图像重建3D场景。它采用两阶段流程,首先建立全局粗略3D骨架,然后进行基于扩散的RGB-D补全生成新视图图像。第二阶段通过无训练的多视图一致性采样(MCS)增强生成的新视图图像的一致性。该方法在不训练或微调现有扩散模型的情况下,实现了高质量的新视图合成。
地址:https://arxiv.org/pdf/2410.16892
代码:https://vistadream-project-page.github.io/
29. 文本到图像生成模型中的渐进式组合性
标题:Progressive Compositionality In Text-to-Image Generative Models
机构:南加州大学、麻省理工学院
相关领域:模型评估、数据集构建、多模态
作者:Xu Han, Linghao Jin, Xiaofeng Liu
分析:这篇论文主要探讨了文本到图像生成模型(T2I)中的组合性问题,特别是针对扩散模型在理解复杂场景中对象和属性之间组合关系的困难。文章提出了利用大型语言模型(LLM)来合成现实场景,并通过视觉问答(VQA)系统和扩散模型构建了一个包含高质量对比图像的数据集ConPair。此外,还提出了一个名为EvoGen的多阶段对比学习课程框架,用于有效学习这些模型中的错误案例,即硬负图像,以提升生成模型的效果。
地址:https://arxiv.org/pdf/2410.16719
30. 跨任务经验共享赋能LLM代理:通用算法的提出与应用
标题:CoPS: Empowering LLM Agents with Provable Cross-Task Experience Sharing
机构:UC洛杉矶分校
相关领域:模型结构改进
作者:Chen Yang, Chenyang Zhao, Quanquan Gu
分析:该论文针对代理系统存在的推理难题提出了跨任务经验共享赋能LLM代理的方法,解决了在面临未知情景时的推理限制。它通过将知识模型、先前任务的经历和后续学习紧密结合,从而有效优化决策。通过使用一系列测试如Alfworld,Webshop和HotPotQA等,证明了其算法相较于现有技术有显著改善。
地址:https://arxiv.org/pdf/2410.16670
代码:https://github.com/uclaml/COPS
31. 遥感与地球观测基础模型:综述
标题:Foundation Models for Remote Sensing and Earth Observation: A Survey
机构:南洋理工大学
相关领域:预训练、模型评估、数据集构建
地址:https://arxiv.org/pdf/2410.16602
32. 基于数据驱动的语义合一知识图谱构建
标题:Data-driven Coreference-based Ontology Building
机构:IBM研究院、艾伦AI研究所
相关领域:数据集构建、评估指标
地址:https://arxiv.org/pdf/2410.17051
33. Pantograph:机器辅助定理证明的一种新工具
标题:Pantograph: A Machine-to-Machine Interaction Interface for Advanced Theorem Proving, High Level Reasoning, and Data Extraction in Lean 4
机构:斯坦福大学
地址:https://arxiv.org/pdf/2410.16429
34. FlowTracer:揭示AI训练集群中网络路径使用不平衡问题
标题:FlowTracer: A Tool for Uncovering Network Path Usage Imbalance in AI Training Clusters
机构:IBM研究院
地址:https://arxiv.org/pdf/2410.17078
35. 文本净化技术的脆弱性探究
标题:On the Vulnerability of Text Sanitization
机构:南洋理工大学、中国科学技术大学
相关领域:模型评估、隐私保护
地址:https://arxiv.org/pdf/2410.17052
代码:https://github.com/mengtong0110/On-the-Vulnerability-of-Text-Sanitization
36. MPDS:用于扩散模型图像生成的电影海报数据集
标题:MPDS: A Movie Posters Dataset for Image Generation with Diffusion Model
机构:南京大学
相关领域:数据集构建、文本到图像生成、电影海报设计
地址:https://arxiv.org/pdf/2410.16840
代码:https://anonymous.4open.science/r/MPDS-373k-BD3B
37. 分数隐式匹配进行一步扩散蒸馏
标题:One-Step Diffusion Distillation through Score Implicit Matching
机构:北京大学、西湖大学、卡内基梅隆大学
相关领域:模型蒸馏、多模态
地址:https://arxiv.org/pdf/2410.16794
38. 基于API的Web代理的未来发展
标题:Beyond Browsing: API-Based Web Agents
机构:卡内基梅隆大学
相关领域:AI代理、API、网络交互、网页浏览
地址:https://arxiv.org/pdf/2410.16464
39. Transformers中的知识编辑对模型表示的影响
标题:Representation Shattering in Transformers: A Synthetic Study with Knowledge Editing
机构:哈佛大学、麻省理工学院、宾夕法尼亚大学
相关领域:模型结构改进、预训练
地址:https://arxiv.org/pdf/2410.17194
40. 大模型的混合仿真:DNN-基础灰盒模型
标题:A Hybrid Simulation of DNN-based Gray Box Models
机构:卡内基梅隆大学
相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态
地址:https://arxiv.org/pdf/2410.17103
41. VipAct:通过专业VLM代理协作和任务工具使用提升视觉感知
标题:VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use
机构:达特茅斯学院、Adobe Research
相关领域:模型结构改进、多模态
地址:https://arxiv.org/pdf/2410.16400
42. GeoCode-GPT: 一篇面向地理空间代码生成的超大模型论文
标题:GeoCode-GPT: A Large Language Model for Geospatial Code Generation Tasks
机构:武汉大学
相关领域:模型结构改进、语言模型预训练、地理空间代码生成、模型评估
地址:https://arxiv.org/pdf/2410.17031
43. IPL: 利用多模态大模型进行智能产品列表
标题:IPL: Leveraging Multimodal Large Language Models for Intelligent Product Listing
机构:复旦大学、阿里巴巴集团
相关领域:模型结构改进、预训练、指令微调、奖励模型
地址:https://arxiv.org/pdf/2410.16977
44. 少样本链式思维(CoT):一致推理与错误感知演示
标题:A Theoretical Understanding of Chain-of-Thought: Coherent Reasoning and Error-Aware Demonstration
机构:Amazon、密歇根州立大学
地址:https://arxiv.org/pdf/2410.16540
45. Breaking the Memory Barrier:无限增大对比损失的批处理规模
标题:Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss
机构:浙江大学、阿里巴巴集团、南洋理工大学
相关领域:模型训练优化、内存管理优化
地址:https://arxiv.org/pdf/2410.17243
46. 语言模型非短视生成用于推理和规划
标题:Language Model Non-myopic Generation for Reasoning and Planning
机构:北京大学、浙江大学、香港大学
相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态
地址:https://arxiv.org/pdf/2410.17195
47. 基于粗到细动态提升建模的实时视频推荐
标题:Coarse-to-fine Dynamic Uplift Modeling for Real-time Video Recommendation
机构:清华大学
地址:https://arxiv.org/pdf/2410.16755
48. 结肠镜智能检查前沿
标题:Frontiers in Intelligent Colonoscopy
相关领域:模型结构改进、指令微调、多模态、模型评估
地址:https://arxiv.org/pdf/2410.17241
代码:https://github.com/ai4colonoscopy/IntelliScope
49. MotionGlot:多形态运动生成模型
标题:MotionGlot: A Multi-Embodied Motion Generation Model
相关领域:模型结构改进、预训练、指令微调、奖励模型
地址:https://arxiv.org/pdf/2410.16623
50. VoiceBench:基于大模型的语音助手性能评估基准
标题:VoiceBench: Benchmarking LLM-Based Voice Assistants
机构:新加坡国立大学
相关领域:模型评估、多模态
地址:https://arxiv.org/pdf/2410.17196
51. Lunar Subterra:自整合单元与自动钻探系统
标题:Lunar Subterra: a Self-Integrative Unit with an Automated Drilling System
机构:都灵理工大学
地址:https://arxiv.org/pdf/2410.17114
52. Allo-AVA:一种大规模多模态对话AI数据集,用于自中心化阿凡达手势动画
标题:Allo-AVA: A Large-Scale Multimodal Conversational AI Dataset for Allocentric Avatar Gesture Animation
机构:乔治亚理工学院
相关领域:数据集构建
地址:https://arxiv.org/pdf/2410.16503
53. Masked Clinical Modelling:合成和增强生存数据生成的框架
标题:Masked Clinical Modelling: A Framework for Synthetic and Augmented Survival Data Generation
机构:新南威尔士大学
地址:https://arxiv.org/pdf/2410.16811
54. 大型体语言模型的研究
标题:Large Body Language Models
机构:乔治亚理工学院
相关领域:模型结构改进、多模态
地址:https://arxiv.org/pdf/2410.16533
55. 利用大模型学习数学规则的研究
标题:Learning Mathematical Rules with Large Language Models
相关领域:模型结构改进、指令微调、数据集构建
地址:https://arxiv.org/pdf/2410.16973
56. 增强可信文本生成中的答案归属能力的大模型研究
标题:Enhancing Answer Attribution for Faithful Text Generation with Large Language Models
机构:慕尼黑工业大学
相关领域:模型评估
地址:https://arxiv.org/pdf/2410.17112
57. 利用强化学习提高学术论文可读性
标题:Science Out of Its Ivory Tower: Improving Accessibility with Reinforcement Learning
机构:蒙大拿州立大学
相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态
地址:https://arxiv.org/pdf/2410.17088
58. Deep Memory Search:一种元启发式方法,用于优化启发式搜索
标题:Deep Memory Search: A Metaheuristic Approach for Optimizing Heuristic Search
机构:奥尔古艾大学、德克萨斯农工大学
相关领域:模型结构改进、预训练、指令微调
地址:https://arxiv.org/pdf/2410.17042
59. BIG5-CHAT:塑造LLM个性通过训练基于人类 grounded 数据
标题:BIG5-CHAT: Shaping LLM Personalities Through Training on Human-Grounded Data
相关领域:模型性格塑造、模型训练方法、性格评估、数据集构建
地址:https://arxiv.org/pdf/2410.16491
60. 分层任务中的物理全人类-机器人交互控制
标题:Direction-Constrained Control for Efficient Physical Human-Robot Interaction under Hierarchical Tasks
机构:上海交通大学
相关领域:机器人控制、物理人类-机器人交互、分层任务、优化算法
地址:https://arxiv.org/pdf/2410.16922
61. Transformer在上下文中的学习行为线性动力系统
标题:Can Transformers In-Context Learn Behavior of a Linear Dynamical System?
机构:德克萨斯州奥斯汀大学
相关领域:模型结构改进
地址:https://arxiv.org/pdf/2410.16546
62. DNAHLM -- DNA序列和人类语言混合的大模型
标题:DNAHLM -- DNA sequence and Human Language mixed large language Model
机构:华中科技大学
相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态
地址:https://arxiv.org/pdf/2410.16917
63. 大模型高效训练的子集预训练方法
标题:Efficient Neural Network Training via Subset Pretraining
地址:https://arxiv.org/pdf/2410.16523
64. Math Neurosurgery:仅使用前向传递法隔离语言模型的数学推理能力
标题:Math Neurosurgery: Isolating Language Models' Math Reasoning Abilities Using Only Forward Passes
相关领域:模型结构改进、指令微调
地址:https://arxiv.org/pdf/2410.16930
65. Rulebreakers Challenge:揭示大模型在形式逻辑推理中的盲点
标题:Rulebreakers Challenge: Revealing a Blind Spot in Large Language Models' Reasoning with Formal Logic
机构:谢菲尔德大学
相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态
地址:https://arxiv.org/pdf/2410.16502
66. 专家混合模型推理时间的优化研究——结合模型部署和通信调度
标题:Optimizing Mixture-of-Experts Inference Time Combining Model Deployment and Communication Scheduling
相关领域:模型结构改进、模型部署
地址:https://arxiv.org/pdf/2410.17043
67. Optimizing Chain-of-Thought Reasoning:解决排列瓶颈 via 计划扩充
标题:Optimizing Chain-of-Thought Reasoning: Tackling Arranging Bottleneck via Plan Augmentation
相关领域:模型结构改进、预训练、指令微调、计划扩充
地址:https://arxiv.org/pdf/2410.16812
68. 复杂奖励函数下的样本高效课程强化学习
标题:Sample-Efficient Curriculum Reinforcement Learning for Complex Reward Functions
地址:https://arxiv.org/pdf/2410.16790
69. 大模型在英语-泰语机器翻译中的泛化能力
标题:Can General-Purpose Large Language Models Generalize to English-Thai Machine Translation ?
机构:伦敦国王学院
相关领域:模型结构改进、预训练、指令微调、奖励模型
地址:https://arxiv.org/pdf/2410.17145
70. 探索与说服
标题:Exploration and Persuasion
地址:https://arxiv.org/pdf/2410.17086
今天的论文分享完啦,欢迎👏🏻👏🏻明天再来~