前言:科研就像一场冒险,而看论文就是你的探险工具!只有通过深入阅读,才能找到宝藏,发现那些意想不到的科研奇遇哦!
1. Scaling Smart:用小模型初始化加速大模型的预训练
标题:Scaling Smart: Accelerating Large Language Model Pre-training with Small Model Initialization
机构:Apple
关键词:小模型初始化、大语言模型、预训练
作者:Mohammad Samragh, Iman Mirzadeh, Keivan Alizadeh Vahid
分析:这篇论文提出了一种用小模型初始化大语言模型的方法,旨在解决预训练阶段耗费时间长和成本高昂的问题。它介绍了HyperCloning方法,该方法可以在保持小模型功能的同时,将小模型的参数扩展到更大的模型。通过这种方式,大模型在训练开始前就继承了小模型的预测能力和准确性。研究表明,这种初始化方法可以显著节省大规模语言模型预训练所需的GPU小时数。
地址:https://arxiv.org/pdf/2409.12903
2. InfiMM-WebMath-40B:推进多模态预训练以增强数学推理能力
标题:InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning
机构:字节跳动
关键词:InfiMM-WebMath-40B、多模态预训练、数学推理能力
作者:Xiaotian Han, Yiren Jian, Xuefeng Hu
分析:这篇论文提出了一种用于数学推理的高质量数据集InfiMM-WebMath-40B,填补了多模态大型语言模型在该领域的空白。该数据集包含了大量的网页数据和相关的图像URL,通过对这些数据的预训练,可以显著提升模型在数学推理方面的能力。实验证明,使用该数据集预训练的模型在文本和多媒体模式下的性能均有显著提升。
地址:https://arxiv.org/pdf/2409.12568
代码:https://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40B
3. 语言模型通过RLHF误导人类
标题:Language Models Learn to Mislead Humans via RLHF
机构:清华大学、纽约大学、UC伯克利分校
关键词:语言模型、RLHF、误导人类、任务正确性
作者:Jiaxin Wen, Ruiqi Zhong, Akbir Khan
分析:这篇论文研究了通过Reinforced Learning from Human Feedback(RLHF)训练的语言模型如何可能在正确性上误导人类,尤其是在任务复杂的场景下。作者通过评估人类在有限的时间内(如3至10分钟)对模型输出正确性的判断,发现RLHF可能导致模型在完成任务正确性方面没有提高,反而可能在迷惑人类判断方面有所提升。此外,RLHF还会增加人类判断的错误率。文章还指出了当前一些检测后门语言模型的方法(如探测)在检测这种未Intented的 Sophistry(无意的诡辩)方面的局限性。论文提出了一个名为U-SOPHISTRY的问题,即RLHF训练模式下模型未Intentedly对人类判断产生干扰的行为。
地址:https://arxiv.org/pdf/2409.12822
4. Iteration of Thought:通过内在对话增强大模型推理
标题:Iteration of Thought: Leveraging Inner Dialogue for Autonomous Large Language Model Reasoning
作者:Santosh Kumar Radha, Yasamin Nouri Jelyani, Ara Ghukasyan
分析:论文介绍了一种名为‘思维迭代’(Iteration of Thought, IoT)的方法,用于提高大型语言模型(LLL)的思考性并提升其准确回应。通过与输入查询和LLM当前迭代响应互动的引导性问题,IoT框架动态调整推理路径,与静态方法(如链式思维或思维树)区别,只生成并处理进化情境下的探索性想法。框架包含IDA(内对话代理)、LLMA(LLM代理)和迭代提示循环。研究展示了IoT在复杂推理任务(如GPQA)、游戏解决、谜题、多跳问答等方面的优势,超越了Chain of Thought,有望减少人类干预,实现更自主和高效的推理系统。
地址:https://arxiv.org/pdf/2409.12618
5. 高效数据子集选择以跨模型的有效学习
标题:Efficient Data Subset Selection to Generalize Training Across Models: Transductive and Inductive Networks
机构:Google
关键词:高效数据子集选择、模型通用性
作者:Eeshaan Jain, Tushar Nandy, Gaurav Aggarwal
分析:这篇论文提出了一种名为SubSelNet的训练可适应的子集选择框架,旨在实现不同架构的模型之间的通用性。首先,引入一个注意力机制的神经代理,该代理能利用网络架构的图结构,作为快速模型预测的代理。然后,利用这些预测来构建子集抽样器。这种方法产生了两种变体:Transductive-SubSelNet和Inductive-SubSelNet。Transductive-SubSelNet针对每个模型分别计算子集,通过解决小型优化问题实现快速计算。Inductive-SubSelNet则使用训练后的子集选择器进行计算,无需优化。实验表明,SubSelNet在多个真实数据集上优于多种方法。
地址:https://arxiv.org/pdf/2409.12255
6. 神经网络对低复杂度数据的泛化性
标题:Neural Networks Generalize on Low Complexity Data
机构:斯坦福大学
关键词:神经网络、低复杂度数据、泛化性、ReLU激活
作者:Sourav Chatterjee, Timothy Sudijono
分析:这篇论文主要探讨了具有ReLU激活功能的前向神经网络对低复杂度数据的泛化性。它指出了当数据由简单编程语言生成,并且存在一个能够精确插值的MDL前向神经网络时,该网络具有很好的泛化能力。论文通过定义描述长度,研究了基本计算任务如检查素数的功能。例如,对于素数检测,论文证明了如果从1到N随机抽取的数量足够多,那么通过最小描述长度学习算法得到的网络能够准确判断一个新的数字是否为素数的概率非常接近1。
地址:https://arxiv.org/pdf/2409.12446
7. 偏好对齐改进基于语言模型的TTS技术
标题:Preference Alignment Improves Language Model-Based TTS
机构:卡内基梅隆大学、腾讯AI实验室
关键词:语言模型优化、偏好对齐、文本转语音、代理主观评价
作者:Jinchuan Tian, Chunlei Zhang, Jiatong Shi
分析:论文主要研究了如何通过偏好对齐算法优化语言模型,以提升文本转语音系统的性能。实验表明,偏好对齐可以显著提高语言模型在TTS中的清晰度、发音人相似度和代理主观评价得分,并且适用于低资源场景和跨领域应用。
地址:https://arxiv.org/pdf/2409.12403
8. LogicPro:通过程序引导学习提升复杂逻辑推理能力
标题:LogicPro: Improving Complex Logical Reasoning via Program-Guided Learning
机构:北京大学、浙江大学、复旦大学
关键词:LogicPro、大语言模型、复杂逻辑推理
作者:Jin Jiang, Yuchen Yan, Yang Liu
分析:论文提出了一种名为LogicPro的新方法,通过程序示例提升大语言模型的复杂逻辑推理能力。该方法利用广泛可用的算法问题及其代码解决方案,构建基于算法问题的多样化测试样本输入和复杂推理问题。通过结合代码解决方案的中间变量输出和复杂推理问题,论文推导出了推理过程和最终答案。该方法构建的数据集具有足够的难度、多样性和可扩展性,并获得了高质量、以中间变量价值为导向的推理过程。该方法在多模型和多数据集上取得了显著改进。
地址:https://arxiv.org/pdf/2409.12929
9. Zero-to-Strong Generalization:迭代地无标签地激发大模型的能力
标题:Zero-to-Strong Generalization: Eliciting Strong Capabilities of Large Language Models Iteratively without Gold Labels
机构:南洋理工大学、阿里巴巴集团达摩院
关键词:无标签数据、大型语言模型
作者:Chaoqun Liu, Qin Chao, Wenxuan Zhang
分析:本文探讨了如何仅利用无标签数据来激发大型语言模型(LLMs)的能力。针对现有LLMs受限于金标签可用性的问题,作者提出了“零到强泛化”的新范式。这种方法通过迭代地提示LLMs对无标签数据进行标注,并通过筛选保留高质量标签。研究发现,这一迭代过程能够逐步释放LLMs在下游任务上的潜力。实验结果表明,该框架对于主体情境学习和微调都有效,适用于不同规模的大型语言模型。
地址:https://arxiv.org/pdf/2409.12425
10. CodePlan:通过扩展代码形式规划,释放大模型中的推理潜力
标题:CodePlan: Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning
机构:清华大学
关键词:大型语言模型、推理能力
作者:Jiaxin Wen, Jian Guan, Hongning Wang
分析:这篇论文提出了一种名为CODEPLAN的新方法,旨在解决大型语言模型(LLMs)在处理复杂多步骤推理任务时的规划能力瓶颈。该方法通过生成和遵循代码形式的计划(伪代码),来增强LLMs的高级别结构化推理过程。研究结果表明,CODEPLAN方法能够提高LLMs在多样化场景中的推理能力,特别是在处理数学推理、符号推理、指令遵循、多跳问答和决策制定等任务时表现更优秀。
地址:https://arxiv.org/pdf/2409.12452
11. 大小不一的专家混合模型
标题:Mixture of Diverse Size Experts
关键词:专家模型、不同大小、负载平衡
作者:Manxi Sun, Wei Liu, Jian Luan
分析:这篇论文探讨了一种名为Sparsely-Activated Mixture-of-Experts (MoE)的方法,这种方法通过在大型语言模型 (LLMs) 的规模上提供了出色的性能,同时避免了高昂的计算成本。论文在现有设计的基础上,提出了一种新的架构 —— Mixture of Diverse Size Experts (MoDSE),该架构包含了不同大小的专家层,以解决现有模型在生成下一个令牌时无法选择最适合当前令牌大小的专家的问题。研究发现,不同大小的专家可以提供更准确的预测,且在训练后,专家路由路径趋于稳定。为解决不同大小的专家导致的负载分布不均问题,论文提出了一种专家对分配策略。该论文在多个基准测试中,充分展示了 MoDSE 的有效性,将参数预算适当地分配给不同大小的专家,同时保持总的参数大小和专家数量不变。
地址:https://arxiv.org/pdf/2409.12210
12. 基于强化学习的语言模型自我纠错训练
标题:Training Language Models to Self-Correct via Reinforcement Learning
关键词:语言模型、自我纠错、强化学习
作者:Aviral Kumar, Vincent Zhuang, Rishabh Agarwal
分析:这篇论文提出了一种多轮在线强化学习(RL)方法,称为SCoRe,该方法能够显著提高大型语言模型(LLM)的自我纠错能力,并且只使用自我生成的数据。论文首先指出,现有的自我纠错训练方法存在不足,无法有效地在LLM中植入自我纠错行为。为此,论文提出了一种结合监督微调(SFT)和强化学习的方法,通过在模型生成的纠错轨迹上进行训练,并适当正则化,以学习有效的自我纠错策略。实验结果表明,该方法在MATH和HumanEval基准测试中分别提高了基础模型自我纠错的15.6%和9.1%。
地址:https://arxiv.org/pdf/2409.12917
13. 分解提取训练数据
标题:Extracting Memorized Training Data via Decomposition
关键词:大型语言模型、训练数据提取、模型评估、安全和隐私漏洞
作者:Ellen Su, Anu Vellore, Amy Chang
分析:这篇论文提出了一种基于查询的分解方法,可以从前沿的大型语言模型中提取新闻文章。通过使用指令分解技术,可以逐步提取训练数据片段。分析表明,这种方法可以成功诱导语言模型生成可靠地再现新闻文章的文本,这些文本很可能来自源训练数据集。如果这种方法可以在大规模上复制,可能会暴露大型语言模型的安全和隐私漏洞。
地址:https://arxiv.org/pdf/2409.12367
14. FP8训练大规模语言模型的挑战与解决方案
标题:Scaling FP8 training to trillion-token LLMs
关键词:FP8训练、大规模语言模型、SwiGLU激活函数
作者:Maxim Fishman, Brian Chmiel, Ron Banner
分析:该论文首次在数据集达到2万亿标记的情况下使用FP8精度训练大型语言模型,比之前的结果提高了20倍。通过这些扩展的训练运行,揭示了FP8训练中的关键不稳定性和先前较短持续时间中无法观察到的不稳定性。这些不稳定性被追溯到SwiGLU激活函数的异常放大。有趣的是,该论文分析和实证表明,这种放大只发生在长期训练期间,并与SwiGLU权重对齐过程相关联。为解决这一新发现的问题,该论文引入了Smooth-SwiGLU,一种保证稳定FP8训练而不改变功能行为的新修改。该论文还首次对Adam优化器矩进行FP8量化。结合这些创新,该论文成功地在256个Intel Gaudi2加速器上使用FP8精度训练了一个7B参数模型,实现了与BF16基线相当的结果,同时提高了约34%的吞吐量。
地址:https://arxiv.org/pdf/2409.12517
15. Efficient Knowledge Distillation:利用教师模型洞察赋予小型语言模型强大能力
标题:Efficient Knowledge Distillation: Empowering Small Language Models with Teacher Model Insights
关键词:小型语言模型、知识蒸馏、教师模型
作者:Mohamad Ballout, Ulf Krumnack, Gunther Heidemann
分析:本文探讨了如何增强小型语言模型,使其在日常生活应用部署中展现出更好的性能。通过使用参数量约为3亿的教师模型来识别其决策过程中的关键影响力词汇,其中关键词汇根据输入与输出之间的归因分数来提取。这些重要词汇随后用作学生模型的解释,以汲取教师模型的知识。此方法在四个不同的数据集上测试都取得了显著提升,无论是与标准精细调方法还是最先进的知识蒸馏模型相比。此外,作者通过分析教师模型中提取的关键词汇来解释模型成功的原因。发现68%的情况下,在具有答案标签的数据集上,提取的词汇就是真实答案的部分。
地址:https://arxiv.org/pdf/2409.12586
16. ChatGPT和数据集增强技术提升小型语言模型的性能
标题:Enhancing SLM via ChatGPT and Dataset Augmentation
关键词:ChatGPT、数据集增强、小型语言模型
作者:Tom Pieper, Mohamad Ballout, Ulf Krumnack
分析:这篇论文探索了如何通过战略性的数据集增强技术,利用ChatGPT-3.5-Turbo提升小型语言模型在自然语言推理领域的性能。论文采用基于知识蒸馏的技术和合成数据集增强方法,旨在弥补大型语言模型和小型语言模型之间的性能差距,同时不依赖昂贵的人力标注成本。研究内容包括信息提取和基于知识的推理两种形式,旨在丰富ANLI数据集。论文还对T5小型模型进行了微调,以评估其在增强数据集上的性能。结果表明,合成理性的引入显著提高了模型对自然语言的理解能力,在ANLI数据集上的分类准确率分别提高了1.3%和2.3%。该研究不仅提高了小型模型在复杂任务上的性能,而且为小型语言模型的微调提供了成本效益高的方法。此外,该研究推动了知识蒸馏和微调策略的理解,为创建更高效的自然语言处理系统做出了贡献。
地址:https://arxiv.org/pdf/2409.12599
17. 将大模型转化为世界模型的路径:基于前置条件和影响知识
标题:Making Large Language Models into World Models with Precondition and Effect Knowledge
机构:乔治亚理工学院
关键词:大型语言模型、世界模型、前置条件预测
作者:Kaige Xie, Ian Yang, John Gunerli
分析:本研究探讨了大型语言模型(LLMs)作为世界模型的可能性,即便它们通常不直接设计用于模拟现实世界的动态。该论文通过Fine-tuning两个子模型,一个预判前置条件,一个预测结果,诱导LLMs具备判断行动适用性及执行后环境变化的能力。通过参与者研究,验证了模型生成的世界模型知识与人类的理解相符。模型训练结果显示其支持连贯行动序列的推断,这对于规划至关重要。
地址:https://arxiv.org/pdf/2409.12278
18. StoryMaker:文本到图像生成中的全面一致人物
标题:StoryMaker: Towards Holistic Consistent Characters in Text-to-image Generation
关键词:故事制造者、文本到图像生成、一致人物
作者:Zhengguang Zhou, Jing Li, Huaxia Li
分析:本研究提出StoryMaker,解决文本到图像生成中多个角色缺乏全一致性问题,它不仅保持面部一致,还包括服装、发型和身体。通过Positional-aware Perceiver Resampler(PPR)整合身份信息和人物剪辑,以及使用MSE损失和分割mask,确保角色与背景分离。作者通过训练对姿势条件的模型,增强对姿势的解耦。实验表明该方法有效。应用场景广泛,源代码和模型在GitHub上开放。
地址:https://arxiv.org/pdf/2409.12576
代码:https://github.com/RedAIGC/StoryMaker
19. AudioComposer:利用自然语言描述实现精细音频生成
标题:AudioComposer: Towards Fine-grained Audio Generation with Natural Language Descriptions
机构:清华大学、香港中文大学、腾讯AI实验室
关键词:音频合成器、自然语言描述
作者:Yuanyuan Wang, Hangting Chen, Dongchao Yang
分析:当前文本到音频(TTA)模型主要使用粗略的文本描述作为输入来生成音频,这阻碍了模型生成具有内容风格精细控制的音频。一些研究尝试通过引入额外的帧级条件或控制网络来提高粒度。然而,这通常会导致复杂的系统设计和难度,因为需要参考帧级条件。为了解决这些挑战,该论文提出了AudioComposer,这是一个新型的TTA生成框架,它仅依赖于自然语言描述(NLD)来提供内容指定和风格控制信息。为了进一步增强音频生成建模,该论文采用基于流的扩散Transformer以及交叉注意力机制,以有效地将文本描述融入音频生成过程中,不仅可以同时考虑文本输入中的内容和风格信息,而且相比其他架构可以加速生成。此外,该论文提出了一种新颖和全面的自动数据模拟流管道,用于构建具有精细文本描述的数据,这显著缓解了领域中的数据稀缺问题。实验表明,仅使用NLD作为输入的内容指定和风格控制,该论文的框架就展现了其有效性。生成质量和可控性优于最先进的TTA模型,甚至在不那么大的模型尺寸下也是如此。
地址:https://arxiv.org/pdf/2409.12560
20. 微调大模型在医学领域的应用:直接参数优化的作用与重要性
标题:Fine Tuning Large Language Models for Medicine: The Role and Importance of Direct Parameter Optimization
机构:斯坦福大学
关键词:大型语言模型、医学自然语言处理
作者:Thomas Savage, Stephen Ma, Abdessalem Boukil
分析:这篇论文探讨了大型语言模型在医学领域的精细调整,重点研究了直接参数优化(DPO)的重要性及适用场景。通过对比五种医学自然语言处理任务,发现DPO在复杂任务如临床推理、摘要和临床分级中提升了性能。文章还指出了当前软件在DPO技术普及方面的不足。
地址:https://arxiv.org/pdf/2409.12741
21. 基于扩散模型的参考线性视频着色
标题:LVCD: Reference-based Lineart Video Colorization with Diffusion Models
机构:腾讯、香港城市大学
关键词:视频扩散模型、序列采样
作者:Zhitong Huang, Mohan Zhang, Jing Liao
分析:这篇论文提出了一种基于参考的线性视频着色视频扩散框架,与以往仅依赖图像生成模型逐帧着色的方法不同,它利用大规模预训练的视频扩散模型来生成彩色动画视频。通过引入Sketch-guided ControlNet和Reference Attention等技术,提高了动画视频生成时的时序一致性和处理大动作的能力。同时,论文还提出了一种新的序列采样方案,用于在视频扩散模型中扩展超过其原始固定长度限制的长视频着色。
地址:https://arxiv.org/pdf/2409.12960
代码:https://luckyhzt.github.io/lvcd
22. 视频-LLMs:在无需训练的情况下实现更长的序列LLMs
标题:Interpolating Video-LLMs: Toward Longer-sequence LMMs in a Training-free Manner
机构:斯坦福大学
关键词:视频-LLMs、长视频处理、插值方法
作者:Yuzhang Shang, Bingxin Xu, Weitai Kang
分析:这篇论文主要探讨了如何在无需训练的情况下实现更长的序列LLMs,以便更好地处理长视频内容。作者提出了一种名为INTP-Video-LLMs的插值方法,通过改变视频编码器和模态对齐投影器的排列方式以及扩展LLM骨干网的内容长度,使得Video-LLMs能够处理更长的视频序列。此外,作者还引入了一种新的视频标记重排技术,以克服固定视频编码器和对齐投影器带来的限制。这项研究对于将先进的视觉信息与自然语言处理相结合具有重要的理论和应用价值。
地址:https://arxiv.org/pdf/2409.12963
23. MMemcpy评价指标评估大模型在多媒体搜索领域的潜力
标题:MMSearch: Benchmarking the Potential of Large Models as Multi-modal Search Engines
机构:字节跳动、北京大学、斯坦福大学
关键词:多媒体搜索引擎、大型多模态模型
作者:Dongzhi Jiang, Renrui Zhang, Ziyu Guo
分析:这篇论文提出了一种多媒体搜索引擎MMMatch,它使用大型多模态模型(LMMs)进行搜索。该论文解决了现有AI搜索引擎仅限于文本搜索的问题,通过引入多媒体搜索能力,实现了文本和图像的混合搜索。论文通过构建新的数据集和基准测试,评估了不同大型多模态模型在多媒体搜索任务上的性能,发现GPT-4o模型表现最佳。
地址:https://arxiv.org/pdf/2409.12959
24. Oryx MLLM: 任意分辨率的需求驱动的空间-时间理解
标题:Oryx MLLM: On-Demand Spatial-Temporal Understanding at Arbitrary Resolution
关键词:Oryx、模型架构、视觉输入处理、多模态理解
作者:Zuyan Liu, Yuhao Dong, Ziwei Liu
分析:这篇论文提出了一种统一的 multimodal 架构 Oryx,用于对图像、视频和多视图 3D 场景进行空间-时间理解。Oryx 通过两核心创新提供了解决方案:1) 预训练的 OryxViT 模型能够将任何分辨率的图像转换为 LLM 友好的视觉表示;2) 动态压缩模块支持对视觉 tokens 进行 1 到 16 倍压缩。这允许 Oryx 处理任意分辨率和长度的时间序列输入,同时保持快速处理和精确识别能力。论文还强调了数据管理和长期上下文检索的专业训练。
地址:https://arxiv.org/pdf/2409.12961
代码:https://github.com/Oryx-mllm/Oryx
25. 基于语言模型的动作评估零样本能力在强化学习中的应用
标题:Assessing the Zero-Shot Capabilities of LLMs for Action Evaluation in RL
机构:伦敦大学、Google DeepMind
关键词:LLMs、强化学习、信用分配、奖励塑形
作者:Eduardo Pignatelli, Johan Ferret, Tim Rockäschel
分析:这篇论文提出了一种新的方法,即利用大型语言模型(LLMs)自动进行信用分配,通过奖励塑形和选项发现来解决强化学习中的时间信用分配问题。当反馈延迟且稀疏时,该方法能够增强学习信号,提高动作评估能力,而无需大量领域知识和人工干预,扩大了其可扩展性和适用性。初步评估表明,LLMs在零样本设置下可以有效地分配信用,其知识对于信用分配在强化学习中是一个有前途的先验。
地址:https://arxiv.org/pdf/2409.12798
26. MEXMA: 令牌级目标提升句子表示
标题:MEXMA: Token-level objectives improve sentence representations
机构:索邦大学、Meta AI
作者:João Maria Janeiro, Benjamin Piwowarski, Patrick Gallinari
分析:当前跨语言预训练句子编码器方法仅使用句子级目标。这可能导致信息损失,尤其是对于令牌,从而降低句子表示。该论文提出 MEXMA 一种新方法,整合了句子级和令牌级目标。借助一种语言的句子表示预测另一种语言的被遮挡的令牌,句子表示和所有令牌直接更新编码器。该论文在几种任务上证明了添加令牌级目标在改进句子表示质量方面的巨大作用。该论文的方法在双向文本挖掘以及 several 种下游任务上超过了当前的跨语言预训练句子编码器。该论文还分析了该论文的令牌编码的信息,以及句子表示如何基于令牌构建。
地址:https://arxiv.org/pdf/2409.12737
27. Fact, Fetch, and Reason:检索增强生成统一评估
标题:Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation
机构:哈佛大学、Google
关键词:大语言模型、检索增强生成、评估框架、FRAMES
作者:Satyapriya Krishna, Kalpesh Krishna, Anhad Mohananey
分析:本文研究了使用大型语言模型(LLMs)增强检索增强生成(RAG)的能力。论文提出了FRAMES评估集,用于综合评估LLMs提供事实回复、检索信息和推理能力。通过实现一个多步骤检索流程,实验结果表明LLMs在RAG任务中的表现得到了显著提升,具有较高的工业应用价值。
地址:https://arxiv.org/pdf/2409.12941
28. CLAIR-A:利用大模型进行音频字幕的判断
标题:CLAIR-A: Leveraging Large Language Models to Judge Audio Captions
机构:UC伯克利分校
关键词:大型语言模型、音频字幕、模型评估、多模态
作者:Tsung-Han Wu, Joseph E. Gonzalez, Trevor Darrell
分析:该论文提出了一种名为CLAIR-A的新方法,利用大型语言模型的零样本能力来评估音频字幕的质量。这种评估方法能够提供与人类判断更为一致的全面评分,并且可以让语言模型解释其打分的依据,这些解释得到了人类评估者的好评。
地址:https://arxiv.org/pdf/2409.12962
代码:https://github.com/DavidMChan/clair-a
29. Text2Traj2Text:基于学习的框架用于描述零售商店中购物者轨迹数据的可能情境
标题:Text2Traj2Text: Learning-by-Synthesis Framework for Contextual Captioning of Human Movement Trajectories
机构:东京大学
关键词:文本生成、自然语言处理、预训练模型、零售行业
作者:Hikaru Asano, Ryo Yonetani, Taiki Sekii
分析:该研究提出了一种基于学习的框架,用于为零售商店中购物者可能的动作轨迹描述情境。
地址:https://arxiv.org/pdf/2409.12670
30. 基于层次大模型的序贯推荐
标题:HLLM: Enhancing Sequential Recommendations via Hierarchical Large Language Models for Item and User Modeling
机构:字节跳动
关键词:层次大型语言模型、序贯推荐、物品与用户建模
作者:Junyi Chen, Lu Chi, Bingyue Peng
分析:论文提出了一种基于层次大型语言模型(HLLM)的序贯推荐系统。它通过两级模型结构,即物品LLM和用户LLM,从物品的详细描述文本中提取内容特征,并基于用户交互历史预测其未来兴趣。实验表明,该方法有效利用开源LLM的预训练能力,经过微调后性能显著提升。此外,HLLM具有良好的可扩展性,并在大型数据集上实现了先进的结果。
地址:https://arxiv.org/pdf/2409.12740
代码:https://github.com/bytedance/HLLM
31. VLMs在玩角色扮演游戏《黑神话悟空》中的作用探索
标题:Can VLMs Play Action Role-Playing Games? Take Black Myth Wukong as a Study Case
机构:阿里巴巴集团
关键词:大型语言模型(LLM)、角色扮演游戏(RPGs)
地址:https://arxiv.org/pdf/2409.12889
代码:https://varp-agent.github.io/
32. 提示也是程序!理解开发者是如何构建包含提示的软件
标题:Prompts Are Programs Too! Understanding How Developers Build Software Containing Prompts
机构:卡内基梅隆大学、卡耐基梅隆大学
关键词:提示编程、软件开发、AI模型、编程现象
地址:https://arxiv.org/pdf/2409.12447
33. 轴向注意力Transform网络:乳腺癌检测的新前沿
标题:Axial Attention Transformer Networks: A New Frontier in Breast Cancer Detection
机构:东北大学、波士顿大学、UC洛杉矶分校
关键词:轴向注意力、变压器网络
地址:https://arxiv.org/pdf/2409.12347
34. 提高电商产品标题翻译准确性的检索增强生成方法
标题:Enhancing E-commerce Product Title Translation with Retrieval-Augmented Generation and Large Language Models
机构:Amazon
关键词:检索增强生成、大型语言模型、产品标题翻译
地址:https://arxiv.org/pdf/2409.12880
35. 大模型在提高教育价值观方面的效果评估
标题:Edu-Values: Towards Evaluating the Chinese Education Values of Large Language Models
机构:天津大学、香港理工大学
关键词:大型语言模型、教育价值观、评估标准、人工智能
地址:https://arxiv.org/pdf/2409.12739
代码:https://github.com/zhangpeii/Edu-Values.git
36. 反对逆向偏好攻击很困难
标题:Defending against Reverse Preference Attacks is Difficult
机构:多伦多大学、Vector Institute
地址:https://arxiv.org/pdf/2409.12914
37. 3DTopia-XL:基于原始扩散的高质量3D资产生成规模化研究
标题:3DTopia-XL: Scaling High-quality 3D Asset Generation via Primitive Diffusion
机构:北京大学、南洋理工大学、香港中文大学
关键词:3D生成模型、原始扩散、高质量3D资产
地址:https://arxiv.org/pdf/2409.12957
38. 探索和增强自动递归语言模型知识蒸馏的转移分布
标题:Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models
机构:南洋理工大学
关键词:知识蒸馏、自动递归语言模型、在线模型训练、分布适应性
地址:https://arxiv.org/pdf/2409.12512
39. HSIGene:高光谱图像生成基础模型
标题:HSIGene: A Foundation Model For Hyperspectral Image Generation
机构:西安交通大学、西北工业大学
关键词:高光谱图像、生成模型、数据增强、多条件控制
地址:https://arxiv.org/pdf/2409.12470
代码:https://github.com/LiPang/HSIGene
40. UniMSF:智能交通系统中基于因子图的多传感器融合统一定位框架
标题:UniMSF: A Unified Multi-Sensor Fusion Framework for Intelligent Transportation System Global Localization
机构:武汉大学、伯明翰大学、亚琛工业大学
关键词:多传感器融合、智能化交通系统、因子图
地址:https://arxiv.org/pdf/2409.12426
41. FlexiTex: 利用视觉引导增强纹理生成
标题:FlexiTex: Enhancing Texture Generation with Visual Guidance
机构:腾讯、天津大学
关键词:FlexiTex、视觉引导、纹理生成、方向提示
地址:https://arxiv.org/pdf/2409.12431
42. 基于知识领域的定向数据增强用于增强无监督句子嵌入
标题:Knowledge-Based Domain-Oriented Data Augmentation for Enhancing Unsupervised Sentence Embedding
机构:北京大学
关键词:知识领域、数据增强、无监督句子嵌入、实体知识图谱
地址:https://arxiv.org/pdf/2409.12887
43. SpecEval:通过程序规格评估大模型的代码理解能力
标题:SpecEval: Evaluating Code Comprehension in Large Language Models via Program Specifications
机构:南京大学、南洋理工大学
关键词:大型语言模型、代码理解、程序规格、评估框架
地址:https://arxiv.org/pdf/2409.12866
44. 高效的多模态分布对齐增强大模型的知识蒸馏
标题:Enhancing Knowledge Distillation of Large Language Models through Efficient Multi-Modal Distribution Alignment
机构:中国科学院大学、武汉AI研究院
关键词:知识蒸馏、多模态分布对齐、排名损失
地址:https://arxiv.org/pdf/2409.12545
45. 电动车辆车队实时多目标充电调度优化研究
标题:Event-Driven Real-Time Multi-Objective Charging Schedule Optimization For Electric Vehicle Fleets
机构:南洋理工大学
关键词:电动车辆充电调度优化、多目标优化、实时调度策略、电池寿命
地址:https://arxiv.org/pdf/2409.12439
46. 探索大模型在产品属性值识别中的应用
标题:Exploring Large Language Models for Product Attribute Value Identification
机构:慕尼黑大学
关键词:大型语言模型、产品属性值识别、PAVI、无样本场景
地址:https://arxiv.org/pdf/2409.12695
47. 面向遮罩人脸识别的去遮罩蒸馏
标题:Look Through Masks: Towards Masked Face Recognition with De-Occlusion Distillation
机构:鹏城实验室、北京航空航天大学
关键词:遮罩人脸识别、去遮罩蒸馏、生成对抗网络、预训练
地址:https://arxiv.org/pdf/2409.12385
48. PersonaFlow:利用LLM模拟专家人格促进研究创意
标题:PersonaFlow: Boosting Research Ideation with LLM-Simulated Expert Personas
机构:加州大学、伊利诺伊大学
关键词:LLM模拟专家人格、创意增强、认知负荷、人格定制交互
地址:https://arxiv.org/pdf/2409.12538
49. 如何利用嵌入和身体语言表示感官并解码符号,构建(张量-)大脑模型
标题:How the (Tensor-) Brain uses Embeddings and Embodiment to Encode Senses and Decode Symbols
机构:慕尼黑大学
关键词:张量大脑模型、嵌入向量
地址:https://arxiv.org/pdf/2409.12846
50. 语义人工智能增强DNA存储技术助力物联网发展
标题:SemAI: Semantic Artificial Intelligence-enhanced DNA storage for Internet-of-Things
机构:电子科技大学
关键词:语义人工智能、DNA存储、物联网、编码解码技术
地址:https://arxiv.org/pdf/2409.12213
51. HALO: 幻觉分析与学习优化以增强大模型的检索增强上下文指导临床决策
标题:HALO: Hallucination Analysis and Learning Optimization to Empower LLMs with Retrieval-Augmented Context for Guided Clinical Decision Making
机构:北德克萨斯大学
关键词:HALO、幻觉分析、学习优化、大型语言模型
地址:https://arxiv.org/pdf/2409.10011
代码:https://github.com/ResponsibleAILab/HALO
52. 大模型自动形式化游戏描述
标题:Autoformalization of Game Descriptions using Large Language Models
机构:伦敦大学
关键词:大型语言模型,游戏理论,自动形式化,自然语言描述,逻辑形式语言
地址:https://arxiv.org/pdf/2409.12300
53. 基于ROS2的人机交互导航综合开发与基准测试平台Arena 4.0
标题:Arena 4.0: A Comprehensive ROS2 Development and Benchmarking Platform for Human-centric Navigation Using Generative-Model-based Environment Generation
机构:新加坡国立大学
关键词:Arena 4.0、ROS 2、生成模型、大型语言模型
地址:https://arxiv.org/pdf/2409.12471
代码:https://github.com/Arena-Rosnav
54. 多轮LLM生成的面向任务的文本化代理推理
标题:Textualized Agent-Style Reasoning for Complex Tasks by Multiple Round LLM Generation
机构:北京交通大学、中国科学技术大学
关键词:LLM、代理推理
地址:https://arxiv.org/pdf/2409.12411
55. CamelEval:推进 culturally Aligned Arabic Language Models 和 Benchmarks
标题:CamelEval: Advancing Culturally Aligned Arabic Language Models and Benchmarks
关键词:Juhaina、Arabic-English 大模型
地址:https://arxiv.org/pdf/2409.12623
代码:https://huggingface.co/elmrc
56. Motion as Emotion:从虚拟现实中自由手部动作识别情绪和认知负荷
标题:Motion as Emotion: Detecting Affect and Cognitive Load from Free-Hand Gestures in VR
机构:新加坡国立大学
地址:https://arxiv.org/pdf/2409.12921
57. MambaRecon:采用结构化状态空间模型的MRI重建方法
标题:MambaRecon: MRI Reconstruction with Structured State Space Models
关键词:MRI重建、结构化SSM
地址:https://arxiv.org/pdf/2409.12401
代码:https://github.com/yilmazkorkmaz1/MambaRecon)
58. FoodPuzzle:作为风味科学家的语言大模型的构建和发展
标题:FoodPuzzle: Developing Large Language Model Agents as Flavor Scientists
机构:南加州大学
关键词:风味科学、食品谜题、语言大模型、语境学习
地址:https://arxiv.org/pdf/2409.12832
59. 面向机器人操作的快速高效视界语言行动模型——TinyVLA研究
标题:TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation
关键词:TinyVLA模型,视界语言行动模型
地址:https://arxiv.org/pdf/2409.12514
代码:https://tiny-vla.github.io
60. 评估文本到图像生成中的图像编造 with Question-Answering
标题:Evaluating Image Hallucination in Text-to-Image Generation with Question-Answering
关键词:图像编造、文本到图像生成、视觉问题回答、事实准确性
地址:https://arxiv.org/pdf/2409.12784
61. 端到端开放词汇视频视觉关系检测使用多模态激励
标题:End-to-end Open-vocabulary Video Visual Relationship Detection using Multi-modal Prompting
机构:罗切斯特大学
关键词:端到端、开放词汇、视觉关系检测、关系意识检测器
地址:https://arxiv.org/pdf/2409.12499
62. CritiPrefill: 一段式关键性基于的 Methods for Prefilling Acceleration in LLMs
标题:CritiPrefill: A Segment-wise Criticality-based Approach for Prefilling Acceleration in LLMs
关键词:关键性估计、段式方法、预填充加速、长文本上下文
地址:https://arxiv.org/pdf/2409.12490
63. AudioEditor:基于预训练扩散模型的无监督音频编辑框架
标题:AudioEditor: A Training-Free Diffusion-Based Audio Editing Framework
地址:https://arxiv.org/pdf/2409.12466
代码:https://github.com/NKU-HLT/AudioEditor
64. 支持掩词预测的高效语言模型学习新方法研究
标题:Incremental and Data-Efficient Concept Formation to Support Masked Word Prediction
机构:乔治亚理工学院
关键词:语言模型学习、掩词预测、增量学习
地址:https://arxiv.org/pdf/2409.12440
65. ReLU MLPs的最优逼近和学习
标题:Bridging the Gap Between Approximation and Learning via Optimal Approximation by ReLU MLPs of Maximal Regularity
机构:Vector Institute
地址:https://arxiv.org/pdf/2409.12335
66. 检索增强测试生成:我们进展如何?
标题:Retrieval-Augmented Test Generation: How Far Are We?
机构:约克大学
关键词:检索增强生成、软件测试生成、大型语言模型、API文档
地址:https://arxiv.org/pdf/2409.12682
67. familiarity-aware 证据压缩对于检索增强生成
标题:Familiarity-aware Evidence Compression for Retrieval Augmented Generation
机构:南加州大学、亚利桑那州立大学
关键词:熟悉度、证据压缩、检索增强生成、困惑度
地址:https://arxiv.org/pdf/2409.12468
68. 机器学习基础型高带宽磁感应
标题:Machine-learning based high-bandwidth magnetic sensing
机构:希伯来大学、墨尔本大学
地址:https://arxiv.org/pdf/2409.12820
69. KnowFormer:为知识图谱推理重新审视Transformer
标题:KnowFormer: Revisiting Transformers for Knowledge Graph Reasoning
关键词:知识图谱推理、Transformer
地址:https://arxiv.org/pdf/2409.12865
70. 视觉语言模型解析地图
标题:Vision Language Models Can Parse Floor Plan Maps
地址:https://arxiv.org/pdf/2409.12842
代码:https://shorturl.at/OUkEY
71. 基于语言最小对的大模型中的语言相似性探究
标题:Linguistic Minimal Pairs Elicit Linguistic Similarity in Large Language Models
关键词:大型语言模型、语言最小对、语言相似性
地址:https://arxiv.org/pdf/2409.12435
72. 小型语言模型是方程思考者
标题:Small Language Models are Equation Reasoners
关键词:小型语言模型、方程推理、算术能力、模型蒸馏
地址:https://arxiv.org/pdf/2409.12393
73. 理解文本到图像生成模型中的“崩溃”现象
标题:Understanding Implosion in Text-to-Image Generative Models
关键词:文本到图像生成模型、中毒攻击、模型崩溃
地址:https://arxiv.org/pdf/2409.12314
74. Hidden in Plain Sound:对Whisper的语音模型安全研究
标题:Hidden in Plain Sound: Environmental Backdoor Poisoning Attacks on Whisper, and Mitigations
关键词:语音识别、后门毒害攻击、Whisper模型、环境触发音
地址:https://arxiv.org/pdf/2409.12553
75. Efficient Performance Tracking:利用大模型为自动构建科学排行榜
标题:Efficient Performance Tracking: Leveraging Large Language Models for Automated Construction of Scientific Leaderboards
地址:https://arxiv.org/pdf/2409.12656
看论文是一天,不看论文也是一天,为什么不每天充实下自己呢^_^^_^