前言:论文可以让你更快地了解最新研究进展,掌握最新的技术和理论。这对于自身的科研能力和竞争力非常重要,尤其是在快速发展的学科领域,下面小编带你来看大模型最近的研究成果。
1. 记忆女神:无近似的高效服务数百万上下文长度LLM推理请求的并行化策略
标题:Mnemosyne: Parallelization Strategies for Efficiently Serving Multi-Million Context Length LLM Inference Requests Without Approximations
机构:微软、乔治亚理工学院、UC圣迭戈分校
关键词:LLMs、长上下文、并行化策略、交互式推理
作者:Amey Agrawal, Junda Chen, Íñigo Goiri
分析:本文主要探讨了大型语言模型(LLMs)处理长度超过数百万个令牌的上下文时面临的挑战,解决现有技术在推理过程中的独特问题,如混合批量下不同的填充与解码阶段及相关的时延约束(如首次令牌到首次令牌的时间间隔和两次令牌之间的时间间隔)。并且目前尚未有支持长上下文推理的解决方案允许批量请求以提升硬件利用率。本文提出了一套三维度的并行化策略,包括自适应分块以减少混合批处理时的预填充开销、序级管道并行化以降低首次令牌到首次令牌的时间间隔、以及以减少两次令牌之间的时间间隔为目的的键值缓存并行化,综合运用这三大创新,使得交互式长上下文推理得以扩展到至少 1000 万个令牌,同时通过批处理实现了高吞吐量。由研究发现,目前首篇能够以生产级 SLAs 的标准高效处理 1000 万个长上下文推理的研究是本文,尤其是对于 1000 万个令牌的上下文范围而言。
地址:https://arxiv.org/pdf/2409.17264
2. 探索早期层的瑰宝:通过1000倍输入词元减少来加速长上下文大语言模型
标题:Discovering the Gems in Early Layers: Accelerating Long-Context LLMs with 1000x Input Token Reduction
机构:香港大学、威斯康星大学、Salesforce AI
关键词:大型语言模型(LLMs)、早期层处理、标记筛选和压缩、加速推理
作者:Zhenmei Shi, Yifei Ming, Xuan-Phi Nguyen
分析:本文研究大型语言模型(LLMs)在长文本上下文处理中的瓶颈问题,旨在加速LLM推理过程并降低GPU内存消耗。研究发现LLMs在早期处理阶段就能识别出相关标记(tokens),因此提出一种利用早期层进行标记筛选和压缩的方法。该方法能显著减少后续处理所需的上下文长度。通过提出名为GemFilter的算法,实现了速度和内存效率的显著提升,并且在特定任务上的性能表现优异。此外,该算法具有可解释性,允许人类检查筛选后的输入序列,增强了该论文对LLM内部机制的理解。
地址:https://arxiv.org/pdf/2409.17422
代码:https://github.com/SalesforceAIResearch/GemFilter
3. MIO:基于多模态令牌的基础模型
标题:MIO: A Foundation Model on Multimodal Tokens
机构:北京大学、滑铁卢大学、香港理工大学
关键词:多模态令牌,基础模型,任何模态到任何模态,生成和理解,语音增强预训练
作者:Zekun Wang, King Zhu, Chunpu Xu
分析:这篇论文介绍了一种基于多模态令牌的基础模型MIO,它能够以端到端、自回归的方式理解并生成语音、文本、图像和视频。论文解决了当前大型语言模型在任意模态间的理解和生成仍存在差距的问题。通过四个阶段的训练,包括对齐预训练、交替预训练、语音增强预训练和综合监督微调,MIO展现出强大的性能,特别是在任意模态间的生成和理解任务上。此外,MIO还具有先进的任何模态到任何模态的特性,如交错视频文本生成、视觉思维链推理、视觉指南生成、指令性图像编辑等。
地址:https://arxiv.org/pdf/2409.17692
4. 好的数据是仿真实时学习需要的一切
标题:Good Data Is All Imitation Learning Needs
机构:麻省理工学院、英国女王大学
关键词:Counterfactual Explanations (CFEs), Autonomous/Automated Driving Systems (ADS), Safety-critical scenarios, Decision-Making, Model Performance
作者:Amir Samadi, Konstantinos Koufos, Kurt Debattista
分析:在自动驾驶/自动化系统(ADS)的主要模型,如传统的老师-学生模型、常见的仿真实时学习,以及行为克隆,存在一个共同的问题,即这些方法常因无法覆盖真实世界情况而难以处理,这些问题会导致在极端情况下的模型表现不佳。为了解决这些问题,该论文在尝试采用一种名为Counterfactual Explanations(Counterfactual Explanations, CFEs)的新数据增强技术来优化内嵌于ADS中。CFEs通过最小化对输入的轻微更改来产生仿真的样本,这有助于模型更全面地识别专家驾驶员策略。这种新的方法能够在处理的关键安全事件(如预测行人出车)方面达到更高的水平,从而有望提高ADS的决策准确性,帮助形成更安全可靠的决策。
地址:https://arxiv.org/pdf/2409.17605
5. 最优Transformer的内存容量
标题:Optimal Memorization Capacity of Transformers
机构:东京大学
关键词:Transformer、输入序列、序列到序列、自注意力机制
作者:Tokio Kajitsuka, Issei Sato
分析:近年来,机器学习领域的研究越来越关注Transformer的内存容量,但它们的有效性还不太清楚。该论文在下一个标记预测设置中证明了,对N个输入序列长度为n的实验数据,Transformer可以在O(√N)的参数下记忆标签。这意味着,尽管Transformer在大模型中可以高效地进行记忆,但其输入长度n对该过程没有太大影响。该论文还分析了序列到序列设置下的内存容量,并发现对于具有硬max的Transformer,O(√nN)的参数不仅是足够的,而且也是必要的。这些结果暗示,虽然自注意力机制可以有效地识别输入序列,但前馈网络在将标签与每个标记关联时将成为瓶颈。
地址:https://arxiv.org/pdf/2409.17677
6. Logic-of-Thought:在大模型中注入逻辑以实现全面的推理能力
标题:Logic-of-Thought: Injecting Logic into Contexts for Full Reasoning in Large Language Models
机构:中国科学技术大学、中国科学院自动化研究所
关键词:逻辑推理、大型语言模型、提示方法、命题逻辑
作者:Tongxuan Liu, Wenjiang Xu, Weizhe Huang
分析:这篇论文主要探讨了如何在大型语言模型(LLMs)中提高其在复杂逻辑推理任务中的表现。作者发现虽然一些提示方法(如Chain-of-Thought)可以在一定程度上提高LLMs的推理能力,但它们存在不忠实的问题,即生成的推理链可能与派生出的结论不一致。为了解决这个问题,作者提出了一种名为Logic-of-Thought(LoT)的方法,该方法利用命题逻辑从输入上下文中生成扩展的逻辑信息,并将生成的逻辑信息作为输入提示的额外补充,从而增强LLMs的逻辑推理能力。实验结果表明,LoT可以显著提高各种提示方法在五个逻辑推理任务上的表现。
地址:https://arxiv.org/pdf/2409.17539
7. BabyLlama-2:基于有限数据的集成蒸馏模型始终超越教师模型的表现
标题:BabyLlama-2: Ensemble-Distilled Models Consistently Outperform Teachers With Limited Data
关键词:BabyLlama-2,模型蒸馏,有限数据,表现超越教师模型
作者:Jean-Loup Tastet, Inar Timiryasov
分析:本文提出了BabyLlama-2模型,这是一个通过蒸馏预训练得到的模型,它使用有限的语料库进行训练并超越了教师模型的表现。研究结果表明,通过适当的蒸馏技术,即使在数据有限的情况下,也可以实现模型的性能提升。文章还强调了进一步研究蒸馏技术的必要性。
地址:https://arxiv.org/pdf/2409.17312
8. LLM4Brain:训练大模型用于理解脑部视频
标题:LLM4Brain: Training a Large Language Model for Brain Video Understanding
机构:复旦大学、利哈伊大学
关键词:大型语言模型、脑电信号、视觉-语义信息
作者:Ruizhe Zheng, Lichao Sun
分析:这篇论文主要介绍了一种新的基于大型语言模型的方法,用于从脑电信号中解码视觉-语义信息。这种方法利用了大型语言模型的强大处理多模态信息的能力,通过在fMRI编码器上应用适配器将大脑反应转化为与视频刺激对齐的潜在表示,然后将这些表示映射到文本模态,最后通过自监督的领域适应方法增强视觉-语义信息和大脑反应之间的对齐。该方法在各种量化语义指标上取得了良好的效果,并且与真实信息相似。
地址:https://arxiv.org/pdf/2409.17987
9. 大模型在数学问题上的改进:基于回溯搜索和自适应消歧的优化
标题:BEATS: Optimizing LLM Mathematical Capabilities with BackVerify and Adaptive Disambiguate based Efficient Tree Search
作者:Linzhuang Sun, Hao Liang, Wentao Zhang
分析:本文针对大语言模型在数学问题上的表现不佳问题,提出了一种新颖的方法,称为BEATS。该方法主要通过设计新的提示,引导模型渐进而生成答案。同时,引入了一种新的回溯验证技术,以验证生成的答案的正确性。此外,该方法采用剪枝树搜索策略,以优化搜索时间。实验结果表明,该方法取得了显著的改进,使得Qwen2-7b-Instruct在MATH benchmark上的得分比GPT-4高出了8.98分。
地址:https://arxiv.org/pdf/2409.17972
10. 注意力机制中的良性过拟合问题
标题:Benign or Not-Benign Overfitting in Token Selection of Attention Mechanism
关键词:注意力机制、良性过拟合、神经网络
作者:Keitaro Sakamoto, Issei Sato
分析:本篇论文主要研究了注意力机制在神经网络中的存在的一种“良性过拟合”现象。该现象存在于现代超参数化的神经网络中,可以使模型在训练数据上表现完美的同时仍具有高泛化性能。然而,大部分这方面研究都仅限于线性模型或两层神经网络。本文首先揭示了注意力机制中的良性过拟合解决方案及其在注意力机制中的作用机理。接着讨论了模型是否会收敛到这样的解决方案,并提出了注意力机制特有的困难。然后通过在训练过程中观察注意力概率的行为,提出了良性过拟合情况和非良性过拟合情况的例子。这是首次对注意力机制中的良性过拟合进行了研究。
地址:https://arxiv.org/pdf/2409.17625
11. 视频生成的简单但强大的基线
标题:A Simple but Strong Baseline for Sounding Video Generation: Effective Adaptation of Audio and Video Diffusion Models for Joint Generation
关键词:视频生成、基础模型、音频和视频联合生成、跨模态信息
作者:Masato Ishii, Akio Hayakawa, Takashi Shibuya
分析:这篇论文通过构建一个简单的但强大的基础模型来实现声音生成视频。它将基础的音频和视频扩散模型与额外的模块结合在一起,形成一个单一的模型,并训练该模型进行音频和视频的联合生成。为了增强音频-视频对齐,论文引入了两种新的机制。首先是时间步调整,为每个基础模型提供不同的时间步信息,以便在模态之间对样本生成的时间步进行对齐。其次是新的附加模块设计,称为交叉模式条件作为位置编码(CMC-PE)。在CMC-PE中,跨模态信息被嵌入为表示时间位置信息的样式,并像位置编码一样向模型输入。与流行的交叉注意力机制相比,CMC-PE提供了更好的时序对齐的归纳偏置。实验结果验证了这两种新引入的机制的有效性,也表明该论文的方法优于现有的方法。
地址:https://arxiv.org/pdf/2409.17550
12. 维度毒瘤:大模型易受攻击的奥秘
标题:The poison of dimensionality
关键词:模型大小,抗攻击能力,机器学习、线性回归,逻辑回归,模型操纵
作者:Lê-Nguyên Hoang
分析:这篇论文探讨了机器学习模型大小对其抗攻击能力的影响,即使采用了最先进的防御措施。作者通过一系列实验证明,在具有相同诚实数据标签和被污染数据点数量的情况下,线性和逻辑回归模型的参数数量大于等于169H^2/P^2时,容易受到攻击者的操控。这一发现揭示了模型表达能力和增加攻击者可操作性之间的基本权衡关系,并在合成数据以及MNIST和FashionMNIST数据集上进行了验证。此外,论文还讨论了这一问题对源学习方法和神经网络的可能影响。
地址:https://arxiv.org/pdf/2409.17328
13. 如何通过特征学习改进神经缩放定律
标题:How Feature Learning Can Improve Neural Scaling Laws
作者:Blake Bordelon, Alexander Atanasov, Cengiz Pehlevan
分析:本文提出了一个可解的神经缩放定律模型,超越了核限制。理论分析表明,该模型的性能与模型大小、训练时间和可用数据的总量成比例。该论文确定了三个缩放阶段,对应于不同的任务难度:困难、简单和超简单任务。对于简单和超简单的目标函数(位于初始无限宽度神经切向核(NTK)定义的重构核希尔伯特空间(RKHS)内),在特征学习和核模式模型之间,缩放指数保持不变。对于困难任务(定义为NTK初始RKHS之外的任务),该论文在理论和经验上都证明了特征学习可以改善缩放时间和计算能力,将缩放指数提高近一倍。这导致了特征学习阶段中参数缩放和训练时间的不同最优策略。该论文支持该论文的发现,即特征学习可以改善对困难任务的缩放定律,但对于简单和超简单的任务没有影响。通过在圆上拟合具有幂律傅里叶谱的非线性MLP和在学习视觉任务的CNN上进行实验验证了这一点。
地址:https://arxiv.org/pdf/2409.17858
14. EMMA-500:大规模多语种语言模型的增强适应性研究
标题:EMMA-500: Enhancing Massively Multilingual Adaptation of Large Language Models
机构:慕尼黑机器学习中心
关键词:EMMA-500模型、多语种语言模型、持续预训练、多语种性能提升
作者:Shaoxiong Ji, Zihao Li, Indraneil Paul
分析:这篇论文介绍了一种名为EMMA-500的大规模多语种语言模型。该模型在包含546种语言的文本上进行继续训练,旨在提高多语种性能,重点关注低资源语言的语言覆盖问题。为了支持持续预训练,论文编译了一个名为MaLA的综合多语种数据集,该数据集包含丰富多样的领域数据。通过对Llama 2 7B模型进行广泛的持续预训练,得到EMMA-500模型,它在多个基准测试中表现出稳健的性能,包括一系列多语种任务和研究中开发的开放生成基准测试PolyWrite。研究结果证明了持续预训练在扩展大型语言模型的语言能力方面的有效性,特别是对代表性不足的语言,在跨语言迁移、任务泛化和语言适应性方面取得了显著的提升。
地址:https://arxiv.org/pdf/2409.17892
15. EMOVA: 赋能语言模型看到、听到并生动地表达情绪
标题:EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions
机构:香港大学、中山大学、香港科技大学
关键词:大型语言模型、多模态、情绪表达、语音控制
作者:Kai Chen, Yunhao Gou, Runhui Huang
分析:该论文提出了一种名为EMOVA的系统,旨在提升大型语言模型(LLMs)的全面语音能力,同时保持其在视觉语言任务中的领先表现。该系统通过一个语义-声学解缠结的语音编码器,观察到多种感知能力对视觉语言和语音能力的增强,并提出了一种轻量级的语调模块以实现对语音风格的灵活控制。EMOVA在视觉语言和语音领域的基准测试中达到州际水平,并首次支持了带有生动情绪的多模态对话。
地址:https://arxiv.org/pdf/2409.18042
16. Self-supervised Preference Optimization:增强您的语言模型对偏好的度量意识
标题:Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness
机构:腾讯
关键词:自监督、偏好优化、语言模型、偏好的度量意识
作者:Jian Li, Haojing Huang, Yujia Zhang
分析:这篇论文主要讲述了近年来,研究人员正在用人类反馈(RLHF)方法来代替大型语言模型(LLMs)的奖励模型,尤其是直接偏好优化(DPO)及其变体。这些方法通常使用二元交叉熵机制,在对偶样本上,即通过减少和增加损失,分别基于偏好或不偏好响应。然而,这种方法忽略了在不同响应中偏好的不同度量。研究者提出了一种自监督偏好优化(SPO)框架,它结合了自我监督偏好度量损失和alignment损失,以帮助LLMs提高理解偏好的程度的能力。实验表明,SPO可以无缝集成现有的偏好优化方法,并显著提高其性能,达到state-of-the-art。该论文还进行了详细的分析,以提供对SPO的综合洞察,验证了其有效性。代码在https://github.com/lijian16/SPO上可用。
地址:https://arxiv.org/pdf/2409.17791
代码:https://github.com/lijian16/SPO
17. Disco4D: 从单张图片生成4D人体和动画
标题:Disco4D: Disentangled 4D Human Generation and Animation from a Single Image
机构:商汤研究院、南洋理工大学、上海AI实验室
关键词:Disco4D、图像生成、动画生成、4D人体
作者:Hui En Pang, Shuai Liu, Zhongang Cai
分析:Disco4D是一种新颖的Gaussian Splatting框架,可以从单张图片中生成4D人体和动画。与现有方法不同,Disco4D能够明确地将衣物(使用高斯模型)与人体(使用SMPL-X模型)分离,极大地增强了生成的细节和灵活性。这项技术具有以下创新点:1) Disco4D学习如何有效地在SMPL-X的高斯模型上拟合衣物的高斯模型;2) 它采用扩散模型来增强3D生成过程,例如模拟输入图像中不可见的部分;3) 它学习为每种衣物高斯模型编码身份,以便于衣物资产的分离和提取。此外,Disco4D自然支持生动的4D人体动画。大量的实验证明了Disco4D在4D人体生成和动画任务上的优越性。可视化结果可以在https://disco-4d.github.io/找到。
地址:https://arxiv.org/pdf/2409.17280
代码:https://disco-4d.github.io/
18. Just say what you want:仅提示自我奖励的在线偏好优化
标题:Just say what you want: only-prompting self-rewarding online preference optimization
机构:西北大学、字节跳动、上海科技大学
关键词:RLHF、自我奖励、偏好优化、在线学习
作者:Ruijie Xu, Zhihan Liu, Yongfei Liu
分析:该论文研究了在线强化学习从人类反馈(RLHF)中的自我奖励对齐问题。针对在线RLHF中获取反馈可能带来的高成本问题,论文提出了一种新的仅在提示下的自我奖励在线算法,该算法不需要依赖于判别器的判断能力即可生成偏好数据集。此外,论文还通过精细的算术控制优化了正负样本之间的最佳差值,在训练后期生成更多困难负样本来帮助模型更好地捕获人类的细微偏好。实验在Mistral-7B和Mistral-Instruct-7B两种基础模型上进行了广泛的实验,显著提高了参考模型的表现,在AlpacaEval 2.0的长度控制获胜率达到了34.5%。
地址:https://arxiv.org/pdf/2409.17534
19. 大模型的奖励校准:长度偏差案例研究
标题:Post-hoc Reward Calibration: A Case Study on Length Bias
机构:阿里巴巴集团、阿姆斯特丹大学
关键词:奖励校准、强化学习、人类反馈、大语言模型
作者:Zeyu Huang, Zihan Qiu, Zili Wang
分析:本文主要针对强化学习中人类反馈的问题,提出了一种无需额外数据和训练即可校准奖励模型(RM)的方法。该方法通过估计偏差项并移除它来近似底层的真实奖励。该论文首先提出了一种直观的估计偏差项的方法,然后将其扩展到更一般和鲁棒的形式,使用局部加权回归(Locally Weighted Regression)。该论文主要关注常见的长度偏差,并在三个实验环境中验证了该论文的方法,展示了一致的改进:(1)在RewardBench数据集上,33个奖励模型平均提高了3.11个性能;(2)在AlpacaEval基准测试中,与GPT-4评估和人类偏好更好地对齐了RM排名;(3)在多个LLM-RM组合中,改进了RLHF过程中的长度控制胜率。该论文的方法计算效率高,可泛化到其他类型的偏差和RM,为减轻大语言模型对齐中的偏差提供了一个可扩展且鲁棒的解决方案。
地址:https://arxiv.org/pdf/2409.17407
代码:https://github.com/ZeroYuHuang/Reward-Calibration
20. Paraformer-v2:改进的非自回归Transformer在噪声鲁棒语音识别中的应用
标题:Paraformer-v2: An improved non-autoregressive transformer for noise-robust speech recognition
机构:阿里巴巴集团
关键词:Paraformer-v2、非自回归Transformer、语音识别、模型结构改进、噪声鲁棒性
作者:Keyu An, Zerui Li, Zhifu Gao
分析:论文提出了一种改进的非自回归TransformerParaformer-v2,用于快速、准确和噪声鲁棒的语音识别。它通过采用CTC模块提取令牌嵌入,替代了Paraformer中的连续集成和点火模块。实验表明,Paraformer-v2在多个数据集上的性能优于Paraformer,尤其在英语数据集上的词错误率(WER)提高了14%以上,且在噪声环境中更具鲁棒性。
地址:https://arxiv.org/pdf/2409.17746
21. 高效领域内问题回答-资源受限环境
标题:Efficient In-Domain Question Answering for Resource-Constrained Environments
关键词:领域内问题回答、资源受限环境、检索增强生成、低秩适应
作者:Isaac Chung, Phat Vo, Arman Kizilkale
分析:这篇论文主要介绍了一种新的技术,该技术结合了检索增强生成(RAG)和低秩适应(LoRA),以在资源受限的环境中提高问题回答的效率。这种方法通过减少微调和存储需求,以及加快推理速度,同时保持与大型模型相当的RAG性能,从而为知识密集型QA任务提供了一种更有效的解决方案。
地址:https://arxiv.org/pdf/2409.17648
22. 揭示预训练在直接语音翻译中的作用
标题:Unveiling the Role of Pretraining in Direct Speech Translation
机构:FAIR
关键词:预训练、直接语音翻译、模型性能、训练动态
作者:Belen Alastruey, Gerard I. Gállego, Marta R. Costa-jussà
分析:这篇论文研究了直接语音翻译系统面临的数据稀缺问题。通过对预训练编码器、传统方法和从头开始训练的系统的训练动态进行比较,发现预训练可以提高翻译效率并缩短训练时间。论文还提出了一种改进解码器交叉注意力的方法,以更好地整合源语言信息。研究发现,从头开始训练的模型可以实现与预训练模型相当的性能,同时减少训练时间。
地址:https://arxiv.org/pdf/2409.18044
23. Proof of Thought :神经符号程序综合实现稳健且可解释推理
标题:Proof of Thought : Neurosymbolic Program Synthesis allows Robust and Interpretable Reasoning
机构:微软
关键词:Proof of Thought、大型语言模型、形式逻辑验证、JSON
作者:Debargha Ganguly, Srinivasan Iyengar, Vipin Chaudhary
分析:论文介绍了一种名为Proof of Thought的框架,旨在提高大型语言模型的可靠性和透明度。该框架通过结合自然语言处理与形式逻辑验证,将大型语言模型生成的创意转化为可审查的一阶逻辑结构。论文提出了一种基于JSON的领域特定语言,平衡了精确的逻辑结构和直观的人类概念,使机器推理过程既严谨又易于人类理解。该论文解决了大型语言模型在复杂逻辑序列和新领域中的推理不一致性问题。
地址:https://arxiv.org/pdf/2409.17270
24. LightAvatar:基于动态神经网络光场的头部轻量级虚拟形象技术
标题:LightAvatar: Efficient Head Avatar as Dynamic Neural Light Field
机构:东北大学、Google
关键词:神经网络光场、头部虚拟形象、NeRF、网络设计
作者:Huan Wang, Feitong Tan, Ziqian Bai
分析:这篇论文提出了一种基于神经网络光场(NeLF)的头部虚拟形象模型LightAvatar。它解决了基于NeRF的虚拟形象渲染速度慢的问题,能够在资源受限的设备上实现更广泛的应用。通过单一网络前向传递,根据3DMM参数和相机姿态渲染图像,无需使用网格或体积渲染。引入专门的网络设计来获取NeLF模型的适当表示,并保持较低的计算量预算。同时,采用基于蒸馏的训练策略,使用预训练的虚拟形象模型作为教师进行合成伪数据的训练。引入变形场网络以纠正真实数据的拟合误差,使模型能更好地学习。实验表明,该方法在图像质量和渲染速度上均达到新的水平。
地址:https://arxiv.org/pdf/2409.18057
25. 数据中心化的AI治理:解决模型关注的政策局限性
标题:Data-Centric AI Governance: Addressing the Limitations of Model-Focused Policies
机构:UC伯克利分校
作者:Ritwik Gupta, Leah Walker, Rodolfo Corona
分析:当前对强大AI能力的监管主要集中在'基础'或'前沿'模型上。然而,这些术语含糊不清且不一致地定义,导致治理工作的基础不稳定。关键的是,政策的讨论往往没有考虑模型使用的数据,尽管数据和模型性能之间有明显的联系。即使(相对而言)'小'的模型也可以在暴露在足够具体的子集网络上得到与基础和前沿模型相似的结果。在这项工作中,该论文说明了考虑子集集大小和内容作为评估模型风险 today 和 in the future 的必要因素的重要性。更广泛地,该论文强调过度反应式过度规范化所带来的风险,提供了评估能力的定量方法,从而可以带来一个简化的监管环境。
地址:https://arxiv.org/pdf/2409.17216
26. T3:一种新型零样本迁移学习框架,迭代训练目标任务的辅助任务的大模型
标题:T3: A Novel Zero-shot Transfer Learning Framework Iteratively Training on an Assistant Task for a Target Task
机构:清华大学、南洋理工大学
关键词:T3框架、零样本迁移学习、大型语言模型、辅助任务
作者:Xindi Tong, Yujin Zhu, Shijian Fan
分析:这篇论文提出了一种新型的零样本迁移学习框架T3,用于迭代训练大型语言模型(LLM)完成目标任务的辅助任务。该框架旨在解决长文本摘要任务中的挑战,通过利用问答作为辅助任务来丰富数据资源并提升模型性能。实验结果表明,T3框架在多个数据集上取得了显著的性能提升,证明了其在不同辅助任务和目标任务组合中的潜力。
地址:https://arxiv.org/pdf/2409.17640
27. MaskLLM:可学习半结构稀疏的大模型
标题:MaskLLM: Learnable Semi-Structured Sparsity for Large Language Models
机构:英伟达、新加坡国立大学
作者:Gongfan Fang, Hongxu Yin, Saurav Muralidharan
分析:本文介绍了一种名为MaskLLM的可学习性稀疏化方法,该方法可以在大型语言模型中实现半结构(或“N:M”)稀疏化,旨在在推理时减少计算开销。本文并未开发新的重要性标准,而是使用Gumbel Softmax采样将N:M模式作为可学习分布建模。此外,本文采用了端到端训练来在大规模数据集上训练MaskLLM,并得到了两个显著的优势:1)高质量的蒙版 - 本文在大型数据集上有效扩展并学习准确蒙版;2)可迁移性 - 面具分布的概率建模使得跨域或任务迁移学习稀疏性成为可能。本文使用了2:4稀疏度在各种LLM(包括LaMDA-2、Nemotron-4和GPT-3)上进行评估,这三个模型的参数大小范围为843M至15B,结果明显优于现有最先进方法。例如,在Wikitext上的最大方法得到PPL值为10,而密集模型为5.12,但仅使用固化权重学习的MaskLLM取得了显著的6.72 PPL。此外,MaskLLM的可学习性质允许根据需要为下游任务或领域定制蒙版。
地址:https://arxiv.org/pdf/2409.17481
代码:https://github.com/NVlabs/MaskLLM
28. ZALM3:基于上下文信息的多轮次多模态医疗对话中的视觉语言对齐增强
标题:ZALM3: Zero-Shot Enhancement of Vision-Language Alignment via In-Context Information in Multi-Turn Multimodal Medical Dialogue
机构:天津大学
关键词:视觉语言对齐、多模态医疗对话、上下文信息、感兴趣区域提取
作者:Zhangpu Li, Changhong Zou, Suxue Ma
分析:这篇论文关注多轮次多模态医疗对话中的视觉语言对齐问题。针对患者用手机拍摄的医疗图像质量不佳、背景杂乱等问题,提出一种零样本增强策略ZALM3。该策略利用语言模型总结上下文关键词,并结合视觉定位模型提取感兴趣区域,从而更新图像,消除背景噪声,提高视觉语言对齐效果。论文还设计了一种新的主观评估指标,用于多轮次单模态/多模态医疗对话的精细性能比较。实验结果表明,ZALM3在三个不同临床科室具有显著效果。
地址:https://arxiv.org/pdf/2409.17610
29. MathDSL:一种用于程序综合的简洁数学解决方案的领域特定语言
标题:MathDSL: A Domain-Specific Language for Concise Mathematical Solutions Via Program Synthesis
机构:麻省理工学院
关键词:MathDSL、数学方程求解、程序综合、领域特定语言
作者:Sagnik Anupam, Maddy Bowers, Omar Costilla-Reyes
分析:该论文介绍了MathDSL,这是一种针对数学方程求解的领域特定语言(DSL)。当MathDSL用于程序综合模型时,其性能超过了现有的基于强化学习的方法。它还引入了一种衡量数学解决方案简洁性的量化指标,并展示了与其他方法相比生成的解决方案质量的提升。系统使用DreamCoder存储方程求解策略,并证明通过MathDSL可以将这些策略转换为人类可解释的解决方案,这在数学教育中可能有应用。
地址:https://arxiv.org/pdf/2409.17490
30. AssistantX:利用大模型驱动的在协作型人类环境中的智能助理
标题:AssistantX: An LLM-Powered Proactive Assistant in Collaborative Human-Populated Environment
机构:清华大学、北京邮电大学
关键词:助理机器人、大型语言模型、多智能体架构、动态推理和交互
作者:Nan Sun, Bo Mao, Yongchang Li
分析:论文介绍了助理机器人AssistantX,一个利用大型语言模型驱动的可在物理办公环境自主运行的智能助理。针对传统服务机器人和虚拟助理在执行现实任务时存在的动态推理和交互能力有限的挑战,该论文提出了利用大型语言模型改善这些系统的方案。通过引入新的多智能体架构PPDR4X,AssistantX展现了在复杂现实场景下的稳健性能,包括响应明确指令、主动从记忆中检索补充信息,以及主动寻求团队成员的合作以确保任务成功完成。
地址:https://arxiv.org/pdf/2409.17655
代码:https://assistantx-agent.github.io/AssistantX/
31. 基于多Agent强化学习的语言-多Agent交流
标题:Language Grounded Multi-agent Communication for Ad-hoc Teamwork
机构:匹兹堡大学、卡内基梅隆大学
关键词:多Agent强化学习、语言交流、合成数据、零样本泛化
地址:https://arxiv.org/pdf/2409.17348
32. AnyLogo:共生主题驱动扩散系统与Gemini状态
标题:AnyLogo: Symbiotic Subject-Driven Diffusion System with Gemini Status
机构:中国科学技术大学、阿里巴巴集团达摩院
关键词:AnyLogo、共生扩散系统、零样本定制、细节一致性
地址:https://arxiv.org/pdf/2409.17740
33. 数据比例检测用于优化大模型的数据管理
标题:Data Proportion Detection for Optimized Data Management for Large Language Models
机构:北京大学
关键词:大型语言模型、数据比例检测、预训练数据、数据比例优化
地址:https://arxiv.org/pdf/2409.17527
34. 预训练语言模型中的Transformers在自动语音识别中的应用
标题:Are Transformers in Pre-trained LM A Good ASR Encoder? An Empirical Study
机构:阿里巴巴集团
关键词:自动语音识别、预训练语言模型、Transformers、编码器
地址:https://arxiv.org/pdf/2409.17750
35. EdgeRunner:基于自回归自动编码器进行艺术网格生成
标题:EdgeRunner: Auto-regressive Auto-encoder for Artistic Mesh Generation
机构:英伟达
关键词:自回归自动编码器、网格生成、符号化算法、训练效率
地址:https://arxiv.org/pdf/2409.18114
36. 高效大模型的搜索
标题:Search for Efficient Large Language Models
机构:东北大学、哈佛大学
关键词:大型语言模型、模型压缩、架构搜索、推理加速
地址:https://arxiv.org/pdf/2409.17372
37. 在跟随自然语言指令前推断人类意图
标题:Infer Human's Intentions Before Following Natural Language Instructions
机构:华盛顿大学、麻省理工学院
关键词:人工智能、自然语言指令、具身任务、社交推理
地址:https://arxiv.org/pdf/2409.18073
38. 创新可靠评估文本至图像知识编辑:利用细粒度数据集和新型标准
标题:Pioneering Reliable Assessment in Text-to-Image Knowledge Editing: Leveraging a Fine-Grained Dataset and an Innovative Criterion
机构:麻省理工学院
关键词:文本至图像知识编辑、大模型、数据集、评价标准
地址:https://arxiv.org/pdf/2409.17928
39. 行为分析工具包Behavior4All
标题:Behaviour4All: in-the-wild Facial Behaviour Analysis Toolkit
机构:麻省理工学院、伦敦玛丽女王大学
地址:https://arxiv.org/pdf/2409.17717
40. LLaVA-3D:赋能大型多模态模型具有3D感知能力的简单有效路径
标题:LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness
机构:香港大学、上海AI实验室
关键词:LLaVA-3D框架、大型多模态模型、联合的2D和3D视觉语言指令微调、新颖的模型结构改进
地址:https://arxiv.org/pdf/2409.18125
41. EgoLM: 自指动作的多模态语言模型
标题:EgoLM: Multi-Modal Language Model of Egocentric Motions
机构:南洋理工大学
关键词:自指动作、多模态、大型语言模型、模型结构改进
地址:https://arxiv.org/pdf/2409.18127
42. 基于角色强化学习的大模型在线长文本处理研究
标题:Role-RL: Online Long-Context Processing with Role Reinforcement Learning for Distinct LLMs in Their Optimal Roles
机构:浙江大学
关键词:大型语言模型、在线长文本处理、角色强化学习、模型部署
地址:https://arxiv.org/pdf/2409.18014
代码:https://anonymous.4open.science/r/Role-RL
43. Web事件流行度表征的稀疏和互激励指导图神经网络模型
标题:Modeling the Popularity of Events on Web by Sparsity and Mutual-Excitation Guided Graph Neural Network
机构:中国科学院大学
地址:https://arxiv.org/pdf/2409.17678
代码:https://github.com/pangjunbiao/Hot-events-dataset
44. TestBench:评估大模型类级测试用例生成能力的基准测试
标题:TestBench: Evaluating Class-Level Test Case Generation Capability of Large Language Models
机构:南京大学
关键词:大型语言模型、TestBench基准测试、测试用例生成、上下文描述
地址:https://arxiv.org/pdf/2409.17561
45. Uni-Med:统一医学通用基础模型通过连接器MoE进行多任务学习
标题:Uni-Med: A Unified Medical Generalist Foundation Model For Multi-Task Learning Via Connector-MoE
机构:清华大学、北京邮电大学
关键词:Uni-Med模型,多任务学习,连接器混合专家(CMoE),医疗领域,多模态模型
地址:https://arxiv.org/pdf/2409.17508
46. 视觉语言组合性的硬事实
标题:The Hard Positive Truth about Vision-Language Compositionality
机构:华盛顿大学、UC洛杉矶分校、艾伦AI研究所
地址:https://arxiv.org/pdf/2409.17958
47. Copying style, Extracting value:插画家对AI风格迁移及其对创意劳动的影响的看法
标题:Copying style, Extracting value: Illustrators' Perception of AI Style Transfer and its Impact on Creative Labor
机构:剑桥大学、哥伦比亚大学
地址:https://arxiv.org/pdf/2409.17410
48. FreeEdit:基于无掩膜参考图像编辑的多模态指令方法
标题:FreeEdit: Mask-free Reference-based Image Editing with Multi-modal Instruction
机构:北京航空航天大学
关键词:FreeEdit,图像编辑,多模态指令,参考图像,DRRA模块,数据集构建
地址:https://arxiv.org/pdf/2409.18071
代码:https://freeedit.github.io/
49. BlinkTrack:结合事件和图像实现超过100帧的特征跟踪
标题:BlinkTrack: Feature Tracking over 100 FPS via Events and Images
机构:浙江大学
关键词:特征跟踪、事件相机、RGB图像、卡尔曼滤波
地址:https://arxiv.org/pdf/2409.17981
50. PEDRO: 参数有效的细调-提示依赖表示修改
标题:PEDRO: Parameter-Efficient Fine-tuning with Prompt DEpenDent Representation MOdification
机构:香港大学、乔治亚理工学院、宾夕法尼亚大学
关键词:参数有效、提示依赖、Transformer、语义输出
地址:https://arxiv.org/pdf/2409.17834
51. CadVLM:连接语言和视觉在参数化CAD草图生成中的应用
标题:CadVLM: Bridging Language and Vision in the Generation of Parametric CAD Sketches
机构:蒙特利尔大学
关键词:CadVLM、参数化CAD草图生成、预训练基础模型、多模态大型语言模型
地址:https://arxiv.org/pdf/2409.17457
52. 原型驱动的音频模型:半监督在一维音频事件检测中的自监督学习
标题:Prototype based Masked Audio Model for Self-Supervised Learning of Sound Event Detection
机构:中国科学技术大学
关键词:半监督音素检测、自监督学习、音频事件检测、信息指数不可差模型
地址:https://arxiv.org/pdf/2409.17656
53. HazeSpace2M:一种用于雾霾感知单图去雾霾的数据集
标题:HazeSpace2M: A Dataset for Haze Aware Single Image Dehazing
机构:澳大利亚国立大学
关键词:HazeSpace2M、去雾霾、雾霾类型分类、数据集
地址:https://arxiv.org/pdf/2409.17432
代码:https://github.com/tanvirnwu/HazeSpace2M
54. RmGPT: 转动机器生成预训练模型
标题:RmGPT: Rotating Machinery Generative Pretrained Model
关键词:转动机器、生成预训练模型、预测任务
地址:https://arxiv.org/pdf/2409.17604
55. MECD:以视频推理视角解锁多事件因果发现
标题:MECD: Unlocking Multi-Event Causal Discovery in Video Reasoning
机构:上海交通大学
关键词:视频推理、多事件因果关系、因果推断、事件因果图
地址:https://arxiv.org/pdf/2409.17647
56. 像素空间后训练的潜在扩散模型
标题:Pixel-Space Post-Training of Latent Diffusion Models
机构:AI2
关键词:潜在扩散模型、像素空间、后训练、高频率细节
地址:https://arxiv.org/pdf/2409.17565
57. VL4AD:融合视觉语言模型改善逐像素异常检测
标题:VL4AD: Vision-Language Models Improve Pixel-wise Anomaly Detection
关键词:视觉语言模型、异常检测、语义分割网络、预训练
地址:https://arxiv.org/pdf/2409.17330
58. 堆叠头以扩大ViT应用范围的新策略
标题:HydraViT: Stacking Heads for a Scalable ViT
关键词:HydraViT、ViT、注意力头堆叠、硬件适应性
地址:https://arxiv.org/pdf/2409.17978
代码:https://github.com/ds-kiel/HydraViT
59. EAGLE: 自我中心的统一语言视频引擎
标题:EAGLE: Egocentric AGgregated Language-video Engine
机构:罗切斯特大学
关键词:EAGLE、统一语言视频引擎、自我中心视频分析、大型语言模型
地址:https://arxiv.org/pdf/2409.17523
60. 语言模型作为零样本无损梯度压缩器:走向通用神经网络参数先验模型
标题:Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models
关键词:语言模型、梯度压缩、无损压缩、算术编码
地址:https://arxiv.org/pdf/2409.17836
61. 任务专家与持续学习
标题:Continual learning with task specialist
关键词:任务专家、持续学习、预训练、模型结构改进
地址:https://arxiv.org/pdf/2409.17806
62. GPT-4在设计大学生作业评分中的应用及反馈探索
标题:The application of GPT-4 in grading design university students' assignment and providing feedback: An exploratory study
地址:https://arxiv.org/pdf/2409.17698
63. DualAD:自动驾驶中的双层规划推理
标题:DualAD: Dual-Layer Planning for Reasoning in Autonomous Driving
关键词:自动驾驶、大型语言模型、双层规划、模拟人类推理
地址:https://arxiv.org/pdf/2409.18053
64. 调制干预偏好优化(MIPO):保持简单,精炼困难
标题:Modulated Intervention Preference Optimization (MIPO): Keey the Easy, Refine the Difficult
关键词:调制干预偏好优化、模型对齐、参考模型干预程度
地址:https://arxiv.org/pdf/2409.17545
65. Model aggregation:减轻经验方差优于减小经验误差
标题:Model aggregation: minimizing empirical variance outperforms minimizing empirical error
关键词:模型聚合、经验方差、效果优化、模型评估
地址:https://arxiv.org/pdf/2409.17267
66. MC-SEMamba:SEMamba的多通道简单扩展
标题:MC-SEMamba: A Simple Multi-channel Extension of SEMamba
关键词:Mamba、SEMamba、多通道、语音增强
地址:https://arxiv.org/pdf/2409.17898
67. SKT: 整合状态感知关键点轨迹与视觉语言模型用于机器人衣件操作
标题:SKT: Integrating State-Aware Keypoint Trajectories with Vision-Language Models for Robotic Garment Manipulation
地址:https://arxiv.org/pdf/2409.18082
68. 大模型高效任意精度加速在GPU张量核心上
标题:Efficient Arbitrary Precision Acceleration for Large Language Models on GPU Tensor Cores
关键词:任意精度加速、GPU张量核心、LLMs、矩阵乘法
地址:https://arxiv.org/pdf/2409.17870
69. 文本对齐精 granular text alignment backdoor防御策略对于多模态对比学习
标题:TA-Cleaner: A Fine-grained Text Alignment Backdoor Defense Strategy for Multimodal Contrastive Learning
关键词:文本对齐、回波攻击、多模态对比学习、精细清洗策略
地址:https://arxiv.org/pdf/2409.17601
70. 双链思维启发式扩展成语情感词典
标题:DualCoTs: Dual Chain-of-Thoughts Prompting for Sentiment Lexicon Expansion of Idioms
关键词:双链思维、大型语言模型、成语情感词典扩展
地址:https://arxiv.org/pdf/2409.17588
71. Improving the Shortest Plank:针对推荐系统的脆弱性感知对抗训练
标题:Improving the Shortest Plank: Vulnerability-Aware Adversarial Training for Robust Recommender System
关键词:推荐系统、脆弱性感知对抗训练、 poisoning attack、推荐质量
地址:https://arxiv.org/pdf/2409.17476
72. 高性能计算加速计算支配型参数的大型(最小,+)矩阵乘积
标题:HPC acceleration of large (min, +) matrix products to compute domination-type parameters in graphs
关键词:HPC加速、支配型参数、矩阵乘积、算法性能优化
地址:https://arxiv.org/pdf/2409.17688
73. 神经接口中交换式记录系统
标题:Swapping-Centric Neural Recording Systems
关键词:神经接口、多电极接口、数据处理速度、存储空间限制
地址:https://arxiv.org/pdf/2409.17541
74. 植入式脑机接口的永久访问
标题:Towards Forever Access for Implanted Brain-Computer Interfaces
地址:https://arxiv.org/pdf/2409.17496
75. 大模型中代码生成的组合难度问题
标题:Compositional Hardness of Code in Large Language Models -- A Probabilistic Perspective
关键词:大型语言模型、代码生成、组合难度、多智能体系统
地址:https://arxiv.org/pdf/2409.18028
76. 比较单向、双向和Word2vec模型在编译提升代码中寻找漏洞
标题:Comparing Unidirectional, Bidirectional, and Word2vec Models for Discovering Vulnerabilities in Compiled Lifted Code
关键词:编译代码、漏洞检测、Transformer、GPT-2
地址:https://arxiv.org/pdf/2409.17513
看论文是一天,不看论文也是一天,为什么不每天充实下自己呢^_^^_^