前言:平淡无奇的一天又来了,今天要分享的内容主要是关于大模型、大语言模型、预训练的,喜欢的小伙伴赶紧去阅读相关论文吧。
1. 腾讯的Hunyuan-Large:目前最大的开源Transformer混合专家模型
标题:Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent
机构:腾讯
关键词:Hunyuan-Large、混合专家模型、Transformer
作者:Xingwu Sun, Yanfeng Chen, Yiqing Huang
分析:在这篇论文中,该论文介绍了Hunyuan-Large,它是目前最大的开源Transformer基混合专家模型,拥有3890亿个参数和520亿个激活参数,能够处理高达256K的标记。该论文在各种基准测试中对Hunyuan-Large的优越性能进行了全面的评估,包括语言理解和生成、逻辑推理、数学问题解决、编码、长上下文以及汇总任务,在这些任务中,它优于LLama3.1-70B并与显著更大的LLama3.1-405B模型表现相当。Hunyuan-Large的关键实践包括比以往文献大得多的大规模合成数据、混合专家路由策略、关键值缓存压缩技术和专家特定的学习率策略。此外,该论文还研究了混合专家模型的扩展规律和学习率调度,为未来的模型开发和优化提供了宝贵的见解和指导。Hunyuan-Large的代码和检查点已发布,以促进未来的创新和应用。
地址:https://arxiv.org/pdf/2411.02265
代码:https://github.com/Tencent/Hunyuan-Large
2. Hunyuan3D-1.0:统一框架用于文本到3D和图像到3D生成
标题:Hunyuan3D-1.0: A Unified Framework for Text-to-3D and Image-to-3D Generation
机构:腾讯
关键词:多视角扩散模型、快速重构、3D生成
作者:Xianghui Yang, Huiwen Shi, Bowen Zhang
分析:本文提出了一种解决三维生成模型训练速度慢和泛化能力差的两阶段方法命名为浑元3D-1.0。这包括一个轻量级版本和标准版本,两者都支持基于文本和图像的生成。在第一阶段,利用多视角扩散模型高效生成约4秒的多视角RGB图,这些多视角图像从不同视角捕捉到丰富的3D资产细节,简化了从单一视图到多视图重构的任务。在第二阶段,引入了一个快速准确的反馈重构模型,给定生成的多视角图像,在约7秒内快速且忠实重构3D资产。重构网络学会处理多视角扩散引入的噪音和不一致性,并利用条件图像提供的信息高效恢复3D结构。广泛实验结果证明,浑元3D-1.0在生成高质量3D资产方面的有效性和优越性。此外,该框架使用文本到图像模型,如浑元-DiT,支持文本和图像条件下的3D生成,综合性强。
地址:https://arxiv.org/pdf/2411.02293
3. 带隐藏结构的规模定律研究
标题:Scaling Laws with Hidden Structure
机构:Meta AI
关键词:隐藏结构、神经网络、高维空间统计学习、模型规模与准确性关系
作者:Charles Arnald, Clement Berenfeld, Simon Rosenberg
分析:这篇论文研究了高维空间中的统计学习问题,特别是隐藏结构在缓解维度诅咒方面的作用。论文通过非参数统计的结果,提出了一个实验框架来测试神经网络是否能利用隐藏的结构,并发现模型确实能够利用这些潜在模式来更有效地学习离散分布。此外,论文还探讨了结构假设与模型泛化能力之间的相互作用,并推导了模型规模、隐藏分解和准确性之间的规模定律。
地址:https://arxiv.org/pdf/2411.01375
4. 基于大规模非配对学习的虚拟试衣高保真技术
标题:High-Fidelity Virtual Try-on with Large-Scale Unpaired Learning
机构:浙江大学、南洋理工大学、苏黎世联邦理工学院
关键词:虚拟试衣、大规模非配对学习、高保真度、伪训练对
作者:Han Yang, Yanlong Zang, Ziwei Liu
分析:这篇论文提出了一种新型的虚拟试衣框架——Boosted Virtual Try-on (BVTON),利用大规模非配对学习来实现高保真度的虚拟试衣。论文的主要内容包括:1. 映射时尚图像中的衣物到规范格式;2. 通过训练生成准确的语义布局来提升试衣效果;3. 构建伪训练对,以随机错配时尚图像中的衣物,提高模型的泛化能力和鲁棒性。论文解决了虚拟试衣领域高保真度难以实现的问题,特别是在应对不同着装风格和不同数据源的情况下,显示出强大的泛化能力和鲁棒性。
地址:https://arxiv.org/pdf/2411.01593
5. 视频生成与世界模型发展的物理规律视角
标题:How Far is Video Generation from World Model: A Physical Law Perspective
机构:字节跳动、清华大学
关键词:视频生成、世界模型、物理规律、OpenAI Sora
作者:Bingyi Kang, Yang Yue, Rui Lu
分析:这篇论文探讨了视频生成模型在遵循基本物理规律方面的发展潜力。作者通过OpenAI的Sora模型,分析了视频生成模型在没有人类先验知识的情况下,从视觉数据中自主发现物理规律的能力。研究通过评估在三个关键场景下的性能,即分布内、分布外和组合泛化,发现模型在泛化上的不同表现。实验表明,模型表现出“案例基”泛化行为,即在新的情况下只模仿最相似的训练示例。此外,模型在泛化时优先考虑不同的参考因素,如颜色大于大小,大小大于速度,速度大于形状。作者指出,单纯通过规模提升无法使视频生成模型揭示物理定律,尽管它在Sora模型中发挥了重要作用。
地址:https://arxiv.org/pdf/2411.02385
6. Sparsing Law:走向具有更高激活稀疏性的大模型
标题:Sparsing Law: Towards Large Language Models with Greater Activation Sparsity
关键词:大型语言模型、激活稀疏性、激活函数、模型效率
作者:Yuqi Luo, Chenyang Song, Xu Han
分析:本文主要研究大型语言模型(LLMs)中的激活稀疏性,探讨激活稀疏性与潜在影响因素之间的关联。通过定量分析和实验,发现不同激活函数的训练时间稀疏性趋势不同,ReLU相较于SiLU在利用更多训练数据提高激活稀疏性方面更有效。此外,还发现激活率随宽度深度比在特定瓶颈点以下呈线性增长,而激活模式对参数规模并不敏感。这些发现对于提高LLMs的效率和可解释性具有重要意义。
地址:https://arxiv.org/pdf/2411.02335
7. 对比解码的线性外推及其改进方法
标题:Explaining and Improving Contrastive Decoding by Extrapolating the Probabilities of a Huge and Hypothetical LM
机构:Amazon
关键词:对比解码、大型专家语言模型、隐式概率外推、开放式文本生成
作者:Haw-Shiuan Chang, Nanyun Peng, Mohit Bansal
分析:这篇论文主要研究了对比解码(Contrastive Decoding,CD)方法在大型专家语言模型(Large Expert Language Model,ELM)和小型业余语言模型(Amateur Language Model,LM)之间的应用。作者首先理论证明了CD可以被看作是从一个巨大的、假设的ELM中线性外推得到下一个词的概率分布。然而,这种线性外推可能会导致CD无法输出已经被大型LM赋予高概率的最明显答案。为了解决这个问题,作者提出了一种新的无监督解码方法——隐式概率外推(Asymptotic Probablity Decoding,APD)。APD明确地从不同大小的LM中外推概率曲线,以便在无限大的ELM中推断出渐近概率,而不比CD引入更多的推理成本。在FactualityPrompts这个开放式文本生成基准测试中,使用APD进行采样显著提高了事实性,并在Pythia 6.9B和OPT 6.7B上实现了与12B Pythia相当的性能。此外,在五个常识问答数据集上,APD通常比CD表现得更好,并达到了使用更大LM类似的效果。
地址:https://arxiv.org/pdf/2411.01610
8. TableGPT2:具有表格数据集成的大型多模态模型
标题:TableGPT2: A Large Multimodal Model with Tabular Data Integration
机构:浙江大学
关键词:TableGPT2、表格数据集成、大型多模态模型、预训练
作者:Aofeng Su, Aowen Wang, Chao Ye
分析:论文提出了一种名为TableGPT2的大型多模态模型,该模型能够整合表格数据。它具备强大的预训练与微调能力,通过大量的表格数据进行训练,能在保持通用语言和编码能力的同时,完成以表格为中心的任务。该模型解决了现有模型在处理真实世界的模糊查询、缺失列名以及不规则表格时的不足。
地址:https://arxiv.org/pdf/2411.02059
9. 基于自我进化在线课程强化学习的网页大模型训练
标题:WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning
关键词:WebRL框架、大型语言模型、自我进化课程生成、强化学习
作者:Zehan Qi, Xiao Liu, Iat Long Iong
分析:本文提出了一种基于自我进化在线课程强化学习的WebRL框架,用于训练高性能的网页智能体。该框架旨在解决现有网页智能体严重依赖昂贵的专有大型语言模型API以及开源大型语言模型缺乏必要的决策能力的问题。通过结合自我进化的课程、结果导向的奖励模型和自适应强化学习策略,WebRL成功将开源的大型语言模型转变为专业的网页智能体,显著提高了其成功率和性能。
地址:https://arxiv.org/pdf/2411.02337
10. MdEval:大规模多语言代码调试
标题:MdEval: Massively Multilingual Code Debugging
关键词:大规模语言模型、代码调试、多语言、MdEval
作者:Shukai Liu, Linzheng Chai, Jian Yang
分析:这篇论文提出了MdEval,这是首个大规模多语言代码调试基准,涵盖了18种编程语言的3.6K测试样例。它不仅评估了LLMs(大规模语言模型)在自动程序修复、代码审查和错误识别任务上的性能,还通过xDebugCoder这一多语言调试器展示了LLMs在调试不同编程语言错误时的潜力。
地址:https://arxiv.org/pdf/2411.02310
11. Unified Speech Recognition:用于听觉、视觉和视听输入的单一模型
标题:Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual Inputs
机构:Meta AI
关键词:统一语音识别、单一模型、多模态、贪婪伪标签
作者:Alexandros Haliassos, Rodrigo Mira, Honglie Chen
分析:这篇论文提出了一种统一的训练策略,可以同时处理听觉、视觉和视听语音识别的三个任务。通过使用单一的模型进行训练,优化了性能并提高了效率。此外,论文还介绍了贪婪伪标签方法,以更有效地利用未标记样本。最后,论文开发了一种有效的预训练方法,并在多个数据集上实现了最先进的性能。
地址:https://arxiv.org/pdf/2411.02256
代码:https://github.com/ahaliassos/usr
12. Seq-VCR:防止中间层Transformer表示崩溃以增强推理能力的研究
标题:Seq-VCR: Preventing Collapse in Intermediate Transformer Representations for Enhanced Reasoning
机构:FAIR、纽约大学、蒙特利尔理工学院
关键词:Transformer模型、中间层表示崩溃、Seq-VCR方法、算术推理
作者:Md Rifat Arefin, Gopeshh Subbaraj, Nicolas Gontier
分析:这篇论文关注解码器Transformer在复杂推理任务上的局限性,特别是需要多次序贯操作的算术推理。论文发现模型中间层的表示崩溃是限制其推理能力的一个关键因素。为此,论文提出了Sequential Variance-Covariance Regularization(Seq-VCR)方法,该方法提高了中间表示的熵并防止了表示崩溃。通过引入虚拟暂停令牌作为思维链令牌的替代品,Seq-VCR在算术推理问题上显著提高了性能。研究结果表明,Seq-VCR方法在不要求显式思维链监督的情况下,有效地增强了Transformer的推理能力。
地址:https://arxiv.org/pdf/2411.02344
13. 自适应缓存技术在加快扩散转换模型视频生成过程中的应用
标题:Adaptive Caching for Faster Video Generation with Diffusion Transformers
机构:Meta AI
关键词:自适应缓存技术、扩散转换模型、视频生成、运动正则化
作者:Kumara Kahatapitiya, Haozhe Liu, Sen He
分析:本文主要介绍了自适应缓存技术(Adaptive Caching),该技术可加速视频扩散转换模型(Diffusion Transformers)的生成过程。针对长时间视频生成计算量大、推理速度慢的问题,提出一种无需训练的加速方法。通过缓存计算和制定针对每个视频生成的缓存时间表,最大化质量延迟权衡。同时,引入运动正则化方案,利用视频信息在自适应缓存中,基于运动内容控制计算分配。该论文对多个视频扩散转换模型基线进行了评估,显著提高了推理速度,同时不牺牲生成质量。
地址:https://arxiv.org/pdf/2411.02397
14. Towards Robust Text Classification:通过因果学习缓解偶然关联问题
标题:Towards Robust Text Classification: Mitigating Spurious Correlations with Causal Learning
机构:FAIR、乔治梅森大学
关键词:文本分类、偶然关联、因果学习、模型稳健性
作者:Yuqing Zhou, Ziwei Zhu
分析:这篇论文主要探讨了文本分类任务中模型对偶然关联的依赖问题。针对模型在面对无关特征时错误地与目标标签相关联的缺陷,提出了一个名为CCR的因果校准稳健分类器。它通过结合基于反事实推理的因果特征选择方法和无偏逆向倾向加权损失函数,旨在减少模型对偶然关联的依赖,提高模型的稳健性。实验表明,CCR在不使用组标签的情况下达到了最先进的性能,在某些情况下甚至可以与使用组标签的模型竞争。
地址:https://arxiv.org/pdf/2411.01045
15. 大模型的并行计算
标题:Context Parallelism for Scalable Million-Token Inference
机构:Google
关键词:并行计算、大规模语言模型、H100 GPU、预训练
作者:Amy Yang, Jingyi Yang, Aya Ibrahim
分析:本文提出了一种适用于大规模语言模型推理的并行计算方法,能够实现线性扩展,并且在多个节点上通过使用H100 GPU进行并行计算,可以达到接近线性的扩展效果。该论文还开发了两个无损的精确环注意力变体来满足各种需求,包括完全填充、持久KV填充和解码。在H100 GPU主机之间通过RDMA和TCP连接进行的基准测试表明,对于长上下文填充,这种方法具有良好的可扩展性,适用于具有中等到低带宽的商业数据中心。
地址:https://arxiv.org/pdf/2411.01783
16. 教学模型以提升录音效果的研究
标题:Teaching Models to Improve on Tape
机构:谷歌研究院、特拉维夫大学
关键词:大型语言模型、强化学习、模拟交互会话、奖励机制
作者:Liat Bezalel, Eyal Orgad, Amir Globerson
分析:这篇论文主要研究了大型语言模型(LLMs)在特定约束条件下的内容生成能力。论文提出了一种使用强化学习(RL)框架来训练模型的方法,使其能够通过模拟交互会话并使用奖励机制来改进其生成内容的能力。该方法的优势在于,通过模拟的交互会话奖励来提升模型的约束满足能力,使其在控制生成任务中的表现更佳。此外,该论文还验证了所提出方法在不同任务中的泛化能力。
地址:https://arxiv.org/pdf/2411.01483
17. X-Drive:跨模态一致的多传感器数据融合驾驶场景
标题:X-Drive: Cross-modality consistent multi-sensor data synthesis for driving scenarios
机构:德克萨斯大学、UC伯克利分校
关键词:多模态、数据合成、扩散模型、驾驶场景
作者:Yichen Xie, Chenfeng Xu, Chensheng Peng
分析:这篇论文提出了一种名为X-Drive的新型框架,用于在驾驶场景中合成LiDAR点云和多视图图像数据。它探讨了不同模态之间的相互依赖关系,以描述复杂的驾驶场景。该框架通过双分支潜在扩散模型架构来建模点云和图像数据的联合分布。X-Drive考虑了两种模态的几何空间差异,通过条件化来确保合成更符合现实。同时,论文还设计了一种跨模态条件模块,以适应性地学习跨模态局部对应关系,从而处理去噪过程中的空间模糊问题。此外,X-Drive通过多级输入条件允许可控生成,包括文本、边界框、图像和点云。实验结果表明,X-Drive在点云和多视图图像的合成上具有高保真性,并确保了可靠的跨模态一致性。
地址:https://arxiv.org/pdf/2411.01123
代码:https://github.com/yichen928/X-Drive
18. SkyServe: 跨区域和云端的AI模型服务系统
标题:SkyServe: Serving AI Models across Regions and Clouds with Spot Instances
机构:UC伯克利分校
关键词:AI模型、竞价实例、成本节约、性能提升
作者:Ziming Mao, Tian Xia, Zhanghao Wu
分析:SkyServe是一个系统,它能够高效地在区域内和不同的云平台上以竞价实例和标准实例混合的方式提供AI模型服务。该系统能够智能地分散竞价实例到不同的故障域(如区域或云)以提高可用性和减少相关的预中断问题,以及在必要时通过动态切换回标准实例来过度提供廉价的竞价实例作为防止潜在的预中断的安全措施。该论文比较了SkyServe与现有的研究和生产系统在真实的人工智能工作负载上的性能:SkyServe在使用标准实例的情况下降低了成本多达44%,同时保证了高的资源可用性,而在处理竞价实例时则提供了高达2.6倍的P50、P90和P99延迟。
地址:https://arxiv.org/pdf/2411.01438
19. 基于注意力机制的扩散模型无训练区域提示技术研究
标题:Training-free Regional Prompting for Diffusion Transformers
机构:北京大学、卡内基梅隆大学、UC伯克利分校
关键词:扩散模型,注意力机制,区域提示,文本图像生成,语义理解
作者:Anthony Chen, Jianjin Xu, Wenzhao Zheng
分析:论文主要介绍了针对扩散模型(Diffusion Transformer架构)的区域提示技术。通过注意力机制操纵,实现了精细粒度的组合文本到图像生成能力,无需训练即可处理复杂文本提示。该技术对于提升扩散模型的语义理解和文本图像生成能力具有重要意义。
地址:https://arxiv.org/pdf/2411.02395
20. 解锁1比特神经网络的规模化理论
标题:Unlocking the Theory Behind Scaling 1-Bit Neural Networks
机构:纽约大学、中山大学、UC伯克利分校
关键词:1比特神经网络、规模化、模型训练、参数数量
作者:Majid Daliri, Zhao Song, Chiwun Yang
分析:这篇论文由Wang等人(2023)和Ma等人(2024)的研究引出,提出了1比特大型语言模型(LLMs)的性能与效率令人印象深刻,与传统的LLMs相比毫不逊色。研究者们发现,这些1比特LLMs的性能随着参数数量的增加而逐渐改善,这暗示了可能存在1比特神经网络的规模化法则。在这篇论文中,该论文首次从理论上确立了这种规模化法则的存在。该论文证明,尽管权重受到[-1,+1]的限制,但模型训练的动态过程不可避免地与核行为相一致,随着网络宽度的增长。这一理论突破保证了随着网络宽度的增长,1比特模型可以收敛到一个任意小的损失值。此外,该论文引入了概括差异的概念,定义为1比特网络输出与其全精度对应输出之间的差距,并证明了随着网络宽度的缩放,这种差异保持在一个可以忽略的水平。基于Kaplan等人(2020)的工作,该论文探讨了如何将训练损失表示为模型大小、数据集大小和用于训练的计算资源的幂函数。该论文的发现强调了1比特神经网络规模化的潜力,表明它可能成为未来神经网络精度的标准。
地址:https://arxiv.org/pdf/2411.01663
21. 基于汤勺对齐学习的更强适应性的强化学习人类反馈方法(SALSA)
标题:SALSA: Soup-based Alignment Learning for Stronger Adaptation in RLHF
机构:马里兰大学、Apple
关键词:SALSA,RLHF,模型汤勺,KL散度,强化学习,人类反馈,大型语言模型
作者:Atoosa Chegini, Hamid Kazemi, Iman Mirzadeh
分析:这篇论文提出了一种名为SALSA的新方法,旨在解决强化学习人类反馈(RLHF)中的问题。RLHF在大型语言模型(LLM)的发展中至关重要,对于使模型与人类价值观和偏好对齐尤其重要。传统的RLHF方法使用当前策略与初始策略的KL散度作为参考,这限制了模型的探索能力,容易陷入参数空间的狭窄区域。SALSA通过平均两个独立的有监督微调模型的权重来创建更灵活和更好的参考模型,称为模型汤勺。这使得模型能够在不牺牲稳定性的情况下探索更大的解决方案空间,提高奖励和探索能力,改进模型的对齐和性能。
地址:https://arxiv.org/pdf/2411.01798
22. Birdie:以奖励驱动目标和课程推动状态空间模型的进步
标题:Birdie: Advancing State Space Models with Reward-Driven Objectives and Curricula
机构:斯坦福大学、乔治梅森大学
关键词:状态空间模型(SSMs)、预训练、检索密集型任务、模型性能提升
作者:Sam Blouir, Jimmy Smith, Antonios Anastasopoulos
分析:这篇论文提出了一种新的训练程序,该程序结合了输入数据的双向处理以及预训练目标的动态混合,旨在提高状态空间模型(SSMs)在检索密集型任务上的性能。论文解决了SSMs在上下文检索任务上的局限性,如文本复制和关联回忆,通过改进训练程序,提高了SSMs的固定大小状态的使用效率。实验评估表明,Birdie在检索密集型任务上显著提高了SSM的性能,如电话本查找、长段落问答和填充任务。这为改进SSMs的训练提供了新的方向,并有助于缩小与Transformer的性能差距。
地址:https://arxiv.org/pdf/2411.01030
23. 学习多个初始解优化问题
标题:Learning Multiple Initial Solutions to Optimization Problems
机构:英伟达、哈佛大学、斯坦福大学
关键词:优化问题、多种初始解、局部优化方法、时间限制
作者:Elad Sharony, Heng Yang, Tong Che
分析:在许多应用中,如机器人控制、自动驾驶、投资组合管理等,需要依次解决类似的问题,并在严格的时间限制下进行。局部优化方法在这些场景下的性能常常依赖于初始解,如果初始化不良,可能导致收敛速度慢或得到次优解。为了解决这个问题,该论文提出了一种学习方法,预测出给定问题实例参数的多个 diverse 初始解。该论文提出两种利用多个初始解的方法:(i)单优化器方法,使用选择函数选择最有可能的初始解,(ii)多个优化器方法,可能并行运行多个优化器,每个优化器使用不同的初始解,之后再用最佳解进行选择。该论文在三个最优控制基准任务:cart-pole、reacher、和自动驾驶上验证了该论文的方法,使用的优化器有DDP、MPPI和iLQR。该论文发现在所有评估设置中,该论文的方法都有显著和一致的提升,并证明它能够有效地随着所需初始解的数量进行扩展。
地址:https://arxiv.org/pdf/2411.02158
代码:https://github.com/EladSharony/miso
24. diffuMask-Editor:一种将分割扩散模型与图像编辑集成的新范式以提高分割能力
标题:DiffuMask-Editor: A Novel Paradigm of Integration Between the Segmentation Diffusion Model and Image Editing to Improve Segmentation Ability
机构:中山大学、哈佛医学院、卢森堡大学
作者:Bo Gao, Fangxu Xing, Daniel Tang
分析:本文提出一种新颖的方法,将分割扩散模型和图像编辑集成在一起,名为diffuMask-Editor。通过将多个对象集成到图像中,本文的方法可以方便地创建更加真实的数据集,这些数据集可以与开放式世界设置非常相似,同时生成准确的分割掩码。与手动注释相比,该论文的方法大大减少了劳动密集的工作,同时确保精确分割掩码的生成。实验结果表明,由diffuMask-Editor生成的合成数据 Sets 分段方法可以达到比真正数据更好的性能。尤其是在零样本背景中,diffuMask-Editor在VOC 2012的Unseen类取得了新的state-of-the-art结果。本文的代码和模型将很快公开。
地址:https://arxiv.org/pdf/2411.01819
25. SAFE:为预训练模型构建连续学习的参数效率增量调优框架
标题:SAFE: Slow and Fast Parameter-Efficient Tuning for Continual Learning with Pre-Trained Models
机构:腾讯、浙江大学、上海交通大学
关键词:连续学习、预训练模型、参数效率调优、慢速与快速学习
作者:Linglan Zhao, Xuerui Zhang, Ke Yan
分析:这篇论文主要探讨了连续学习这一研究方向,旨在数据流中渐进式获取新概念,同时避免遗忘先前知识。随着强大力量的预训练模型(PTMs)的兴起,构建基于这些基模的增量学习系统受到了瞩目,而不是从头开始学习。现有工作中通常将PTM视为强大的起始点,直接在第一阶段使用参数效率调优(PET)适应下游任务。在后续阶段,大多数方法冻结模型参数来应对遗忘问题。然而,直接将PET应用于下游数据并不能充分利用PTM中的内在知识。此外,在增量阶段冻结参数会妨碍模型对第一阶段未覆盖的新概念的适应能力。为解决上述问题,论文提出了一个'慢速与快速'参数效率调优(SAFE)框架。特别是,为了继承基模型的普遍知识,通过测量预训练模型与PET应用模型之间的相关性包含了转移损失函数。经过第一阶段的校准后,慢调优参数可以捕获更多信息性特征,从而改善对新来的类别的泛化能力。为了进一步整合新概念,提出了一个在稳定性与适应性之间寻求平衡的方法,通过固定慢调优参数并持续更新快调优参数。具体来说,提出了类别交叉损失与特征对齐策略,以避免灾难性遗忘。在推断阶段,引入一种基于熵的聚合策略,以动态利用慢学习者和快学习者之间的互补性。通过在七个基准数据集上的广泛实验验证,该方法显著超过现有最佳方法。
地址:https://arxiv.org/pdf/2411.02175
26. LayerDAG:面向有向无环图的分层自回归扩散模型
标题:LayerDAG: A Layerwise Autoregressive Diffusion Model for Directed Acyclic Graph Generation
机构:英伟达、乔治亚理工学院
关键词:LayerDAG、有向无环图生成、自回归扩散模型、模型结构改进
作者:Mufei Li, Viraj Shitole, Eli Chien
分析:这篇论文提出了一种分层自回归扩散模型LayerDAG,用于生成有向无环图(DAG)。LayerDAG通过解耦节点依赖关系,并借助自回归生成和扩散模型,来捕捉DAG的方向性和逻辑性依赖。论文解决了生成现实DAG的挑战,并在表达性和泛化性方面表现出色,尤其是在生成大型DAGs(包含多达400个节点)的系统基准测试方面。实验表明,LayerDAG能够生成有效的DAG,并具有出色的统计属性和基准测试性能。此外,LayerDAG还提高了基于ML的代理模型的训练准确性,在预测不同计算平台的现实DAG性能指标方面表现出色。
地址:https://arxiv.org/pdf/2411.02322
27. ManiBox:通过可扩展模拟数据生成增强空间抓取泛化
标题:ManiBox: Enhancing Spatial Grasping Generalization via Scalable Simulation Data Generation
机构:清华大学、新加坡国立大学
关键词:机器人抓取、模拟数据生成、空间泛化、bounding-box
作者:Hengkai Tan, Xuezhou Xu, Chengyang Ying
分析:本文主要针对机器人在复杂环境中的操作任务,针对机器人抓取中的空间定位精度问题进行探讨。文章指出,当前多数模型在处理物体抓取时难以精确定位,主要是因为需要大量的空间理解数据,而收集真实数据成本高昂,模拟数据又存在视觉泛化差距。为了解决这一问题,提出了一种基于模拟的师生框架的bounding-box引导操作方法ManiBox,通过bounding box有效地生成可扩展的模拟数据,并实现零样本迁移到现实机器人上,从而显著提高了空间抓取泛化和适应不同环境和物体能力。
地址:https://arxiv.org/pdf/2411.01850
代码:https://thkkk.github.io/manibox
28. xDiT:面向扩散Transformer(DiTs)的推理引擎,支持大规模并行处理
标题:xDiT: an Inference Engine for Diffusion Transformers (DiTs) with Massive Parallelism
机构:腾讯、香港大学、华中科技大学
关键词:Diffusion Transformers、并行推理引擎、序列并行、Patch级流水线并行
作者:Jiarui Fang, Jinzhe Pan, Xibo Sun
分析:论文介绍了xDiT,一个面向Diffusion Transformers(DiTs)的并行推理引擎。DiTs是用于生成高质量图像和视频的模型。随着模型复杂度提升,生成高质量内容需要更长的序列长度,导致推理延迟增加。论文提出的xDiT结合了序列并行(SP)和PipeFusion(一种新颖的Patch级流水线并行方法)等内部图像并行策略,以及用于跨图像并行的CFG并行方法。xDiT可灵活组合这些并行方法,为DiTs提供稳健可扩展的解决方案。论文通过实验证明了xDiT在五种先进的DiTs模型上的可扩展性,并在以太网连接的GPU集群上进行了展示。
地址:https://arxiv.org/pdf/2411.01738
代码:https://github.com/xdit-project/xDiT
29. DeeR-VLA:动态推理多模态大模型在机器人执行中的高效应用
标题:DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution
机构:清华大学、字节跳动
关键词:动态早退框架、多模态大型语言模型、机器人执行效率、资源优化
作者:Yang Yue, Yulin Wang, Bingyi Kang
分析:这篇论文提出了一种动态早退框架(DeeR-VLA),用于机器人视觉-语言-动作模型(MLLM)。该框架能够根据每种情况自动调整激活的MLLM的大小,从而满足机器人平台有限的计算和内存需求。通过利用MLLM中的多退出架构,DeeR能够在激活适当大小的模型后终止处理,从而避免进一步的冗余计算。此外,论文还建立了早期终止标准,以确保DeeR在不同资源约束下能够高效运行,同时保持竞争力。在CALVIN机器人操作基准测试中,DeeR显著降低了LLM的计算成本和GPU内存使用量。
地址:https://arxiv.org/pdf/2411.02359
代码:https://github.com/yueyang130/DeeR-VLA
30. 高效私密学习高斯混合模型
标题:Sample-Efficient Private Learning of Mixtures of Gaussians
机构:麻省理工学院
关键词:高斯混合模型、差分隐私、学习算法、样本效率
作者:Hassan Ashtiani, Mahbod Majid, Shyam Narayanan
分析:这篇论文主要研究了在高斯混合模型中使用近似差分隐私的私密学习问题。论文证明了在大致$kd^2+k^{1.5}d^{1.75}+k^2d$个样本的条件下,能够将一个由$k$个任意$d$维高斯分布组成的混合模型学习到,误差可控制在极低的总变差距离内。此成果超越了之前最优的结果,并能在$d$远大于$k^2$时达到最优分析。此外,论文还首次给出了在学习一维高斯混合模型时的最优分析,这也是首次提出学习单一维度的样本复杂度是线性的,而非之前提出的二次多项式。论文的研究方法借用了包括倒数敏感性机制、分布压缩方法和种群和的体积控制等技术。
地址:https://arxiv.org/pdf/2411.02298
31. RoboCrowd:通过众包实现机器人数据采集规模化
标题:RoboCrowd: Scaling Robot Data Collection through Crowdsourcing
机构:斯坦福大学
关键词:RoboCrowd,数据收集,机器人策略训练,激励机制
地址:https://arxiv.org/pdf/2411.01915
32. 无文本口语语言模型与基于人工智能反馈的强化学习对齐研究
标题:Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback
机构:Amazon
关键词:Align-SLM框架、无文本口语语言模型、强化学习、语义理解
地址:https://arxiv.org/pdf/2411.01834
33. FilterNet:利用频率滤波器进行时序列预测研究
标题:FilterNet: Harnessing Frequency Filters for Time Series Forecasting
机构:牛津大学、中国科学技术大学
关键词:FilterNet、时间序列预测、频率滤波器、模型结构改进
地址:https://arxiv.org/pdf/2411.01623
代码:https://github.com/aikunyi/FilterNet
34. HiMemFormer:用于多智能体动作预测的多层次记忆感知Transformer
标题:HiMemFormer: Hierarchical Memory-Aware Transformer for Multi-Agent Action Anticipation
机构:伊利诺伊大学、卡内基梅隆大学
关键词:HiMemFormer、多智能体动作预测、全局记忆、局部记忆解码器
地址:https://arxiv.org/pdf/2411.01455
35. 语言模型能否学习跳过步骤?
标题:Can Language Models Learn to Skip Steps?
机构:复旦大学、西湖大学、Amazon
关键词:跳过步骤、推理能力、模型优化、AI认知
地址:https://arxiv.org/pdf/2411.01855
36. Minder:大规模分布式模型训练中的故障机器检测
标题:Minder: Faulty Machine Detection for Large-scale Distributed Model Training
机构:清华大学、字节跳动、东北大学
关键词:Minder、故障机器检测、大规模分布式模型训练、自动化故障识别
地址:https://arxiv.org/pdf/2411.01791
37. MESS+:能源最优的语言模型选择
标题:MESS+: Energy-Optimal Inferencing in Language Model Zoos with Service Level Guarantees
机构:多伦多大学、IBM研究院、慕尼黑工业大学
地址:https://arxiv.org/pdf/2411.00889
38. The LLM Language Network:神经科学方法识别因果性任务相关单元
标题:The LLM Language Network: A Neuroscientific Approach for Identifying Causally Task-Relevant Units
机构:麻省理工学院、瑞士洛桑联邦理工学院
关键词:大型语言模型、神经科学、定位方法、语言特定单元
地址:https://arxiv.org/pdf/2411.02280
39. 形式化定理证明通过奖励LLMs分解证明的奖励机制
标题:Formal Theorem Proving by Rewarding LLMs to Decompose Proofs Hierarchically
机构:斯坦福大学
地址:https://arxiv.org/pdf/2411.01829
40. MoMu-Diffusion:学习长时程运动-音乐同步和对应关系
标题:MoMu-Diffusion: On Learning Long-Term Motion-Music Synchronization and Correspondence
机构:浙江大学
关键词:运动-音乐同步、modality-aligned 潜在表示、BiCoR-VAE、多模态 Transformer 扩散模型
地址:https://arxiv.org/pdf/2411.01805
代码:https://momu-diffusion.github.io/
41. MoE-I^2:基于专家间剪枝和专家内部低秩分解的混合专家模型压缩研究
标题:MoE-I^2: Compressing Mixture of Experts Models through Inter-Expert Pruning and Intra-Expert Low-Rank Decomposition
机构:莱斯大学、罗格斯大学、德克萨斯大学
关键词:MoE模型压缩、专家间剪枝、低秩分解、模型优化
地址:https://arxiv.org/pdf/2411.01016
代码:https://github.com/xiaochengsky/MoEI-2.git
42. 大模型能否像人一样推广类比解决能力的研究
标题:Can Large Language Models generalize analogy solving like people can?
机构:麻省理工学院
关键词:大型语言模型,类比解决问题,知识迁移,模型评估
地址:https://arxiv.org/pdf/2411.02348
43. 集体模型智能需要兼容专业化
标题:Collective Model Intelligence Requires Compatible Specialization
机构:哈佛大学、麻省理工学院
关键词:模型合并、兼容专业化、特征空间结构、路由合并策略
地址:https://arxiv.org/pdf/2411.02207
44. 解决向量量化模型中表示崩溃的问题:使用单层线性层的方法
标题:Addressing Representation Collapse in Vector Quantized Models with One Linear Layer
机构:北京大学、中国科学技术大学
关键词:向量量化模型、表示崩溃、线性层优化、代码本利用率改进
地址:https://arxiv.org/pdf/2411.02038
代码:https://github.com/youngsheen/SimVQ
45. 快速且内存高效的视频扩散使用流线型推理
标题:Fast and Memory-Efficient Video Diffusion Using Streamlined Inference
机构:东北大学、哈佛大学、佐治亚大学
关键词:视频扩散、内存优化、计算效率、流线型推理
地址:https://arxiv.org/pdf/2411.01171
46. 梯度方法与在线缩放
标题:Gradient Methods with Online Scaling
机构:斯坦福大学
关键词:梯度方法、在线缩放、收敛加速、条件数
地址:https://arxiv.org/pdf/2411.01803
47. 动态恐龙的 Large Language 代理 Beyond 预定义操作
标题:DynaSaur: Large Language Agents Beyond Predefined Actions
机构:AI2
关键词:动态创建、操作组合、Large Language Model、预定义操作限制
地址:https://arxiv.org/pdf/2411.01747
代码:https://github.com/adobe-research/dynasaur
48. LLaMo:基于大模型的分子图助手
标题:LLaMo: Large Language Model-based Molecular Graph Assistant
机构:韩国高丽大学
关键词:大型语言模型、分子图助手、多层级图投影、指令微调
地址:https://arxiv.org/pdf/2411.00871
代码:https://github.com/mlvlab/LLaMo
49. MeToken:统一微环境标记增强翻译后修饰预测
标题:MeToken: Uniform Micro-environment Token Boosts Post-Translational Modification Prediction
机构:浙江大学、西湖大学、西安交通大学
关键词:MeToken模型、蛋白质翻译后修饰、序列和结构信息、PTM预测、模型结构改进、数据集构建
地址:https://arxiv.org/pdf/2411.01856
代码:https://github.com/A4Bio/MeToken
50. KptLLM:揭示大模型在关键点理解中的能力
标题:KptLLM: Unveiling the Power of Large Language Model for Keypoint Comprehension
机构:中山大学、香港大学、商汤研究院
关键词:大型语言模型,语义关键点理解,KptLLM,多模态模型,模型结构改进
地址:https://arxiv.org/pdf/2411.01846
51. LoRA上下文化适配的大型多模态模型的长文档理解
标题:LoRA-Contextualizing Adaptation of Large Multimodal Models for Long Document Understanding
机构:Adobe Research
关键词:LoRA、长文档理解、大型多模态模型、证据页检索
地址:https://arxiv.org/pdf/2411.01106
52. MultiPull: 通过多级查询拉取细节信息
标题:MultiPull: Detailing Signed Distance Functions by Pulling Multi-Level Queries at Multi-Step
机构:腾讯、清华大学
地址:https://arxiv.org/pdf/2411.01208
53. 基于扩散的提示微调以实现少样本预训练策略泛化
标题:Prompt Tuning with Diffusion for Few-Shot Pre-trained Policy Generalization
机构:剑桥大学、中山大学、上海交通大学
关键词:Prompt Tuning、Diffusion Model、Pre-trained Policy Generalization、Meta-RL
地址:https://arxiv.org/pdf/2411.01168
54. ROAD-Waymo:自动驾驶的规模化行动意识
标题:ROAD-Waymo: Action Awareness at Scale for Autonomous Driving
机构:牛津大学、帝国理工学院
关键词:自动驾驶、数据集构建、场景理解、域适应性
地址:https://arxiv.org/pdf/2411.01683
55. 基于随机功能组掩码的预训练分子语言模型
标题:Pre-trained Molecular Language Models with Random Functional Group Masking
机构:上海交通大学、香港科技大学、华南理工大学
关键词:分子语言模型、预训练、结构信息融入、性能增强
地址:https://arxiv.org/pdf/2411.01401
56. MVPaint: 多视图同步扩散算法用于绘制3D任何物体
标题:MVPaint: Synchronized Multi-View Diffusion for Painting Anything 3D
机构:腾讯、清华大学、上海AI实验室
关键词:3D纹理生成、多视图一致性、空间感知补完、UV优化
地址:https://arxiv.org/pdf/2411.02336
57. Towards Small Object Editing:一个基准数据集和无需训练的方法
标题:Towards Small Object Editing: A Benchmark Dataset and A Training-Free Approach
机构:浙江大学、香港大学、吉林大学
关键词:小物体编辑、文本引导图像编辑、注意力机制、基准数据集
地址:https://arxiv.org/pdf/2411.01545
代码:https://soebench.github.io/
58. 针对药物-药物相互作用预测的定制子图选择与编码研究
标题:Customized Subgraph Selection and Encoding for Drug-drug Interaction Prediction
机构:清华大学、西北工业大学
关键词:药物相互作用预测、神经网络架构搜索、子图选择、子图编码
地址:https://arxiv.org/pdf/2411.01535
59. 面向序列推荐的面部感知多头混合专家模型
标题:Facet-Aware Multi-Head Mixture-of-Experts Model for Sequential Recommendation
机构:南洋理工大学
关键词:序列推荐、多头注意力机制、混合专家网络、物品多面性特征
地址:https://arxiv.org/pdf/2411.01457
60. B^4:针对大模型水印的黑盒清除攻击
标题:B^4: A Black-Box Scrubbing Attack on LLM Watermarks
机构:北京大学、加利福尼亚大学
关键词:大型语言模型水印、黑盒清除攻击、优化问题、内容保真度
地址:https://arxiv.org/pdf/2411.01222
61. PRIMO:渐进式多跳开放规则生成
标题:PRIMO: Progressive Induction for Multi-hop Open Rule Generation
机构:东南大学
关键词:开放规则、规则生成、强化学习
地址:https://arxiv.org/pdf/2411.01205
62. 自动端到端Web渗透测试自动化:我们还剩下多远?
标题:AutoPT: How Far Are We from the End2End Automated Web Penetration Testing?
机构:中国科学技术大学
关键词:大语言模型、渗透测试自动化、状态机、任务完成率
地址:https://arxiv.org/pdf/2411.01236
63. 给定BF16或死亡?大模型量化的准确性-性能权衡
标题:"Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization
机构:Neural Magic
关键词:大语言模型、准确性、FP8、INT8
地址:https://arxiv.org/pdf/2411.02355
64. ChatTracker: 通过聊天增强大模型的视觉跟踪性能
标题:ChatTracker: Enhancing Visual Tracking Performance via Chatting with Multimodal Large Language Model
机构:复旦大学、华东师范大学
关键词:大型语言模型、视觉跟踪、多模态
地址:https://arxiv.org/pdf/2411.01756
65. Infant Agent:一个整合工具有效逻辑驱动的经济型API使用代理工具
标题:Infant Agent: A Tool-Integrated, Logic-Driven Agent with Cost-Effective API Usage
机构:多伦多大学
关键词:婴儿代理、逻辑驱动、API使用、大型语言模型
地址:https://arxiv.org/pdf/2411.01114
66. Role Play:在多智能体交互中学习自适应的角色特定策略
标题:Role Play: Learning Adaptive Role-Specific Strategies in Multi-Agent Interactions
机构:复旦大学、天津大学
关键词:角色扮演、多智能体强化学习、零样本协调、社会价值取向
地址:https://arxiv.org/pdf/2411.01166
67. 多语言大模型的字典插入提示
标题:Dictionary Insertion Prompting for Multilingual Reasoning on Multilingual Large Language Models
机构:东南大学、香港中文大学
关键词:大型语言模型、多语言、字典插入提示、推理任务
地址:https://arxiv.org/pdf/2411.01141
68. Culinary Class Wars:使用ASH评估大模型在厨艺迁移任务中的表现
标题:Culinary Class Wars: Evaluating LLMs using ASH in Cuisine Transfer Task
机构:韩国高丽大学、帝国理工学院
关键词:大语言模型(LLMs)、厨艺迁移任务、ASH基准测试、文化准确性
地址:https://arxiv.org/pdf/2411.01996
69. 大模型中投机解码的隐私风险
标题:Privacy Risks of Speculative Decoding in Large Language Models
机构:多伦多大学
关键词:大语言模型、投机解码、隐私风险、攻击者
地址:https://arxiv.org/pdf/2411.01076
70. 重新思考权重衰减以增强基础模型的精细微调
标题:Rethinking Weight Decay for Robust Fine-Tuning of Foundation Models
机构:乔治亚理工学院
关键词:Selective Projection Decay、权重衰减、基础模型、精细微调
地址:https://arxiv.org/pdf/2411.01713
代码:https://github.com/GT-RIPL/Selective-Projection-Decay.git
71. 多模态移动代理的基础知识与最新趋势:综述
标题:Foundations and Recent Trends in Multimodal Mobile Agents: A Survey
机构:北京交通大学、宾夕法尼亚州立大学
地址:https://arxiv.org/pdf/2411.02006
代码:https://github.com/aialt/awesome-mobile-agents
72. Eurekaverse:利用大模型进行环境课程生成
标题:Eurekaverse: Environment Curriculum Generation via Large Language Models
机构:宾夕法尼亚大学
关键词:大语言模型、环境课程生成、机器人学习、技能学习
地址:https://arxiv.org/pdf/2411.01775
73. SinaTools:阿拉伯自然语言处理的开源工具包
标题:SinaTools: Open Source Toolkit for Arabic Natural Language Processing
关键词:阿拉伯自然语言处理、SinaTools、命名实体识别、词义消歧
地址:https://arxiv.org/pdf/2411.01523
代码:https://sina.birzeit.edu/sinatools)
74. MoCE:基于上下文专家自适应融合的字节级神经网络翻译模型
标题:MoCE: Adaptive Mixture of Contextualization Experts for Byte-based Neural Machine Translation
关键词:字节级神经网络翻译模型、自适应混合注意力头、上下文语境化、模型结构改进
地址:https://arxiv.org/pdf/2411.01474
代码:https://github.com/ictnlp/MoCE
75. RAGViz: 诊断和可视化检索增强生成
标题:RAGViz: Diagnose and Visualize Retrieval-Augmented Generation
关键词:RAGViz、检索增强生成、大型语言模型、可视化
地址:https://arxiv.org/pdf/2411.01751
代码:https://github.com/cxcscmu/RAGViz; https://github.com/cxcscmu/RAGViz
76. 大模型对人类偏好的样品有效对齐
标题:Sample-Efficient Alignment for LLMs
机构:新加坡国立大学、新加坡管理大学、Sea AI实验室
地址:https://arxiv.org/pdf/2411.01493
77. Text2Freq: 学习文本中的序列模式通过频率域
标题:Text2Freq: Learning Series Patterns from Text via Frequency Domain
机构:国立阳明交通大学
关键词:Text2Freq、频率域、跨模态学习、时间序列预测
地址:https://arxiv.org/pdf/2411.00929
78. AutoVFX: 从自然语言指令生成物理真实的视频编辑
标题:AutoVFX: Physically Realistic Video Editing from Natural Language Instructions
关键词:视觉特效、自然语言指令、AutoVFX
地址:https://arxiv.org/pdf/2411.02394
79. CryptoEL:一种新型体验式学习工具,增强K-12阶段的密码学教育
标题:CryptoEL: A Novel Experiential Learning Tool for Enhancing K-12 Cryptography Education
机构:马萨诸塞大学
关键词:密码学教育、体验式学习、AI对话代理、密码学概念
地址:https://arxiv.org/pdf/2411.02143
80. R+R:理解DP-SGD中的超参数影响
标题:R+R:Understanding Hyperparameter Effects in DP-SGD
机构:卡尔斯鲁厄理工学院
关键词:隐私保护机器学习、DP-SGD、超参数影响、复本研究
地址:https://arxiv.org/pdf/2411.02051
81. HOBBIT:一种用于快速MoE推理的混合精度专家卸载系统
标题:HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference
关键词:混合精度、专家卸载、MoE架构、大语言模型
地址:https://arxiv.org/pdf/2411.01433
82. LIBMoE:在大模型中全面评估混合专家(MoEs)性能的框架
标题:LIBMoE: A Library for comprehensive benchmarking Mixture of Experts in Large Language Models
关键词:混合专家(MoEs)、大型语言模型(LLMs)、LIBMoE框架、模型结构改进
地址:https://arxiv.org/pdf/2411.00918
代码:https://fsoft-aic.github.io/fsoft-LibMoE.github.io
83. 扩散模型如漫画家般创作!高密度区域的奇妙案例
标题:Diffusion Models as Cartoonists! The Curious Case of High Density Regions
机构:阿尔托大学
关键词:扩散模型、高概率采样器、模式跟踪过程、图像生成
地址:https://arxiv.org/pdf/2411.01293
84. LLM4PR: 提升搜索引擎中排序后的性能,通过大规模语言模型
标题:LLM4PR: Improving Post-Ranking in Search Engine with Large Language Models
关键词:大规模语言模型、排序后阶段优化、Query-Instructed Adapter、有序任务学习
地址:https://arxiv.org/pdf/2411.01178
85. 探索生成序列模型在专业数据合成领域的应用前景
标题:Exploring the Landscape for Generative Sequence Models for Specialized Data Synthesis
关键词:生成模型、数据合成、语言模型、恶意网络流量
地址:https://arxiv.org/pdf/2411.01929
代码:https://github.com/Moe-Zbeeb/Exploring-the-landscape-for-generative-models-for-specialized-data-generation,
86. 弹性时序Transform:一种用于变采样窗口的鲁棒预测方法
标题:ElasTST: Towards Robust Varied-Horizon Forecasting with Elastic Time-Series Transformer
地址:https://arxiv.org/pdf/2411.01842
87. 生成任意3D和4D场景的GenXD方法
标题:GenXD: Generating Any 3D and 4D Scenes
地址:https://arxiv.org/pdf/2411.02319
88. 下一代RAN的AI就绪能源建模
标题:AI-Ready Energy Modelling for Next Generation RAN
机构:伦敦玛丽女王大学
关键词:AI-enabled Massive MIMO模拟器、能源效率、频谱效率、无线接入网络
地址:https://arxiv.org/pdf/2411.02135
89. 长上下文问题中的自我一致性效能如何?
标题:How Effective Is Self-Consistency for Long-Context Problems?
机构:约翰霍普金斯大学
关键词:自我一致性、大语言模型、位置偏差、长上下文问题
地址:https://arxiv.org/pdf/2411.01101
90. 训练计算最优蛋白质语言模型
标题:Training Compute-Optimal Protein Language Models
关键词:蛋白质语言模型、优化训练、计算效率、下游任务
地址:https://arxiv.org/pdf/2411.02142
91. 数据迁移限制与前沿模型训练
标题:Data movement limits to frontier model training
关键词:数据迁移、模型训练、可扩展性、硬件利用率
地址:https://arxiv.org/pdf/2411.01137
92. 丰富的破解方法:基于字符串组合的破解
标题:Plentiful Jailbreaks with String Compositions
关键词:破解方法、字符串组合、大型语言模型、逆向工程
地址:https://arxiv.org/pdf/2411.01084
93. 回归优于猜测:针对语言模型的数字令牌回归损失研究
标题:Regress, Don't Guess -- A Regression-like Loss on Number Tokens for Language Models
关键词:语言模型、数字令牌损失、回归损失、数值准确性
地址:https://arxiv.org/pdf/2411.02083
94. Shrinking the Giant :轻量级 Transformer 以低能耗进行推理
标题:Shrinking the Giant : Quasi-Weightless Transformers for Low Energy Inference
关键词:Transformer、轻量级、搜索操作
地址:https://arxiv.org/pdf/2411.01818
95. 语言模型是否能实现上下文数据库?
标题:Can Language Models Enable In-Context Database?
关键词:大型语言模型、上下文数据库、增量编码
地址:https://arxiv.org/pdf/2411.01807
96. LLMs进行知识图谱的本体填充
标题:Ontology Population using LLMs
关键词:知识图谱、大型语言模型、本体填充、自然语言理解
地址:https://arxiv.org/pdf/2411.01612
看论文是一天,不看论文也是一天,为什么不每天充实下自己呢^_^^_^