前言:科研就像一场冒险,而看论文就是你的探险工具!只有通过深入阅读,才能找到宝藏,发现那些意想不到的科研奇遇哦!
1. 百川大模型对齐技术报告
标题:Baichuan Alignment Technical Report
机构:北京大学
相关领域:模型结构改进、预训练、指令微调、奖励模型
作者:Mingan Lin, Fan Yang, Yanjun Shen
分析:本报告详细介绍了百川大模型中涉及的模型对齐技术,这是业界首次全面分析和讨论对齐方法,为AI研究的进步提供了有价值的见解。该论文深入研究了对齐过程中增强模型性能的关键组件,包括优化方法、数据策略、能力提升和评估过程。整个过程分为三个关键阶段:提示增强系统(PAS)、监督微调(SFT)和偏好对齐。该论文记录了遇到的问题、应用的解决方案以及所做的改进,并通过比较在成熟基准上的表现,强调了百川对齐所带来的技术进步。百川内建模型为“百川-指令版”,Qwen2-72B和Llama3-70B基础模型的指令版分别为Qwen2-Nova-72B和Llama3-PBM-Nova-70B,通过百川对齐进行了优化。百川-指令版在核心能力方面表现出显著的改进,用户体验提升范围从17%到28%,在专业基准测试中表现优异。在开源基准评估中,Qwen2-Nova-72B和Llama3-PBM-Nova-70B在几乎所有的数据集上都持续优于各自的官方指令版。本报告旨在阐明对齐过程的核心技术,以促进社区内的更深层次理解。
地址:https://arxiv.org/pdf/2410.14940
代码:https://huggingface.co/PKU-Baichuan-MLSystemLab/Llama3-PBM-Nova-70B
2. 合成数据的多样性及其在大规模语言模型训练中的应用影响
标题:On the Diversity of Synthetic Data and its Impact on Training Large Language Models
机构:北京大学、微软研究院、卡内基梅隆大学
相关领域:数据集构建、评估指标、预训练
作者:Hao Chen, Abdul Waheed, Xiang Li
分析:本文研究了合成数据的多样性在训练大规模语言模型(LLM)时的应用影响。文章引入了新的多样性评估指标,并展示了合成数据多样性与LLM性能之间的正相关关系。同时,研究发现预训练中合成数据的多样性对监督微调的影响更大,为研究使用合成数据训练LLM提供了新思路。
地址:https://arxiv.org/pdf/2410.15226
3. 1-bit AI Infra: Part 1.1, Fast and Lossless BitNet b1.58 Inference on CPUs
标题:1-bit AI Infra: Part 1.1, Fast and Lossless BitNet b1.58 Inference on CPUs
机构:微软研究院
相关领域:模型结构改进
作者:Jinheng Wang, Hansong Zhou, Ting Song
分析:这篇论文主要研究了基于1-bit的Large Language Models(LLMs),如BitNet和BitNet b1.58的快速和无损推理算法。开发了能够在CPU上实现高效无损推理的专用软件栈,实验结果显示了在不同的CPU架构上,相较于传统模型,论文提出的方法能获得显著的性能加速。
地址:https://arxiv.org/pdf/2410.16144
4. 如何评估强化学习范式下的奖励模型
标题:How to Evaluate Reward Models for RLHF
机构:UC伯克利分校
相关领域:
作者:Evan Frick, Tianle Li, Connor Chen
分析:这篇论文介绍了一个新的标准,用于量化奖励模型通过强化学习实现强语言模型生产的能力。该标准的方法是对奖励模型在大型人类偏好和可验证正确性偏好的数据集上的预训练进行评估。该数据集包括12个指标,在12个领域中进行测量。论文调查了哪些奖励模型指标与黄金标准强化学习结果最相关,然后通过在大型众包偏好平台上的端到端强化学习实验,生成了真正奖励模型下游性能的地面真值。通过这种方式,该论文可以编写出偏好代理评估(PPE)的第一份奖励模型标准,它与强化学习后的人工偏好性能直接相关,并开源供公众使用和进一步发展。该论文可以在这里查找代码和评估:https://github.com/lmarena/PPE。
地址:https://arxiv.org/pdf/2410.14872
代码:https://github.com/lmarena/PPE
5. xGen-MM-Vid (BLIP-3-Video): 仅需要32个令牌就可以表示视频?
标题:xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs
机构:Salesforce AI
相关领域:模型结构改进
作者:Michael S. Ryoo, Honglu Zhou, Shrikant Kendre
分析:这篇论文讲述了xGen-MM-Vid(BLIP-3-Video):一种用于视频的多模态语言模型,特别设计用于有效地捕获跨多帧的时间信息。引入了‘时间编码器’和常规视觉分词,映射一个由多帧组成的连续令牌集为一个紧凑的视觉令牌集。这种方法使BLIP-3-Video能够使用远少于同类模型(例如4608 vs 32)的视觉令牌。论文验证了BLIP-3-Video在视频问题解答的准确性上能够与远大的前驱模型(如34B)相媲美,同时,它要小得多(即4B),并且使用更少的视觉标记更为高效。
地址:https://arxiv.org/pdf/2410.16267
代码:https://www.salesforceairesearch.com/opensource/xGen-MM-Vid/index.html
6. 理解并缓解RLHF中大模型的内存消耗
标题:Understanding and Alleviating Memory Consumption in RLHF for LLMs
机构:字节跳动
相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态
作者:Jin Zhou, Hanmei Yang, Steven Tang
分析:这篇论文主要研究了在RLHF(Reinforcement Learning with Human Feedback)情境下,如何有效地管理大型语言模型的内存使用。作者通过探索各种内存管理策略,揭示了内存消耗过大的原因,并提出了一种简单而有效的方法,可以显著降低RLHF微调所需的内存。
地址:https://arxiv.org/pdf/2410.15651
7. KV缓存无损压缩至2%的创新架构
标题:Lossless KV Cache Compression to 2%
机构:腾讯
相关领域:模型结构改进
作者:Zhen Yang, J.N.Han, Kan Wu
分析:这篇论文阐述了一种名为Cross-Layer Latent Attention (CLLA)的创新架构,其目标是在压缩KV缓存至原始大小的2%以下,同时保持与原始性能相近的水平。通过集成KV缓存压缩的多个方面,例如注意力头/维数减少、层共享和量化技术,CLLA形成了一套综合框架。通过充分的实验,论文显示CLLA能在大多数任务中实现无损性能,同时使用极小的KV缓存,这标志着实际KV缓存压缩领域的一大进展。
地址:https://arxiv.org/pdf/2410.15252
8. 大模型进行数据清洗
标题:Data Cleaning Using Large Language Models
机构:哥伦比亚大学
相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态
作者:Shuo Zhang, Zezhou Huang, Eugene Wu
分析:这篇论文介绍了一种名为Cocoon的数据清洗系统,该系统利用大型语言模型进行基于语义理解的规则制定,并结合统计错误检测。然而,由于大型语言模型目前还无法一次性处理复杂的数据清洗任务,因此作者提出了将复杂的清洗任务分解为可管理的工作流程的方法。实验结果显示,Cocoon在标准基准测试中的表现优于现有的数据清洗系统。
地址:https://arxiv.org/pdf/2410.15547
9. 计算约束下的数据选择
标题:Compute-Constrained Data Selection
相关领域:数据集构建、模型评估
作者:Junjie Oscar Yin, Alexander M. Rush
分析:这篇论文关注于在资源受限的情况下如何有效选择训练数据以微调大型语言模型。论文提出一个成本感知的效用函数来形式化数据选择问题,并探索了在不同的任务中,如何通过权衡数据选择的初始成本与训练收益来优化选择。研究发现,许多高效的数据选择方法并不总是计算最优的,而一些更经济的方法在理论和实践中都表现出优势。
地址:https://arxiv.org/pdf/2410.16208
10. Improving General Text Embedding Model:通过模型合并解决任务冲突和数据不平衡问题
标题:Improving General Text Embedding Model: Tackling Task Conflict and Data Imbalance through Model Merging
相关领域:模型结构改进、预训练、指令微调、奖励模型
作者:Mingxin Li, Zhijie Nie, Yanzhao Zhang
分析:本文主要研究如何通过模型合并来改进通用文本嵌入模型,以应对在多任务学习中出现的两个主要问题:任务冲突和数据不平衡。任务冲突指的是不同任务的梯度相互干扰导致负迁移;数据不平衡则由于数据分布的不均衡导致性能在各个任务间出现偏差。文章提出了一种新的解决方案——自我定位(Self Positioning),该方法能够在任务向量插值空间内通过随机梯度下降搜索最优的任务组合,有效解决了上述问题。实验结果表明,与传统的重采样方法相比,自我定位方法不仅提高了多任务性能,还降低了计算成本。
地址:https://arxiv.org/pdf/2410.15035
11. EPT-1.5技术报告
标题:EPT-1.5 Technical Report
相关领域:大模型子领域:模型结构改进、预训练、指令微调、奖励模型
作者:Roberto Molinaro, Jordan Dane Daubinet, Alexander Jakob Dautel
分析:该论文宣布发布EPT-1.5,这是该论文Earth Physics Transformer (EPT) 基础AI地球系统模型系列的最新版本。EPT-1.5在预测能源相关变量方面显示出显著的改进,特别是在10米和100米风速以及太阳能辐射方面。特别在风能预测方面,它在性能上超过了现有的AI天气模型,如GraphCast、FuXi和Pangu-Weather,以及欧洲中期天气预报中心(ECMWF)的领先数值天气模型IFS HRES,从而达到了一个新的行业前沿。
地址:https://arxiv.org/pdf/2410.15076
12. 小故事数据在语言预训练中的作用研究
标题:BERTtime Stories: Investigating the Role of Synthetic Story Data in Language pre-training
相关领域:自然语言处理, 预训练, 故事生成
作者:Nikitas Theodoropoulos, Giorgos Filandrianos, Vassilis Lyberatos
分析:本文描述了该论文对婴儿语言模型挑战第二轮 strict 和 strict-small 任务作出的贡献。该挑战任务以提高在数据限制下的预训练效率为中心。为了响应这个挑战,该论文研究了使用合成故事数据在语言预训练中的影响,使用了一个名为 TinyStories 的故事数据集。实验结果表明,即使使用不到 1 亿个单词,模型也能生成高质量、原创的故事完成,并获取大量的语言知识。通过对比试验,该论文发现合成数据偶尔可以带来轻微的提高,但总体上会对语言理解产生负面影响。该论文的工作为在低资源情况下合成故事数据和语言模型的增强提供了初步研究,强调了其在数据限制下的潜力。该论文在 Github 上公开发布了模型和实现。
地址:https://arxiv.org/pdf/2410.15365
13. 大模型知道说什么但不知道何时说
标题:Large Language Models Know What To Say But Not When To Speak
机构:塔夫茨大学
相关领域:模型评估、数据集构建
作者:Muhammad Umair, Vasanth Sarathy, JP de Ruiter
分析:这篇论文主要探讨了大型语言模型在对话系统中的应用,尤其是其在改善言谈交互中的轮替能力。文章指出虽然大型语言模型能够生成恰当的回应,但它们常常难以预测合适的发言时机,即所谓的“过渡相关位置”(TRPs)。为此,论文引入了一个参与者标记的轮替内TRP数据集,用于评估先进的大型语言模型在预测发言机会方面的性能。研究揭示了这些模型在模拟非脚本口头交互方面的局限性,并强调了改进的必要性,为更自然的对话系统铺平了道路。
地址:https://arxiv.org/pdf/2410.16044
14. 网格位置编码方法Mesa-Extrapolation:提升大模型外推能力的研究
标题:Mesa-Extrapolation: A Weave Position Encoding Method for Enhanced Extrapolation in LLMs
机构:上海AI实验室
相关领域:模型结构改进、模型评估
作者:Xin Ma, Yang Liu, Jingjing Liu
分析:本文研究大语言模型(LLMs)的外推问题,即模型在超出最大训练长度时的推理能力下降的问题。文章通过理论分析和实验验证,提出了一种名为Mesa-Extrapolation的网格位置编码方法,该方法通过精细的网格位置编码技术,扩展了位置编码(PE)的有效范围,提升了LLMs的外推性能。文章还介绍了该方法的优势,如减少内存需求和提高推理速度等。
地址:https://arxiv.org/pdf/2410.15859
15. 对基础模型进行剪枝以提高精度而不需重新训练
标题:Pruning Foundation Models for High Accuracy without Retraining
机构:东北大学
相关领域:模型蒸馏、模型结构改进
作者:Pu Zhao, Fei Sun, Xuan Shen
分析:本文主要介绍了在不重新训练大型语言模型(LLM)的情况下,通过剪枝技术压缩模型大小并加速推理的过程。传统的剪枝技术难以应用于LLM,因为它们需要大量数据和硬件资源对模型进行多次迭代微调。为了解决这个问题,本文提出了一种新的后训练剪枝方法,可以一次性对LLM进行剪枝而无需重新训练。然而,由于缺乏对大规模数据的重新训练,剪枝后的模型性能可能会出现一定的下降。因此,本文旨在通过逐层压缩LLM来制定后训练问题,并设计了一种针对非结构化和半结构化稀疏性的后训练剪枝算法。实验表明,该方法在多种LLM家族中表现优异,包括基于Transformer和基于Mamba的LLM。
地址:https://arxiv.org/pdf/2410.15567
代码:https://github.com/piuzha/APT
16. ToW:提升大模型推理能力的思考
标题:ToW: Thoughts of Words Improve Reasoning in Large Language Models
机构:亚利桑那州立大学
相关领域:预训练、模型蒸馏
作者:Zhikun Xu, Ming Shen, Jacob Dineen
分析:本文提出了一个名为“词语思考”(ToW)的新数据增强方法,用于改进大语言模型的下一词预测能力。该方法将下一词预测视为核心推理任务,通过在预训练文本中注入细粒度思考,解释下一个词应该是什么,以及它与上下文的关系。ToW解决了现有下一词预测方法的两个主要缺点:它们会引起事实幻觉,且模型学习原始文本中隐含推理过程效率低下。通过从更大的模型中提取ToW注释,仅需持续预训练70K ToW标注后,平均使模型推理性能提升7%至9%,并最多减少10%的模型幻觉,而且ToW对任务和应用不受任何限制,对标签或语义引入了额外的偏差。
地址:https://arxiv.org/pdf/2410.16235
17. 改进视觉语言模型的链式思维推理
标题:Improve Vision Language Model Chain-of-thought Reasoning
机构:Apple
相关领域:模型结构改进、模型评估
作者:Ruohong Zhang, Bowen Zhang, Yanghao Li
分析:这篇论文关注视觉语言模型的链式思维推理改进问题。论文指出当前训练策略缺乏健壮的链式思维推理数据,导致模型在需要详细回应的推理任务上表现不佳。为此,论文提出一种双重方法:一是利用GPT-4o模型的理性蒸馏丰富训练数据并微调视觉语言模型,提升其链式思维性能;二是应用强化学习进一步校准推理质量。实验结果显示,该方法在基准数据集上的链式思维推理能力显著提升,并且在直接答案预测上也有更好的泛化能力。
地址:https://arxiv.org/pdf/2410.16198
18. 算术Transformer在运算数和计数上的长度泛化能力研究
标题:Arithmetic Transformers Can Length-Generalize in Both Operand Length and Count
机构:谷歌研究院、韩国科学技术院
相关领域:模型结构改进
作者:Hanseul Cho, Jaeyoung Cha, Srinadh Bhojanapalli
分析:这篇论文关注Transformer模型在算术任务上的长度泛化能力,特别是多操作数加减运算中的长度泛化难题。通过设计特定任务的“scratchpads”和采用多级别的位置耦合方法,模型能够在两个任务上都实现大约2-3倍的长度泛化。同时,论文也从理论上证明了一个使用所提出方法的单层Transformer可以解决多操作数加法问题。
地址:https://arxiv.org/pdf/2410.15787
19. Moonshine:用于现场转录和语音命令的语音识别模型
标题:Moonshine: Speech Recognition for Live Transcription and Voice Commands
相关领域:模型结构改进
作者:Nat Jeffries, Evan King, Manjunath Kudlur
分析:这篇论文介绍了一种名为Moonshine的语音识别模型系列,它针对现场转录和语音命令处理进行了优化。该模型基于编码器-解码器Transformer架构,采用旋转位置嵌入(RoPE)代替传统绝对位置嵌入。模型在多种长度的语音段上进行训练,并且在进行推理时提高了编码器的效率。在标准评估数据集上,与OpenAI的Whisper相比,Moonshine Tiny在转录10秒语音段时计算需求降低了5倍,同时没有出现误词率上升的情况。这些结果突显了Moonshine在实时和资源受限应用中的潜力。
地址:https://arxiv.org/pdf/2410.15608
20. 最优适配器放置方法的研究
标题:Towards Optimal Adapter Placement for Efficient Transfer Learning
机构:Google DeepMind
相关领域:模型结构改进、预训练、迁移学习
作者:Aleksandra I. Nowak, Otniel-Bogdan Mercea, Anurag Arnab
分析:本文主要探讨了适配器在迁移学习中的最优放置问题。适配器作为参数效率迁移学习中的一种方法,通过添加低秩投影在网络中注入额外的容量,以较少的微调参数实现与新下游任务的适配。本文观察到适配器的位置对其有效性有显著影响,并且最优放置位置取决于任务。为了充分利用这一观察结果,本文引入了扩展的适配器连接空间,包括长程和循环适配器。研究表明,即使从扩展的空间中随机选择适配器放置位置也能取得改进,高性能的放置通常与高的梯度秩相关。此外,研究发现,在战略上放置少量适配器可以匹配或超过在每个块中添加适配器的常见基准的性能,这为研究最优适配器放置策略开辟了新的途径。
地址:https://arxiv.org/pdf/2410.15858
21. 考虑推理扩展时,还需要关注基线吗?
标题:Keep Guessing? When Considering Inference Scaling, Mind the Baselines
机构:谷歌研究院、特拉维夫大学、Google DeepMind
相关领域:模型评估
作者:Gal Yona, Or Honovich, Omer Levy
分析:这篇论文研究大规模语言模型(LLMs)的推理计算扩展,通过反复抽样增加样本量来提高模型的覆盖问题。文章认为,这种改进部分归因于标准评估基准的答案分布偏向常见的答案。为此,文章定义了一个基线,根据答案在训练集中的普及率进行枚举。实验表明,该基线在某些情况下比反复模型抽样表现更好。
地址:https://arxiv.org/pdf/2410.15466
22. MagicPIG:基于LSH采样的高效LLM生成
标题:MagicPIG: LSH Sampling for Efficient LLM Generation
机构:纽约大学、华盛顿大学、卡内基梅隆大学
相关领域:模型评估
作者:Zhuoming Chen, Ranajoy Sadhukhan, Zihao Ye
分析:这篇论文提出了一种基于局部敏感哈希(LSH)的MagicPIG系统,旨在解决大型语言模型(LLM)在生成过程中遇到的计算瓶颈问题。MagicPIG利用采样技术提高了注意力计算的效率,并在多个任务上实现了高质量的结果。论文强调了采样技术在LLM生成中的优势,并展示了MagicPIG在实际应用中的性能改进。
地址:https://arxiv.org/pdf/2410.16179
代码:https://github.com/Infini-AI-Lab/MagicPIG
23. 多语言大型模型评估基准mHumanEval
标题:mHumanEval -- A Multilingual Benchmark to Evaluate Large Language Models for Code Generation
机构:FAIR、乔治梅森大学
相关领域:大型模型、代码生成、多语言
作者:Nishat Raihan, Antonios Anastasopoulos, Marcos Zampieri
分析:本文介绍了一个新的多语言大型模型评估基准mHumanEval,该基准支持超过200种自然语言的代码生成任务。作者使用机器翻译方法来编译这个基准,并提供了15种不同自然语言的专家人工翻译。此外,文章还分析了SOTA的大型代码生成模型在多语言环境下的表现,为跨语言代码生成研究提供了新的见解。
地址:https://arxiv.org/pdf/2410.15037
24. 探索通过主动遗忘进行预训练以改善解码器语言模型的跨语言迁移
标题:Exploring Pretraining via Active Forgetting for Improving Cross Lingual Transfer for Decoder Language Models
机构:微软、微软研究院
相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态
作者:Divyanshu Aggarwal, Ashutosh Sathe, Sunayana Sitaram
分析:这篇论文主要探讨了如何通过主动遗忘策略在解码器语言模型预训练阶段实现跨语言迁移。作者发现,使用主动遗忘策略预训练的语言模型在适应新和未知的语言时表现出色。经过大量实验,他们发现,使用主动遗忘策略预训练的语言模型能够学习到更好的多语言表示,从而在许多下游任务中表现得更好。
地址:https://arxiv.org/pdf/2410.16168
25. 探索连续微调以增强大模型在多语言环境下的能力
标题:Exploring Continual Fine-Tuning for Enhancing Language Ability in Large Language Model
机构:微软研究院、瑞士洛桑联邦理工学院
相关领域:模型微调、多语言适应性
作者:Divyanshu Aggarwal, Sankarshan Damle, Navin Goyal
分析:这篇论文主要探讨了大型语言模型(LLMs)如何在不损害对英语等语言熟练度的情况下,学会随着时间的推移学习和适应不同语言的下游任务。论文提出了一种名为连续微调(CFT)的方法,将LLMs逐步微调,使其能够在任务能力(Phase 1)的基础上适应具有变化的数据分布和时间推移的下游任务。具体来说,该方法涉及两个阶段:首先是针对单一英语环境的端到端微调LLMs,然后在第二阶段(Phase 2)微调这些模型以适应新的多语言数据集。论文发现,两个阶段任务之间的“相似性”对于LLMs的适应性至关重要。如果阶段任务相似,经过两个阶段之后,LLMs的性能不会下降;反之,如果任务不相似,LLMs的性能将会下降。此外,论文还测试了两种微调方法——冻结层和生成再现的变体,以解决性能下降的问题。
地址:https://arxiv.org/pdf/2410.16006
26. 多语言基准污染报告
标题:Contamination Report for Multilingual Benchmarks
机构:微软研究院
相关领域:模型评估
作者:Sanchit Ahuja, Varun Gumma, Sunayana Sitaram
分析:论文主要研究了大型语言模型(LLM)中常用多语言基准测试的数据污染问题。研究发现,几乎所有测试的多语言模型都受到所测试的几乎所有基准测试的污染。论文的目的在于帮助社区确定最佳的多语言评估基准。
地址:https://arxiv.org/pdf/2410.16186
27. 概念瓶颈模型与LLM先验
标题:Bayesian Concept Bottleneck Models with LLM Priors
机构:微软研究院、新加坡国立大学
相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态
作者:Jean Feng, Avni Kothari, Luke Zier
分析:这篇论文探讨了一种新的大语言模型(LLM)的概念瓶颈模型(CBM)方法,该方法旨在解决CBM中的概念选择问题。传统的CBM方法需要预定义一组可解释的概念,然后从训练数据中提取这些概念的值,并从中选择一个稀疏子集作为透明预测模型的输入。然而,这种方法往往受到在包含真正相关概念和控制概念提取成本之间进行权衡的挑战。BC-LLM通过在贝叶斯框架下迭代搜索潜在的无限概念集合来解决这个问题,其中LLM既用作概念提取机制又用作先验。尽管LLM存在一些不完善之处,但BC-LLM可以提供严谨的统计推断和不确定性量化。实验结果表明,BC-LLM在性能上优于包括黑盒模型在内的比较器方法,更快地收敛到相关概念,远离错误相关的样本,并且对非分布样本更稳定。
地址:https://arxiv.org/pdf/2410.15555
28. Making Every Frame Matter:通过自适应状态建模为大模型实现连续视频理解
标题:Making Every Frame Matter: Continuous Video Understanding for Large Models via Adaptive State Modeling
机构:南京大学、微软研究院
相关领域:模型结构改进、多模态
作者:Hao Wu, Donglin Bai, Shiqi Jiang
分析:论文提出了一种新型系统C-VUE,用于解决连续视频理解中的挑战。该系统通过自适应状态建模,实现了对连续视频的精准理解。主要解决了由于流式视频快速膨胀带来的多尺度和未修剪事件的理解难题。C-VUE包括三个关键设计:长程历史建模技术、空间冗余减少技术和并行训练结构。
地址:https://arxiv.org/pdf/2410.14993
29. CausalGraph2LLM:评估LLM对于因果查询的能力
标题:CausalGraph2LLM: Evaluating LLMs for Causal Queries
机构:谷歌研究院
相关领域:模型评估
作者:Ivaxi Sheth, Bahare Fatemi, Mario Fritz
分析:本文提出了一个全面的验证平台CausalGraph2LLM,该平台涵盖了多种因果图设置,以评估大型语言模型(LLM)对因果图的理解能力。将因果查询分为图级别和节点级别两类,并对公开和闭源模型进行了基准测试。研究表明,即使是像GPT-4和Gemini-1.5这样先进的模型,对因果图的理解也依赖于其编码方式,存在约60%的偏差。本文还展示了这种敏感性对于下游因果干预任务的影响,并指出模型在面对因果图相关上下文信息时可能存在偏差,潜在原因可能是它们的参数记忆。
地址:https://arxiv.org/pdf/2410.15939
30. 解决稀疏高维输出回归问题通过压缩技术
标题:Solving Sparse \& High-Dimensional-Output Regression via Compression
机构:Google、新加坡国立大学
相关领域:模型结构改进、数据集构建
作者:Renyuan Li, Zhehui Chen, Guanyi Wang
分析:这篇论文针对多输出回归面临的高维输出带来的解释性和计算可扩展性挑战,提出了一种稀疏高维输出回归模型。它通过引入额外的稀疏性要求来解决输出解释性问题,并设计了一个计算高效的两阶段优化框架,该框架能够通过输出压缩来解决这个问题。理论分析和实验结果都证明了该框架的有效性和准确性。
地址:https://arxiv.org/pdf/2410.15762
31. 人类与数据的交互:超越单一数据集的思考
标题:Human-Data Interaction: Thinking beyond individual datasets
机构:维也纳大学、Google
地址:https://arxiv.org/pdf/2410.15427
32. 从时序视频中学习交互行为模型:Agent-to-Sim框架
标题:Agent-to-Sim: Learning Interactive Behavior Models from Casual Longitudinal Videos
机构:卡内基梅隆大学、UC伯克利分校
相关领域:模型评估
地址:https://arxiv.org/pdf/2410.16259
33. 基于梯度离散优化的大模型中故障令牌挖掘
标题:Mining Glitch Tokens in Large Language Models via Gradient-based Discrete Optimization
机构:华盛顿大学、IBM研究院、哥伦比亚大学
相关领域:模型评估
地址:https://arxiv.org/pdf/2410.15052
34. P-YOLOv8:高效实时的分心驾驶检测
标题:P-YOLOv8: Efficient and Accurate Real-Time Detection of Distracted Driving
机构:南洋理工大学
相关领域:模型结构改进、预训练、数据集构建
地址:https://arxiv.org/pdf/2410.15602
35. Spatial-Mamba:通过结构感知状态融合的有效视觉状态空间模型
标题:Spatial-Mamba: Effective Visual State Space Models via Structure-Aware State Fusion
机构:哈佛医学院、西安交通大学、OPPO研究院
相关领域:模型结构改进
地址:https://arxiv.org/pdf/2410.15091
代码:https://github.com/EdwardChasel/Spatial-Mamba
36. Warped Diffusion:使用图像扩散模型解决视频反问题
标题:Warped Diffusion: Solving Video Inverse Problems with Image Diffusion Models
机构:英伟达、德克萨斯大学
相关领域:视频优化
地址:https://arxiv.org/pdf/2410.16152
代码:https://giannisdaras.github.io/warped\this
37. EVA: 一个用于未来视频预测的嵌入式世界模型
标题:EVA: An Embodied World Model for Future Video Anticipation
机构:北京大学、香港科技大学
相关领域:视频预测、世界模型
地址:https://arxiv.org/pdf/2410.15461
38. MedDiff-FM:适用于多种医学图像应用的无扩散基础模型
标题:MedDiff-FM: A Diffusion-based Foundation Model for Versatile Medical Image Applications
机构:商汤研究院、上海交通大学、上海AI实验室
相关领域:模型结构改进、预训练、模型评估、数据集构建
地址:https://arxiv.org/pdf/2410.15432
39. CompassJudger-1:一站式评判模型助力模型评估与进化
标题:CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution
机构:上海AI实验室
相关领域:模型评估
地址:https://arxiv.org/pdf/2410.16256
代码:https://github.com/open-compass/CompassJudger
40. 大模型是否带有英语口音?评估与提高多语种LLM的自然度
标题:Do Large Language Models Have an English Accent? Evaluating and Improving the Naturalness of Multilingual LLMs
机构:Apple
相关领域:模型评估、多模态、数据集构建(与评估相关的语料库建设)
地址:https://arxiv.org/pdf/2410.15956
41. 减轻LLM监督微调与偏好学习中的遗忘
标题:Mitigating Forgetting in LLM Supervised Fine-Tuning and Preference Learning
机构:IBM研究院
相关领域:指令微调、RLHF
地址:https://arxiv.org/pdf/2410.15483
代码:https://github.com/heshandevaka/XRIGHT
42. IntersectionZoo:多代理上下文强化学习的节能驾驶
标题:IntersectionZoo: Eco-driving for Benchmarking Multi-Agent Contextual Reinforcement Learning
机构:麻省理工学院、苏黎世联邦理工学院
相关领域:多模态
地址:https://arxiv.org/pdf/2410.15221
43. MENTOR:视觉强化学习的专家网络与任务导向扰动
标题:MENTOR: Mixture-of-Experts Network with Task-Oriented Perturbation for Visual Reinforcement Learning
机构:清华大学、上海AI实验室
相关领域:模型结构改进、强化学习、数据集构建、评估指标
地址:https://arxiv.org/pdf/2410.14972
代码:https://suninghuang19.github.io/mentor_page
44. M-RewardBench:评估多语言环境下的奖励模型
标题:M-RewardBench: Evaluating Reward Models in Multilingual Settings
机构:艾伦AI研究所
相关领域:奖励模型、模型评估、数据集构建
地址:https://arxiv.org/pdf/2410.15522
45. 截断一致性模型
标题:Truncated Consistency Models
机构:英伟达、卡内基梅隆大学
相关领域:模型结构改进
地址:https://arxiv.org/pdf/2410.14895
代码:https://truncated-cm.github.io/
46. 通用减少大模型中嵌入倒塌的方法
标题:Mitigating Embedding Collapse in Diffusion Models for Categorical Data
机构:斯坦福大学
地址:https://arxiv.org/pdf/2410.14758
47. Hierarchical Reinforced Trader (HRT):一种双层级方法用于优化股票选择和执行
标题:Hierarchical Reinforced Trader (HRT): A Bi-Level Approach for Optimizing Stock Selection and Execution
机构:麻省理工学院
相关领域:模型结构改进、奖励模型、RLHF
地址:https://arxiv.org/pdf/2410.14927
48. LoRA-IR:驾驭低秩专家实现高效全功能图像修复
标题:LoRA-IR: Taming Low-Rank Experts for Efficient All-in-One Image Restoration
机构:中国科学院大学
相关领域:模型结构改进、预训练、多模态
地址:https://arxiv.org/pdf/2410.15385
代码:https://github.com/shallowdream204/LoRA-IR
49. SAM2Long:增强SAM 2用于长视频分割的无训练记忆树
标题:SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree
机构:香港中文大学、上海AI实验室
相关领域:模型结构改进
地址:https://arxiv.org/pdf/2410.16268
代码:https://github.com/Mark12Ding/SAM2Long
50. LLaVA-KD:用于知识蒸馏多模态大模型的研究
标题:LLaVA-KD: A Framework of Distilling Multimodal Large Language Models
机构:腾讯、浙江大学、华中科技大学
相关领域:模型蒸馏、多模态
地址:https://arxiv.org/pdf/2410.16236
代码:https://github.com/caiyuxuan1120/LLaVA-KD
51. 语言模型输出的概率是否已被校准?
标题:Are Language Model Logits Calibrated?
机构:Apple
相关领域:模型评估
地址:https://arxiv.org/pdf/2410.16007
52. 生成机器人仿真任务:从真实世界图像
标题:GRS: Generating Robotic Simulation Tasks from Real-World Images
机构:英伟达、斯坦福大学
地址:https://arxiv.org/pdf/2410.15536
53. 皮肤病学通用多模态基础模型
标题:A General-Purpose Multimodal Foundation Model for Dermatology
机构:英伟达、莫纳什大学、维也纳大学
相关领域:模型结构改进、预训练、指令微调、奖励模型
地址:https://arxiv.org/pdf/2410.15038
54. 视觉语言模型(VLM)的空间推理能力提升
标题:Sparkle: Mastering Basic Spatial Capabilities in Vision Language Models Elicits Generalization to Composite Spatial Reasoning
机构:香港科技大学、麻省理工学院、上海交通大学
相关领域:模型结构改进、预训练、指令微调
地址:https://arxiv.org/pdf/2410.16162
55. ComPO:基于社区偏好的语言模型个性化研究
标题:ComPO: Community Preferences for Language Model Personalization
机构:华盛顿大学、俄亥俄州立大学、艾伦AI研究所
相关领域:模型评估、数据集构建
地址:https://arxiv.org/pdf/2410.16027
56. 大模型通过模块化训练和合并进行可扩展的数据消融近似
标题:Scalable Data Ablation Approximations for Language Models through Modular Training and Merging
机构:华盛顿大学、艾伦AI研究所、卡内基梅隆大学
相关领域:数据集构建、评估指标
地址:https://arxiv.org/pdf/2410.15661
57. 代码摘要中的幻觉检测:一种实体追踪框架ETF
标题:ETF: An Entity Tracing Framework for Hallucination Detection in Code Summaries
机构:印度理工学院、IBM研究院、德克萨斯州奥斯汀大学
相关领域:模型评估、数据集构建
地址:https://arxiv.org/pdf/2410.14748
58. 语境增强多模型编程(CAMP):混合本地-云协同框架
标题:Contextual Augmented Multi-Model Programming (CAMP): A Hybrid Local-Cloud Copilot Framework
机构:麻省理工学院
相关领域:模型结构改进、预训练、指令微调、多模态
地址:https://arxiv.org/pdf/2410.15285
59. BRIEF: 通过压缩连接检索和推断的多跳推理
标题:BRIEF: Bridging Retrieval and Inference for Multi-hop Reasoning via Compression
机构:复旦大学、UC洛杉矶分校
相关领域:模型蒸馏
地址:https://arxiv.org/pdf/2410.15277
60. P300拼写器性能评估:大模型与跨主题训练
标题:Evaluation Of P300 Speller Performance Using Large Language Models Along With Cross-Subject Training
机构:加州大学、华盛顿大学、伊利诺伊大学
相关领域:模型评估, 数据集构建, 评估指标
地址:https://arxiv.org/pdf/2410.15161
61. 需要多少梵高才能梵高?寻找模仿阈值
标题:How Many Van Goghs Does It Take to Van Gogh? Finding the Imitation Threshold
机构:华盛顿大学、UC尔湾分校
相关领域:数据集构建、模型评估
地址:https://arxiv.org/pdf/2410.15002
代码:https://github.com/vsahil/MIMETIC-2.git; https://github.com/vsahil/MIMETIC-2.git
62. 检索增强的语言模型构建编码助手
标题:Building A Coding Assistant via the Retrieval-Augmented Language Model
机构:东北大学、清华大学
相关领域:大模型
地址:https://arxiv.org/pdf/2410.16229
63. 微调对语言模型毒性影响的研究
标题:The effect of fine-tuning on language model toxicity
机构:牛津大学
相关领域:模型评估
地址:https://arxiv.org/pdf/2410.15821
64. LLMs是否能够写出像人类一样的文字?语法和修辞风格的变化
标题:Do LLMs write like humans? Variation in grammatical and rhetorical styles
机构:卡内基梅隆大学
相关领域:模型评估
地址:https://arxiv.org/pdf/2410.16107
65. TimeMixer++:用于通用预测分析的通用时间序列模式机
标题:TimeMixer++: A General Time Series Pattern Machine for Universal Predictive Analysis
机构:浙江大学、香港科技大学、麻省理工学院
相关领域:模型结构改进、数据集构建
地址:https://arxiv.org/pdf/2410.16032
66. RAG系统中子问题覆盖的重要性
标题:Do RAG Systems Cover What Matters? Evaluating and Optimizing Responses with Sub-Question Coverage
机构:乔治亚理工学院、Salesforce AI
地址:https://arxiv.org/pdf/2410.15531
67. EPIC: 高效位置独立上下文快取以服务大规模语言模型
标题:EPIC: Efficient Position-Independent Context Caching for Serving Large Language Models
机构:北京大学、南京大学
相关领域:模型结构改进
地址:https://arxiv.org/pdf/2410.15332
68. Chasing Random:指令选择策略难以推广
标题:Chasing Random: Instruction Selection Strategies Fail to Generalize
机构:卡内基梅隆大学
相关领域:指令微调
地址:https://arxiv.org/pdf/2410.15225
69. CamI2V:基于摄像头的图像到视频扩散模型研究
标题:CamI2V: Camera-Controlled Image-to-Video Diffusion Model
机构:浙江大学
相关领域:模型结构改进、数据集构建、模型评估
地址:https://arxiv.org/pdf/2410.15957
代码:https://zgctroy.github.io/CamI2V
70. 历史地图自动讲故事-一个研究历史地图的案例
标题:An Efficient System for Automatic Map Storytelling -- A Case Study on Historical Maps
机构:苏黎世联邦理工学院
地址:https://arxiv.org/pdf/2410.15780
代码:https://github.com/claudaff/automatic-map-storytelling
71. SDP4Bit:针对LLM训练中的分片数据并行量化和4位通信量化
标题:SDP4Bit: Toward 4-bit Communication Quantization in Sharded Data Parallelism for LLM Training
机构:字节跳动、中国科学院大学
相关领域:模型结构改进、预训练、数据集构建
地址:https://arxiv.org/pdf/2410.15526
72. FlexDoc:通过优化内容和布局实现文档灵活适配
标题:FlexDoc: Flexible Document Adaptation through Optimizing both Content and Layout
机构:阿尔托大学、英国巴斯大学、Adobe Research
地址:https://arxiv.org/pdf/2410.15504
73. LangGFM:仅大模型即可成为强大的图基础模型
标题:LangGFM: A Large Language Model Alone Can be a Powerful Graph Foundation Model
机构:浙江大学、阿里巴巴集团
相关领域:模型结构改进、预训练、模型评估、数据集构建
地址:https://arxiv.org/pdf/2410.14961
74. MCCoder:流线型的运动控制代码生成和严格的验证
标题:MCCoder: Streamlining Motion Control with LLM-Assisted Code Generation and Rigorous Verification
机构:香港科技大学
地址:https://arxiv.org/pdf/2410.15154
代码:https://github.com/MCCodeAI/MCCoder
75. From Tokens to Materials:利用语言模型进行科学发现
标题:From Tokens to Materials: Leveraging Language Models for Scientific Discovery
机构:香港城市大学、新南威尔士大学
相关领域:模型结构改进、预训练、数据集构建
地址:https://arxiv.org/pdf/2410.16165
76. 如何构建用于同时聊天和决策预训练的多模态模型
标题:How to Build a Pre-trained Multimodal model for Simultaneously Chatting and Decision-making?
机构:浙江大学、IDEA、浙江实验室
相关领域:多模态、模型结构改进、预训练
地址:https://arxiv.org/pdf/2410.15885
77. TreeBoN:增强推理时对齐的推测性树搜索和最佳N采样
标题:TreeBoN: Enhancing Inference-Time Alignment with Speculative Tree-Search and Best-of-N Sampling
机构:密歇根大学、普林斯顿大学、俄勒冈州立大学
相关领域:模型结构改进、指令微调、模型评估
地址:https://arxiv.org/pdf/2410.16033
78. 扩散Transform策略
标题:Diffusion Transformer Policy
机构:清华大学、北京大学、浙江大学
相关领域:模型结构改进、预训练
地址:https://arxiv.org/pdf/2410.15959
79. 对比解码减轻大模型在医学信息提取中的幻觉问题
标题:Mitigating Hallucinations of Large Language Models in Medical Information Extraction via Contrastive Decoding
机构:腾讯、北京大学、西湖大学
相关领域:模型结构改进、预训练、指令微调
地址:https://arxiv.org/pdf/2410.15702
80. 揭秘并缓解Mamba的局部模式捷径
标题:Revealing and Mitigating the Local Pattern Shortcuts of Mamba
机构:腾讯
相关领域:模型结构改进
地址:https://arxiv.org/pdf/2410.15678
81. Long Term Memory:人工智能自我进化的基石
标题:Long Term Memory: The Foundation of AI Self-Evolution
机构:清华大学、上海交通大学
相关领域:模型结构改进、预训练、模型评估、多模态
地址:https://arxiv.org/pdf/2410.15665
82. 基于检索增强式MoE大模型的专家识别与策略优化研究
标题:Unveiling and Consulting Core Experts in Retrieval-Augmented MoE-based LLMs
机构:腾讯、复旦大学
相关领域:模型结构改进
地址:https://arxiv.org/pdf/2410.15438
83. 选择影响样本以实现长上下文对齐通过同源模型指导及上下文意识测量
标题:Selecting Influential Samples for Long Context Alignment via Homologous Models' Guidance and Contextual Awareness Measurement
机构:清华大学、北京大学
相关领域:数据集构建、模型评估
地址:https://arxiv.org/pdf/2410.15633
84. 设计有效的训练时RL奖励以提高LLM推理能力的研究
标题:On Designing Effective RL Reward at Training Time for LLM Reasoning
机构:清华大学
相关领域:奖励模型、RLHF
地址:https://arxiv.org/pdf/2410.15115
85. 基于辅助增强信息的生成式面部视频压缩标准化
标题:Standardizing Generative Face Video Compression using Supplemental Enhancement Information
机构:字节跳动、香港城市大学、阿里巴巴集团
相关领域:模型结构改进
地址:https://arxiv.org/pdf/2410.15105
86. MELT:面向材料科学的语言模型适应性预训练
标题:MELT: Materials-aware Continued Pre-training for Language Model Adaptation to Materials Science
机构:韩国高丽大学
相关领域:预训练、数据集构建
地址:https://arxiv.org/pdf/2410.15126
87. SeisLM:地震波形的基础模型
标题:SeisLM: a Foundation Model for Seismic Waveforms
机构:莱斯大学、宾夕法尼亚州立大学
相关领域:模型结构改进、预训练
地址:https://arxiv.org/pdf/2410.15765
代码:https://github.com/liutianlin0121/seisLM
88. Reflection-Bench:通过反思探究人工智能智能
标题:Reflection-Bench: probing AI intelligence with reflection
机构:上海交通大学、上海AI实验室
相关领域:模型评估
地址:https://arxiv.org/pdf/2410.16270
代码:https://github.com/YabYum/ReflectionBench
89. Mind the Remaining:联邦去学习机制设计
标题:Mind the Remaining: Mechanism Design for Robust Federated Unlearning
机构:西湖大学、香港科技大学
相关领域:模型评估
地址:https://arxiv.org/pdf/2410.15045
90. SAE基于的表示工程引导大模型中的知识选择行为
标题:Steering Knowledge Selection Behaviours in LLMs via SAE-Based Representation Engineering
机构:香港大学、伦敦大学
相关领域:模型蒸馏
地址:https://arxiv.org/pdf/2410.15999
91. 粒度对长尾学习的影响
标题:Granularity Matters in Long-Tail Learning
机构:香港大学、中国科学院自动化研究所
相关领域:数据集构建
地址:https://arxiv.org/pdf/2410.15980
92. 自解释关键词赋能大模型代码生成
标题:Self-Explained Keywords Empower Large Language Models for Code Generation
机构:浙江大学
相关领域:模型结构改进、指令微调
地址:https://arxiv.org/pdf/2410.15966
93. 学习使用Transformer生成和评估事实核查解释
标题:Learning to Generate and Evaluate Fact-checking Explanations with Transformers
机构:剑桥大学、曼彻斯特大学、帝国理工学院
相关领域:模型结构改进、预训练、指令微调、奖励模型
地址:https://arxiv.org/pdf/2410.15669
94. LLaVA-Ultra:大型中文语言和视觉助手用于超声波
标题:LLaVA-Ultra: Large Chinese Language and Vision Assistant for Ultrasound
机构:华盛顿大学、上海AI实验室
相关领域:模型结构改进、视觉语言模型、医疗应用、多模态
地址:https://arxiv.org/pdf/2410.15074
95. DiffuseST:利用扩散模型实现风格迁移的能力
标题:DiffuseST: Unleashing the Capability of the Diffusion Model for Style Transfer
机构:南京大学、南京航空航天大学
相关领域:模型结构改进、预训练、多模态
地址:https://arxiv.org/pdf/2410.15007
96. 改进密集型文本检索的蕴含调整
标题:Improve Dense Passage Retrieval with Entailment Tuning
机构:香港科技大学
相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态
地址:https://arxiv.org/pdf/2410.15801
97. 大模型在多数据源上的优化:合并与估值
标题:Acoustic Model Optimization over Multiple Data Sources: Merging and Valuation
机构:香港科技大学
地址:https://arxiv.org/pdf/2410.15620
98. 自然语言处理中的GaLore优化:LLM训练与微调中的内存效率提升
标题:Natural GaLore: Accelerating GaLore for memory-efficient LLM Training and Fine-tuning
相关领域:模型优化、预训练、微调技术
地址:https://arxiv.org/pdf/2410.16029
代码:https://github.com/selfsupervised-ai/Natural-GaLore.git
99. SemiHVision:医疗多模态大模型的改进
标题:SemiHVision: Enhancing Medical Multimodal Models with a Semi-Human Annotated Dataset and Fine-Tuned Instruction Generation
机构:马萨诸塞大学、马萨诸塞洛厄尔大学
相关领域:模型结构改进、预训练、指令微调、奖励模型
地址:https://arxiv.org/pdf/2410.14948
100. 基于一致性放大的数据污染检测
标题:CAP: Data Contamination Detection via Consistency Amplification
机构:西湖大学
相关领域:模型评估、数据集构建
地址:https://arxiv.org/pdf/2410.15005
101. 大模型在知识冲突实践中的实践
标题:Who's Who: Large Language Models Meet Knowledge Conflicts in Practice
机构:南洋理工大学
地址:https://arxiv.org/pdf/2410.15737
102. 语言模型是算术符号学习者
标题:Language Models are Symbolic Learners in Arithmetic
机构:莱斯大学、佐治亚理工学院、Duke University
地址:https://arxiv.org/pdf/2410.15580
103. 对话检索:大模型与未来发展方向
标题:A Survey of Conversational Search
机构:中国人民大学
地址:https://arxiv.org/pdf/2410.15576
104. 从梯度中提取时空数据的大模型研究
标题:Extracting Spatiotemporal Data from Gradients with Large Language Models
机构:西安电子科技大学
相关领域:模型评估
地址:https://arxiv.org/pdf/2410.16121
105. 当机器遗忘遇到检索增强生成:保留秘密还是遗忘知识
标题:When Machine Unlearning Meets Retrieval-Augmented Generation (RAG): Keep Secret or Forget Knowledge?
机构:悉尼科技大学
相关领域:模型评估、多模态
地址:https://arxiv.org/pdf/2410.15267
106. CompAct:大模型压缩激活以提高训练内存效率
标题:CompAct: Compressed Activations for Memory-Efficient LLM Training
相关领域:模型结构改进、预训练
地址:https://arxiv.org/pdf/2410.15352
107. Reverse Question Answering:大模型能否写出自己无法回答的问题?
标题:Reverse Question Answering: Can an LLM Write a Question so Hard (or Bad) that it Can't Answer?
机构:马里兰大学、华盛顿大学
相关领域:模型评估、指令微调
地址:https://arxiv.org/pdf/2410.15512
108. 医学AI用于早期肺癌诊断:综述
标题:Medical AI for Early Detection of Lung Cancer: A Survey
机构:北京交通大学、阿德莱德大学
相关领域:大模型子研究领域
地址:https://arxiv.org/pdf/2410.14769
代码:https://github.com/CaiGuoHui123/Awesome-Lung-Cancer-Detection
109. 探索视觉语言任务中的课程学习:小规模多模态训练的研究
标题:Exploring Curriculum Learning for Vision-Language Tasks: A Study on Small-Scale Multimodal Training
机构:阿尔伯塔大学
相关领域:模型结构改进、预训练、指令微调、奖励模型
地址:https://arxiv.org/pdf/2410.15509
110. Mini-InternVL:参数少一半性能少减半的高效轻量级多模态模型研究
标题:Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance
相关领域:模型结构改进、多模态
地址:https://arxiv.org/pdf/2410.16261
代码:https://github.com/OpenGVLab/InternVL
111. 大模型数据集蒸馏:大型软标签是否必要?
标题:Are Large-scale Soft Labels Necessary for Large-scale Dataset Distillation?
机构:新加坡国立大学
相关领域:模型蒸馏
地址:https://arxiv.org/pdf/2410.15919
代码:https://github.com/he-y/soft-label-pruning-for-dataset-distillation
112. AutoTrain:无代码训练先进模型
标题:AutoTrain: No-code training for state-of-the-art models
相关领域:模型结构改进、预训练、指令微调、多模态
地址:https://arxiv.org/pdf/2410.15735
代码:https://github.com/huggingface/autotrain-advanced
113. RAC:基于检索增强技术的高效大模型事实校正研究
标题:RAC: Efficient LLM Factuality Correction with Retrieval Augmentation
相关领域:模型评估
地址:https://arxiv.org/pdf/2410.15667
代码:https://github.com/jlab-nlp/Retrieval-Augmented-Correction
114. Allegro:揭开商业级视频生成模型的黑箱之谜
标题:Allegro: Open the Black Box of Commercial-Level Video Generation Model
相关领域:模型结构改进
地址:https://arxiv.org/pdf/2410.15458
代码:https://github.com/rhymes-ai/Allegro; https://github.com/rhymes-ai/Allegro; https://github.com/rhymes-ai/Allegro
115. ConSinger:高效高保真歌声生成的最小步骤方法
标题:ConSinger: Efficient High-Fidelity Singing Voice Generation with Minimal Steps
相关领域:模型结构改进、预训练、多模态
地址:https://arxiv.org/pdf/2410.15342
代码:https://keylxiao.github.io/consinger
116. SPRIG:通过系统提示优化提高大模型性能
标题:SPRIG: Improving Large Language Model Performance by System Prompt Optimization
机构:密歇根大学
相关领域:模型评估、指令微调
地址:https://arxiv.org/pdf/2410.14826
117. 基于预训练的摊销概率插值:优化、模拟与推理
标题:Amortized Probabilistic Conditioning for Optimization, Simulation and Inference
机构:阿尔托大学、曼彻斯特大学
相关领域:预训练
地址:https://arxiv.org/pdf/2410.15320
118. 知识编辑能否真正纠正大模型的幻觉?
标题:Can Knowledge Editing Really Correct Hallucinations?
机构:埃默里大学
相关领域:模型结构改进、预训练、指令微调、奖励模型
地址:https://arxiv.org/pdf/2410.16251
119. 利用微调大模型提高医疗问答服务的准确性和可靠性
标题:Fine-Tuning LLMs for Reliable Medical Question-Answering Services
机构:悉尼大学、悉尼科技大学
相关领域:模型结构改进、微调技术
地址:https://arxiv.org/pdf/2410.16088
120. InternLM2.5-StepProver: 提升自动化定理证明的专家迭代方法在大规模LEAN问题中的应用
标题:InternLM2.5-StepProver: Advancing Automated Theorem Proving via Expert Iteration on Large-Scale LEAN Problems
相关领域:模型结构改进、预训练、指令微调、数据集构建
地址:https://arxiv.org/pdf/2410.15700
代码:https://github.com/InternLM/InternLM-Math; https://github.com/InternLM/InternLM-Math
121. Hallucination Detox:大模型训练中的敏感神经元丢弃策略(SeND)
标题:Hallucination Detox: Sensitive Neuron Dropout (SeND) for Large Language Model Training
机构:麦吉尔大学
相关领域:模型评估、模型结构改进
地址:https://arxiv.org/pdf/2410.15460
122. 非合作游戏的语言模型推理、记忆与微调方法
标题:Reasoning, Memorization, and Fine-Tuning Language Models for Non-Cooperative Games
机构:德克萨斯大学
相关领域:模型结构改进、预训练、指令微调
地址:https://arxiv.org/pdf/2410.14890
123. OpenMU: 您的音乐理解瑞士军刀
标题:OpenMU: Your Swiss Army Knife for Music Understanding
相关领域:模型结构改进
地址:https://arxiv.org/pdf/2410.15573
124. From Test-Taking to Test-Making:研究LLM成为常识评估项目的作者
标题:From Test-Taking to Test-Making: Examining LLM Authoring of Commonsense Assessment Items
机构:南加州大学
相关领域:自然语言处理
地址:https://arxiv.org/pdf/2410.14897
125. 跨文档事件关键信息抽取
标题:Cross-Document Event-Keyed Summarization
机构:罗切斯特大学、约翰霍普金斯大学
地址:https://arxiv.org/pdf/2410.14795
126. Pangea:面向39种语言的完全开放多模态大模型
标题:Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages
相关领域:多模态、多语言
地址:https://arxiv.org/pdf/2410.16153
127. PODTILE: 自动生成章节功能的Podcast Episode浏览辅助
标题:PODTILE: Facilitating Podcast Episode Browsing with Auto-generated Chapters
相关领域:模型结构和预训练
地址:https://arxiv.org/pdf/2410.16148
128. LMHaze:感知强度图像去雾与大规模多强度实雾数据集
标题:LMHaze: Intensity-aware Image Dehazing with a Large-scale Multi-intensity Real Haze Dataset
相关领域:数据集构建、模型结构改进
地址:https://arxiv.org/pdf/2410.16095
129. ViMoE:基于实证研究的视觉混合专家模型设计研究
标题:ViMoE: An Empirical Study of Designing Vision Mixture-of-Experts
相关领域:模型结构改进
地址:https://arxiv.org/pdf/2410.15732
130. Multi-IF:评估大模型在多轮和多语言指令下的表现
标题:Multi-IF: Benchmarking LLMs on Multi-Turn and Multilingual Instructions Following
相关领域:模型评估、数据集构建
地址:https://arxiv.org/pdf/2410.15553
131. Coarse-to-Fine Highlighting:减轻大模型中的知识幻觉
标题:Coarse-to-Fine Highlighting: Reducing Knowledge Hallucination in Large Language Models
相关领域:模型结构改进、大模型评估
地址:https://arxiv.org/pdf/2410.15116
132. 残差向量量化和KV硬件加速大规模语言模型缓存压缩
标题:Residual vector quantization for KV cache compression in large language model
相关领域:大规模语言模型
地址:https://arxiv.org/pdf/2410.15704
133. 游戏中的程序内容生成:关于新兴大模型集成的调查
标题:Procedural Content Generation in Games: A Survey with Insights on Emerging LLM Integration
相关领域:模型结构改进、预训练、指令微调、数据集构建
地址:https://arxiv.org/pdf/2410.15644
134. 一种大型视觉语言模型中的幻影现象综述
标题:A Survey of Hallucination in Large Visual Language Models
相关领域:模型结构改进、指令微调、评估指标、模型评估
地址:https://arxiv.org/pdf/2410.15359
135. 谁是卧底?指导LLMs在游戏中探索多视角团队战术
标题:Who is Undercover? Guiding LLMs to Explore Multi-Perspective Team Tactic in the Game
相关领域:模型蒸馏
地址:https://arxiv.org/pdf/2410.15311
136. 利用合成图像协变量和纵向数据评估预测模型的框架
标题:A Framework for Evaluating Predictive Models Using Synthetic Image Covariates and Longitudinal Data
相关领域:模型评估、数据集构建、多模态
地址:https://arxiv.org/pdf/2410.16177
137. 将大模型的解释性增加到30%,使用人工定义的重要区域
标题:Increasing Interpretability of Neural Networks By Approximating Human Visual Saliency
地址:https://arxiv.org/pdf/2410.16115
138. 惊人发现!均匀信息密度并非全部:预测长篇言语中的惊讶度轮廓
标题:Surprise! Uniform Information Density Isn't the Whole Story: Predicting Surprisal Contours in Long-form Discourse
相关领域:模型评估
地址:https://arxiv.org/pdf/2410.16062
139. Alchemy:通过符号变异增强定理证明能力
标题:Alchemy: Amplifying Theorem-Proving Capability through Symbolic Mutation
相关领域:数据集构建
地址:https://arxiv.org/pdf/2410.15748
140. 基于专业术语整合的高效LLM翻译方法
标题:Efficient Terminology Integration for LLM-based Translation in Specialized Domains
相关领域:模型结构改进、多模态
地址:https://arxiv.org/pdf/2410.15690
141. Less is More:针对迁移学习的中间任务参数高效选择
标题:Less is More: Parameter-Efficient Selection of Intermediate Tasks for Transfer Learning
相关领域:模型评估、任务迁移学习
地址:https://arxiv.org/pdf/2410.15148
142. 重叠多头自注意力改进视觉Transformer
标题:Improving Vision Transformers by Overlapping Heads in Multi-Head Self-Attention
相关领域:模型结构改进
地址:https://arxiv.org/pdf/2410.14874
143. 评估大模型回答一致性问题
标题:Evaluating Consistencies in LLM responses through a Semantic Clustering of Question Answering
相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态
地址:https://arxiv.org/pdf/2410.15440
144. 大模型真的掌握数学了吗?一项实证研究
标题:Do Large Language Models Truly Grasp Mathematics? An Empirical Exploration
相关领域:模型评估
地址:https://arxiv.org/pdf/2410.14979
145. 共同添加新知识到大模型中
标题:Collaboratively adding new knowledge to an LLM
相关领域:模型结构改进、预训练、序列学习
地址:https://arxiv.org/pdf/2410.14753
146. KKT条件训练的神经网络
标题:Karush-Kuhn-Tucker Condition-Trained Neural Networks (KKT Nets)
地址:https://arxiv.org/pdf/2410.15973
你觉得今天分享的论文哪篇at到了你?欢迎留言分享哦。