GPT4o商业微调真的融入了新知识？Wikipedia的质量如何？Fox-1技术报告....

文摘 2024-11-11 20:27 广东

前言：看论文就像是一次美食之旅，每一篇论文都是一道不同的菜肴。有些论文会让你大快朵颐，有些论文会让你欲罢不能，而有些论文则会让你咬牙切齿。但是别忘了，只有尝试了各种不同的菜肴，才能成为一个真正的“吃货”哦！

1. FineTuneBench：商业精细调整API能够如何融入LLMs中的新知识？

标题：FineTuneBench: How well do commercial fine-tuning APIs infuse knowledge into LLMs?

机构：斯坦福大学

相关领域：模型评估、LLM精细调整

作者：Eric Wu, Kevin Wu, James Zou

分析：这篇论文介绍了FineTuneBench，一个用来评估商业精细调整API能够有效地学习新知识和更新现有知识的效果的框架和数据集。研究分析了五个前沿LLM，包括GPT-4o和Gemini 1.5 Pro，在两种情况下（1）吸收新信息，如最新的新闻事件和新的人物资料，和（2）更新现有知识，如更新的医疗指南和技术框架。结果显示，所有模型在新信息吸收方面的有效性存在严重不足，平均适应准确性仅为37%。对于现有知识的更新，例如医学指南的更新，商业精细调整API的适应准确性甚至更低，为19%。因此，尽管GPT-4o mini在注入新知识和更新知识方面表现最好，但目前的商业精细调整服务在可靠地注入信息到常见应用场景方面存在重大不足。研究开放了FineTuneBench数据集。

地址：https://arxiv.org/pdf/2411.05059

代码：https://github.com/kevinwu23/StanfordFineTuneBench

2. Wikipedia的质量如何？

标题：How Good is Your Wikipedia?

机构：Google

相关领域：预训练、数据集构建

作者：Kushal Tatariya, Artur Kulmizev, Wessel Poelman

分析：这篇论文探讨了维基百科在非英语环境下的数据质量问题，通过各种质量过滤技术分析了其质量状况，包括高比例的一行文章和重复文章。研究表明，通过数据质量修剪可以有效地进行资源有效的训练，尤其对于低资源语言的模型训练效果很好。论文还提倡从寻求通用的数据质量定义转移到更基于语言和任务的具体质量定义上。

地址：https://arxiv.org/pdf/2411.05527

3. PhoneLM：基于原则预训练的高效小型语言模型家族

标题：PhoneLM:an Efficient and Capable Small Language Model Family through Principled Pre-training

机构：北京邮电大学

相关领域：模型结构改进、预训练

作者：Rongjie Yi, Xiang Li, Weikai Xie

分析：这篇论文提出了一种简单有效的设计小型语言模型（SLM）的原则，即在预训练之前进行（近）最优运行效率的架构搜索。根据这一原则，作者开发了PhoneLM SLM家族，实现了同类参数规模下最佳的能力效率权衡。此外，论文还公开了PhoneLM的代码、权重和训练数据集，以支持可复制性和透明度，并提供了微调版用于准确的Android意图调用和端到端的Android演示。

地址：https://arxiv.org/pdf/2411.05046

代码：https://github.com/UbiquitousLearning/PhoneLM

4. Fox-1技术报告

标题：Fox-1 Technical Report

机构：香港科技大学、伊利诺伊大学、Operainc

作者：Zijian Hu, Jipeng Zhang, Rui Pan

分析：这篇论文介绍了Fox-1系列小型语言模型，包括Fox-1-1.6B和Fox-1-1.6B-Instruct-v0.1。这些模型在3万亿的网络抓取文档数据上进行预训练，并使用50亿的指令跟随和多轮对话数据进行微调。为了提高预训练效率，Fox-1-1.6B模型引入了一种新颖的三级数据课程，覆盖所有训练数据的范围从2K到8K序列长度。在架构设计中，Fox-1具有更深的层结构、扩展的词汇表，并利用分组查询注意力(GQA),提供了与其它小型语言模型相比，更具性能和效率的架构。Fox-1在各种基准测试中的表现优于或与StableLM-2-1.6B、Gemma-2B、Qwen1.5-1.8B和OpenELM1.1B相当，同时具有竞争力的推理速度和吞吐量。模型权重已根据Apache 2.0许可证发布，该论文旨在推动LLMs的民主化，使其能够完全向整个开源社区开放。

地址：https://arxiv.org/pdf/2411.05281

5. Aioli: 一种统一的优化框架用于语言模型数据的混合

标题：Aioli: A Unified Optimization Framework for Language Model Data Mixing

相关领域：模型训练策略

作者：Mayee F. Chen, Michael Y. Hu, Nicholas Lourie

分析：本文研究了在训练语言模型时，根据不同数据类别（如法律、代码、数学）的混合比例来优化性能的问题。作者发现，尽管存在多种方法来确定最佳混合比例，包括通过训练周期拟合回归模型和在训练期间动态调整比例，但这些方法在平均测试困惑度方面并不一致地优于简单的分层抽样策略。本文统一了现有方法，通过标准化的优化框架分析它们。结果表明，所有方法都旨在通过一种特定的混合“法律”调整损失，并假设损失是混合比例的函数。然而，这些方法在实际应用中往往无法准确估计混合律的参数，导致性能不佳且不稳定。为了解决这一问题，作者提出了一个名为Aioli的新在线方法，该方法在训练过程中直接估计参数并动态调整比例。实验结果表明，Aioli在6个数据集上的平均测试困惑度比分层抽样降低了0.28点，而现有方法则只能达到更高的测试困惑度。在实际的训练场景中，在线方法可以随着训练的进行动态调整比例，进一步提升了效果。

地址：https://arxiv.org/pdf/2411.05735

6. Asterisk*: 简洁至上

标题：Asterisk*: Keep it Simple

相关领域：模型结构改进、模型蒸馏

作者：Andrew Semenov

分析：这篇论文介绍了一个基于GPT的简洁文本生成模型Asterisk。该模型采用极简的架构，仅有两层、两个注意力头和256个嵌入维度。通过从更大的预训练模型中进行知识蒸馏，论文探索了模型大小与性能之间的权衡，同时尽量降低计算和内存要求。该模型主要针对分类任务进行评估和优化，实验结果表明，它在各种下游应用的零样本分类中表现出适中的性能。通过额外配置，该模型在特定分类任务上的性能可以接近甚至超过更大架构的性能。

地址：https://arxiv.org/pdf/2411.05691

7. 音频生成：根据所见所闻，视频到语音转换通过文字

标题：Tell What You Hear From What You See -- Video to Audio Generation Through Text

相关领域：模型结构改进、预训练、指令微调

作者：Xiulong Liu, Kun Su, Eli Shlizerman

分析：该论文提出了一种多模态生成框架VATT，该框架能将视频与文字提示相结合，生成音频并提供可能的语音描述。它既可以控制通过文字补充的视觉信息的音频生成过程，又可以依据视频生成相应的音频描述。实验表明，VATT在提供音频描述时有更优的性能，并且用户更喜欢VATT生成的音频。

地址：https://arxiv.org/pdf/2411.05679

8. 控制大模型的grokking行为

标题：Controlling Grokking with Nonlinearity and Data Symmetry

机构：滑铁卢大学

作者：Ahmed Salah, David Yevick

分析：这篇论文展示了如何通过修改神经网络中模数P的激活函数配置和模型深度宽度来控制模数运算中的grokking行为。作者发现，当非线性增强时，权重的偶数主成分投影与奇数主成分投影之间的模式变得更加均匀。这些模式可以用于在模数非质数的情况下分解P。此外，作者还从层权重的熵推导出了网络的泛化能力度量，并发现非线性程度与最后一层神经元权重的局部熵之间的相关性。

地址：https://arxiv.org/pdf/2411.05353

9. Recycled Attention：长上下文语言模型的有效推理

标题：Recycled Attention: Efficient inference for long-context language models

机构：纽约大学、康奈尔大学、德克萨斯大学

相关领域：模型结构改进

作者：Fangyuan Xu, Tanya Goyal, Eunsol Choi

分析：本文提出了一种名为Recycled Attention的方法，它通过交替使用全上下文注意力和对输入 tokens 的部分注意来减少计算开销，特别是在生成长序列时。这种方法通过 '回收' 前一个 token 的注意模式，仅对最频繁出现的 K 个 tokens 进行注意，从而减少数据移动和注意计算的成本。这种方法在评估长期上下文能力以及长上下文语言模型的任务上取得了显著的性能提升和速度改进。

地址：https://arxiv.org/pdf/2411.05787

10. Video RWKV：基于RWKV的视频动作识别

标题：Video RWKV:Video Action Recognition Based RWKV

机构：东北大学

相关领域：模型结构改进

作者：Zhuowen Yin, Chengru Li, Xingbo Dong

分析：该工作提出了一种LSTM CrossRWKV(LCR)框架，用于学习视频中的空间时间表示，以解决现有的视频理解方法如CNNs和Transfomers所面临的高计算成本和长距离依赖问题。框架通过一个新颖的交叉RWKV门来促进当前帧边缘信息和过去特征之间的交互，增强了对视频主体特征的关注。通过一个增强的LSTM递归执行机制，LCR有效地捕获了空间和时间特征，并存储了长期记忆。

地址：https://arxiv.org/pdf/2411.05636

11. 基于长令牌优先的字节对编码：改善大模型的策略

标题：LBPE: Long-token-first Tokenization to Improve Large Language Models

机构：清华大学、北京航空航天大学

相关领域：模型结构改进

作者：Haoran Lian, Yizhe Xiong, Zijia Lin

分析：论文主要介绍了长令牌优先的字节对编码（LBPE）策略，以解决大型语言模型（LLM）在处理长令牌时的不平衡学习问题。该策略根据令牌的长度排名进行编码，赋予长令牌更高的优先级，从而平滑长短令牌之间的频率差异，减少学习不平衡现象。实验证明，LBPE策略在各种语言建模任务上的表现均优于传统的字节对编码（BPE）策略。

地址：https://arxiv.org/pdf/2411.05504

12. CodeLutra：通过偏好引导细化提升LLM代码生成能力

标题：CodeLutra: Boosting LLM Code Generation via Preference-Guided Refinement

机构：AI2、麻省理工学院

相关领域：模型结构改进、指令微调

作者：Leitian Tao, Xiang Chen, Tong Yu

分析：论文提出了一种名为CodeLutra的新型框架，旨在增强性能较低的语言模型的代码生成能力。该框架利用成功和失败的代码生成尝试，通过迭代偏好学习机制来比较正确和错误的解决方案，并最大化正确代码的可能性。CodeLutra使得较小的语言模型能够在各种代码生成任务中匹配或超越GPT-4的性能，而无需依赖大量外部数据集或更大的辅助模型。

地址：https://arxiv.org/pdf/2411.05199

13. SciDQA：基于科学论文的深度阅读理解数据集

标题：SciDQA: A Deep Reading Comprehension Dataset over Scientific Papers

机构：艾伦AI研究所

相关领域：数据集构建、模型评估

作者：Shruti Singh, Nandan Sarkar, Arman Cohan

分析：这篇论文介绍了一个名为SciDQA的科学论文阅读理解数据集。该数据集由专家评审的问题和论文作者提供的答案组成，旨在挑战大型语言模型对科学文章的深度理解。数据集通过过滤低质量问题、去语境化内容、跟踪不同版本的源文件以及融入参考文献进行多文档问答，提高了质量。该数据集的问题需要跨越图表、表格、公式、附录和补充材料等元素进行推理，并要求跨文档推理。论文还评估了不同配置的开源和专有大型语言模型在生成相关和事实性回答方面的能力。

地址：https://arxiv.org/pdf/2411.05338

14. SpecHub：多草稿推测性解码的证明加速

标题：SpecHub: Provable Acceleration to Multi-Draft Speculative Decoding

机构：利哈伊大学、马里兰大学、三星美国研究院

相关领域：模型结构改进

作者：Ryan Sun, Tianyi Zhou, Xun Chen

分析：这篇论文提出了一种名为SpecHub的新方法，用于加速大型语言模型的多草稿推测性解码过程。这种方法通过简化最优传输与会员成本问题，使用线性规划模型和稀疏联合分布来提高解码的接受率，并同时降低了计算复杂度。实验表明，SpecHub在每步生成的token数量上比传统方法有显著提升，从而加速了自然语言处理任务。

地址：https://arxiv.org/pdf/2411.05289

代码：https://github.com/MasterGodzilla/Speculative_decoding_OT

15. 训练目标驱动跨数据集表示相似性的一致性研究

标题：Training objective drives the consistency of representational similarity across datasets

机构：Anthropic、Google DeepMind

相关领域：模型评估、多模态

作者：Laure Ciernik, Lorenz Linhardt, Marco Morik

分析：这篇论文研究不同训练目标对模型表示一致性及跨数据集表现的影响。论文发现，训练目标函数是决定模型表示相似性一致性的关键因素。自监督视觉模型的表示学习在跨数据集情境下有更好的泛化性能。此外，模型行为与其任务表现的联系在不同数据集中有差异，特别是在单一领域数据集中表现尤为明显。该研究为跨数据集模型表示相似性的测量提供了系统框架，并揭示了任务行为与模型表示之间的联系。

地址：https://arxiv.org/pdf/2411.05561

16. 硬件和软件平台推理

标题：Hardware and Software Platform Inference

机构：剑桥大学、帝国理工学院、Google DeepMind

相关领域：模型结构改进、奖励模型、RLHF、模型评估

作者：Cheng Zhang, Hanna Foerster, Robert D. Mullins

分析：这篇论文提出了一种名为硬件和软件平台推理（HSPI）的方法，该方法可以仅根据机器学习的输入输出行为识别出模型背后的GPU架构和软件配置。这种方法借助不同GPU架构和编译器之间的差异，区分不同类型的GPU和软件栈。通过分析模型输出中的数值模式，论文提出了一种分类框架，可以准确识别用于模型推理的GPU类型及其底层软件设置。实验结果表明，即使在黑箱模型的情况下，也能区分不同类型的GPU，且准确率高达83.9%至100%。这种方法解决了用户无法验证所购买的大型语言模型推理服务真实性的问题，模型提供商可能使用的模型与广告宣传的有所差异，以适应更便宜的硬件。

地址：https://arxiv.org/pdf/2411.05197

17. Transformer 在线学习对抗鲁棒性在线性回归中的研究

标题：Adversarial Robustness of In-Context Learning in Transformers for Linear Regression

机构：剑桥大学、Google、Google DeepMind

相关领域：线性回归, 鲁棒性, Transformer, 劫持攻击

作者：Usman Anwar, Johannes Von Oswald, Louis Kirsch

分析：这篇论文研究了 Transformer 在线学习在面对劫持攻击时的脆弱性，特别是针对线性回归任务的劫持攻击。作者首先证明了单层线性 Transformer 可以实现梯度下降在线学习，但它们对劫持攻击不具有鲁棒性。通过实验，作者发现劫持攻击可以在单层线性 Transformer 上成功，但在 GPT-2 架构的更复杂的 Transformer 上并没有成功。然而，作者展示了通过基于梯度的 adversarial attacks，这些 Transformer 可以被劫持。此外，实验还表明，通过 adversarial training，Transformer 可以增强对劫持攻击的鲁棒性。作者还研究了劫持攻击在不同规模 Transformer 之间的转移性，发现这种转移性在小型到大型之间的 Transformer 之间很强，但在其他情况下很弱。

地址：https://arxiv.org/pdf/2411.05189

18. Audiobox TTA-RAG：通过检索增强生成，改进零样本和少样本文本到音频的转换

标题：Audiobox TTA-RAG: Improving Zero-Shot and Few-Shot Text-To-Audio with Retrieval-Augmented Generation

机构：德克萨斯大学、Meta AI

相关领域：模型结构改进、多模态

作者：Mu Yang, Bowen Shi, Matthew Le

分析：这篇论文主要研究了文本到音频转换技术在零样本和少样本场景下的性能问题。针对现有模型在未见或罕见音频事件生成时质量下降的挑战，提出了基于检索增强生成（RAG）的音频盒TTA-RAG方法。该方法通过引入检索机制，利用检索到的音频样本作为附加条件信息，提高了模型的生成能力。同时，论文还介绍了模型的实现细节、实验评估和不同检索方法和数据源的影响性分析。

地址：https://arxiv.org/pdf/2411.05141

19. STAND-Guard：小型任务适应性内容审核模型

标题：STAND-Guard: A Small Task-Adaptive Content Moderation Model

机构：微软、哈佛大学、北京大学

相关领域：模型评估、指令微调

作者：Minjia Wang, Pingping Lin, Siqi Cai

分析：这篇论文提出了一种小型任务适应性内容审核模型STAND-Guard，旨在准确适应新型或定制化的内容审核任务，而无需大量模型调整。它通过在不同内容审核任务上进行指令微调，展示了小型语言模型的强大潜力，特别是在未见过的内容审核任务上。同时，论文还研究了训练任务和模型规模对跨任务精细调整机制的功效的影响。

地址：https://arxiv.org/pdf/2411.05214

20. 基于Q学习的语言模型监督微调研究

标题：Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning

机构：UC伯克利分校

相关领域：预训练、模型结构改进（通过结合强化学习）、多模态（机器人操作）

作者：Joey Hong, Anca Dragan, Sergey Levine

分析：这篇论文提出了一种新的离线强化学习算法，解决了大规模语言模型在多轮对话和机器人控制等领域的挑战。算法通过修改监督微调（SFT）问题，将Q学习应用于语言模型，有效结合了预训练和强化学习微调。在多种任务上进行了验证，包括自然语言对话和机器人图像操作等。

地址：https://arxiv.org/pdf/2411.05193

21. LLM-PySC2：用于大模型的星际争霸II学习环境

标题：LLM-PySC2: Starcraft II learning environment for Large Language Models

机构：国防科技大学、Deepmind

相关领域：模型评估、多模态

作者：Zongyuan Li, Yanan Ni, Runnan Qi

分析：论文介绍了一种新的环境LLM-PySC2，这是一个基于DeepMind的星际争霸II学习环境平台，用于开发基于大型语言模型的决策方法。该环境首次提供完整的星际争霸II行动空间、多模式观察接口和结构化游戏知识数据库，可与各种LLM无缝连接，促进LLM决策研究。论文还开发了一个LLM协作框架，支持多智能体并发查询和通信。实验表明，LLM-PySC2环境适应于星际争霸多智能体挑战任务组，并提供八个以宏观决策能力为重点的新场景。同时评估了九种主流LLM，发现足够的参数对于LLM决策至关重要，而提高推理能力并不直接带来更好的决策结果。最终期望LLM-PySC2环境能促进LLM学习方法的研究，帮助LLM更好地适应任务场景。

地址：https://arxiv.org/pdf/2411.05348

22. Dynamic-SUPERB Phase-2：用于测量口语模型能力的协作扩展基准测试

标题：Dynamic-SUPERB Phase-2: A Collaboratively Expanding Benchmark for Measuring the Capabilities of Spoken Language Models with 180 Tasks

机构：英伟达、南洋理工大学、中国人民大学

相关领域：模型评估、多模态

作者：Chien-yu Huang, Wei-Chih Chen, Shu-wen Yang

分析：这篇论文提出了一种新的开放和不断发展的基准测试方法，用于全面评估基于指令的通用语音模型。该基准测试名为Dynamic-SUPERB Phase-2，是对第一代Dynamic-SUPERB的扩展，增加了全球研究社区合作贡献的125个新任务，总数达到180个任务，成为语音和音频评估中最大的基准测试。论文介绍了该基准测试的设计原理、构建方法和评估结果。该基准测试通过引入回归和序列生成等新型多样化任务，拓宽了评估能力，涵盖语音、音乐和环保音频等领域。评估结果显示，没有模型能够在所有任务上表现良好。论文还提到了几个表现较好的模型，并指出了当前模型仍需要进一步创新才能处理更广泛的任务。论文的价值在于为口语模型提供了一个全面的评估框架，有助于推动口语处理技术的发展。

地址：https://arxiv.org/pdf/2411.05361

23. WorkflowLLM：增强大模型的流程编排能力

标题：WorkflowLLM: Enhancing Workflow Orchestration Capability of Large Language Models

机构：清华大学、武汉大学、中国人民大学

相关领域：数据集构建、大模型

作者：Shengda Fan, Xin Cong, Yuepeng Fu

分析：论文提出了一种基于数据中心的框架WorkflowLLM，旨在提高大型语言模型在流程编排方面的能力。该框架构建了一个大规模微调数据集WorkflowBench，包含多种应用程序的API数据。论文还介绍了数据收集、查询扩展和流程生成等关键技术。实验表明，基于WorkflowBench训练的语言模型WorkflowLlama具有较强的流程编排能力，并在未见过的API上展现出良好的泛化性能。

地址：https://arxiv.org/pdf/2411.05451

代码：https://github.com/OpenBMB/WorkflowLLM

24. 视频Transformers的快速预处理方法

标题：Don't Look Twice: Faster Video Transformers with Run-Length Tokenization

机构：卡内基梅隆大学

相关领域：模型结构改进、预训练

作者：Rohan Choudhury, Guanglei Zhu, Sihan Liu

分析：该论文提出了一种名为Run-Length Tokenization(RLT)的方法，用于加速视频Transformers的训练过程。传统的去除冗余信息的方法效率低下或者需要针对不同数据集进行调整。而RLT通过在模型推理之前寻找并移除重复出现的一段时间内的片段，然后用一个单一的片段和位置编码来表示新的长度，从而实现高效且无需额外调节的目标。此外，RLT无需训练即可工作，进一步提高了模型的吞吐量。实验结果表明，使用RLT可以显著提高训练速度，减少30%的微调时间，同时保持基线模型的性能。

地址：https://arxiv.org/pdf/2411.05222

代码：https://rccchoudhury.github.io/projects/rlt/

25. 图神经网络在带标签图上的泛化、表达性和普遍性分析

标题：Generalization, Expressivity, and Universality of Graph Neural Networks on Attributed Graphs

机构：麻省理工学院、慕尼黑工业大学

作者：Levi Rauchwerger, Stefanie Jegelka, Ron Levie

分析：这篇论文主要研究了带有标签图的图神经网络的泛化、表达性和普遍性。为此，该论文提出了度量所有带有标签图的图神经网络的伪度量，这些度量描述了图神经网络对图形结构的细粒度表达能力。伪度量通过计算计算树之间的层次化最优运输来计算带有标签图的结构相似性。该论文的工作扩展并统一了之前的方法，这些方法要么只针对无标签图，要么只能保证图神经网络能够分开遥远地在度量上距离的带有标签图对，要么只能保证图神经网络能够分开带有标签图对，但图的空间在这些度量下不是相对紧致的，这阻碍了通用逼近和通用性分析。

地址：https://arxiv.org/pdf/2411.05464

26. ZipNN：神经网络的无损压缩技术

标题：ZipNN: Lossless Compression for AI Models

机构：波士顿大学、IBM研究院、特拉维夫大学

相关领域：模型蒸馏

作者：Moshik Hershcovitch, Andrew Wood, Leshem Choshen

分析：这篇论文介绍了一种针对神经网络模型的无损压缩技术ZipNN。随着模型规模的增长和部署规模的扩大，模型的大小给基础设施带来了负担，需要更多的网络和存储来容纳这些模型。论文通过采用无损压缩技术，能够在保持模型完整性和准确性的前提下，显著减少模型的大小。研究发现，这种技术可以节省模型大小高达50%，提高压缩和解压缩速度。这对于从大型模型中心（如Hugging Face）下载模型时节省网络流量非常有价值。

地址：https://arxiv.org/pdf/2411.05239

27. 逆向转换学习：从演示中学习动态

标题：Inverse Transition Learning: Learning Dynamics from Demonstrations

机构：哈佛大学、帝国理工学院

相关领域：模型结构改进、强化学习

作者：Leo Benac, Abhishek Sharma, Sonali Parbhoo

分析：这篇论文考虑了在基于模型的离线强化学习中，从近似的专家轨迹估计转换动态的问题。开发了一种基于约束的逆向转换学习方法，将专家轨迹的有限覆盖视为特征，利用专家近似最优的事实来估计转换动态。将约束整合到贝叶斯方法中，在合成环境和真实医疗场景（如重症监护室患者管理低血压）中都取得了显著的成绩改进。

地址：https://arxiv.org/pdf/2411.05174

28. 大模型知识蒸馏的效率提升：大规模文本分类的性能引导

标题：Performance-Guided LLM Knowledge Distillation for Efficient Text Classification at Scale

机构：Amazon

相关领域：模型蒸馏

作者：Flavio Di Palo, Prateek Singhi, Bilal Fadlallah

分析：本文针对大语言模型在高成本推理时间的问题，提出了性能引导知识蒸馏（PGKD）方法，旨在为生产文本分类应用提供一种高效、低成本解决方案。PGKD通过教师-学生知识蒸馏技术，将大语言模型的知识迁移到小型、特定任务的模型中。该方法采用一种循环、性能感知的策略，适用于工业文本分类中的大规模多类别、稀疏标注数据集，并在多个多类别分类数据集上优于传统的BERT-base模型。性能评估显示，使用PGKD微调的模型在推理任务上的速度可达到大语言模型的130倍，成本降低了25倍。此外，PGKD框架的通用性使得它在语言生成等其它大语言模型蒸馏任务中也具有应用潜力。

地址：https://arxiv.org/pdf/2411.05045

29. 学习肽自组装的规则：通过大模型进行数据挖掘

标题：Learning the rules of peptide self-assembly through data mining with large language models

机构：剑桥大学、麻省理工学院

相关领域：模型结构改进、预训练、指令微调、奖励模型

作者：Zhenze Yang, Sarah K. Yorke, Tuomas P. J. Knowles

分析：本研究通过人工专家处理和大型语言模型的文献挖掘，整理了一个肽组装数据库。该论文收集了超过1000条实验数据，涵盖肽序列、实验条件以及相应的组装阶段。利用这些数据，训练并评估了机器学习模型，证明了其在肽组装阶段分类上的高准确性(>80%)和效率。此外，该论文还对预训练的大型语言模型进行了微调，以从学术出版物中提取信息，其性能明显优于预训练模型。这一工作流程可以在探索潜在的自组装肽候选物时提高效率，引导实验工作，同时加深该论文对调控肽自组装机制的理解。这对于各种应用(如传感、催化和生物材料)都具有潜在价值。

地址：https://arxiv.org/pdf/2411.05421

30. 语言模型消歧词义选择

标题：Using Language Models to Disambiguate Lexical Choices in Translation

机构：麻省理工学院

作者：Josh Barua, Sanjay Subramanian, Kayo Yin

分析：在翻译中，源语言的一个概念可以有多个目标语言中的不同表示。词义选择任务需要利用上下文来确定哪个变异体最适合源文本。该论文与9种语言的母语使用者合作，创建了DTAiLS数据集，包含1377句对，翻译语言从英语到其他语言时出现概念变异。该论文评估了最近的语言模型和神经机器翻译系统在DTAiLS上的表现，表现最好的模型GPT-4在各种语言上的正确率达到67-85%。最后，该论文使用语言模型生成了描述目标语言概念变异的英语规则。为较弱的模型提供高质量词义规则可以显著提高准确率，在某些情况下甚至达到或超过GPT-4的性能。

地址：https://arxiv.org/pdf/2411.05781

31. 解析新闻文章中的源信息组合

标题：Explaining Mixtures of Sources in News Articles

机构：南加州大学、斯坦福大学、UC洛杉矶分校

相关领域：模型评估、数据集构建

地址：https://arxiv.org/pdf/2411.05192

32. FMEA Builder：用于设备维护的专家指导文本生成

标题：FMEA Builder: Expert Guided Text Generation for Equipment Maintenance

机构：IBM研究院

相关领域：模型结构改进、指令微调

地址：https://arxiv.org/pdf/2411.05054

33. 基于联邦学习模式的IPMN风险评估

标题：IPMN Risk Assessment under Federated Learning Paradigm

机构：英伟达、西北大学、纽约大学

相关领域：模型评估、数据集构建

地址：https://arxiv.org/pdf/2411.05697

34. Palermo: 使用协议-硬件协同设计改进 Oblivious RAM 性能

标题：Palermo: Improving the Performance of Oblivious Memory using Protocol-Hardware Co-Design

机构：清华大学、密歇根大学、华盛顿大学

地址：https://arxiv.org/pdf/2411.05400

35. 将代码混合的短信文本翻译成英语

标题：What talking you?: Translating Code-Mixed Messaging Texts to English

机构：卡内基梅隆大学

相关领域：模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

地址：https://arxiv.org/pdf/2411.05253

代码：https://github.com/luoqichan/singlish

36. 数据网关的十项原则

标题：Ten Pillars for Data Meshes

机构：哈佛大学、国家卫生研究院

地址：https://arxiv.org/pdf/2411.05248

37. Leave-One-Variable-Out方法验证因果发现的交叉有效性

标题：Cross-validating causal discovery via Leave-One-Variable-Out

机构：Amazon、慕尼黑工业大学、卡尔斯鲁厄理工学院

相关领域：模型评估

地址：https://arxiv.org/pdf/2411.05625

38. 分布式联邦学习下的网络 Expectation-Maximization 算法用于高斯混合模型

标题：Network EM Algorithm for Gaussian Mixture Model in Decentralized Federated Learning

机构：北京大学、上海财经大学

相关领域：模型结构改进、分布式学习、数据异构处理、高斯混合模型

地址：https://arxiv.org/pdf/2411.05591

39. StdGEN: 从单张图片生成语义分解的高质量3D角色

标题：StdGEN: Semantic-Decomposed 3D Character Generation from Single Images

机构：清华大学、腾讯AI实验室、北京航空航天大学

相关领域：大模型

地址：https://arxiv.org/pdf/2411.05738

40. 文本到图像扩散的终身个性化定制研究

标题：Towards Lifelong Few-Shot Customization of Text-to-Image Diffusion

机构：南洋理工大学

相关领域：模型结构改进、模型蒸馏

地址：https://arxiv.org/pdf/2411.05544

41. DQC1模型下估算关联函数的计算复杂性研究

标题：DQC1-hardness of estimating correlation functions

机构：剑桥大学、牛津大学

相关领域：模型评估

地址：https://arxiv.org/pdf/2411.05208

42. Alopex：基于LLM技术的即时语音功能调用框架的设计与实现

标题：Alopex: A Computational Framework for Enabling On-Device Function Calls with LLMs

机构：香港科技大学、伊利诺伊大学、Operainc

相关领域：模型结构改进、指令微调

地址：https://arxiv.org/pdf/2411.05209

43. StoryExplorer：文本叙事故事线生成的可视化框架

标题：StoryExplorer: A Visualization Framework for Storyline Generation of Textual Narratives

机构：浙江大学、新加坡管理大学

地址：https://arxiv.org/pdf/2411.05435

44. Exploring the Alignment Landscape：LLM与蛋白质表示中的几何深度模型

标题：Exploring the Alignment Landscape: LLMs and Geometric Deep Models in Protein Representation

机构：西北大学、匹兹堡大学、密歇根州立大学

相关领域：多模态、模型结构改进（结合几何深度模型）

地址：https://arxiv.org/pdf/2411.05316

代码：https://github.com/Tizzzzy/LLM-GDM-alignment

45. 基于无OCR文档理解的分层视觉特征聚合框架

标题：Hierarchical Visual Feature Aggregation for OCR-Free Document Understanding

机构：首尔国立大学

相关领域：模型结构改进、多模态

地址：https://arxiv.org/pdf/2411.05254

46. From Word Vectors to Multimodal Embeddings：大模型的技术、应用和未来发展方向

标题：From Word Vectors to Multimodal Embeddings: Techniques, Applications, and Future Directions For Large Language Models

机构：普渡大学、康奈尔大学、德克萨斯大学

相关领域：模型结构改进、预训练、多模态

地址：https://arxiv.org/pdf/2411.05036

47. 新词表达的新概念，以及其通过词汇化逐步形成的过程.

标题：Word reuse and combination support efficient communication of emerging concepts

机构：多伦多大学、墨尔本大学

相关领域：自然语言处理

地址：https://arxiv.org/pdf/2411.05379

48. 视觉语言模型端到端导航：空间推理转化为问答

标题：End-to-End Navigation with Vision Language Models: Transforming Spatial Reasoning into Question-Answering

机构：宾夕法尼亚大学

相关领域：模型结构改进、多模态

地址：https://arxiv.org/pdf/2411.05755

代码：https://jirl-upenn.github.io/VLMnav/

49. PentestAgent：将大模型集成到自动化渗透测试中

标题：PentestAgent: Incorporating LLM Agents to Automated Penetration Testing

机构：西北大学

相关领域：模型结构改进、多模态

地址：https://arxiv.org/pdf/2411.05185

50. GazeSearch: 放射学发现搜索基准

标题：GazeSearch: Radiology Findings Search Benchmark

机构：休斯顿大学

相关领域：数据集构建、模型评估

地址：https://arxiv.org/pdf/2411.05780

51. LightVA：基于LLM的智能任务规划视觉分析框架

标题：LightVA: Lightweight Visual Analytics with LLM Agent-Based Task Planning and Execution

机构：牛津大学、香港城市大学

相关领域：模型结构改进、预训练、指令微调

地址：https://arxiv.org/pdf/2411.05651

52. SM3-Text-to-Query：基于合成患者数据的跨多模型医疗文本查询基准测试

标题：SM3-Text-to-Query: Synthetic Multi-Model Medical Text-to-Query Benchmark

机构：科隆莱茵应用技术大学

相关领域：模型评估、数据集构建

地址：https://arxiv.org/pdf/2411.05521

53. 不同类不平衡：方法和实证见解

标题：Differential Privacy Under Class Imbalance: Methods and Empirical Insights

机构：纽约大学、哥伦比亚大学

相关领域：隐私、不平衡学习、数据增强、合成数据

地址：https://arxiv.org/pdf/2411.05733

54. MicroScopiQ:加速基础模型量化的新颖方法

标题：MicroScopiQ: Accelerating Foundational Models through Outlier-Aware Microscaling Quantization

机构：乔治亚理工学院

地址：https://arxiv.org/pdf/2411.05282

55. Discern-XR:一个Metaverse网络流量在线分类器

标题：Discern-XR: An Online Classifier for Metaverse Network Traffic

机构：利哈伊大学

地址：https://arxiv.org/pdf/2411.05184

56. AcceLLM: 加速大模型推理，通过冗余数据利用实现负载平衡与数据本地性

标题：AcceLLM: Accelerating LLM Inference using Redundancy for Load Balancing and Data Locality

相关领域：模型评估

地址：https://arxiv.org/pdf/2411.05555

57. 语言模型进行语言模型水印技术的研究

标题：Watermarking Language Models through Language Models

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2411.05091

58. 解决7x7全杀围棋问题与势谱数据库

标题：Solving 7x7 Killall-Go with Seki Database

机构：国立阳明交通大学

地址：https://arxiv.org/pdf/2411.05565

59. GPT-4o创建Web档案元数据的挑战与见解

标题：Web Archives Metadata Generation with GPT-4o: Challenges and Insights

相关领域：模型评估、数据集构建

地址：https://arxiv.org/pdf/2411.05409

代码：https://github.com/masamune-prog/warc2summary

60. CHATTER：用于叙事理解的角色属性数据集

标题：CHATTER: A Character Attribution Dataset for Narrative Understanding

机构：南加州大学

相关领域：数据集构建、模型评估

地址：https://arxiv.org/pdf/2411.05227

61. FinDVer：长金融文档混合内容中的可解释声明验证

标题：FinDVer: Explainable Claim Verification over Long and Hybrid-Content Financial Documents

相关领域：模型评估、数据集构建

地址：https://arxiv.org/pdf/2411.05764

62. WeatherGFM: 通过情境学习学习天气通才基础模型

标题：WeatherGFM: Learning A Weather Generalist Foundation Model via In-context Learning

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2411.05420

63. ZOPP：面向自动驾驶的零样本离线全景感知框架

标题：ZOPP: A Framework of Zero-shot Offboard Panoptic Perception for Autonomous Driving

相关领域：模型结构改进、多模态

地址：https://arxiv.org/pdf/2411.05311

64. GPUVM：GPU驱动的统一虚拟内存

标题：GPUVM: GPU-driven Unified Virtual Memory

地址：https://arxiv.org/pdf/2411.05309

65. GPT语义缓存: 通过语义嵌入缓存减少LLM成本和延迟

标题：GPT Semantic Cache: Reducing LLM Costs and Latency via Semantic Embedding Caching

相关领域：模型蒸馏

地址：https://arxiv.org/pdf/2411.05276

66. Poze：数据约束下的运动技巧反馈

标题：Poze: Sports Technique Feedback under Data Constraints

相关领域：模型评估

地址：https://arxiv.org/pdf/2411.05734

67. 混淆作为指令解耦

标题：Obfuscation as Instruction Decorrelation

地址：https://arxiv.org/pdf/2411.05570

68. Abstract2Appendix：学术评论增强大模型的长文阅读能力

标题：Abstract2Appendix: Academic Reviews Enhance LLM Long-Context Capabilities

相关领域：模型评估、数据集构建（学术评论数据）

地址：https://arxiv.org/pdf/2411.05232

69. Unmasking the Limits of Large Language Models：通过MskQA和MskCal系统地评估掩码文本处理能力

标题：Unmasking the Limits of Large Language Models: A Systematic Evaluation of Masked Text Processing Ability through MskQA and MskCal

相关领域：模型结构改进、预训练、指令微调、奖励模型

地址：https://arxiv.org/pdf/2411.05665

70. 间隙填充 prompting 增强代码辅助数学推理

标题：Gap-Filling Prompting Enhances Code-Assisted Mathematical Reasoning

相关领域：模型结构改进、指令微调

地址：https://arxiv.org/pdf/2411.05407

71. 评估GPT-4在数学考试手写答案评分中的表现

标题：Evaluating GPT-4 at Grading Handwritten Solutions in Math Exams

相关领域：模型结构改进、预训练、指令微调、奖励模型

地址：https://arxiv.org/pdf/2411.05231

看论文是一天，不看论文也是一天，为什么不每天充实下自己呢^_^^_^

http://mp.weixin.qq.com/s?__biz=Mzg5OTkwMDY4Mw==&mid=2247486535&idx=1&sn=21af0d20e2356f1e82550bd399813f02

AI for Research

每天分享最新最热的Arxiv论文、一起来关注大模型、AIGC、AGI