语言模型操作系统的压缩机检索器架构研究 | OLMoE:开放专家混合语言模型 | 统一端到端模型实现OCR 2.0

文摘   2024-09-04 23:50   广东  

前言:平淡无奇的一天又来了,今天要分享的内容主要是关于大模型、多模态、模型结构改进的,喜欢的小伙伴赶紧去阅读相关论文吧。


1. 高效长语境泛化的大模型训练策略研究

  标题:LongRecipe: Recipe for Efficient Long Context Generalization in Large Languge Models

  机构:腾讯、南京大学、多伦多大学

  相关领域:模型结构改进

  作者:Zhiyuan Hu,  Yuliang Liu,  Jinman Zhao

  分析:本文提出了一种高效的大语言模型训练策略——LongRecipe,旨在解决大型语言模型在处理长语境任务时的有效上下文窗口大小限制问题。通过影响深远的令牌分析、位置索引转换和训练优化策略,LongRecipe能够模拟长序列输入并保持训练效率,从而显著提高模型对长距离依赖关系的理解。实验结果表明,LongRecipe可以在仅使用目标上下文窗口大小30%的情况下利用长序列,与全序列训练相比,计算训练资源减少了85%以上。此外,LongRecipe还保留了原始大型语言模型在一般任务上的能力。

  地址:https://arxiv.org/pdf/2409.00509

  代码:https://github.com/zhiyuanhubj/LongRecipe


2. OLMoE:开放专家混合语言模型

  标题:OLMoE: Open Mixture-of-Experts Language Models

  机构:华盛顿大学、普林斯顿大学、艾伦AI研究所

  相关领域:模型结构改进、预训练、指令微调

  作者:Niklas Muennighoff,  Luca Soldaini,  Dirk Groeneveld

  分析:论文介绍了一种全新的开放专家混合(OLMoE)语言模型,该模型利用稀疏的专家混合(MoE)技术。OLMoE-1B-7B模型拥有7亿参数,但每个输入令牌只使用1亿参数。该模型在5万亿令牌上进行预训练,并进一步适应以创建OLMoE-1B-7B-Instruct。模型超越了类似活跃参数的所有可用模型,甚至超越了更大的模型,如Llama2-13B-Chat和DeepSeekMoE-16B。论文还介绍了MoE训练的各种实验,分析了模型路由的高专业化,并公开了模型权重、训练数据、代码和日志等所有工作方面。

  地址:https://arxiv.org/pdf/2409.02060


3. General OCR Theory:通过统一端到端模型实现OCR 2.0

  标题:General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model

  机构:旷视科技、清华大学、中国科学院大学

  相关领域:模型结构改进、多模态

  作者:Haoran Wei,  Chenglong Liu,  Jinyue Chen

  分析:这篇论文提出了一种通用OCR理论以及一种优秀的模型GOT,以促进OCR 2.0的到来。GOT模型是一个统一、简洁、端到端的模型,包含高压缩编码器与长上下文解码器,能够处理各种OCR任务,如文本识别、公式识别等。该模型具有交互OCR功能,支持多种输入风格,并能生成普通或格式化结果。此外,论文还介绍了动态分辨率和多页OCR技术,以改善GOT模型的实用性。

  地址:https://arxiv.org/pdf/2409.01704


4. S^3c-Math:自发步骤级自我校正使大模型成为更好的数学推理者

  标题:S^3c-Math: Spontaneous Step-level Self-correction Makes Large Language Models Better Mathematical Reasoners

  机构:浙江大学、北京大学、复旦大学

  相关领域:模型结构改进

  作者:Yuchen Yan,  Jin Jiang,  Yang Liu

  分析:这篇论文提出了一种名为S^3c-Math的数学大型语言模型系列,这些模型具备在推理过程中自发进行步骤级自我校正的能力。通过检测并纠正错误,它们可以更好地进行数学推理。该研究通过采用步骤级采样方法构建自我校正数据,并实现了使用这些数据的训练策略,以此赋予大型语言模型自发步骤级自我校正的能力。这种能力已经应用于多种基础大型语言模型中,并且在GSM8K、MATH等多个数学基准测试中取得了显著进展。这是首次引入大型语言模型在数学推理中的自发步骤级自我校正能力。

  地址:https://arxiv.org/pdf/2409.01524


5. 训练基准集并不足以证明一切

  标题:Training on the Benchmark Is Not All You Need

  机构:中国科学院-深圳

  相关领域:模型结构改进、预训练、指令微调、奖励模型

  作者:Shiwen Ni,  Xiangtao Kong,  Chengming Li

  分析:大型语言模型(LLM)的成功很大程度上依赖于其在预训练阶段学习到的巨大数量的训练数据。预训练过程的不可见性和训练数据导致了基准测试结果的不可靠性。如果任何模型在某个基准测试集中进行了训练,它很可能会严重损害该领域的健康。为自动化和高效地测试大型语言模型的能力,主流的基准采用多项选择题的格式。由于从多项选择题答案的置换不需要改变问题本身的含义,该论文提出了一种基于这一属性的简单有效的数据泄漏检测方法。具体而言,该论文对数据中的选项内容进行随机打乱,得到对应的衍生数据集,然后根据生成数据集的模型逻辑概率分布检测数据泄露。如果数据集中的最大值和异常值组合,说明数据泄露。采用两篇LLM和多个基准设计,该论文展示了该方法的有效性。此外,该论文评估了开放源代码31个主流大型语言模型对四个基准数据集的泄露程度,并按每个基准为相比列列出了泄露的LLM,该论文发现Qwen家族的LLM违反泄露程度最高。

  地址:https://arxiv.org/pdf/2409.01790


6. 自我进化的代理者:具有反思和记忆增强的能力

  标题:Self-evolving Agents with reflective and memory-augmented abilities

  机构:多伦多大学、华东师范大学

  相关领域:模型结构改进

  作者:Xuechen Liang,  Meiling Tao,  Yinghui Xia

  分析:本文提出了一种集成迭代反馈、反思机制和基于艾宾浩斯遗忘曲线的内存优化机制的新型框架,以大幅提高处理多任务和长跨度信息的代理者的操作能力。这种研究聚焦在解决大语言模型连续决策问题,增强其在时间跨度长或需要多任务能力场景下的应变和表现,提醒着研究者高性能AI的普遍要求。

  地址:https://arxiv.org/pdf/2409.00872


7. 语言模型操作系统的压缩机检索器架构研究

  标题:The Compressor-Retriever Architecture for Language Model OS

  机构:莫纳什大学、乔治亚理工学院

  相关领域:模型结构改进、多模态

  作者:Yuan Yang,  Siheng Xiong,  Ehsan Shareghi

  分析:这篇论文探讨了将语言模型作为操作系统核心组件的概念,旨在将语言模型从单纯的聊天机器人转变为能够与现实世界交互的通用代理。针对大型语言模型(LLM)面临的长上下文管理问题,提出了压缩机检索器架构。该架构采用模型无关的设计方式,能够有效管理长期上下文并保持跨会话的状态一致性。通过初步实验验证了该架构在上下文学习任务中的有效性,为构建具有完全状态的语言模型操作系统奠定了基础。

  地址:https://arxiv.org/pdf/2409.01495

  代码:https://github.com/gblackout/LM-OS


8. Dynamic Depth Decoding:LLM的更快推测解码

  标题:Dynamic Depth Decoding: Faster Speculative Decoding for LLMs

  机构:澳大利亚国立大学

  相关领域:模型结构改进、预训练、推测解码

  作者:Oscar Brown,  Zhengjie Wang,  Andrea Do

  分析:这篇论文提出了一种名为动态深度解码(DDD)的加速策略,用于推测解码过程,从而提高了大语言模型(LLM)的运行速度,且不降低准确性。DDD通过优化EAGLE-2的树构造方法,采用了动态深度,使得EAGLE-2相对于EAGLE的平均加速提高了44%,平均速度提升了3.16倍。论文主要专注于解决EAGLE-2中树构造方法的优化问题,以及进一步提高LLM的性能和效率。

  地址:https://arxiv.org/pdf/2409.00142


9. Transformer-based open-domain dialog models中上下文长度对模型训练的影响

  标题:An Empirical Study on Context Length for Open-Domain Dialog Generation

  相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

  作者:Xinyi Shen,  Zuoquan Lin

  分析:这篇论文主要研究了Transformer-based open-domain dialog models中上下文长度对模型训练的影响。通过在三个问题上从粗到细的实验,探讨了更长上下文是否有助于模型训练、处理不同上下文长度的对话时是否需要改变训练上下文长度以及不同对话样本是否对上下文长度有相同的偏好等问题。结果表明,上下文长度这个经常被忽视的设置在实现Transformer-based dialog models时值得关注。

  地址:https://arxiv.org/pdf/2409.00315


10. Beyond Unconstrained Features:浅层神经网络与一般数据的神经崩溃现象研究

  标题:Beyond Unconstrained Features: Neural Collapse for Shallow Neural Networks with General Data

  作者:Wanli Hong,  Shuyang Ling

  分析:这篇论文研究了神经崩溃(Neural Collapse)现象在浅层神经网络中的表现,分析了网络架构和训练数据集对神经崩溃的影响。研究内容包括数据维度、样本大小、信噪比等因素对神经崩溃现象的作用,并提供了两层和三层神经网络发生神经崩溃的充分条件。此外,论文还探讨了神经崩溃与泛化的关系。

  地址:https://arxiv.org/pdf/2409.01832


11. vec2wav 2.0:基于离散令牌编码器的语音转换技术前沿探索

   标题:vec2wav 2.0: Advancing Voice Conversion via Discrete Token Vocoders

   机构:上海交通大学

   相关领域:模型结构改进、预训练、多模态

   作者:Yiwei Guo,  Zhihan Li,  Junjie Li

   分析:论文提出了一种新的基于离散令牌编码器的语音转换方法,即vec2wav 2.0。该方法将语音自监督模型的离散令牌作为源语音的内容特征,并将语音转换视为一种提示编码任务。为了弥补内容令牌中丢失的音色信息,vec2wav 2.0利用WavLM特征提供强大的音色相关信息。此外,论文还提出了一种新型的自适应蛇形激活函数,以更好地将音色融入波形重建过程。通过这种方式,vec2wav 2.0可以在给定不同的参考提示时,学习适当地改变演讲者的音色。此外,无需对vec2wav 2.0进行有监督数据的训练。实验结果表明,在任意到任意的语音转换中,vec2wav 2.0在音频质量和说话人相似性方面大大优于所有其他基线方法。此外,论文还实现了具有竞争力的跨语言语音转换,即使仅使用单语言语料库进行训练。因此,vec2wav 2.0展示了通过语音令牌编码器操作音色转换的潜力,推动了语音转换和语音合成的边界。

   地址:https://arxiv.org/pdf/2409.01995


12. 构建有效长距离多跳指令数据集的关键因素:洞察与最佳实践

   标题:What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices

   机构:上海AI实验室

   相关领域:指令微调,多模型学习

   作者:Zhi Chen,  Qiguang Chen,  Libo Qin

   分析:这篇论文研究了构建有效长距离多跳指令数据集的问题。作者发现现有方法通过Self-Instruct框架生成的样本中,高质量多跳数据不足,质量验证存在问题。他们提出了Multi-Agent Interactive Multi-hop Generation (MIMG)框架,通过质量验证、问题生成和多跳合并策略改善数据质量,实验表明高质量数据能显著提升模型性能。

   地址:https://arxiv.org/pdf/2409.01893

   代码:https://github.com/WowCZ/LongMIT


13. 释放任务特定方向在参数高效微调中的力量

   标题:Unleashing the Power of Task-Specific Directions in Parameter Efficient Fine-tuning

   机构:哈佛大学、上海交通大学

   相关领域:模型结构改进、预训练、指令微调、参数高效微调

   作者:Chongjie Si,  Zhiyi Shi,  Shifan Zhang

   分析:这篇论文探讨了在参数高效微调中任务特定方向的重要性,以及LoRA等策略的使用。论文提出了一个框架来明确定义这些方向,并探讨它们的性质和实践应用中的挑战。然后,该论文介绍了一种名为LoRA-Dash的新方法,旨在最大程度地提高任务特定方向在 fine-tuning 过程中的影响,从而提高对特定任务的模型性能。实验充分证明了LoRA-Dash的有效性,深入的分析进一步揭示了LoRA-Dash的工作机制。代码可在https://github.com/Chongjie-Si/Subspace-Tuning获得。

   地址:https://arxiv.org/pdf/2409.01035

   代码:https://github.com/Chongjie-Si/Subspace-Tuning


14. MultiMath:为大模型连接视觉和数学推理

   标题:MultiMath: Bridging Visual and Mathematical Reasoning for Large Language Models

   机构:北京大学、电子科技大学

   相关领域:模型蒸馏、多模态

   作者:Shuai Peng,  Di Fu,  Liangcai Gao

   分析:本文介绍了一款名为MultiMath-7B的多模态大型语言模型,该模型能够结合数学和视觉元素进行推理。研究团队通过四阶段训练过程(包括视觉和数学的融合、视觉和数学指令的微调、过程监督的强化学习)实现了这一目标。同时,研究团队创建了一个包含超过30万条记录的多模态数学数据集——MultiMath-300K,该数据集覆盖了从小学到高中的不同级别,并配有图文说明。MultiMath-7B在多模态和纯文本的数学基准测试中均取得了顶尖表现。论文的研究成果模型和数据集已经开源并可供下载。

   地址:https://arxiv.org/pdf/2409.00147

   代码:https://github.com/pengshuai-rin/MultiMath


15. Follow-Your-Canvas: 更高分辨率的视频内容生成

   标题:Follow-Your-Canvas: Higher-Resolution Video Outpainting with Extensive Content Generation

   机构:腾讯、清华大学、香港科技大学

   作者:Qihua Chen,  Yue Ma,  Hongfa Wang

   分析:这篇论文探讨了使用大规模内容生成进行更高分辨率视频的外描摹。它提出了一种基于扩散的方法,名为“Follow-Your-Canvas”。该方法主要解决现有方法在尝试大规模外描摹视频时面临的问题,包括生成低质量的内容和GPU内存的限制。通过将任务分布在空间窗口上并无缝合并它们,以及将源视频及其相对位置关系注入到每个窗口的生成过程中,该方法能够在不受限于GPU内存的情况下外描摹任意大小和分辨率的视频。这种方法在大规模视频外描摹方面表现出色,例如从512X512到1152X2048(9X),同时产生高质量且美观的结果。

   地址:https://arxiv.org/pdf/2409.01055

   代码:https://github.com/mayuelala/FollowYourCanvas


16. 长篇语言模型中RAG的辩护

   标题:In Defense of RAG in the Era of Long-Context Language Models

   机构:英伟达

   相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

   作者:Tan Yu,  Anbang Xu,  Rama Akkiraju

   分析:这篇论文主要探讨了在长篇语言模型中,检索增强生成(RAG)的有效性。早期的语言模型由于其有限的上下文限制,RAG被广泛用于基于上下文的答案生成。然而,随着长篇语言模型的出现,这种方法的效果受到了质疑。最近的研究发现,长篇语言模型在长篇上下文应用中的表现优于RAG。作者认为,长篇语言模型中的极其长的上下文会导致对相关信息的关注度降低,从而可能降低答案的质量。因此,作者提出了一种新的检索增强生成机制——顺序保持检索增强生成(OP-RAG),该机制能显著提高RAG在长篇问题-答案应用中的表现。通过OP-RAG,随着检索到的片段数量的增加,答案质量最初会提高,然后会下降,形成一个倒U形曲线。在某些点上,OP-RAG可以在使用较少的令牌数的情况下实现比使用整个上下文作为输入的长篇语言模型更高的答案质量。大量的实验在公开的数据集上进行,证明了OP-RAG的优势。

   地址:https://arxiv.org/pdf/2409.01666


17. MarsCode Agent:AI 原生自动化代码修复

   标题:MarsCode Agent: AI-native Automated Bug Fixing

   机构:字节跳动

   相关领域:模型结构改进、预训练、模型评估

   作者:Yizhou Liu,  Pengfei Gao,  Xinchen Wang

   分析:这篇论文提出了一种名为 MarsCode Agent 的新框架,该框架利用大型语言模型(LLMs)自动识别和修复软件代码中的错误。它结合了 LLMs 的能力和先进的代码分析技术,通过规划、错误重现、故障定位、候选补丁生成和验证等步骤,确保高质量的代码修复。该论文解决了自动化修复软件代码中的错误这一核心问题。

   地址:https://arxiv.org/pdf/2409.00899


18. 序列到序列奖励建模:通过语言反馈改进RLHF

   标题:Sequence to Sequence Reward Modeling: Improving RLHF by Language Feedback

   机构:北京大学

   相关领域:奖励模型、RLHF

   作者:Jiayi Zhou,  Jiaming Ji,  Juntao Dai

   分析:论文提出了一种新的序列到序列(seq2seq)奖励建模方法,用于改进强化学习从人类反馈(RLHF)中的表现。该方法的关键在于从语言反馈中学习,而不是标量反馈,以提高RM的精度和丰富度,从而改善LLM的行为与人类意图和价值观的对齐程度。实验表明,该方法在多个NLP任务上取得了显著效果,平均胜率为76.9%。此外,它还能在超出分布范围的提示下提高RLHF的性能。

   地址:https://arxiv.org/pdf/2409.00162


19. Learning to Ask:当LLM遇到模糊指令时

   标题:Learning to Ask: When LLMs Meet Unclear Instruction

   机构:香港中文大学

   相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

   作者:Wenxuan Wang,  Juluan Shi,  Chaozheng Wang

   分析:这篇论文主要探讨了大型语言模型(LLM)在处理用户提供的不清晰指令时的表现。由于LLM依赖于用户的精确指令来执行任务,因此,如果指令不清晰,LLM可能会产生错误的结果或者无法正确执行任务。为了解决这个问题,作者提出了一种新的框架“Ask-when-Needed (AwN)”,该框架可以引导LLM在遇到障碍时向用户提出问题。此外,作者还设计了一个自动化评估工具“ToolEvaluator”,用于评估LLM的工具使用效率和准确性。实验结果表明,AwN在NoisyToolBench测试集上的表现优于现有的工具学习框架。

   地址:https://arxiv.org/pdf/2409.00557


20. LinFusion:1GPU,1分钟,16K图像生成

   标题:LinFusion: 1 GPU, 1 Minute, 16K Image

   相关领域:模型结构改进、预训练

   作者:Songhua Liu,  Weihao Yu,  Zhenxiong Tan

   分析:这篇论文主要解决扩散模型生成高分辨率视觉内容时的挑战,通过引入新型线性注意力机制,实现高效图像生成。论文从具有线性复杂度的模型出发,提炼出增强高分辨率视觉生成性能的关键特征,在此基础上构建了一个广义线性注意力模型。此外,论文还实现了模型蒸馏,将知识从预训练的StableDiffusion模型中迁移过来,提升了新模型LinFusion的性能。

   地址:https://arxiv.org/pdf/2409.02097

   代码:https://github.com/Huage001/LinFusion


21. 量化神经网络在固定点算术下的表达能力

   标题:On Expressive Power of Quantized Neural Networks under Fixed-Point Arithmetic

   作者:Geonho Hwang,  Yeachan Park,  Sejun Park

   分析:这篇论文主要研究了在存在舍入误差的离散固定点参数和运算下,量化神经网络的通用逼近性。首先,该论文提供了关于固定点算术和激活函数对量化网络通用逼近性的必要条件和充分条件。然后,该论文证明了一些常用的激活函数如Sigmoid、ReLU、ELU、SoftPlus、SiLU、Mish和GELU满足该论文的充分条件,即这些网络能够进行通用逼近。此外,该论文在某种激活函数条件下找到了必要的条件。最后,该论文还证明了即使使用二进制权重(-1,1)的量化网络也可以对于实际的激活函数进行通用逼近。

   地址:https://arxiv.org/pdf/2409.00297


22. 做梦是您所需要的

   标题:Dreaming is All You Need

   相关领域:模型结构改进、预训练、无监督探索

   作者:Mingze Ni,  Wei Liu

   分析:这篇论文研究了如何在分类任务中平衡探索和精准度。它提出了两个新颖的深度学习模型:SleepNet和DreamNet。SleepNet结合了监督学习和无监督的睡眠阶段,通过嵌入在无监督特征中的专有神经元,形成间断的睡眠块,以促进探索性的学习。在此基础上,DreamNet使用全编码器-解码器框架来重建隐藏状态,模仿人类的做梦过程。这种重建过程使学习表示能进一步探索和精炼。SleepNet和DreamNet的结构是通用的,可以应用于计算机视觉和自然语言处理下游任务。在广泛的图像和文本数据集上的大量实证评估显示了SleepNet和DreamNet在对抗当前最佳模型时具有优越性能。

   地址:https://arxiv.org/pdf/2409.01633


23. AMG:基于人物动作指导的视频生成

   标题:AMG: Avatar Motion Guided Video Generation

   机构:华盛顿大学、亚利桑那州立大学

   相关领域:模型结构改进、数据集构建

   作者:Zhangsihao Yang,  Mengyi Shan,  Mohammad Farazi

   分析:这篇论文提出了一种结合二维真实感和三维可控性的视频扩散模型方法,该方法以受控的3D人物渲染为指导,生成具有精细控制的人物动作和背景风格的视频。论文引入了一种新的数据处理流程,可以从动态相机视频中重建和渲染人物动作。这是首个能够在人物动作、相机位置和背景风格上进行精确控制的多人扩散视频生成方法。

   地址:https://arxiv.org/pdf/2409.01502


24. 文本到图像扩散模型的精确压缩

   标题:Accurate Compression of Text-to-Image Diffusion Models via Vector Quantization

   机构:奥地利科学院、Neural Magic

   相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

   作者:Vage Egiazarian,  Denis Kuznedelev,  Anton Voronov

   分析:本文主要探讨了如何通过向量量化来对大规模的文本到图像扩散模型进行压缩。这种方法可以使模型在保持高质量图像生成的同时,降低模型参数的数量。文章提出了一种定制的基于向量的预训练权重量化方法,并将其应用于最近的大型文本到图像模型(SDXL和SDXL-Turbo),结果表明,与之前4比特的压缩技术相比,使用向量量化的2B+参数的模型压缩到3比特时,仍能保持良好的图像质量和文本对齐性。

   地址:https://arxiv.org/pdf/2409.00492


25. 选择性指令遵循与对齐自我评价研究

   标题:Self-Judge: Selective Instruction Following with Alignment Self-Evaluation

   机构:新加坡国立大学

   相关领域:指令微调、模型评估、奖励模型

   作者:Hai Ye,  Hwee Tou Ng

   分析:本文研究了预训练大型语言模型(LLMs)在遵循人类指令时可能存在的问题,如指令分布变化导致的执行不准确问题。为了解决这些问题,本文提出了选择性指令遵循方法,当模型预测响应质量低时,系统将拒绝执行指令。同时,本文开发了一种无需人工标注质量分数的自我训练框架Self-J,用于训练评估模型响应质量的判断模型。实验表明,该方法在五个开源模型上的表现优于GPT-4等基线模型,具有很强的跨域泛化能力。此外,本文的研究对于提高大模型的指令遵循能力具有重要的理论和实践价值。

   地址:https://arxiv.org/pdf/2409.00935


26. Dataset Distillation from First Principles:整合核心信息提取和目的导向学习

   标题:Dataset Distillation from First Principles: Integrating Core Information Extraction and Purposeful Learning

   机构:香港科技大学、帝国理工学院、俄亥俄州立大学

   相关领域:模型评估、数据集构建

   作者:Vyacheslav Kungurtsev,  Yuanfang Peng,  Jianyang Gu

   分析:论文阐述了数据集提炼(DD)技术的重要作用,它旨在通过构建能够捕获训练数据核心信息的合成数据集,以实现模型在后者的性能比较。尽管DD有着广泛的应用领域,其支撑理论尚不成熟。论文从通用基准集中对比分析了各种DD方法,而非针对特定的学习任务。作者提出了一种DD的正式模型,主张在特定应用情境下的推断任务需要精准定义。没有这个任务特定的定位,DD问题定义不明确,为特定任务选择DD算法仅基于经验。该正式化找到了DD在不同建模环境中的新型应用。论文通过这个更广泛的视角分析现有DD方法,强调了准确性与优化DD操作的最佳表示一致性。最终,论文展示了两项重要研究案例的关键数据集构建问题,包括合并不同数据集中交叠但不完全相同的特征,构建大型数据集以应对医学数据分析中的小样本问题;以及物理仿射神经网络(PINNs)在越界条件下的出了分布错误,证明DD可提供更符合物理现实的数据。

   地址:https://arxiv.org/pdf/2409.01410


27. 基于语料检索与扩充技术的特定任务合成数据集构建方法

   标题:CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation

   机构:慕尼黑大学、慕尼黑机器学习中心

   相关领域:数据集构建

   作者:Ingo Ziegler,  Abdullatif Köksal,  Desmond Elliott

   分析:论文提出了一种基于语料检索与扩充技术的合成数据集构建方法,用于解决针对特定任务的优质数据集构建难题。该方法利用少量用户编写的示例,通过大规模网络爬虫语料库和基于相似度的文档检索,找到其他相关的人类编写文档,最后使用指令微调的大型语言模型将检索到的文档扩充为定制格式的任务样本,可用于微调模型。实验表明,该方法在问答和摘要等四个不同任务中表现优异。

   地址:https://arxiv.org/pdf/2409.02098


28. CyberHost:音频驱动的人形动画模型

   标题:CyberHost: Taming Audio-driven Avatar Diffusion Model with Region Codebook Attention

   机构:字节跳动、浙江大学

   作者:Gaojie Lin,  Jianwen Jiang,  Chao Liang

   分析:这篇论文提出了一种端到端的音频驱动人形动画框架,通过引入区域码本注意力机制来改进面部和手部动画的质量。该框架能够保证手部完整性、身份一致性和自然运动。此外,作者还开发了一套基于人类先验的训练策略,以提高合成结果的质量。实验结果表明,CyberHost在数量和质量上都超越了先前的工作。

   地址:https://arxiv.org/pdf/2409.01876


29. REFFLY:旋律约束歌词编辑模型

   标题:REFFLY: Melody-Constrained Lyrics Editing Model

   机构:UC洛杉矶分校

   相关领域:模型结构改进、多模态

   作者:Songyan Zhao,  Bingxuan Li,  Yufei Tian

   分析:这篇论文提出了一种新的歌词生成方法,旨在根据给定的旋律生成对应的歌词。论文解决了现有工作中的三个主要问题:缺乏可控性、无法生成具有所需格式的歌曲以及歌词与旋律的对齐问题。论文引入了REFFLY(REvision Framework For Lyrics),这是一种修订框架,能够将任意形式的文本草稿编辑成高质量、完整的歌曲歌词。该模型能够保留原始文本的意思,与旋律对齐,并符合歌曲结构的要求。

   地址:https://arxiv.org/pdf/2409.00292


30. VideoLLaMB:利用记忆桥梁进行长视频内容理解的新框架

   标题:VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges

   机构:北京智能科学研究中心、北大王选计算机研究所

   相关领域:模型结构改进、多模态

   作者:Yuxuan Wang,  Cihang Xie,  Yang Liu

   分析:该论文提出了一种名为VideoLLaMB的新框架,用于处理长视频内容理解。它通过使用递归记忆令牌和场景分割算法来解决大规模视频语言模型的计算需求和标注数据集稀缺的问题。新框架可以在单个NVIDIA A100 GPU上支持长达320帧的视频处理,并具有线性GPU内存扩展性,从而提高了性能和成本效益。此外,VideoLLaMB在多个视频任务上表现出显著的性能改进。

   地址:https://arxiv.org/pdf/2409.01071


31. 视频时序标记合并用于高效文本-视频检索

   标题:TempMe: Video Temporal Token Merging for Efficient Text-Video Retrieval

   机构:京东

   相关领域:模型结构改进、多模态

   地址:https://arxiv.org/pdf/2409.01156


32. OD-VAE:一种用于提高潜在视频扩散模型的全方位视频压缩器

   标题:OD-VAE: An Omni-dimensional Video Compressor for Improving Latent Video Diffusion Model

   机构:北京大学、鹏城实验室

   相关领域:模型结构改进、多模态

   地址:https://arxiv.org/pdf/2409.01199


33. DataSculpt:通过多目标分段为长文本模型构建数据景观

   标题:DataSculpt: Crafting Data Landscapes for LLM Post-Training through Multi-objective Partitioning

   机构:北京大学

   相关领域:长文本模型

   地址:https://arxiv.org/pdf/2409.00997


34. Sync from the Sea:从大规模数据集中检索可对齐的短视频

   标题:Sync from the Sea: Retrieving Alignable Videos from Large-Scale Datasets

   机构:中佛罗里达大学、Adobe Research

   相关领域:视频处理

   地址:https://arxiv.org/pdf/2409.01445

   代码:https://daveishan.github.io/avr-webpage/


35. -toolACE:赢得大模型函数调用竞赛

   标题:ToolACE: Winning the Points of LLM Function Calling

   机构:清华大学、香港中文大学、中国科学技术大学

   相关领域:工具学习数据生成

   地址:https://arxiv.org/pdf/2409.00920

   代码:https://huggingface.co/Team-ACE


36. 大模型的潜在危害:用户输入对模型的毒害

   标题:The Dark Side of Human Feedback: Poisoning Large Language Models via User Inputs

   相关领域:模型安全

   地址:https://arxiv.org/pdf/2409.00787


37. Logit Scaling for Out-of-Distribution Detection 在分布检测的Logit缩放法

   标题:Logit Scaling for Out-of-Distribution Detection

   机构:Google DeepMind

   相关领域:模型评估

   地址:https://arxiv.org/pdf/2409.01175


38. A Fresh Take on Stale Embeddings:用修正网络改进密集检索器的训练

   标题:A Fresh Take on Stale Embeddings: Improving Dense Retriever Training with Corrector Networks

   机构:Google DeepMind

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2409.01890


39. 可扩展的逆向强化学习进行语言模仿

   标题:Imitating Language via Scalable Inverse Reinforcement Learning

   机构:Google DeepMind

   相关领域:模型结构改进、预训练、指令微调、奖励模型

   地址:https://arxiv.org/pdf/2409.01369


40. 构建性3D感知视频生成与大模型

   标题:Compositional 3D-aware Video Generation with LLM Director

   机构:上海交通大学、微软亚洲研究院、中国科学技术大学

   地址:https://arxiv.org/pdf/2409.00558

   代码:https://aka.ms/c3v


41. Building Better Datasets:数据集创建者关于负责任设计的七点建议

   标题:Building Better Datasets: Seven Recommendations for Responsible Design from Dataset Creators

   机构:南加州大学、微软研究院

   相关领域:数据集构建

   地址:https://arxiv.org/pdf/2409.00252


42. TinyAgent:边缘函数调用

   标题:TinyAgent: Function Calling at the Edge

   机构:UC伯克利分校

   相关领域:模型蒸馏、数据集构建、指令微调、多模态

   地址:https://arxiv.org/pdf/2409.00608


43. Foundations of Large Language Model Compression -- Part 1:基础与CVXQ方法

   标题:Foundations of Large Language Model Compression -- Part 1: Weight Quantization

   机构:麻省理工学院

   相关领域:模型压缩

   地址:https://arxiv.org/pdf/2409.02026

   代码:https://github.com/seannz/cvxq


44. DepthCrafter: 生成一致的长期深度序列对于开放世界视频

   标题:DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos

   机构:香港科技大学、腾讯AI实验室、Tencent PCG实验室

   相关领域:模型结构改进、预训练、数据集构建、模型蒸馏

   地址:https://arxiv.org/pdf/2409.02095


45. 预训练和归纳推理加快图划分

   标题:Towards Faster Graph Partitioning via Pre-training and Inductive Inference

   机构:华为

   相关领域:模型结构改进、预训练

   地址:https://arxiv.org/pdf/2409.00670

   代码:https://github.com/KuroginQin/PRGPT


46. 结合扩散模型和近端策略优化增强强化学习的样本效率和探索能力

   标题:Enhancing Sample Efficiency and Exploration in Reinforcement Learning through the Integration of Diffusion Models and Proximal Policy Optimization

   机构:麻省理工学院

   相关领域:模型结构改进、预训练

   地址:https://arxiv.org/pdf/2409.01427

   代码:https://github.com/TianciGao/DiffPPO


47. 大模型在信息提取中的应用研究

   标题:An Empirical Study on Information Extraction using Large Language Models

   机构:吉林大学、香港中文大学

   相关领域:信息提取,大语言模型,GPT-4

   地址:https://arxiv.org/pdf/2409.00369


48. 理解多模态的幻象现象及其无参数变换表示

   标题:Understanding Multimodal Hallucination with Parameter-Free Representation Alignment

   机构:北京大学、北大王选计算机研究所

   相关领域:模型评估、多模态

   地址:https://arxiv.org/pdf/2409.01151

   代码:https://github.com/yellow-binary-tree/Pfram


49. FlashFlex:在异构环境中进行大模型训练的方法研究

   标题:FlashFlex: Accommodating Large Language Model Training over Heterogeneous Environment

   机构:北京大学、香港科技大学

   相关领域:模型评估

   地址:https://arxiv.org/pdf/2409.01143

   代码:https://github.com/Relaxed-System-Lab/FlashFlex


50. DPDEdit:多模态时尚图像编辑的细节保留扩散模型

   标题:DPDEdit: Detail-Preserved Diffusion Models for Multimodal Fashion Image Editing

   机构:卡内基梅隆大学、中国科学院-深圳

   相关领域:模型结构改进、多模态

   地址:https://arxiv.org/pdf/2409.01086


51. AdaNAT:探索基于标记的图像生成的自适应策略

   标题:AdaNAT: Exploring Adaptive Policy for Token-Based Image Generation

   机构:清华大学、新加坡国立大学

   相关领域:模型结构改进、奖励模型

   地址:https://arxiv.org/pdf/2409.00342

   代码:https://github.com/LeapLabTHU/AdaNAT


52. 实时推荐的增强批量查询架构

   标题:An Enhanced Batch Query Architecture in Real-time Recommendation

   机构:西安交通大学、麻省理工学院

   相关领域:模型优化、实时推荐、存储技术

   地址:https://arxiv.org/pdf/2409.00400


53. BEAVER:企业级基准评测:文本到SQL

   标题:BEAVER: An Enterprise Benchmark for Text-to-SQL

   机构:华盛顿大学、麻省理工学院、Amazon

   相关领域:数据集构建、评估指标

   地址:https://arxiv.org/pdf/2409.02038


54. 解锁大模型的智慧:通往人工通用智能的简介

   标题:Unlocking the Wisdom of Large Language Models: An Introduction to The Path to Artificial General Intelligence

   机构:斯坦福大学

   相关领域:模型结构改进、预训练、指令微调、人工通用智能

   地址:https://arxiv.org/pdf/2409.01007


55. FuzzCoder: 字节级 fuzzing 测试 via 大模型

   标题:FuzzCoder: Byte-level Fuzzing Test via Large Language Model

   机构:滑铁卢大学、北京科技大学、北京邮电大学

   相关领域:模型结构改进、预训练、指令微调、fuzzing技术

   地址:https://arxiv.org/pdf/2409.01944


56. Beyond Efficiency:面向增强泛化的分子数据剪枝

   标题:Beyond Efficiency: Molecular Data Pruning for Enhanced Generalization

   机构:香港中文大学、中国科学院自动化研究所

   相关领域:模型评估、预训练

   地址:https://arxiv.org/pdf/2409.01081


57. LLM-GAN: 通过大模型构建生成对抗网络进行可解释假新闻检测

   标题:LLM-GAN: Construct Generative Adversarial Network Through Large Language Models For Explainable Fake News Detection

   机构:复旦大学、阿里巴巴集团

   相关领域:模型应用-假新闻检测,大语言模型-解释性

   地址:https://arxiv.org/pdf/2409.01787


58. 更完善的OMR解决方案的探讨

   标题:Toward a More Complete OMR Solution

   机构:华盛顿大学、艾伦AI研究所

   地址:https://arxiv.org/pdf/2409.00316


59. 医疗报告生成是一个多标签分类问题

   标题:Medical Report Generation Is A Multi-label Classification Problem

   机构:纽约大学、斯坦福大学、悉尼科技大学

   相关领域:模型结构改进、多模态

   地址:https://arxiv.org/pdf/2409.00250


60. 令牌压缩加快基于ViT的多视图3D检测器

   标题:Make Your ViT-based Multi-view 3D Detectors Faster via Token Compression

   机构:百度、华中科技大学

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2409.00633

   代码:https://github.com/DYZhang09/ToC3D


61. 扩散策略策略优化

   标题:Diffusion Policy Policy Optimization

   机构:普林斯顿大学、麻省理工学院、卡内基梅隆大学

   地址:https://arxiv.org/pdf/2409.00588


62. 专家剪枝评估SMoE语言模型效率的研究

   标题:Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning

   机构:Amazon

   相关领域:模型结构改进、预训练、模型评估

   地址:https://arxiv.org/pdf/2409.01483


63. Beyond Parameter Count:软混合专家中的隐式偏见

   标题:Beyond Parameter Count: Implicit Bias in Soft Mixture of Experts

   机构:卡内基梅隆大学

   相关领域:模型结构改进、多模态

   地址:https://arxiv.org/pdf/2409.00879


64. ViewCrafter:驾驭视频扩散模型进行高保真新颖视角合成

   标题:ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis

   机构:腾讯、北京大学、鹏城实验室

   相关领域:模型结构改进、预训练

   地址:https://arxiv.org/pdf/2409.02048


65. AllWeatherNet:恶劣天气和弱光条件下自动驾驶的图像增强统一方法

   标题:AllWeatherNet:Unified Image enhancement for autonomous driving under adverse weather and lowlight-conditions

   机构:中山大学、澳大利亚国立大学

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2409.02045

   代码:https://github.com/Jumponthemoon/AllWeatherNet


66. Dynamic Motion Synthesis:音频-文本条件时空Transform

   标题:Dynamic Motion Synthesis: Masked Audio-Text Conditioned Spatio-Temporal Transformers

   机构:佐治亚理工学院

   相关领域:模型结构改进、预训练、指令微调、多模态

   地址:https://arxiv.org/pdf/2409.01591


67. ProphetFuzz:通过大模型实现对高风险组合的自动化预测与fuzzing

   标题:ProphetFuzz: Fully Automated Prediction and Fuzzing of High-Risk Option Combinations with Only Documentation via Large Language Model

   机构:清华大学

   相关领域:软件安全测试、大型语言模型、漏洞发现

   地址:https://arxiv.org/pdf/2409.00922


68. MaskGCT:零样本文本到语音转换技术

   标题:MaskGCT: Zero-Shot Text-to-Speech with Masked Generative Codec Transformer

   机构:香港科技大学

   相关领域:模型结构改进、多模态

   地址:https://arxiv.org/pdf/2409.00750

   代码:https://maskgct.github.io


69. 与大模型的一般知识对齐的医学图像

   标题:Aligning Medical Images with General Knowledge from Large Language Models

   机构:香港科技大学

   相关领域:预训练

   地址:https://arxiv.org/pdf/2409.00341


70. 纯Transformer块的非并行一次性语音转换

   标题:Pureformer-VC: Non-parallel One-Shot Voice Conversion with Pure Transformer Blocks and Triplet Discriminative Training

   机构:北京大学

   相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

   地址:https://arxiv.org/pdf/2409.01668


71. NYK-MS: 纽约客 metaphor 和 sarcasm 理解的多模态基准

   标题:NYK-MS: A Well-annotated Multi-modal Metaphor and Sarcasm Understanding Benchmark on Cartoon-Caption Dataset

   机构:北京大学

   相关领域:模型结构改进、预训练、多模态数据集构建、模型评估

   地址:https://arxiv.org/pdf/2409.01037


72. S^2NeRF:隐私保护下的NeRF训练框架

   标题:S^2NeRF: Privacy-preserving Training Framework for NeRF

   机构:浙江大学、香港中文大学、南洋理工大学

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2409.01661


73. Target-Driven Distillation:一致性蒸馏 with 目标时间步长选择和 decoupled 指导

   标题:Target-Driven Distillation: Consistency Distillation with Target Timestep Selection and Decoupled Guidance

   机构:浙江大学、上海交通大学

   相关领域:模型蒸馏

   地址:https://arxiv.org/pdf/2409.01347


74. 超越ChatGPT:利用多样性LLM和验证技术增强软件质量保证任务

   标题:Beyond ChatGPT: Enhancing Software Quality Assurance Tasks with Diverse LLMs and Validation Techniques

   机构:新加坡管理大学

   相关领域:模型结构改进、预训练、指令微调、奖励模型

   地址:https://arxiv.org/pdf/2409.01001


75. Mental-Gen:一种基于脑机接口的室内空间生成设计方法

   标题:Mental-Gen: A Brain-Computer Interface-Based Interactive Method for Interior Space Generative Design

   机构:清华大学

   相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

   地址:https://arxiv.org/pdf/2409.00962


76. 自 instructed 衍生提示生成 meets in-context learning: 解锁 BP-LLM 的全新潜力

   标题:Self-Instructed Derived Prompt Generation Meets In-Context Learning: Unlocking New Potential of Black-Box LLMs

   机构:香港中文大学、合肥工业大学

   相关领域:模型参数优化,上下文学习,模型与人类偏好对齐

   地址:https://arxiv.org/pdf/2409.01552


77. 将大模型的数据价值问题重新思考

   标题:Reframing Data Value for Large Language Models Through the Lens of Plausability

   机构:UC洛杉矶分校

   相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

   地址:https://arxiv.org/pdf/2409.00284


78. 如何通过多样化言语提示解释使医疗视觉-语言零剪辑任务有所进步?

   标题:How Does Diverse Interpretability of Textual Prompts Impact Medical Vision-Language Zero-Shot Tasks?

   机构:帝国理工学院

   相关领域:multi-modal

   地址:https://arxiv.org/pdf/2409.00543


79. Shuffle Mamba:在多模态图像融合中,基于状态空间的模型通过随机换位策略

   标题:Shuffle Mamba: State Space Models with Random Shuffle for Multi-Modal Image Fusion

   机构:中国科学技术大学

   相关领域:模型结构改进、多模态

   地址:https://arxiv.org/pdf/2409.01728


80. 自动驾驶事故预测

   标题:Real-time Accident Anticipation for Autonomous Driving Through Monocular Depth-Enhanced 3D Modeling

   机构:电子科技大学、香港科技大学、北京航空航天大学

   相关领域:模型结构改进、预训练、指令微调、奖励模型

   地址:https://arxiv.org/pdf/2409.01256


81. Duplex:面向大模型的设备,采用混合专家技术、分组查询注意力和连续批处理

   标题:Duplex: A Device for Large Language Models with Mixture of Experts, Grouped Query Attention, and Continuous Batching

   机构:首尔国立大学

   相关领域:模型结构改进、模型评估

   地址:https://arxiv.org/pdf/2409.01141


82. 多模态大模型的学习与增长

   标题:KMTalk: Speech-Driven 3D Facial Animation with Key Motion Embedding

   机构:华南理工大学、慕尼黑工业大学

   相关领域:

   地址:https://arxiv.org/pdf/2409.01113

   代码:https://github.com/ffxzh/KMTalk


83. 虚拟现实中使用物理键盘输入带有重音符号的字符

   标题:Accented Character Entry Using Physical Keyboards in Virtual Reality

   机构:剑桥大学

   地址:https://arxiv.org/pdf/2409.01709


84. Towards General Industrial Intelligence:基于IIoT增强的持续大型模型综述

   标题:Towards General Industrial Intelligence: A Survey on IIoT-Enhanced Continual Large Models

   机构:浙江大学、华南理工大学

   相关领域:预训练、指令微调、持续学习、多模态

   地址:https://arxiv.org/pdf/2409.01207


85. Report Cards:利用自然语言摘要对语言模型进行定性评估

   标题:Report Cards: Qualitative Evaluation of Language Models Using Natural Language Summaries

   机构:多伦多大学、Vector Institute

   相关领域:模型评估

   地址:https://arxiv.org/pdf/2409.00844


86. 混合Transformer-Mamba网络在单幅图像去雨中的应用

   标题:A Hybrid Transformer-Mamba Network for Single Image Deraining

   机构:中山大学

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2409.00410


87. Unveiling Deep Shadows:大模型时代图像和视频阴影检测、去除与生成的综述

   标题:Unveiling Deep Shadows: A Survey on Image and Video Shadow Detection, Removal, and Generation in the Era of Deep Learning

   机构:香港大学、上海AI实验室

   相关领域:模型结构改进、预训练、指令微调、奖励模型

   地址:https://arxiv.org/pdf/2409.02108


88. 光学神经网络

   标题:Reuse and Blend: Energy-Efficient Optical Neural Network Enabled by Weight Sharing

   机构:香港科技大学

   地址:https://arxiv.org/pdf/2409.01836


89. GenAgent:构建协同AI系统并实现自动化工作流程生成——以ComfyUI为例的案例分析

   标题:GenAgent: Build Collaborative AI Systems with Automated Workflow Generation -- Case Studies on ComfyUI

   机构:上海AI实验室

   相关领域:模型结构改进、预训练、多模态

   地址:https://arxiv.org/pdf/2409.01392


90. 语义因果图进行指令调优增强大模型的事件推理能力

   标题:Enhancing Event Reasoning in Large Language Models through Instruction Fine-Tuning with Semantic Causal Graphs

   机构:德克萨斯大学

   相关领域:指令微调

   地址:https://arxiv.org/pdf/2409.00209


91. 文字生成中的不可见金线:长文本生成扩展的高性能基准研究

   标题:Spinning the Golden Thread: Benchmarking Long-Form Generation in Language Models

   机构:新加坡科技与设计大学

   相关领域:模型结构改进、预训练、指令微调、奖励模型

   地址:https://arxiv.org/pdf/2409.02076


92. Booster:通过减轻有害扰动解决大模型的精细调整问题

   标题:Booster: Tackling Harmful Fine-tuing for Large Language Models via Attenuating Harmful Perturbation

   机构:乔治亚理工学院

   相关领域:模型评估、模型蒸馏

   地址:https://arxiv.org/pdf/2409.01586

   代码:https://github.com/git-disl/Booster


93. 种子的种子到种子翻译:扩散种子空间中的图像转换

   标题:Seed-to-Seed: Image Translation in Diffusion Seed Space

   机构:希伯莱大学

   地址:https://arxiv.org/pdf/2409.00654


94. 评估超高清图像质量的多个维度:美学、失真和显著性

   标题:Assessing UHD Image Quality from Aesthetics, Distortions, and Saliency

   机构:上海交通大学

   相关领域:模型评估、数据集构建

   地址:https://arxiv.org/pdf/2409.00749

   代码:https://github.com/sunwei925/UIQA


95. 利用大模型进行自动医疗问答评估的研究

   标题:Towards Leveraging Large Language Models for Automated Medical Q&A Evaluation

   机构:东北大学

   相关领域:模型评估、自然语言处理

   地址:https://arxiv.org/pdf/2409.01941


96. 增量开放域适应

   标题:Incremental Open-set Domain Adaptation

   机构:贾达普大学、印度理工学院

   相关领域:图像分类、领域自适应

   地址:https://arxiv.org/pdf/2409.00530


97. MetaFood3D:带有营养值的大型3D食品对象数据集

   标题:MetaFood3D: Large 3D Food Object Dataset with Nutrition Values

   机构:普渡大学、滑铁卢大学

   相关领域:数据集构建、模型评估

   地址:https://arxiv.org/pdf/2409.01966


98. FC-KAN:在Kolmogorov-Arnold网络中利用函数组合的方法研究

   标题:FC-KAN: Function Combinations in Kolmogorov-Arnold Networks

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2409.01763

   代码:https://github.com/hoangthangta/FC_KAN


99. 时空刺激感知视频情感推理与多模态大模型

   标题:StimuVAR: Spatiotemporal Stimuli-aware Video Affective Reasoning with Multimodal Large Language Models

   机构:约翰霍普金斯大学

   相关领域:模型结构改进、多模态

   地址:https://arxiv.org/pdf/2409.00304


100. 信息检索模型的反事实解释框架

   标题:A Counterfactual Explanation Framework for Retrieval Models

   机构:印度理工学院

   相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

   地址:https://arxiv.org/pdf/2409.00860


101. DAVIDE:深度感知视频去模糊技术

    标题:DAVIDE: Depth-Aware Video Deblurring

    相关领域:数据集构建、模型结构改进

    地址:https://arxiv.org/pdf/2409.01274

    代码:https://germanftv.github.io/DAVIDE.github.io/


102. 增强源代码安全的大模型:探究挑战并生成可靠修复

    标题:Enhancing Source Code Security with LLMs: Demystifying The Challenges and Generating Reliable Repairs

    机构:德克萨斯大学

    地址:https://arxiv.org/pdf/2409.00571


103. 利用基于三元组的前过滤增强半结构化知识与LLMs的问答能力

    标题:Harnessing the Power of Semi-Structured Knowledge and LLMs with Triplet-Based Prefiltering for Question Answering

    相关领域:指令微调、模型评估、数据集构建、评估指标

    地址:https://arxiv.org/pdf/2409.00861

    代码:https://github.com/kramerlab/4StepFocus


104. ContextCite: 语境赋值

    标题:ContextCite: Attributing Model Generation to Context

    相关领域:模型结构改进、预训练、指令微调、奖励模型

    地址:https://arxiv.org/pdf/2409.00729

    代码:https://github.com/MadryLab/context-cite


105. 高效LLM上下文蒸馏

    标题:Efficient LLM Context Distillation

    机构:乔治亚理工学院

    相关领域:模型蒸馏

    地址:https://arxiv.org/pdf/2409.01930


106. LUK: 赋能日志理解的大模型专家知识

    标题:LUK: Empowering Log Understanding with Expert Knowledge from Large Language Models

    相关领域:自然语言处理

    地址:https://arxiv.org/pdf/2409.01909


107. LLM辅助的AI规划的现状调查

    标题:LASP: Surveying the State-of-the-Art in Large Language Model-Assisted AI Planning

    机构:埃默里大学

    相关领域:模型结构改进、预训练、指令微调、模型评估

    地址:https://arxiv.org/pdf/2409.01806


108. DiffEyeSyn:基于扩散的用户特定眼动合成

    标题:DiffEyeSyn: Diffusion-based User-specific Eye Movement Synthesis

    机构:斯图加特大学

    地址:https://arxiv.org/pdf/2409.01240


109. LLM-PQA: LLM增强的预测查询回答

    标题:LLM-PQA: LLM-enhanced Prediction Query Answering

    相关领域:模型结构改进, 预训练, 指令微调

    地址:https://arxiv.org/pdf/2409.01140


110. 大模型在创造力评估中的应用

    标题:The creative psychometric item generator: a framework for item generation and validation using large language models

    机构:宾夕法尼亚州立大学

    相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

    地址:https://arxiv.org/pdf/2409.00202


111. VDPI:基于伪逆建模的视频去模糊技术

    标题:VDPI: Video Deblurring with Pseudo-inverse Modeling

    机构:西北大学

    相关领域:模型结构改进

    地址:https://arxiv.org/pdf/2409.00777


112. EarthGen:从自顶向下的视角生成世界

    标题:EarthGen: Generating the World from Top-Down Views

    机构:伊利诺伊大学

    相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

    地址:https://arxiv.org/pdf/2409.01491


113. Sports领域专用语言模型优化研究:百亿参数下领先性能的实践

    标题:OnlySportsLM: Optimizing Sports-Domain Language Models with SOTA Performance under Billion Parameters

    相关领域:模型结构改进、数据集构建

    地址:https://arxiv.org/pdf/2409.00286


114. 孟泽尔定律背后的简单随机过程

    标题:Simple stochastic processes behind Menzerath's Law

    机构:查尔斯大学

    相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

    地址:https://arxiv.org/pdf/2409.00279


115. LanguaShrink: 使用心理语言学减少标记量

    标题:LanguaShrink: Reducing Token Overhead with Psycholinguistics

    相关领域:模型结构改进、指令微调

    地址:https://arxiv.org/pdf/2409.00855


116. 从Yes-Men到真理使者:使用精确调校解决大模型的谄媚问题

    标题:From Yes-Men to Truth-Tellers: Addressing Sycophancy in Large Language Models with Pinpoint Tuning

    相关领域:模型蒸馏

    地址:https://arxiv.org/pdf/2409.01658


117. GQL和SQL/PGQ:理论与表达能力模型

    标题:GQL and SQL/PGQ: Theoretical Models and Expressive Power

    地址:https://arxiv.org/pdf/2409.01102


118. LLMs也会产生图灵幻觉:结构视角的研究

    标题:LLMs hallucinate graphs too: a structural perspective

    相关领域:模型评估、模型结构改进

    地址:https://arxiv.org/pdf/2409.00159


119. Hyper-Compression:基于超函数模型的压缩技术

    标题:Hyper-Compression: Model Compression via Hyperfunction

    相关领域:模型蒸馏

    地址:https://arxiv.org/pdf/2409.00592


120. 一键图像全部修复模型

    标题:Accurate Forgetting for All-in-One Image Restoration Model

    地址:https://arxiv.org/pdf/2409.00685


121. Automatic Detection of LLM-generated Code:Claude 3 Haiku案例研究

    标题:Automatic Detection of LLM-generated Code: A Case Study of Claude 3 Haiku

    相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

    地址:https://arxiv.org/pdf/2409.01382


122. 大模型在工业4.0中的应用

    标题:Advancing Machine Learning in Industry 4.0: Benchmark Framework for Rare-event Prediction in Chemical Processes

    相关领域:模型结构改进、预训练、指令微调、奖励模型

    地址:https://arxiv.org/pdf/2409.00485


今天的论文分享完啦,欢迎👏🏻👏🏻明天再来~

AI for Research
每天分享最新最热的Arxiv论文、一起来关注大模型、AIGC、AGI
 最新文章