HoPE: 一种新型位置编码,无需长期衰减,增强上下文意识和外推能力!一个无需调优的可控人物视频合成框架....

文摘   2024-10-29 19:27   广东  

前言:如果你想成为一只科学界的“独角兽”,那么看论文是必不可少的。只有掌握了最新的技术和理论,才能在这个竞争激烈的市场中脱颖而出,成为那只最闪亮的“独角兽”!


1. GPT-4o System Card

  标题:GPT-4o System Card

  相关领域:自回归模型、全能模型、视觉理解和音频理解

  作者:OpenAI

  分析:GPT-4o是一个自回归全能模型,它可以接受文本、音频、图像和视频的任意组合输入,并生成文本、音频和图像的任意组合输出。它的训练是端到端式的,跨越文本、视觉和音频,这意味着所有的输入和输出都被同一个神经网络处理。GPT-4o可以在232毫秒内回答音频输入,平均响应时间为320毫秒,这接近人类对话的响应时间。它在英文和代码文本方面性能与GPT-4 Turbo相当,在非英语文本方面的显著改进,同时速度更快并且API成本降低了50%。GPT-4o在视觉和音频理解方面表现特别出色,超过了现有的模型。遵循该论文构建AI安全的原则以及在白宫的自愿承诺,该论文分享了GPT-4o系统卡,其中包括该论文的准备度框架评估。在这张系统卡中,该论文详细介绍了GPT-4o的能力、局限性和安全性评估,重点关注语音到语音的能力,同时也评估了文本和图像方面的能力,以及该论文实施的措施以确保模型安全并保持一致性。该论文还包含了第三方对危险能力的评估以及GPT-4o的文本和视觉能力的社会影响讨论。

  地址:https://arxiv.org/pdf/2410.21276


2. Looking Beyond The Top-1:Transformer按序确定顶部词汇

  标题:Looking Beyond The Top-1: Transformers Determine Top Tokens In Order

  机构:希伯莱大学

  相关领域:模型结构改进、模型评估

  作者:Daria Lioubashevski,  Tomer Schlank,  Gabriel Stanovsky

  分析:论文研究Transformer的内部工作机制,关注其如何做出更准确、高效的预测。通过分析Transformer在顶部预测(top-1预测)固定后的各层计算,发现类似饱和事件的现象,该现象在语言、视觉和语音模型中都会发生。研究团队发现模型按顺序决定顶级词汇的排名,如先确定排名第一的词汇,然后是排名第二的词汇等。该现象似乎内在于Transformer架构中,并且未训练的Transformer也存在此现象。论文提出了任务转换的潜在机制,将饱和事件视为任务间的离散转换。此外,论文展示了利用隐藏层嵌入预测当前任务的可能性,并使用干预方法使模型从一项任务切换到下一项任务。最后,研究团队利用这些发现,引入了一种新颖的词汇级别早期退出策略,在性能和效率之间取得了平衡。

  地址:https://arxiv.org/pdf/2410.20210


3. HoPE: 一种新型位置编码,无需长期衰减,增强上下文意识和外推能力

  标题:HoPE: A Novel Positional Encoding Without Long-Term Decay for Enhanced Context Awareness and Extrapolation

  相关领域:模型结构改进

  作者:Yuhan Chen,  Ang Lv,  Jian Luan

  分析:本文提出了一种新型的位置编码方法(HoPE),该方法通过消除长期衰减的限制,提高了模型的上下文意识和外推能力。该论文通过实验分析了多种位置编码方法,发现即使在大型语言模型(LLMs)中,模型也能够学习到局部的衰减模式,这种模式与传统位置编码的长期衰减原则相矛盾。该论文还对流行的相对位置编码方法(RoPE)进行了细致的分析,发现在RoPE中,U形状的注意力模式是由特定学习到的组件造成的,这些组件也是限制RoPE表达能力和外推能力的关键因素。基于这些发现,该论文提出了一种新的位置编码方法——High-frequency rotary Position Encoding(HoPE)。HoPE通过去除RoPE中的位置依赖组件,保留高频信号,从而理论上也打破了长期衰减的原则。实验表明,HoPE在无长期衰减约束的情况下,能够显著提升模型的上下文意识和外推能力。

  地址:https://arxiv.org/pdf/2410.21216


4. MovieCharacter: 电影角色:一个无需调优的可控人物视频合成框架

  标题:MovieCharacter: A Tuning-Free Framework for Controllable Character Video Synthesis

  作者:Di Qiu,  Zheng Chen,  Rui Wang

  分析:这篇论文提出了一种名为MovieCharacter的简单而有效的人物视频合成框架,旨在简化合成过程并确保高质量的结果。该框架将合成任务分解为可管理的不同模块:人物分割和跟踪、视频对象去除、人物动作模仿和视频组合。通过利用现有的开源模型和整合成熟的技术,MovieCharacter能够在不依赖大量资源或专用数据集的情况下实现令人印象深刻的合成结果。实验结果表明,该框架提高了人物视频合成的效率、可访问性和适应性,为更广泛的创意和交互式应用铺平了道路。

  地址:https://arxiv.org/pdf/2410.20974


5. MedGo:中文医疗大模型

  标题:MedGo: A Chinese Medical Large Language Model

  相关领域:模型结构改进、预训练、数据集构建

  作者:Haitao Zhang,  Bo An

  分析:针对当前大型语言模型在医疗应用中的准确性和能力局限性,本文提出了一种中文医疗大语言模型MedGo。该模型通过结合高质量的无监督医疗数据、监督数据和偏好对齐数据来训练,旨在提高在医疗任务中的通用性和精确度。通过公共CBLUE基准测试和手动构建的临床数据集ClinicalQA进行的评估表明,MedGo在各种中文医疗信息处理任务中取得了有希望的性能,并在CBLUE评估中获得了第一名。此外,在临床数据集上的表现优于基准模型Qwen2,显示出在自动化医疗问题回答和临床决策支持方面的潜力。实验结果证明了MedGo在医疗领域强大的信息处理能力,并已成功部署在上海东医院。

  地址:https://arxiv.org/pdf/2410.20428


6. Vision Search Assistant:赋能视觉语言模型作为多模态搜索引擎

  标题:Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines

  相关领域:多模态、模型结构改进与预训练

  作者:Zhixin Zhang,  Yiyuan Zhang,  Xiaohan Ding

  分析:这篇论文提出了一种新型框架——视觉搜索助手,该框架结合了视觉语言模型(VLMs)和网页代理的优势,旨在解决在处理不熟悉视觉内容时面临的挑战。特别是当模型之前没有接触过图像中的对象时,它仍然能够生成可靠的答案。该框架通过实时检索信息增强生成能力,即使在系统不熟悉的情况下也能提供有根据的响应。此外,它还通过视觉和文本表示的集成,提高了模型的性能。

  地址:https://arxiv.org/pdf/2410.21220


7. Rethinking Data Synthesis:教师模型训练配方的参数训练venger与解释

  标题:Rethinking Data Synthesis: A Teacher Model Training Recipe with Interpretation

  机构:华盛顿大学

  相关领域:自然语言处理

  作者:Yifang Chen,  David Zhu

  分析:近年来,自然语言模型(LLM)的训练取得了性状进修,凸显出需要多种、高质量的指导数据的需求。近期,许多研究工作正在探索使用LLM进行合成数据生成,然而,它们主要集中在使用标准的指导下校准模型(SOA,suitable opt anal)的提示工程上,这种模型的限制是,它们被优化为通用问题回答/问题解决,而不是数据生成。该论文提出了一个根本性的转变零售商名为NOMAD,通过研究如何专门训练模型用于数据生成,证明了这个任务与训练经典的LLM有何不同。该论文确定两个关键因素:无提示遮掩训练和适当地训练集大小选择。该论文的方法,NOMAD,在试点数据上实现了明显的改进,在TriviaQA中获得了4%以上的增长,在GSM8K中实现了2%以上的增长。最后,该论文通过“相关”和“新奇度”独特视角解释了合成数据,提供了新的洞察。

  地址:https://arxiv.org/pdf/2410.20362


8. Arithmetic Without Algorithms:语言模型使用一组启发式方法解决数学问题

  标题:Arithmetic Without Algorithms: Language Models Solve Math With a Bag of Heuristics

  机构:东北大学

  相关领域:算术

  作者:Yaniv Nikankin,  Anja Reusch,  Aaron Mueller

  分析:这篇论文研究了大型语言模型在解决算术任务时是依靠学习通用的算法还是仅仅记忆训练数据。通过因果分析,论文揭示了模型中处理基本算术逻辑的部分,并深入探究了其中的功能。结果表明,模型依赖的是一组简单的启发式方法,每种方法都能识别数字输入的模式并生成相应的答案。论文进一步发现,这些启发式方法相互组合是模型产生正确算术答案的主要机制。最终,实验结果表明,这组启发式方法在模型训练初期就成为算术问题解答的主要来源。因此,论文得出结论,大型语言模型在处理算术时既不是通过学习算法也不是通过记忆,而是依赖于一组启发式方法。

  地址:https://arxiv.org/pdf/2410.21272


9. Kandinsky 3:基于潜在扩散的文本到图像生成模型

  标题:Kandinsky 3: Text-to-Image Synthesis for Multifunctional Generative Framework

  作者:Vladimir Arkhipkin,  Viacheslav Vasilev,  Andrei Filatov

  分析:这篇论文提出了一种新的文本到图像(T2I)生成模型,称为Kandinsky 3,该模型基于潜在扩散,实现了高质量和照片般真实的图像生成。这个新模型的关键特点是其简单性和适应多种生成任务的高效性。作者还扩展了基础T2I模型以适应各种应用,并创建了一个多功能生成系统,包括文本引导的绘画/擦除、图像融合、文本-图像融合、图像变化生成、I2V和T2V生成。作者还提供了一个简化版的T2I模型,通过反向过程的4个步骤进行推理,无需降低图像质量,并且比基础模型快3倍。作者还部署了一个用户友好的演示系统,所有功能都可以在公共领域测试。此外,作者还发布了Kandinsky 3及其扩展模型的源代码和检查点。人类评估表明,Kandinsky 3是开源生成系统中质量得分最高的之一。

  地址:https://arxiv.org/pdf/2410.21061


10. Face-MLLM:面向人脸感知的大型模型研究

  标题:Face-MLLM: A Large Face Perception Model

  机构:中国科学院大学

  相关领域:多模态、数据集构建、模型评估

  作者:Haomiao Sun,  Mingjie He,  Tianheng Lian

  分析:这篇论文首先评估了现有的大型语言模型在人脸感知任务上的表现,发现由于缺少精细描述人脸的图像文本数据集,现有模型难以处理这些任务。为解决此问题,论文设计了一种实用的数据集构建流程,并基于该流程构建了名为Face-MLLM的新型多模态大型人脸感知模型。该模型经过三个阶段训练,能够处理多种特定人脸感知任务并实现优越性能。

  地址:https://arxiv.org/pdf/2410.20717


11. LongReward:利用人工智能反馈改进长上下文大模型

   标题:LongReward: Improving Long-context Large Language Models with AI Feedback

   机构:中国科学院大学

   相关领域:模型评估、奖励模型、RLHF(强化学习与人类反馈)

   作者:Jiajie Zhang,  Zhongni Hou,  Xin Lv

   分析:这篇论文关注长上下文大型语言模型(LLM)的改进问题。针对LLM合成数据质量影响监督微调(SFT)模型的长上下文性能的问题,提出了LongReward方法。该方法利用现成的LLM为长上下文模型响应提供奖励,从有帮助性、逻辑性、忠实性和完整性四个维度进行评估。结合离线强化学习算法DPO,有效提升了长上下文SFT模型性能。同时,实验表明LongReward还能提高模型遵循短指令的能力,并且长上下文DPO与常规短上下文DPO可以协同使用,互不干扰。

   地址:https://arxiv.org/pdf/2410.21252


12. 图像的秘密其实是伪视频的最后一帧

   标题:Your Image is Secretly the Last Frame of a Pseudo Video

   机构:剑桥大学、帝国理工学院

   相关领域:模型结构改进

   作者:Wenlong Chen,  Wenlin Chen,  Lapo Rastrelli

   分析:这篇论文探讨了扩散模型在生成逼真图像方面的成功原因,并尝试利用伪视频来提高其他类型生成模型的性能。论文通过将图像视为伪视频的最后一帧,引入了自监督信息,并利用数据增强技术构建伪视频来训练视频生成模型。此外,论文还分析了现有数据增强方法的问题,并提出了更具表现力的数据增强方法来构建更有用的伪视频信息。实验结果表明,利用伪视频的自我监督信息可以提高图像生成的品质。

   地址:https://arxiv.org/pdf/2410.20158


13. Lodge++:基于音乐生成高质量与长舞蹈序列的生动舞蹈编排框架

   标题:Lodge++: High-quality and Long Dance Generation with Vivid Choreography Patterns

   机构:清华大学、鹏城实验室

   相关领域:模型结构改进、多模态

   作者:Ronghui Li,  Hongwen Zhang,  Yachao Zhang

   分析:该论文提出了一种名为Lodge++的舞蹈编排框架,能够根据音乐和期望的舞蹈风格生成高质量、超长且生动的舞蹈。该框架采用两阶段策略,从粗略到精细生成舞蹈,旨在解决计算效率、复杂生动全局舞蹈模式的学习和局部舞蹈动作的物理质量等挑战。第一阶段通过全局舞蹈网络生成粗粒度的舞蹈原始元素,捕捉复杂的全局舞蹈模式。第二阶段则受到这些原始元素的引导,提出基于原始元素的舞蹈扩散模型,以并行方式生成高质量的长序列舞蹈,同时保持复杂的舞蹈模式。为提高舞蹈的物理可行性,还引入了穿透引导模块、脚部优化模块和多风格判别器。

   地址:https://arxiv.org/pdf/2410.20389


14. NeuGPT:统一多模态神经网络GPT模型研究

   标题:NeuGPT: Unified multi-modal Neural GPT

   机构:香港科技大学、悉尼科技大学

   相关领域:多模态、模型结构改进

   作者:Yiqian Yang,  Yiqun Duan,  Hyejeong Jo

   分析:该论文介绍了一种名为NeuGPT的统一多模态语言生成模型。它能够协调神经记录研究的碎片化领域,突破性地融合不同神经信号,使得数据间的分析互通成为可能。尤其注重脑到文本的解码能力,并通过模型改进提高了现有技术的表现。此外,该模型还能模拟脑信号,作为一种新型神经接口。

   地址:https://arxiv.org/pdf/2410.20916

   代码:https://github.com/NeuSpeech/NeuGPT; https://github.com/NeuSpeech/NeuGPT)


15. Llama Scope:使用稀疏自动编码器从LLAMA-3.1-8B中提取数百万个特征

   标题:Llama Scope: Extracting Millions of Features from Llama-3.1-8B with Sparse Autoencoders

   机构:复旦大学、上海AI实验室

   相关领域:模型结构改进、预训练、模型评估

   作者:Zhengfu He,  Wentao Shu,  Xuyang Ge

   分析:该论文介绍了使用稀疏自动编码器(SAEs)从大型语言模型LLAMA-3.1-8B中提取特征的方法。通过在LLAMA模型的各个层和子层上训练256个SAEs,并在改进的Top-K SAEs中进行评估,研究了这些自动编码器在较长上下文和微调模型中的泛化能力。论文还分析了学习到的SAE隐含空间的几何结构,并展示了特征分割如何帮助发现新的特征。这有助于推动开源稀疏自动编码器生态系统的进步,并促进机制解释性的研究。

   地址:https://arxiv.org/pdf/2410.20526

   代码:https://huggingface.co/fnlp/Llama-Scope,; https://huggingface.co/fnlp/Llama-Scope


16. Sensor2Text:利用可穿戴传感器实现日常活动追踪的自然语言交互

   标题:Sensor2Text: Enabling Natural Language Interactions for Daily Activity Tracking Using Wearable Sensors

   机构:麻省理工学院

   相关领域:模型结构改进、多模态

   作者:Wenqiang Chen,  Jiaxuan Cheng,  Leyao Wang

   分析:这篇论文提出了一种名为Sensor2Text的模型,该模型能够利用可穿戴传感器追踪日常活动并进行对话。它解决了视频隐私问题和视野限制,同时克服了可穿戴传感器数据的低信息密度、单一传感器对人类活动识别的不足以及问答和对话能力的局限。通过引入迁移学习和学生教师网络等技术手段,该模型结合了视觉语言模型的优点,设计了一种编码器解码器神经网络来共同处理语言和传感器数据以实现对话。此外,大型语言模型也被用来增强交互能力。该模型能够识别人类活动和进行问答对话,使用各种可穿戴传感器模式。它的表现与现有的视觉语言模型相当或更好,尤其在描述和对话任务中。总的来说,这是一个创新的日常活动追踪解决方案,解决了当前基于视觉的解决方案中的隐私和视野限制问题。

   地址:https://arxiv.org/pdf/2410.20034


17. 扩散Transformer中引入局部注意力窗口以提高泛化能力

   标题:On Inductive Biases That Enable Generalization of Diffusion Transformers

   机构:Apple、罗切斯特大学

   作者:Jie An,  De Wang,  Pengsheng Guo

   分析:这篇论文研究了扩散Transformer(DiT)模型的泛化问题,并通过引入局部注意力窗口来解决。作者发现,局部注意力地图与泛化性能密切相关。在实验中,作者限制了DiT的注意力窗口大小,并观察到了性能的提升。进一步的实验表明,局部注意力窗口的位置和有效大小对性能有重要影响。这些结果表明,增强DiT的归纳偏置可以改善其泛化性能,即使在较少的训练数据下也是如此。

   地址:https://arxiv.org/pdf/2410.21273


18. LoRA与全微调:等效的幻觉

   标题:LoRA vs Full Fine-tuning: An Illusion of Equivalence

   机构:麻省理工学院

   相关领域:模型结构改进、预训练

   作者:Reece Shuttleworth,  Jacob Andreas,  Antonio Torralba

   分析:本文对比了LoRA(低秩适应)与全微调两种方法对预训练大型语言模型进行任务适应的效果。研究表明,尽管在特定任务上表现相似,但这两种方法在更新模型参数时展现了不同的行为。全微调与LoRA训练出的模型在谱属性方面存在差异,LoRA似乎引入了新的高权重特征,导致模型对预训练数据分布的表征能力减弱,且在不同任务的适应性也出现退化。因此,本文考察了这种差异的原因,并提出了减少不良影响的技术途径。

   地址:https://arxiv.org/pdf/2410.21228


19. Diff-Instruct*: 迈向人类偏好一步式文本到图像生成模型的研究

   标题:Diff-Instruct*: Towards Human-Preferred One-step Text-to-image Generative Models

   机构:北京大学、卡内基梅隆大学

   相关领域:模型结构改进、预训练、奖励模型、RLHF

   作者:Weijian Luo,  Colin Zhang,  Debing Zhang

   分析:这篇论文提出了一种无需数据的方法,用于构建一步式文本到图像生成模型。通过在线强化学习使用人类反馈对齐人类偏好,同时保持生成高度逼真的图像的能力。论文引入了一种新型基于分数的发散正则化方法,显著提高了性能。论文还展示了使用Stable Diffusion V1.5作为参考扩散模型时,Diff-Instruct*在各项指标上均大幅超越了先前领先的模型。

   地址:https://arxiv.org/pdf/2410.20898


20. 不同语言和质量水平重新表述自然文本数据以用于大模型预训练

   标题:Rephrasing natural text data with different languages and quality levels for Large Language Model pre-training

   机构:Stability AI

   相关领域:预训练

   作者:Michael Pieler,  Marco Bellagente,  Hannah Teufel

   分析:该论文研究了通过结合人工重新表述的自然文本数据集进行大型语言模型预训练的有效性,并对英语、德语、意大利语和西班牙语的奥斯卡获奖作品数据集进行了优化,以提高模型性能。

   地址:https://arxiv.org/pdf/2410.20796


21. 大模型在多事实检索中的有效性

   标题:FACT: Examining the Effectiveness of Iterative Context Rewriting for Multi-fact Retrieval

   机构:蒙特利尔大学、Google

   相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

   作者:Jinlin Wang,  Suyuchen Wang,  Ziwen Xia

   分析:这篇论文主要探讨了大语言模型在多事实检索任务中的问题,特别是在生成过程中难以同时检索多个关键信息的问题。研究者提出了一种名为Find All Crucial Texts(FACT)的方法,该方法通过迭代地重写上下文来改进检索结果,从而使模型能够逐步捕获重要的信息。实验结果表明,这种方法可以显著提高多事实检索的性能,但在通用问答场景中的效果提升并不明显。这篇论文的研究为该论文理解和改进大语言模型在多事实检索中的性能提供了重要的启示。

   地址:https://arxiv.org/pdf/2410.21012


22. 长提示的系统优化

   标题:SCULPT: Systematic Tuning of Long Prompts

   机构:微软

   作者:Shanu Kumar,  Akhila Yesantarao Venkata,  Shubhanshu Khandelwal

   分析:当大型语言模型成为解决复杂任务的越来越重要的核心时,优化长而毫无结构的无结构提示已经成为一个关键挑战。现有的优化技术往往很难有效地处理这种提示,导致性能不佳。该论文引入SCULPT(长提示的系统优化),这是一个新的框架,它通过结构化提示并应用迭代演员-批评机制来逐步改进长提示。为了增强鲁棒性和通用性,SCULPT利用了两种互补的反馈机制:先验评估,在执行前评估提示结构,错误评估,在执行后诊断和解决错误。通过汇总这些机制的反馈,SCULPT避免过拟合,并确保性能持续改进。该论文的实验结果表明,准确率有了显著提高,并且增强了鲁棒性,特别是在处理错误提示和不对齐提示时。SCULPT始终优于现有方法,成为优化长提示的可伸缩解决方案,适用于各种任务和领域。

   地址:https://arxiv.org/pdf/2410.20788


23. MarDini:融合掩码自回归的扩散模型在规模化视频生成中的应用

   标题:MarDini: Masked Autoregressive Diffusion for Video Generation at Scale

   机构:Meta AI

   相关领域:模型结构改进、多模态(视频生成涉及到多种模态的处理)

   作者:Haozhe Liu,  Shikun Liu,  Zijian Zhou

   分析:这篇论文介绍了一种新的视频扩散模型MarDini,它结合了掩码自回归(MAR)和统一扩散模型(DM)的优点。MarDini通过不对称网络设计,实现了时空规划的灵活处理,能够在任意数量的掩码帧和任意帧位置进行视频生成。该模型能够在低分辨率输入下生成规划信号,然后通过扩散去噪生成高分辨率帧。此外,MarDini还具有视频插值、图像到视频的生成和视频扩展等多种功能。该模型的设计使得计算资源能够更多地分配给低分辨率的规划模型,从而实现了大规模时空注意力的计算。MarDini在视频插值方面达到了最新的技术水平,同时能够在较少的推理步骤内高效地生成与更昂贵的图像到视频模型相当的视频。

   地址:https://arxiv.org/pdf/2410.20280


24. Centaur:人类认知的统一模型

   标题:Centaur: a foundation model of human cognition

   机构:牛津大学、纽约大学、加州大学

   相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

   作者:Marcel Binz,  Elif Akata,  Matthias Bethge

   分析:这篇论文主要介绍了一种名为Centaur的计算模型,该模型通过在大规模实验数据集Psych-101上进行微调,能够预测和模拟人类在任何可自然语言表达的实验中的行动。与现有认知模型相比,Centaur不仅能更好地捕捉到受试者的行动,还能泛化到新的覆盖故事、结构任务修改和全新领域中。此外,作者发现,经过微调后,该模型的内部表示更接近于人类神经活动。总的来说,Centaur是第一个真正的统一人类认知模型的候选者,预计将对认知科学产生颠覆性影响,挑战当前开发计算模型的范式。

   地址:https://arxiv.org/pdf/2410.20268


25. AutoKaggle:一个用于自主数据科学竞赛的多元智能框架

   标题:AutoKaggle: A Multi-Agent Framework for Autonomous Data Science Competitions

   机构:中山大学、字节跳动、墨尔本大学

   相关领域:模型评估、数据集构建、评估指标

   作者:Ziming Li,  Qianbo Zang,  David Ma

   分析:这篇论文提出了一种名为AutoKaggle的框架,旨在帮助数据科学家通过协作的多智能体系统更高效地完成日常数据流程。AutoKaggle结合了代码执行、调试和单元测试,以确保代码的正确性和逻辑一致性。此外,它还提供了一个通用的数据科学工具包,包括数据清理、特征工程和建模的验证函数,以简化常见任务,提高生产力。

   地址:https://arxiv.org/pdf/2410.20424


26. CodeRosetta:推动无监督代码翻译并行编程的边界

   标题:CodeRosetta: Pushing the Boundaries of Unsupervised Code Translation for Parallel Programming

   机构:Google、Google DeepMind

   相关领域:模型结构改进、预训练

   作者:Ali TehraniJamsaz,  Arijit Bhattacharjee,  Le Chen

   分析:论文介绍了一种名为CodeRosetta的编码解码Transformer模型,专门用于翻译编程语言和其高性能计算(HPC)扩展。该模型采用自定义学习框架,通过预训练和训练目标的有效结合,能够捕获代码语义和并行结构细微差别,实现双向翻译。论文对C++到CUDA和Fortran到C++的翻译任务进行了评估,并表现出卓越性能。

   地址:https://arxiv.org/pdf/2410.20527


27. 递归Transformer的轻松构建:有效的参数共享与逐层LoRA

   标题:Relaxed Recursive Transformers: Effective Parameter Sharing with Layer-wise LoRA

   机构:谷歌研究院、KAIST AI、Google DeepMind

   相关领域:模型结构改进、预训练、模型蒸馏

   作者:Sangmin Bae,  Adam Fisch,  Hrayr Harutyunyan

   分析:论文主要探讨了如何通过参数共享减小大型语言模型的规模和成本。介绍了一种新的方法,将现有大型语言模型转换为递归Transformer,通过跨层参数共享来减少计算量。并引入了基于深度方向的低秩适应(LoRA)模块的灵活递归Transformer,在保持模型紧凑性的同时提高了性能。论文还展示了递归模型相较于其他模型的优势,并提出了通过早期退出实现递归Transformer的连续深度方向批处理,这一新方法具有提高推理吞吐量的潜力。

   地址:https://arxiv.org/pdf/2410.20672


28. Faster WIND:加速分批次最佳策略的迭代解离,以对齐大模型

   标题:Faster WIND: Accelerating Iterative Best-of-N Distillation for LLM Alignment

   机构:卡内基梅隆大学、Google DeepMind

   相关领域:模型蒸馏、预训练

   作者:Tong Yang,  Jincheng Mei,  Hanjun Dai

   分析:这篇论文研究了如何加速迭代的分批次最佳策略的解离(BOND)以对齐大型语言模型(LLM)与人类偏好之间的关系。人工对这个领域的健康发展有着重要推动作用,近期的发展证实了分批次最佳策略的迭代解离在优化一致性和效度方面的重要性。然而,在实践中,迭代解离算法因样本和计算效率低下而难以实现。本文通过揭示迭代分批次解离与自我博弈对齐之间的统一的博弈理论联系来成功解决这一问题,为了解决领域知识模型在策略空间中的优化提供了新的框架——WIND(WIN率主导)。本文里提出了一系列执行效率高的算法,一方面,提供了正则化win率主导优化的参数空间,从而有效的解决了迭代解离中的问题,另一方面,以平方损失为目标函数,证明了其中一种特别算法对样本效率的保证。实验证明,这种算法不仅能够加快计算速度,同时在样本效率上也优于现有的方法。

   地址:https://arxiv.org/pdf/2410.20727


29. 基于多模态人工智能的乳腺癌预后综合预测研究

   标题:Multi-modal AI for comprehensive breast cancer prognostication

   机构:纽约大学、匹兹堡大学、Meta AI

   相关领域:多模态、模型评估

   作者:Jan Witowski,  Ken Zeng,  Joseph Cappadona

   分析:该研究针对乳腺癌治疗选择中的分子亚型和临床特征,开发了一种基于数字病理和临床特征的多模态人工智能测试方法。该方法使用新型AI技术,结合视觉Transformer为基础的泛癌基础模型和自监督学习,从数字化染色切片中提取特征,并整合临床数据以预测癌症复发和死亡。研究在跨越多个国家和队列的大规模数据集中验证了测试方法的准确性,并将其与现有的基因检测方法进行了比较。

   地址:https://arxiv.org/pdf/2410.21256


30. 迭代自适应大模型增强越狱能力

   标题:Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities

   机构:加州大学、微软研究院

   作者:Chung-En Sun,  Xiaodong Liu,  Weiwei Yang

   分析:近期研究显示,大型语言模型(LLM)易受自动化越狱攻击影响,其中敌对后缀通过附加到有害查询的算法构造可以绕过安全对齐并触发意外响应。生成这些后缀当前的方法计算成本高且成功率低,尤其是针对对齐良好的模型如Llama2和Llama3,针对这些局限,该论文提出ADV-LLM,这是一种通过迭代自适应过程生成增强越狱能力的LLM。该论文的框架显著降低了生成敌对后缀的计算成本,同时保持了各种开源LLM的近100%成功率。此外,它表现出对封闭源模型的强攻击转移ability,在GPT-3.5上达到99%的成功率,在GPT-4上达到49%的成功率,尽管该模型仅针对Llama3进行优化。除了增强越狱能力外,ADV-LLM可以通过生成大量数据,提供有价值的见解来进行LLM安全性研究,为未来的安全性对齐研究提供了重要的参考。

   地址:https://arxiv.org/pdf/2410.18469


31. ARLON:通过自回归模型增强扩散Transform进行长视频生成

   标题:ARLON: Boosting Diffusion Transformers with Autoregressive Models for Long Video Generation

   机构:微软、华中科技大学、香港中文大学

   相关领域:模型结构改进、多模态

   地址:https://arxiv.org/pdf/2410.20502


32. 计划指导的检索增强生成:Plan$ imes$RAG

   标题:Plan\timesRAG: Planning-guided Retrieval Augmented Generation

   机构:阿尔托大学、微软研究院

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2410.20753


33. 多字段自适应检索

   标题:Multi-Field Adaptive Retrieval

   机构:微软、东北大学

   相关领域:文档检索、多字段结构化数据、模型优化

   地址:https://arxiv.org/pdf/2410.20056


34. CompGS:释放二维组合能力,实现文本到三维的动态优化生成

   标题:CompGS: Unleashing 2D Compositionality for Compositional Text-to-3D via Dynamically Optimizing 3D Gaussians

   机构:香港大学、UC伯克利分校、Stability AI

   相关领域:模型结构改进、多模态

   地址:https://arxiv.org/pdf/2410.20723

   代码:https://chongjiange.github.io/compgs.html


35. HOVER:用于人形机器人的多功能神经网络全身控制器

   标题:HOVER: Versatile Neural Whole-Body Controller for Humanoid Robots

   机构:英伟达、德克萨斯大学、UC伯克利分校

   相关领域:模型蒸馏、多模态

   地址:https://arxiv.org/pdf/2410.21229


36. 导师的帮助解决目标泛化问题

   标题:Getting By Goal Misgeneralization With a Little Help From a Mentor

   机构:UC伯克利分校

   相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

   地址:https://arxiv.org/pdf/2410.21052


37. 快速最佳N解码 via 推测性拒绝

   标题:Fast Best-of-N Decoding via Speculative Rejection

   机构:复旦大学、普林斯顿大学、卡内基梅隆大学

   相关领域:模型结构改进、奖励模型

   地址:https://arxiv.org/pdf/2410.20290


38. MrT5:动态令牌合并用于高效字节级语言模型

   标题:MrT5: Dynamic Token Merging for Efficient Byte-level Language Models

   机构:斯坦福大学

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2410.20771


39. 大规模在线购物基准测试MMLU:用于大模型的购物多任务学习

   标题:Shopping MMLU: A Massive Multi-Task Online Shopping Benchmark for Large Language Models

   机构:圣母大学、Amazon、香港科技大学

   相关领域:数据集构建、模型评估

   地址:https://arxiv.org/pdf/2410.20745

   代码:https://github.com/KL4805/ShoppingMMLU; https://github.com/KL4805/ShoppingMMLU


40. TabDiff:一种用于表格数据生成的多模态扩散模型

   标题:TabDiff: a Multi-Modal Diffusion Model for Tabular Data Generation

   机构:斯坦福大学

   相关领域:模型结构改进、多模态

   地址:https://arxiv.org/pdf/2410.20626

   代码:https://github.com/MinkaiXu/TabDiff


41. Harmony4D:为野生近距离人类互动设计的视频数据集

   标题:Harmony4D: A Video Dataset for In-The-Wild Close Human Interactions

   机构:卡内基梅隆大学

   相关领域:数据集构建、评估指标

   地址:https://arxiv.org/pdf/2410.20294

   代码:https://jyuntins.github.io/harmony4d/


42. Layer by Layer:多任务学习在指令调整大模型中的应用

   标题:Layer by Layer: Uncovering Where Multi-Task Learning Happens in Instruction-Tuned Large Language Models

   机构:英伟达

   相关领域:指令微调、多模态、模型评估

   地址:https://arxiv.org/pdf/2410.20008


43. 重构预训练特定目标的回归模型,用于双目标药物设计

   标题:Reprogramming Pretrained Target-Specific Diffusion Models for Dual-Target Drug Design

   机构:北京大学、清华大学

   相关领域:模型结构改进、预训练、指令微调

   地址:https://arxiv.org/pdf/2410.20688


44. OmniSep:基于查询混合的统一多模态声音分离技术

   标题:OmniSep: Unified Omni-Modality Sound Separation with Query-Mixup

   机构:浙江大学、阿里巴巴集团、上海交通大学

   相关领域:多模态

   地址:https://arxiv.org/pdf/2410.21269

   代码:https://omnisep.github.io/


45. Model Equality Testing:这个API正在使用哪个模型?

   标题:Model Equality Testing: Which Model Is This API Serving?

   机构:斯坦福大学

   相关领域:模型评估

   地址:https://arxiv.org/pdf/2410.20247


46. LLMs持续进化于X模态推理的模态

   标题:LLMs Can Evolve Continually on Modality for X-Modal Reasoning

   机构:清华大学、香港科技大学

   相关领域:模型结构改进、预训练、多模态

   地址:https://arxiv.org/pdf/2410.20178

   代码:https://github.com/JiazuoYu/PathWeave


47. SCube:使用VoxSplats即时重建大规模场景

   标题:SCube: Instant Large-Scale Scene Reconstruction using VoxSplats

   机构:英伟达、剑桥大学、多伦多大学

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2410.20030


48. 训练无法训练的网络:通过表示对齐引入归纳偏置

   标题:Training the Untrainable: Introducing Inductive Bias via Representational Alignment

   机构:麻省理工学院、约翰霍普金斯大学

   相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

   地址:https://arxiv.org/pdf/2410.20035


49. Belief in the Machine:探究语言模型的知识论盲点

   标题:Belief in the Machine: Investigating Epistemological Blind Spots of Language Models

   机构:斯坦福大学、Duke University

   相关领域:模型评估、数据集构建

   地址:https://arxiv.org/pdf/2410.21195


50. Guiding Through Complexity:哪些因素有助于困难推理任务的有效监督?

   标题:Guiding Through Complexity: What Makes Good Supervision for Hard Reasoning Tasks?

   机构:清华大学、UC洛杉矶分校

   相关领域:模型评估

   地址:https://arxiv.org/pdf/2410.20533

   代码:https://github.com/hexuan21/Weak-to-Strong


51. Adaptive Video Understanding Agent:通过动态帧采样和反馈驱动推理提高效率

   标题:Adaptive Video Understanding Agent: Enhancing efficiency with dynamic frame sampling and feedback-driven reasoning

   机构:伊利诺伊大学、Amazon

   相关领域:模型结构改进、多模态

   地址:https://arxiv.org/pdf/2410.20252


52. 垂直对齐文本操纵对LLM的易受攻击性研究

   标题:Vulnerability of LLMs to Vertically Aligned Text Manipulations

   机构:纽约大学、哈佛大学、南加州大学

   相关领域:模型结构改进,模型评估

   地址:https://arxiv.org/pdf/2410.20016


53. 将大模型用于语音生成:一种后期融合的方法

   标题:Get Large Language Models Ready to Speak: A Late-fusion Approach for Speech Generation

   机构:麻省理工学院

   相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

   地址:https://arxiv.org/pdf/2410.20336


54. 动态层选择在仅解码器的大模型中的应用

   标题:Dynamic layer selection in decoder-only transformers

   机构:麦吉尔大学、Amazon

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2410.20022


55. ByteNet:通过视觉角度重新思考多媒体文件片段分类

   标题:ByteNet: Rethinking Multimedia File Fragment Classification through Visual Perspectives

   机构:南洋理工大学、华中科技大学、香港理工大学

   地址:https://arxiv.org/pdf/2410.20855


56. PaPaGei:光学生理信号开放基础模型的建立与应用

   标题:PaPaGei: Open Foundation Models for Optical Physiological Signals

   机构:剑桥大学、苏格兰大学、达特茅斯学院

   相关领域:模型结构改进、预训练

   地址:https://arxiv.org/pdf/2410.20542


57. 边缘辅助协作RAG模型:自适应知识更新的研究

   标题:EACO-RAG: Edge-Assisted and Collaborative RAG with Adaptive Knowledge Update

   机构:清华大学

   相关领域:模型结构改进、模型评估

   地址:https://arxiv.org/pdf/2410.20299


58. VLMimic:  vision language models 是视觉模仿学习者

   标题:VLMimic: Vision Language Models are Visual Imitation Learner for Fine-grained Actions

   机构:香港大学、北京大学

   相关领域:模型结构改进、预训练、指令微调、奖励模型

   地址:https://arxiv.org/pdf/2410.20927


59. Document Parsing Unveiled:技术、挑战与结构化信息提取的展望

   标题:Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction

   机构:北京大学、清华大学

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2410.21169


60. M2RC-Eval: 大规模多语种仓库级代码 completion 评估

   标题:M2rc-Eval: Massively Multilingual Repository-level Code Completion Evaluation

   机构:滑铁卢大学、阿里巴巴集团

   相关领域:数据集构建, 评估指标

   地址:https://arxiv.org/pdf/2410.21157


61. 逆值学习实现可迁移的后训练

   标题:Transferable Post-training via Inverse Value Learning

   机构:阿里巴巴集团、中国科学院大学

   相关领域:模型结构改进、预训练、多模态

   地址:https://arxiv.org/pdf/2410.21027


62. R^3AG:精确可靠的检索增强生成研讨

   标题:R^3AG: First Workshop on Refined and Reliable Retrieval Augmented Generation

   机构:清华大学、山东大学、苏格兰大学

   相关领域:模型结构改进、大模型、模型评估

   地址:https://arxiv.org/pdf/2410.20598


63. 影响多模态上下文学习效果的因素:深入研究

   标题:What Factors Affect Multi-Modal In-Context Learning? An In-Depth Exploration

   机构:清华大学、字节跳动

   相关领域:多模态、模型评估

   地址:https://arxiv.org/pdf/2410.20482


64. SARS-CoV-2系统上现场精确筛查方法

   标题:On-Site Precise Screening of SARS-CoV-2 Systems Using a Channel-Wise Attention-Based PLS-1D-CNN Model with Limited Infrared Signatures

   机构:南洋理工大学、北京航空航天大学

   地址:https://arxiv.org/pdf/2410.20132


65. 写循环开放式 RRAM 的最大存储容量约为4比特

   标题:The maximum storage capacity of open-loop written RRAM is around 4 bits

   机构:北京大学

   相关领域:模型结构改进、预训练、指令微调、奖励模型

   地址:https://arxiv.org/pdf/2410.20332


66. EoRA:训练免费的压缩LLM补偿方法

   标题:EoRA: Training-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation

   机构:香港科技大学

   地址:https://arxiv.org/pdf/2410.21271


67. 基于视频的驾驶员状态和生理多任务估计在条件自动驾驶中的高效混合专家模型

   标题:Efficient Mixture-of-Expert for Video-based Driver State and Physiological Multi-task Estimation in Conditional Autonomous Driving

   机构:香港大学、香港科技大学

   地址:https://arxiv.org/pdf/2410.21086


68. MatViX:从视觉丰富文章中提取多模态信息

   标题:MatViX: Multimodal Information Extraction from Visually Rich Articles

   机构:南加州大学、Duke University

   相关领域:多模态

   地址:https://arxiv.org/pdf/2410.20494

   代码:https://matvix-bench.github.io/


69. 不确定性惩罚直接偏好优化

   标题:Uncertainty-Penalized Direct Preference Optimization

   机构:苏黎世联邦理工学院

   相关领域:RLHF、偏好优化

   地址:https://arxiv.org/pdf/2410.20187


70. Retrieval-Enhanced Mutation Mastery:增补零shot预测的蛋白质语言模型

   标题:Retrieval-Enhanced Mutation Mastery: Augmenting Zero-Shot Prediction of Protein Language Model

   机构:上海交通大学

   相关领域:模型结构改进、预训练

   地址:https://arxiv.org/pdf/2410.21127

   代码:https://github.com/tyang816/ProtREM


71. KD-LoRA:高效细调的混合方法:LoRA和知识蒸馏的组合

   标题:KD-LoRA: A Hybrid Approach to Efficient Fine-Tuning with LoRA and Knowledge Distillation

   相关领域:模型结构改进、预训练、知识蒸馏

   地址:https://arxiv.org/pdf/2410.20777

   代码:https://github.com/rambodazimi/KD-LoRA


72. 基于大模型的顺序超参数优化

   标题:Sequential Large Language Model-Based Hyper-Parameter Optimization

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2410.20302


73. 人工智能时代下的Malinowski研究:大模型能否基于人类学经典创作文本游戏

   标题:Malinowski in the Age of AI: Can large language models create a text game based on an anthropological classic?

   相关领域:模型应用、多模态

   地址:https://arxiv.org/pdf/2410.20536


74. Analyzing Multi-Stage Loss Curve:神经网络训练过程中的平台期与下降机制

   标题:Analyzing Multi-Stage Loss Curve: Plateau and Descent Mechanisms in Neural Networks

   机构:上海AI实验室

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2410.20119


75. 参数高效的精细调优在大模型中的调查:算法方法的原理调查

   标题:Parameter-Efficient Fine-Tuning in Large Models: A Survey of Methodologies

   相关领域:模型结构改进、预训练、精细调优

   地址:https://arxiv.org/pdf/2410.19878


76. AutoBench-V:大型视觉语言模型能否进行自我评估?

   标题:AutoBench-V: Can Large Vision-Language Models Benchmark Themselves?

   机构:圣母大学、MBZUAI大学

   相关领域:模型评估、多模态

   地址:https://arxiv.org/pdf/2410.21259


77. SepMamba:利用Mamba的状态空间模型进行说话人分离

   标题:SepMamba: State-space models for speaker separation using Mamba

   机构:丹麦技术大学

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2410.20997


78. AutoRAG:针对检索增强生成管道的自动化优化框架

   标题:AutoRAG: Automated Framework for optimization of Retrieval Augmented Generation Pipeline

   相关领域:模型结构改进、预训练、检索增强

   地址:https://arxiv.org/pdf/2410.20878

   代码:https://github.com/Marker-Inc-Korea/AutoRAG_ARAGOG_Paper


79. NewTerm:面向大模型年度更新的新词汇实时评估

   标题:NewTerm: Benchmarking Real-Time New Terms for Large Language Models with Annual Updates

   相关领域:模型评估、数据集构建

   地址:https://arxiv.org/pdf/2410.20814

   代码:https://github.com/hexuandeng/NewTerm


80. 大模型的传递推理能力

   标题:Reasoning or a Semblance of it? A Diagnostic Study of Transitive Reasoning in LLMs

   机构:赫瑞瓦特大学

   相关领域:模型结构改进、预训练

   地址:https://arxiv.org/pdf/2410.20200


81. LARP:用学习到的自回归生成先验对视频进行编码

   标题:LARP: Tokenizing Videos with a Learned Autoregressive Generative Prior

   机构:马里兰大学

   相关领域:模型结构改进、自回归生成模型

   地址:https://arxiv.org/pdf/2410.21264


82. 时间的自我蒸馏实现快速大模型

   标题:Beyond Autoregression: Fast LLMs via Self-Distillation Through Time

   机构:瑞士洛桑联邦理工学院

   相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

   地址:https://arxiv.org/pdf/2410.21035


83. 自集成提升视觉推理泛化能力

   标题:Improving Generalization in Visual Reasoning via Self-Ensemble

   机构:越南胡志明市

   相关领域:模型结构改进、多模态

   地址:https://arxiv.org/pdf/2410.20883


84. 弱监督的奖励建模方法对大模型进行训练

   标题:Reward Modeling with Weak Supervision for Language Models

   相关领域:奖励模型、RLHF

   地址:https://arxiv.org/pdf/2410.20869


85. 阿拉伯语和方言的大模型综述

   标题:A Survey of Large Language Models for Arabic Language and its Dialects

   相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

   地址:https://arxiv.org/pdf/2410.20238


86. 利用持续学习改进多模态大模型

   标题:Improving Multimodal Large Language Models Using Continual Learning

   机构:罗切斯特大学

   相关领域:多模态、模型结构改进

   地址:https://arxiv.org/pdf/2410.19925


87. 长序列建模的注意力张量化:从序列到张量的学习

   标题:Long Sequence Modeling with Attention Tensorization: From Sequence to Tensor Learning

   地址:https://arxiv.org/pdf/2410.20926


88. 潜在神经算子预训练解决时变偏微分方程问题

   标题:Latent Neural Operator Pretraining for Solving Time-Dependent PDEs

   相关领域:模型结构改进、预训练、指令微调、奖励模型

   地址:https://arxiv.org/pdf/2410.20100


89. Guide-LLM:一名实体化大模型助手与基于文本的拓扑地图,用于为视障人士提供机器人引导

   标题:Guide-LLM: An Embodied LLM Agent and Text-Based Topological Map for Robotic Guidance of People with Visual Impairments

   相关领域:模型结构改进、指令微调、模型评估、评估指标

   地址:https://arxiv.org/pdf/2410.20666


90. 高效多样性体验回放用于深度强化学习

   标题:Efficient Diversity-based Experience Replay for Deep Reinforcement Learning

   机构:西北大学

   地址:https://arxiv.org/pdf/2410.20487


91. 理解Adam优化器需要更好的基于旋转的假设

   标题:Understanding Adam Requires Better Rotation Dependent Assumptions

   机构:蒙特利尔大学、Canada CIFAR AI Chair

   相关领域:模型优化、参数优化

   地址:https://arxiv.org/pdf/2410.19964


92. 婴儿语言模型是否是第二语言学习者?

   标题:Are BabyLMs Second Language Learners?

   机构:慕尼黑工业大学、慕尼黑机器学习中心

   相关领域:预训练、数据集构建

   地址:https://arxiv.org/pdf/2410.21254


93. FIRP:通过预测未来中间表示加快大模型推理速度

   标题:FIRP: Faster LLM inference via future intermediate representation prediction

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2410.20488


94. MusicFlow:基于流匹配的文本引导音乐生成

   标题:MusicFlow: Cascaded Flow Matching for Text Guided Music Generation

   相关领域:模型结构改进、多模态

   地址:https://arxiv.org/pdf/2410.20478


95. YourSkatingCoach:一种用于精细元素分析的花样滑冰视频基准

   标题:YourSkatingCoach: A Figure Skating Video Benchmark for Fine-Grained Element Analysis

   相关领域:数据集构建、模型评估

   地址:https://arxiv.org/pdf/2410.20427


96. FuseFL:基于因果视角的一次性联邦学习中的渐进模型融合

   标题:FuseFL: One-Shot Federated Learning through the Lens of Causality with Progressive Model Fusion

   相关领域:模型结构改进、联邦学习

   地址:https://arxiv.org/pdf/2410.20380


97. DualMAR:从双专业视角增强医疗辅助表示

   标题:DualMAR: Medical-Augmented Representation from Dual-Expertise Perspectives

   相关领域:模型结构改进、预训练、多模态

   地址:https://arxiv.org/pdf/2410.19955


98. GFlowNet 用于求解数学推理任务中多样化的正确解决方案

   标题:GFlowNet Fine-tuning for Diverse Correct Solutions in Mathematical Reasoning Tasks

   相关领域:模型结构改进、指令微调、奖励模型

   地址:https://arxiv.org/pdf/2410.20147


99. 数据高效低复杂度声音场景分类:通过蒸馏和渐进剪枝实现

   标题:Data-Efficient Low-Complexity Acoustic Scene Classification via Distilling and Progressive Pruning

   相关领域:模型结构改进、模型蒸馏

   地址:https://arxiv.org/pdf/2410.20775


100. 小语言模型综述

   标题:A Survey of Small Language Models

   地址:https://arxiv.org/pdf/2410.20011


101. WindTunnel——用于大规模语料库社区感知采样的框架

    标题:WindTunnel -- A Framework for Community Aware Sampling of Large Corpora

    相关领域:模型评估、数据集构建

    地址:https://arxiv.org/pdf/2410.20301


102. 合作式战略规划增强大模型的推理能力

    标题:Cooperative Strategic Planning Enhances Reasoning Capabilities in Large Language Models

    相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

    地址:https://arxiv.org/pdf/2410.20007


103. 非侵入性脑电信号解码中的跨域转换缓解

    标题:Resolving Domain Shift For Representations Of Speech In Non-Invasive Brain Recordings

    地址:https://arxiv.org/pdf/2410.19986


104. 人工智能生成视频评估综述

    标题:A Survey of AI-Generated Video Evaluation

    地址:https://arxiv.org/pdf/2410.19884


好啦,小编今天的分享就到这里啦,欢迎留言讨论哦。

AI for Research
每天分享最新最热的Arxiv论文、一起来关注大模型、AIGC、AGI
 最新文章