前言:科研就像一场冒险,而看论文就是你的探险工具!只有通过深入阅读,才能找到宝藏,发现那些意想不到的科研奇遇哦!
1. Dynamic Subset Tuning:扩大大模型参数有效训练的操作范围
标题:Dynamic Subset Tuning: Expanding the Operational Range of Parameter-Efficient Training for Large Language Models
相关领域:模型结构改进、预训练
作者:Felix Stahlberg, Jared Lichtarge, Shankar Kumar
分析:论文提出了一种新型的训练方法,可以在不固定参数位置的情况下,动态调整模型以适应下游任务。这种方法能够在不改变模型结构的基础上,通过优化一小部分参数来提高性能。与其他精确训练方法相比,该方法能够在多种自然语言处理任务上实现更优的性能,且所需的参数数量大幅减少。
地址:https://arxiv.org/pdf/2411.08610
2. Balancing Speed and Stability:FP8与BF16训练在大模型中的权衡
标题:Balancing Speed and Stability: The Trade-offs of FP8 vs. BF16 Training in LLMs
相关领域:模型结构改进
作者:Kazuki Fujii, Taishi Nakamura, Rio Yokota
分析:本文探讨了大型语言模型(LLMs)中 FP8 和 BF16 格式训练的权衡问题。文章以 NVIDIA H100 GPU 支持的 FP8 格式为例,对比与 BF16 格式,初步研究表明,在无需牺牲模型性能的前提下,FP8 可以在未来训练大规模模型时显著减少训练时间。然而,对于 FP8 的广泛影响,特别是对训练稳定性和下游任务表现的理解仍然不足。研究深入探讨了在训练 LLM 中采用 FP8 而非 BF16 的实践权衡。
地址:https://arxiv.org/pdf/2411.08719
3. 运动控制以增强复杂动作视频生成
标题:Motion Control for Enhanced Complex Action Video Generation
作者:Qiang Zhou, Shaofeng Zhang, Nianzu Yang
分析:现有文本到视频(T2V)模型通常在生成具有足够明显或复杂动作的视频方面存在困难。这一关键限制在于文本提示无法精确传达微妙的动作细节。为了解决这个问题,该论文提出了一种名为MVideo的新框架,旨在产生具有精确、流畅动作的长时间视频。MVideo通过将遮罩序列作为额外的动作条件输入,提供了一个更清晰、更准确的表现预期的动作。利用基础的视觉模型如GroundingDINO和SAM2,MVideo自动生成遮罩序列,从而增强了效率和鲁棒性。该论文的结果显示,经过训练,MVideo可以有效地将文本提示与动作条件对齐,生成同时满足这两个标准的视频。这种双重控制机制可以通过独立更改文本提示或动作条件,或同时更改两者来实现更动态的视频生成。此外,MVideo还支持动作条件编辑和组合,可以通过组合生成具有更复杂动作的视频。因此,MVideo在大模型方面的研究得到了大幅提升。
地址:https://arxiv.org/pdf/2411.08328
代码:https://mvideo-v1.github.io/
4. MikuDance: 混合动力动画系统
标题:MikuDance: Animating Character Art with Mixed Motion Dynamics
相关领域:模型结构改进
作者:Jiaxu Zhang, Xianfang Zeng, Xin Chen
分析:研究提出了一种结合混合动力模型的动画系统,该系统能够将风格化的人物艺术作品动起来。系统包括两个关键技术:混合动力模型和混合控制扩散,以解决在角色动画中动态捕捉和参考指令对齐的问题。论文还介绍了场景动态跟踪策略,能够明确地建模动态摄像机在像素空间中的运动,同时还设计了一个适应性归一化模块,能够有效地注入全局场景运动。研究通过大量实验体现了MikuDance在各种角色艺术和参考指令下的广泛适用性和高质量动画产出。
地址:https://arxiv.org/pdf/2411.08656
5. 大型无线模型(LWM)——无线通道的基础模型
标题:Large Wireless Model (LWM): A Foundation Model for Wireless Channels
相关领域:模型结构改进、预训练、指令微调、奖励模型
作者:Sadjad Alikhani, Gouranga Charan, Ahmed Alkhateeb
分析:这篇论文提出了世界上第一个无线通道的基础模型——大型无线模型(LWM)。该模型是一个通用、丰富的、上下文相关的通道嵌入(特征),可以在无线通信和传感系统的多种下游任务中提升性能。通过在大规模无线通道数据集上进行自我监督的预训练,LWM具有学习大型无线数据的能力,为能够有效适应有限数据的智能系统开辟了新的前景,解决了无线通信和传感系统中的关键挑战。
地址:https://arxiv.org/pdf/2411.08872
6. LLMStinger:利用强化学习微调大模型突破限制
标题:LLMStinger: Jailbreaking LLMs using RL fine-tuned LLMs
机构:乔治亚理工学院
相关领域:模型评估、RLHF
作者:Piyush Jha, Arnav Arora, Vijay Ganesh
分析:论文介绍了一种利用大型语言模型(LLMs)自动生成对抗后缀进行越狱攻击的新方法LLMStinger。该方法使用强化学习(RL)循环微调攻击者LLM,根据HarmBench基准的有害问题生成新的后缀。相较于传统方法和15种最新方法,LLMStinger在LLaMA2-7B-chat和Claude 2模型上分别提高了57.2%和50.3%的攻击成功率(ASR)。此外,该方法在GPT-3.5和Gemma-2B-it模型上表现出强大的稳健性和适应性。
地址:https://arxiv.org/pdf/2411.08862
7. Polymetis:面向多材料领域的大型语言建模
标题:Polymetis:Large Language Modeling for Multiple Material Domains
机构:中国科学院计算技术研究所
相关领域:模型结构改进、数据集构建
作者:Chao Huang, Huichen Xiao, Chen Chen
分析:论文提出了一种大型语言模型Polymetis,应用于多个材料领域,旨在提供材料领域的专业知识答案,涵盖能源材料、功能材料、合金材料、物理化学、生物学等方向。论文通过使用智能提取大型模型(IELM)从科学文本中提取结构化知识,避免大量需要手动标注的成本,提高效率。同时引入了增强的提示策略,确保模型的答案更加有条理和全面。
地址:https://arxiv.org/pdf/2411.08728
8. MatPilot:人工智能材料科学家
标题:MatPilot: an LLM-enabled AI Materials Scientist under the Framework of Human-Machine Collaboration
机构:国防科技大学
相关领域:模型结构改进、预训练、指令微调、奖励模型
作者:Ziqi Ni, Yahao Li, Kaijia Hu
分析:这篇论文提出了一个名为MatPilot的人工智能材料科学家,它通过自然语言交互的人机协作,增强了人类科研团队的研究能力。MatPilot结合了人类的特有认知能力、丰富的经验以及持续的好奇心和AI代理的高级抽象能力、复杂的知识存储能力和高维信息处理能力。它能生成科学假设和实验方案,并利用预测模型和优化算法驱动自动化实验平台进行实验。该论文的系统展示了高效验证、持续学习和迭代优化的能力。
地址:https://arxiv.org/pdf/2411.08063
9. 大模型在长语境推理中的自我提升能力研究
标题:Large Language Models Can Self-Improve in Long-context Reasoning
机构:腾讯
相关领域:模型评估、指令微调、模型结构改进(间接相关)
作者:Siheng Li, Cheng Yang, Zesen Cheng
分析:这篇论文主要探讨了大型语言模型(LLMs)在长语境推理中的自我提升能力。针对LLMs在长语境推理方面存在的不足,提出了一种新的方法,通过采样多个输出、评分和优化,提升LLMs在长语境下的推理能力。该方法不依赖于人工专家标注或先进模型,如GPT-4,为LLMs的进一步发展提供了新的思路。
地址:https://arxiv.org/pdf/2411.08147
10. EgoVid-5M大规模视频动作数据集:用于以自我为中心的视频生成
标题:EgoVid-5M: A Large-Scale Video-Action Dataset for Egocentric Video Generation
机构:清华大学
相关领域:数据集构建、模型结构改进
作者:Xiaofeng Wang, Kang Zhao, Feng Liu
分析:这篇论文针对以自我为中心的视频生成领域,介绍了一个新数据集EgoVid-5M。该数据集包含五百万个以自我为中心的视频片段,带有详细的动作标注和高水平的文本描述。文章解决了现有数据集无法满足以自我为中心的视频生成挑战的问题,如动态视点、复杂动作和场景多样性等。同时,文章还提出了一种新的视频生成方法EgoDreamer。
地址:https://arxiv.org/pdf/2411.08380
11. SDDBench:合成药物设计的新基准
标题:SDDBench: A Benchmark for Synthesizable Drug Design
机构:麻省理工学院、宾夕法尼亚州立大学、Google DeepMind
相关领域:模型评估、数据集构建
作者:Songtao Liu, Zhengkai Tu, Hanjun Dai
分析:该论文针对当前药物设计生成模型在湿实验室实验中面临的挑战进行阐述。其中存在的权衡问题是药理属性和合成性的取舍。预测具有理想药理属性的分子往往难以合成,而容易合成的分子则往往表现出较差的药理属性。因此,评估药物设计情景中分子的合成性仍是药物发现领域的一大挑战。论文提出一个新的数据驱动度量标准来评估分子的合成性,通过直接评估给定分子的合成路线可行性,使用往返得分作为评价指标。该方法结合了回溯合成规划器和反应预测器的协同作用,两者都在广泛的反应数据集上进行训练。论文还进行了一项全面的评估,比较了往返得分和搜索成功率在各种代表性分子生成模型上的表现。
地址:https://arxiv.org/pdf/2411.08306
代码:https://github.com/SongtaoLiu0823/SDDBench
12. 哪种视角表现最佳?用于多视图视频中弱监督视角选择的语言
标题:Which Viewpoint Shows it Best? Language for Weakly Supervising View Selection in Multi-view Videos
机构:FAIR、德克萨斯大学
相关领域:模型评估、数据集构建、评估指标、多模态
作者:Sagnik Majumder, Tushar Nagarajan, Ziad Al-Halah
分析:这篇论文提出了一种通过利用说明性多视图视频中的语言来选择最具有信息量的视角的弱监督方法。传统的视角选择方法依赖于启发式算法或昂贵的“最佳视角”监督,限制了其适用性。本文的核心假设是,一个视角能够更准确地预测一个不受视角影响的文章摘要,那么它就越具有信息量。为了实现这一目标,论文提出了一种框架,该框架使用基于视角的caption预测的相对准确性作为最佳视角伪标签的代理。这些伪标签随后用于训练视角选择器以及增强视角敏感度的辅助相机姿态预测器。在推理过程中,模型仅以多视图视频作为输入,并返回每个时间步的最佳观看视角。在包含各种多摄像头设置和如何操作活动的两个具有挑战性的数据集上,该模型在定量指标和人类评估方面均优于现有的最先进基线。
地址:https://arxiv.org/pdf/2411.08753
13. Sharingan:从桌面录制中提取用户动作序列
标题:Sharingan: Extract User Action Sequence from Desktop Recordings
机构:微软、清华大学
相关领域:模型结构改进、预训练
作者:Yanting Chen, Yi Ren, Xiaoting Qin
分析:论文提出两种基于视觉语言模型的方法来提取用户在桌面录制中的动作序列。方法包括直接基于帧的方法和基于差异帧的方法,并对方法进行了评估。研究表明,直接基于帧的方法在识别用户动作上表现良好,且提取的序列可以通过自动化流程重新执行。同时,论文指出了VLMs在提取界面变化信息时的性能下降问题,强调了直接基于帧方法的优势。
地址:https://arxiv.org/pdf/2411.08768
14. 大规模研究评估大模型的相关性:初步观察
标题:A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look
机构:微软、滑铁卢大学
相关领域:模型评估、大模型应用领域
作者:Shivani Upadhyay, Ronak Pradeep, Nandan Thakur
分析:这篇论文研究大规模语言模型在相关性评估中的应用,通过对比不同评估方法,发现自动生成的评估结果与全手动评估结果高度相关,自动评估能有效捕捉运行效率。论文还发现,在某些指标上,大语言模型的协助并没有明显提升评估效果,全手动评估的效益不明显。研究验证了在大规模评估中使用大语言模型的可行性,为后续研究奠定基础。
地址:https://arxiv.org/pdf/2411.08275
15. AstroM^3: 一种自监督的多模态模型用于天文学
标题:AstroM^3: A self-supervised multimodal model for astronomy
机构:UC伯克利分校
相关领域:预训练
作者:Mariia Rizhko, Joshua S. Bloom
分析:这篇论文旨在构建一个能够处理时间序列 photometry数据、光谱以及天文元数据的自监督预训练模型。该模型通过扩展CLIP模型到三模态设置,可以在没有标记数据的情况下学习。在下游任务中,通过调整模型参数,准确率从84.6%提高到了91.5%。论文还展示了该方法在数据量有限时也能大幅提高分类准确率。此外,该模型在未预定的任务中也表现出优秀的性能,如错误分类识别、相似搜索和异常检测。利用降维算法,文章还意外地识别出以前未知的Mira类型和小幅度变量类。这是天文学中首次建立超过两个模式的模型,未来有望进一步拓展到更多模态。
地址:https://arxiv.org/pdf/2411.08842
16. Flo:渐进流处理的语义基础
标题:Flo: a Semantic Foundation for Progressive Stream Processing
机构:普林斯顿大学、UC伯克利分校
作者:Shadaj Laddad, Alvin Cheung, Joseph M. Hellerstein
分析:本文提出一种参数化流处理语言Flo,通过定义流式处理的两个核心语义属性:流式进展和急切执行,来确保输出结果的确定性和实时更新的新颖性。Flo语言对数据流操作符和底层流结构进行抽象,通过轻量级类型系统区分有界流和无界流,并支持数据流组合和带有循环的嵌套图。此外,本文展示了Flink、LVars和DBSP等系统的语义如何在Flo中得到建模,并验证了其与该论文定义的属性相吻合。
地址:https://arxiv.org/pdf/2411.08274
17. APDDv2:带艺术家标注分数和评论的艺术品类别扩展
标题:APDDv2: Aesthetics of Paintings and Drawings Dataset with Artist Labeled Scores and Comments
机构:中国科学技术大学
相关领域:数据集构建、模型评估
作者:Xin Jin, Qianqian Qiao, Yi Lu
分析:该论文针对绘画美学评估的需求,构建了一个更加全面和精细的绘画数据集APDDv2。新数据集包含更多类别的绘画作品和更详细的美学属性标注,为自动美学评估方法的应用提供了更好的支持。此外,论文还介绍了基于ArtCLIP的模型更新情况,并验证了新模型在美学评估方面的优异性能。
地址:https://arxiv.org/pdf/2411.08545
代码:https://github.com/BestiVictory/APDDv2.git
18. Scholarly Wikidata:利用维基数据基础设施和大模型实现会议数据的可持续增长和自动填充
标题:Scholarly Wikidata: Population and Exploration of Conference Data in Wikidata using LLMs
机构:IBM研究院、丹麦技术大学
相关领域:数据集构建
作者:Nandana Mihindukulasooriya, Sanju Tiwari, Daniil Dobriy
分析:这篇论文探讨了如何使用维基数据和大型语言模型(LLMs)来实现学术数据的可持续增长和自动填充的问题。论文的主要内容包括分析现有的学术数据建模方法和知识图谱的缺陷,以及如何利用维基数据的基础设施和大型语言模型从会议网站和会议记录文本等无结构数据源中提取会议元数据,并将其自动填充到维基数据中。此外,论文还讨论了如何利用可视化工具探索生成的学术数据,并展示了该方法在语义网相关会议数据上的实际应用效果。论文强调了该方法在增强维基数据作为全面学术资源方面的潜力。
地址:https://arxiv.org/pdf/2411.08696
代码:https://github.com/scholarly-wikidata/; https://github.com/scholarly-wikidata/
19. 医学适应大型语言和视觉语言模型的局限性影响
标题:The Limited Impact of Medical Adaptation of Large Language and Vision-Language Models
机构:卡内基梅隆大学、约翰霍普金斯大学
相关领域:预训练
作者:Daniel P. Jeong, Pranav Mani, Saurabh Garg
分析:该研究对比了十种公开的'医学'LLM和两种VLMs与其基础模型,发现大多数情况下它们未能在问答任务上超过基础模型。即使在3-shot设置中,医疗LLMs也只有22.7%的胜率,余下的则性能更差。研究指出,当前通用领域模型已具备较强医疗知识与推理能力。
地址:https://arxiv.org/pdf/2411.08870
20. 基于混合状态空间模型的跨模态指令微调研究
标题:Multimodal Instruction Tuning with Hybrid State Space Models
机构:伊利诺伊大学、Amazon
相关领域:多模态、模型结构改进
作者:Jianing Zhou, Han Li, Shuai Zhang
分析:针对长文本语境处理的多模态大语言模型面临的挑战,提出一种基于混合Transformer-MAMBA模型的方法,能高效处理超过10万令牌的语境长度输入,对高清晰度图像和高帧率视频进行推理时,效率比现有模型提高约四倍。此外,该模型可在低分辨率图像或低帧率视频上训练,同时能在高分辨率图像和高帧率视频上进行推理,具有更灵活的推理能力。
地址:https://arxiv.org/pdf/2411.08840
21. 数字相似度选择覆盖分析——改进多环境Q学习
标题:Coverage Analysis for Digital Cousin Selection -- Improving Multi-Environment Q-Learning
机构:麻省理工学院
相关领域:模型结构改进、模型评估
作者:Talha Bozkus, Tara Javidi, Urbashi Mitra
分析:论文主要研究了多环境混合Q学习算法(MEMQ)的覆盖分析,通过推导覆盖系数(CC)的期望和方差的上下界,确保MEMQ算法的最优数据覆盖条件。论文还提出了一种基于CC的MEMQ算法改进方法,提高了现有算法的准确性和效率。解决了复杂网络优化中系统动态未知的问题,提高了MEMQ算法的准确性、复杂性和鲁棒性。
地址:https://arxiv.org/pdf/2411.08360
22. 链式自主功能动力学
标题:Emergent functional dynamics of link-bots
机构:哈佛大学、剑桥大学、首尔国立大学
相关领域:模型结构改进、大模型应用、自主行为研究
作者:Kyungmin Son, Kimberly Bowal, L. Mahadevan
分析:合成活性集体由许多非生物个体组成,这些个体能够合作改变群体形状和动力学,对于实际应用和揭示自然集体的指导原则都充满希望。然而,设计能够有效运行而无需智能或复杂控制的个体或群体层面的集体机器人系统是个挑战。本文探讨了简单的立体相互作用约束如何产生一个功能多样的活性系统,具有潜在的灵活性。该论文提出链式机器人,它由活性机器人构成的V形单链组成,其动力学由几何链接约束定义,允许它具有规模和处理无关的可编程集体行为。这种动态系统的各种新兴特性包括移动、导航、运输以及竞争或合作互动。通过控制几个链接参数,链式机器人展现出丰富的实用性,执行各种差异化的任务,包括穿越或阻碍狭窄空间、绕过或包围物体以及在正反方向推进负载。其可重构的性质暗示了该论文的方法可能对发展具有最小信息和材料的任意尺度可编程软机器人系统产生重大贡献。
地址:https://arxiv.org/pdf/2411.08163
23. 概念超空间内的类比推理研究
标题:Analogical Reasoning Within a Conceptual Hyperspace
机构:塔夫茨大学、麻省理工学院
作者:Howard Goldowsky, Vasanth Sarathy
分析:这篇论文提出了一种结合复杂采样超维计算(HDC)和概念空间理论(CST)的类比推理方法。它旨在解决语义理解中的类比推理问题,提出了一种具体的HDC架构来计算多种类型的类比,并初步证明了该方法的可行性和有效性。该研究为类比推理提供了新的思路和解决方案,对于人工智能的发展和应用具有积极意义。
地址:https://arxiv.org/pdf/2411.08684
24. UniMat: 通过多模态学习统一材料镶嵌
标题:UniMat: Unifying Materials Embeddings through Multi-modal Learning
机构:卡内基梅隆大学
相关领域:模型结构改进、预训练、指令微调、多模态
作者:Janghoon Ock, Joseph Montoya, Daniel Schweigert
分析:这篇论文主要研究了材料科学数据集的多模态特性,即不同数据类型如材料结构、X射线衍射图样和成分等不同形式的模式。论文通过多模态学习中的对齐和融合技术,将材料结构的原子结构、X射线衍射图案(XRD)和组成统一,证明结构图模态可以通过与XRD图案对齐而得到增强。此外,论文还表明,通过将XRD图案和组成这两个更容易获得的数据格式进行对齐和融合,可以创建出比单独模态更加健壮的联合嵌入,这对于未来的多模态数据在材料科学研究中的应用奠定了基础,有助于提高材料设计与发现中的决策质量。
地址:https://arxiv.org/pdf/2411.08664
25. CorrSynth——一种用于从大模型中生成多样化数据集的相关采样方法
标题:CorrSynth -- A Correlated Sampling Method for Diverse Dataset Generation from LLMs
机构:Amazon
相关领域:数据集构建
作者:Suhas S Kowshik, Abhishek Divekar, Vijit Malik
分析:这篇论文主要解决大语言模型生成数据缺乏多样性、对提示的遵循度低以及模型可能带来的偏见问题。提出一种相关采样策略,旨在生成更加多样化和忠于输入提示的数据。该方法克服了基于分类器的指导技术的复杂性缺点。
地址:https://arxiv.org/pdf/2411.08553
26. LSH-MoE:通过局部敏感哈希实现通信高效的MoE训练
标题:LSH-MoE: Communication-efficient MoE Training via Locality-Sensitive Hashing
机构:普渡大学、北京大学、字节跳动
相关领域:模型结构改进、模型评估
作者:Xiaonan Nie, Qibin Liu, Fangcheng Fu
分析:这篇论文提出了LSH-MoE,一种基于局部敏感哈希的通信高效的MoE训练框架。该框架旨在解决大规模MoE模型训练中存在的高通信开销问题,通过利用LSH压缩数据,降低训练成本,并提高训练效率和可扩展性。
地址:https://arxiv.org/pdf/2411.08446
27. MBA-SLAM:考虑运动模糊的密集视觉SLAM与辐射场表示
标题:MBA-SLAM: Motion Blur Aware Dense Visual SLAM with Radiance Fields Representation
机构:浙江大学、西湖大学
相关领域:模型结构改进
作者:Peng Wang, Lingzhe Zhao, Yin Zhang
分析:这篇论文提出了一种密集视觉SLAM管道(MBA-SLAM),能够处理严重的运动模糊输入。通过有效地结合运动模糊感知追踪和神经网络辐射场或高斯溅射映射,MBA-SLAM能够准确模拟运动模糊图像的物理成像过程,并同时学习三维场景表示和估计相机在曝光期间的本地轨迹。该方法能够在运动模糊的情况下主动补偿相机移动造成的模糊,提高了相机定位和地图重建的精度。
地址:https://arxiv.org/pdf/2411.08279
代码:https://github.com/WU-CVGL/MBA-SLAM
28. PERFT:为混合专家模型提供统一框架
标题:PERFT: Parameter-Efficient Routed Fine-Tuning for Mixture-of-Expert Model
机构:剑桥大学、慕尼黑工业大学
相关领域:模型结构改进、预训练、模型评估
作者:Yilun Liu, Yunpu Ma, Shuo Chen
分析:本文主要介绍了一种将参数高效微调(PEFT)模块直接集成到混合专家(MoE)机制中的统一框架。该框架包含一系列设计维度,旨在提高MoE模型的微调效率。通过一系列实验,验证了该框架在常识和算术推理任务中的有效性、可扩展性和动态特性。此外,还提供了一些具体设计选择的经验性发现,以促进更好地应用MoE和PEFT。
地址:https://arxiv.org/pdf/2411.08212
29. TIPO:基于文本预采样的文本到图像生成提示优化框架
标题:TIPO: Text to Image with Text Presampling for Prompt Optimization
机构:清华大学
相关领域:模型结构改进、指令微调
作者:Shih-Ying Yeh, Sang-Hyun Park, Giyeong Oh
分析:TIPO是一个旨在优化基于语言模型的文本到图像生成的框架。它通过细化用户提供的提示,缩短简单输入与高质量图像生成所需详细提示之间的差距。采用基于训练集的提示分布调整用户输入提示的预采样方法,提高运行效率,并优化了图像生成的质量。实验结果表明,TIPO在提高美学评分、减少图像损坏以及更好地对齐生成图像与数据集分布方面表现出良好的效果。
地址:https://arxiv.org/pdf/2411.08127
30. Tree-of-Table:释放大模型在大型表格理解和运用的潜能
标题:Tree-of-Table: Unleashing the Power of LLMs for Enhanced Large-Scale Table Understanding
机构:阿里巴巴集团、上海交通大学、中国科学技术大学
相关领域:模型结构改进, 大规模表理解
作者:Deyi Ji, Lanyun Zhu, Siqi Gao
分析:表格作为跨领域中半结构化数据的普遍形式,其丰富性和复杂性意味着需要高级方法来理解其细节和大量信息。尽管大语言模型(LLMs)在推进自然语言理解方面展现出了强大的能力,但在应对大规模表格数据时仍面临显著挑战,尤其是基于表格大小和复杂关系的角度。现有研究表明,对于小规模表格,这些方法表现出一定的有效性,但当面对实际场景中发现的大型、关联性复杂的表格时,复杂的推理要求往往让它们束手无策。为解决问题,本研究提出了‘树状表格’这一创新性方法,旨在提升LLMs在处理大型复杂表格时的逻辑推理能力。该方法采用了表格凝练和分解技术,将关键数据转换为易于处理的格式,并构建了一个层次化的表格树来促进树结构的推理。通过精心设定的表树执行流程,解构出树结构的推理链条以揭示解决方案。在WikiTQ、TableFact、FeTaQA、BIRD等多个数据集上的实验结果表明,树状表格在大规模表理解中设定了新的基准,以其卓越的效率和泛化能力在领域内有着重要价值。
地址:https://arxiv.org/pdf/2411.08516
31. MLLMs在弱监督时序动作定位任务中的指导作用研究
标题:Can MLLMs Guide Weakly-Supervised Temporal Action Localization Tasks?
机构:清华大学、上海交通大学
相关领域:模型结构改进、多模态
地址:https://arxiv.org/pdf/2411.08466
32. 混合AI代理增强教室对话序列分析:合并专家规则库与大规模语言模型
标题:Enhanced Classroom Dialogue Sequences Analysis with a Hybrid AI Agent: Merging Expert Rule-Base with Large Language Models
机构:清华大学
相关领域:模型结构改进
地址:https://arxiv.org/pdf/2411.08418
33. 动态奖励与提示优化使大模型实现无需调参的自我对齐
标题:Dynamic Rewarding with Prompt Optimization Enables Tuning-free Self-Alignment of Language Models
机构:UC圣迭戈分校、MBZUAI大学
相关领域:模型结构改进、奖励模型、自对齐
地址:https://arxiv.org/pdf/2411.08733
34. 基于人类反馈的强化学习奖励重新分配方法的研究
标题:R3HF: Reward Redistribution for Enhancing Reinforcement Learning from Human Feedback
机构:浙江大学、香港科技大学
相关领域:奖励模型、RLHF
地址:https://arxiv.org/pdf/2411.08302
35. 多尺度城市街景融合无人机具身视觉语言导航
标题:NavAgent: Multi-scale Urban Street View Fusion For UAV Embodied Vision-and-Language Navigation
机构:中国科学院大学
相关领域:模型结构改进、预训练、指令微调、奖励模型
地址:https://arxiv.org/pdf/2411.08579
36. 视觉对话增强端到端知识检索中的多模态查询表示
标题:Enhancing Multimodal Query Representation via Visual Dialogues for End-to-End Knowledge Retrieval
机构:韩国高丽大学
相关领域:多模态、模型结构改进
地址:https://arxiv.org/pdf/2411.08334
代码:https://github.com/yeongjoonJu/Ret_XKnow
37. 基于LLM的世界模型在决策制定中的评估
标题:Evaluating World Models with LLM for Decision Making
机构:香港理工大学、新加坡管理大学
相关领域:模型评估、多模态
地址:https://arxiv.org/pdf/2411.08794
38. 从图像生成菜谱的检索增强大型多模态模型
标题:Retrieval Augmented Recipe Generation
机构:复旦大学、新加坡管理大学
相关领域:模型结构改进、预训练、指令微调、奖励模型
地址:https://arxiv.org/pdf/2411.08715
39. Retrieval, Reasoning, Re-ranking:增强上下文关系的多模态框架
标题:Retrieval, Reasoning, Re-ranking: A Context-Enriched Framework for Knowledge Graph Completion
机构:IDEA、香港科技大学
地址:https://arxiv.org/pdf/2411.08165
40. LoRA-BERT:一种用于长非编码RNA预测的自然语言处理模型
标题:LoRA-BERT: a Natural Language Processing Model for Robust and Accurate Prediction of long non-coding RNAs
机构:德克萨斯农工大学、布鲁克黑文国家实验室
相关领域:模型结构改进、预训练
地址:https://arxiv.org/pdf/2411.08073
41. Conditional Variable Flow Matching:利用泛化条件最优传输学习条件分布
标题:Conditional Variable Flow Matching: Transforming Conditional Densities with Amortized Conditional Optimal Transport
机构:乔治亚理工学院
相关领域:模型结构改进
地址:https://arxiv.org/pdf/2411.08314
42. 动态原型更新方法用于多模态出界检测
标题:DPU: Dynamic Prototype Updating for Multimodal Out-of-Distribution Detection
机构:南加州大学、德克萨斯农工大学
相关领域:模型结构改进
地址:https://arxiv.org/pdf/2411.08227
43. OSMLoc:基于单一图像的开放街图视觉定位,带有几何和语义指导
标题:OSMLoc: Single Image-Based Visual Localization in OpenStreetMap with Geometric and Semantic Guidances
相关领域:模型结构改进
地址:https://arxiv.org/pdf/2411.08665
代码:https://github.com/WHU-USI3DV/OSMLoc
44. HyperFace:通过探索人脸嵌入球面生成合成人脸识别数据集
标题:HyperFace: Generating Synthetic Face Recognition Datasets by Exploring Face Embedding Hypersphere
机构:伊迪亚普研究所、瑞士洛桑联邦理工学院
地址:https://arxiv.org/pdf/2411.08470
45. 基于大模型的学术数据检索增强生成优化
标题:Towards Optimizing a Retrieval Augmented Generation using Large Language Model on Academic Data
相关领域:模型评估、数据集构建、评估指标
地址:https://arxiv.org/pdf/2411.08438
46. 基于残差特征对齐的预训练模型机器遗忘研究
标题:Machine Unlearning on Pre-trained Models by Residual Feature Alignment Using LoRA
相关领域:预训练、模型结构改进
地址:https://arxiv.org/pdf/2411.08443
47. 多角度立场检测
标题:Multi-Perspective Stance Detection
机构:意大利比萨大学
相关领域:模型评估
地址:https://arxiv.org/pdf/2411.08752
48. 触发词对于文档级事件抽取的必要性研究
标题:Are Triggers Needed for Document-Level Event Extraction?
机构:康奈尔大学
相关领域:模型评估、数据集构建
地址:https://arxiv.org/pdf/2411.08708
49. 边缘LLM的NVCiM辅助提示调整框架
标题:NVCiM-PT: An NVCiM-assisted Prompt Tuning Framework for Edge LLMs
机构:圣母大学
相关领域:模型结构改进、指令微调
地址:https://arxiv.org/pdf/2411.08244
50. 字节对编码的理论分析
标题:Theoretical Analysis of Byte-Pair Encoding
相关领域:模型结构改进、预训练
地址:https://arxiv.org/pdf/2411.08671
51. 知识库支持大模型处理网络新闻
标题:Knowledge Bases in Support of Large Language Models for Processing Web News
相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态
地址:https://arxiv.org/pdf/2411.08278
52. 语言代理的规划能力提升:STEP框架
标题:One STEP at a time: Language Agents are Stepwise Planners
机构:莫纳什大学
地址:https://arxiv.org/pdf/2411.08432
53. 人类为中心的人工智能转型:探索软件工程中的社会和合作动态
标题:Human-Centered AI Transformation: Exploring Behavioral Dynamics in Software Engineering
机构:哥德堡大学
地址:https://arxiv.org/pdf/2411.08693
54. 朝向人类理解的可控合成
标题:Toward Human Understanding with Controllable Synthesis
相关领域:数据集构建
地址:https://arxiv.org/pdf/2411.08663
55. XiYan-SQL:基于多生成器组合的文本到SQL转换框架
标题:XiYan-SQL: A Multi-Generator Ensemble Framework for Text-to-SQL
相关领域:模型结构改进、多模态
地址:https://arxiv.org/pdf/2411.08599
56. LogLLM:基于日志的大模型异常检测
标题:LogLLM: Log-based Anomaly Detection Using Large Language Models
相关领域:模型结构改进、预训练、多模态
地址:https://arxiv.org/pdf/2411.08561
57. BAMAX:利用强化学习辅助回溯的多智能体探索
标题:BAMAX: Backtrack Assisted Multi-Agent Exploration using Reinforcement Learning
相关领域:模型评估
地址:https://arxiv.org/pdf/2411.08400
58. GPTree: 通过LLM增强的决策树,实现决策的透明性
标题:GPTree: Towards Explainable Decision-Making via LLM-powered Decision Trees
相关领域:模型结构改进
地址:https://arxiv.org/pdf/2411.08257
59. CameraHMR:结合透视对齐人物
标题:CameraHMR: Aligning People with Perspective
相关领域:模型结构改进、数据集构建
地址:https://arxiv.org/pdf/2411.08128
60. CamemBERT 2.0:更完善的法语语言模型
标题:CamemBERT 2.0: A Smarter French Language Model Aged to Perfection
相关领域:模型结构改进、预训练、数据集构建
地址:https://arxiv.org/pdf/2411.08868
61. JavaScript中面向对象编程的新实现
标题:Advanced OOP and new syntax patterns for Javascript
地址:https://arxiv.org/pdf/2411.08833
62. 视觉自回归模型的综述
标题:A Survey on Vision Autoregressive Model
相关领域:模型结构改进、多模态
地址:https://arxiv.org/pdf/2411.08666
63. 模仿学习从观察中获取知识:自回归混合专家模型
标题:Imitation Learning from Observations: An Autoregressive Mixture of Experts Approach
地址:https://arxiv.org/pdf/2411.08232
64. Deep Learning 2.0:重要的人工神经元 -- 拒绝相关性,拥抱正交性
标题:Deep Learning 2.0: Artificial Neurons That Matter -- Reject Correlation, Embrace Orthogonality
相关领域:模型结构改进
地址:https://arxiv.org/pdf/2411.08085
65. ScriptGen: 通过元启发式生成Scribble艺术
标题:ScribGen: Generating Scribble Art Through Metaheuristics
地址:https://arxiv.org/pdf/2411.08673
66. 基于材料性能的晶体结构生成
标题:Crystal Structure Generation Based On Material Properties
相关领域:模型结构改进
地址:https://arxiv.org/pdf/2411.08464
67. 核电厂故障预测模型
标题:A Fuzzy Reinforcement LSTM-based Long-term Prediction Model for Fault Conditions in Nuclear Power Plants
地址:https://arxiv.org/pdf/2411.08370
68. 优化使用动态上下文扩展自动总结长病历记录:NBCE方法的测试和评估
标题:Optimizing Automatic Summarization of Long Clinical Records Using Dynamic Context Extension:Testing and Evaluation of the NBCE Method
地址:https://arxiv.org/pdf/2411.08586
看论文是一天,不看论文也是一天,为什么不每天充实下自己呢^_^^_^