字节发布最新AR研究:随机自回归视觉生成技术!GameGen-X:互动式开放世界游戏视频生成 ....

文摘   2024-11-04 19:04   广东  

前言:平淡无奇的一天又来了,今天要分享的内容主要是关于大模型、数据集构建、模型评估的,喜欢的小伙伴赶紧去阅读相关论文吧。


1. 随机自回归视觉生成

  标题:Randomized Autoregressive Visual Generation

  机构:字节跳动

  作者:Qihang Yu,  Ju He,  Xueqing Deng

  分析:这篇论文提出了一种称为随机自回归(RAR)的模型,用于视觉生成任务。该模型在保持与语言建模框架完全兼容的同时,实现了图像生成任务上新的最先进性能。通过在标准的自回归训练过程中引入随机排列输入序列到不同因子化顺序的可能性,并以概率r进行控制,这种训练策略使得模型能够学习最大化所有因子化顺序下的预期似然,从而有效地提升了模型在双向上下文建模方面的能力。重要的是,RAR保留了自回归建模框架的完整性,确保了与语言建模的完全兼容性,同时显著提高了图像生成任务的性能。在ImageNet-256基准测试上,RAR实现了FID得分为1.48,不仅超过了先前的最先进的自回归图像生成器,而且优于领先的扩散式方法和遮罩Transformer方法。代码和模型将在 https://github.com/bytedance/1d-tokenizer 上提供。

  地址:https://arxiv.org/pdf/2411.00776

  代码:https://github.com/bytedance/1d-tokenizer


2. GameGen-X:互动式开放世界游戏视频生成

  标题:GameGen-X: Interactive Open-world Game Video Generation

  机构:香港科技大学、香港中文大学、中国科学技术大学

  相关领域:模型结构改进、预训练、指令微调、数据集构建

  作者:Haoxuan Che,  Xuanhua He,  Quande Liu

  分析:该论文介绍了一款名为GameGen-X的扩散变换模型,该模型专门用于生成并控制开放世界游戏视频。它模拟了广泛的游戏引擎功能,如角色创新、动态环境、复杂动作和多样化事件等,实现了高质量的视频生成。此外,它还提供了交互式控制功能,能够根据当前片段预测和改变未来的内容,从而实现游戏模拟。该论文通过构建开放世界游戏数据集来实现这一目标,该数据集是开放世界游戏视频生成和控制的首个最大数据集。此外,论文介绍了模型的两阶段训练过程,包括基础模型的预训练指令和调整,并详细阐述了如何实现交互式控制功能。

  地址:https://arxiv.org/pdf/2411.00769


3. LLM-Ref:利用大模型增强技术写作的参考文献处理能力

  标题:LLM-Ref: Enhancing Reference Handling in Technical Writing with Large Language Models

  机构:俄勒冈州立大学

  相关领域:模型结构改进、写作辅助工具

  作者:Kazi Ahmed Asif Fuad,  Lizhong Chen

  分析:这篇论文提出了一种名为LLM-Ref的写作辅助工具,该工具利用大型语言模型(LLMs)增强技术写作的参考文献处理能力。该工具能够直接从文本段落中检索和生成内容,具有增强的参考文献合成和处理功能,有助于提高文章写作的准确性和相关性。论文通过对比实验证明了LLM-Ref相较于传统的基于RAG的系统,能够显著提高写作援助工具的能力和准确性。

  地址:https://arxiv.org/pdf/2411.00294


4. 大模型的合并

  标题:MoD: A Distribution-Based Approach for Merging Large Language Models

  相关领域:模型结构改进、预训练、指令微调、奖励模型

  作者:Quy-Anh Dang,  Chris Ngo

  分析:这篇论文提出了一种新的大语言模型合并方法——Mixture of Distributions(MoD)。传统的权重平均方法在合并大型语言模型时存在许多问题,如资源利用效率低、任务间知识共享困难等。而MoD则直接对模型的输出概率分布进行操作,有效地保留了每个模型的专业能力,并能在任务间实现知识共享。通过在数学推理基准测试中使用Qwen2.5模型的实验表明,MoD在多个基准测试上都比现有的模型合并技术表现得更好。

  地址:https://arxiv.org/pdf/2411.00406

  代码:https://github.com/knovel-eng/mod


5. ZIM:零样本图像抠图技术应用于万物抠图

  标题:ZIM: Zero-Shot Image Matting for Anything

  相关领域:模型结构改进、数据集构建

  作者:Beomyoung Kim,  Chanyong Shin,  Joonhyun Jeong

  分析:本文主要提出了一种新型的零样本图像抠图模型ZIM,解决了现有模型在生成精细遮罩时的不足。通过构建新的数据集SA1B-Matte,并结合分段基础模型SAM进行训练,使得模型既能够生成精确的遮罩,又保持零样本能力。此外,设计了一种带有层次像素解码器和提示感知掩码注意力机制的模型,提高了性能。实验结果表明,ZIM在精细遮罩生成和零样本泛化方面优于现有方法,并在需要精确遮罩的下游任务(如图像填充和3D NeRF)中表现出强大的通用性。

  地址:https://arxiv.org/pdf/2411.00626

  代码:https://github.com/naver-ai/ZIM


6. 数学中的模式提升:借助人工智能的构造方法

  标题:PatternBoost: Constructions in Mathematics with a Little Help from AI

  机构:FAIR

  相关领域:模型结构改进、数据集构建

  作者:François Charton,  Jordan S. Ellenberg,  Adam Zsolt Wagner

  分析:该论文提出了一种名为PatternBoost的灵活方法,用于寻找数学中的有趣构造。该方法交替进行两个阶段:第一个局部阶段使用经典搜索算法生成许多理想的构造;第二个全局阶段使用Transformer神经网络训练这些最佳构造,并使用训练好的Transformer样本作为下一阶段的种子。这种方法在极值组合学的问题上得到了应用,并在某些情况下展现了出色的性能。该方法甚至找到了一些长期悬而未决问题的最佳解决方案。

  地址:https://arxiv.org/pdf/2411.00566


7. 多智能体任务的规划与推理基准:PARTNR

  标题:PARTNR: A Benchmark for Planning and Reasoning in Embodied Multi-agent Tasks

  机构:FAIR

  相关领域:模型评估、数据集构建

  作者:Matthew Chang,  Gunjan Chhablani,  Alexander Clegg

  分析:论文提出了一种名为PARTNR的基准测试,用于研究人机协作中的规划与推理任务。它旨在解决家庭活动中的多智能体协作问题,包含空间、时间和智能体能力约束等日常任务特点。论文利用大型语言模型进行半自动化任务生成,并通过仿真进行验证。该基准测试包含10万个自然语言任务,涉及60个房屋和5819个独特对象。论文分析表明,当前大型语言模型在PARTNR任务中仍存在显著局限性,如协调性差、任务跟踪和错误恢复能力弱等。论文还探讨了模型调优和与真人协作的效果。

  地址:https://arxiv.org/pdf/2411.00081


8. 令牌翻译适应语言模型

  标题:Adapting Language Models via Token Translation

  机构:微软研究院、卡内基梅隆大学

  相关领域:模型结构改进、预训练、指令微调

  作者:Zhili Feng,  Tanya Marwah,  Lester Mackey

  分析:这篇论文介绍了一种名为Sparse Sinkhorn Token Translation(S2T2)的方法,该方法针对现代大型语言模型在新目标域中应用的局限性进行了改进。传统的语言模型使用固定的分词器来压缩来自源域的文本,但当将这些模型应用于新的目标域时,往往会导致压缩效果差、推理成本较高以及语义对齐度降低等问题。S2T2通过为目标域训练专门的分词器并学习目标令牌与源令牌之间的翻译,更有效地利用预训练的下一个源令牌预测器。实验表明,在微调的英语语言模型中,S2T2能够改进蛋白质序列的困惑度和压缩效果,并且相对于直接使用源或目标分词器进行微调的效果更好。此外,研究还发现,为小规模、成本较低的模型学习的令牌翻译可以直接转移到大规模、功能更强大的模型,以实现降低成本并收获S2T2的效益。

  地址:https://arxiv.org/pdf/2411.00593


9. 基于自我进化的奖励学习的大模型研究

  标题:Self-Evolved Reward Learning for LLMs

  机构:微软、复旦大学、北京大学

  相关领域:奖励模型、RLHF

  作者:Chenghua Huang,  Zhizhen Fan,  Lu Wang

  分析:这篇论文提出了一种名为Self-Evolved Reward Learning(SER)的新型奖励学习模型方法,该方法适用于大型语言模型(LLMs)。SER的核心在于使用奖励模型生成额外的训练数据,进行迭代自我改进。研究主要解决了强化学习从人类反馈中的问题,尤其是在使用人工智能系统的偏见方面,并且表明在有限的标注数据下,自我反馈学习可以有效地提高奖励模型的性能。

  地址:https://arxiv.org/pdf/2411.00418


10. 时尚视频扩散模型:用于虚拟试穿的技术

  标题:Fashion-VDM: Video Diffusion Model for Virtual Try-On

  机构:谷歌研究院、华盛顿大学

  相关领域:模型结构改进、多模态

  作者:Johanna Karras,  Yingwei Li,  Nan Liu

  分析:这篇论文提出了一种基于视频扩散模型(VDM)的虚拟试穿技术,旨在生成高质量的人物穿着给定衣物的试穿视频。该研究解决了现有视频虚拟试穿方法缺乏细节和时序一致性的问题。通过扩散模型架构、分类器自由引导和渐进式时序训练策略,该研究在单通道64帧、512像素的视频生成中取得了显著成果。此外,该研究还展示了联合图像视频训练对于视频试穿的有效性,特别是在视频数据有限的情况下。实验证明,该方法在视频虚拟试穿领域取得了最新成果。

  地址:https://arxiv.org/pdf/2411.00225

  代码:https://johannakarras.github.io/Fashion-VDM


11. BOMP:基于优化的运动规划策略

   标题:BOMP: Bin-Optimized Motion Planning

   机构:UC伯克利分校、卡内基梅隆大学

   作者:Zachary Tam,  Karthik Dharmarajan,  Tianshuang Qiu

   分析:论文提出了一种名为BOMP的基于优化的运动规划框架,用于为六轴工业机器人规划手臂运动,以从深箱中移除盒子。BOMP考虑了机器人手臂的运动学、驱动限制、被抓握盒子的尺寸以及箱子存储环境的可变高度图,以快速生成时间优化、跃度限制和无碰撞的轨迹。通过使用深度神经网络进行离线模拟训练,BOMP能够迅速规划运动轨迹,从而提高生产效率。

   地址:https://arxiv.org/pdf/2411.00221

   代码:https://sites.google.com/berkeley.edu/bomp


12. 向量量化优化情境语音识别的高效检索

   标题:Optimizing Contextual Speech Recognition Using Vector Quantization for Efficient Retrieval

   机构:Apple

   相关领域:模型结构改进、预训练

   作者:Nikolaos Flemotomos,  Roger Hsiao,  Pawel Swietojanski

   分析:论文提出了一个基于向量量化的跨注意力评分近似算法,用于情境语音识别。该算法通过有效的量化检索模块筛选与音频相关的背景信息,并将其用于提高识别准确率。这种方法不仅可以减轻计算复杂性,还能够大幅减少内存使用,使得模型能够高效利用数以千计的背景信息列表,从而在识别个人实体时减少多达71%的错误率。同时,该算法还能在保持准确性的前提下,将计算时间和内存使用分别减少20%和85%-95%。

   地址:https://arxiv.org/pdf/2411.00664


13. LogiCity: 推进神经符号AI的抽象城市模拟

   标题:LogiCity: Advancing Neuro-Symbolic AI with Abstract Urban Simulation

   机构:多伦多大学、卡内基梅隆大学、宾夕法尼亚大学

   相关领域:模型结构改进

   作者:Bowen Li,  Zhaoyu Li,  Qiwei Du

   分析:这篇论文提出了一个名为LogiCity的模拟器,它基于可定制的先验逻辑,用于模拟具有多个动态代理的类似城市环境。该模拟器能够建模多样化的城市元素,并通过逻辑规则来定义代理的行为。LogiCity的最大特点是具有用户可配置的抽象级别,这使得模拟可以在不同的复杂性和代理行为中进行定制。论文通过引入两个不同难度的任务来探索神经符号AI的各种方面,并展示了这种框架在抽象推理方面的优势。同时也指出了在处理多代理场景和复杂抽象时所面临的挑战。

   地址:https://arxiv.org/pdf/2411.00773


14. DARD:面向任务导向对话系统的多智能体方法

   标题:DARD: A Multi-Agent Approach for Task-Oriented Dialog Systems

   机构:Amazon、卡内基梅隆大学

   相关领域:模型结构改进、多模态

   作者:Aman Gupta,  Anirudh Ravichandran,  Ziji Zhang

   分析:这篇论文提出了一种面向任务导向对话系统的多智能体方法DARD,能够成功处理多领域对话。它通过领域特定的智能体和一个中央对话管理智能体的协作来工作。论文通过广泛实验,结合了小型微调模型和大语言模型的优势,在MultiWOZ基准测试上取得了最新性能。论文还讨论了MultiWOZ数据集和其评价系统的标注员差异和问题。

   地址:https://arxiv.org/pdf/2411.00427


15. RESTOR:通过机器遗忘恢复知识

   标题:RESTOR: Knowledge Recovery through Machine Unlearning

   机构:英伟达、马里兰大学、华盛顿大学

   相关领域:模型评估、数据集构建与评估指标

   作者:Keivan Rezaei,  Khyathi Chandu,  Soheil Feizi

   分析:这篇论文关注大型语言模型在训练过程中可能记忆的不可取数据点,如错误事实、版权内容或敏感数据。论文提出RESTOR框架,旨在通过机器遗忘技术恢复知识。框架包括现实世界事实知识任务设置、模拟需要遗忘的不同类型数据点的腐蚀场景,以及强调恢复模型原始状态的评估指标。研究揭示了流行遗忘算法的机制和新见解,例如定位遗忘目标可以增强遗忘性能。该框架有助于评估和改进机器遗忘算法的效果。

   地址:https://arxiv.org/pdf/2411.00204


16. TurtleBench:一个用于评估大型多模态模型几何推理能力的视觉编程基准

   标题:TurtleBench: A Visual Programming Benchmark in Turtle Geometry

   机构:UC尔湾分校

   相关领域:模型评估、多模态学习

   作者:Sina Rismanchian,  Yasaman Razeghi,  Sameer Singh

   分析:这篇论文介绍了一个名为TurtleBench的视觉编程基准,旨在评估大型多模态模型(LMMs)对几何图案的推理能力。与人类的直觉不同,传统的多模态模型在这方面的表现不尽人意。TurtleBench通过模拟儿童编程概念(通过海龟几何)设计了一系列任务,要求模型理解图像或文本指令,并生成精确的代码输出。研究显示,当前的多模态模型在处理这些任务时的表现不佳,尤其是对于那些涉及复杂算法逻辑的简单任务,这表明在评估LMMs在几何推理上的能力方面,需要更有效的评估方法。

   地址:https://arxiv.org/pdf/2411.00264

   代码:https://github.com/sinaris76/TurtleBench


17. 手持式视频文档扫描:多页文档扫描的设备端模型

   标题:Handheld Video Document Scanning: A Robust On-Device Model for Multi-Page Document Scanning

   机构:Adobe Research

   相关领域:模型结构改进、预训练、指令微调、奖励模型

   作者:Curtis Wigington

   分析:这篇论文介绍了手持式视频扫描技术,该技术能够自动扫描用户翻阅的多页文档。与以往需要固定设备的扫描方法不同,新方法允许用户手持手机扫描多页文档,即使手机在运动和晃动中也能保持高准确率和稳定性。研究的主要贡献包括一个高效、设备适用的深度学习模型,一种新颖的视频文档扫描数据收集和标注技术,以及在国际标准PUCIT页码切换数据集上达到领先的结果。

   地址:https://arxiv.org/pdf/2411.00576


18. Beyond Utility:将LLM作为推荐者

   标题:Beyond Utility: Evaluating LLM as Recommender

   机构:AI2、清华大学、滑铁卢大学

   相关领域:模型结构改进、预训练、指令微调、推荐系统

   作者:Chumeng Jiang,  Jiayin Wang,  Weizhi Ma

   分析:这篇论文主要探讨了如何利用大型语言模型(LLMs)来作为推荐系统。作者们研究了LLM推荐模型在四个新评价维度上的表现,即历史长度敏感性、候选位置偏见、生成涉及性能、和幻觉性。通过对七个基于LLM的推荐系统和一个传统推荐系统的多维评估,作者们发现LLM在处理需要先验知识且输入历史较短的排名任务中表现出色,并且在重新排序任务中也表现更好。然而,它们也存在重大候选位置偏见和过度生成虚构物品的问题。作者建议他们的评估框架和观察结果,希望通过未来的研究来改善LLM作为推荐者的使用。

   地址:https://arxiv.org/pdf/2411.00331

   代码:https://github.com/JiangDeccc/EvaLLMasRecommender


19. Freeze-Omni:具有冻结大模型的智能低延迟语音识别对话模型

   标题:Freeze-Omni: A Smart and Low Latency Speech-to-speech Dialogue Model with Frozen LLM

   机构:腾讯、南京大学

   相关领域:多模态、模型结构改进

   作者:Xiong Wang,  Yangze Li,  Chaoyou Fu

   分析:这篇论文提出了一种在冻结的大型语言模型(LLM)基础上实现语音对话的新方法。研究团队设计了一种名为Freeze-Omni的多模态LLM架构,能够在保持LLM冻结状态的同时,连接语音输入输出模态。通过三阶段训练策略,该模型仅使用文本语音配对数据和少量多轮问答数据,便达到了语音对话的能力。该模型在保证智能水平的同时,实现了低延迟的语音响应,并具备双向对话能力。此外,研究还提出了一种避免由于数据较少和训练资源不足导致的LLM灾难性遗忘的方法。

   地址:https://arxiv.org/pdf/2411.00774


20. CORAG:一种成本约束检索增强生成系统

   标题:CORAG: A Cost-Constrained Retrieval Optimization System for Retrieval-Augmented Generation

   机构:南洋理工大学

   相关领域:模型结构改进

   作者:Ziting Wang,  Haitao Yuan,  Wei Dong

   分析:论文详细探讨了在检索增强生成中,如何有效地从大量数据中提取有用信息。针对LLM在利用外部数据库时的检索优化问题,提出了CORAG系统,该系统通过蒙特卡洛树搜索来寻找最优的信息块组合,同时考虑了信息块间的相关性、效用非单调性等问题,以提升生成质量。

   地址:https://arxiv.org/pdf/2411.00744


21. E2E-AFG:一个具有自适应过滤的端到端模型,用于检索增强生成

   标题:E2E-AFG: An End-to-End Model with Adaptive Filtering for Retrieval-Augmented Generation

   机构:北京大学

   相关领域:模型结构改进

   作者:Yun Jiang,  Zilong Xie,  Wei Zhang

   分析:本文介绍了一种名为E2E-AFG的端到端模型,其特点是将答案存在判断和文本生成集成在一个统一的端到端框架之中。该模型旨在通过集中关注相关的内容,并减少无关信息的影响,来生成更加精确的答案。与现有基线模型相比,E2E-AFG在六个代表性知识密集型语言数据集上的评估结果均显示其优势,表明了该方法的有效性和稳定性。

   地址:https://arxiv.org/pdf/2411.00437


22. 基于Kolmogorov-Arnold网络的时序异常检测方法KAN-AD

   标题:KAN-AD: Time Series Anomaly Detection with Kolmogorov-Arnold Networks

   机构:清华大学

   相关领域:模型结构改进

   作者:Quan Zhou,  Changhua Pei,  Fei Sun

   分析:本文提出了一种名为KAN-AD的时序异常检测方法,该方法利用傅里叶级数来突出全局时间序列模式,以此减轻局部高峰和低谷的影响。与现有方法相比,KAN-AD在提高准确性的同时,大幅提升了推理速度。

   地址:https://arxiv.org/pdf/2411.00278


23. DivNet:兼顾多样性的自校正序列推荐网络

   标题:DivNet: Diversity-Aware Self-Correcting Sequential Recommendation Networks

   机构:阿里巴巴集团

   相关领域:模型结构改进

   作者:Shuai Xiao,  Zaifan Jiang

   分析:这篇论文主要介绍了在推荐系统中兼顾多样性的自校正序列推荐网络(DivNet)。DivNet能够捕捉序列项目之间的复杂交互,同时实现推荐的多样化。实验表明,DivNet在离线测试和在线应用中相较于其他基准模型表现出更好的性能。

   地址:https://arxiv.org/pdf/2411.00395


24. TextDestroyer:一种无需训练和注释的场景文本破坏方法

   标题:TextDestroyer: A Training- and Annotation-Free Diffusion Method for Destroying Anomal Text from Images

   机构:厦门大学、清华大学

   作者:Mengcheng Li,  Mingbao Lin,  Fei Chao

   分析:在这篇论文中,该论文提出了TextDestroyer,这是一种使用预训练扩散模型进行场景文本破坏的首个无需训练和注释的方法。现有的场景文本移除模型需要复杂的注释和重新训练,可能会留下虽然模糊但仍可识别的文本信息,这会损害隐私保护和内容隐藏。TextDestroyer通过采用分层三级过程来获得准确的文本遮罩来解决这些问题。该论文的方法在重构前使用高斯分布对潜在起始码中的文本区域进行混洗。在扩散去噪过程中,参考原始潜在值的自注意力键和值以恢复受损的背景。在每次反转步骤中保存的潜在代码用于重建期间的替换,确保完美的背景恢复。TextDestroyer的优点包括:(1)消除了劳动密集型数据注释和资源密集型训练;(2)实现了更彻底的文本破坏,防止可识别的痕迹;(3)展示了更好的泛化能力,在真实世界场景和生成图像上表现良好。

   地址:https://arxiv.org/pdf/2411.00355


25. 从配对视角重新思考和改进Softmax Loss在推荐系统中的应用

   标题:PSL: Rethinking and Improving Softmax Loss from Pairwise Perspective for Recommendation

   机构:浙江大学

   相关领域:模型评估

   作者:Weiqin Yang,  Jiawei Chen,  Xin Xin

   分析:论文从配对角度分析了Softmax Loss(SL)在推荐系统中的应用,揭示了其两大局限,并提出来一种新的损失函数Pairwise Softmax Loss(PSL)来解决这些问题。PSL通过替换SL中的指数函数,更紧密地关联了损失函数和排名指标,同时更好地平衡了数据贡献。此外,PSL还通过分布鲁棒优化(DRO)增强了特定BPR损失的效能。

   地址:https://arxiv.org/pdf/2411.00163

   代码:https://github.com/Tiny-Snow/IR-Benchmark


26. Adapting While Learning:让大模型为科学问题学习基础并智能使用工具

   标题:Adapting While Learning: Grounding LLMs for Scientific Problems with Intelligent Tool Usage Adaptation

   机构:清华大学、加利福尼亚大学

   相关领域:模型蒸馏

   作者:Bohan Lyu,  Yadi Cao,  Duncan Watson-Parris

   分析:该论文提出了一种新型两部分微调方法,旨在提高大型语言模型在解决复杂科学问题时的准确性和可靠性。该方法通过学习直接从工具信息中生成的解决方案来内化领域知识,并在问题困难度评估的基础上,智能地决定是否切换到工具使用。

   地址:https://arxiv.org/pdf/2411.00412


27. 超越近端策略优化界限

   标题:Beyond the Boundaries of Proximal Policy Optimization

   机构:牛津大学、伦敦大学、剑桥大学

   相关领域:RL

   作者:Charlie B. Tan,  Edan Toledo,  Benjamin Ellis

   分析:这篇论文探讨了一种将Proximal Policy Optimization(PPO)分解为内循环更新向量和外循环使用梯度上升的方法,即外近端策略优化(outer-PPO)。外近端策略优化将更新向量应用使用任意基于梯度的优化器,从而解耦了更新估计和更新应用。论文挑战了PPO中的几个隐式设计选择,比如非统一学习率和对内循环的应用中的惯性。实验研究表明,非统一学习率和惯性对内循环的改进是有统计学意义的,且在不同的环境和相同的超参数调优预算下取得了显著成果。

   地址:https://arxiv.org/pdf/2411.00666


28. 大模型在角色扮演中的角色偏见问题

   标题:Benchmarking Bias in Large Language Models during Role-Playing

   机构:北京大学、复旦大学、南洋理工大学

   相关领域:模型结构改进、预训练、指令微调、奖励模型

   作者:Xinyue Li,  Zhenpeng Chen,  Jie M. Zhang

   分析:这篇论文主要研究了大型语言模型(LLMs)在角色扮演场景中可能存在的偏见问题,并提出了一种名为BiasLens的公平性测试框架,用于系统地揭示LLMs在角色扮演中的偏见。该框架通过让LLMs模拟不同的社会角色来生成针对性的问题,以检测其是否存在特定的偏见。作者通过使用六种先进的LLMs进行评估,结果显示,这些模型在角色扮演场景中普遍存在偏见,平均每个模型产生了16963个偏见响应。

   地址:https://arxiv.org/pdf/2411.00585


29. 人工智能长期记忆的人类启发视角研究综述

   标题:Human-inspired Perspectives: A Survey on AI Long-term Memory

   机构:剑桥大学、哥伦比亚大学

   作者:Zihong He,  Weizhe Lin,  Hao Zheng

   分析:这篇论文系统地介绍了人工智能长期记忆的研究现状和发展趋势。论文首先引入人类长期记忆机制,然后探讨了人工智能长期记忆机制,建立了两者之间的映射关系。在此基础上,论文提出了自适应长期记忆的认知架构SALM,为人工智能长期记忆的实践提供了理论框架,并展望了未来发展方向和应用前景。论文主要解决了人工智能长期记忆缺乏系统研究和理论框架的问题。

   地址:https://arxiv.org/pdf/2411.00489


30. 专家级协议翻译用于自动驾驶实验室

   标题:Expert-level protocol translation for self-driving labs

   机构:北京大学

   相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

   作者:Yu-Zhe Shi,  Fanxu Meng,  Haofei Hou

   分析:这篇论文主要介绍了如何自动化自动驾驶实验室中的实验协议翻译,以加速和民主化科学发现的过程。由于原始实验协议是专为人类理解而设计的,因此在机器可理解的格式上转换存在重大挑战。该论文提出了一个框架,通过三个阶段的工作流程自动进行协议翻译:首先在语法层面构建协议依赖图(PDG),然后在语义层面完成,最后在执行层面链接。该框架已经证明了其性能与人类专家相当,可以显著提高自动驾驶实验室中的自动化能力。

   地址:https://arxiv.org/pdf/2411.00444


31. 多模态大模型统一生成和判别训练方法

   标题:Unified Generative and Discriminative Training for Multi-modal Large Language Models

   机构:浙江大学、南洋理工大学、新加坡国立大学

   相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

   地址:https://arxiv.org/pdf/2411.00304


32. 基于神经网络的彩色风格转换在视频修复中的应用

   标题:NCST: Neural-based Color Style Transfer for Video Retouching

   机构:四川大学、电子科技大学

   相关领域:模型结构改进、预训练

   地址:https://arxiv.org/pdf/2411.00335


33. LLM4Mat-Bench:为材料属性预测评测的大模型基准

   标题:LLM4Mat-Bench: Benchmarking Large Language Models for Materials Property Prediction

   机构:多伦多大学、普林斯顿大学、Vector Institute

   相关领域:模型评估、数据集构建

   地址:https://arxiv.org/pdf/2411.00177


34. STEM-POM:评估文档解析中的语言模型对数学符号的推理能力

   标题:STEM-POM: Evaluating Language Models Math-Symbol Reasoning in Document Parsing

   机构:伊利诺伊大学

   相关领域:模型评估、数据集构建

   地址:https://arxiv.org/pdf/2411.00387


35. 多信息提示学习用于换衣人再识别

   标题:Multiple Information Prompt Learning for Cloth-Changing Person Re-Identification

   机构:天津大学

   地址:https://arxiv.org/pdf/2411.00330


36. PathoGen-X:一种利用基因组和影像数据的跨模态特征对齐网络进行癌症生存预测的方法

   标题:PathoGen-X: A Cross-Modal Genomic Feature Trans-Align Network for Enhanced Survival Prediction from Histopathology Images

   机构:印度理工学院

   地址:https://arxiv.org/pdf/2411.00749


37. Creativity in the Age of AI:探究生成式人工智能对设计成果和设计师创造性思维的影响

   标题:Creativity in the Age of AI: Evaluating the Impact of Generative AI on Design Outputs and Designers' Creative Thinking

   机构:华盛顿大学

   相关领域:模型评估

   地址:https://arxiv.org/pdf/2411.00168


38. TaxaBind: 一种统一的多模态嵌入空间用于生态应用

   标题:TaxaBind: A Unified Embedding Space for Ecological Applications

   相关领域:模型蒸馏, 多模态

   地址:https://arxiv.org/pdf/2411.00683

   代码:https://github.com/mvrl/TaxaBind


39. MoNTA:基于网络流量感知的并行优化加速混合专家训练

   标题:MoNTA: Accelerating Mixture-of-Experts Training with Network-Traffc-Aware Parallel Optimization

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2411.00662

   代码:https://github.com/EnflameTechnology/DeepSpeed


40. 解锁全球人类 Expert 能的魅力

   标题:Unlocking the Potential of Global Human Expertise

   机构:德克萨斯大学

   相关领域:数据融合、模型评估、多模态

   地址:https://arxiv.org/pdf/2411.00156


41. 自动递归PDE模拟器基准(APEBench)

   标题:APEBench: A Benchmark for Autoregressive Neural Emulators of PDEs

   机构:慕尼黑工业大学、慕尼黑机器学习中心

   地址:https://arxiv.org/pdf/2411.00180


42. 基于预训练模型的持续学习中的双低秩适应方法

   标题:Dual Low-Rank Adaptation for Continual Learning with Pre-Trained Models

   相关领域:模型结构改进、预训练、模型蒸馏

   地址:https://arxiv.org/pdf/2411.00623


43. 基于指令微调词嵌入检索增强的大模型在跨域命名实体识别中的改进

   标题:Improving Few-Shot Cross-Domain Named Entity Recognition by Instruction Tuning a Word-Embedding based Retrieval Augmented Large Language Model

   相关领域:模型结构改进、指令微调

   地址:https://arxiv.org/pdf/2411.00451


44. Toward Automated Algorithm Design:Meta-Black-Box-Optimization实用指南与综述

   标题:Toward Automated Algorithm Design: A Survey and Practical Guide to Meta-Black-Box-Optimization

   相关领域:模型结构改进、预训练

   地址:https://arxiv.org/pdf/2411.00625

   代码:https://github.com/GMC-DRL/Awesome-MetaBBO


45. Muscles in Time:通过模拟肌肉激活学习理解人类运动

   标题:Muscles in Time: Learning to Understand Human Motion by Simulating Muscle Activations

   相关领域:数据集构建

   地址:https://arxiv.org/pdf/2411.00128

   代码:https://simplexsigil.github.io/mint


46. MIRFLEX:音乐信息检索特征库用于提取

   标题:MIRFLEX: Music Information Retrieval Feature Library for Extraction

   机构:新加坡科技与设计大学

   地址:https://arxiv.org/pdf/2411.00469


47. First, Learn What You Don't Know:主动信息搜集以驾驶极限处理

   标题:First, Learn What You Don't Know: Active Information Gathering for Driving at the Limits of Handling

   机构:加利福尼亚大学

   地址:https://arxiv.org/pdf/2411.00107


48. Self-reinforcing cascades:信念或产品传播的模型

   标题:Self-reinforcing cascades: A spreading model for beliefs or products of varying intensity or quality

   机构:波士顿大学

   相关领域:模型结构改进、预训练、指令微调、奖励模型

   地址:https://arxiv.org/pdf/2411.00714


49. Next-token预测中的物理规律

   标题:Physics in Next-token Prediction

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2411.00660


50. SeafloorAI:海底地质勘测的大规模视觉语言数据集

   标题:SeafloorAI: A Large-scale Vision-Language Dataset for Seafloor Geological Survey

   相关领域:数据集构建、多模态

   地址:https://arxiv.org/pdf/2411.00172


51. ViT-LCA:一种面向视觉Transformer的仿生神经网络方法

   标题:ViT-LCA: A Neuromorphic Approach for Vision Transformers

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2411.00140


52. LLM推理性能基准测试:AI加速器上的大模型

   标题:LLM-Inference-Bench: Inference Benchmarking of Large Language Models on AI Accelerators

   相关领域:模型评估、多模态

   地址:https://arxiv.org/pdf/2411.00136


53. STAA:时空注意力归因用于实时解释Transformer基于的视频模型

   标题:STAA: Spatio-Temporal Attention Attribution for Real-Time Interpreting Transformer-based Video Models

   相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

   地址:https://arxiv.org/pdf/2411.00630


54. 事件相机的自主偏置技术

   标题:Autobiasing Event Cameras

   地址:https://arxiv.org/pdf/2411.00729


55. Beyond Label Attention:基于词典学习的语言模型在自动化医疗编码中的透明度

   标题:Beyond Label Attention: Transparency in Language Models for Automated Medical Coding via Dictionary Learning

   相关领域:模型评估

   地址:https://arxiv.org/pdf/2411.00173


56. 多智能体模拟中的AI文明迈向重大里程碑

   标题:Project Sid: Many-agent simulations toward AI civilization

   相关领域:

   地址:https://arxiv.org/pdf/2411.00114


57. 理解生成模型中记忆能力的几何框架

   标题:A Geometric Framework for Understanding Memorization in Generative Models

   相关领域:模型评估

   地址:https://arxiv.org/pdf/2411.00113


58. 大模型的发展:编程语言选择与性能提升

   标题:An Empirical Study of Vulnerability Handling Times in CPython

   相关领域:

   地址:https://arxiv.org/pdf/2411.00447


59. YOLO 模型的演进评估:YOLO11及其前辈的全面评测研究

   标题:Evaluating the Evolution of YOLO (You Only Look Once) Models: A Comprehensive Benchmark Study of YOLO11 and Its Predecessors

   相关领域:模型评估

   地址:https://arxiv.org/pdf/2411.00201


好啦,小编今天的分享就到这里啦,欢迎留言讨论哦。

AI for Research
每天分享最新最热的Arxiv论文、一起来关注大模型、AIGC、AGI
 最新文章