前言:科研就像一场冒险,而看论文就是你的探险工具!只有通过深入阅读,才能找到宝藏,发现那些意想不到的科研奇遇哦!
1. 代码预训练中的数据揭秘:高质量数据的定义和作用
标题:Arctic-SnowCoder: Demystifying High-Quality Data in Code Pretraining
机构:伊利诺伊大学、首尔国立大学
相关领域:预训练、数据集构建
作者:Yuxiang Wei, Hojae Han, Rajhans Samdani
分析:本文主要研究了代码预训练中的高质量数据,通过三个阶段逐步优化的数据预训练方法,提出了一种新的代码预训练模型Arctic-SnowCoder。该模型通过高质量的数据集训练,在编码任务上实现了出色的性能。文章深入探讨了高质量数据的定义和特点,对代码预训练模型的设计有重要启示。
地址:https://arxiv.org/pdf/2409.02326
2. 预训练和自训练的比较研究
标题:A Comparative Study of Pre-training and Self-training
机构:北京大学
作者:Yiheng Wang, Jiayu Lin, Zuoquan Lin
分析:预训练和自训练是半监督学习的两种方法。对比预训练和自训练,以往的研究得出了令人困惑的发现:在计算机视觉任务中,自训练在某些情况下优于预训练;然而,在自然语言处理任务中,在某些条件相同的情况下,预训练优于自训练。该论文提出了一个全面的集合方法,通过一致的基础设置进行经验研究,包括预训练、自训练和微调的可行训练范例,这些设置与数据增强相一致。该论文在情感分析和自然语言推理任务上进行了六个数据集、四个数据增强和不平衡数据的实验。该论文的发现证实,预训练和微调范例产生了最佳的整体性能。此外,当与半监督预训练结合时,自训练没有提供任何额外的好处。
地址:https://arxiv.org/pdf/2409.02751
3. 大模型的偏好学习综述:一个统一视角
标题:Towards a Unified View of Preference Learning for Large Language Models: A Survey
机构:微软、北京大学、滑铁卢大学
相关领域:模型对齐、奖励模型、多模态
作者:Bofei Gao, Feifan Song, Yibo Miao
分析:这篇论文旨在提供一个统一框架来研究现有的大型语言模型对齐策略,将其分为模型、数据、反馈和算法四个组件,并深入探讨它们之间的关系。论文通过分解偏好学习策略,旨在深入理解现有的对齐算法,并探索如何协同不同策略的优势。此外,论文还介绍了流行的现有算法的工作示例,并为读者提供了全面的理解。最后,基于统一的视角,论文探讨了大型语言模型与人类偏好对齐所面临的挑战和未来研究方向。
地址:https://arxiv.org/pdf/2409.02795
4. 语言模型的难忘泛化
标题:Unforgettable Generalization in Language Models
机构:麻省理工学院
相关领域:模型评估、指令微调
作者:Eric Zhang, Leshem Chosen, Jacob Andreas
分析:本文研究了语言模型在通过微调随机标签来忘记(或“忘记”)一项技能时行为的变化。这种模型学会在用于忘记的“训练”集合中对个别示例生成几乎随机的预测。然而,在大集合中,这些模型在外部示例上的预测变化却显示出极高的变异性。对某些任务,如语义分类,遗忘可以稳健地泛化,导致模型对新任务实例产生非信息性的预测;而在其他任务,如物理常识推理和科学问答,遗忘只会影响训练示例,对于与训练集中出现的示例非常相似的例子,模型仍然可以准确执行“遗忘”的任务。数据集的难度不能预测是否可以忘记;相反,遗忘泛化(弱)由语言模型初始任务预测的信心和训练数据表征的可变性来预测,低信心和低可变性都与更大的泛化相关。最令人惊讶的是,随机标签的遗忘似乎对训练集的内容不太敏感。例如,用随机标签训练的科学问题模型在继续回答其他科学问题,但在语义分类任务上开始产生随机标签。最后,该论文发现即使泛化可以实现的遗忘仍然是肤浅的:在语言模型的表征上训练的线性探针在遗忘后仍然可以可靠地完成任务。这些结果强调了通过微调从模型中执行有针对性的技能去除的难度和不可预测性。
地址:https://arxiv.org/pdf/2409.02228
5. LongLLaVA:高效扩展多模态LLM至1000张图片的混合架构研究
标题:LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via Hybrid Architecture
机构:香港中文大学
相关领域:模型结构改进, 多模态
作者:Xidong Wang, Dingjie Song, Shunian Chen
分析:本研究提出LongLLaVA,一种混合Mamba和Transformer的新型多模态大型语言模型,解决了大型多模态模型在处理更多图像时性能下降和计算开销高的问题。通过混合架构提升效率,利用多图片间的时空依赖进行数据构建,以及逐步训练策略,它在保持高效率的同时也有竞争力的性能。LongLLaVA在单一A100 80GB GPU上可处理一千张图片,展现了广泛任务的前景。
地址:https://arxiv.org/pdf/2409.02889
6. LongCite:在长文本问答中启用LLMs生成细粒度引用
标题:LongCite: Enabling LLMs to Generate Fine-grained Citations in Long-context QA
机构:清华大学
相关领域:模型评估、数据集构建、评估指标
作者:jiajie Zhang, Yushi Bai, Xin Lv
分析:该论文探讨了当前长文本大语言模型(LLM)生成的答案缺乏引用,导致用户验证困难的问题。论文提出了LongBench-Cite基准,用于评估LLM在长文本问答引用(LQAC)中的表现,并提出了CoF管道,用于在长文本问答实例中生成精确的句级引用。通过训练LongCite-8B和LongCite-9B,模型在生成准确答案和细粒度引用方面取得了显著成果。
地址:https://arxiv.org/pdf/2409.02897
7. TSO:基于规模化偏好优化的自训练
标题:TSO: Self-Training with Scaled Preference Optimization
机构:中国人民大学
相关领域:模型评估、奖励模型
作者:Kaihui Chen, Hao Yi, Qingyang Li
分析:这篇论文主要解决大型语言模型(LLM)与人类偏好一致性的问题。它提出了一种名为TSO(Self-Training with Scaled Preference Optimization)的框架,这是一种偏好优化自训练框架,无需训练额外的奖励模型就能进行偏好学习。该框架通过构建模型矩阵并融入人类偏好响应来提高响应的多样性,并通过人类和AI的反馈来纠正模型的偏好误差。此外,它采用迭代和双重奖励策略来更新参考模型和响应,并自适应地调整偏好数据和平衡优化过程。
地址:https://arxiv.org/pdf/2409.02118
8. More is More:大模型中的加法偏差
标题:More is More: Addition Bias in Large Language Models
相关领域:模型评估
作者:Luca Santagata, Cristiano De Nobili
分析:该论文研究了大型语言模型(LLMs)中的加法偏差,这种现象类似人类倾向于加法而非减法的变化方式。通过对包括GPT-3.5 Turbo、 Claude 3.5 Sonnet、 Mistral和Llama 3.1在内的多种LLMs进行了一系列实验,发现它们在多种任务中偏好于加法而不是减法。例如,在创建回文的任务中,Llama 3.1有97.85%的时间选择添加字母而不是删除。在乐高塔平衡任务中,GPT-3.5 Turbo选择了76.38%的时间添加砖块而不是移除。在文本摘要任务中,Mistral 7B在59.40%至75.10%的情况下给出了更长的摘要,即使在改善其他作者的写作时也是如此。这些发现表明,与人类类似,LLMs也显示出强烈的加法偏差,这可能在大规模使用时导致资源过度消耗和环境影响。论文强调了在开发和应用LLMs时应考虑这种偏差,以确保平衡和效率的问题解决方法。
地址:https://arxiv.org/pdf/2409.02569
9. CMM-Math: 中国多模态数学数据集评估和提升大模型数学推理能力
标题:CMM-Math: A Chinese Multimodal Math Dataset To Evaluate and Enhance the Mathematics Reasoning of Large Multimodal Models
机构:华东师范大学
相关领域:多模态数学模型、数学推理、CMM-Math数据集
作者:Wentao Liu, Qianjun Pan, Yi Zhang
分析:该论文提出CMM-Math,一个面向中文的多模态数学数据集,用于评估和增强大型多模态模型的数学推理能力。数据包含28000多个高质量样本,涵盖从小学到高中的不同年级、多种题型。研究发现,最先进的多模态模型在CMM-Math上面临挑战,这表明需要改进模型的处理能力。提出了Math-LMM模型,通过分阶段训练提升数学推理表现。实验结果显示Math-LMM的有效性。
地址:https://arxiv.org/pdf/2409.02834
10. MMLU-Pro+的评估:大模型中高阶推理与捷径学习的进展
标题:MMLU-Pro+: Evaluating Higher-Order Reasoning and Shortcut Learning in LLMs
相关领域:模型评估、数据集构建
作者:Saeid Asgari Taghanaki, Aliasgahr Khani, Amir Khasahmadi
分析:这篇论文介绍了一个基于MMLU-Pro增强的评估基准,旨在评估大语言模型(LLMs)中的捷径学习和高阶推理能力。论文通过融入跨域的多正确答案问题,测试了LLMs在复杂推理中的表现,并抵制简单的解题策略。研究结果表明,MMLU-Pro+在保持原有难度的基础上,提供了更严格的模型区分度,特别是在多正确答案场景中。论文还引入了一些新的评估指标,如捷径选择比例和正确配对识别比例,以提供更深入的模型行为见解和锚定偏见。对五款先进LLMs的评估揭示了显著的性能差距,强调了推理能力和偏见易感性的差异。
地址:https://arxiv.org/pdf/2409.02257
代码:https://github.com/asgsaeid/mmlu-pro-plus
11. (隐式)集成模型中的集成模型:大型模型的认知不确定性崩溃
标题:(Implicit) Ensembles of Ensembles: Epistemic Uncertainty Collapse in Large Models
相关领域:模型评估
作者:Andreas Kirsch
分析:这篇论文揭示了大型深度学习模型中认知不确定性的崩溃现象,指出模型复杂度增加时,不确定性量化反而降低。论文提出这种现象源于大型模型中的隐式集成,并通过实验证明了这一点。同时,论文探讨了这一现象的理论依据及其不确定性估计的影响。
地址:https://arxiv.org/pdf/2409.02628
12. PoseTalk:基于文本和音频的姿态控制与动作细化方法用于一次性生成谈话头视频
标题:PoseTalk: Text-and-Audio-based Pose Control and Motion Refinement for One-Shot Talking Head Generation
机构:上海交通大学
相关领域:模型结构改进
作者:Jun Ling, Yiwen Wang, Han Xue
分析:这篇论文提出了一种名为PoseTalk的系统,该系统可以通过文本提示和音频来生成唇同步的谈话头视频,并在视频中自由设定头部姿态。论文的核心思想是通过头部姿态将视觉、语言和音频信号联系起来。论文还提出了一种名为Pose Latent Diffusion (PLD)的模型,用于在姿态潜在空间中生成动作潜在,并提出了一个基于修正的学习策略来使用两个串联网络(CoarseNet和RefineNet)来合成自然谈话视频。实验证明,该论文的姿态预测策略在文本和音频基础上有更好的多样性和真实性,而且视频生成模型超越了现有的方法,能够在自然头部动作的合成方面取得更好的表现。
地址:https://arxiv.org/pdf/2409.02657
代码:https://junleen.github.io/projects/posetalk
13. 加速大模型训练的混合GPU压缩
标题:Accelerating Large Language Model Training with Hybrid GPU-based Compression
机构:俄亥俄州立大学
相关领域:模型结构改进、并行训练优化
作者:Lang Xu, Quentin Anthony, Qinghua Zhou
分析:这篇论文主要讨论了大型语言模型训练中,通过数据并行性(DP)、张量并行性(TP) 和pipeline 并行性(PP) 这三种策略来提高训练效率。这些策略依赖于密集通信来收集、聚合和重新分布模型中的梯度、激活等重要信息,这会导致显著的通信开销。通过与GPU压缩库共同设计的基础,MPI库已经被证明可以显著减少消息大小,并利用互连带宽,从而在不牺牲准确性的情况下提高了训练效率。本文研究了借助3D并行性和ZeRO优化的压缩辅助MPI集体在分布式LLM训练中的有效性。该论文扩展到192个V100 GPU上的Lassen超级计算机。首先,该论文启用了一种基本压缩方案 across all collectives,并观察到对GPT-NeoX-20B训练来说,GPU TFLOPS增加了22.5%,每卡的样本数增加了23.6%。然而,这样的策略忽略了消息中不同并行度度的稀疏差异,导致更多错误并降低了训练损失。因此,该论文结合了混合压缩设置,调整了相应的压缩强度。考虑到它们的低秩结构(https://arxiv.org/abs/2301.02654),该论文对梯度进行了强烈的压缩,在进行DP All-reduce时。该论文对activations、optimizer states和model parameters 采用了较温和的压缩,以TP和PP进行通信。使用调整后的混合压缩方案后,该论文在保持基线损失收敛的同时,达到了17.3%的GPU TFLOPS增加和12.7%的样例数增加。
地址:https://arxiv.org/pdf/2409.02423
代码:https://arxiv.org/abs/2301.02654),
14. DetectiveQA:评估侦探小说中的长语境推理能力
标题:DetectiveQA: Evaluating Long-Context Reasoning on Detective Novels
机构:复旦大学、诺亚方舟实验室、上海AI实验室
相关领域:模型评估、数据集构建
作者:Zhe Xu, Jiasheng Ye, Xiangyang Liu
分析:论文介绍了一种名为DetectiveQA的新评估基准,旨在评估大型语言模型(LLM)在长语境信息下的推理能力。该基准以侦探小说为数据源,通过构建平均语境长度超过10万令牌的任务,要求LLM不仅全面理解语境,还需从中提取重要证据,并根据这些证据进行推理以回答问题。论文指出,现有的LLM在处理真正的长语境依赖问题方面仍需显著改进。
地址:https://arxiv.org/pdf/2409.02465
15. HiPrompt:使用预训练扩散模型的策略
标题:HiPrompt: Tuning-free Higher-Resolution Generation with Hierarchical MLLM Prompts
机构:清华大学、香港科技大学、南洋理工大学
相关领域:模型结构改进、预训练、指令微调、奖励模型
作者:Xinyu Liu, Yingqing He, Lanqing Guo
分析:这篇论文提出了一种新的方法:HiPrompt,用于解决使用预训练扩散模型生成高分辨率图像时的难题。这些模型通常在生成过程中遇到重复的物体和结构瑕疵,尤其是在向4K分辨率及以上扩展时。HiPrompt通过引入层次化提示来解决问题,提供了全局和局部的指导。全局指导来自用户输入,描述图像的整体内容;局部的指导则利用多中对齐语言模型(MLLM)的像素级描述来精细地指导局部结构和纹理的生成。此外,该方法在逆噪度去除过程中将生成的噪点分解为低频和高频的空间成分,以多级提示为条件,包括详细的光果级描述和广泛的图像级提示,从而在层次化的语义指导下实现了提示引导的 denoising,保证了生成的图像具有高分辨率和清晰的局部和全局语义、结构和纹理。大量的实验结果表明,HiPrompt在更高的分辨率图像生成方面超过了其他现有技术,大幅度减少了物体重复并提高了结构的质量。
地址:https://arxiv.org/pdf/2409.02919
16. 构建数学代理与多轮迭代偏好学习
标题:Building Math Agents with Multi-Turn Iterative Preference Learning
机构:谷歌研究院、伊利诺伊大学、普林斯顿大学
相关领域:模型结构改进、指令微调
作者:Wei Xiong, Chengshuai Shi, Jiaming Shen
分析:本文主要研究如何通过整合外部工具,如代码解释器,并采用多轮思维链(CoT)推理,增强大型语言模型(LLM)解决数学问题的能力。文章提出了一种多轮直接偏好学习框架,该框架利用来自代码解释器的反馈并优化轨迹级偏好,用于改进工具集成数学推理任务的模型性能。实验结果表明,该框架能有效提高语言模型在GSM8K和MATH数据集上的性能。
地址:https://arxiv.org/pdf/2409.02392
17. 音频生成模型的隐式水印技术
标题:Latent Watermarking of Audio Generative Models
机构:FAIR、希伯来大学
相关领域:模型评估
作者:Robin San Roman, Pierre Fernandez, Antoine Deleforge
分析:本文介绍了一种在音频生成模型的训练数据中嵌入特定水印的方法来标记模型。通过这种方法生成的音频内容,不依赖于解码方法,都能被准确检测出来。该方法增强了解析出采用并擅改开放源代码模型内容的安全性,并帮助识别即便经过微调或使用这些模型而不遵循版权条款的衍生作品。结果显示,即使经过微调,生成的音频内容的检测准确率也能达到75%以上,错误正率10^-3。
地址:https://arxiv.org/pdf/2409.02915
18. STAB: 语音 tokenizer 评估基准
标题:STAB: Speech Tokenizer Assessment Benchmark
机构:Google
相关领域:模型评估
作者:Shikhar Vashishth, Harman Singh, Shikhar Bharadwaj
分析:本文旨在评估不同语音 tokenizer 在不同任务中的性能,并探索它们的能力和限制,为未来 tokenizer 模型的改进和标准化分析提供指导。
地址:https://arxiv.org/pdf/2409.02384
19. 样本无法压缩的内容采样
标题:Sample what you cant compress
机构:Google
相关领域:模型结构改进、扩散模型
作者:Vighnesh Birodkar, Gabriel Barcik, James Lyon
分析:这篇论文结合了自编码器表示学习与扩散模型,旨在提高图像表示的重建质量。论文通过引入扩散模型,提出了一种新的自编码器架构,称为“样本无法压缩的内容采样”(SWYCC)。该方法能够在生成高质量图像的同时,提高模型的灵活性和可解释性。与传统的基于GAN的自编码器相比,SWYCC方法具有更好的重建质量和更易于调整的优点。此外,论文还展示了该模型在潜在扩散模型中的优势,可以更轻松地建模潜在表示。
地址:https://arxiv.org/pdf/2409.02529
20. SmileyLlama:大模型的定向化学空间探索改进
标题:SmileyLlama: Modifying Large Language Models for Directed Chemical Space Exploration
机构:UC伯克利分校
相关领域:模型结构改进、指令微调
作者:Joseph M. Cavanagh, Kunyang Sun, Andrew Gritsevskiy
分析:这篇论文展示了如何通过改进大型语言模型(LLM),使其适用于化学语言模型(CLM)的应用。研究团队通过监督微调(SFT)和直接偏好优化(DPO)技术,在开源的Llama大模型上进行训练,使其能够根据特定提示生成具有特定属性的分子,如药物开发中的感兴趣属性。该研究提供了一个框架,使大语言模型不仅能用于化学和材料任务的聊天机器人客户端,还能适应生成具有用户指定属性的分子的化学语言模型。
地址:https://arxiv.org/pdf/2409.02231
21. 大规模语言模型作为定制环境多目标强化学习有效奖励函数搜索者
标题:Large Language Models as Efficient Reward Function Searchers for Custom-Environment Multi-Objective Reinforcement Learning
机构:清华大学、牛津大学
相关领域:奖励模型
作者:Guanwen Xie, Jingzehua Xu, Yiyuan Yang
分析:大规模语言模型在设计奖励函数方面展示了显著潜力。然而,在具有复杂定制环境和多个需求的强化学习任务中有效地设计和改进奖励函数存在重大挑战。本文使大型语言模型成为有效的白盒搜索者,强调了其高级的语义理解能力。具体来说,该论文为每个明确的用户需求生成奖励组件,并使用了奖励评价家来确定正确的代码形式。然后,大型语言模型对奖励组件进行赋权,以平衡它们的价值,并在提供了训练日志分析器的上下文中进行迭代搜索和优化这些赋权,同时自适应地确定搜索步长。该论文将框架应用于一个没有直接的人类反馈或奖励示例的无接触潜水信息收集强化学习任务。奖励评价家成功地纠正了单个反馈的奖励代码,有效地避免了批量反馈中可能出现的不可修复错误。有效的权重初始化使在大致Pareto解集内无需搜索即可获得不同的奖励函数。即使在权重偏离100倍的情况下,也需要少于四次的迭代才能满足用户需求。该框架也对大多数使用GPT-3.5 Turbo的提示有效,因为它不需要高级的数值理解和计算。
地址:https://arxiv.org/pdf/2409.02428
22. 无条件Diffusion模型并非时间依赖型:MaskedDiffusion模型的实证分析
标题:Masked Diffusion Models are Secretly Time-Agnostic Masked Models and Exploit Inaccurate Categorical Sampling
机构:英伟达、清华大学
相关领域:模型理论、训练算法、语言模型
作者:Kaiwen Zheng, Yongxin Chen, Hanzi Mao
分析:这篇论文揭示了Masked Diffusion Models(MDMs)在训练和采样过程中实际上并不受时间影响,而是等同于Masked模型。通过提出First-Hitting Sampler(FHS),作者证明了MDMs的生成过程理论等价性。论文还质疑了解释MDMs在语言建模中能超越Auto-Regressive Models的普遍观点,因为存在不准确的分类采样问题。尽管32位浮点数精度下存在数字问题,但实验显示这确实降低了模型的性能。因这项对MDMs理论和实践的重要反思,我给推荐指数为85。
地址:https://arxiv.org/pdf/2409.02908
23. 从经验中解学习以避免偶然相关性的研究
标题:UnLearning from Experience to Avoid Spurious Correlations
机构:麻省理工学院、英国女王大学
相关领域:模型结构改进、预训练
作者:Jeff Mitchell, Jesús Martínez del Rincón, Niall McLaughlin
分析:这篇论文提出了一种解决神经网络模型学习偶然相关性问题的方法,即“从经验中解学习”(ULE)。该方法使用两个并行训练的分类模型:学生模型和教师模型。学生模型学习数据中的偶然相关性,而教师模型则避免学生模型的错误。通过并行训练,教师模型利用学生模型的梯度来纠正其错误。该研究在多个数据集上验证了其方法的有效性。
地址:https://arxiv.org/pdf/2409.02792
24. 利用BEST-RQ分析线性复杂度注意力替代方案
标题:An Analysis of Linear Complexity Attention Substitutes with BEST-RQ
机构:三星AI中心
相关领域:模型结构改进、模型评估、数据集构建、评估指标
作者:Ryan Whetten, Titouan Parcollet, Adel Moumen
分析:这篇论文研究了将多头自注意力(MHSA)替换为具有线性复杂度的最新替代方案(HyperMixing、Fastformer、SummaryMixing、Mamba),以提高自监督学习(SSL)在语音处理领域的效率和效果。这项工作通过评估这些线性替代方案在速度、VRAM消耗和SSL MP3S基准测试上的性能,展示了它们相比MHSA具有竞争力,同时在平均情况下减少了约20%到60%的VRAM消耗并提高了7%到65%的速度。该方法为提高SSl效率提供了新的思路和方法。
地址:https://arxiv.org/pdf/2409.02596
25. 基于并行准量子退火与梯度采样优化的研究
标题:Optimization by Parallel Quasi-Quantum Annealing with Gradient-Based Sampling
机构:麻省理工学院
相关领域:模型结构改进
作者:Yuma Ichikawa, Yamato Arai
分析:针对现有学习方法在组合优化中的可扩展性问题,本研究提出了一种融合连续松弛的梯度采样方法与准量子退火的方法。通过平滑过渡目标函数,从简单的凸形式过渡到原始目标函数,并利用GPU加速并行运行通信,从而提高探索能力和收敛速度。数值实验表明,该方法是一种具有竞争力的通用求解器,在大型实例中表现出速度和解决方案质量的良好权衡。
地址:https://arxiv.org/pdf/2409.02135
26. Configurable Foundation Models:从模块化视角构建大模型
标题:Configurable Foundation Models: Building LLMs from a Modular Perspective
机构:清华大学、加州大学、斯坦福大学
相关领域:模型结构改进、预训练、指令微调
作者:Chaojun Xiao, Zhengyan Zhang, Chenyang Song
分析:这篇论文主要介绍了一种名为“可配置基础模型”的新方法,该方法通过将大型语言模型(LLM)分解为多个功能模块,使得该论文可以动态地组装这些模块来处理复杂的任务。这种方法旨在解决大型语言模型在计算效率和持续可扩展性方面的挑战。具体来说,作者提出了四个基本操作:检索和路由、合并、更新和生长,这些操作使该论文能够根据指令动态地配置LLM。此外,作者还通过实证研究验证了这种模块化方法的有效性。
地址:https://arxiv.org/pdf/2409.02877
27. ExpLLM: 面部表情识别中的思维链探索
标题:ExpLLM: Towards Chain of Thought for Facial Expression Recognition
机构:清华大学、鹏城实验室、中国科学院大学
相关领域:模型结构改进、多模态
作者:Xing Lan, Jian Xue, Ji Qi
分析:该论文提出了一种利用大型语言模型生成面部表情识别的思维链(CoT)的新方法,称为ExpLLM。该方法关注面部表情的原因分析,通过关键观察、整体情感解读和结论三个角度构建思维链。在RAF-DB和AffectNet数据集上的实验表明,ExpLLM在面部表情识别上优于现有方法,特别是在识别微表情方面。
地址:https://arxiv.org/pdf/2409.02828
28. 大脑是如何进行概率计算的?
标题:How does the brain compute with probabilities?
机构:纽约大学、莱斯大学、罗切斯特大学
作者:Ralf M. Haefner, Jeff Beck, Cristina Savin
分析:这篇论文探讨了大脑如何处理概率分布的问题,介绍了三种主要的概率计算理论并进行了比较。论文通过统一的语言定义了竞争的假设,解释了概率群体代码、分布式分布代码和神经采样代码的基本原理,并回顾了相关的实验数据。此外,论文还指出了解决这一争论的关键挑战,并提出了通过理论和实验解决这些挑战的方向。
地址:https://arxiv.org/pdf/2409.02709
29. MOSMOS:通过医疗报告监督促进多器官分割
标题:MOSMOS: Multi-organ segmentation facilitated by medical report supervision
机构:复旦大学、香港科技大学
相关领域:预训练、多模态
作者:Weiwei Tian, Xinyu Huang, Junlin Hou
分析:这篇论文提出了一种通过医疗报告监督进行多器官分割的预训练和微调框架。该框架利用医疗图像和报告的多模态数据,通过全局对比学习和多标签识别,最大化图像和报告之间的对齐,并隐式学习图像像素和器官标签之间的语义对应。该框架可以转移到任何分割模型,并通过引入像素标签注意力图来提高模型的泛化能力。论文在多个数据集上验证了方法的有效性。
地址:https://arxiv.org/pdf/2409.02418
30. RoboTwin: 双臂机器人基准与生成数字孪生 (早期版本)
标题:RoboTwin: Dual-Arm Robot Benchmark with Generative Digital Twins (early version)
机构:香港大学、上海AI实验室、中国科学院自动化研究所
相关领域:数据集构建
作者:Yao Mu, Tianxing Chen, Shijia Peng
分析:这篇论文介绍了RoboTwin,一个结合了实际世界遥控数据与源自数字孪生的合成数据的新型基准数据集,专门设计用于双臂机器人情景。使用COBOT Magic平台收集了关于工具使用和人机交互的多样数据。通过AI自动生成内容创建数字孪生,并将二维图像转化为详细三维模型。此外,利用大语言模型生成专家级别的训练数据和面向功能性的任务特定姿态序列。主要贡献包括:1)RoboTwin基准数据集,2)高效的现实世界到仿真流程,3)使用语言模型自动生成专家级别的数据。旨在解决机器人训练数据短缺问题,可能加速开发更多能力强、应用范围广泛的机器人系统,适用于各种现实世界应用。
地址:https://arxiv.org/pdf/2409.02920
代码:https://robotwin-benchmark.github.io/early-version/
31. Loopy:通过长时运动依赖性驯服基于音频的肖像动画
标题:Loopy: Taming Audio-Driven Portrait Avatar with Long-Term Motion Dependency
机构:字节跳动、浙江大学
地址:https://arxiv.org/pdf/2409.02634
32. Diversify-verify-adapt:Diversify-verify-adapt: Efficient and Robust Retrieval-Augmented Ambiguous Question Answering
标题:Diversify-verify-adapt: Efficient and Robust Retrieval-Augmented Ambiguous Question Answering
机构:韩国科学技术院、Adobe Research
地址:https://arxiv.org/pdf/2409.02361
33. LLM-Assisted Visual Analytics:机遇与挑战
标题:LLM-Assisted Visual Analytics: Opportunities and Challenges
机构:伦敦大学
相关领域:预训练、指令微调、模型评估、多模态
地址:https://arxiv.org/pdf/2409.02691
34. Deep Adaptive Interest Network:结合上下文感知学习的个性化推荐
标题:Deep Adaptive Interest Network: Personalized Recommendation with Context-Aware Learning
机构:休斯顿大学、南加州大学、中国科学技术大学
相关领域:模型结构改进、上下文感知学习、个性化推荐
地址:https://arxiv.org/pdf/2409.02425
35. 大模型对情感的敏感性
标题:Do Large Language Models Possess Sensitive to Sentiment?
机构:字节跳动
相关领域:模型结构改进、预训练、指令微调、奖励模型
地址:https://arxiv.org/pdf/2409.02370
36. 儿童肺炎多模态大模型
标题:A Medical Multimodal Large Language Model for Pediatric Pneumonia
机构:AI2、复旦大学
相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态
地址:https://arxiv.org/pdf/2409.02608
37. 理解eGFR轨迹和肾功能下降 via 大型 multimodal 模型
标题:Understanding eGFR Trajectories and Kidney Function Decline via Large Multimodal Models
机构:中山大学
相关领域:多模态模型|预测建模|肾功能|eGFR
地址:https://arxiv.org/pdf/2409.02530
38. PUB:什么是大模型?
标题:PUB: Plot Understanding Benchmark and Dataset for Evaluating Large Language Models on Synthetic Visual Data Interpretation
机构:华沙大学、IDEAS NCBR
地址:https://arxiv.org/pdf/2409.02617
39. 大型视觉-语言模型能否获得驾照?通往可靠AGI的自动驾驶基准测试
标题:Can LVLMs Obtain a Driver's License? A Benchmark Towards Reliable AGI for Autonomous Driving
相关领域:数据集构建、模型评估
地址:https://arxiv.org/pdf/2409.02914
代码:https://4dvlab.github.io/project_page/idkb.html
40. 混合模仿学习城市驾驶运动规划器
标题:Hybrid Imitation-Learning Motion Planner for Urban Driving
机构:西安交通大学
地址:https://arxiv.org/pdf/2409.02871
41. 无歧义的因果性感知参数效率微调,提升LLM问题解决能力
标题:Deconfounded Causality-aware Parameter-Efficient Fine-Tuning for Problem-Solving Improvement of LLMs
机构:新南威尔士大学
相关领域:模型微调,因果理解,问题解决
地址:https://arxiv.org/pdf/2409.02686
42. QID^2:一种用于DWI数据Q空间上采样的图像条件扩散模型
标题:QID^2: An Image-Conditioned Diffusion Model for Q-space Up-sampling of DWI Data
机构:波士顿大学
相关领域:数据集构建
地址:https://arxiv.org/pdf/2409.02309
43. 生物信息检索增强数据(BRAD)数字助理:生物信息学工作流的自动化
标题:Bioinformatics Retrieval Augmentation Data (BRAD) Digital Assistant
机构:密歇根大学
相关领域:模型结构改进、多模态
地址:https://arxiv.org/pdf/2409.02864
44. R2GQA: 基于检索-阅读-生成模型的问答系统支持高等教育学生理解法律条例
标题:R2GQA: Retriever-Reader-Generator Question Answering System to Support Students Understanding Legal Regulations in Higher Education
相关领域:问答系统、信息检索、自然语言处理、法律条例理解
地址:https://arxiv.org/pdf/2409.02840
45. 大模型在日志解析中的比较研究
标题:A Comparative Study on Large Language Models for Log Parsing
相关领域:模型评估、多模态
地址:https://arxiv.org/pdf/2409.02474
46. 结构化知识引导的高效预训练,用于密集预测任务
标题:SG-MIM: Structured Knowledge Guided Efficient Pre-training for Dense Prediction
相关领域:模型结构改进、预训练
地址:https://arxiv.org/pdf/2409.02513
47. 大模型的最优神经网络近似
标题:Optimal Neural Network Approximation for High-Dimensional Continuous Functions
机构:普渡大学、马里兰大学
地址:https://arxiv.org/pdf/2409.02363
48. MMMU-Pro基准测试:更稳健的多学科多模态理解基准
标题:MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark
相关领域:模型评估、多模态
地址:https://arxiv.org/pdf/2409.02813
49. Multi-Track MusicLDM:面向通用音乐生成的潜扩散模型研究
标题:Multi-Track MusicLDM: Towards Versatile Music Generation with Latent Diffusion Model
相关领域:模型结构改进、多模态
地址:https://arxiv.org/pdf/2409.02845
50. 改进单摄像头BEV感知使用多摄像头训练
标题:Improved Single Camera BEV Perception Using Multi-Camera Training
地址:https://arxiv.org/pdf/2409.02676
51. Language is Scary when Over-Analyzed:根据论证理论驱动的提示解析隐性偏见推理
标题:Language is Scary when Over-Analyzed: Unpacking Implied Misogynistic Reasoning with Argumentation Theory-Driven Prompts
相关领域:指令微调
地址:https://arxiv.org/pdf/2409.02519
52. SNNAX——基于JAX的脉冲神经网络
标题:SNNAX -- Spiking Neural Networks in JAX
相关领域:模型结构改进、模型模拟
地址:https://arxiv.org/pdf/2409.02842
53. Test-time data augmentation:改进循环神经网络模型对复合材料的预测
标题:Test-time data augmentation: improving predictions of recurrent neural network models of composites
地址:https://arxiv.org/pdf/2409.02478
54. 抽象性文本总结:现状、挑战与改进
标题:Abstractive Text Summarization: State of the Art, Challenges, and Improvements
相关领域:模型结构改进、预训练、指令微调、奖励模型
地址:https://arxiv.org/pdf/2409.02413
55. 参数高效的联邦微调
标题:Robust Federated Finetuning of Foundation Models via Alternating Minimization of LoRA
地址:https://arxiv.org/pdf/2409.02346
56. RAMBO: 从电脑内存中泄漏机密信息
标题:RAMBO: Leaking Secrets from Air-Gap Computers by Spelling Covert Radio Signals from Computer RAM
相关领域:计算机安全,无线通信,硬件安全
地址:https://arxiv.org/pdf/2409.02292
看论文是一天,不看论文也是一天,为什么不每天充实下自己呢^_^^_^