前言:科研就像一场冒险,而看论文就是你的探险工具!只有通过深入阅读,才能找到宝藏,发现那些意想不到的科研奇遇哦!
1. 探索合成数据替代真实数据潜力
标题:Exploring the Potential of Synthetic Data to Replace Real Data
机构:马里兰大学
相关领域:数据集构建、评估指标
作者:Hyungtae Lee, Yan Zhang, Heesung Kwon
分析:该论文探讨了合成数据在AI领域的应用潜力,特别是在训练过程中,当使用少量真实数据与合成数据进行结合时的效果。论文发现这种潜力受到跨领域真实数据数量和测试集的影响。作者提出了train2test距离和AP_t2t两个新指标,用于评估合成数据在跨领域训练集上表现的能力。通过这些新指标,论文进一步分析了影响合成数据潜力的因素,并揭示了合成数据对训练性能的影响机制。
地址:https://arxiv.org/pdf/2408.14559
2. 链式思维提示方法的统计基础揭秘
标题:Unveiling the Statistical Foundations of Chain-of-Thought Prompting Methods
机构:新加坡国立大学
相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态
作者:Xinyang Hu, Fengzhuo Zhang, Siyu Chen
分析:这篇论文主要从统计的角度对链式思维提示(CoT)的方法进行了深入的研究和分析。该方法被广泛用于解决多步推理问题,利用预训练的大型语言模型作为工具。研究者们提出了一个多步潜在变量模型来描述推理过程,并证明了当预训练数据集足够大时,由链式思维提示形成的估计器等价于贝叶斯估计器。这使得估计器能够通过聚合来自提示中的演示样本的后验分布来有效地解决多步推理问题。此外,研究者还分析了链式思维提示估计器的统计误差,将其分解为两部分:一部分是由链式思维提示推断真实任务引起的提示误差,另一部分是预训练大型语言模型的统计误差。他们进一步证明,在适当的假设下,提示误差会随着演示样本数量的增加而呈指数衰减到零。此外,他们还明确地刻画了预训练大型语言模型的近似误差和泛化误差。他们的分析扩展到了其他链式思维提示变体,包括自一致链式思维提示、树形思维提示和选择-推理链式思维提示,提供了对这些方法有效性的广泛视角。他们还通过数值实验验证了理论发现。
地址:https://arxiv.org/pdf/2408.14511
3. Instruct-SkillMix:大模型指令微调的强大管道
标题:Instruct-SkillMix: A Powerful Pipeline for LLM Instruction Tuning
相关领域:指令微调、数据集构建、模型评估
作者:Simran Kaur, Simon Park, Anirudh Goyal
分析:本文介绍了一种自动化的方法Instruct-SkillMix,用于创建多样化的高品质SFT数据。该方法利用现有强大语言模型进行两阶段处理:首先,通过LLM提取处理指令所需的“技能”;其次,利用LLM生成显示随机技能组合的(指令,响应)数据。研究发现,使用Instruct-SkillMix生成的数据在AlpacaEval 2.0、MT-Bench和WildBench等指令遵循基准测试上取得了显著成果。该研究对中国大模型指令微调领域具有重要价值。
地址:https://arxiv.org/pdf/2408.14774
4. 无偏好数据的大模型对齐中的逆Q*:令牌级别强化学习
标题:Inverse-Q*: Token Level Reinforcement Learning for Aligning Large Language Models Without Preference Data
机构:复旦大学、上海AI实验室
相关领域:RLHF
作者:Han Xia, Songyang Gao, Qiming Ge
分析:论文介绍了一种名为Inverse-Q*的创新框架,它通过优化令牌级别的强化学习,无需额外的奖励或价值模型,就能实现大型语言模型与人类意图的对齐。该方法通过直接优化偏好策略,提高了模型响应的粒度灵活性,尤其适用于资源有限的环境。实验结果表明,Inverse-Q*在收敛速度和模型响应与人类偏好的对齐度方面,不仅与PPO相匹配,甚至可能实现超越。
地址:https://arxiv.org/pdf/2408.14874
5. BaichuanSEED:通过引入有竞争力的大模型基线,分享扩展数据收集与去重功能的潜力
标题:BaichuanSEED: Sharing the Potential of ExtensivE Data Collection and Deduplication by Introducing a Competitive Large Language Model Baseline
机构:北京大学、中国人民大学
相关领域:数据集构建、预训练
作者:Guosheng Dong, Da Pan, Yiding Sun
分析:这篇论文主要解决大型语言模型依赖训练数据集的问题,通过公开通用数据处理管道的细节并引入竞争性的大型语言模型基线来验证其有效性和潜力。论文提出了数据收集与去重的策略,包括大规模的数据采集和样本重新加权等,提高了模型质量。
地址:https://arxiv.org/pdf/2408.15079
6. Generative Verifiers:将奖励建模作为下一个令牌预测
标题:Generative Verifiers: Reward Modeling as Next-Token Prediction
机构:加州大学、多伦多大学、Google DeepMind
相关领域:奖励模型、模型评估
作者:Lunjun Zhang, Arian Hosseini, Hritik Bansal
分析:这篇论文提出了一种新的验证器训练方法,利用大型语言模型的文本生成能力,通过下一个令牌预测目标进行训练。该验证器不仅可以提高推理性能,还可以无缝集成指令调整,支持链式思维推理,并通过多数投票进行更好的验证。在算法和小学数学推理任务上的实验表明,该方法优于传统的验证器和大型模型评判方法。
地址:https://arxiv.org/pdf/2408.15240
7. CURLoRA:大模型的稳定微调与灾难性遗忘的缓解
标题:CURLoRA: Stable LLM Continual Fine-Tuning and Catastrophic Forgetting Mitigation
相关领域:模型结构改进、预训练、模型评估
作者:Muhammad Fawi
分析:论文提出了一种新的大型语言模型(LLM)微调方法CURLoRA,它结合了CUR矩阵分解和低阶适应(LoRA)。主要解决了LLM微调中的两个关键问题:持续学习中的灾难性遗忘和可训练参数数量的减少。通过独特的CUR分解过程修改,使用逆概率选择行列,作为隐式正则化,并初始化U矩阵为零矩阵,只对其进行微调。实验证明,与标准LoRA相比,CURLoRA在缓解灾难性遗忘方面表现更优,能维持模型稳定性和跨任务性能,同时显著减少可训练参数数量。
地址:https://arxiv.org/pdf/2408.14572
8. 神经OOD:使用脑机融合学习框架改进OOD泛化性能
标题:NeuralOOD: Improving Out-of-Distribution Generalization Performance with Brain-machine Fusion Learning Framework
相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态
作者:Shuangchen Zhao, Changde Du, Hui Li
分析:这篇论文主要提出了一种新的神经网络模型,该模型利用了人类大脑的认知能力来提高深度神经网络在面对异常数据(OOD)时的泛化性能。作者首先介绍了传统的OOD泛化研究往往只关注单一模态的学习,而忽视了多模态学习的优势。然后,他们提出了一种基于脑机融合的新型学习框架。在这个框架中,视觉信息和脑部fMRI数据被交叉注意力机制融合在一起。此外,还使用了预训练的视觉神经编码模型来预测fMRI数据,从而无需手动收集和处理fMRI数据,大大减轻了工作负担。最后,通过引入皮尔逊相关系数最大化正则化方法,提高了融合能力并得到了更好的约束条件。实验结果表明,该模型在多个OOD数据集上的表现优于现有的DINOv2和基线模型,证明了其优越的泛化性能。
地址:https://arxiv.org/pdf/2408.14950
9. 边缘书写:长上下文检索的更好推理模式
标题:Writing in the Margins: Better Inference Pattern for Long Context Retrieval
作者:Melisa Russak, Umar Jamil, Christopher Bryant
分析:这篇论文介绍了一种名为Writing in the Margins (WiM)的新推理模式,这种模式被专门设计用于在检索导向任务中处理较长的输入序列。这种方法利用了键值对缓存的分块预填,可以进行分段推理,从而实现对扩展上下文的高效处理,同时生成并分类中间信息('边缘'),以指导模型执行特定任务。这种方法增长的计算开销有限,但显著提升了现成的模型的性能,而无需进行微调。具体而言,该论文观察到WiM在推理技能(HotpotQA、MultiHop-RAG)上的平均准确度提高了7.5%,在聚合任务(CWE)上的F1-score提高了超过30.0%。此外,该论文还介绍了如何将提出的模式融入到交互式检索设计中,以提供用户关于上下文处理进展的持续更新,并指明相关信息的集成方式。该论文使用Hugging Face Transformers库实现的WiM
地址:https://arxiv.org/pdf/2408.14906
代码:https://github.com/writer/writing-in-the-margins
10. StyleSpeech:预训练可控文本到语音的参数高效微调
标题:StyleSpeech: Parameter-efficient Fine Tuning for Pre-trained Controllable Text-to-Speech
机构:新南威尔士大学
相关领域:模型结构改进、预训练、多模态
作者:Haowei Lou, Helen Paik, Wen Hu
分析:这篇论文介绍了一种新型的文本到语音(TTS)系统——StyleSpeech,它提高了合成语音的自然度和准确性。该系统建立在现有的TTS技术之上,融入了一个独特的Style Decorator结构,使深度学习模型能够同时学习风格和音素特征,通过低秩适应(LoRA)原理提高适应性和效率。此外,还引入了一种新的自动评估指标LLM-MOS,该指标采用大型语言模型,为TTS系统的性能提供了客观和稳健的评估协议。测试表明,该方法在生成自然、准确、高质量的语音方面显著优于现有基线方法,推动了TTS系统的边界,并促进了其在互动虚拟助手、自适应有声读物和定制游戏声音等领域的应用。
地址:https://arxiv.org/pdf/2408.14713
代码:https://style-speech.vercel.app
11. Platypus:一种用于阅读各种形式文本的通用专家模型
标题:Platypus: A Generalized Specialist Model for Reading Text in Various Forms
机构:阿里巴巴集团
相关领域:模型结构改进、数据集构建
作者:Peng Wang, Zhaohai Li, Jun Tang
分析:这篇论文提出了一种名为Platypus的通用专家模型,用于阅读各种形式的文本。该模型结合了专业模型和通用模型的优点,能够在单一架构中识别各种形式的文本,同时实现卓越准确性和高效率。论文还构建了一个名为Worms的文本阅读数据集,以更好地利用Platypus模型的优势。该数据集的图片来自先前数据集并部分重新标注。实验结果表明,Platypus模型在标准基准测试上的有效性和优越性。
地址:https://arxiv.org/pdf/2408.14805
代码:https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/Platypus
12. DocLayLLM:高效的多模态扩展大模型用于富文本文档理解
标题:DocLayLLM: An Efficient and Effective Multi-modal Extension of Large Language Models for Text-rich Document Understanding
机构:华南理工大学、阿里巴巴集团
相关领域:多模态、模型结构改进(整合视觉和文本信息)、预训练(CoT预训练技术)
作者:Wenhui Liao, Jiapeng Wang, Hongliang Li
分析:这篇论文介绍了一种高效的多模态扩展大型语言模型DocLayLLM,专门用于富文本文档理解。它通过整合视觉补丁令牌和二维位置令牌到大型语言模型中,利用这些模型本身的文档理解能力并增强其对OCR信息的感知。同时,论文深入考虑了思维链的作用,并创新性地提出了思维预训练和思维退火技术。实验结果表明,DocLayLLM在轻量级训练设置下取得了显著的性能,超越了现有的OCR依赖方法和OCR免费竞争对手。
地址:https://arxiv.org/pdf/2408.15045
13. Generative Inbetweening:图像到视频的模型适应关键帧插值
标题:Generative Inbetweening: Adapting Image-to-Video Models for Keyframe Interpolation
机构:华盛顿大学、UC伯克利分校、Google DeepMind
相关领域:模型结构改进
作者:Xiaojuan Wang, Boyang Zhou, Brian Curless
分析:这篇论文提出了一种生成视频序列的方法,该方法可以在一对输入关键帧之间生成具有连贯运动的内容。研究团队适应了一个预训练的大规模图像到视频的扩散模型,用于关键帧插值,即生成两个输入帧之间的视频。他们使用了一种轻量级微调技术,使模型能够预测从单一输入图像向后的视频。该研究展示了该方法优于现有的扩散方法和传统的帧插值技术。
地址:https://arxiv.org/pdf/2408.15239
14. 基于扩散模型的实时游戏引擎
标题:Diffusion Models Are Real-Time Game Engines
机构:谷歌研究院、特拉维夫大学、Google DeepMind
相关领域:模型结构改进、预训练、模型评估
作者:Dani Valevski, Yaniv Leviathan, Moab Arar
分析:该论文提出了一种全新的游戏引擎GameNGen,它完全由神经网络模型驱动,可实现与复杂环境的高质量实时交互。GameNGen能在单个TPU上以超过每秒20帧的速度模拟经典游戏DOOM。其预测下一帧的能力达到了与有损JPEG压缩相当的PSNR值,人类评估者很难区分游戏片段和模拟片段。GameNGen的训练分为两个阶段:首先是RL-agent学习游戏,并记录训练会话;然后是训练扩散模型以基于过去的帧序列和动作生成下一帧。通过条件增强,实现了长期轨迹的稳定自回归生成。
地址:https://arxiv.org/pdf/2408.14837
15. 人工智能辅助内容生成中的人类贡献度量研究
标题:Measuring Human Contribution in AI-Assisted Content Generation
机构:清华大学、香港大学、北京大学
相关领域:模型评估
作者:Yueqi Xie, Tao Qi, Jingwei Yi
分析:随着生成式人工智能的普及,越来越多的内容不再完全由人类生成,而是由带有人类指导的生成式AI模型生成。本文提出一个研究问题,即如何度量人工智能辅助内容生成中人类贡献的程度。为了解决这个问题,本文基于信息理论提出了一个框架,通过计算人类输入和AI辅助输出之间的互信息相对于AI辅助输出的自信息,来量化人类在内容生成中的信息贡献比例。实验结果表明,该度量方法能够在多个创意领域中有效区分不同程度的人类贡献。本文旨在为生成式人工智能时代的人工智能辅助内容生成中的人类贡献度量奠定基础。
地址:https://arxiv.org/pdf/2408.14792
16. 生成式问答中幻觉减轻的证据增强三元组生成框架
标题:Evidence-Enhanced Triplet Generation Framework for Hallucination Alleviation in Generative Question Answering
机构:京东、字节跳动、南京大学
相关领域:模型结构改进、预训练、指令微调、奖励模型
作者:Haowei Du, Huishuai Zhang, Dongyan Zhao
分析:该论文提出了一种新的证据增强三元组生成框架(EATQA),旨在解决生成式问答中的幻觉问题。该框架通过翻转源对和目标标签来理解它们之间的逻辑关系,即预测给定一个QE、EA、QA三元组中的A、Q、E分别应该是什么。此外,该框架还通过在推理阶段缩小知识分布差距来提炼证据中的知识。该方法不仅将先验知识保留在LLM内,而且在减少幻觉并生成忠实答案方面也表现出色。
地址:https://arxiv.org/pdf/2408.15037
17. 延迟即回报:多臂老虎机问题新变种
标题:Delay as Payoff in MAB
机构:谷歌研究院、特拉维夫大学
相关领域:模型评估、指令微调
作者:Ofir Schlisselberg, Ido Cohen, Tal Lancewicki
分析:这篇论文探讨了一种多臂老虎机(Multi-armed Bandit, MAB)问题的变种,其中奖励(或费用)受到延迟,延迟与所获得奖励的大小成正比。这场景准确地模拟了许多现实生活中的情况,如数据包通过网络所需的时间(费用)取决于所选路径,或用户浏览网页耗时取决于所选内容(奖励)。研究分别解决了在延迟作为费用(首次考虑)及作为奖励的情况下,最优策略与后悔值的关联问题。论文提供了费用和奖励设置下的紧致上界和下界,且实验证明理论上得到了优化。研究提出的新观点在处理延迟依赖型奖励问题上提供了新的视角。
地址:https://arxiv.org/pdf/2408.15158
18. 文本到SQL不足以满足需求:以TAG统一人工智能和数据库
标题:Text2SQL is Not Enough: Unifying AI and Databases with TAG
机构:斯坦福大学、UC伯克利分校
相关领域:模型结构改进、指令微调
作者:Asim Biswal, Liana Patel, Siddarth Jha
分析:这篇论文提出了一种新的统一人工智能和数据库的范式,即表增强生成(TAG),以回答自然语言问题。论文指出,现有的Text2SQL方法和Retrieval-Augmented Generation(RAG)只关注特定类型的问题,无法处理用户可能提出的任意问题。因此,论文旨在开发一种更通用的方法,能够利用语言模型的推理和知识能力,以及数据库的可扩展计算能力。论文还介绍了为TAG模型开发的新基准测试,并发现现有方法只能正确回答20%的查询。
地址:https://arxiv.org/pdf/2408.14717
代码:https://github.com/TAG-Research/TAG-Bench
19. AgentMonitor:面向预测和安全的多智能体系统的即插即用框架
标题:AgentMonitor: A Plug-and-Play Framework for Predictive and Secure Multi-Agent Systems
机构:清华大学、香港科技大学
相关领域:模型评估、多模态
作者:Chi-Min Chan, Jianxuan Yu, Weize Chen
分析:论文介绍了一种面向预测和安全的多智能体系统(MAS)的即插即用框架——AgentMonitor。该框架能够集成到智能体层面,通过捕获输入和输出信息并将其转化为统计数据来训练回归模型,从而预测任务性能。此外,它还能实时监控并纠正恶意智能体的安全风险,增强系统的安全性和可靠性。实验结果显示,使用AgentMonitor能够显著提高任务预测准确性、系统安全性和内容质量。
地址:https://arxiv.org/pdf/2408.14972
代码:https://github.com/chanchimin/AgentMonitor
20. 大规模语言模型中的无训练激活稀疏性
标题:Training-Free Activation Sparsity in Large Language Models
机构:麻省理工学院、普林斯顿大学
相关领域:模型结构改进
作者:James Liu, Pragaash Ponnusamy, Tianle Cai
分析:本论文提出TEAL,一种训练无需的、基于模指数的无激活稀疏性方法。它能在Llama-2、Llama-3和Mistral大小不等的模型(7B-70B)上实现40-50%全局稀疏,同时保持性能稳定。TEAL通过改进现有稀疏内核,实现了 wall-clock 解码速度提升1.53-1.8倍。它与权重量化兼容,增加效率。主要解决了大语言模型计算复杂度和内存需求问题。
地址:https://arxiv.org/pdf/2408.14690
21. SynthDoc:为视觉文档理解的双语文档合成
标题:SynthDoc: Bilingual Documents Synthesis for Visual Document Understanding
机构:南京大学、商汤研究院
相关领域:模型结构改进、数据集构建、评估指标
作者:Chuanghao Ding, Xuejing Liu, Wei Tang
分析:本文介绍了SynthDoc,一个用于增强视觉文档理解(VDU)的创新性合成文档生成管道,旨在通过生成高质量、多样化的包含文本、图像、表格和图表的数据集来解决数据获取的挑战和现有数据集的局限性。利用公共可用的语料库和高级渲染工具,SynthDoc创建了一个全面且灵活的数据集。利用Donut模型进行的实验表明,使用SynthDoc数据训练的模型在预训练阅读任务中表现出优越的性能,并且在下游任务中保持了良好的鲁棒性,尽管存在语言不一致的情况。发布的包含5,000个图像-文本对的基准数据集不仅展示了管道的能力,还为视觉文档理解社区提供了一项宝贵资源,以推动文档图像识别领域的研究和发展。这项工作显著地通过提供一种应对数据稀缺性的可扩展解决方案,并通过证明端到端模型在解析复杂、现实世界的文档中的有效性,向领域做出了重大贡献。
地址:https://arxiv.org/pdf/2408.14764
22. 大模型结构剪枝的多关注预留调优
标题:PAT: Pruning-Aware Tuning for Large Language Models
机构:南京大学、亚利桑那大学
相关领域:大语言模型结构剪枝调优
作者:Yijiang Liu, Huanrui Yang, Youxin Chen
分析:大语言模型(LLMs)在语言任务上表现出色,尤其是在有监督的微调之前预训练后。然而,它们巨大的内存和计算要求阻碍了它们的实际应用。结构剪枝,即减少不重要的权重维度,是一种解决方案。然而,传统的后置剪枝常常导致显著的性能损失,进一步微调由于减少容量而无法恢复。由于模型微调可以改善预训练模型中的通用和混乱的知识,该论文旨在将结构剪枝与微调结合,并提出可剪枝关注调优(PAT)范式以消除模型冗余,同时尽量保留模型性能。具体而言,该论文在注意力和FFN组件之间插入创新的混合稀疏化模块(HSMs)以相应地稀疏上游和下游线性模块。HSM包括轻量级操作符和全局共享可训练掩码。轻量级操作符与LoRA的训练开销相当,而可训练掩码统一要稀疏化的通道,确保结构剪枝。此外,该论文提出了一种身份损失,将HSM的变换和缩放属性解耦,从而增强训练的鲁棒性。大量实验表明,PAT在性能和效率方面都表现出色。例如,该论文的Llama2-7b模型,比例剪枝25%,速度提高1.33倍,与LoRA微调的模型相比,在相同训练成本下,准确率提高了最多1.26%。代码:https://github.com/kriskrisliu/PAT_Pruning-Aware-Tuning
地址:https://arxiv.org/pdf/2408.14721
代码:https://github.com/kriskrisliu/PAT_Pruning-Aware-Tuning
23. MMR:评估大型多模态模型的阅读能力
标题:MMR: Evaluating Reading Ability of Large Multimodal Models
机构:Adobe Research
相关领域:多模态、模型评估
作者:Jian Chen, Ruiyi Zhang, Yufan Zhou
分析:这篇论文提出了一个多模态阅读(MMR)基准测试,用于评估大型多模态模型对富文本图像的理解能力。该基准测试包含11个不同的任务,旨在评估模型的复杂推理和空间理解能力。论文指出,现有的富文本图像基准测试无法准确反映不同模型的性能,因此提出了这个新的基准测试。通过评估一系列最先进的大型多模态模型,包括GPT-4o,揭示了现有模型的局限性,强调了该基准测试的价值。
地址:https://arxiv.org/pdf/2408.14594
24. 基于Shopee的电商高召回多模态检索系统MRSE
标题:MRSE: An Efficient Multi-modality Retrieval System for Large Scale E-commerce
机构:南洋理工大学、新加坡国立大学
相关领域:模型结构改进、预训练、多模态检索、个性化推荐
作者:Hao Jiang, Haoxiang Zhang, Qingshan Hou
分析:这篇论文提出了一个名为MRSE的电商检索系统,旨在解决大规模电商系统中文本查询的高质量物品召回问题。传统的基于嵌入的检索系统(ERS)主要依赖文本特征,但它们在复杂场景下表现不稳定。而多模态ERS虽然整合了不同数据源,但忽略了用户对不同模态的个体偏好,导致结果不够理想。因此,MRSE通过结合文本、物品图像和用户偏好,通过轻量级的方法(如LMoE模块),更好地将不同模态和内部特征对齐。此外,MRSE还构建了多模态的个性化用户档案,并通过新颖的混合损失函数来增强一致性和鲁棒性,从而在Shopee的大型数据集上实现了与现有uni-modality系统的18.9% offline relevance提升和3.7% online核心指标提升。
地址:https://arxiv.org/pdf/2408.14968
25. Fundus2Video: 跨模态眼底血管生成从静态眼底照相到动态眼底视频生成 with 临床知识指导
标题:Fundus2Video: Cross-Modal Angiography Video Generation from Static Fundus Photography with Clinical Knowledge Guidance
机构:中山大学、莫纳什大学、香港理工大学
相关领域:跨模态生成、眼底图像处理、临床知识指导、生成对抗网络
作者:Weiyi Zhang, Siyu Huang, Jiancheng Yang
分析:这篇论文提出了一种动态眼底荧光血管造影视频生成方法,它可以根据静态眼底照相图像生成动态的眼底荧光血管造影图像,从而克服了传统的眼底荧光血管造影因为侵入性而不够普及的缺点。论文通过引入自回归生成对抗网络(GAN)来平滑、内存高效地逐帧生成眼底荧光血管造影图像,并通过设计知识掩码来解决像素对齐问题。该论文的主要问题是如何在眼底变化区域更准确地生成图像并提高生成质量,而不仅仅是生成静态图像。这篇论文还提供了一种非侵入性眼底血管造影方法,通常被用于研究和临床应用。
地址:https://arxiv.org/pdf/2408.15217
代码:https://github.com/Michi-3000/Fundus2Video
26. MegActor-\Sigma:基于扩散Transformer的灵活混合模态控制肖像动画解锁技术
标题:MegActor-\Sigma: Unlocking Flexible Mixed-Modal Control in Portrait Animation with Diffusion Transformer
机构:香港大学、旷视科技
相关领域:模型结构改进、多模态
作者:Shurong Yang, Huadong Li, Juhao Wu
分析:这篇论文提出了一种混合模态控制肖像动画的技术,通过扩散模型实现灵活混合模态控制。针对当前肖像动画控制方法主要依赖单一模态的问题,该论文引入了梅格演员Sigma模型,融合了音频和视觉模态控制信号。论文解决了音频模态控制弱和视觉模态控制强的平衡问题,并提出了新的训练策略和推理策略。同时,为了促进该领域的研究,论文还设计了数据集评估指标并过滤了公共数据集用于模型训练。实验表明,该模型可以生成逼真的肖像动画,优于在私有数据集上训练的以前方法。
地址:https://arxiv.org/pdf/2408.14975
27. 基于大模型的歌词重建研究
标题:LyCon: Lyrics Reconstruction from the Bag-of-Words Using Large Language Models
机构:加州大学、伊利诺伊大学
相关领域:数据集构建、模型结构改进
作者:Haven Kim, Kahyun Choi
分析:这篇论文提出了一种基于公开可用的Bag-of-Words(BoW)数据集和大型语言模型生成版权免费歌词的新方法。该方法解决了由于版权问题无法直接使用歌词进行研究的难题。通过整合元数据,如情感注释和流派等,成功重建歌词并创建了LyCon数据集供公众访问。该论文认为集成元数据可以推动歌词生成实验的发展。
地址:https://arxiv.org/pdf/2408.14750
28. Alfie: 利用可控性和无需额外计算成本的预训练Diffusion Transformer模型实现RGBA图像生成
标题:Alfie: Democratising RGBA Image Generation With No
机构:摩德纳和雷焦埃米利亚大学
相关领域:图像生成、可控性
作者:Fabio Quattrini, Vittorio Pippi, Silvia Cascianelli
分析:本文提出了一种全自动化方法,通过修改预训练Diffusion Transformer模型的推断时间行为,生成RGBA图像。这种方法利用了可控性和无需额外计算成本的可视质量,无需主体的尖锐裁剪,背景易于移除,实现无缝集成。该论文的用户研究表明,大多数用户更喜欢该论文的解决方案,而不是生成并粘贴图像。该论文的生成的图像在用于合成场景生成管道时,能获得良好结果。该论文已在GitHub上开源代码:https://github.com/aimagelab/Alfie。
地址:https://arxiv.org/pdf/2408.14826
代码:https://github.com/aimagelab/Alfie
29. GenRec: 统一视频生成与识别with diffusion models
标题:GenRec: Unifying Video Generation and Recognition with Diffusion Models
机构:复旦大学、马里兰大学
相关领域:模型结构改进、预训练、模型评价、数据集构建
作者:Zejia Weng, Xitong Yang, Zhen Xing
分析:这篇论文介绍了一种名为GenRec的统一框架,它结合了扩散模型来生成高质量的视频,同时能够进行视频识别。该框架通过随机帧条件过程学习通用的空间-时间表示,不仅能进行视频生成和识别,而且在视觉输入信息有限时也能保持鲁棒性。GenRec在SSV2和K400数据集上的识别准确率很高,分别为75.8%和87.2%。同时,它在类条件图像到视频的生成上表现出色,在SSV2和EK-100数据集上分别获得了46.5和49.3分的分数。此外,GenRec在只有有限帧被观察到的情景中表现出了极高的鲁棒性。
地址:https://arxiv.org/pdf/2408.15241
30. No Regrets:调查和改进学习曲线发现的遗憾近似值
标题:No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery
机构:牛津大学
作者:Alexander Rutherford, Michael Beukman, Timon Willi
分析:在强化学习中,如何使用哪些数据或环境进行训练以提高下游性能是一个长期且非常热门的问题。特别是,无监督环境设计(UED)方法因其自适应的学习曲线使代理能够对内/外分布任务保持强健,最近引起了人们的关注。该论文询问这些方法在应用于一个受到实际机器人问题启发的新颖设置时本身是否稳健。令人惊讶的是,该论文发现最先进的UED方法要么没有改善天真基准域随机化(DR)的方法,要么需要大量的超参数调优才能做到这一点。该论文的分析表明,这是由于它们的底层评分函数未能预测“可学性”的直观度量,即在找到代理有时解决但不总是解决的任务设置方面。基于此,该论文直接在具有高可学性的级别上进行训练,并发现这种简单而直观的方法在几个二元结果环境中优于UED方法和DR,包括在该论文领域和标准的UED Minigrid领域。该论文进一步引入了一种新的对抗性评估程序,直接衡量鲁棒性,与条件风险价值(CVaR)密切相似。该论文在这里公开了所有代码并提供了最终政策的可视化:https://github.com/amacrutherford/sampling-for-learnability。
地址:https://arxiv.org/pdf/2408.15099
代码:https://github.com/amacrutherford/sampling-for-learnability
31. LN-Gen:基于解剖特征的直肠癌淋巴结生成
标题:LN-Gen: Rectal Lymph Nodes Generation via Anatomical Features
机构:中国科学技术大学
相关领域:数据集构建
地址:https://arxiv.org/pdf/2408.14977
32. 故事评估:挑战、指标与未来
标题:What Makes a Good Story and How Can We Measure It? A Comprehensive Survey of Story Evaluation
机构:中国人民大学
地址:https://arxiv.org/pdf/2408.14622
33. FastTextSpotter:一个高效的Transformer用于多语言场景文本定位
标题:FastTextSpotter: A High-Efficiency Transformer for Multilingual Scene Text Spotting
机构:印度理工学院
相关领域:模型结构改进
地址:https://arxiv.org/pdf/2408.14998
34. T-FAKE: 合成热图像人脸标记
标题:T-FAKE: Synthesizing Thermal Images for Facial Landmarking
机构:马克斯·普朗克计算机科学研究所
相关领域:数据集构建
地址:https://arxiv.org/pdf/2408.15127
代码:https://github.com/phflot/tfake
35. 世界各国菜系中食材搭配网络的探究
标题:The networks of ingredient combination in cuisines around the world
机构:东北大学、伦敦玛丽女王大学
地址:https://arxiv.org/pdf/2408.15162
36. 解锁预训练音乐语言模型在多功能多轨道音乐编排中的潜力
标题:Unlocking Potential in Pre-Trained Music Language Models for Versatile Multi-Track Music Arrangement
机构:MBZUAI大学
相关领域:模型结构改进、预训练、多模态
地址:https://arxiv.org/pdf/2408.15176
37. MODOC: 一种灵活的信息检索和文本生成功能的模块化界面
标题:MODOC: A Modular Interface for Flexible Interlinking of Text Retrieval and Text Generation Functions
机构:苏黎世大学、苏黎世联邦理工学院
相关领域:模型评估
地址:https://arxiv.org/pdf/2408.14623
38. 图像标注训练范式的再审视——基于直接CLIP优化的方法
标题:Revisiting Image Captioning Training Paradigm via Direct CLIP-based Optimization
机构:IIT-CNR、摩德纳和雷焦埃米利亚大学
相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态
地址:https://arxiv.org/pdf/2408.14547
代码:https://github.com/aimagelab/DiCO
39. MTMamba++: 通过基于Mamba的解码器增强多任务密集场景理解
标题:MTMamba++: Enhancing Multi-Task Dense Scene Understanding via Mamba-Based Decoders
地址:https://arxiv.org/pdf/2408.15101
代码:https://github.com/EnVision-Research/MTMamba
40. ZeroMamba: 探索用于零样本学习的视觉状态空间模型
标题:ZeroMamba: Exploring Visual State Space Model for Zero-Shot Learning
地址:https://arxiv.org/pdf/2408.14868
代码:https://anonymous.4open.science/r/ZeroMamba
41. 欧洲语言大模型的调查
标题:A Survey of Large Language Models for European Languages
相关领域:模型结构改进, 预训练
地址:https://arxiv.org/pdf/2408.15040
42. 初始化修剪有效剪枝的初步学习
标题:Learning effective pruning at initialization from iterative pruning
相关领域:模型结构改进、修剪初始化
地址:https://arxiv.org/pdf/2408.14757
代码:https://github.com/ChengYaofeng/AutoSparse.git
43. 可扩展、可复现且成本效益高的大规模医学影像数据处理
标题:Scalable, reproducible, and cost-effective processing of large-scale medical imaging datasets
机构:约翰霍普金斯大学
地址:https://arxiv.org/pdf/2408.14611
44. RAW-Adapter:将预训练视觉模型适配到相机RAW图像的研究
标题:RAW-Adapter: Adapting Pre-trained Visual Model to Camera RAW Images
地址:https://arxiv.org/pdf/2408.14802
45. 预付费电户能源管理:线性优化方法
标题:Energy Management for Prepaid Customers: A Linear Optimization Approach
机构:威斯康星大学
地址:https://arxiv.org/pdf/2408.14703
46. 大型标注音乐数据集开发使用基于HMM的强迫维特比对齐
标题:Development of Large Annotated Music Datasets using HMM-based Forced Viterbi Alignment
相关领域:数据集构建
地址:https://arxiv.org/pdf/2408.14890
47. 双训练约束扩散模型
标题:Constrained Diffusion Models via Dual Training
相关领域:模型结构改进、数据集构建、评估指标
地址:https://arxiv.org/pdf/2408.15094
48. 改进复杂医患对话中的临床笔记生成
标题:Improving Clinical Note Generation from Complex Doctor-Patient Conversation
相关领域:模型结构改进、数据集构建、模型评估
地址:https://arxiv.org/pdf/2408.14568
49. 代码语言模型的评估:功能正确性足够吗?探索生成代码的多样性
标题:Is Functional Correctness Enough to Evaluate Code Language Models? Exploring Diversity of Generated Codes
相关领域:模型评估、多模态
地址:https://arxiv.org/pdf/2408.14504
好啦,小编今天的分享就到这里啦,欢迎留言讨论哦。