下一个词预测并不是最佳?港城大提出NDP(下一个分布预测)| 大模型中迁移学习的缩放规律研究 | 训练超高长度上下文语言模型

文摘   2024-09-02 15:44   广东  

前言:论文可以让你更快地了解最新研究进展,掌握最新的技术和理论。这对于自身的科研能力和竞争力非常重要,尤其是在快速发展的学科领域,下面小编带你来看大模型最近的研究成果。


1. NDP:作为更广泛目标的下一个分布预测

  标题:NDP: Next Distribution Prediction as a More Broad Target

  机构:香港城市大学

  关键词:大型语言模型、下一个分布预测、n-gram分布、独热目标

  作者:Junhao Ruan,  Abudukeyumu Abudula,  Xinyu Liu

  分析:本文批评了基于单一目标(下一个令牌预测)的大型语言模型(LLM)训练方式的局限性,并指出了由于其训练时目标过窄,即预测次优独热分布所带来的问题。通过预实验观察,该论文发现LLM的输出分布与n-gram分布更一致。因此,该论文提出了下一个分布预测(NDP)方法,使用n-gram分布替代独热目标,能够在不增加额外在线训练时间的情况下提高学习性能。在翻译、通用任务、语言迁移和医学领域适应等方面的实验表明,NDP方法具有显著的优势和实用价值。

  地址:https://arxiv.org/pdf/2408.17377


2. Transformer模型中迁移学习的缩放规律

  标题:An Empirical Study of Scaling Laws for Transfer

  关键词:Transformer模型、迁移学习、缩放规律、转移差距

  作者:Matthew Barnett

  分析:该论文呈现了一个关于迁移学习在Transformer模型中的缩放规律的有限经验研究。更具体地说,该论文检验了一个包含“转移差距”项的缩放规律,该项表明在优化下游性能时,预训练在一种分布上的有效性。当转移差距低时,预训练是提高下游性能的成本效益高策略。相反,当差距高时,收集高质量的微调数据变得相对更加具有成本效益。将缩放规律拟合到来自不同数据集的实验结果中揭示了分布间的转移差距存在显著差异。从理论上讲,这种缩放规律可以指导最优的数据分配策略,并突显了下游数据稀缺如何制约性能。该论文的发现为测量迁移学习效率提供了一个原则性方法,并理解数据可用性如何影响能力。

  地址:https://arxiv.org/pdf/2408.16947


3. 探索使用前缀调整获取大模型中的新颖世界知识的方法

  标题:Novel-WD: Exploring acquisition of Novel World Knowledge in LLMs Using Prefix-Tuning

  关键词:大型语言模型、新事实信息获取、前缀调整、数据集构建

  作者:Maxime Méloux,  Christophe Cerisara

  分析:这篇论文关注大型预训练语言模型获取和适应新事实信息的问题。研究如何在模型已有的训练语料库之外获取新知识,并提出了一个名为Novel-WD的新数据集用于评估和测试这一领域的研究进展。此外,论文还探讨了前缀调整这一模型适应新知识的技术方法,分析了前缀长度和模型规模对存储新知识的影响。

  地址:https://arxiv.org/pdf/2408.17070


4. 全管道分布式Transform训练超高长度上下文语言模型

  标题:Training Ultra Long Context Language Model with Fully Pipelined Distributed Transformer

  机构:微软、俄亥俄州立大学

  关键词:大型语言模型、全管道分布式训练、模型效率、结构优化

  作者:Jinghan Yao,  Sam Ade Jacobs,  Masahiro Tanaka

  分析:论文提出了一种全管道分布式Transform(FPDT)方法,实现了在相同硬件上,对大型语言模型(LLM)进行16倍长度的序列训练,显著优化了硬件效率。FPDT方法适用于GPT和Llama模型,允许多线程并行处理8亿参数的模型,在4个GPU上进行200万的序列长度训练,且保持了超过55%的机器学习利用率。这种方法不依赖于现有训练技术,且在多个LLM模型中表现出高效性。

  地址:https://arxiv.org/pdf/2408.16978


5. HelixFold3用于生物分子结构预测的技术报告

  标题:Technical Report of HelixFold3 for Biomolecular Structure Prediction

  机构:百度

  关键词:HelixFold3、AlphaFold系列、蛋白质结构预测、生物分子结构预测

  作者:Lihang Liu,  Shanzhuo Zhang,  Yang Xue

  分析:这篇论文介绍了HelilFold3的研发进展及其在生物分子结构预测中的应用。旨在解决AlphaFold3尚未开源的问题,并通过使用洞察和前模型的见解来重建类似的预测能力。初步发布的HelixFold3作为开源代码在GitHub上供学术研究使用,以推动生物分子研究和加速发现。该论文对蛋白质结构预测的发展具有重大意义。

  地址:https://arxiv.org/pdf/2408.16975

  代码:https://paddlehelix.baidu.com/app/all/helixfold3/forecast


6. MoRe微调技术:参数更少的高效模型微调方法

  标题:MoRe Fine-Tuning with 10x Fewer Parameters

  关键词:模型微调、参数高效、MoRe框架、性能优化

  作者:Wenxuan Tan,  Nicholas Roberts,  Tzu-Heng Huang

  分析:针对现有模型微调方法对新模型和架构性能上的局限性,提出了一种名为MoRe的新微调框架。该框架使用Monarch矩阵类来搜索适配器架构,理论上比LoRA更具表现力。经验表明,MoRe在多种任务和模型上的性能优于最先进的PEFT,并且使用LoRA参数的5%就能取得良好效果。

  地址:https://arxiv.org/pdf/2408.17383


7. Transformer模型的注意力机制研究

  标题:Investigating Neuron Ablation in Attention Heads: The Case for Peak Activation Centering

  关键词:神经元消融、Transformer模型、注意力机制、实验分析

  作者:Nicholas Pochinkov,  Ben Pasero,  Skylar Shibayama

  分析:这篇论文主要探讨了Transformer模型中的注意力机制,通过不同的神经元消融方法来分析其在语言模型和视觉Transformer中的表现。作者提出了四种神经元消融方法:零消融、平均消融、激活重采样和峰值消融,并比较了它们对模型性能的影响。通过实验分析,发现每种方法在不同模型和状态下都能提供最低的性能下降,其中激活重采样通常导致最大的性能下降。

  地址:https://arxiv.org/pdf/2408.17322

  代码:https://github.com/nickypro/investigating-ablation


8. MemLong:增强记忆辅助的文本检索用于长文本建模

  标题:MemLong: Memory-Augmented Retrieval for Long Text Modeling

  关键词:MemLong、长文本建模、外部检索器、语义级相关块

  作者:Weijie Liu,  Zecheng Tang,  Juntao Li

  分析:论文提出了一种MemLong方法,旨在解决大型语言模型在处理长文本时遇到的内存消耗和上下文关联问题。通过结合外部检索器和语义级相关块,MemLong可以有效地扩展上下文长度并提高模型性能。该方法在多个长文本建模基准测试中表现优异。

  地址:https://arxiv.org/pdf/2408.16967

  代码:https://github.com/Bui1dMySea/MemLong


9. VQ4DiT: 在「提速」处理中对扩散Transformer的向量量化进行高效后训练:突破参数大小的瓶颈

  标题:VQ4DiT: Efficient Post-Training Vector Quantization for Diffusion Transformers

  机构:浙江大学

  关键词:VQ4DiT、扩散Transformer、向量量化、高效后训练

  作者:Juncan Deng,  Shuaiting Li,  Zeyu Wang

  分析:本文探索了扩散Transformer (DiTs) 在图像生成领域的先进能力,并讨论了它们在高清视频生成任务中的广泛应用。文中指出,尽管DiTs展现出非凡的性能,但其庞大的参数规模限制了在边缘设备上的推理。为了解决这一挑战,本文提出了一种名为VQ4DiT的快速后训练向量量化方法,旨在对于DiTs进行高效的权衡处理。传统向量量化方法仅对码本进行校正,忽视了赋值的校正,进而导致向量分量被错误地分配到相同的赋值上,形成不一致的梯度反馈到码本,结果不理想。VQ4DiT通过基于欧几里得距离计算每个权量分量的候选赋值集,并基于加权平均重构分量来进行改进。利用零数据和块式校正方法,有效筛选出赋值集中的最优赋值,同时同步校正码本。研究结果表明,VQ4DiT能够在性能与大小的转换之间达到新的旗舰地位,即使在保留了可接受的图像生成质量的情况下,也实现了权量的2位精确量化。

  地址:https://arxiv.org/pdf/2408.17131


10. Maven:超新星科学的多模态基础模型

  标题:Maven: A Multimodal Foundation Model for Supernova Science

  机构:哈佛大学、剑桥大学、麻省理工学院

  关键词:超新星、多模态、预训练、模型性能

  作者:Gemma Zhang,  Thomas Helfer,  Alexander T. Gagliano

  分析:本文介绍了一种名为Maven的多模态基础模型,用于理解和分析超新星的观测数据。Maven模型通过对0.5百万个合成超新星的观测数据进行对比学习训练,然后通过4702个来自Zwicky瞬变设施的真实观测超新星光谱数据进行精调。文章展示了Maven在超新星分类和红移估计方面的表现,尽管模型的嵌入空间并未专门优化用于这些任务,但模型仍然达到了同领域的最优性能。研究表明,使用合成数据进行预训练可以提升整体性能。未来,随着Vera C. Rubin observatory的启用,Maven有望成为研究多模态时间域数据的关键工具。

  地址:https://arxiv.org/pdf/2408.16829


11. 超越偏好:AI对齐的新视角

   标题:Beyond Preferences in AI Alignment

   机构:伦敦大学、剑桥大学、麻省理工学院

   作者:Tan Zhi-Xuan,  Micah Carroll,  Matija Franklin

   分析:这篇论文挑战并批评了AI对齐中主导的偏好论,提出了一系列新的理论和技术替代方案。首先,论文揭示了理性选择理论在描述人类价值时的局限性,以及效用表示法忽视的可能存在的价值不兼容性。其次,论文质疑了期望效用理论(EUT)在人和AI上的规范性,主张应该重新定义AI的对齐目标,使其符合其社会角色的规范标准,如通用助手的角色。最后,论文主张这些规范应由所有相关的利益相关者协商一致确定。在这种新的对齐观念下,各种AI系统将能够服务于多种目的,即使该论文的价值观多元且有差异,也能通过促进互利和限制伤害来实现对齐。

   地址:https://arxiv.org/pdf/2408.16984


12. Codec Does Matter:探索音频语言模型编解码器的语义缺陷

   标题:Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model

   机构:微软、香港大学、香港科技大学

   关键词:编解码器、音频语言模型、语义缺陷、X-Codec编解码器

   作者:Zhen Ye,  Peiwen Sun,  Jiahe Lei

   分析:这篇论文主要探讨了音频语言模型中编解码器的语义缺陷问题。针对现有音频编解码器在音频生成方面存在的语义不完整问题,提出了一个名为X-Codec的新编解码器。该编解码器结合了预训练语义编码器,提高了语义能力,显著降低了语音合成任务的词错误率(WER),并将这些优势扩展到非语音应用。论文通过一系列实验验证了整合语义信息对音频生成任务性能的提升。

   地址:https://arxiv.org/pdf/2408.17175

   代码:https://x-codec-audio.github.io Code: https://x-codec-audio.github.io)


13. 连接剧集与语义:长视频理解的新框架

   标题:Bridging Episodes and Semantics: A Novel Framework for Long-Form Video Understanding

   机构:英伟达、清华大学

   关键词:长视频理解、模型结构改进、人类认知模拟、语义强化

   作者:Gueter Josmy Faure,  Jia-Fong Yeh,  Min-Hung Chen

   分析:本文提出了一种与人类认知更为相符的长视频处理方法,不同于现有研究通常将长视频视为续集短视频的策略。通过引入BREASE(连接剧集和语义的长视频理解框架),该论文挑战了这一传统视角。BREASE通过模拟对事件的串连记忆,捕捉动作序列,并强化视频中散布的语义知识。该论文研究的两个主要贡献:首先,开发了能够高效将底层到中层必要表示融合的Episodic COmpressor(ECO)。其次,提出了Semantics reTRiever(SeTR),通过聚焦于视频的宏观上下文,增强ECO所聚合的表示,同时大幅度降低了特征维度,而保留了关键的宏观信息。本研究在多个长视频理解基准上达到了最先进的性能,并在零样本和全监督设置下证明了其优越性。

   地址:https://arxiv.org/pdf/2408.17443

   代码:https://joslefaure.github.io/assets/html/hermes.html


14. VisionTS:基于视觉掩码自编码器的零样本时间序列预测研究

   标题:VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters

   机构:浙江大学、Salesforce研究院

   关键词:视觉掩码自编码器、时间序列预测、零样本预测、图像重建任务

   作者:Mouxiang Chen,  Lefei Shen,  Zhuo Li

   分析:该研究提出了一种基于视觉掩码自编码器(MAE)的时间序列预测模型VisionTS。通过探索图像与时间序列的内在相似性,并改革时间序列预测任务为图像重建任务,使得能够在无需针对时间序列领域进行微调的情况下,使用经过ImageNet数据集预训练的MAE模型进行零样本预测。并且该模型通过最小的微调可达到先进预测性能。

   地址:https://arxiv.org/pdf/2408.17253

   代码:https://github.com/Keytoyze/VisionTS


15. 视觉Transformer的自监督学习机制调查

   标题:A Survey of the Self Supervised Learning Mechanisms for Vision Transformers

   机构:阿尔托大学、IBM研究院、MBZUAI大学

   关键词:自监督学习、视觉Transformer、预训练任务、无标签数据

   作者:Asifullah Khan,  Anabia Sohail,  Mustansar Fiaz

   分析:这篇论文主要探讨了自监督学习在视觉任务中的应用,特别是针对在数据标签稀缺的情况下的视觉Transformer模型的自监督学习机制。论文详细介绍了自监督学习的动机、流行的预训练任务,对不同自监督学习方法进行了比较分析,并指出了潜在的研究方向。论文对于降低深度学习算法对人工标注的依赖,提高模型在大量无标签数据上的性能具有重要的理论和实践价值。

   地址:https://arxiv.org/pdf/2408.17059


16. HLogformer:面向日志数据的分层transformer架构

   标题:HLogformer: A Hierarchical Transformer for Representing Log Data

   机构:Amazon

   关键词:HLogformer、日志数据、分层Transformer、日志解析

   作者:Zhichao Hou,  Mina Ghashami,  Mikhail Kuznetsov

   分析:HLogformer针对日志数据的挑战,提出了一种动态分层Transformer,它有效处理了日志的结构性和嵌套关系,降低了内存消耗,改进了 representation。通过设计为适应日志数据的结构,HLogformer在合成异常检测和产品推荐等任务上表现出优越性能。

   地址:https://arxiv.org/pdf/2408.16803


17. SYNTHEVAL:基于合成检查列表的NLP模型混合行为测试

   标题:SYNTHEVAL: Hybrid Behavioral Testing of NLP Models with Synthetic CheckLists

   机构:剑桥大学、慕尼黑大学、慕尼黑工业大学

   关键词:SYNTHEVAL、NLP模型评估、语言模型生成、挑战性例子识别

   作者:Raoyuan Zhao,  Abdullatif Köksal,  Yihong Liu

   分析:这篇论文提出了一种新的NLP模型测试框架SYNTHEVAL,该框架利用大型语言模型生成多种测试类型,以全面评估NLP模型的性能。通过控制生成语句,比较LLMs和特定NLP模型的预测结果,识别出具有挑战性的例子。最后由人类专家调查这些例子,手动设计模板,并识别特定任务模型持续出现的失败类型。论文应用于情感分析和有毒语言检测两个分类任务,证明了该框架的有效性。

   地址:https://arxiv.org/pdf/2408.17437

   代码:https://github.com/Loreley99/SynthEval_CheckList


18. CinePreGen: 相机可控的视频预可视化

   标题:CinePreGen: Camera Controllable Video Previsualization via Engine-powered Diffusion

   机构:斯坦福大学、香港科技大学

   作者:Yiran Chen,  Anyi Rao,  Xuekun Jiang

   分析:这篇论文介绍了一种名为CinePreGen的视频预可视化系统,该系统通过引擎驱动的扩散技术提供了相机控制和故事板界面,以增强视频预可视化的效果。它还采用用户友好的AI渲染工作流,通过多遮罩的IP适配器和引擎模拟指南来实现一致的结果。该系统在开发过程中减少了复杂性和挑战,满足了用户对设计过程的广泛控制和迭代需求,并在电影级相机运动方面优于其他AI视频制作工作流。

   地址:https://arxiv.org/pdf/2408.17424


19. UrBench:用于评估多视图城市场景中大型多模态模型的全面基准测试

   标题:UrBench: A Comprehensive Benchmark for Evaluating Large Multimodal Models in Multi-View Urban Scenarios

   机构:中山大学、武汉大学、商汤研究院

   关键词:大型多模态模型、城市场景、基准测试、地理定位

   作者:Baichuan Zhou,  Haote Yang,  Dairong Chen

   分析:这篇论文提出了一种全面的基准测试UrBench,用于评估大型多模态模型(LMMs)在复杂多视图城市场景中的性能。该基准测试包含大量精心策划的问题,涵盖区域级别和角色级别的四个任务维度,包括地理定位、场景推理、场景理解和对象理解。论文通过整合多种方法构建大规模高质量问题,对21个LMMs进行评估,发现它们在城市环境中的某些方面存在困难。该论文解决了现有城市基准测试的局限性,提供了一个更全面的评估框架。

   地址:https://arxiv.org/pdf/2408.17267

   代码:https://opendatalab.github.io/UrBench/


20. Look, Compare, Decide:缓解大型视觉语言模型的幻觉

   标题:Look, Compare, Decide: Alleviating Hallucination in Large Vision-Language Models via Multi-View Multi-Path Reasoning

   机构:厦门大学、华中科技大学、香港中文大学

   关键词:大型视觉语言模型,幻觉问题,多视图信息寻求策略,多路径推理

   作者:Xiaoye Qu,  Jiashuo Sun,  Wei Wei

   分析:这篇论文提出了一种训练外框架,旨在利用大型视觉语言模型的固有功能,通过多视图多路径推理减少幻觉。该框架包括多视图信息寻求策略和基于多路径推理的答案解码方法。通过捕捉图像中的综合信息并考虑答案的不确定性,该框架可以有效地减少大型视觉语言模型中的幻觉。

   地址:https://arxiv.org/pdf/2408.17150

   代码:https://github.com/GasolSun36/MVP


21. 多说话人自动语音识别性能的改进

   标题:Advancing Multi-talker ASR Performance with Large Language Models

   机构:腾讯AI实验室

   关键词:多说话人自动语音识别、大型语言模型、预训练

   作者:Mohan Shi,  Zengrui Jin,  Yaoxun Xu

   分析:这篇论文主要研究如何利用大型语言模型(LLMs)来提高自动语音识别(ASR)在处理多说话人对话场景下的表现。传统的序列化输出训练(SOT)方法依赖于将多个说话人的转录合并在一起,这在很大程度上取决于建模长上下文的能力。然而,这种方法在处理复杂和具有挑战性的对话场景时效果并不理想。相比之下,本文提出了一种利用预训练的语音编码器和LLM进行微调的方法,该方法在多说话人数据集上进行了精细调整,从而实现了对这一挑战的有效解决。实验结果表明,该论文的方法在模拟数据集LibriMix上超过了传统的基于注意力的编码器-解码器(AED)模型,并在真实世界的AMI评估集上达到了最先进的性能。

   地址:https://arxiv.org/pdf/2408.17431


22. AdaptVision:用于通用场景理解的多模态大模型的动态输入缩放

   标题:AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding

   机构:中国科学技术大学

   关键词:动态输入缩放、多模态大模型、图像理解、视觉语言任务

   作者:Yonghui Wang,  Wengang Zhou,  Hao Feng

   分析:论文提出了一种多模态大模型AdaptVision,能够动态处理不同分辨率的输入图像。模型根据图像分辨率和内容动态调整视觉标记数量,有效处理含文本图像和高信息密度图像,提高理解准确性。通过动态图像分区模块,该方法避免图像尺寸统一处理引起的失真,并可处理高达$1008\times 1008$分辨率的图像。实验证明,该方法在自然和文本相关场景中的视觉语言任务上表现优异。

   地址:https://arxiv.org/pdf/2408.16986

   代码:https://github.com/harrytea/AdaptVision


23. Robotic warehousing operations:学习-优化的大型街区搜索方法

   标题:Robotic warehousing operations: a learn-then-optimize approach to large-scale neighborhood search

   机构:麻省理工学院

   作者:Cynthia Barnhart,  Alexandre Jacquillat,  Alexandria Schmid

   分析:这篇论文主要介绍了如何通过优化算法来管理大规模的自主机器人车队,以支持在仓库中进行机器人部件到拣选机的作业分配、物品到货箱的分配和工作站订单履行的时间表优化。该模型旨在最大化吞吐量,同时在工作站管理和设施拥堵方面管理人类工作负载。通过大规模邻域搜索和学习-优化子问题生成的新颖方法解决了这个问题。该算法依赖于离线机器学习过程,根据子问题特征预测目标改进,并依赖于在线优化模型在每次迭代时生成新的子问题。与亚马逊机器人合作的研究表明,该论文的模型和算法为实际问题生成了比现有方法更强大得多的解决方案。特别是,该论文的解决方案通过协调机器人任务以便人类操作员一次拣选多个项目,以及通过协调机器人路线避免设施拥堵,提高了机器人车队的使用率。

   地址:https://arxiv.org/pdf/2408.16890


24. 生成式人工智能在低数据环境下实现医疗图像分割

   标题:Generative AI Enables Medical Image Segmentation in Ultra Low-Data Regimes

   机构:加州大学、匹兹堡大学、斯坦福大学

   关键词:生成式人工智能、医疗图像分割、低数据环境、深度学习

   作者:Li Zhang,  Basu Jindal,  Ahmed Alaa

   分析:生成式深度学习框架可以独特地生成高质量的配对分割掩码和医疗图像,作为训练健壮模型的辅助数据。与传统的生成模型将数据生成和分割模型训练视为单独的过程不同,该方法采用端到端的数据生成多级优化。这种方法允许分割性能直接影响数据生成过程,确保生成的数据专门针对增强分割模型的性能。该方法在9个不同的医疗图像分割任务和16个数据集上展示了强大的泛化性能,跨越各种疾病、器官和成像模态。应用于各种分割模型时,其在相同领域和出域场景中实现了10-20%(绝对)的性能提升。值得一提的是,与现有方法相比,该方法需要少8到20倍的训练数据才能达到相当的成果。这一进展显著提高了将深度学习应用于医疗成像的可行性和成本效益,特别是在数据可用性有限的情况下。

   地址:https://arxiv.org/pdf/2408.17421


25. 时序与交互建模:高效的人与人动作生成

   标题:Temporal and Interactive Modeling for Efficient Human-Human Motion Generation

   机构:浙江大学、上海交通大学

   关键词:时序与交互建模、人与人动作生成、高效模型、TIM

   作者:Yabiao Wang,  Shuo Wang,  Jiangning Zhang

   分析:这篇论文介绍了TIM(时序与交互建模),一个针对人与人动作生成的效率与有效性模型。该模型旨在解决当前基于Transformer的方法中存在的问题,如忽视时序动作序列中的因果关联和注意力机制的二次计算复杂度。TIM通过提出因果交互注入、角色演变混合以及局部模式放大等技术,实现了对动作生成过程中时序特性的充分利用和交互关系的精确建模。实验表明,TIM在InterHuman数据集上取得了优异的性能。

   地址:https://arxiv.org/pdf/2408.17135

   代码:https://aigc-explorer.github.io/TIM-page/


26. Stochastic Layer-Wise Shuffle:改进视觉模型训练的有效策略

   标题:Stochastic Layer-Wise Shuffle: A Good Practice to Improve Vision Mamba Training

   机构:南京大学、上海AI实验室

   关键词:随机层间洗牌、视觉模型训练、模型结构改进、过拟合

   作者:Zizheng Huang,  Haoxing Chen,  Jiaqi Li

   分析:本文主要研究如何通过随机层间洗牌策略改进视觉模型训练,特别是针对大规模模型的训练。文章提出了一种新的随机层间洗牌正则化方法,使得非层次化的视觉模型能够在监督设置下扩展到更大的规模。该方法在不改变模型架构的前提下,通过随机令牌置换操作,提高了模型的泛化能力,并有效缓解了过拟合问题。实验结果表明,该方法能够提高模型在图像分类、语义分割和目标检测等任务上的性能。

   地址:https://arxiv.org/pdf/2408.17081

   代码:https://github.com/huangzizheng01/ShuffleMamba


27. Vote&Mix:即时高效的视觉Transformer代币缩减方案

   标题:Vote&Mix: Plug-and-Play Token Reduction for Efficient Vision Transformer

   机构:北京大学、字节跳动

   关键词:Vision Transformers(ViTs)、效率提升、代币缩减、模型优化

   作者:Shuai Peng,  Di Fu,  Baole Wei

   分析:该论文介绍了一种名为Vote&Mix的即时、无需训练的代币缩减方法,这种方法能够在不改变现有视觉Transformer模型的前提下,通过层级的代币相似性投票机制识别高同质的代币并将其混合,从而减少计算冗余并提高运行速度。实验表明,这种方法在图像和视频数据集上都能显著提高视觉Transformer的工作效率,且几乎不损失准确性。

   地址:https://arxiv.org/pdf/2408.17062


28. From Text to Emotion:揭示大模型的情感注释能力

   标题:From Text to Emotion: Unveiling the Emotion Annotation Capabilities of LLMs

   机构:密歇根大学

   关键词:大型语言模型、情感标注、GPT4、自动化注释

   作者:Minxue Niu ,  Mimansa Jaiswal ,  Emily Mower Provost   University of Michigan

   分析:本文主要探讨了大型语言模型(如GPT4)在情感标注任务上的可能性和潜力。该论文通过与监督模型和人类对比,评估了GPT4在一致性、感知对齐和模型训练影响等方面的表现。研究发现,使用GPT4作为注释过滤过程可以提高模型训练效果。这些发现突显了大型语言模型在情感标注任务上的广泛应用前景,同时也强调了需要改进的评估方法。

   地址:https://arxiv.org/pdf/2408.17026


29. LV-UNet:一个用于医学图像分割的轻量级和基本模型

   标题:LV-UNet: A Lightweight and Vanilla Model for Medical Image Segmentation

   机构:浙江大学

   关键词:LV-UNet、医学图像分割、轻量级模型、数据集性能稳健性

   作者:Juntao Jiang,  Mengmeng Wang,  Huizhong Tian

   分析:针对医疗图像分割,尤其是在需要轻量化、可部署、实时性能的移动设备医疗中,大模型进展的优化挑战、复杂性、计算限制以及实际应用需求呼吁更简单的模型架构。然而,一些现有的轻量化模型在不同数据集上表现出较差的稳健性,阻碍了其更广泛的应用。这篇论文提出了一种称为LV-UNet的轻量级和基本模型,它有效利用预训练的MobileNetv3-Large模型并引入融合模块。采用改进的深度训练策略进行训练,并在推理时切换到部署模式,减少参数计数和计算负载。在多个数据集上进行的实验表明,与最新和经典模型相比,它实现了更好的性能。

   地址:https://arxiv.org/pdf/2408.16886


30. 自监督异常检测预训练增强长尾心电图诊断

   标题:Self-supervised Anomaly Detection Pretraining Enhances Long-tail ECG Diagnosis

   机构:上海交通大学、上海AI实验室

   关键词:自监督异常检测预训练、心电图诊断、罕见心脏异常、模型评估

   作者:Aofan Jiang,  Chaoqin Huang,  Qing Cao

   分析:论文使用自监督异常检测预训练方法,解决心电图数据集不平衡导致罕见心脏异常漏检的问题。模型可检测并定位正常心脏模式的细微偏差,从而提高心电图诊断的准确率和效率。在包含超过一百万种心电图记录的大规模数据集上验证,对罕见心电图类型有显著改善。

   地址:https://arxiv.org/pdf/2408.17154


31. 图卷积网络的稀疏下采样可转移性

   标题:The Transferability of Downsampling Sparse Graph Convolutional Networks

   机构:AI2、复旦大学

   关键词:图卷积网络、下采样、可转移性

   地址:https://arxiv.org/pdf/2408.17274


32. 利用预训练语言模型进行基于上下文的OCR校正研究

   标题:CLOCR-C: Context Leveraging OCR Correction with Pre-trained Language Models

   机构:伦敦大学

   关键词:CLOCR-C方法,预训练语言模型,OCR校正,历史印刷媒体档案数字化

   地址:https://arxiv.org/pdf/2408.17428


33. MaFeRw: 多方面反馈重写查询以增强检索增强大模型

   标题:MaFeRw: Query Rewriting with Multi-Aspect Feedbacks for Retrieval-Augmented Large Language Models

   机构:北京航空航天大学

   关键词:检索增强、大型语言模型、反馈重写、多方面评估

   地址:https://arxiv.org/pdf/2408.17072


34. Symbolic XAI:通过人类可理解的逻辑关系解释特征

   标题:Towards Symbolic XAI -- Explanation Through Human Understandable Logical Relationships Between Features

   机构:韩国高丽大学

   关键词:Symbolic XAI、Explainable AI、Logical relationships、Abstract reasoning

   地址:https://arxiv.org/pdf/2408.17198


35. LAR-IQA: 一种轻量级、准确、鲁棒的无声图像质量评估模型

   标题:LAR-IQA: A Lightweight, Accurate, and Robust No-Reference Image Quality Assessment Model

   地址:https://arxiv.org/pdf/2408.17057

   代码:https://github.com/nasimjamshidi/LAR-IQA


36. Dynamic Self-Consistency:通过利用推理路径有效进行大模型采样

   标题:Dynamic Self-Consistency: Leveraging Reasoning Paths for Efficient LLM Sampling

   机构:阿尔伯塔大学

   关键词:大语言模型、自洽性、推理路径

   地址:https://arxiv.org/pdf/2408.17017


37. SelectTTS:通过离散单元选择目标说话人的声音进行合成

   标题:SelectTTS: Synthesizing Anyone's Voice via Discrete Unit-Based Frame Selection

   机构:德克萨斯大学、新加坡国立大学

   关键词:选择TTS、自监督学习、帧选择、多说话人语音合成

   地址:https://arxiv.org/pdf/2408.17432


38. Rerankers库:‌统一排序方法

   标题:rerankers: A Lightweight Python Library to Unify Ranking Methods

   地址:https://arxiv.org/pdf/2408.17344

   代码:https://github.com/answerdotai/rerankers


39. VLM-KD: 知识蒸馏从VLM进行长尾视觉识别

   标题:VLM-KD: Knowledge Distillation from VLM for Long-Tail Visual Recognition

   关键词:视觉语言模型、知识蒸馏、图像分类、长尾视觉识别

   地址:https://arxiv.org/pdf/2408.16930


40. 探索提高多语言指代消解的多项策略

   标题:Exploring Multiple Strategies to Improve Multilingual Coreference Resolution in CorefUD

   关键词:多语言指代消解、神经网络、模型结构改进、跨语种训练

   地址:https://arxiv.org/pdf/2408.16893

   代码:https://github.com/ondfa/coref-multiling


41. GameIR: 用于游戏内容图像恢复的大型合成真实标签数据集

   标题:GameIR: A Large-Scale Synthesized Ground-Truth Dataset for Image Restoration over Gaming Content

   机构:圣克拉拉大学

   关键词:游戏内容图像恢复、真实标签数据集、数据集构建、GBuffers

   地址:https://arxiv.org/pdf/2408.16866


42. 对齐大模型的安全层:LLM安全性的关键

   标题:Safety Layers of Aligned Large Language Models: The Key to LLM Security

   关键词:对齐大语言模型、安全层、精细调优、安全性

   地址:https://arxiv.org/pdf/2408.17003


43. MakeWay:基于LiDAR的主动室内导航对象感知成本地图

   标题:MakeWay: Object-Aware Costmaps for Proactive Indoor Navigation Using LiDAR

   地址:https://arxiv.org/pdf/2408.17034


44. 抖音冒犯性内容检测建模

   标题:Modeling offensive content detection for TikTok

   关键词:抖音冒犯性内容检测、机器学习、深度学习、F1分数

   地址:https://arxiv.org/pdf/2408.16857


45. Transformers中的模块性:探究神经元的可分离性和专业化

   标题:Modularity in Transformers: Investigating Neuron Separability & Specialization

   关键词:Transformers、神经元模块性、任务专业化、MoEfication

   地址:https://arxiv.org/pdf/2408.17324


今天的论文分享完啦,欢迎👏🏻👏🏻明天再来~

AI for Research
每天分享最新最热的Arxiv论文、一起来关注大模型、AIGC、AGI
 最新文章