谷歌发布20倍加速大模型的预训练方法:学习、专注和复习!LLaMA-Omni:与大模型无缝的语音交互...

文摘   2024-09-11 20:02   广东  

前言:平淡无奇的一天又来了,今天要分享的内容主要是关于大模型、大语言模型、视觉语言模型的,喜欢的小伙伴赶紧去阅读相关论文吧。


1. LFR教学法加速大模型的预训练:学习、专注和复习

  标题:Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review

  机构:加州大学、Google

  相关领域:预训练、模型训练优化

  作者:Neha Prakriya,  Jui-Nan Yen,  Cho-Jui Hsieh

  分析:论文提出了一种新的动态训练范式——LFR(学习、专注、复习)教学法,以改善大型语言模型(LLM)的预训练效率和质量。该论文认为传统的LLM预训练方法依赖于随机数据采样,导致训练成本高和模型质量低下,并且容易遗忘数据。于是,论文提出了LFR教学法,根据模型的学习进度和表现,系统地重点关注和复习复杂的数据块。实验结果表明,使用LFR教学法的GPT-2模型在下游任务上取得了更低的困惑度和更高的准确性,同时实现了20倍的预训练速度提升。

  地址:https://arxiv.org/pdf/2409.06131


2. LLaMA-Omni:与大模型无缝的语音交互

  标题:LLaMA-Omni: Seamless Speech Interaction with Large Language Models

  机构:中国科学院大学、中国科学院计算技术研究所

  相关领域:模型结构改进、数据集构建、多模态

  作者:Qingkai Fang,  Shoutao Guo,  Yan Zhou

  分析:这篇论文提出了一种新型模型架构LLaMA-Omni,旨在实现与大型语言模型(LLMs)的低延迟、高质量的语音交互。该架构整合了预训练语音编码器、语音适配器、LLM和流式语音解码器,无需语音转录即可直接从语音指令生成文本和语音响应,具有极低延迟。论文还构建了InstructS2S-200K数据集,并通过实验证明LLaMA-Omni在内容和风格上的响应都优于之前的语音语言模型,响应延迟低至226毫秒。此外,LLaMA-Omni的开发效率高,只需4 GPU,训练时间不到3天,为未来语音语言模型的高效开发奠定了基础。

  地址:https://arxiv.org/pdf/2409.06666


3. 大模型的预训练方法及其优化

  标题:A Practice of Post-Training on Llama-3 70B with Optimal Selection of Additional Language Mixture Ratio

  机构:北京航空航天大学

  相关领域:预训练、模型结构改进

  作者:Ningyuan Xi,  Yetao Wu,  Kun Fan

  分析:这篇论文主要探讨了大语言模型的预训练方法及其优化。作者通过在Llama-3 70B和8B上进行预训练,研究了额外语言混合比例与学习率之间的关系,以期找到最佳的实验设置。通过精确选择超参数并进行微调,不仅可以提高模型在中文相关基准上的性能,还可以在数学、编程和情感智能等特定领域中实现改进。最后,作者将优化后的70B版本的LLM部署到了一个实际的聊天系统中,取得了令人满意的效果。

  地址:https://arxiv.org/pdf/2409.06624


4. 大模型的长度去敏感化方法

  标题:Length Desensitization in Directed Preference Optimization

  机构:AI2

  相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

  作者:Wei Liu,  Yang Bai,  Chengcheng Han

  分析:这篇论文主要研究了直接偏好优化(Direct Preference Optimization,DPO)在大语言模型中存在的问题,即过度优化长文本。通过提出长度去敏感化的方法(LD-DPO),可以使模型在训练过程中对数据长度不那么敏感,从而生成更简洁、符合人类真实偏好的回答。该方法已在多个基准测试上进行了验证,结果表明其性能优于DPO和其他基线方法。

  地址:https://arxiv.org/pdf/2409.06411


5. TransformerRanker:一种用于高效找到最适合的下游分类任务的预训练语言模型工具

  标题:TransformerRanker: A Tool for Efficiently Finding the Best-Suited Language Models for Downstream Classification Tasks

  相关领域:自然语言处理

  作者:Lukas Garbas,  Max Ploner,  Alan Akbik

  分析:论文主要介绍了一种名为TransformerRanker的技术,用于在不需要进行计算费用高昂的微调的情况下,对预训练语言模型(PLM)进行有效的排名。这大大简化了在众多当前可用的PLM中选择最佳PLM的过程。该库实现了当前的转移性估计方法(LogME、H-Score、kNN),并结合了层聚合选项,在 Garbas 等人(2024年)的论文中得到了状态处罚的排名。本文的接口设计简单并提供,用户可以方便地直接连接到HuggingFace Transformers和Dataset库。用户只需选择下游分类任务和一组PLM即可创建排名,以找到最适合他们任务的最佳PLM。本文将TransformerRanker作为可安装的、开放的图书馆提供。

  地址:https://arxiv.org/pdf/2409.05997

  代码:https://github.com/flairNLP/transformer-ranker


6. E2LLM:加长型编码器大模型在理解和推理长语境中的应用

  标题:E2LLM: Encoder Elongated Large Language Models for Long-Context Understanding and Reasoning

  机构:华东师范大学

  相关领域:模型结构改进、预训练、模型评估

  作者:Zihan Liao,  Jun Wang,  Hang Yu

  分析:这篇论文主要解决大型语言模型在处理长语境时的挑战,包括提升性能、降低计算复杂度和利用预训练模型。通过介绍E2LLM模型,展示了一种新型方法,能有效处理长语境信息,同时保持高效性和与预训练模型的兼容性。

  地址:https://arxiv.org/pdf/2409.06679


7. 结构化后非结构化剪枝:可扩展的MoE剪枝方法

  标题:STUN: Structured-Then-Unstructured Pruning for Scalable MoE Pruning

  相关领域:模型结构改进、模型评估

  作者:Jaeseong Lee,  seung-won hwang,  Aurick Qiao

  分析:这篇论文研究如何通过剪枝技术降低大型语言模型MoEs的推理成本。论文提出了一种新的可扩展的剪枝方法,可以在保持模型性能的同时,大大减少模型计算复杂度。论文指出专家剪枝可以先行于非结构化剪枝,实现更好的性能。论文的主要贡献在于提出一种基于专家行为相似性的潜结构利用方法,能够在单次前向传递中实现高效的专家剪枝,对模型性能影响极小。

  地址:https://arxiv.org/pdf/2409.06211


8. 机器与人类视觉表征抽象层次的对接

  标题:Aligning Machine and Human Visual Representations across Abstraction Levels

  机构:韩国高丽大学、Anthropic、Google DeepMind

  相关领域:模型结构改进、预训练

  作者:Lukas Muttenthaler,  Klaus Greff,  Frieda Born

  分析:这篇论文关注机器与人类视觉表征之间的差异,尤其是抽象层次的差异。论文首先指出当前神经网络在视觉任务中的表现与人类的差异,然后提出了一种将人类知识融入神经网络的方法,通过训练教师模型模仿人类判断,再将人类类似的结构转移到预训练的先进视觉基础模型中。这有助于提高模型的泛化能力和鲁棒性,使模型更贴近人类认知,为更稳健、可解释、类似人类的人工智能系统铺平了道路。

  地址:https://arxiv.org/pdf/2409.06509


9. 检索或全面理解?Dotte:区分我们的长期上下文评估任务

  标题:Retrieval Or Holistic Understanding? Dolce: Differentiate Our Long Context Evaluation Tasks

  机构:Google DeepMind

  相关领域:模型评估

  作者:Zi Yang

  分析:论文《理解与进一步改进长期上下文理解能力是大语言模型在未来发展中至关重要的两个方面:检索能力与全面理解能力。对这些能力的理解与提升应基于任务的焦点类别。通过自动识别基准测试中的检索聚焦和全面理解聚焦问题,该论文量量化地测定了每类任务的难度。本文提出'Dolte'框架,参数化每个问题的复杂度(λ)和冗余度(k),并将其分配到五个预定义焦点类别中。该框架采用混合模型,将无参数背景噪音成分与参数化/无参数复合扩写器融合起来,据此可以推导出两个情景(正确或错误,部分评分)中λ和k的参数化概率函数。该论文的方法能够识别44个现有长上下文评估任务中0%到67%为检索重点关注,识别0%到90%的任务为全面理解关注。

  地址:https://arxiv.org/pdf/2409.06338


10. 可扩展的多任务学习使用基于梯度的估计任务亲和性

  标题:Scalable Multitask Learning Using Gradient-based Estimation of Task Affinity

  机构:东北大学、Google

  相关领域:模型结构改进

  作者:Dongyue Li,  Aneesh Sharma,  Hongyang R. Zhang

  分析:本文介绍了一种名为 Grad-TAG 的新算法,用于在对大型模型进行训练时估算任务亲和性。它从训练所有任务共用的“基础”模型出发,利用梯度近似计算特定任务组合的损失。尽管梯度近似确保可以准确估计损失,但亲和性估计仅适用于计算任务的对称矩阵。通过线性化的方法在低维投影的梯度作为特征中使用逻辑回归来预测标签。这种方法有效提供了对原始训练中复杂的任务优化过程的弱化视图。然后,根据估计的任务亲和性,设计了一个最大化集群平均密度的半正定规划算法进行任务聚类。算法在多个大型模型上测试,证明它与已知正确定义的亲和性之间的相关性高。文章的结果表明,Grad-TAG 具有卓越的性能和运行时间权衡,与现有方法相比具有竞争力。

  地址:https://arxiv.org/pdf/2409.06091


11. Prompt2Fashion:自动生成时尚数据集

   标题:Prompt2Fashion: An automatically generated fashion dataset

   机构:麻省理工学院

   相关领域:模型结构改进、预训练、指令微调、奖励模型

   作者:Georgia Argyro,  Angeliki Dimitriou,  Maria Lymperaiou

   分析:这篇论文主要介绍了利用生成模型自动构建一个适应各种场合、风格和体型的时尚图像数据集,以满足用户个性化的时尚需求。作者使用了不同的大型语言模型和提示策略来生成具有高审美质量、细节丰富且与专家和非专家用户需求相关性的服装搭配。作者还探讨了专家知识在评估这类艺术AI生成数据集的重要性,并提出了他们的数据集在GitHub上。

   地址:https://arxiv.org/pdf/2409.06442

   代码:https://github.com/georgiarg/Prompt2Fashion


12. KModels: 解锁AI在商业应用中的潜力

   标题:KModels: Unlocking AI for Business Applications

   机构:IBM研究院

   相关领域:AI模型部署

   作者:Roy Abitbol ,  Eyal Cohen ,  Muhammad Kanaan

   分析:这篇论文介绍了一种名为KModels的工具,它旨在帮助企业将AI技术无缝整合到现有的商业应用中。通过对AI实验室模型进行优化,KModels简化了从开发到生产环境中的模型部署过程,降低了模型的维护成本,并便于业务人员使用。通过在实际业务场景中部署三个AI模型,证明了KModels的有效性。

   地址:https://arxiv.org/pdf/2409.05919


13. 命名实体语音识别错误检索增强纠正

   标题:Retrieval Augmented Correction of Named Entity Speech Recognition Errors

   机构:Apple

   相关领域:语音识别、自然语言处理

   作者:Ernest Pusateri,  Anmol Walia,  Anirudh Kashi

   分析:这篇论文主要介绍了一种新的技术,用于纠正在自动语音识别中出现的命名实体错误。这种方法结合了检索增强生成(RAG)和大型语言模型(LLM)。作者使用一个向量数据库来索引一组相关的实体,然后在运行时从可能存在错误的文本ASR假设中生成数据库查询,并使用这些查询检索到的实体与ASR假设一起输入到一个已经适应于纠正ASR错误的LLM中。这种方法在合成测试集上实现了33%-39%的相对单词错误率降低,特别是在处理稀有音乐实体的语音助手查询任务上表现出色。

   地址:https://arxiv.org/pdf/2409.06062


14. 重审视觉-语言模型的指令预训练

   标题:Revisiting Prompt Pretraining of Vision-Language Models

   机构:南京大学、旷视科技

   相关领域:指令微调、预训练

   作者:Zhenyuan Chen,  Lingfeng Yang,  Shuo Chen

   分析:本文提出了一种名为Revisiting Prompt Pretraining (RPP)的通用框架,旨在通过优化提示结构和提示监督来增强模型的适应性和泛化能力。在提示预训练中,通常限制查询、键和值向量源自共享可学习提示令牌的过程。然而,RePP通过引入非共享的个体查询、键和值可学习提示,增强模型的适应能力,同时使用预训练的Contrastive Language Image Pretraining (CLIP)教师模型提供零射概率预测衍生的软标签,以获得更细腻、更广泛的类间关系洞察。实验结果表明,通过RPP预训练得到的提示在各种基准测试中的性能最佳。

   地址:https://arxiv.org/pdf/2409.06166


15. UniLearn:通过统一预训练和微调图像和视频增强动态面部表情识别的性能

   标题:UniLearn: Enhancing Dynamic Facial Expression Recognition through Unified Pre-Training and Fine-Tuning on Images and Videos

   机构:合肥工业大学、中国科学院计算技术研究所

   相关领域:模型结构改进、预训练、多模态

   作者:Yin Chen,  Jia Li,  Yu Zhang

   分析:这篇论文提出了一种新的统一学习范式UniLearn,它集成了静态面部表情识别(SFER)数据,以提高动态面部表情识别(DFER)的性能。UniLearn采用了一种双模态自监督预训练方法,利用面部表情图像和视频增强Vision Transformer模型的时空表征能力。然后,在静态和动态表情数据集上采用联合微调策略对预训练模型进行微调。为了防止联合微调过程中的负迁移,引入了混合适配器专家(MoAE)模块,以获取任务特定知识并有效整合静态和动态表情数据的信息。实验表明,UniLearn在利用静态和动态面部数据的互补信息方面非常有效,实现了更精确和稳健的DFER。该方法在FERV39K、MAFW和DFEW基准测试上取得了最新成果。

   地址:https://arxiv.org/pdf/2409.06154

   代码:https://github.com/MSA-LMC/UniLearn


16. MyGo:基于多视角驾驶视频的生成框架与相机控制一致性研究

   标题:MyGo: Consistent and Controllable Multi-View Driving Video Generation with Camera Control

   机构:清华大学、商汤研究院

   相关领域:模型结构改进

   作者:Yining Yao,  Xi Guo,  Chenjing Ding

   分析:论文提出了一种名为MyGo的端到端视频生成框架,该框架引入车载相机运动控制条件,旨在提高驾驶视频生成中的相机控制能力和多视角一致性。通过采用附加插件模块将相机参数注入预训练的视频扩散模型,同时利用极线约束和邻近视角信息增强时空一致性。实验结果表明,MyGo在相机控制的视频生成和多视角驾驶视频生成任务上取得了最新成果。

   地址:https://arxiv.org/pdf/2409.06189

   代码:https://metadrivescape.github.io/papers_project/MyGo/page.html


17. Sortformer:通过桥接时间戳和令牌无缝集成说话人识别和语音识别

   标题:Sortformer: Seamless Integration of Speaker Diarization and ASR by Bridging Timestamps and Tokens

   机构:英伟达

   相关领域:模型结构改进、多模态

   作者:Taejin Park,  Ivan Medennikov,  Kunal Dhawan

   分析:这篇论文提出了一种新型的神经网络模型Sortformer,用于说话人识别。它采用了一种新颖的排序损失函数,能够在不使用置换不变损失的情况下自主解决说话人的排列问题。此外,论文还提出了一种简化的多说话人语音识别架构,该架构利用Sortformer作为说话人监督模型,通过在语音识别编码器状态中使用正弦核函数嵌入说话人标签估计来解决说话人的排列问题。通过实验结果展示了该架构的优越性能,并且代码和训练好的模型将通过NVIDIA NeMo框架公开提供。

   地址:https://arxiv.org/pdf/2409.06656


18. SVFit: 利用奇异值分解的参数高效微调大型预训练模型

   标题:SVFit: Parameter-Efficient Fine-Tuning of Large Pre-Trained Models Using Singular Values

   机构:电子科技大学

   相关领域:模型微调,预训练模型,特征学习

   作者:Chengwei Sun,  Jiwei Wei,  Yujia Wu

   分析:SVFit提出了一种新的参数高效微调(PEFT)方法,即利用奇异值分解(SVD)初始化低秩矩阵,以关键的奇异值作为训练参数。通过强调捕获99%信息的顶级奇异值,它有效地调整模型的主子空间,有助于快速适应新领域,而无需大量内存。实验表明,SVFit在多个NLP、文本到图像生成和图像分类任务上优于LoRA,但使用了更少的训练参数。

   地址:https://arxiv.org/pdf/2409.05926


19. Hint-AD: 面向自动驾驶的全融合解释性模型

   标题:Hint-AD: Holistically Aligned Interpretability in End-to-End Autonomous Driving

   机构:清华大学、上海AI实验室

   相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

   作者:Kairui Ding,  Boyuan Chen,  Yuchen Su

   分析:这篇论文主要介绍了一种新的解释性模型Hint-AD,该模型旨在解决自动驾驶系统中的可解释性问题。通过将自然语言与系统的中间输出相结合,Hint-AD能够生成与系统整体感知、预测和规划输出相一致的语言描述。这种方法不仅提高了系统的可解释性,也有助于增强人类与AI之间的信任关系。此外,Hint-AD在驾驶解释、3D密集标注和命令预测等任务中都取得了显著的性能提升。

   地址:https://arxiv.org/pdf/2409.06702


20. 连续冷冻干燥(冻干)制药制造的机理建模

   标题:Mechanistic Modeling of Continuous Lyophilization for Pharmaceutical Manufacturing

   机构:麻省理工学院

   作者:Prakitr Srisuma,  George Barbastathis,  Richard D. Braatz

   分析:冻干是一种常用的提高药物稳定性(如mRNA疫苗)的制药制造过程。尽管已经致力于将制药行业转向连续制造,但大多数工业规模的冻干仍然在批量模式下运行。本文提出了第一个完整的连续冻干过程的机理模型,包括冻结、初级干燥和次级干燥。该模型可以描述整个冻干过程中的几个关键过程参数,即产品温度、冰/水比率、升华前沿位置和结合水的浓度。该模型还为与工艺设计和优化相关的几个应用进行了演示。最终,本文的工作框架和结果可以作为指导未来连续冻干过程设计和开发的坚实基础。

   地址:https://arxiv.org/pdf/2409.06251


21. 交替优化多方向MoE的统一多模态对齐方法

   标题:Alt-MoE: Multimodal Alignment via Alternating Optimization of Multi-directional MoE with Unimodal Models

   机构:北京大学、中国科学院-深圳

   相关领域:模型结构改进、多模态

   作者:Hongyang Lei,  Xiaolong Cheng,  Dan Wang

   分析:论文提出了一种基于交替优化多方向MoE的统一多模态对齐方法。该方法通过采用MoE作为跨模态的统一多方向连接器,并利用多步序贯交替单向对齐策略,实现了对多模态数据的统一表示和对齐。该方法融合了各种单模态模型的多样化知识表示,并能够在新的任务和模态上有效扩展,同时支持大规模数据处理。

   地址:https://arxiv.org/pdf/2409.05929


22. 重新平衡对比解码缓解视觉语言模型中的幻视问题

   标题:Mitigating Hallucination in Visual-Language Models via Re-Balancing Contrastive Decoding

   机构:浙江大学、阿里巴巴集团

   相关领域:模型结构改进、多模态

   作者:Xiaoyu Liang,  Jiayuan Yu,  Lianrui Mu

   分析:这篇论文主要研究了视觉语言模型(VLMs)中的幻视问题。通过分析模型中的注意力分布,发现模型在处理文本标记时往往忽视视觉标记。为解决这一问题,论文提出了重新平衡对比解码(RBD)方法,通过文本和视觉分支来重新校准模型中的注意力分布。RBD方法能够在多模态知识冲突时平衡文本和视觉知识的重要性,减少模型对文本的依赖,同时提高视觉信息的关注度。实验结果表明,RBD方法在降低幻视问题的同时,不降低模型的整体性能,甚至在某些指标上超越了现有方法。

   地址:https://arxiv.org/pdf/2409.06485


23. 自动驾驶车辆测试场景生成的多模态大模型

   标题:Multimodal Large Language Model Driven Scenario Testing for Autonomous Vehicles

   机构:清华大学

   相关领域:模型结构改进、预训练、指令微调、奖励模型

   作者:Qiujing Lu,  Xuanhan Wang,  Yiwei Jiang

   分析:这篇论文提出了一种名为OmniTester的框架,利用大型语言模型(LLM)生成多样化且真实的自动驾驶车辆测试场景。该方法结合了提示工程、城市交通模拟工具以及LLM的检索增强生成和自我提升机制,以提高LLM对场景的理解能力。实验结果表明,该方法能够生成具有挑战性和复杂性的各种场景,并能从事故报告中重建新的场景。

   地址:https://arxiv.org/pdf/2409.06450


24. 从LLM令牌激活中提取段落

   标题:Extracting Paragraphs from LLM Token Activations

   机构:牛津大学

   相关领域:模型评估

   作者:Nicholas Pochinkov,  Angelo Benoit,  Lovkush Agarwal

   分析:这篇论文探究了大型语言模型(LLM)在段落生成时如何决定内容。研究发现,通过考察单个令牌的激活信息,尤其是双新行令牌的激活信息,能够了解模型对未来段落上下文的理解。这提供了对模型预见能力的深入理解。

   地址:https://arxiv.org/pdf/2409.06328


25. 基于和弦条件的歌曲生成端到端方法

   标题:An End-to-End Approach for Chord-Conditioned Song Generation

   机构:清华大学

   相关领域:模型结构改进、多模态

   作者:Shuochen Gao,  Shun Lei,  Fan Zhuo

   分析:这篇论文旨在解决歌曲生成任务,提出了一种基于和弦条件的歌曲生成方法。它引入和弦作为歌曲生成网络的重要组成部分,通过构建稳健的跨注意力机制,将提取的和弦信息融入歌曲生成中,减少帧级缺陷。实验结果表明,该方法在音乐表现和生成歌曲的控制精度方面优于其他方法。

   地址:https://arxiv.org/pdf/2409.06307


26. 基于层次事件记忆增强长期视频理解

   标题:Enhancing Long Video Understanding via Hierarchical Event-Based Memory

   机构:腾讯、山东大学、香港中文大学

   相关领域:模型结构改进、多模态

   作者:Dingxin Cheng,  Mingda Li,  Jingyu Liu

   分析:这篇论文提出了一种基于层次事件记忆增强的大型语言模型(HEM-LLM),以更好地理解长视频。该模型通过自适应序列分割方案来划分长视频中的多个事件,并建立每个事件的独立记忆模型,从而减少信息冗余并增强关键事件语义的理解。同时,该模型在建模当前事件时,会压缩并注入先前事件的信息,以增强视频中长期事件之间的依赖关系。通过广泛的实验,该模型在各种视频理解任务上实现了最先进的性能。

   地址:https://arxiv.org/pdf/2409.06299


27. 基于不确定性感知选择性对比解码改进大模型的代码生成

   标题:\mathbb{USCD}: Improving Code Generation of LLMs by Uncertainty-Aware Selective Contrastive Decoding

   机构:武汉大学、悉尼大学、中山大学

   相关领域:模型评估、模型结构改进

   作者:Shuai Wang,  Liang Ding,  Li Shen

   分析:论文提出了一种简单有效的不确定性感知选择性对比解码(USCD)机制,旨在提高大型语言模型(LLM)的单次代码生成质量并减少输出噪声。研究通过设计负面提示(即所谓的“lame prompt”)来输出噪声,并基于预测分布的不确定性选择性地消除由“lame prompts”引起的输出噪声。实验证明,USCD机制显著提高了一次性代码生成的质量,平均通过率提高了16.59%。

   地址:https://arxiv.org/pdf/2409.05923


28. OPAL: 对抗性微缩量化与混合精度加速,为大模型设计低功耗加速器

   标题:OPAL: Outlier-Preserved Microscaling Quantization A ccelerator for Generative Large Language Models

   机构:韩国高丽大学

   相关领域:量化技术、硬件加速、大语言模型

   作者:Jahyun Koo,  Dahoon Park,  Sangwoo Jung

   分析:OPAL是一个创新的硬件-软件协同方法,旨在解决大型语言模型(LLMs)因尺寸增加带来的内存和带宽压力。首先提出一种新颖的激活量化方法,能保留下每个子张量块中的几个异常值,同时减少精度。其次,它混合了不同精度,对解码器部分敏感层使用5位,非敏感层用3位。硬件端通过FP单元处理异常值和INT乘法器处理大部分标准化操作。通过使用softmax的对数基近似,进一步提升了能效。实验表明,OPAL能够提高1.6~2.2x的能效,减少2.4~3.1x的面积,且带来的精度损失极小。

   地址:https://arxiv.org/pdf/2409.05902


29. 多视角反思和迭代增强顺序推荐

   标题:Enhancing Sequential Recommendations through Multi-Perspective Reflections and Iteration

   机构:中国人民大学

   相关领域:模型结构改进、预训练、指令微调、模型评估

   作者:Weicong Qin,  Yi Xu,  Weijie Yu

   分析:这篇论文主要探讨了序列推荐(SeqRec)问题,即通过理解和预测用户的意图来预测下一个用户可能交互的物品。作者指出,尽管大型语言模型(LLMs)在推荐任务中表现出色,但在用户隐含偏好和协同过滤信息的捕捉方面存在不足。论文提出了Mixture of REflectors(MoRE)框架,旨在通过引入三个反射器来学习和捕捉动态用户偏好。第一反射器生成基于LLM的反映信息,包括显式偏好、隐含偏好和协作信号。每个反射器都包含了一种自我完善策略,即“精炼迭代”,用于评估和迭代更新反映。此外,Meta反射器使用上下文约束选择策略为每个用户选择最适合的专家和反映,以有效地捕获动态偏好。实验结果表明,MoRE在三个真实世界数据集上表现优于现有技术,并且训练时间和使用GPU内存都比其他基于LLM的SeqRec方法更少。

   地址:https://arxiv.org/pdf/2409.06377


30. 利用大模型进行量化投资策略自动化

   标题:Automate Strategy Finding with LLM in Quant investment

   机构:香港科技大学

   相关领域:模型结构改进、预训练、指令微调、奖励模型

   作者:Zhizhuo Kou,  Holam Yu,  Jingshu Peng

   分析:这篇论文提出了一种新的框架,将大型语言模型(LLMs)与多智能体架构相结合,用于量化股票投资和alpha挖掘。通过整合数值数据、研究论文和视觉图表,第一个模块提取预测信号。第二个模块使用集成学习构建具有不同风险偏好的多样化交易代理群体,通过更广泛的市场分析提高策略性能。在第三个模块中,动态权重门控机制根据实时市场条件为最相关的代理分配权重,创建自适应的上下文感知复合alpha公式。该框架在中国股市的广泛实验证明了其在多个金融指标上优于顶级基准的表现,突出了AI驱动方法在增强量化投资策略和稳定性方面的潜力。

   地址:https://arxiv.org/pdf/2409.06289


31. 探索句子嵌入中语法信息的研究:通过多语言 subject-verb 一致性

   标题:Exploring syntactic information in sentence embeddings through multilingual subject-verb agreement

   机构:伊迪亚普研究所

   相关领域:模型结构改进、预训练、语法结构研究

   地址:https://arxiv.org/pdf/2409.06567


32. VoiceWukong:深度伪造语音检测基准测试

   标题:VoiceWukong: Benchmarking Deepfake Voice Detection

   机构:华中科技大学

   相关领域:数据集构建、模型评估

   地址:https://arxiv.org/pdf/2409.06348

   代码:https://voicewukong.github.io


33. 大规模联邦全参数调整:针对大模型的挑战与解决方案

   标题:Ferret: Federated Full-Parameter Tuning at Scale for Large Language Models

   机构:新加坡国立大学

   相关领域:模型结构改进、多模态

   地址:https://arxiv.org/pdf/2409.06277

   代码:https://github.com/allen4747/Ferret


34. 代码抄袭检测器的发展和多语言性能测试

   标题:Development and Benchmarking of Multilingual Code Clone Detector

   机构:名古屋大学

   相关领域:模型结构改进、模型评估、语言可扩展性

   地址:https://arxiv.org/pdf/2409.06176


35. FLoRA: 联邦精细调整大模型与异构低秩适应

   标题:FLoRA: Federated Fine-Tuning Large Language Models with Heterogeneous Low-Rank Adaptations

   机构:马里兰大学、罗格斯大学

   相关领域:模型结构改进、预训练、异构LoRA适配器、联邦学习

   地址:https://arxiv.org/pdf/2409.05976

   代码:https://github.com/ATP-1010/FederatedLLM


36. CoDiCast:基于条件扩散模型的不确定性量化天气预报

   标题:CoDiCast: Conditional Diffusion Model for Weather Prediction with Uncertainty Quantification

   机构:伊利诺伊大学

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2409.05975

   代码:https://github.com/JimengShi/CoDiCast


37. 怀疑主义建模缓解大模型中的幻觉问题

   标题:Alleviating Hallucinations in Large Language Models with Scepticism Modeling

   机构:北京航空航天大学

   相关领域:模型评估

   地址:https://arxiv.org/pdf/2409.06601


38. 基于推理的自我示例检索器用于跨域对话状态跟踪与ChatGPT

   标题:Inference is All You Need: Self Example Retriever for Cross-domain Dialogue State Tracking with ChatGPT

   相关领域:模型结构改进、预训练、指令微调

   地址:https://arxiv.org/pdf/2409.06243


39. 下采样结构化以快速、内存高效的在线数据流管理

   标题:Structured Downsampling for Fast, Memory-efficient Curation of Online Data Streams

   机构:密歇根大学、密歇根州立大学

   相关领域:数据处理和分析

   地址:https://arxiv.org/pdf/2409.06199


40. SongCreator:基于歌词的通用歌曲生成

   标题:SongCreator: Lyrics-based Universal Song Generation

   相关领域:模型应用(歌曲生成)

   地址:https://arxiv.org/pdf/2409.06029

   代码:https://songcreator.github.io/


41. 基于多源潜在扩散模型的多元音乐生成研究

   标题:Multi-Source Music Generation with Latent Diffusion

   机构:伊利诺伊大学

   相关领域:模型结构改进、数据集构建、评估指标

   地址:https://arxiv.org/pdf/2409.06190

   代码:https://github.com/XZWY/MSLDM; https://github.com/XZWY/MSLDM


42. TeXBLEU: 自动指标用于评估LaTeX格式

   标题:TeXBLEU: Automatic Metric for Evaluate LaTeX Format

   相关领域:模型评估、评估指标

   地址:https://arxiv.org/pdf/2409.06639

   代码:https://github.com/KyuDan1/TeXBLEU


43. MIP-GAF: 一种用于最核心人物本地化和群体上下文理解的大模型注释基准数据集

   标题:MIP-GAF: A MLLM-annotated Benchmark for Most Important Person Localization and Group Context Understanding

   相关领域:无语模的改进、预训练、指令微调、奖励模型

   地址:https://arxiv.org/pdf/2409.06224

   代码:https://github.com/surbhimadan92/MIP-GAF


44. MAGDA: 多Agent指南 driven 诊断辅助

   标题:MAGDA: Multi-agent guideline-driven diagnostic assistance

   机构:慕尼黑工业大学、慕尼黑机器学习中心

   相关领域:模型结构改进、预训练、指令微调、零样本学习

   地址:https://arxiv.org/pdf/2409.06351


45. ClarQ-LLM:面向任务型对话中澄清与请求信息的模型评估基准

   标题:ClarQ-LLM: A Benchmark for Models Clarifying and Requesting Information in Task-Oriented Dialog

   机构:伦敦玛丽女王大学

   相关领域:模型评估、数据集构建

   地址:https://arxiv.org/pdf/2409.06097


46. 扩散笔(DiffusionPen):控制手写文本生成风格的研究

   标题:DiffusionPen: Towards Controlling the Style of Handwritten Text Generation

   相关领域:模型结构改进、模型评估

   地址:https://arxiv.org/pdf/2409.06065

   代码:https://github.com/koninik/DiffusionPen


47. MVGaussian:多视图指导的高保真3D文本生成

   标题:MVGaussian: High-Fidelity text-to-3D Content Generation with Multi-View Guidance and Surface Densification

   机构:普渡大学

   相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

   地址:https://arxiv.org/pdf/2409.06620


48. Unlocking Potential Binders:多模态预训练DEL-融合用于去噪DNA编码库

   标题:Unlocking Potential Binders: Multimodal Pretraining DEL-Fusion for Denoising DNA-Encoded Libraries

   相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

   地址:https://arxiv.org/pdf/2409.05916


49. 虚构新闻文章探索人工智能的未来

   标题:Exploring AI Futures Through Fictional News Articles

   机构:阿尔托大学、瑞典皇家理工学院

   地址:https://arxiv.org/pdf/2409.06354


50. HexaCoder:通过Oracle引导的合成训练数据安全生成代码

   标题:HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data

   相关领域:模型结构改进、数据集构建

   地址:https://arxiv.org/pdf/2409.06446


51. 学习通过训练代理探索生成交互式环境

   标题:Learning Generative Interactive Environments By Trained Agent Exploration

   相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

   地址:https://arxiv.org/pdf/2409.06445

   代码:https://github.com/insait-institute/GenieRedux


52. 多样化视角提升大模型推理能力

   标题:DiPT: Enhancing LLM reasoning through diversified perspective-taking

   相关领域:模型结构改进、指令微调、模型评估、数据集构建

   地址:https://arxiv.org/pdf/2409.06241


53. 大模型的认知问题

   标题:Larger Language Models Don't Care How You Think: Why Chain-of-Thought Prompting Fails in Subjective Tasks

   相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

   地址:https://arxiv.org/pdf/2409.06173

   代码:https://github.com/gchochla/cot-priors


54. MoWE-Audio:基于弱编码器混合的多任务音频大模型研究

   标题:MoWE-Audio: Multitask AudioLLMs with Mixture of Weak Encoders

   相关领域:模型结构改进、多模态

   地址:https://arxiv.org/pdf/2409.06635


55. 奥运会奖牌数分析大模型的内部知识结构

   标题:Questioning Internal Knowledge Structure of Large Language Models Through the Lens of the Olympic Games

   相关领域:模型结构改进、预训练、指令微调、奖励模型

   地址:https://arxiv.org/pdf/2409.06518


56. 到底什么样的概念才是好的呢?

   标题:What makes a good concept anyway ?

   相关领域:模型评估、模型结构改进

   地址:https://arxiv.org/pdf/2409.06150


57. 从LIMA到DeepLIMA:探索新的互操作性路径

   标题:From LIMA to DeepLIMA: following a new path of interoperability

   相关领域:模型结构改进、预训练、指令微调、奖励模型

   地址:https://arxiv.org/pdf/2409.06550


58. Match-3游戏自动验证提高条件级生成

   标题:Improving Conditional Level Generation using Automated Validation in Match-3 Games

   地址:https://arxiv.org/pdf/2409.06349


好啦,小编今天的分享就到这里啦,欢迎留言讨论哦。

AI for Research
每天分享最新最热的Arxiv论文、一起来关注大模型、AIGC、AGI
 最新文章