模型预测:幻觉与模态崩溃之间的权衡 | 腾讯发布Spider:任意到多模态大模型 | 有限数据下的微调语言模型的实用指南....

文摘   2024-11-15 19:16   广东  

前言:看论文就像是一次美食之旅,每一篇论文都是一道不同的菜肴。有些论文会让你大快朵颐,有些论文会让你欲罢不能,而有些论文则会让你咬牙切齿。但是别忘了,只有尝试了各种不同的菜肴,才能成为一个真正的“吃货”哦!


1. On the Limits of Language Generation:幻觉与模态崩溃之间的权衡

  标题:On the Limits of Language Generation: Trade-Offs Between Hallucination and Mode Collapse

  作者:Alkis Kalavasis,  Anay Mehrotra,  Grigoris Velegkas

  分析:这篇论文主要研究了在统计的语言生成设置中,如何平衡生成的字符串的一致性和丰富性。作者发现,对于大部分的语言模型,包括下一个词预测模型,在大多数候选语言集合中,既能保持一致性又具有丰富性的生成是不可能的。然而,如果有负样本(不在K中的字符串)的存在,那么一致且丰富的生成仍然是可能的。这为后训练反馈提供了可能性,即通过包含负样本来减少幻觉并限制模态崩溃。

  地址:https://arxiv.org/pdf/2411.09642


2. Spider:任意到多模态大模型

  标题:Spider: Any-to-Many Multimodal LLM

  机构:腾讯、香港科技大学

  关键词:大型语言模型、多模态、任意到多

  作者:Jinxiang Lai,  Jie Zhang,  Jun Liu

  分析:这篇论文介绍了一种新的多模态大型语言模型(Multimodal Large Language Model,MLLM),名为Spider。它可以生成任意组合的多种模态内容,如文本和图像、音频或视频等。为了实现这一目标,Spider集成了三个核心组件:一个用于基本X-to-X(即任意到任意)模态处理的基本模型,一个用于控制多模态解码器生成Xs(多种模态)内容的新型高效解码器控制器,以及一个用于产生Xs信号提示的任意到多的指令模板。通过构建一个新的以文本格式为主的多模态数据集,蜘蛛训练得到一个伪X-to-Xs多模态数据集,这是第一个X-to-Xs多模态数据集,为未来的AMMG任务提供了丰富的数据支持。总的来说,这篇工作不仅推动了多模态交互的边界,也为该领域的进一步发展提供了丰富的数据支持。

  地址:https://arxiv.org/pdf/2411.09439


3. 有限数据下的微调语言模型的实用指南

  标题:A Practical Guide to Fine-tuning Language Models with Limited Data

  机构:慕尼黑工业大学、慕尼黑机器学习中心、科隆莱茵应用技术大学

  关键词:预训练语言模型、微调策略、有限数据、性能优化

  作者:Márton Szép,  Daniel Rueckert,  Rüdiger von Eisenhart-Rothe

  分析:这篇论文关注在有限数据下如何优化预训练大型语言模型(LLMs)的性能。文章介绍了针对不同下游任务的转移学习方法,特别是在数据稀缺的情况下如何提高模型的效用和性能。同时,论文还探讨了初始预训练和持续预训练的策略,以及如何最大化有限数据在微调和小样本学习中的效用。最后,论文针对不同数据稀缺程度提供了适合的任务特定模型和方法的评述。

  地址:https://arxiv.org/pdf/2411.09539


4. MagicQuill:一个智能交互式图像编辑系统

  标题:MagicQuill: An Intelligent Interactive Image Editing System

  机构:香港科技大学

  关键词:图像编辑、智能交互、多模态大语言模型、高质量编辑

  作者:Zichen Liu,  Yue Yu,  Hao Ouyang

  分析:该论文介绍了一个名为MagicQuill的智能图像编辑系统,该系统可以通过简洁的界面快速实现创意思想的实时编辑,如插入元素、擦除对象、改变颜色等。系统能够通过多模态大型语言模型(MLLM)实时监测编辑意图,无需输入明确的提示。论文展示了MagicQuill在实现高质量图像编辑方面的有效性。

  地址:https://arxiv.org/pdf/2411.09703


5. Squeezed Attention:加速长语境LLM推理

  标题:Squeezed Attention: Accelerating Long Context Length LLM Inference

  机构:UC伯克利分校

  关键词:压缩注意力、长语境LLM推理、离线优化、语义相似性

  作者:Coleman Hooper,  Sehoon Kim,  Hiva Mohammadzadeh

  分析:针对大型语言模型在长语境下的推理效率问题,本文提出了一种名为“压缩注意力”的加速机制。通过离线使用K-means聚类对固定上下文中的键进行分组,并基于语义相似性为每个分组选择一个中心值进行表示。在推理过程中,根据用户输入的查询令牌与中心值的比较,预测哪些键是语义上重要的并需要加载。然后仅使用这些重要键进行精确注意力计算,从而降低带宽和计算成本。此外,本文还通过层次化的中心查找来识别重要键,从而将注意力复杂度从线性降至对数级别。实现优化了Triton内核进行中心值比较和稀疏FlashAttention与重要键的匹配,实现了长语境推理的预填充和生成阶段的超过4倍加速。在多种长语境基准测试中进行了广泛评估,包括LongBench,在不影响准确性的情况下实现了KV缓存预算的3倍减少和高达8倍的减少。

  地址:https://arxiv.org/pdf/2411.09688


6. Bridging the Visual Gap:利用知识适配字幕微调多模态模型

  标题:Bridging the Visual Gap: Fine-Tuning Multimodal Models with Knowledge-Adapted Captions

  机构:谷歌研究院、特拉维夫大学

  关键词:视觉语言模型、知识适配微调、图像字幕处理、数据适配训练

  作者:Moran Yanuka,  Assaf Ben Kish,  Yonatan Bitton

  分析:论文关注小型视觉语言模型(VLMs)在处理长详细图像字幕时的挑战,包括如何在精细调整时平衡字幕的丰富性与内容虚构的风险。提出分解自然语言推理(DNLI)评估框架和知识适配(KnowAda)微调方法。DNLI能拆解生成字幕的个别命题进行评估;KnowAda能自动适配训练数据与模型现有知识,减少虚构现象并保留高描述性。在小型VLMs和密集字幕数据集上的验证显示KnowAda有效平衡两项需求。

  地址:https://arxiv.org/pdf/2411.09018


7. SAFES:面向负责任人工智能的序贯隐私和公平性增强数据合成方法

  标题:SAFES: Sequential Privacy and Fairness Enhancing Data Synthesis for Responsible AI

  机构:FAIR

  关键词:差分隐私、公平性感知、数据合成、隐私与公平性的权衡

  作者:Spencer Giddens,  Fang Liu

  分析:这篇论文关注数据驱动和基于AI的决策制定过程中数据隐私和决策公平性的双重问题。现有文献大多独立处理这两个问题,同时考虑两者且适用于多种机器学习任务的方案较为缺乏。为此,论文提出了一种名为SAFES的序贯隐私和公平性增强数据合成程序,通过结合差分隐私数据合成和公平性感知数据转换来实现二者的协同优化。该方案允许通过调整隐私和公平性参数来控制隐私与公平性的权衡。实证研究结果表明,在合理的隐私损失下,SAFES生成的合成数据在公平性指标上取得了显著的提升,同时保持了相对较低的数据效用损失。

  地址:https://arxiv.org/pdf/2411.09178


8. 自适应解码通过潜在偏好优化

  标题:Adaptive Decoding via Latent Preference Optimization

  机构:FAIR

  关键词:自适应解码、潜在偏好优化、动态调整温度、模型结构改进

  作者:Shehzaad Dhuliawala,  Ilia Kulikov,  Ping Yu

  分析:这篇论文提出了一种自适应解码的方法,该方法通过添加一层模型来选择采样温度,从而在推理时动态调整温度。这种方法可以优化性能,在需要不同温度的任务上表现优于固定解码温度。论文引入了一种名为潜在偏好优化(LPO)的方法,用于训练离散潜在变量,如温度选择。这项工作解决了在语言模型解码过程中,如何根据不同任务需求动态调整解码温度的问题。

  地址:https://arxiv.org/pdf/2411.09661


9. Caravan MultiMet扩展:增加多天气即时预报和预测

  标题:Caravan MultiMet: Extending Caravan with Multiple Weather Nowcasts and Forecasts

  机构:谷歌研究院

  关键词:Caravan数据集、气象数据、水文模型、实时预测

  作者:Guy Shalev,  Frederik Kratzert

  分析:论文扩展了Caravan数据集,增加了多种气象即时预报和预测数据。新数据丰富了气象强迫数据,增强了数据集的能力,并提高了水文模型评估的稳健性,特别是在实时预测场景中。这是首次将天气预报数据纳入大规模水文数据集,促进了水文研究、基准测试和实时水文预报的进步。

  地址:https://arxiv.org/pdf/2411.09459

  代码:https://github.com/kratzert/Caravan/discussions/10


10. Pie:Pie:为LLM推理池化CPU内存

  标题:Pie: Pooling CPU Memory for LLM Inference

  机构:UC伯克利分校

  关键词:LLM推理、内存管理、并发数据交换、自适应扩展

  作者:Yi Xu,  Ziming Mao,  Xiangxi Mo

  分析:这篇论文介绍了一种名为Pie的LLM推理框架,它解决了大型语言模型对内存的高需求问题。通过利用可预测的访问模式和现代硬件的高带宽,Pie实现了并发数据交换,不会影响到前台计算。此外,它的自适应扩展功能能根据实时信息动态调整CPU内存分配,优化内存使用和性能。实验评估表明,Pie在缓存预热期间实现了最佳的交换策略,有效平衡了增加的内存容量,对计算的影响微乎其微。与现有解决方案相比,Pie在吞吐量上表现出更高的性能。

  地址:https://arxiv.org/pdf/2411.09317


11. 基于事件时间预训练的3D医学影像研究

   标题:Time-to-Event Pretraining for 3D Medical Imaging

   机构:斯坦福大学

   关键词:时间-事件预训练、3D医学影像、电子健康记录、疾病风险预测

   作者:Zepeng Huo,  Jason Alan Fries,  Alejandro Lozano

   分析:论文提出了一种基于事件时间预训练的框架,利用大规模时间序列监督信息,将纵向电子健康记录(EHRs)与3D成像数据结合,解决现有医学影像模型无法识别与疾病进展相关的生物标志物的问题,进而提高疾病风险预测的准确性。

   地址:https://arxiv.org/pdf/2411.09361


12. LLaMA-Mesh:统一模型下的3D网格生成与语言模型融合技术

   标题:LLaMA-Mesh: Unifying 3D Mesh Generation with Language Models

   机构:英伟达、清华大学

   关键词:LLaMA-Mesh、3D网格生成、语言模型、文本化表示

   作者:Zhengyi Wang,  Jonathan Lorraine,  Yikai Wang

   分析:这篇论文探索了将大型语言模型(LLMs)从文本预训练扩展到生成统一模型内3D网格的能力。论文介绍了一种将文本和三维空间知识结合的方法,通过LLaMA-Mesh实现3D网格数据的文本化表示,直接整合到LLMs中。论文解决了将3D网格数据有效符号化的问题,使得LLMs可以无缝处理。同时展示了LLMs可以微调获得复杂的空间知识用于文本基础的3D网格生成,实现了文本和三维模态的统一。该论文实现了高质量的网格生成,同时保持了强大的文本生成性能。

   地址:https://arxiv.org/pdf/2411.09595


13. 并行多语言多任务基准测试P-MMEval:用于大模型的一致性评价

   标题:P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs

   机构:阿里巴巴集团

   关键词:大语言模型、P-MMEval基准测试、多语言多任务、模型评估

   作者:Yidan Zhang,  Boyi Deng,  Yu Wan

   分析:论文提出了一种并行多语言多任务基准测试P-MMEval,用于对大语言模型(LLMs)进行综合评价。论文解决了现有评估方法局限于单一任务或多语言能力有限的问题。P-MMEval包含有效的基础和能力专项数据集,能进行跨多种数据集的平行样本提供一致的语言覆盖评估。论文通过广泛的实验分析,探讨了不同模型在多种任务、不同语言和模型大小下的性能差异,为未来的研究提供了有价值的指导。

   地址:https://arxiv.org/pdf/2411.09116

   代码:https://huggingface.co/datasets/Qwen/P-MMEval


14. 在商用硬件上本地部署大规模音乐人工智能模型

   标题:Local deployment of large-scale music AI models on commodity hardware

   机构:卡内基梅隆大学

   关键词:音乐AI、本地部署、商用硬件、模型性能

   作者:Xun Zhou,  Charlie Ruan,  Zihe Zhao

   分析:这篇论文介绍了一个名为MIDInfinite的web应用程序,它能够使用一个大型生成AI模型在商用硬件上本地生成符号音乐。该模型是从一个名为Anticipatory Music Transformer的大型语言模型(LLM)改进而来,该模型在Lakh MIDI数据集上预训练,并由Machine Learning Compilation(MLC)框架支持。论文通过构建一个能够在浏览器中生成无限多乐器MIDI流的演示程序,证明了MLC框架的潜力,能够将高能力的音乐人工智能模型与音乐软件开发者的熟悉技术相连接。实验结果显示,在标准的商用硬件上(如Macbook Pro M3),该程序能够在不缓冲的情况下生成51个音符/秒,对于72.9%的生成结果来说,速度足以实现实时播放,而增加2秒的前置缓冲后,这一比例提升至86.3%。

   地址:https://arxiv.org/pdf/2411.09625


15. 自适应开源逻辑综合数据集生成框架研究

   标题:An Adaptive Open-Source Dataset Generation Framework for Machine Learning Tasks in Logic Synthesis

   机构:北京大学、上海交通大学

   关键词:逻辑综合、数据集、机器学习、OpenLS-D

   作者:Liwei Ni,  Rui Wang,  Miao Liu

   分析:该论文介绍了一种自适应的逻辑综合数据集生成框架,旨在增强机器学习在逻辑综合过程中的应用。该框架能够通过封装逻辑综合的三个基本步骤:布尔表示、逻辑优化和技术映射,支持广泛的机器学习任务。论文提出了OpenLS-D数据集,包含46个组合设计,涵盖了丰富的布尔电路和多种类型的逻辑网表,并支持灵活的数据特征集成,通过在不同下游任务中的表现,展示了其多样性和广泛适用性。

   地址:https://arxiv.org/pdf/2411.09422

   代码:https://github.com/Logic-Factory/ACE/blob/master/OpenLS-D/readme.md


16. 生成式人工智能中“包容性”的受益者是谁?

   标题:Provocation: Who benefits from "inclusion" in Generative AI?

   机构:牛津大学、卡内基梅隆大学

   关键词:包容性、生成式人工智能、社会边缘化群体、AI开发

   作者:Nari Johnson,  Siobhan Mackenzie Hall,  Samantha Dalal

   分析:这篇论文主要探讨了在生成式人工智能(AI)的开发和评估过程中,如何确保非主导价值、知识和物质文化得到体现。作者提出,当前社区参与AI开发和评估的结构过于偏向主导群体,对社会边缘化群体可能带来的益处和损害没有明确的表述。如果AI开发者不能明确地对这些益处进行质询,该论文整个社区可能会忽视实现系统性变革所需的巨大变化。为了支持这个观点,作者提出了一个推测性的研究案例,基于他们作为AI研究人员的集体经验。他们用这个推测性的背景来列出需要克服的障碍,以便实现被提议的边缘化群体的益处,并减轻损害。

   地址:https://arxiv.org/pdf/2411.09102


17. Gazing at Rewards:眼动作为人造与AI混合视觉搜寻决策未来发展。

   标题:Gazing at Rewards: Eye Movements as a Lens into Human and AI Decision-Making in Hybrid Visual Foraging

   机构:哈佛医学院、南洋理工大学、弗吉尼亚大学

   关键词:决策-making、奖励搜寻、强化学习

   作者:Bo Wang,  Dingwei Tan,  Yen-Ling Kuo

   分析:本文研究了人类在一个混合搜寻任务中,在面对不同面额硬币(如25美分、10美分、5美分和1美分)时,如何依据价值和出现频率做出决策。研究人员通过实验发现,人类对于奖励搜寻表现出色,他们会注视于平均价值较高的区域,对高价值目标的注视持续时间更长,并能超出随机猜测水平,接近最佳搜寻者的上限。研究人员开发了一个基于强化学习的视觉搜寻器模型(VF),该模型能够将目标、它们的值以及搜索图像作为输入,使用聚焦视觉处理图像,并生成一系列的眼动路径以及是否收集每个注视目标的决策。该模型在各种基准测试中表现优异,可以模仿人类的搜寻行为和偏见,并在有限的时间内获得接近人类的累计奖励。此外,对超出训练分布(含新目标、未见价值和不同目标集合大小)的任务的测试显示,VF模型在有效泛化方面表现良好。研究人员的研究为眼动与决策之间关系提供了价值,并为深入探索这一联系提供了强大的工具。所有的数据、代码和模型将向公众公开。

   地址:https://arxiv.org/pdf/2411.09176


18. JoyVASA: 基于扩散模型的音频驱动面部动态和头部运动生成方法

   标题:JoyVASA: Portrait and Animal Image Animation with Diffusion-Based Audio-Driven Facial Dynamics and Head Motion Generation

   机构:浙江大学

   关键词:音频驱动动画、面部动态生成、扩散模型、解耦面部表示

   作者:Xuyang Cao,  Sheng Shi,  Jun Zhao

   分析:该论文提出了一种基于扩散模型的方法,用于生成音频驱动的面部表情和头部运动。首先介绍了一种解耦的面部表示框架,将动态的面部表情与静态的3D面部表示分开。这种分离允许系统生成更长的视频,通过结合任何静态3D面部表示和动态运动序列来实现。其次,使用一个扩散Transform训练直接从音频线索生成运动序列,而不依赖于角色的身份。最终,一个已经训练过的生成器使用3D面部表示和生成的运动序列作为输入,以渲染高质量的动画。通过解耦的面部表示和独立于角色身份的运动生成过程,JoyVASA能够无缝地动画化动物的脸。模型在混合了私人中国语料和公共英语语料的训练数据上训练,实现了多语言支持。实验结果验证了该方法的有效性。未来的工作将集中在提高实时性能和细化表情控制上,进一步扩展图片动画的应用范围。

   地址:https://arxiv.org/pdf/2411.09209

   代码:https://jdhalgo.github.io/JoyVASA


19. 语言模型训练数据效率的变量集探索

   标题:BabyLM Challenge: Exploring the Effect of Variation Sets on Language Model Training Efficiency

   机构:东京大学

   作者:Akari Haga,  Akiyo Fukatsu,  Miyu Oba

   分析:当前的大型语言模型取得了显著的成功,但其数据效率仍然是一个需要克服的挑战。最近有人提出,基于Transformer神经网络的现代语言模型可以根据儿童感知的语言(CDS)提高训练数据效率。然而,目前尚不清楚CDS中哪些具体属性对训练这些模型有效。在BabyLM挑战中,该论文关注变量集(VSs),这是用略微不同且结构相似的词语和句式组成的连续语句,在CDS中非常常见。为了评估变量集对训练数据效率的影响,该论文将CDS数据与不同比例的人工变量集结合,并使用这些数据集训练自动回归模型GPT-2。该论文发现,最佳的比例取决于评估指标:BLiMP和GLUE成绩受益于变量集的存在,但EWOK成绩并不如此。此外,结果受多个因素影响,例如epoch数量和语句的排序顺序。总的来说,这些发现表明变量集对语言模型具有积极的影响,但仍需要进一步的研究。

   地址:https://arxiv.org/pdf/2411.09587


20. 多尺度对齐在多模态模型中的精细粒度视觉理解应用进展

   标题:Advancing Fine-Grained Visual Understanding with Multi-Scale Alignment in Multi-Modal Models

   机构:字节跳动、复旦大学、中国科学技术大学

   关键词:多模态大型语言模型,精细粒度视觉理解,多尺度知识对齐,数据合成流程,TinyGroundingGPT

   作者:Wei Wang,  Zhaowei Li,  Qi Xu

   分析:这篇论文主要介绍了多模态大型语言模型在精细粒度视觉理解方面的应用。论文提出了一种新的精细粒度视觉知识对齐方法,该方法有效地对齐并整合了对象的多尺度知识,包括文本、坐标和图像。通过引入多尺度精细粒度增强数据合成流程,提高了对齐效果并提升了整体性能。此外,论文还展示了TinyGroundingGPT系列紧凑模型的优化性能,这些模型在高级对齐任务中表现出色。

   地址:https://arxiv.org/pdf/2411.09691


21. 大模型时代下的系统工程方法

   标题:The Systems Engineering Approach in Times of Large Language Models

   机构:剑桥大学

   关键词:大语言模型、系统工程、解决方案、社会技术系统

   作者:Christian Cabrera,  Viviana Bastidas,  Jennifer Schooling

   分析:这篇论文探讨了在解决重大社会问题时采用大型语言模型(LLM)的必要性,以及如何将这些技术融入到社会技术系统中。文章指出,LLM的复杂性和其自身的特性对这种构想提出了挑战。论文主张采用系统工程方法来解决这些挑战,这种方法通过优先考虑问题和其背景来促进LLMs的应用。文章还介绍了LLMs带来的挑战,并回顾了基于系统的AI系统工程研究。作者揭示了系统工程原则如何支持解决类似LLMs提出的问题,并提出了对未来LLMs应用的指导方向。

   地址:https://arxiv.org/pdf/2411.09050


22. 医疗问答系统中检索增强生成技术的全面评估

   标题:Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering

   机构:Adobe Research

   关键词:医疗问答系统、RAG技术

   作者:Nghia Trung Ngo,  Chien Van Nguyen,  Franck Dernoncourt

   分析:检索增强生成(RAG)技术在知识密集型任务,如医疗领域中,已经崭露头角。然而,由于医疗领域的敏感性,需要一个完全准确和可信赖的系统。现有的RAG基准测试主要集中在标准的检索-答案设置上,而忽视了许多实际场景,这些场景测量了可靠医疗系统的至关重要的方面。本文通过提供一个全面的医疗问答系统评价框架,填补了这一空白,该框架针对RAG设置中的多种实际场景对四个医疗问答数据集进行测试,以评估大型语言模型处理这些特定情况的能力。该论文引入了Medical Retrieval-Augmented Generation Benchmark (MedRGB),为各种补充元素提供了各种支持,包括对于四个医疗问答数据集的测试。通过使用MedRGB,该论文在多个检索条件下对最先进的商业大型语言模型和开源模型进行了广泛的评估。该论文的实验结果揭示了当前模型在处理检索到的文档中的噪声和误导信息方面的能力有限。该论文进一步分析了大型语言模型的推理过程,以便为开发这个关键的医疗领域中的RAG系统提供有价值的见解和未来的方向。

   地址:https://arxiv.org/pdf/2411.09213


23. DAHL: 生物医学领域大模型产生的事实冲突幻觉评估基准数据集和自动化评估系统

   标题:DAHL: Domain-specific Automated Hallucination Evaluation of Long-Form Text through a Benchmark Dataset in Biomedicine

   机构:首尔国立大学

   作者:Jean Seo,  Jongwon Lim,  Dongjun Jang

   分析:本文介绍了一种新的评估大语言模型在生物医学领域中产生的事实冲突幻觉的方法。该论文创建了一个由8573个问题组成的基准数据集,这些问题涵盖了29个类别。该论文通过将模型的回答分解为原子单位(每个单元代表一个信息片段)来评估这些幻觉,并计算平均准确性以生成DAHL分数。该论文的实验表明,大型模型产生的幻觉较少,但超过70亿参数的大型模型进一步扩展并没有显著提高其事实准确性。DAHL分数具有作为人类注释偏好标签的替代品的潜力,并可以扩展到其他专业领域。

   地址:https://arxiv.org/pdf/2411.09255


24. 采用RAG技术辅助未来汽车设计

   标题:Adopting RAG for LLM-Aided Future Vehicle Design

   机构:慕尼黑工业大学

   关键词:RAG技术、大语言模型、汽车设计、自动化设计

   作者:Vahid Zolfaghari,  Nenad Petrovic,  Fengjunjie Pan

   分析:这篇论文研究了将大语言模型(LLMs)与检索增强生成(RAG)技术集成,用于提高汽车行业自动化设计和软件开发效率。论文通过两个案例研究,即符合标准化规范的聊天机器人和设计协作者,展示了如何利用RAG技术提供精确的、具有上下文意的响应。文章还对比分析了四种LLM(GPT-4o、LLAMA3、Mistral、Mixtral)的性能,结果表明GPT-4表现优异,而LLAMA3和Mistral也表现出局部部署的潜力,有助于解决汽车应用中的数据隐私问题。研究表明,增强RAG的大语言模型在改进汽车工程的设计流程和合规性方面具有巨大潜力。

   地址:https://arxiv.org/pdf/2411.09590


25. DTELS:面向动态粒度的时间线摘要

   标题:DTELS: Towards Dynamic Granularity of Timeline Summarization

   机构:中国科学院大学、上海AI实验室

   关键词:动态时间线摘要、大型语言模型、时间线生成

   作者:Chenlong Zhang,  Tong Zhou,  Pengfei Cao

   分析:这篇论文主要介绍了动态时间线摘要(DTELS)的相关内容。动态时间线摘要的目标是构建一种能够根据用户需求或指示灵活调整的时间线摘要,以克服传统时间线摘要在粒度需求上的不足。该文提出了一种新的范式,并建立了一个全面的DTELS基准,包括评估框架、大规模多源数据集和基于LLM的解决方案等。然而,即使是最先进的LLMs也难以始终生成既具有信息性又具有一致性的时间线,这突显了DTELS任务的挑战性。

   地址:https://arxiv.org/pdf/2411.09297


26. LES-Talker:面向线性情感空间的精细情感编辑的说话人头生成模型

   标题:LES-Talker: Fine-Grained Emotion Editing for Talking Head Generation in Linear Emotion Space

   机构:西安电子科技大学

   关键词:LES-Talker模型、细粒度情感编辑、线性情感空间、跨维度注意力网络

   作者:Guanwen Feng,  Zhihao Qian,  Yunan Li

   分析:针对现有的一次性说话人头生成模型在粗粒度情感编辑上的进展,提出了一种具有高精度可解释性的细粒度情感编辑模型LES-Talker,该模型可以在情感类型、情感水平和面部单元等多个维度进行精细情感编辑。通过引入基于面部动作单元的线性情感空间(LES)定义,将情感转换表征为矢量转换。设计了跨维度注意力网络(CDAN)来深度挖掘LES表征和3D模型表征之间的关联。通过挖掘不同特征和结构维度之间的多重关系,使LES表征能够引导3D模型的可控变形。为了将存在偏差的多模态数据适应到LES并增强视觉质量,采用了专门的网络设计和训练策略。实验表明,该方法在提供高水平的视觉质量的同时,实现了多层次和可解释性的细粒度情感编辑,优于主流方法。

   地址:https://arxiv.org/pdf/2411.09268


27. 信息最优的多星飞行器定位策略用于星际物体探索

   标题:Information-Optimal Multi-Spacecraft Positioning for Interstellar Object Exploration

   机构:伊利诺伊大学

   关键词:星际物体、多星飞行器定位、概率保证、信息成本函数

   作者:Arna Bhardwaj,  Shishir Bhatta,  Hiroyasu Tsukamoto

   分析:星际物体(ISOs)可能是扩展该论文对宇宙形成和组成理解的重要机会。针对ISOs科学发现的不可预测性,本文提出了一种新的多星飞行器框架,通过正式的概率保证来局部最大化获取的信息。给定星际物体的部分近似控制和估计策略,该论文首先构建一个围绕其终端位置的椭球体,星际物体以有限概率位于该处。通过分层性质在随机收缩非线性系统中正式处理星际物体的大状态不确定性。然后,该论文提出了一种方法,用于寻找围绕椭球体最优分布的多星,在该处局部最大化所有感兴趣点(POIs)的信息。这利用了一个考虑星际物体轨道、摄像头规格和星际物体位置不确定性的概率信息成本函数,其中信息定义为由摄像头采集的视觉数据。使用从半真实经验人口生成的合成星际物体候选进行数值模拟。该论文的方法允许每颗星际飞行器最优选择其终端状态并确定需要研究的POI数量,有可能在研究这些稀有且短暂的星际访客的同时,最小化资源利用。

   地址:https://arxiv.org/pdf/2411.09110


28. 基于脑电图信号的感知、发声和想象语音的统一神经解码研究

   标题:Towards Unified Neural Decoding of Perceived, Spoken and Imagined Speech from EEG Signals

   机构:韩国高丽大学

   关键词:深度神经网络模型、语音模式解码、非侵入式技术、神经网络模块性能优势

   作者:Jung-Sun Lee,  Ha-Na Jo,  Seo-Hyun Lee

   分析:这篇论文主要研究了基于深度学习的非侵入式神经信号解码方法,重点区分了不同的语音模式,包括感知、发声、耳语和想象中的语音。论文探究了通过神经网络模型在多个频带中解码这些语音模式的有效性,特别是在伽马频带中的表现尤为出色。此外,论文还发现了想象语音在Theta频带中的独特表现,深度学习在此频带中也显示出显著效果。

   地址:https://arxiv.org/pdf/2411.09243


29. 文档抽取平台与印尼本地语言档案基准数据集

   标题:DriveThru: a Document Extraction Platform and Benchmark Datasets for Indonesian Local Language Archives

   机构:波士顿大学

   关键词:印尼语言处理、数字化文档、光学字符识别技术、语言模型

   作者:MohammadRifqi Farhansyah,  Muhammad Zuhdi Fikri Johari,  Afinzaki Amiral

   分析:这篇论文主要介绍了针对印尼语言的文档抽取平台DriveThru和基准数据集。文章强调了印尼语言的多样性及其在自然语言处理研究和技术中的被忽视状态。文章提出了一种通过数字化文档创建数据集的方法,利用光学字符识别技术,减少手动努力并降低成本。此外,文章还研究了当前最先进的大型语言模型在OCR校正后的性能表现,并展示了其在提高字符和单词准确率方面的能力。

   地址:https://arxiv.org/pdf/2411.09318


30. 太阳极化光谱数据的压缩方法

   标题:Compression Method for Solar Polarization Spectra Collected from Hinode SOT/SP Observations

   机构:名古屋大学

   关键词:太阳极化光谱、压缩方法、深度学习

   作者:Jargalmaa Batmunkh,  Yusuke Iida,  Takayoshi Oba

   分析:该论文提出了一种基于深度学习的压缩技术,使用Hinode SOT/SP数据开发的深度自编码器(DAE)和一维卷积自编码器(CAE)模型来压缩来自静止太阳和活动区域的Stokes I和V极化光谱。结果表明,CAE模型在重构Stokes轮廓方面优于DAE模型,显示出更强的鲁棒性,并达到观测噪声水平左右的重构误差。该方法已成功地从静止太阳和活动区域压缩Stokes I和V光谱,为综合光谱分析提供了新的见解,并在检测异常光谱信号等方面具有潜在的应用价值。

   地址:https://arxiv.org/pdf/2411.09311


31. Lynx:通过动态批处理感知的专家选择实现大规模模型的高效推理

   标题:Lynx: Enabling Efficient MoE Inference through Dynamic Batch-Aware Expert Selection

   机构:乔治亚理工学院

   关键词:Mixture-of-Experts、高效推理、动态批处理、模型结构改进

   地址:https://arxiv.org/pdf/2411.08982


32. Piecing It All Together:验证多跳多模态声明

   标题:Piecing It All Together: Verifying Multi-Hop Multimodal Claims

   机构:埃默里大学

   关键词:多模态证据、多跳推理、声明验证

   地址:https://arxiv.org/pdf/2411.09547


33. LLM产生幻觉的原因分析与推理:基于零样本知识测试

   标题:LLM Hallucination Reasoning with Zero-shot Knowledge Test

   机构:摩根大通、乔治亚理工学院

   关键词:LLM幻觉推理、零样本知识测试、幻觉分类、语言模型评估

   地址:https://arxiv.org/pdf/2411.09689


34. 张量并行大模型推理中的通信压缩研究

   标题:Communication Compression for Tensor Parallel LLM Inference

   机构:慕尼黑工业大学

   关键词:大语言模型,张量并行推理,通信压缩,性能优化

   地址:https://arxiv.org/pdf/2411.09510


35. 稀疏注意力机制降低大模型推理成本

   标题:Reducing Reasoning Costs - The Path of Optimization for Chain of Thought via Sparse Attention Mechanism

   地址:https://arxiv.org/pdf/2411.09111

   代码:https://github.com/brucewang123456789/GeniusTrail.git


36. 人工智能驱动的材料逆设计:过去、现在与未来

   标题:AI-driven inverse design of materials: Past, present and future

   关键词:人工智能驱动的材料逆设计、材料性质与结构、隐性关联、模型结构改进

   地址:https://arxiv.org/pdf/2411.09429


37. 音乐疗法音乐生成语言模型

   标题:Language Models for Music Medicine Generation

   关键词:音乐疗法、语言模型、音乐生成、情绪识别

   地址:https://arxiv.org/pdf/2411.09080


38. Med-Bot: 一个AI驱动的医疗信息助手

   标题:Med-Bot: An AI-Powered Assistant to Provide Accurate and Reliable Medical Information

   地址:https://arxiv.org/pdf/2411.09648


看论文是一天,不看论文也是一天,为什么不每天充实下自己呢^_^^_^

AI for Research
每天分享最新最热的Arxiv论文、一起来关注大模型、AIGC、AGI
 最新文章