基于真实数据来生成合成数据与筛选的方法研究 | 稳定语言模型预训练方法 | 更快的Speech-LLaMA推理:基于多令牌预测

文摘   2024-09-13 20:26   广东  

前言:平淡无奇的一天又来了,今天要分享的内容主要是关于大模型、扩散模型、模型结构改进的,喜欢的小伙伴赶紧去阅读相关论文吧。


1. 基于真实数据源合成数据生成与筛选的方法研究

  标题:Source2Synth: Synthetic Data Generation and Curation Grounded in Real Data Sources

  机构:伦敦大学

  相关领域:数据集构建

  作者:Alisia Lupidi,  Carlos Gemmell,  Nicola Cancedda

  分析:这篇论文提出了一种名为Source2Synth的新方法,用于教授大型语言模型新技能,而无需依赖昂贵的人工注释。该方法以自定义数据源为输入,生成基于真实世界数据源带有中间推理步骤的合成数据点。通过丢弃低质量的生成数据来提高数据集质量。论文在两个方面验证了该方法的通用性:在跨跳问题回答中测试推理能力,以及在表格问题回答中测试工具使用能力。相较于微调基线,该方法在WikiSQL的TQA上性能提高25.51%,在HotPotQA的MHQA上性能提高22.57%。

  地址:https://arxiv.org/pdf/2409.08239


2. 稳定语言模型预训练

  标题:Stable Language Model Pre-training by Reducing Embedding Variability

  机构:KAIST AI

  相关领域:模型结构改进、预训练

  作者:Woojin Chung,  Jiwoo Hong,  Na Min An

  分析:本文主要探讨了如何通过降低嵌入变量的变异性来实现稳定的预训练。该论文提出了一种简单的、高效的代理——Token Embedding Variability (TEV) ,并利用它作为评估预训练稳定性的指标。此外,该论文还提出了一种名为Multi-head Low-Rank Attention (MLRA)的架构,通过限制输出嵌入变量的指数增长,从而防止梯度爆炸,提高模型的稳定性。该论文的实验结果表明,在具有MLRA的更深层次的模型中,稳定性得到了提高,困惑度也相应降低了。

  地址:https://arxiv.org/pdf/2409.07787


3. 点击即可涂鸦: 动态掩模生成的本地图像编辑

  标题:Click2Mask: Local Editing with Dynamic Mask Generation

  机构:希伯莱大学

  相关领域:模型应用(本地图像编辑)

  作者:Omer Regev,  Omri Avrahami,  Dani Lischinski

  分析:点击2Mask提出了一种新颖的图像编辑方法,无需精确的mask或详细位置描述,仅需一个参考点,通过基于CLIP的掩模语义损失动态生成编辑区域。它解决了现有方法中模板或精细定位要求的问题,提供更直观和准确的本地图像编辑体验。实验表明,Click2Mask在减少用户努力和图像编辑效果上超越了最先进的方法,具有较高的实用性和创新性。

  地址:https://arxiv.org/pdf/2409.08272


4. 更快的Speech-LLaMA推理:基于多令牌预测

  标题:Faster Speech-LLaMA Inference with Multi-token Prediction

  相关领域:模型结构改进

  作者:Desh Raj,  Gil Keren,  Junteng Jia

  分析:这篇论文探讨了如何通过在一个步长内预测多个令牌来加速大型语言模型(LLMs)的推理,尤其是语音-LLaMA模型。语音编码器结合训练模型的输出,使得解码器只能具备语音识别(ASR)的能力。然而,由于自动回归推理的顺序特性和相对较大的解码器,语音-LLaMA模型的推理时间相对较高。研究提出了一种方法,通过一次性预测多个令牌来加速后端过程,同时研究了与之相伴的模型架构和推理策略。试验表明,这种方法可以将解码器的调用次数减少约3.2倍,同时在各种公共基准测试中保持或提高语音错误率(WER)的性能。

  地址:https://arxiv.org/pdf/2409.08148


5. 微调大模型以实现实体匹配

  标题:Fine-tuning Large Language Models for Entity Matching

  机构:曼海姆大学

  相关领域:模型微调、数据集构建

  作者:Aaron Steiner,  Ralph Peeters,  Christian Bizer

  分析:这篇论文探讨了微调大型语言模型(LLMs)在实体匹配任务中的应用潜力。论文通过两个维度分析了微调LLMs的效果:一是在训练集中加入不同类型的LLM生成解释,二是使用LLMs进行训练示例的选择和生成。实验表明,微调能显著提高较小模型的性能,对大型模型的结果则是喜忧参半。此外,微调能改善在域内的泛化能力,但在跨域转移方面则表现不佳。加入结构化解释对大多数LLMs的性能有积极影响。

  地址:https://arxiv.org/pdf/2409.08185


6. 我们能依赖大模型吗?GPT-4的能力评估误区和能力声明

  标题:Can We Count on LLMs? The Fixed-Effect Fallacy and Claims of GPT-4 Capabilities

  相关领域:模型评估

  作者:Thomas Ball,  Shuo Chen,  Cormac Herley

  分析:这篇论文主要探讨了评估大型语言模型(LLM)的能力是否可靠。作者通过测量GPT-4在多个确定性任务上的表现,如计数列表中的元素、乘两个k位数字等基本计算任务,发现模型的表现对任务描述、输入参数的改变都非常敏感。实验结果表明,即使是最简单的任务描述或输入参数的变化,也可能会导致模型表现上出现显著差异,远超随机抽样效应的预期。这说明在考量大语言模型的能力时,很容易陷入‘语言作为固定效应的误区’,即错误的将实验观察结果泛化到超出数据支持的领域。因此,论文的结论是,基于与人类的交互经验形成的对哪些输入修改应‘不改变’模型性能的直觉是不可靠的。

  地址:https://arxiv.org/pdf/2409.07638


7. Touch2Touch:跨模态触觉生成用于物体操作

  标题:Touch2Touch: Cross-Modal Tactile Generation for Object Manipulation

  机构:密歇根大学

  作者:Samanta Rodriguez,  Yiming Dou,  Miquel Oller

  分析:这篇论文主要解决不同形状和大小的触觉传感器之间缺乏通用处理方法的挑战。它通过跨模态预测实现不同触觉传感器之间的感知转换,给定一个触觉信号,使用生成模型预测其他传感器的感知。论文使用扩散模型实现了GelSlim和Soft Bubble传感器之间的翻译,并进行了在手物体姿态估计的下游任务。

  地址:https://arxiv.org/pdf/2409.08269

  代码:https://www.mmintlab.com/research/touch2touch/


8. TravelAgent:基于人工智能个性化旅行规划的研究

  标题:TravelAgent: An AI Assistant for Personalized Travel Planning

  机构:复旦大学

  相关领域:模型结构改进

  作者:Aili Chen,  Xuyang Ge,  Ziquan Fu

  分析:随着全球旅游的扩展和人工智能技术的进步,智能旅行规划服务已成为重要研究领域。针对动态现实旅行场景中的多维度约束,支持用户自动创建实用且个性化的旅行行程的服务必须实现理性、全面和个性化三个关键目标。然而,现有系统基于规则组合或大型语言模型(LLM)的规划方法难以完全满足这些标准。TravelAgent旨在通过大型语言模型提供合理的、全面的和个性化的旅行行程规划,其包含工具使用、推荐、规划和记忆四个模块。

  地址:https://arxiv.org/pdf/2409.08069


9. OmniQuery:上下文增强捕获的多模态记忆以实现个性化问题解答

  标题:OmniQuery: Contextually Augmenting Captured Multimodal Memory to Enable Personal Question Answering

  机构:加州大学、华盛顿大学、斯坦福大学

  作者:Jiahao Nick Li,  Zhuohao Zhang,  Jiaju Ma

  分析:这篇论文主要研究了如何利用人工智能技术,从用户通过照片、截图和视频等方式捕捉的记忆中提取并推断出相关的信息,以解决复杂的个人记忆相关的问题。具体来说,作者提出了一种名为OmniQuery的新系统,该系统能够通过整合来自多个相互关联的记忆的分散的上下文信息,提取并推断出相关的信息,然后使用大型语言模型(LLM)来生成全面的答案。在人类评估中,该系统的准确率达到了71.5%,优于传统的RAG系统,并且在74.5%的情况下胜出或并列。

  地址:https://arxiv.org/pdf/2409.08250


10. DSBench:数据科学代理距离成为数据科学专家还有多远?

  标题:DSBench: How Far Are Data Science Agents to Becoming Data Science Experts?

  相关领域:模型评估、数据集构建(用于构建基准测试的数据集)、多模态(涉及语言和视觉的推理能力)

  作者:Liqiang Jing,  Zhehui Huang,  Xiaoyang Wang

  分析:论文介绍了一种名为DSBench的综合基准测试,用于评估数据科学代理在现实世界任务中的性能。该基准测试包含466个数据分析任务和74个数据建模任务,来源于实际的数据科学竞赛。论文指出,现有的数据科学基准测试与真实世界的数据科学应用相比仍然有所不足。因此,论文通过引入DSBench来填补这一差距,该基准测试旨在更真实地模拟数据科学任务环境,评估代理在具有挑战性的任务中的表现。研究发现,现有的大型语言模型和代理在大多数任务中表现不佳,表明需要进一步发展和改进。

  地址:https://arxiv.org/pdf/2409.07703


11. Windows Agent Arena: 评估大规模多模态操作系统代理性能

   标题:Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale

   机构:微软、哥伦比亚大学、卡内基梅隆大学

   作者:Rogerio Bonatti,  Dan Zhao,  Francesco Bonacci

   分析:这篇论文主要介绍了一种名为Windows Agent Arena的新型环境,它专注于Windows操作系统,并提供了一个可复现、通用的环境来评估操作系统代理在各种任务中的性能。该环境包括150多个多样化的任务,涵盖了规划、屏幕理解和工具使用等各个方面。作者还提出了一个新的多模态代理Navi,并通过与未加辅助的人类进行比较,展示了其在Windows域中的表现。此外,文章还提供了对Navi性能的详细定量和定性分析,为未来的研究提供了宝贵的见解。

   地址:https://arxiv.org/pdf/2409.08264

   代码:https://microsoft.github.io/WindowsAgentArena


12. SimulBench:通过创意模拟任务评估语言模型

   标题:SimulBench: Evaluating Language Models with Creative Simulation Tasks

   机构:滑铁卢大学、伊利诺伊大学、艾伦AI研究所

   相关领域:模型评估

   作者:Qi Jia,  Xiang Yue,  Tianyu Zheng

   分析:论文引入SimulBench基准测试,通过一系列创造性的模拟场景,如扮演Linux终端或玩文本游戏,评估大型语言模型(LLMs)的通用智能水平。论文解决了一个挑战,即开发一个公平测试不同LLMs的评估框架,同时保持用户与AI之间的多轮交互性质。实验表明,这些模拟任务具有独特性和挑战性,并显示出专有模型与最先进开源LLMs之间的差距。

   地址:https://arxiv.org/pdf/2409.07641


13. 探索视觉基础模型在多模态任务中的转移学习

   标题:SimMAT: Exploring Transferability from Vision Foundation Models to Any Image Modality

   机构:普林斯顿大学、香港理工大学、香港科技大学

   相关领域:多模态学习、模型转移、图像分割

   作者:Chenyang Lei,  Liyi Chen,  Jun Cen

   分析:SimMAT模型提出了一种简单有效的框架,用于研究从自然RGB图像训练的视觉基础模型向不同物理属性图像(如极化)的转移学习。它包括单模态无关的转移层(MAT)和预训练基础模型,适用于Segment Anything Model。实验证明了视觉基础模型的跨模态潜力,提升其他传感器的分割性能。关键词:视觉基础模型、跨模态学习、转移学习、SIMMAT、图像分割.

   地址:https://arxiv.org/pdf/2409.08083


14. DreamHOI:零样本生成3D人体与物体交互

   标题:DreamHOI: Subject-Driven Generation of 3D Human-Object Interactions with Diffusion Priors

   机构:牛津大学、卡内基梅隆大学

   相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

   作者:Thomas Hanwen Zhu,  Ruining Li,  Tomas Jakab

   分析:本研究提出了一种名为DreamHOI的方法,该方法利用文本描述实现零样本生成3D人体与物体的交互。由于真实世界中物体的种类和几何形状各异,且数据集涵盖的3D人体-物体交互场景有限,因此该论文利用了训练了数十亿对图像-标题对的文本到图像扩散模型来解决这个问题。该论文优化了一个皮肤网格的骨架结构,通过Score Distillation Sampling (SDS)从这些模型中获取梯度,预测图像空间的编辑。然而,直接将图像空间的梯度反向传播到复杂的骨架参数中是无效的,因为这种梯度具有局部性。为了解决这个问题,该论文引入了皮肤网格的一个双重隐式显式表示,结合了(隐式)神经辐射场(NeRFs)和(显式)骨架驱动网格骨架结构。在优化过程中,该论文在隐式和显式形式之间进行转换,同时固定NeRF生成并优化网格骨架结构。该论文通过大量的实验验证了该论文的方法的有效性,生成了逼真的3D人体-物体交互场景。

   地址:https://arxiv.org/pdf/2409.08278


15. 增强问答文本检索的排序模型:基准测试、微调与部署

   标题:Enhancing Q&A Text Retrieval with Ranking Models: Benchmarking, fine-tuning and deploying Rerankers for RAG

   机构:英伟达

   相关领域:模型评估、多模态

   作者:Gabriel de Souza P. Moreira,  Ronay Ak,  Benedikt Schifferer

   分析:这篇论文主要探讨了排序模型在增强文本检索系统整体精度方面的重要性。论文对多种公开可用的排序模型进行了基准测试,并研究了它们对排序精度的影响,特别是在问答任务的文本检索方面。论文还介绍了一种最先进的排序模型,并对比了不同模型大小、损失函数和自我注意机制的微调效果。同时,论文讨论了在实际工业应用中,排序模型在文本检索管道中的挑战和权衡。

   地址:https://arxiv.org/pdf/2409.07691


16. 从知识图谱到语言模型的规则学习

   标题:Learning Rules from KGs Guided by Language Models

   机构:帝国理工学院、博世AI中心、Amazon

   相关领域:模型结构改进、预训练、指令微调、奖励模型

   作者:Zihang Peng,  Daria Stepanova,  Vinh Thinh Ho

   分析:这篇论文主要探讨了如何利用知识图谱和语言模型提高规则学习系统的性能。在知识图谱构建过程中,由于其半自动构建的特点,往往存在信息不完整的问题。为了解决这个问题,研究者们提出了利用知识图谱嵌入模型预测缺失信息的规则学习方法。同时,随着语言模型的发展,一些研究者开始尝试将语言模型引入规则学习系统中,以此来提高规则学习的效果。本文的目标是验证语言模型在规则学习中的价值,并探讨如何更好地利用语言模型来改进规则学习系统。

   地址:https://arxiv.org/pdf/2409.07869


17. DreamBeast:基于部分意识知识转移的3D梦幻动物提炼方法

   标题:DreamBeast: Distilling 3D Fantastical Animals with Part-Aware Knowledge Transfer

   机构:牛津大学、澳大利亚国立大学

   相关领域:模型结构改进、数据集构建、模型蒸馏

   作者:Runjia Li,  Junlin Han,  Luke Melas-Kyriazi

   分析:这篇论文介绍了一种名为‘梦兽’的创新方法,该方法基于分数级联采样(SDS)技术,用于生成由独特部分组成的3D幻想动物资产。大部分基于文本到图像扩散模型的SDS方法在处理此类生成任务时存在部分语义理解不足的问题。尽管一些最近的扩散模型(如Stable Diffusion 3)在部分级理解方面表现出色,但它们的运行速度过慢,并存在其他单视角扩散模型的常见问题。梦兽通过引入一种新颖的部分意识知识转移机制克服了这一局限性。对于生成的每件资产,从Stable Diffusion 3模型中高效地提取部分级知识,并转换为3D部分亲和力隐式表示。这使得生成任意相机视角下的Part-Affinity图成为可能,该论文使用这些图来调节多视角扩散模型在SDS过程中的引导,以创造3D幻想动物的3D资产。梦兽在生成具备用户自定义部分组成高质量3D生物方面显著增强,同时降低计算开销,并通过大量定量和定性评估予以验证。

   地址:https://arxiv.org/pdf/2409.08271


18. VI3DRM:面向稀疏视角的精细3D重建研究

   标题:VI3DRM:Towards meticulous 3D Reconstruction from Sparse Views via Photo-Realistic Novel View Synthesis

   机构:腾讯、复旦大学

   相关领域:模型结构改进、预训练

   作者:Hao Chen,  Jiafu Wu,  Ying Jin

   分析:这篇论文提出了一种基于扩散模型的稀疏视角3D重建模型VI3DRM。该模型在一个ID一致且透视分离的3D潜在空间内操作,解决了现有方法难以从稀疏视角精确重建物体的问题。通过解耦语义信息、颜色、材质属性和光照等因素,VI3DRM能够生成高度逼真的图像,难以与现实照片区分。该模型可以利用真实和合成图像来构建点云地图,生成精细纹理的网格或点云。实验结果表明,VI3DRM在GSO数据集上的表现优于现有方法DreamComposer。

   地址:https://arxiv.org/pdf/2409.08207


19. Large Language Models are Pattern Matchers:使用ChatGPT编辑半结构和结构化文档

   标题:Large Language Models are Pattern Matchers: Editing Semi-Structured and Structured Documents with ChatGPT

   机构:科隆莱茵应用技术大学

   相关领域:预训练、指令微调

   作者:Irene Weber

   分析:这篇论文主要探讨了大型语言模型(LLMs)是否能够以最小的努力编辑半结构和结构化文档。通过Qualitative Research方法,作者进行了两个案例研究,使用ChatGPT进行实验分析。实验结果表明,当提供基本而直接的提示后,LLM可以有效地编辑结构化和半结构化文档。ChatGPT展现了在标记化文档结构方面的强大能力,这表明明确地将任务和数据结构在提示中进行结构化,可能可以提高LLM理解和解决问题的能力。此外,实验还揭示了ChatGPT在模式匹配方面的出色能力,这一发现值得进一步的研究,因为这与 hallucinations(幻想)在大模型中的形成过程有关。

   地址:https://arxiv.org/pdf/2409.07732


20. SSR-Speech:朝着稳定、安全和鲁棒的零样本文本驱动的语音编辑和合成发展

   标题:SSR-Speech: Towards Stable, Safe and Robust Zero-shot Text-based Speech Editing and Synthesis

   机构:南洋理工大学、腾讯AI实验室、约翰霍普金斯大学

   相关领域:模型结构改进、多模态

   作者:Helin Wang,  Meng Yu,  Jiarui Hai

   分析:论文介绍了一种名为SSR-Speech的神经网络模型,该模型旨在实现稳定、安全和鲁棒的零样本文本驱动的语音编辑和文本到语音的合成。通过使用Transformer解码器和无分类器指导技术增强生成的稳定性,同时提出了水印Encodec来检测编辑的语音部分。此外,该模型在RealEdit语音编辑任务和LibriTTS文本到语音任务上表现卓越,特别是在多跨度语音编辑和对背景音的鲁棒性方面表现突出。

   地址:https://arxiv.org/pdf/2409.07556


21. SoVAR:从事故报告构建通用化场景以检测自主驾驶的缺陷

   标题:SoVAR: Building Generalizable Scenarios from Accident Reports for Autonomous Driving Testing

   机构:南洋理工大学

   相关领域:模型结构改进、指令微调、数据集构建

   作者:An Guo,  Yuan Zhou,  Haoxiang Tian

   分析:这篇文章探讨了自主驾驶系统(ADS)的发展与应用现状,特别是在安全关键领域的应用。文章指出了虽然ADS取得了显著进步,但在近期发生的致命事故报告中暴露出的安全隐患尚未完全得到解决。基于此背景,文章提出对事故报告中记录的场景进行更全面、更具针对性的测试策略,以确保自主驾驶系统的安全性。通过再现从真实事故报告中提取的关键场景,开发者能够得到高质量的测试种子,提升汽车制造商的汽车产业质量和安全性。

   地址:https://arxiv.org/pdf/2409.08081


22. 人工智能加速高温超导材料发现研究

   标题:AI-accelerated discovery of high critical temperature superconductors

   机构:中国人民大学

   相关领域:模型结构改进、预训练

   作者:Xiao-Qi Han,  Zhenfeng Ouyang,  Peng-Jie Guo

   分析:论文开发了一种人工智能搜索引擎,集成了深度模型预训练、微调技术、扩散模型和基于物理的方法(如第一性原理电子结构计算),用于发现具有高临界温度($T_c$)的超导材料。该搜索引擎发现了74种动态稳定的材料,其临界温度由AI模型预测至少为15K。这些新材料具有潜在的应用价值,展示了AI在加速发现具有目标属性的材料方面的潜力。

   地址:https://arxiv.org/pdf/2409.08065


23. 无线智能网络中的大模型代理——WirelessAgent

   标题:WirelessAgent: Large Language Model Agents for Intelligent Wireless Networks

   机构:香港科技大学

   相关领域:模型结构改进、预训练、多模态

   作者:Jingwen Tong,  Jiawei Shao,  Qiong Wu

   分析:论文介绍了一种利用大语言模型(LLM)开发AI代理的新方法,旨在管理无线网络的复杂任务。通过高级推理、多模式数据处理和自主决策,有效改善网络性能。论文还展示了WirelessAgent在网络切片管理中的实际适用性和好处,能够准确理解用户意图,有效分配切片资源,并保持最佳性能。

   地址:https://arxiv.org/pdf/2409.07964


24. MPPI-Generic:一个用于随机优化的CUDA库

   标题:MPPI-Generic: A CUDA Library for Stochastic Optimization

   机构:乔治亚理工学院

   作者:Bogdan Vlahov,  Jason Gibson,  Manan Gandhi

   分析:这篇论文介绍了一个名为MPPI-Generic的新的C++/CUDA库,用于GPU加速的随机优化。该库提供了模型预测路径积分控制等多种算法的实现,并允许这些算法在多个现有的动力学模型和成本函数中使用。此外,研究人员可以遵循该论文的API定义创建自己的动力学模型或成本函数,无需更改实际的模型预测路径积分控制代码。该论文还通过比较计算性能展示了该库的实时能力。

   地址:https://arxiv.org/pdf/2409.07563

   代码:https://acdslab.github.io/mppi-generic-website/


25. 超级单调对齐搜索

   标题:Super Monotonic Alignment Search

   机构:约翰霍普金斯大学

   相关领域:模型优化, GPU加速, TTS(语音合成), 对齐算法

   作者:Junhyeok Lee,  Hyeongju Kim

   分析:本文研究了Super Monotonic Alignment Search(Super MAS),它是在TTS中广泛应用的用于估计文本与语音之间未知对齐的算法。作者发现,由于需要在动态规划中搜索最可能路径并缓存所有路径,其时间复杂度为$O(T imes S)$。为加速在GPU上执行,他们实现了Tritonkernel和PyTorch JIT脚本,减少CPU间的复制,结果表明在极端长度条件下速度提升至72倍。这项工作展示了GPU加速对大语言模型长距离对齐计算的潜力。

   地址:https://arxiv.org/pdf/2409.07704

   代码:https://github.com/supertone-inc/super-monotonic-align


26. 视频中的手-物体交互预先训练

   标题:Hand-Object Interaction Pretraining from Videos

   相关领域:预训练

   作者:Himanshu Gaurav Singh,  Antonio Loquercio,  Carmelo Sferrazza

   分析:本文介绍了一种从3D手-物体交互轨迹中学习通用机器人操作先验的方法。该论文建立了一个框架,使用野外视频来生成传感器-运动机器人轨迹。该论文通过提升人类手和被操纵的物体到一个共享的3D空间中,并将人类的动作重新定位为机器人动作来实现这一点。对这种数据的生成性建模为该论文提供了一种任务无关的基本策略。这种策略捕获了一种通用的、然而又灵活的操作先验。该论文在实验中证实,通过强化学习和行为克隆对这一策略进行微调,能够使下游任务的适应更高效,同时提高鲁棒性和泛化能力,与先前的方法相比。详尽的实验可在:https://hgaurav2k.github.io/hop/查看。

   地址:https://arxiv.org/pdf/2409.08273

   代码:https://hgaurav2k.github.io/hop/


27. 音乐长尾中的自动标注:一种小样本方法

   标题:Music auto-tagging in the long tail: A few-shot approach

   机构:乔治亚理工学院

   相关领域:模型结构改进、预训练、多模态

   作者:T. Aleksandra Ma,  Alexander Lerch

   分析:这篇论文提出了一种基于小样本学习的音乐自动标注方法,旨在解决数字音乐领域中音乐的整理和检索问题。该方法通过利用预训练模型的特性,仅使用少量的人工标注样本,就能让模型理解标签含义并自主应用标签。实验表明,该方法在有限标注数据下,能够有效地对长尾标签进行自动分配。

   地址:https://arxiv.org/pdf/2409.07730


28. 基于涂鸦引导的扩散模型在文本到图像生成中的应用

   标题:Scribble-Guided Diffusion for Training-free Text-to-Image Generation

   机构:韩国科学技术院

   相关领域:模型结构改进、多模态

   作者:Seonho Lee,  Jiho Choi,  Seohyun Lim

   分析:针对文本到图像的扩散模型难以完全捕捉用户意图的问题,本文提出了一种基于涂鸦引导的扩散模型(ScribbleDiff)。该模型通过用户提供的简单涂鸦作为视觉提示来指导图像生成,实现了训练自由。通过引入时刻对齐和涂鸦传播技术,解决了涂鸦稀疏和难以确保准确方向对齐的挑战。在PASCAL-Scribble数据集上的实验结果表明,该模型在空间控制和一致性方面取得了显著改进。

   地址:https://arxiv.org/pdf/2409.08026

   代码:https://github.com/kaist-cvml-lab/scribble-diffusion


29. 视觉基础模型是否增强了医学图像分割领域的域泛化能力?

   标题:Do Vision Foundation Models Enhance Domain Generalization in Medical Image Segmentation?

   机构:苏黎世联邦理工学院

   相关领域:模型结构改进、预训练、模型评估

   作者:Kerem Cekmeceli,  Meva Himmetoglu,  Guney I. Tombak

   分析:这篇论文主要探讨了视觉基础模型(FMs)在医学图像分割领域的域泛化能力。研究通过引入多种基础模型,并在不同数据集上进行精细化调整实验,验证了基础模型在医学图像分割中的有效性,特别是在域泛化性能方面的优势。此外,论文还介绍了一种新型解码头架构HQHSAM,该架构结合了两种先进的解码头元素,以提高分割性能。研究结果表明,基础模型,特别是配合HQHSAM解码头,能够提升医学图像分割的域泛化性能,为未来的相关研究提供了坚实基础。

   地址:https://arxiv.org/pdf/2409.07960

   代码:https://github.com/kerem-cekmeceli/Foundation-Models-for-Medical-Imagery


30. 面向遥感图像的开放词汇语义分割

   标题:Open-Vocabulary Remote Sensing Image Semantic Segmentation

   机构:上海交通大学

   相关领域:模型结构改进、预训练、指令微调、奖励模型

   作者:Qinglong Cao,  Yuntian Chen,  Chao Ma

   分析:该论文提出了一种针对遥感图像的开放词汇语义分割方法。该方法摒弃了传统基于视觉-语言模型的方法,并引入了旋转聚合相似度计算模块来处理遥感图像中快速变化的角度问题,同时通过多尺度图像特征的融合来解决显著的尺度变化问题。此外,作者还建立了首个面向遥感图像的开放词汇语义分割公开数据集,并进行了广泛的实验验证。

   地址:https://arxiv.org/pdf/2409.07683

   代码:https://github.com/caoql98/OVRS


31. 利用合成图像数据增强犬类骨骼肌肉系统诊断:AI模型的视觉文档预训练

   标题:Enhancing Canine Musculoskeletal Diagnoses: Leveraging Synthetic Image Data for Pre-Training AI-Models on Visual Documentations

   机构:科隆莱茵应用技术大学

   相关领域:数据集构建、模型评估

   地址:https://arxiv.org/pdf/2409.08181


32. LT3SD: 潜在树用于3D场景扩散

   标题:LT3SD: Latent Trees for 3D Scene Diffusion

   机构:慕尼黑工业大学

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2409.08215


33. AnySkin: 随插随用的触觉传感技术

   标题:AnySkin: Plug-and-play Skin Sensing for Robotic Touch

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2409.08276

   代码:https://any-skin.github.io/


34. 音频知识增强语言模型:AudioBERT

   标题:AudioBERT: Audio Knowledge Augmented Language Model

   相关领域:模型评估、数据集构建、多模态

   地址:https://arxiv.org/pdf/2409.08199

   代码:https://github.com/HJ-Ok/AudioBERT


35. From Explanations to Action:一种零样本,理论驱动的LLM框架为学生表现反馈

   标题:From Explanations to Action: A Zero-Shot, Theory-Driven LLM Framework for Student Performance Feedback

   机构:瑞士洛桑联邦理工学院

   地址:https://arxiv.org/pdf/2409.08027


36. 对话式人工智能系统中创意评估的数学框架

   标题:A Novel Mathematical Framework for Objective Evaluation of Ideas using a Conversational AI (CAI) System

   机构:印度科学院

   相关领域:模型结构改进、预训练、指令微调、奖励模型

   地址:https://arxiv.org/pdf/2409.07578


37. 提升文本引导的缺失修复技术

   标题:Improving Text-guided Object Inpainting with Semantic Pre-inpainting

   相关领域:模型结构改进、文本引导修复

   地址:https://arxiv.org/pdf/2409.08260

   代码:https://github.com/Nnn-s/CATdiffusion


38. 基于惊讶度理论的阅读时长预测视角:对语境交互的新理解

   标题:On the Role of Context in Reading Time Prediction

   机构:苏黎世大学

   相关领域:模型解读,阅读理解,语言预测

   地址:https://arxiv.org/pdf/2409.08160


39. 零样本大模型生成的文本检测

   标题:Zero-Shot Machine-Generated Text Detection Using Mixture of Large Language Models

   机构:索邦大学

   地址:https://arxiv.org/pdf/2409.07615


40. TextBoost:通过微调文本编码器实现文本到图像模型的一次性个性化生成

   标题:TextBoost: Towards One-Shot Personalization of Text-to-Image Models via Fine-tuning Text Encoder

   机构:韩国科学技术院

   相关领域:模型结构改进、指令微调

   地址:https://arxiv.org/pdf/2409.08248


41. Securing Large Language Models:解决偏见、误导信息和提示攻击问题

   标题:Securing Large Language Models: Addressing Bias, Misinformation, and Prompt Attacks

   机构:乔治亚理工学院

   相关领域:模型评估

   地址:https://arxiv.org/pdf/2409.08087


42. Tidal MerzA:结合情感建模和自主代码生成的强化学习

   标题:Tidal MerzA: Combining affective modelling and autonomous code generation through Reinforcement Learning

   机构:伦敦玛丽女王大学

   地址:https://arxiv.org/pdf/2409.07918


43. Bridging Discrete and Continuous:多模态策略用于复杂情感检测

   标题:Bridging Discrete and Continuous: A Multimodal Strategy for Complex Emotion Detection

   机构:伦敦玛丽女王大学

   相关领域:多模态

   地址:https://arxiv.org/pdf/2409.07901


44. SURGIVID:注释高效的手术视频对象发现

   标题:SURGIVID: Annotation-Efficient Surgical Video Object Discovery

   机构:慕尼黑工业大学、约翰霍普金斯大学

   相关领域:模型结构改进、数据集构建

   地址:https://arxiv.org/pdf/2409.07801


45. 偏好优化对齐技术在提高大模型安全性方面的应用

   标题:Alignment with Preference Optimization Is All You Need for LLM Safety

   机构:阿布扎比科技创新研究所

   相关领域:模型评估、奖励模型

   地址:https://arxiv.org/pdf/2409.07772


46. Reimagining Linear Probing:Kolmogorov-Arnold网络在迁移学习中的应用

   标题:Reimagining Linear Probing: Kolmogorov-Arnold Networks in Transfer Learning

   机构:哥伦比亚大学、Duke University

   相关领域:模型结构改进、预训练

   地址:https://arxiv.org/pdf/2409.07763


47. 更全面的缺失值处理基准:负责任的缺失值填补基准测试

   标题:Still More Shades of Null: A Benchmark for Responsible Missing Value Imputation

   机构:纽约大学

   相关领域:模型评估、数据集构建

   地址:https://arxiv.org/pdf/2409.07510


48. 绘画与音乐的桥梁 -- 探索基于情感的音乐生成通向绘画

   标题:Bridging Paintings and Music -- Exploring Emotion based Music Generation through Paintings

   机构:伦敦玛丽女王大学

   相关领域:模型结构改进、数据集构建、评估指标

   地址:https://arxiv.org/pdf/2409.07827


49. LLM Honeypot:利用大模型作为高级互动蜜罐系统

   标题:LLM Honeypot: Leveraging Large Language Models as Advanced Interactive Honeypot Systems

   相关领域:模型结构改进、预训练

   地址:https://arxiv.org/pdf/2409.08234


50. SDformer:高效端到端Transformer用于深度补全

   标题:SDformer: Efficient End-to-End Transformer for Depth Completion

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2409.08159


51. 多模态学习缺失模态的综述

   标题:A Comprehensive Survey on Deep Multimodal Learning with Missing Modality

   相关领域:多模态学习,深度学习,缺失模态处理

   地址:https://arxiv.org/pdf/2409.07825


52. RAGent:基于检索的访问控制策略生成

   标题:RAGent: Retrieval-based Access Control Policy Generation

   机构:皇家墨尔本理工大学

   相关领域:访问控制、自动生成、语言模型、策略优化

   地址:https://arxiv.org/pdf/2409.07489


53. 视觉语言模型中的组合对齐

   标题:ComAlign: Compositional Alignment in Vision-Language Models

   相关领域:模型结构改进、预训练、指令微调

   地址:https://arxiv.org/pdf/2409.08206


54. MagicStyle: 基于参考图像的风格化画像

   标题:MagicStyle: Portrait Stylization Based on Reference Image

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2409.08156


55. 基于扩散的图像到图像转换的训练辅助噪声校正

   标题:Diffusion-Based Image-to-Image Translation by Noise Correction via Prompt Interpolation

   相关领域:图像转换,扩散模型

   地址:https://arxiv.org/pdf/2409.08077


56. DiTAS:通过增强的激活平滑对扩散Transformer进行量化

   标题:DiTAS: Quantizing Diffusion Transformers via Enhanced Activation Smoothing

   机构:纽约大学

   相关领域:模型结构改进、模型评估

   地址:https://arxiv.org/pdf/2409.07756


57. 基于增强直接反馈对齐的脉冲神经网络训练

   标题:Training Spiking Neural Networks via Augmented Direct Feedback Alignment

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2409.07776


58. 基础模型提升低级别感知相似性度量研究

   标题:Foundation Models Boost Low-Level Perceptual Similarity Metrics

   相关领域:模型评估、数据集构建

   地址:https://arxiv.org/pdf/2409.07650


59. Understanding Foundation Models:我们回到了1924年吗?

   标题:Understanding Foundation Models: Are We Back in 1924?

   地址:https://arxiv.org/pdf/2409.07618


60. 令牌图灵机是一种高效的视觉模型

   标题:Token Turing Machines are Efficient Vision Models

   机构:普渡大学、麻省理工学院

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2409.07613


61. 对象反驳无效!普通人可以区分大模型与律师,但仍偏向LLM的建议

   标题:Objection Overruled! Lay People can Distinguish Large Language Models from Lawyers, but still Favour Advice from an LLM

   相关领域:模型评估

   地址:https://arxiv.org/pdf/2409.07871


62. 视频问答(VideoQA)

   标题:Multi-object event graph representation learning for Video Question Answering

   地址:https://arxiv.org/pdf/2409.07747


今天的论文分享完啦,欢迎👏🏻👏🏻明天再来~

AI for Research
每天分享最新最热的Arxiv论文、一起来关注大模型、AIGC、AGI
 最新文章