通过学习动态揭示LLM推理中的泛化能力 | 大模型训练数据的调查报告 | 有效且精确的提示优化：记忆中例子的好处....

文摘 2024-11-13 19:57 广东

前言：论文可以让你更快地了解最新研究进展，掌握最新的技术和理论。这对于自身的科研能力和竞争力非常重要，尤其是在快速发展的学科领域，下面小编带你来看大模型最近的研究成果。

1. 学习动态揭示了大模型推理中的泛化能力是什么？

标题：What Do Learning Dynamics Reveal About Generalization in LLM Reasoning?

机构：UC伯克利分校

关键词：大型语言模型、泛化能力、预记忆训练精度、数据集优化

作者：Katie Kang, Amrith Setlur, Dibya Ghosh

分析：这篇论文旨在更好地理解大型语言模型（LLM）的微调学习动态如何影响下游任务的泛化能力。论文以推理任务为分析重点，研究模型在训练过程中的记忆和性能表现，并发现了一种名为“预记忆训练精度”的训练指标，该指标能有效表征模型的泛化行为。同时，论文还探讨了该指标在数据优化策略中的应用，并展示了其提高数据效率的优势。

地址：https://arxiv.org/pdf/2411.07681

2. 测试时训练对于抽象推理的有效性

标题：The Surprising Effectiveness of Test-Time Training for Abstract Reasoning

机构：麻省理工学院

作者：Ekin Akyürek, Mehul Damani, Linlu Qiu

分析：本文研究了测试时训练(Test-Time Training,TTT)对于提高语言模型的推理能力的有效性。通过在推理过程中根据输入数据动态更新模型参数，该论文发现TTT可以显著提高模型在抽象推理任务上的表现。该论文的实验结果表明，TTT在Abstraction and Reasoning Corpus (ARC)任务上的性能提升可以达到6倍，而且即使应用到一个8亿参数的大规模语言模型上，也能使其在ARC公共验证集上的准确率提高到53%,接近于纯神经方法的最高水平。此外，该论文还发现，TTT的效果主要依赖于三个关键因素：1)在类似任务上的初始微调；2)辅助任务格式和增强；3)每个实例的训练。这些发现为该论文进一步改进模型的推理能力提供了重要的指导。

地址：https://arxiv.org/pdf/2411.07279

3. 大模型训练数据的调查报告

标题：Training Data for Large Language Model

关键词：大型语言模型、数据集构建、预训练数据、人工注释

作者：Yiming Ju, Huanhuan Ma

分析：2022年，随着ChatGPT的发布，大规模语言模型受到了广泛关注。ChatGPT不仅在参数量和预训练语料库规模上远超前代模型，还通过大量高质量的人工标注数据进行微调，实现了革命性的性能突破。此类进展使得企业和研究机构认识到，构建更智能、更强大的模型依赖于丰富且高质量的数据集。因此，数据集的建设与优化成为了人工智能领域的关键方向。本文对训练大规模语言模型所需的预训练数据和微调数据的现状进行了总结，涵盖了数据规模、搜集方式、数据类型及特点、处理流程等，并对当前可用的开源数据集进行了梳理和介绍。

地址：https://arxiv.org/pdf/2411.07715

4. 基于Top-nσ采样的自然语言处理新策略

标题：Top-n\sigma: Not All Logits Are You Need

机构：中国科学技术大学

关键词：Top-nσ采样、大型语言模型、推理任务、采样方法

作者：Chenxia Tang, Jianchun Liu, Hongli Xu

分析：论文提出了一种新型的采样方法Top-nσ，直接对预softmax对数几率进行操作，通过统计阈值进行高效的令牌过滤，解决了大型语言模型在推理任务中多样性和准确性之间的权衡问题。实验结果表明，该方法在四个推理数据集上的性能优于现有采样方法和贪婪解码，即使在高温尺度下也能保持稳定的性能。

地址：https://arxiv.org/pdf/2411.07641

5. 有效且精确的提示优化：记忆中例子的好处

标题：Efficient and Accurate Prompt Optimization: the Benefit of Memory in Exemplar-Guided Reflection

机构：字节跳动、浙江大学、北京航空航天大学

关键词：提示优化、例行反馈、模型性能提升、例子的好处

作者：Cilin Yan, Jingyun Wang, Lin Zhang

分析：这篇论文主要探讨了如何提高大型语言模型（LLMs）的生成质量。具体来说，它提出了一种名为Exemplar-Guided Reflection with Memory（ERM）的机制，该机制能够在提示优化中实现更高效和准确的性能提升。ERM通过在反馈生成中额外结合生成的例子的方式，设计了一个例行反馈机制。此外，该论文还构建了两种类型的记忆，以充分利用历史反馈信息，并支持更有效的例行检索。通过实证评估，ERM方法在LIAR数据集上提高了10.1个F1分数点，并且在ProTeGi上减少了优化步骤的一半，显示了其在优化步骤方面 surpasses（超越）了先前的最佳方法。

地址：https://arxiv.org/pdf/2411.07446

6. InvisMark: 用于AI生成图片源头验证的隐形和稳健标记

标题：InvisMark: Invisible and Robust Watermarking for AI-generated Image Provenance

机构：微软

关键词：InvisMark、AI生成图片、水印技术、隐形标记

作者：Rui Xu, Mengya Hu, Deren Lei

分析：随着AI生成图片的广泛应用，对高质量内容鉴别的需求日益增长。本文提出了‘InvisMark’，一种为高分辨率AI生成图片设计的独创性水印技术。InvisMark采用高级神经网络架构和训练策略，巧妙地嵌入了几乎不可察觉但极其稳健的水印。该方法在清晰度（PSNR≈51，SSIM ≈ 0.998）和各种图像操作下，保持了超过97%的位准确率，能成功封装256位的水印。这使得可以嵌入包含错误校正码的UUID，即使在困难的图像变形下也能实现几乎完美的解码成功率。此外，文章还解决了针对高科技攻击的潜在风险，并提出了应对策略。通过结合极高的隐形性、扩展的载荷容量和对られ信息操作的韧性，InvisMark为确保媒体源头在日益复杂的AI生成内容时代提供了坚实的基础。

地址：https://arxiv.org/pdf/2411.07795

代码：https://github.com/microsoft/InvisMark

7. 基于 CTC 压缩器的联合语音和文本训练解码器自动语音识别技术研究

标题：CJST: CTC Compressor based Joint Speech and Text Training for Decoder-Only ASR

机构：Meta AI

关键词：CTC压缩机、联合语音和文本训练、自动语音识别、模态适配器

作者：Wei Zhou, Junteng Jia, Leda Sari

分析：该论文提出了一种基于 CTC（连接时序分类）压缩器的联合语音和文本训练（CJST）框架，旨在提高仅含解码器的自动语音识别（ASR）系统的性能。研究内容包括：探索简单模态适配器和CTC压缩器的多种特性，如序列压缩、即时强制峰值对齐和CTC类别嵌入等。实验结果表明，该框架在Librispeech和TED-LIUM2语料库上实现了有效的文本注入，无需处理持续时间，可在域内和跨域场景下实现最佳性能。此外，论文还全面研究了CTC压缩器在不同压缩模式下的表现，包括处理边缘情况和在干净和嘈杂数据条件下的行为等。

地址：https://arxiv.org/pdf/2411.07607

8. SecEncoder：日志是你所需的安全保障

标题：SecEncoder: Logs are All You Need in Security

机构：微软

关键词：SecEncoder、安全日志、预训练、语言模型、性能优化

作者：Muhammed Fatih Bulut, Yingqi Liu, Naveed Ahmad

分析：这篇论文介绍了一种专门用于安全领域的小型语言模型——SecEncoder。SecEncoder通过利用安全日志进行预训练，解决了通用语言模型在特定领域任务上的局限性。实验结果表明，SecEncoder在不同任务上的性能优于其他主要基于自然语言预训练的大型语言模型。此外，尽管SecEncoder主要基于日志数据进行预训练，但在日志分析、事件优先级排序和威胁情报文档检索等任务之外的任务上，其性能也表现优异。这为未来研究特定于安全的语言模型及其潜在应用打开了道路。

地址：https://arxiv.org/pdf/2411.07528

9. RedCode：风险代码执行及生成基准，针对代码代理的安全评估

标题：RedCode: Risky Code Execution and Generation Benchmark for Code Agents

机构：微软研究院、伊利诺伊大学、弗吉尼亚理工学院

关键词：模型安全评估、代码代理、风险代码生成

作者：Chengquan Guo, Xun Liu, Chulin Xie

分析：面对AI辅助编程中代码代理能力的迅速增长及其在实际应用中带来的安全挑战，比如生成或执行潜在危险的代码，开始了全面且实用的安全评估。此研究提出了一套名为'红码'的投资组合模型旨在从两个角度评价代码代理的安全性：红码-执行、红码-生成。前者提供了能导致风险代码执行的挑战性指令提示，用于评估代理是否能识别并妥善处理不可信任代码，涵盖了Python和Bash领域的25种关键漏洞类型。后者接收包含函数签名和文档说明输入，以监测代理是否遵循指示生成有害代码。通过评估三个基于19个大型语言模型的框架，研究揭示了代理系统的安全脆弱性，例如代理更可能拒绝执行对操作系统造成风险的操作，但不太可能拒绝执行存在技术错误的代码，导致风险较高。自然文本中的描述导致执行风险低于代码格式中的描述，以及更强大的基模或编码能力较强的代理（如GPT4）更有可能产生更复杂高效的有害软件。该成果强调了对多样化代码代理进行严格安全评估的重要性，相关数据集和代码可在指定URL获取。

地址：https://arxiv.org/pdf/2411.07781

代码：https://github.com/AI-secure/RedCode

10. Trustful LLMs：利用知识库和双解码器定制和固化文本生成

标题：Trustful LLMs: Customizing and Grounding Text Generation with Knowledge Bases and Dual Decoders

机构：微软

关键词：知识库、双解码器、幻觉检测、文本生成

作者：Xiaofeng Zhu, Jaya Krishna Mandivarapu

分析：这篇论文探讨了如何使大语言模型如ChatGPT在特定领域生成准确的、事实依据的文本内容。主要解决的问题是确保生成内容在特定领域的准确性和扎根，以避免生成内容的不完整性和潜在的幻觉。为此，论文提出了一个后处理算法，该算法利用RAG上下文中的知识三元组来纠正幻觉，以及一个结合RAG上下文的双解码器模型来指导生成过程。

地址：https://arxiv.org/pdf/2411.07870

11. 学习增强残差层：LAUREL

标题：LAUREL: Learned Augmented Residual Layer

机构：谷歌研究院

关键词：残差连接、模型结构改进、学习增强残差层

作者：Gaurav Menghani, Ravi Kumar, Sanjiv Kumar

分析：这篇论文主要介绍了一种新的残差连接的扩展形式——学习增强残差层(LAuReL)。这种新型的残差连接不仅可以替代传统的残差连接，而且在模型性能和占用空间上都优于传统的残差连接。实验结果表明，使用LAuReL可以显著提高视觉和语言模型的性能。例如，在ResNet-50、ImageNet 1K任务上，使用LAuReL比添加额外层带来60%的性能提升，同时只增加了0.003%的参数数量，并减少了2.6倍的参数数量。

地址：https://arxiv.org/pdf/2411.07501

12. BLIP3-KALE：知识增强的大规模密集图像描述数据集

标题：BLIP3-KALE: Knowledge Augmented Large-Scale Dense Captions

机构：华盛顿大学、斯坦福大学、UC伯克利分校

关键词：图像文本对数据集、知识增强、视觉语言模型

作者：Anas Awadalla, Le Xue, Manli Shu

分析：论文介绍了一个名为BLIP3-KALE的大规模图像文本对数据集，该数据集旨在缩小描述性合成字幕和事实网络级替代文本之间的差距。KALE通过结合合成密集图像字幕和网络级替代文本，生成基于事实的图像字幕。论文采用两阶段方法，利用大型视觉语言模型和语言模型创建知识增强字幕，然后用于训练专门用于扩展数据集的视觉语言模型。论文在视觉语言任务上展示了使用KALE数据集训练的模型性能的提升。

地址：https://arxiv.org/pdf/2411.07461

代码：https://huggingface.co/datasets/Salesforce/blip3-kale

13. 扩散模型在感知任务中的扩展现状

标题：Scaling Properties of Diffusion Models for Perceptual Tasks

机构：UC伯克利分校

关键词：扩散模型、视觉感知、模型结构改进、效率提升

作者：Rahul Ravishankar, Zeeshan Patel, Jathushan Rajasegaran

分析：这篇论文主张使用迭代计算的扩散模型不仅适用于生成，还适用于视觉感知任务。研究者们将深度估计、光学流计算和分割等任务统一到图像到图像的转换框架下，并展示了扩散模型通过扩大训练和测试时的计算资源，能在视觉感知任务上获得性能提升。通过深入分析扩展现状，论文提出了多种高效训练扩散模型用于视觉感知任务的技术。该模型能利用更少的数据和计算资源获得改进或相当的性能，与当前先进方法媲美。欲了解更多详情和获取代码及模型，请访问 https://scaling-diffusion-perception.github.io 。

地址：https://arxiv.org/pdf/2411.08034

14. 基于RoPE的Transformer架构的电路复杂性界限

标题：Circuit Complexity Bounds for RoPE-based Transformer Architecture

机构：香港大学、威斯康星大学、华南理工大学

关键词：RoPE、Transformer、电路复杂性、模型表达能力

作者：Bo Chen, Xiaoyu Li, Yingyu Liang

分析：论文探讨了Transformer架构的表达能力，并提出了RoPE在大型语言模型中的应用，揭示了RoPE在长文本场景中的优势。论文通过电路复杂性分析，评估了RoPE-based Transformer在解决特定计算问题时的局限性，为RoPE在Transformer中的应用提供了理论指导。

地址：https://arxiv.org/pdf/2411.07602

15. LLMPhy：使用大模型和世界模型进行复杂物理推理

标题：LLMPhy: Complex Physical Reasoning Using Large Language Models and World Models

机构：剑桥大学、麻省理工学院

关键词：大型语言模型、物理推理、零样本、黑盒优化

作者：Anoop Cherian, Radu Corcodel, Siddarth Jain

分析：本文提出了一项新的物理推理任务和数据集：TraySim，旨在通过使用大型语言模型（LLMs）以及现代物理引擎内置的世界模型来解决在真实世界中操作的机器人代理可能遇到的物理推理问题。具体任务是预测在外部冲击下放置于托盘上的多个物体的动态行为，目标是推断冲击后物体的稳定性。为了解决这一复杂物理推理问题，文章介绍了LLMPhy框架，这是一种零样本黑盒优化框架，它利用了LLM的物理知识和程序合成能力，同时将其与物理引擎的世界模型相结合。该框架利用LLM生成代码，通过循环迭代逐步估计系统（如摩擦、阻尼、布局等）的物理超参数，并使用这些参数来展现场景的动态以解决推理任务。通过实验对TraySim数据集的预测效果，证明了LLMPhy结合LLM和物理引擎可以获得最先进的零样本物理推理性能，并展现出对标准的黑箱优化方法更优的收敛性和更高的物理参数估计准确性。

地址：https://arxiv.org/pdf/2411.08027

16. 面向张量并行LLM推理的低比特通信研究

标题：Towards Low-bit Communication for Tensor Parallel LLM Inference

机构：Apple、卡内基梅隆大学

关键词：张量并行、LLM推理、量化方法、通信效率

作者：Harry Dong, Tyler Johnson, Minsik Cho

分析：这篇论文研究张量并行LLM推理中的通信效率问题。随着服务器大型语言模型（LLM）规模的扩大，需要在更多设备上进行分布式处理，导致通信成本增加。论文提出了一种量化方法，利用通信特征的恒定异常值来降低通信值，将原本的16位降低至4.2位，同时几乎保持原始性能。该方法在评估的所有任务上，对Gemma 2 27B和Llama 2 13B模型的性能保持率分别为98.0%和99.5%。

地址：https://arxiv.org/pdf/2411.07942

17. 像素空间扩散模型的新颖视图合成

标题：Novel View Synthesis with Pixel-Space Diffusion Models

机构：Apple

作者：Noam Elata, Bahjat Kawar, Yaron Ostrovsky-Berman

分析：这篇论文主要探讨了如何利用现代扩散模型架构来实现端到端的新颖视图合成。他们通过在像素空间中探索不同的方法来编码几何信息，并发现这些方法虽然可以提高性能，但是相比于使用改进的生成模型，其影响较小。此外，他们还提出了一种新的新颖视图合成训练方案，利用单视图数据集进行训练，从而提高了对域外内容的泛化能力。

地址：https://arxiv.org/pdf/2411.07765

18. Spider 2.0: Evaluating Language Models on Real-World Enterprise Text-to-SQL Workflows 中文翻译

标题：Spider 2.0: Evaluating Language Models on Real-World Enterprise Text-to-SQL Workflows

机构：香港大学、Sea AI实验室、Salesforce研究院

关键词：语言模型、文本到SQL、企业级数据库、Spider 2.0评估框架

作者：Fangyu Lei, Jixuan Chen, Yuxiao Ye

分析：本研究介绍了一种名为Spider 2.0的评估框架，包含632个源自企业级数据库的实际文本到SQL的工作流程问题，旨在解决语言模型在处理真实世界文本到SQL任务中的能力问题。这些问题需要理解复杂数据库信息，处理大量的SQL查询和多种数据处理操作。研究表明，尽管语言模型在代码生成方面表现出色，但它们在应对真实企业场景时仍需显著提升。

地址：https://arxiv.org/pdf/2411.07763

代码：https://spider2-sql.github.io

19. 半真实: AI增强图像的大规模数据集，用于评估AI生成图像检测器的稳健性

标题：Semi-Truths: A Large-Scale Dataset of AI-Augmented Images for Evaluating Robustness of AI-Generated Image detectors

机构：斯坦福大学、乔治亚理工学院

关键词：AI生成图像检测器、稳健性评估、数据集构建、增强图像

作者：Anisha Pal, Julia Kruk, Mansi Phute

分析：这篇论文关注AI生成图像检测器的稳健性问题。通过引入SEMI-TRUTHS数据集，包含真实图像、掩膜和AI增强图像，论文探讨了检测器对不同级别增强图像、特定场景和数据分布的识别能力。研究发现，现有检测器对扰动类型和程度、数据分布和增强方法存在不同敏感性，这有助于深入了解其性能和局限性。

地址：https://arxiv.org/pdf/2411.07472

代码：https://github.com/J-Kruk/SemiTruths

20. 大模型的上下文知识检索改进字形到音素的转换

标题：Improving Grapheme-to-Phoneme Conversion through In-Context Knowledge Retrieval with Large Language Models

机构：麻省理工学院、香港中文大学

关键词：大型语言模型，上下文知识检索，字形到音素转换，文本到语音系统

作者：Dongrui Han, Mingyu Cui, Jiawen Kang

分析：这篇论文主要研究了字形到音素转换（G2P）的问题，这是文本到语音（TTS）系统中的关键步骤。论文提出了一个利用大型语言模型（LLM）的上下文知识检索（ICKR）能力的系统，以提高G2P转换的解歧义能力。该系统在Librig2p数据集上的表现得到了验证，使用GPT-4的ICKR系统能够进一步提高性能。

地址：https://arxiv.org/pdf/2411.07563

21. Tracing the Roots：利用时间动态在扩散轨迹中进行原位归因

标题：Tracing the Roots: Leveraging Temporal Dynamics in Diffusion Trajectories for Origin Attribution

机构：Apple、帝国理工学院

作者：Andreas Floros, Seyed-Mohsen Moosavi-Dezfooli, Pier Luigi Dragotti

分析：这篇论文主要研究了扩散模型，这是一种迭代算法，从纯噪声开始逐步生成样本。这种过程引入了扩散轨迹的概念，也就是从标准高斯分布到目标图像分布的路径。在这个背景下，该论文研究了在这些轨迹上操作的判别算法。具体来说，给定一个预训练的扩散模型，该论文考虑的问题是将图像分类为模型生成的训练数据集的一部分，还是来源于外部源的数据。该论文的方法展示了在步骤之间存在可以利用以进行分类的模式。该论文还进行了消融研究，揭示了使用更高阶梯度特征来描述轨迹可以带来显著的性能提升和更健壮的算法。

地址：https://arxiv.org/pdf/2411.07449

22. Reliable-loc：基于可信线索的激光雷达全球定位技术

标题：Reliable-loc: Robust sequential LiDAR global localization in large-scale street scenes based on verifiable cues

机构：武汉大学、南洋理工大学

关键词：激光雷达、全球定位、可信线索、灵活路径定位

作者：Xianghong Zou, Jianping Li, Weitong Wu

分析：该论文提出了一种基于可信线索的激光雷达全球定位方法（Reliable-loc），它利用序列激光雷达数据中的信息来进行灵活的路径定位，这些信息来自佩戴式激光扫描系统，对于步行导航、协作式制图、增强现实和紧急救援等领域有着巨大需求。然而，现有技术在处理大型户外复杂场景时表现出不足，尤其是在特征不丰富和地图覆盖不全面的情况下。该论文通过调整粒子权重以避免错误的区域收敛，提出了一种基于空间可信线索的蒙特卡洛定位，并采用时间可信线索动态切换定位模式，以避免定位系统的失效。实验在包括车辆搭载的移动激光扫描和头盔搭载的穿戴式激光雷达的超过20公里的大型场景中进行，结果表明该方法在大规模复杂场景中表现出了高鲁棒性、准确性和实时性，定位精度为1.66米，偏航精度为3.09度。

地址：https://arxiv.org/pdf/2411.07815

代码：https://github.com/zouxianghong/Reliable-loc

23. 基于层次多实例学习的精细全滑图像分类方法

标题：HMIL: Hierarchical Multi-Instance Learning for Fine-Grained Whole Slide Image Classification

机构：北京大学、香港科技大学、香港中文大学

关键词：层次多实例学习、精细分类、全滑图像分类、肿瘤诊断

作者：Cheng Jin, Luyang Luo, Huangjing Lin

分析：本文提出一种层次多实例学习（HMIL）框架，用于精细全滑图像分类。该框架解决了在精确肿瘤学中对全滑图像进行精细分类的核心问题，通过对同一大类图像中的细微形态差异进行区分来做出精确诊断和个性化治疗策略。HMIL结合了多层次标签的层次关系，采用类感知机制，实现了实例和包级别的层次对齐。同时，引入对比学习增强判别能力，并通过课程动态加权模块自适应平衡层次特征的训练过程。实验结果表明，HMIL框架在宫颈癌细胞学大数据集和其他两个公共组织学数据集上取得了最先进的分类效果。

地址：https://arxiv.org/pdf/2411.07660

代码：https://github.com/ChengJin-git/HMIL

24. 揭开Transformer架构的梯度下降动态

标题：Unraveling the Gradient Descent Dynamics of Transformers

机构：Amazon

关键词：Transformer架构、梯度下降、损失景观

作者：Bingqing Song, Boran Han, Shuai Zhang

分析：该研究围绕 Transformer 架构的优化动态展开了深入探讨，旨在填补这一领域的理论根基未够完善的空白。作者通过解析单层 Transformer 使用 Softmax 和高斯注意力函数时的损失景观，力图回答两个核心问题：（1）哪些类型的 Transformer 架构能够让梯度下降算法实现有保证的收敛？（2）在什么初始条件和架构细节下，Transformer 可以实现快速训练？发现适当的权重初始化下，无论是 Softmax 关键还是高斯关键的 Transformer 模型均能在大输入嵌入维度的情况下训练至全局最优解。然而，使用 Softmax 关键训练的 Transformer 有时可能陷入次最优局部解的情况存在。相较于而言，高斯关键展现出更优的行为。理论 findings 在实验研究中得到了验证。

地址：https://arxiv.org/pdf/2411.07538

25. Learning with Less：通过非标数据从大模型进行知识精馏

标题：Learning with Less: Knowledge Distillation from Large Language Models via Unlabeled Data

机构：Amazon、密歇根州立大学

关键词：知识精馏、未标记数据、大型语言模型、模型蒸馏

作者：Juanhui Li, Sreyashi Nag, Hui Liu

分析：这篇论文探讨了利用大型语言模型（LLMs）来解决自然语言处理（NLP）实际应用中的问题，并介绍了使用未标记数据和从LLMs获取知识来训练小型模型的方法。主要关注如何提取LLMs的知识应用于小型模型上，以实现知识精馏，并优化资源使用效率。论文提出的方法LLKD优先选择老师展示高置信度标签和学生展示高信息需求的样本，以提高模型性能与数据效率。

地址：https://arxiv.org/pdf/2411.08028

26. IdentifyMe: 一个具有挑战性的长文提及解析基准

标题：IdentifyMe: A Challenging Long-Context Mention Resolution Benchmark

机构：英伟达

关键词：语言模型评估、提及解析基准、模型性能差距、代名词提及

作者：Kawshik Manikantan, Makarand Tapaswi, Vineet Gandhi

分析：本文针对语言模型recent evaluations上的参照理解不足的问题引入了新的基准——IdentifyMe。该基准采用多选题（MCQ）格式，特别设计用于评估长叙述中的提及解析，包括通过技巧排除易识别的提及以增加任务难度。Benchmark包含了不同类型的提及及其对应的实体的混合，以便详细分析模型的表现。通过评估开放源和封闭源模型，本文发现最先进的开放模型与封闭模型之间存在显著性能差距（为20-30%），特别是对于具有有限表面信息的代名词提及，模型较难处理。同时，当实体在嵌套结构中出现重叠，模型常常出现混淆。最高性能的模型GPT-4o只达到81.9%的准确率，这表明顶级语言模型在参照理解方面有着强大的能力，但仍有改进空间。

地址：https://arxiv.org/pdf/2411.07466

27. 推导形态揭示大模型中的类比泛化

标题：Derivational Morphology Reveals Analogical Generalization in Large Language Models

机构：牛津大学、慕尼黑大学、艾伦AI研究所

关键词：大型语言模型，类比泛化，规则基础模型，推导形态，名词化

作者：Valentin Hofmann, Leonie Weissweiler, David Mortensen

分析：这篇论文主要探讨了大型语言模型（LLM）的类比泛化机制。通过对比规则基础和类比学习模型，研究发现在处理形容词名词化时，类比模型能更好地解释LLM的泛化能力，特别是对于具有可变名词化模式的形容词。此外，论文还研究了LLM对个别词汇频率的敏感性，发现即使是常规形式，其表现也与类比账户一致，而非规则账户。这些发现表明，类比过程在LLM的语言泛化中扮演了更重要的角色。

地址：https://arxiv.org/pdf/2411.07990

28. HiCoM：适用于流式动态场景的分层一致运动与3D高斯喷射

标题：HiCoM: Hierarchical Coherent Motion for Streamable Dynamic Scene with 3D Gaussian Splatting

机构：北京大学、鹏城实验室

关键词：3D高斯喷射、动态场景重建、学习效率、存储效率

作者：Qiankun Gao, Jiarui Meng, Chengxiang Wen

分析：这篇论文提出了一种名为HiCoM的框架，用于高效地从多视图流视频中在线重建动态场景。该框架解决了3D高斯喷射在存储效率和过拟合问题中的不足，通过改进的3DGS表示、分层一致运动学习机制以及持续优化的3DGS来提高学习效率和存储效率。

地址：https://arxiv.org/pdf/2411.07541

29. ASER：大模型量化中的激活平滑和错误重建

标题：ASER: Activation Smoothing and Error Reconstruction for Large Language Model Quantization

机构：阿里巴巴集团

关键词：大型语言模型量化、激活平滑、误差重建、低秩补偿

作者：Weibo Zhao, Yubin Shi, Xinyu Lyu

分析：本文主要研究如何更有效地实现大型语言模型的大位数量化，并在此过程中处理模型在数值映射限制下产生的复杂误差，从而避免性能的大幅度下降。通过对模型在训练后进行量化时各层误差分布的研究，提出了一项名为ASER的算法，包括两个关键步骤：误差重建和激活平滑。前者通过洛纳风格的矩阵进行低秩补偿，以度量标准化的奇异值分解为核心来补偿量化误差；后者则通过提取异常值来实现平滑激活，以获得更好的误差补偿。这项算法能够将常见的大型语言模型量化到较小的位数，即使在W4A8的通道设置下也能保持较高的准确性。实验结果表明，ASER在当前最先进的量化算法中具有竞争力，且具有提高激活量化的工作潜力，其应用带来的额外开销较小。

地址：https://arxiv.org/pdf/2411.07762

30. 人工智能在生物医学视频生成中的应用

标题：Artificial Intelligence for Biomedical Video Generation

机构：香港中文大学、伦敦国王学院

作者：Linyuan Li, Jianing Qiu, Anujit Saha

分析：近年来，人工智能生成内容(AIGC)中的视频生成技术取得了显著的进步。Sora类似的模型是视频生成技术的一个重要突破，极大地提高了合成视频的质量。特别是在生物医学领域，视频生成技术显示出了巨大的潜力，如医学概念解释、疾病模拟和生物医学数据增强。本文全面评估了最新的视频生成模型的发展，并探讨了它们的应用、挑战和未来在生物医学领域的机遇。该论文从各种来源收集了大量数据集，以促进生物医学领域视频生成模型的开发和评估。鉴于该领域的快速发展，该论文还创建了一个GitHub仓库，定期更新生物医学视频生成的进展：https://github.com/Lee728243228/Biomedical-Video-Generation

地址：https://arxiv.org/pdf/2411.07619

代码：https://github.com/Lee728243228/Biomedical-Video-Generation

31. AdaS&S：深度推荐系统中的一次性超网嵌入大小自动搜索方法

标题：AdaS&S: a One-Shot Supernet Approach for Automatic Embedding Size Search in Deep Recommender System

机构：腾讯

关键词：AdaS&S框架、自动嵌入大小搜索、深度推荐系统、强化学习

地址：https://arxiv.org/pdf/2411.07504

32. JanusFlow:图像理解与生成的统一模型

标题：JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation

机构：北京大学、香港大学、清华大学

关键词：图像理解、生成模型、统一模型、修正流

地址：https://arxiv.org/pdf/2411.07975

33. 快速解耦瘦张量学习用于多视图聚类

标题：Fast Disentangled Slim Tensor Learning for Multi-view Clustering

机构：南京大学

关键词：多视图聚类、张量学习、瘦张量、共识对齐

地址：https://arxiv.org/pdf/2411.07685

代码：https://github.com/dengxu-nju/DSTL

34. 线性注意力的低秩困境及其突破

标题：Breaking the Low-Rank Dilemma of Linear Attention

机构：中国科学院大学

地址：https://arxiv.org/pdf/2411.07635

代码：https://github.com/qhfan/RALA

35. ChatGPT 技术报告理解不准确降低：我们做到了吗？

标题：ChatGPT Inaccuracy Mitigation during Technical Report Understanding: Are We There Yet?

机构：约克大学

地址：https://arxiv.org/pdf/2411.07360

36. Harmonizing Pixels and Melodies：基于潜在扩散模型的电影配乐生成与风格转移

标题：Harmonizing Pixels and Melodies: Maestro-Guided Film Score Generation and Composition Style Transfer

机构：天津大学、中国科学院自动化研究所

关键词：电影配乐、潜在扩散模型、风格转移、ControlNet

地址：https://arxiv.org/pdf/2411.07539

代码：https://anonymous.4open.science/r/HPM

37. 重新思考图神经网络的架构学习

标题：Rethinking Structure Learning For Graph Neural Networks

机构：浙江大学、南洋理工大学

地址：https://arxiv.org/pdf/2411.07672

38. 检索增强生成中的可能性作为性能衡量指标的研究

标题：Likelihood as a Performance Gauge for Retrieval-Augmented Generation

机构：多伦多大学

关键词：检索增强生成、可能性、性能衡量指标、大语言模型

地址：https://arxiv.org/pdf/2411.07773

39. Leveraging Previous Steps：一种无需训练的快速求解流扩散的方法

标题：Leveraging Previous Steps: A Training-free Fast Solver for Flow Diffusion

机构：中山大学

关键词：流扩散模型，无需训练的流求解器，函数评估次数，高质量生成，模型结构改进

地址：https://arxiv.org/pdf/2411.07627

40. 解开无训练条件生成中流匹配与扩散概率模型之间的关联

标题：Unraveling the Connections between Flow Matching and Diffusion Probabilistic Models in Training-free Conditional Generation

机构：中山大学

关键词：流匹配（FM）、扩散概率模型（DPMs）、无训练条件生成、条件生成任务

地址：https://arxiv.org/pdf/2411.07625

41. 基于稀疏特征约束的偏好优化研究

标题：Direct Preference Optimization Using Sparse Feature-Level Constraints

机构：西湖大学、浙江大学、伦敦大学

关键词：特征级约束、偏好优化、大型语言模型、稀疏自编码器

地址：https://arxiv.org/pdf/2411.07618

42. 多模态临床推理中的知识增强推理生成

标题：Multimodal Clinical Reasoning through Knowledge-augmented Rationale Generation

机构：山西大学、浙江大学、香港浸会大学

关键词：多模态临床推理、知识增强注意力机制、ClinRaGen模型、电子健康记录数据

地址：https://arxiv.org/pdf/2411.07611

43. BudgetMLAgent：一种用于自动化机器学习任务的经济高效的LLM多智能体系统

标题：BudgetMLAgent: A Cost-Effective LLM Multi-Agent system for Automating Machine Learning Tasks

关键词：LLM、多智能体系统、机器学习任务自动化、成本效益

地址：https://arxiv.org/pdf/2411.07464

44. FRUGAL：通过减少状态开销实现高效内存优化的策略

标题：FRUGAL: Memory-Efficient Optimization by Reducing State Overhead for Scalable Training

机构：MBZUAI大学

关键词：FRUGAL、内存优化、梯度分割、低维更新

地址：https://arxiv.org/pdf/2411.07837

45. 零序破解: 黑盒多模态大模型的内存高效梯度法

标题：Zer0-Jack: A Memory-efficient Gradient-based Jailbreaking Method for Black-box Multi-modal Large Language Models

机构：亚利桑那州立大学

关键词：Zer0-Jack、黑盒多模态大型语言模型、内存高效梯度法、模型安全攻击

地址：https://arxiv.org/pdf/2411.07559

46. AuscultaBase：迈向人工智能驱动身体声音诊断的基础性一步

标题：AuscultaBase: A Foundational Step Towards AI-Powered Body Sound Diagnostics

机构：上海交通大学、上海AI实验室

关键词：身体声音诊断、数据整合、对比学习

地址：https://arxiv.org/pdf/2411.07547

47. dpvis：动态规划可视化与交互学习工具

标题：dpvis: A Visual and Interactive Learning Tool for Dynamic Programming

机构：南加州大学、康奈尔大学

关键词：动态规划、可视化、学习工具、递归结构

地址：https://arxiv.org/pdf/2411.07705

代码：https://github.com/itsdawei/dpvis

48. Tiny Transformer在资源受限设备上的高效联邦微调

标题：Efficient Federated Finetuning of Tiny Transformers with Resource-Constrained Devices

机构：卡尔斯鲁厄理工学院

关键词：Tiny Transformer、联邦学习、资源受限设备、层微调方案

地址：https://arxiv.org/pdf/2411.07826

49. Verbosity \neq Veracity：揭秘大模型的冗余补偿行为

标题：Verbosity \neq Veracity: Demystify Verbosity Compensation Behavior of Large Language Models

关键词：大型语言模型，冗余补偿，模型评估，生成响应，模型不确定性

地址：https://arxiv.org/pdf/2411.07858

代码：https://github.com/psunlpgroup/VerbosityLLM

50. sparkvqe: 视觉问题解释用于课程内容理解

标题：SparrowVQE: Visual Question Explanation for Course Content Understanding

关键词：视觉问题回答、VQA、视觉问题解释、VQE

地址：https://arxiv.org/pdf/2411.07516

代码：https://github.com/YoushanZhang/SparrowVQE

51. 利用生成式人工智能和多智能体提供自动反馈的研究

标题：Using Generative AI and Multi-Agents to Provide Automatic Feedback

机构：佐治亚大学

关键词：生成式人工智能、多智能体系统、自动反馈、模型评估

地址：https://arxiv.org/pdf/2411.07407

52. BeeManc团队在TAC-2024 PLABA赛道上的工作：任务1使用RoBERTa，任务2使用LLaMA3.1和GPT-4o

标题：BeeManc at the PLABA Track of TAC-2024: RoBERTa for task 1 and LLaMA3.1 and GPT-4o for task 2

机构：曼彻斯特大学

关键词：RoBERTa、LLaMA、GPT、生物医学摘要

地址：https://arxiv.org/pdf/2411.07381

代码：https://github.com/HECTA-UoM/PLABA2024

53. 可控上下文敏感性与其调节开关

标题：Controllable Context Sensitivity and the Knob Behind It

机构：康奈尔大学、瑞士洛桑联邦理工学院

关键词：上下文敏感性调节、语言模型、可控上下文、先验知识

地址：https://arxiv.org/pdf/2411.07404

54. 大模型基于因果结构的数据生成方法

标题：Language Models as Causal Effect Generators

机构：纽约大学

关键词：大语言模型、基于因果结构的数据生成、序列驱动结构因果模型、黄Seow-Lewis量轮

地址：https://arxiv.org/pdf/2411.08019

55. 朝向野生动物监测边缘的视觉专家混合模型研究

标题：Towards Vision Mixture of Experts for Wildlife Monitoring on the Edge

机构：华盛顿大学

关键词：视觉专家混合模型、野生动物监测、边缘计算、物联网

地址：https://arxiv.org/pdf/2411.07834

56. Tucano：推动葡萄牙语神经文本生成的发展

标题：Tucano: Advancing Neural Text Generation for Portuguese

关键词：葡萄牙语、神经文本生成、数据集、模型评估

地址：https://arxiv.org/pdf/2411.07854

代码：https://nkluge-correa.github.io/Tucano/

57. QR Sort：一种新型的非比较排序算法

标题：QR Sort: A Novel Non-Comparative Sorting Algorithm

机构：约翰霍普金斯大学

关键词：QR排序算法、非比较排序、商余定理、计数排序

地址：https://arxiv.org/pdf/2411.07526

58. 合成临床数据与人为偏好临床终点的对齐研究：基于强化学习的探索

标题：SynRL: Aligning Synthetic Clinical Trial Data with Human-preferred Clinical Endpoints Using Reinforcement Learning

关键词：合成临床数据、强化学习、隐私保护、数据生成

地址：https://arxiv.org/pdf/2411.07317

代码：https://anonymous.4open.science/r/SynRL-DB0F/

59. INTRABENCH：交互式放射学基准

标题：INTRABENCH: Interactive Radiological Benchmark

机构：海德堡大学

关键词：交互式分割、放射学基准、模型评估、临床试验

地址：https://arxiv.org/pdf/2411.07885

60. 基于参数化知识精化的检索增强大模型查询优化

标题：Query Optimization for Parametric Knowledge Refinement in Retrieval-Augmented Large Language Models

机构：伊利诺伊大学

关键词：大型语言模型、查询优化、检索增强生成、知识蒸馏

地址：https://arxiv.org/pdf/2411.07820

61. DuoLift-GAN:从单视图和双平面X射线中重建CT图像

标题：DuoLift-GAN:Reconstructing CT from Single-view and Biplanar X-Rays with Generative Adversarial Networks

机构：北卡罗来纳大学

地址：https://arxiv.org/pdf/2411.07941

62. 演示学习决策中的记忆机制

标题：Learning Memory Mechanisms for Decision Making through Demonstrations

关键词：记忆依赖对、Transformer、决策过程、AttentionTuner

地址：https://arxiv.org/pdf/2411.07954

代码：https://github.com/WilliamYue37/AttentionTuner

63. 关于涉及大模型（LLMs）的实证研究的评估准则

标题：Towards Evaluation Guidelines for Empirical Studies involving LLMs

关键词：大型语言模型、软件工程研究、实证评估、评估准则

地址：https://arxiv.org/pdf/2411.07668

64. Navigation with QPHIL: 基于量化规划器的层次隐式Q学习导航

标题：Navigation with QPHIL: Quantizing Planner for Hierarchical Implicit Q-Learning

机构：Ubisoft

关键词：量化规划器、层次隐式Q学习、复杂导航、离线强化学习

地址：https://arxiv.org/pdf/2411.07760

65. OWLed：基于异常值权重层间剪枝的高效自动驾驶框架

标题：OWLed: Outlier-weighed Layerwise Pruning for Efficient Autonomous Driving Framework

关键词：自动驾驶、大型语言模型、层间剪枝、模型压缩

地址：https://arxiv.org/pdf/2411.07711

66. World Models：从可靠性与安全性的视角

标题：World Models: The Safety Perspective

关键词：世界模型、安全性、信任度、AI研究

地址：https://arxiv.org/pdf/2411.07690

67. 策略性证明学习中的建议研究

标题：Strategyproof Learning with Advice

机构：哥伦比亚大学

关键词：策略性证明学习、建议模型、回归问题、分类问题

地址：https://arxiv.org/pdf/2411.07354

68. 预热启动在大规模语言模型中的应用探究

标题：Warmstarting for Scaling Language Models

机构：弗莱堡大学

关键词：预热启动，大规模语言模型，训练优化，模型权重缩小，零填充，微扰初始化

地址：https://arxiv.org/pdf/2411.07340

69. 激励设计with溢出效应

标题：Incentive Design with Spillovers

机构：西北大学、波士顿大学

地址：https://arxiv.org/pdf/2411.08026

70. 利用大规模播客数据集研究播客生态系统

标题：Mapping the Podcast Ecosystem with the Structured Podcast Research Corpus

机构：密歇根大学

地址：https://arxiv.org/pdf/2411.07892

71. 弹性退化字符串比较

标题：Elastic-Degenerate String Comparison

机构：华沙大学、意大利比萨大学

关键词：弹性退化字符串、数据科学、计算机科学

地址：https://arxiv.org/pdf/2411.07782

72. DecoPrompt ：当大模型遇到虚假前提时减少妄想

标题：DecoPrompt : Decoding Prompts Reduces Hallucinations when Large Language Models Meet False Premises

关键词：大型语言模型、妄想输出、虚假前提、DecoPrompt

地址：https://arxiv.org/pdf/2411.07457

73. 音乐发现对话生成使用人类意图分析和大模型

标题：Music Discovery Dialogue Generation Using Human Intent Analysis and Large Language Models

机构：韩国科学技术院

关键词：音乐发现、对话生成、大型语言模型、用户意图

地址：https://arxiv.org/pdf/2411.07439

74. ViTOC：视觉Transformer与对象感知描述器

标题：ViTOC: Vision Transformer and Object-aware Captioner

关键词：ViTOC模型、视觉Transformer、对象感知描述器、图像描述

地址：https://arxiv.org/pdf/2411.07265

75. DINO-LG：一种任务特定的DINO模型

标题：DINO-LG: A Task-Specific DINO Model for Coronary Calcium Scoring

关键词：冠状动脉钙化评分、DINO模型、CT扫描、自我监督学习

地址：https://arxiv.org/pdf/2411.07976

76. 大模型的隐含信息表达能力

标题：ExpressivityArena: Can LLMs Express Information Implicitly?

关键词：大型语言模型、隐含信息表达能力、ExpressivityArena、创意任务

地址：https://arxiv.org/pdf/2411.08010

77. LION (evoLved sIgn mOmeNtum) 优化器的收敛率分析

标题：Convergence Rate Analysis of LION

关键词：LION优化器、深度神经网络、随机梯度下降、收敛性能

地址：https://arxiv.org/pdf/2411.07724

78. Mix from Failure：混淆配对混合法用于长尾识别

标题：Mix from Failure: Confusion-Pairing Mixup for Long-Tailed Recognition

关键词：混淆配对混合法、长尾识别、样本多样性、模型混淆

地址：https://arxiv.org/pdf/2411.07621

79. 基于人类反馈的强化学习直接偏好优化模型熵控制研究

标题：Entropy Controllable Direct Preference Optimization

关键词：大型语言模型、强化学习从人类反馈、直接偏好优化、熵控制

地址：https://arxiv.org/pdf/2411.07595

80. 人工智能驱动的程序自动修复和代码生成技术综述

标题：A Comprehensive Survey of AI-Driven Advancements and Techniques in Automated Program Repair and Code Generation

关键词：人工智能、大型语言模型、程序自动修复、代码生成

地址：https://arxiv.org/pdf/2411.07586

81. 基于大模型的视频字幕生成研究

标题：Grounded Video Caption Generation

关键词：大模型、视频字幕生成、视频对象定位、数据集构建

地址：https://arxiv.org/pdf/2411.07584

82. 面向RAG的最优搜索和检索

标题：Toward Optimal Search and Retrieval for RAG

关键词：大语言模型、检索增强生成模型、优化搜索、性能优化

地址：https://arxiv.org/pdf/2411.07396

83. 儿童表情情绪分类研究

标题：Emotion Classification of Children Expressions

关键词：儿童表情情绪分类、模型结构改进、数据集构建

地址：https://arxiv.org/pdf/2411.07708

84. LLM App模仿与克隆

标题：LLM App Squatting and Cloning

机构：华中科技大学

关键词：大型语言模型、应用商店、威胁检测

地址：https://arxiv.org/pdf/2411.07518

85. 大模型进行多文档金融问答

标题：Multi-Document Financial Question Answering using LLMs

关键词：金融问答、大型语言模型、语义标签、知识图谱

地址：https://arxiv.org/pdf/2411.07264

你觉得今天分享的论文哪篇at到了你？欢迎留言分享哦。

http://mp.weixin.qq.com/s?__biz=Mzg5OTkwMDY4Mw==&mid=2247486539&idx=1&sn=57a5551f177cfc02e2992435b575ce70

AI for Research

每天分享最新最热的Arxiv论文、一起来关注大模型、AIGC、AGI