实现Kaggle大师级水平的自动数据科学代理Agent来了！RuAG：规则增强生成在大模型中的应用....

文摘 2024-11-07 20:21 中国

前言：平淡无奇的一天又来了，今天要分享的内容主要是关于大模型、模型评估、大语言模型的，喜欢的小伙伴赶紧去阅读相关论文吧。

1. 自动数据科学代理Agent K v1.0实现Kaggle大师级水平

标题：Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level

关键词：自动数据科学代理、Kaggle竞赛、结构化推理、多模态

作者：Antoine Grosnit, Alexandre Maraval, James Doran

分析：该研究提出了一种全自动的数据科学代理Agent K v1.0,旨在自动化、优化和泛化各种数据科学任务。Agent K v1.0通过从经验中学习来管理整个数据科学生命周期，利用高度灵活的结构化推理框架来动态处理嵌套结构中的内存，有效地学习和处理复杂的推理任务。它通过选择性地存储和检索关键信息来优化长期和短期记忆，根据环境奖励指导未来的决策。这种迭代方法使其能够在不微调或反向传播的情况下改进决策，通过经验学习实现持续改进。研究者使用Kaggle竞赛作为案例研究评估了代理的能力和性能。通过完全自动化的协议，Agent K v1.0系统地解决复杂的多模态数据科学任务，采用贝叶斯优化进行超参数调整和特征工程。新的评估框架严格评估了Agent K v1.0的端到端能力，从Kaggle竞赛URL生成并发送提交。结果显示，Agent K v1.0在5856名人类Kaggle参赛者中排名第38%,与专家级用户相当。值得注意的是，它的Elo-MMR得分位于前四分之一和第三分之二之间，达到Kaggle大师级水平，获得6金3银7铜奖牌。

地址：https://arxiv.org/pdf/2411.03562

2. 理解人类撰写的同义改写在大模型生成的文本检测中的影响

标题：Understanding the Effects of Human-written Paraphrases in LLM-generated Text Detection

关键词：LLM生成的文本检测、同义改写、数据集构建、模型评估

作者：Hiu Ting Lau, Arkaitz Zubiaga

分析：本文主要研究大型语言模型（LLM）生成的文本检测问题。文章提出了一种新的数据采集策略，即构建人类与LLM同义改写数据集（HLPC），旨在了解人类撰写的同义改写对LLM生成的文本检测器性能的影响。同时，文章也探讨了如何利用水印技术提高LLM生成的文本检测性能。

地址：https://arxiv.org/pdf/2411.03806

3. 机器人学习框架STEER

标题：STEER: Flexible Robotic Manipulation via Dense Language Grounding

机构：麻省理工学院、UC伯克利分校、Google DeepMind

关键词：机器人学习框架、语言基础、低级控制、情景意识

作者：Laura Smith, Alex Irpan, Montserrat Gonzalez Arenas

分析：该论文介绍了一种机器人学习框架STEER,通过将高级的常识推理和精确的低级控制相结合，使其能够智能地适应未知情况。该方法通过使用密集注释对语言基础的策略进行训练，将复杂的情境意识转化为可操作的低级行为。通过围绕以自然语言表达的基本、模块化的操纵技能的结构化政策训练，STEER为人类或视觉语言模型提供了一个智能地编排机器人行为的表达式接口。该论文的实验证明了通过STEER学习到的技能可以组合来合成新的行动，以适应新的情况或执行全新的任务，而无需额外的数据收集或训练。

地址：https://arxiv.org/pdf/2411.03409

4. 探索大模型在肿瘤学护理领域的应用

标题：Exploring Large Language Models for Specialist-level Oncology Care

机构：谷歌研究院、Google DeepMind

作者：Anil Palepu, Vikram Dhillon, Polly Niravath

分析：本文探讨了大型语言模型(LLMs)在肿瘤学护理领域的应用，通过研究AMIE(一个研究性的对话诊断AI系统)在乳腺癌护理领域的表现。AMIE被训练来理解和回应复杂的医疗查询，但其在专业或复杂医疗环境中的适用性仍有待探索。该论文创建了一个包含50个合成乳腺癌病例的问题集，这些病例代表了从治疗无知到治疗抵抗的各种情况，并反映了多学科肿瘤委员会决策所需的关键信息。该论文为评估管理计划开发了一个详细的临床评分标准，包括病例总结质量、治疗方案安全性以及化疗、放疗、手术和激素疗法的建议等多个方面。为了提高性能，该论文增强了AMIE进行网络搜索的能力，以获取相关且最新的临床知识，并通过多阶段的自我反思管道对其响应进行改进。该论文比较了AMIE与内科实习生、肿瘤研究员和一般肿瘤住院医师在自动和专科医生评估下的响应质量。该论文的评估结果显示，AMIE在这项具有挑战性和重要性的领域中表现优于实习生和研究员，这表明该系统在这种情况下的潜力。该论文还通过定性示例进一步说明，像AMIE这样的系统可能会通过对话互动帮助临床医生做出决策。然而，总体而言，AMIE的表现仍逊于肿瘤科住院医师，这表明在考虑潜在用途之前，需要进行更多的研究。

地址：https://arxiv.org/pdf/2411.03395

5. 自一致性偏好优化

标题：Self-Consistency Preference Optimization

机构：FAIR、纽约大学

关键词：自一致性偏好优化、训练模型、推理任务、性能提升

作者：Archiki Prasad, Weizhe Yuan, Richard Yuanzhe Pang

分析：这篇论文主要探讨了一种新的训练模型的方法——自一致性偏好优化(ScPO)。该方法通过在推理时基于多次采样来寻找最一致的答案，从而帮助训练模型。实验结果表明，ScPO在许多推理任务上都比传统的奖励模型训练取得了显著的改进，甚至超过了使用金标准答案或喜好进行监督训练的结果。此外，将ScPO与标准的监督学习结合使用，可以进一步提高模型的性能。

地址：https://arxiv.org/pdf/2411.04109

6. RuAG：规则增强生成在大模型中的应用

标题：RuAG: Learned-rule-augmented Generation for Large Language Models

机构：微软、北京大学、伦敦国王学院

关键词：RuAG框架、大型语言模型（LLM）、知识注入、逻辑推理

作者：Yudi Zhang, Pei Xiao, Lu Wang

分析：这篇论文提出了一种名为RuAG的新型框架，旨在通过将大量离线数据自动蒸馏成可解释的一阶逻辑规则，并注入大型语言模型（LLM）中，以提升其推理能力。该框架使用蒙特卡洛树搜索（MCTS）来发现逻辑规则，并将这些规则转化为自然语言，实现针对LLM下游任务的知识注入和无缝集成。该论文在公共和私有工业任务上评估了该框架的有效性，证明了其在多样化任务中增强LLM能力的潜力。

地址：https://arxiv.org/pdf/2411.03349

7. 基于贝叶斯方法的数据点选择策略

标题：A Bayesian Approach to Data Point Selection

机构：微软研究院、三星AI中心

关键词：贝叶斯方法、数据点选择、深度学习、神经网络参数

作者：Xinnuo Xu, Minyoung Kim, Royson Lee

分析：本文提出了一种基于贝叶斯方法的数据点选择策略，以解决深度学习中数据点选择的问题。该策略将问题视为新型贝叶斯模型中的后验推断问题，可以在合理的先验和似然模型下推断实例级权重和主神经网络参数的后验分布。此外，通过随机梯度朗之万蒙特卡洛采样法联合学习主网络和实例级权重，确保了即使在批次数据下也能实现收敛。该策略可有效扩展到大型语言模型，为指令微调数据集实现自动化任务优化。

地址：https://arxiv.org/pdf/2411.03768

8. Transformer如何解决命题逻辑问题：机制分析

标题：How Transformers Solve Propositional Logic Problems: A Mechanistic Analysis

机构：普渡大学、谷歌研究院

关键词：Transformer模型、命题逻辑问题、网络内部机制、注意力块

作者：Guan Zhe Hong, Nishanth Dikkala, Enming Luo

分析：本文构建了一个合成命题逻辑问题，作为网络训练和评估的具体测试平台，并研究了一个三层Transformer如何解决该问题。通过训练网络并观察其内部机制，发现网络中的“规划”和“推理”电路需要依靠注意力块之间的协作来实现所需逻辑。同时，文章扩展了在大模型上的研究，使用激活补丁来识别解决逻辑问题的关键内部组件。

地址：https://arxiv.org/pdf/2411.04105

9. 冗余是所需的一切

标题：Redundancy Is All You Need

机构：UC伯克利分校

关键词：约束满足问题、冗余性、稀疏化、熵方法

作者：Joshua Brakensiek, Venkatesan Guruswami

分析：本文主要研究了约束满足问题（CSP）的稀疏性问题，探讨了任意CSP的冗余性和非冗余实例的大小。通过引入新的技术，如熵方法和匹配向量编码理论，对CSP谓词的冗余性进行了深入研究。结果表明，冗余子句足以进行稀疏化，而非冗余性的大小可以作为衡量CSP稀疏性的关键参数。此外，本文还探讨了加权实例的稀疏性问题，并将结果扩展到CSP的预测领域。

地址：https://arxiv.org/pdf/2411.03451

10. 个性化视频摘要的多模态视频理解

标题：Personalized Video Summarization by Multimodal Video Understanding

机构：三星美国研究院

关键词：个性化视频摘要、多模态视频理解、预训练视觉语言模型、用户偏好

作者：Brian Chen, Xiangyuan Zhao, Yingnan Zhu

分析：这篇论文提出了一种基于预训练视觉语言模型的个性化视频摘要生成方法。它通过视频和字幕的输入，进行场景级别的语义分析，并根据用户偏好选择相关的文本场景。这种方法避免了在大规模训练数据集上训练视频摘要系统的需求。实验结果表明，该方法优于当前先进的无监督视频摘要模型，并且在不同数据集上表现出更好的适应性。此外，论文还进行运行时分析，证明了该方法在扩大用户偏好和视频数量时更适合实际应用。

地址：https://arxiv.org/pdf/2411.03531

11. CrowdGenUI：利用众包偏好库增强基于LLM的UI控件生成

标题：CrowdGenUI: Enhancing LLM-Based UI Widget Generation with a Crowdsourced Preference Library

机构：加利福尼亚大学、Adobe Research

关键词：LLM、UI生成、众包偏好库、模型结构改进

作者：Yimeng Liu, Misha Sra, Chang Xiao

分析：论文提出了一种利用众包偏好库增强基于大型语言模型（LLM）的UI控件生成的方法。该方法通过引导LLM推理，使用户偏好与特定场景下的任务上下文和用户需求相匹配，从而生成更符合用户需求和任务特定要求的UI控件。论文以图像编辑作为测试领域，建立了一个包含50名用户的偏好库，并进行了用户研究，结果显示该方法在满足用户偏好和任务要求方面优于标准的LLM生成控件。论文还探讨了该框架和众包库的扩展性，为设计以用户为中心和可定制的UI提供了机会。

地址：https://arxiv.org/pdf/2411.03477

12. 多模态大模型数据污染问题

标题：Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination

机构：利哈伊大学、香港中文大学

关键词：多模态大型语言模型、数据污染、预训练

作者：Dingjie Song, Sicheng Lai, Shunian Chen

分析：这篇论文主要研究了多模态大型语言模型(MLLMs)在训练过程中数据污染的问题。由于MLLMs使用了多种模态的数据，并且经历了多个训练阶段，因此在评估和比较性能时，如何有效地检测数据污染就成为了一个挑战。作者提出了一个针对MLLMs的多模态数据污染检测框架MM-Detect,并通过实验验证了其对于不同程度的数据污染的敏感性以及能够揭示由于多模态基准数据泄漏导致的显著性能提升。此外，作者还探讨了污染可能来自LLMs预训练阶段和MLLMs微调阶段的可能性，为该论文在这些阶段引入污染提供了新的见解。

地址：https://arxiv.org/pdf/2411.03823

13. 文本分解后子运动空间散射的开放词汇运动生成研究

标题：Textual Decomposition Then Sub-motion-space Scattering for Open-Vocabulary Motion Generation

机构：腾讯、浙江大学、上海交通大学

关键词：开放词汇运动生成、文本分解、子运动空间散射、DSO-Net网络

作者：Ke Fan, Jiangning Zhang, Ran Yi

分析：这篇论文研究文本到运动的生成问题，通过给定文本生成目标的三维运动。针对现有数据集规模有限的问题，论文提出了一种新的方法来解决开放词汇运动生成的问题。通过利用原子运动作为中间表示，并采用两个有序耦合的步骤——文本分解和子运动空间散射，来解决全映射问题。设计了一种精细描述转换算法来分解文本，并将其与大型语言模型的泛化能力相结合，将给定的运动文本转换为原子文本。子运动空间散射学习从原子运动到目标运动的组合过程，使学习的子运动空间分散形成全运动空间。对于给定开放域的运动，该方法将外推转化为内插，从而显著提高泛化能力。论文提出的DSO-Net网络结合文本分解和子运动空间散射来解决开放词汇运动生成问题，并在实验中取得了显著成果。

地址：https://arxiv.org/pdf/2411.04079

代码：https://vankouf.github.io/DSONet/

14. Touchstone Benchmark：我们在为评估医学分割人工智能算法的道路上走对了吗？

标题：Touchstone Benchmark: Are We on the Right Way for Evaluating AI Algorithms for Medical Segmentation?

机构：英伟达

关键词：Touchstone Benchmark、AI算法评估、医学图像分割、大规模协作分割基准测试

作者：Pedro R. A. S. Bassi, Wenxuan Li, Yucheng Tang

分析：这篇论文提出了一种新的大规模协作分割基准测试，名为Touchstone，用于评估人工智能算法在医学领域的性能。该基准测试包含多种腹部器官的分割，使用来自全球76家医院的5195个训练CT扫描和来自另外11家医院的5903个测试CT扫描。旨在解决标准基准测试中存在的一些问题，如分布内和小规模测试集、过于简化的指标、不公平的比较和短期成果压力等。论文介绍了Touchstone基准测试的设计和实施，包括数据集的构建、算法的训练和评估等。同时，论文还探讨了人工智能算法在医学领域的应用和发展趋势，致力于推动该领域更多创新。

地址：https://arxiv.org/pdf/2411.03670

15. 小语言模型在大模型时代的全面调查：技术、增强、应用、协作与可信性

标题：A Comprehensive Survey of Small Language Models in the Era of Large Language Models: Techniques, Enhancements, Applications, Collaboration with LLMs, and Trustworthiness

机构：Amazon、宾夕法尼亚大学、宾夕法尼亚州立大学

关键词：小语言模型、大语言模型、技术进展、应用扩展

作者：Fali Wang, Zhiwei Zhang, Xianren Zhang

分析：随着大语言模型的发展，小语言模型因为其优势如低延迟、高效率、低成本和适应性等受到越来越多的关注。这篇论文旨在全面调查小语言模型的技术进展、应用扩展以及大模型的合作潜力与信任问题。文中强调，随着对大语言模型的局限性的理解日益深入，包括大数据规模，高计算需求和专业知识领域能力等方面的限制。在此背景下，小语言模型逐渐凸显其价值。

地址：https://arxiv.org/pdf/2411.03350

16. 大模型从科学文献中自动提取网状材料的合成细节

标题：Automated, LLM enabled extraction of synthesis details for reticular materials from scientific literature

机构：IBM研究院、伊迪亚普研究所

关键词：大语言模型，知识提取，段落分类，信息提取，网状材料，合成细节

作者：Viviane Torres da Silva, Alexandre Rademaker, Krystelle Lionti

分析：这篇论文关注从科学文献中自动提取网状材料的合成细节的问题。通过使用大型语言模型（LLM）和知识提取管道（KEP），论文展示了自动化LLM辅助段落分类和信息提取的方法。这种方法通过应用提示工程和上下文学习，可以从PDF文档中检索化学信息，无需微调或训练，降低了出现幻觉的风险。论文还对比了五个开源LLM家族在段落分类和信息提取任务中的性能，并展示了其优秀表现。

地址：https://arxiv.org/pdf/2411.03484

17. 医疗领域大型语言和视觉语言模型的适应性：我们有所进展吗？

标题：Medical Adaptation of Large Language and Vision-Language Models: Are We Making Progress?

机构：卡内基梅隆大学、约翰霍普金斯大学

关键词：大型语言模型、视觉语言模型、医疗领域、DAPT

作者：Daniel P. Jeong, Saurabh Garg, Zachary C. Lipton

分析：这篇论文关注大型语言和视觉语言模型在医疗领域的适应性。文章对比了多个医疗领域的语言模型和视觉语言模型与通用模型的性能表现。研究发现在一些下游医疗任务中，这些专门针对医疗领域训练的模型并不总能显著提升性能。论文强调了比较模型时需要考虑的因素，包括头对头对比、独立优化提示和统计不确定性等。

地址：https://arxiv.org/pdf/2411.04118

18. 大模型自动化蛋白质组学研究

标题：Automating Exploratory Proteomics Research via Language Models

机构：清华大学、上海AI实验室

关键词：全自动科学研究、蛋白质组学、大型语言模型、科学研究框架

作者：Ning Ding, Shang Qu, Linhai Xie

分析：本文探讨了人工智能在科学领域的应用，特别关注了其从模拟复杂问题到自动化整个研究流程以及产生新发现的发展趋势。通过大型语言模型（LLMs），PROTEUS这一全自动化科学研究发现系统提出了从原始蛋白质组学数据中生成高质量科学假设的策略。系统能自动处理蛋白质组学数据集，生成全面的研究目标、分析结果以及新颖的生物假设，无需人工干预。通过在多个生物样本（例如免疫细胞、肿瘤）和样本类型（单细胞与大量）上的12个蛋白质组学数据集上进行评估，产生了191个科学假设，并根据自动评分和人类专家详细审查进行评估。结果表明，PROTEUS能够持续产出可靠、逻辑连贯且与现有文献相符的结果，同时也提出了新颖且可验证的假设。系统灵活的架构使其能够无缝整合多种分析工具，适应不同蛋白质组学数据类型。通过自动化复杂的蛋白质组学分析流程和假设生成过程，PROTEUS有望显著加速蛋白质组学研究的发现速度，帮助研究人员高效探索大规模数据集并揭示生物学见解。

地址：https://arxiv.org/pdf/2411.03743

19. QUILL：大模型的引述生成增强研究

标题：QUILL: Quotation Generation Enhancement of Large Language Models

机构：复旦大学

关键词：大语言模型、引述生成、自动评估系统、双语知识库

作者：Jin Xiao, Bowei Zhang, Qianyu He

分析：论文研究大语言模型在引述生成方面的不足，提出建立一个全面的自动评估系统和双语知识库，改进LLMs的引述生成能力。论文通过广泛的实验验证了其方法和指标的有效性。

地址：https://arxiv.org/pdf/2411.03675

代码：https://github.com/GraceXiaoo/QUILL

20. UniTraj: 全球通用人类轨迹建模

标题：UniTraj: Universal Human Trajectory Modeling from Billion-Scale Worldwide Traces

机构：香港城市大学、香港科技大学

关键词：UniTraj、WorldTrace、轨迹分析、全球通用模型

作者：Yuanshao Zhu, James Jianqiao Yu, Xiangyu Zhao

分析：本文提出了UniTraj，一种面向全人类轨迹分析的通用模型，旨在解决现有方法在特定任务和区域适用性有限，以及数据质量和依赖性的问题。通过创建全球规模的世界级轨迹数据集WorldTrace来增强模型性能，数据集覆盖了来自开放网络平台的245万个轨迹，包含来自全球70个国家的数十亿个点。通过策略化预训练，UniTraj可以适应各种数据质量问题和地理约束，对轨迹分析任务展现出优越的性能和适应性。实验结果证明，UniTraj在多个任务中均表现出色，使其成为一个灵活、强大的解决方案，并且WorldTrace为其提供了不特定但理想的训练基础。

地址：https://arxiv.org/pdf/2411.03859

21. MRJ-Agent：有效的多轮对话 jailbreak 代理 for Multi-Round Dialogue

标题：MRJ-Agent: An Effective Jailbreak Agent for Multi-Round Dialogue

机构：清华大学、阿里巴巴集团、南洋理工大学

关键词： dialogue jailbreak 代理、 multi-round dialogue、 risk decomposition strategy 、 psychological strategies

作者：Fengxiang Wang, Ranjie Duan, Peng Xiao

分析：这篇论文提出了一种新的多轮对话 jailbreak 代理，旨在提高在多轮对话中识别和削弱由大型语言模型（LLM）所 posed的安全危机的能力。与之前的研究不同，该方法专注于提高攻击的 stealthiness 并解决多轮对话中的 jailbreak 风险。它采用风险分解策略和心理策略，提高攻击的强度和成功率。实验表明，该方法优于其他攻击方法，达到 state-of-the-art 攻击成功率。

地址：https://arxiv.org/pdf/2411.03814

22. TATAA：面向混合精度Transformer加速的可变算术架构编程

标题：TATAA: Programmable Mixed-Precision Transformer Acceleration with a Transformable Arithmetic Architecture

机构：香港大学

关键词：TATAA、混合精度、Transformer加速、可变算术架构

作者：Jiajun Wu, Mo Song, Jingmin Zhao

分析：这篇论文介绍了TATAA工具，该工具旨在通过结合8位整数（int8）和16位半精度浮点数（bfloat16）算术支持混合精度加速Transformer模型，解决传统量化方法和固定数据流矩阵加速器在同时加速线性和非线性操作时的局限性。TATAA硬件支持可变算术架构，在运行时同时支持这两种算术格式，以最小的开销在Systolic阵列模式下执行int8矩阵乘法，在SIMD模式下进行向量化的bfloat16操作。一篇新的编译器被提出，以灵活地将新兴的Transformer模型映射到提议硬件。实验结果表明，TATAA的混合精度设计与单精度Transformer模型相比只损失了0.14%到1.16%的准确性，且在视觉、语言和生成文本应用中都能保持高效率。TATAA现能实现2935.2 GOPS的线性层吞吐量，最高可达189.5 GFLOPS的非线性操作吞吐量，相对相关工作提高了1.45倍的端到端吞吐量，2.29倍的DSP效率，并实现了2.19倍的功率效率，超越了现代NVIDIA RTX4090 GPU。

地址：https://arxiv.org/pdf/2411.03697

23. 利用LLM反馈细化指导检索器：增强检索增强生成中的精细指导

标题：Fine-Grained Guidance for Retrievers: Leveraging LLMs' Feedback in Retrieval-Augmented Generation

机构：浙江大学、上海交通大学、香港城市大学

关键词：精细化指导、大型语言模型、检索增强生成、学习重点

作者：Yuhang Liu, Xueyu Hu, Shengyu Zhang

分析：论文提出了一种利用大型语言模型（LLM）的反馈来优化检索增强生成（RAG）的方法。传统的基于语义相似性的检索器训练方法缺乏针对RAG的优化，导致生成的内容可能缺乏真实性和一致性。新方法结合了精细化指导的理念，通过构建容易理解的教学实例，具体涵盖相关度、综合性和纯净度等学习重点，用以引导检索器的学习方向。通过这种方式，使得检索器能够更好地理解并响应LLM的偏好信号，从而改善RAG系统的性能。此外，论文还采用了双课程学习策略，并利用LLM和检索器之间的互惠反馈来进一步增强系统性能。

地址：https://arxiv.org/pdf/2411.03957

24. PipeLLM: 快速且保密的大模型服务，speculative 流水加密管道化

标题：PipeLLM: Fast and Confidential Large Language Model Services with Speculative Pipelined Encryption

机构：东北大学、上海交通大学

关键词：PipeLLM、大型语言模型服务、流水加密管道化、GPU计算

作者：Yifan Tan, Cheng Tan, Zeyu Mi

分析：这篇论文提出了PipeLLM，一个透明的运行时系统，它通过重叠加密与GPU计算来减少性能开销，从而提高数据的安全性。论文中的主要方法是通过流水线加密和speculative pipelined encryption，以预测和最小化对性能的影响。

地址：https://arxiv.org/pdf/2411.03357

25. 图神经网络揭示训练数据属性：一种高效的风险评估方法

标题：Can Graph Neural Networks Expose Training Data Properties? An Efficient Risk Assessment Approach

机构：浙江大学、复旦大学

关键词：图神经网络、属性推断攻击、隐私保护

作者：Hanyang Yuan, Jiarong Xu, Renhong Huang

分析：图神经网络(GNNs)因其多样化的应用而受到广泛关注。然而，图数据的稀缺性和质量限制对其在实际环境中的训练构成了挑战。为了推动高效GNNs的发展，企业和研究者通常寻求外部合作。然而，直接共享数据引发了隐私问题，促使数据所有者在他们的私有图上训练GNNs并分享训练好的模型。不幸的是，这些模型可能仍然无意中泄露其训练图的敏感属性(例如交易网络中的平均违约率),给数据所有者带来严重后果。在这项工作中，该论文研究了图属性推断攻击，以识别来自共享模型的风险，即敏感属性信息泄露。现有的方法通常需要为开发此类攻击训练许多影子模型，这在计算上是繁重且不切实际的。为了解决这个问题，该论文提出了一种利用模型近似技术的高效图属性推断攻击方法。该论文的方法只需要在图上训练一小部分模型，就可以生成足够数量的近似影子模型进行攻击。为了在提高多样性的同时减少近似模型中的错误，该论文应用编辑距离来量化一组近似模型的多样性，并引入一个理论保证的标准来评估每个模型的错误。然后，该论文提出了一种新颖的选择机制，以确保保留的近似模型具有高度的多样性和低错误。通过六个实际场景的广泛实验，该论文的方法显著提高了攻击的准确性和ROC-AUC,同时比最佳基线快6.5倍。

地址：https://arxiv.org/pdf/2411.03663

26. 蛋白质动力学量子模拟

标题：Toward end-to-end quantum simulation for protein dynamics

机构：清华大学、马里兰大学、宾夕法尼亚州立大学

作者：Zhenning Liu, Xiantao Li, Chunhao Wang

分析：这篇论文主要研究了利用量子算法模拟蛋白质动力学的过程，包括机械力和随机噪声等影响。作者提出了有效的量子模拟算法，并在读取和读取设置中设计了高效的算法。此外，作者还通过经典数值实验验证了其观点，并认为量子蛋白质动力学模拟是未来量子计算时代的一个重要应用。

地址：https://arxiv.org/pdf/2411.03972

27. Select2Plan: 无需训练的ICL基规划通过VQA和内存检索

标题：Select2Plan: Training-Free ICL-Based Planning through VQA and Memory Retrieval

机构：都灵理工大学

关键词：自主导航、ICL、VQA、预训练模型

作者：Davide Buoso, Luke Robinson, Giuseppe Averta

分析：该研究探讨了现成的视觉语言模型(VLMs)在自主导航中的高层次规划潜力。该论文提出了一种全新的无需训练的高层次机器人规划框架——Select2Plan(S2P)，它通过利用结构化的视觉问答(VQA)和情境学习(ICL)，显著减少了需求特定训练的数据量，甚至可以仅依赖在线数据。该论文的方法有效地利用了经过广泛训练的VLMs，并展示了在不同场景类型、上下文源和感知设置中的适应性。实验评估表明，在传统的第一人称视角(FPV)和基础设施驱动的第三人称视角(TPV)导航情景中，该论文的方法显著提高了基线VLMs的性能，并且仅需20次演示就能与经过训练的模型相媲美。

地址：https://arxiv.org/pdf/2411.04006

28. 什么是真正的常识知识？

标题：What Really is Commonsense Knowledge?

机构：香港科技大学

关键词：常识知识、数据集、模型评估、commonsenseQA

作者：Quyet V. Do, Junze Li, Tung-Duong Vuong

分析：这篇文章主要讨论了常识数据集在自然语言处理领域的发展情况，尤其是通过 crowdsourcing 人类标注的方法。文章指出，一些常识数据集中存在大量不涉及常识知识的问题，这些问题影响到模型实际推理能力的评估。为了解决这些问题，文章提出了一个多框架统一的常识知识定义，并在此基础上对 CommonsenseQA 和 CommonsenseQA 2.0 数据集进行了实验，结果表明在大语言模型（LLMs）中，模型在常识知识实例上的表现不如在其他实例上。

地址：https://arxiv.org/pdf/2411.03964

29. GS2Pose：基于高斯展开引导的两阶段新型物体6D姿态估计

标题：GS2Pose: Tow-stage 6D Object Pose Estimation Guided by Gaussian Splatting

机构：北京航空航天大学

关键词：GS2Pose，姿态估计，高斯展开，两阶段估计，模型结构改进

作者：Jilan Mei, Junbo Li, Cai Meng

分析：该论文提出了一种准确且鲁棒的新型物体6D姿态估计方法，名为GS2Pose。它引入了3D高斯展开技术，无需高质量CAD模型即可利用重建结果。GS2Pose采用两阶段结构，先进行粗略估计，然后进行精细估计。通过设计名为Pose-Net的轻量化U-Net网络和利用3DGS模型进行有监督训练，生成NOCS图像来计算粗略姿态。在精细阶段，GS2Pose采用基于重投影或捆绑调整（BA）思想的姿态回归算法，称为GS-Refiner。它利用李代数扩展3DGS，获得可微姿态渲染管道，通过比较输入图像和渲染图像来优化粗略姿态。此外，GS-Refiner还选择性地更新3DGS模型中的参数，以实现环境适应，从而提高算法对光照变化、遮挡和其他挑战因素的鲁棒性和灵活性。在LineMod数据集上的实验表明，GS2Pose与类似算法相比具有竞争力。

地址：https://arxiv.org/pdf/2411.03807

30. 探索扩散模型中概念融合以改善非词到图像生成

标题：Investigating Conceptual Blending of a Diffusion Model for Improving Nonword-to-Image Generation

机构：名古屋大学

关键词：概念融合、扩散模型、非词到图像生成、文本嵌入空间

作者：Chihaya Matsuhira, Marc A. Kastner, Takahiro Komamizu

分析：这篇论文研究的是在文本到图像的扩散模型中加入概念融合以优化非词到图像生成能力。作者分析了预训练的扩散模型Stable Diffusion在概念融合上的表现，并通过比较不同文本嵌入空间的转换方法来提高非词到图像生成的质量和概念融合出现的概率。该研究有助于提高非词到图像生成的直觉性和创造性。

地址：https://arxiv.org/pdf/2411.03595

31. {\lambda}-Tune：利用大模型进行自动化数据库系统调优

标题：{\lambda}-Tune: Harnessing Large Language Models for Automated Database System Tuning

机构：康奈尔大学

关键词：大型语言模型、数据库系统调优、配置脚本、最佳配置识别

地址：https://arxiv.org/pdf/2411.03500

32. Fine-tuning —— 一个迁移学习方法

标题：Fine-tuning -- a Transfer Learning approach

机构：伦敦国王学院

关键词：Fine-tuning、Transfer Learning、Electronic Health Records、Missing Data

地址：https://arxiv.org/pdf/2411.03941

33. H-POPE：分层轮询探明法在大型视觉语言模型中判断幻视现象的评估

标题：H-POPE: Hierarchical Polling-based Probing Evaluation of Hallucinations in Large Vision-Language Models

机构：马克斯·普朗克计算机科学研究所

关键词：大型视觉语言模型，幻视现象，评估方法，物体存在，属性评估

地址：https://arxiv.org/pdf/2411.04077

34. Beemo: 专家编辑的机器生成输出基准

标题：Beemo: Benchmark of Expert-edited Machine-generated Outputs

机构：宾夕法尼亚州立大学

关键词：大型语言模型、机器生成文本、专家编辑、模型评估

地址：https://arxiv.org/pdf/2411.04032

35. 探索预训练生成式大模型在化学领域的优势

标题：Exploring the Benefits of Domain-Pretraining of Generative Large Language Models for Chemistry

关键词：大语言模型、预训练、化学领域、模型评估

地址：https://arxiv.org/pdf/2411.03542

36. 基于大模型的教育技术中数学问题提示自动生成研究

标题：Automatic Generation of Question Hints for Mathematics Problems using Large Language Models in Educational Technology

关键词：大型语言模型，教育技术，智能辅导系统，数学提示生成，模型结构改进，预训练

地址：https://arxiv.org/pdf/2411.03495

37. 多项式组合激活函数：释放大模型的动态性能

标题：Polynomial Composition Activations: Unleashing the Dynamics of Large Language Models

关键词：多项式组合激活函数，Transformer，大型语言模型，激活函数，模型结构改进

地址：https://arxiv.org/pdf/2411.03884

代码：https://github.com/BryceZhuo/PolyCom

38. 医学知识增强的大模型（MEG）：用于问答的医疗知识-增强大模型

标题：MEG: Medical Knowledge-Augmented Large Language Models for Question Answering

关键词：医学知识增强、大型语言模型、图嵌入、知识整合

地址：https://arxiv.org/pdf/2411.03883

39. 探索使用大模型分析长非编码RNA转录调控的潜力与挑战

标题：Exploring the Potentials and Challenges of Using Large Language Models for the Analysis of Transcriptional Regulation of Long Non-coding RNAs

机构：北卡罗来纳州立大学

关键词：长非编码RNA、转录调控、大型语言模型、序列分析

地址：https://arxiv.org/pdf/2411.03522

40. 大模型中评估数据污染的测量及其影响

标题：Evaluation data contamination in LLMs: how do we measure it and (when) does it matter?

机构：伦敦大学、波士顿大学

关键词：大语言模型、评估数据污染、ConTAM方法、基准分数

地址：https://arxiv.org/pdf/2411.03923

41. StreamingBench：多模态大模型实现实时视频理解的差距

标题：StreamingBench: Assessing the Gap for MLLMs to Achieve Streaming Video Understanding

关键词：多模态、大型语言模型、实时视频理解、模型评估

地址：https://arxiv.org/pdf/2411.03628

42. LASER：基于指数变换的注意力机制改进

标题：LASER: Attention with Exponential Transformation

关键词：激光注意力机制、模型结构改进、大型语言模型、泛化性能提升

地址：https://arxiv.org/pdf/2411.03493

43. DesignMinds:增强基于视频的设计创意的视觉语言模型和上下文注入的大模型

标题：DesignMinds: Enhancing Video-Based Design Ideation with Vision-Language Model and Context-Injected Large Language Model

地址：https://arxiv.org/pdf/2411.03827

44. 语言模型对数值理解的改进方法

标题：Number Cookbook: Number Understanding of Language Models and How to Improve It

地址：https://arxiv.org/pdf/2411.03766

代码：https://github.com/GraphPKU/number_cookbook

45. 迈向最后一公里

标题：Stepping Forward on the Last Mile

关键词：最后一公里、边缘设备、前进梯度、模型优化

地址：https://arxiv.org/pdf/2411.04036

46. 大模型后训练量化中的块间交互作用

标题：Interactions Across Blocks in Post-Training Quantization of Large Language Models

关键词：块间交互、大型语言模型、后训练、模型优化

地址：https://arxiv.org/pdf/2411.03934

47. RAGulator：面向落地应用的实时语境外文本生成检测器

标题：RAGulator: Lightweight Out-of-Context Detectors for Grounded Text Generation

关键词：实时检测、大型语言模型、轻量级模型、语境外文本检测

地址：https://arxiv.org/pdf/2411.03920

48. 快速混合到唯一性阈值

标题：Rapid Mixing at the Uniqueness Threshold

关键词：Gibbs 分布、计算相变、混合时间、Glauber 动态

地址：https://arxiv.org/pdf/2411.03413

49. 量子纠错与大模型

标题：Quantum fault tolerance with constant-space and logarithmic-time overheads

关键词：量子纠错、容错量子计算、多对数时间辅助经典计算、常数空间开销

地址：https://arxiv.org/pdf/2411.03632

50. 基于大模型的TRPG音乐生成

标题：Long-Form Text-to-Music Generation with Adaptive Prompts: A Case of Study in Tabletop Role-Playing Games Soundtracks

关键词：大语言模型、音乐生成、TRPG、Babel Bardo

地址：https://arxiv.org/pdf/2411.03948

51. Python大模型工具箱(LevelSetPy)

标题：The Python LevelSet Toolbox (LevelSetPy)

地址：https://arxiv.org/pdf/2411.03501

52. LLMs作为科学论文作者检查清单助手在NeurIPS'24实验的实用性

标题：Usefulness of LLMs as an Author Checklist Assistant for Scientific Papers: NeurIPS'24 Experiment

关键词：大型语言模型、科学论文同行评审、作者检查清单、NeurIPS

地址：https://arxiv.org/pdf/2411.03417

53. Learn to Slice, Slice to Learn：揭示在线优化和强化学习用于切片AI服务

标题：Learn to Slice, Slice to Learn: Unveiling Online Optimization and Reinforcement Learning for Slicing AI Services

地址：https://arxiv.org/pdf/2411.03686

54. 大模型在RAG任务中长上下文的性能

标题：Long Context RAG Performance of Large Language Models

关键词：RAG、上下文长度、大语言模型、性能评估

地址：https://arxiv.org/pdf/2411.03538

55. 大模型在实时分析高通量高分辨率TEM图像中的应用

标题：Computational Tools for Real-time Analysis of High-throughput High-resolution TEM (HRTEM) Images of Conjugated Polymers

关键词：透射电子显微镜 (TEM)、共轭聚合物、大语言模型、实时分析

地址：https://arxiv.org/pdf/2411.03474

56. 6G人工智能原生系统中的数据保护

标题：Personal Data Protection in AI-Native 6G Systems

地址：https://arxiv.org/pdf/2411.03368

看论文是一天，不看论文也是一天，为什么不每天充实下自己呢^_^^_^

http://mp.weixin.qq.com/s?__biz=Mzg5OTkwMDY4Mw==&mid=2247486527&idx=1&sn=6a45f15d90fe650175f762f6c8293cd2

AI for Research

每天分享最新最热的Arxiv论文、一起来关注大模型、AIGC、AGI