AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
论文标题:A Systematic Survey on Large Language Models for Algorithm Design 论文地址:https://arxiv.org/abs/2410.14716
LLM4AD 的系统综述:我们首次对过去三年中发表的 180 多篇高度相关的研究论文进行了系统综述,探讨了使用 LLMs 进行算法设计的发展。 LLM4AD 的多维度分类:我们引入了一个多维度分类法,将 LLM4AD 的作品和功能分为四个不同的维度:1)LLMs 在算法设计中使用的四种范式,概述了这些模型如何为算法设计做出贡献或增强算法设计;2)搜索方法,探讨了 LLMs 用于导航和优化算法设计中搜索空间的各种方法;3)提示词设计,研究了如何使用不同的提示策略;以及 4)应用领域,确定 LLMs 正在应用于解决的不同领域。 LLM4AD 的挑战和未来方向:我们不仅仅是对现有文献进行总结,而是对当前关于算法设计中大型语言模型(LLMs)研究的局限性进行了批判性分析。此外,我们提出了潜在的未来研究方向,包括开发领域特定的 LLMs、探索多模态 LLMs、促进人与 LLM 的互动、使用 LLMs 进行算法评估和理解 LLM 行为、推进全自动算法设计,以及为系统评估 LLM 在算法设计中的表现进行基准测试。这一讨论旨在激发新的方法并促进该领域的进一步发展。
第一阶段 数据提取和收集:我们通过谷歌学术、科学网和 Scopus 收集相关论文。我们的搜索逻辑是标题必须包含以下两组词语中至少一组的任意组合:“LLM”、“LLMs”、“大型语言模型”、“算法”、“启发式”、“搜索”、“优化”、“优化器”、“设计”、“方法”(例如,LLM 和优化,LLMs 和算法)。在移除重复的论文后,截至 2024 年 7 月 1 日,我们共收集到 850 篇论文。 第二阶段 摘要筛选:我们检查每篇论文的标题和摘要,以有效排除不相关的论文。排除的标准包括这些论文不是英文的,不是用于算法设计的,没有使用大型语言模型的。扫描后,剩余 260 篇论文。 第三阶段 全文筛选:我们彻底审查每篇论文,排除缺乏相关内容的论文。扫描后,剩余 160 篇论文。 第四阶段补充:根据对该领域的了解,我们手动添加了一些相关的工作,以避免遗漏任何重要的贡献。在整合了额外的论文后,我们最终得到了 180 多篇论文。我们将首先介绍 LLM4AD 论文列表的概览,然后提出一个分类法来系统地回顾进展。除了组织好的论文列表之外,我们还纳入了 2024 年 7 月 1 日之后发布的一些重要出版物。
LLMaO 把 LLMs 用作算法框架内的黑盒优化器。将 LLMs 整合到优化任务中,充分利用它们理解和生成复杂模式和解决方案的能力,以及在提示工程中的良好灵活性。然而,由于它们的黑盒性质,它们通常缺乏可解释性,并在面对大规模问题时面临挑战。 LLMaP 使用 LLMs 作为代理模型,预测结果或响应,功能上大体可以分为分类或回归两类。与其他基于模型的预测器(如高斯过程和传统神经网络)相比,1) LLMs 能够基于其在庞大数据集上接受的训练,处理和生成类人响应。这种能力使它们能够理解和解释数据中的复杂模式,适用于传统建模技术可能因数据的复杂性和复杂表示而难以应对的任务。2) 预训练的 LLMs 可以显著减少与训练高保真模型相比所需的计算负载和时间。 LLMaE 利用 LLMs 挖掘和提取目标问题和(或)算法中的嵌入特征或特定知识,然后在解决新问题中利用这些特征。这一过程利用了 LLMs 的独特和强大的能力,如文本和代码理解,使它们能够识别数据中可能通过传统特征提取方法无法处理或理解的模式和关系。 LLMaD 直接创建算法或特定组件。这种范式充分利用了 LLMs 的语言处理、代码生成和推理能力。LLMs 通过生成启发式算法、编写代码片段或设计函数,进一步推动了算法设计自动化,显著加速算法设计过程,减少人力劳动,并可能为算法开发带来创造性和更好的设计。这是单靠传统算法设计方法难以实现的。
算法设计大模型 与使用通用的预训练 LLMs 不同,研究如何专门训练 LLM 以自动设计算法是值得的。在开发领域特定 LLM 时可以探索以下几个方面:1)训练领域 LLM 成本高且资源消耗大。借助领域数据和知识可以减小特定应用的算法 LLM 的规模。2)算法设计生成和收集领域数据存在挑战。与通用代码生成或语言处理任务不同,没有专门用于算法设计的大型且格式化的数据。3)与其学习一个文本和代码生成模型,如何学习算法开发思想和算法推理能力仍是一个未探索的问题。 多模态 LLM 现有的 LLM4AD 工作主要集中在利用 LLM 的文本理解和生成能力,无论是在语言、代码还是统计方面。与传统的基于模型的优化相比,LLM 的一个优势是它们能像人类一样处理多模态信息,这一点很少被研究。已经有一些尝试展示了在算法设计中融入多模态信息的优势,预计将开发更多利用多模态 LLM 的方法和应用。 人类 - 大模型交互 需要进一步研究 LLM 与人类专家在算法设计中的互动。例如,在 LLMaD 工作中,LLM 可以被视为智能代理,使人类专家可以介入并接管生成、修改和评估算法等任务。研究如何促进 LLM 与人类专家之间高效且富有成效的合作将是有价值的。可以为此目的使用群体智能中的思想和技术。 基于 LLM 的算法评估 LLM 在算法评估中可能是有帮助的。已经进行了一些尝试来自动评估算法和评估算法设计。例如,已有工作利用基础模型自动生成定义下一个可学习任务的代码,通过生成环境和奖励函数,能够为算法评估创建各种模拟学习任务。我们期待更多关于基于 LLM 的算法评估的研究。 理解 LLM 的行为 在大多数研究中,LLM 作为一个黑盒模型运作。解释 LLM 的行为不仅能丰富我们对 LLM 行为的理解,还有助于那些直接请求 LLM 困难或成本高昂的情况。已经有一些尝试来近似和理解 LLM 在解决方案生成中的上下文学习行为。例如,已有人设计了一个白盒线性算子来近似 LLM 在多目标进化优化中的结果。尽管有这些初步尝试,如何解释 LLM 的行为在许多算法设计案例中仍是一个开放的问题,包括启发式生成和想法探索。 全自动算法设计 全自动算法设计面临两个主要挑战:1) 生成新的算法思想;2) 创建复杂、冗长的代码。虽然一些研究已经探讨了新思想的生成,但完整的算法设计(而不仅是启发式组件),包括启发式组件和详细的代码实现,仍然是一个挑战。现有应用通常专注于自动化预定义算法框架内的组件,而不是从头开始创建新算法。未来的研究需要解决这些复杂性,以推进全自动算法设计领域的发展。 LLM4AD 的标准测试集和平台 标准测试集能促进进行公平、标准化和便捷的比较。虽然我们很高兴见证了多样化的研究工作和应用的出现,但仍然缺乏对基于 LLM 的算法设计的系统和科学的标准评估手段。未来,预计会有更多的基准测试出现,它们将在推进 LLM4AD 方面发挥关键作用。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com