今日值得关注的大模型前沿论文
MagicQuill:智能交互式图像编辑系统
AI 驱动的材料逆向设计:过去、现在和未来
FinVision:用于股市预测的多智能体框架
综述:智能体的安全、隐私和道德威胁
苹果提出切分交叉熵 CCE:减少大词汇量语言模型的损失
想要第一时间获取每日最新大模型热门论文?
点击阅读原文,查看“2024必读大模型论文”
ps:我们日常会分享日报、周报,后续每月也会出一期月报,敬请期待~
MagicQuill:智能交互式图像编辑系统
图像编辑涉及各种复杂的任务,需要高效、精确的操作技术。在这项工作中,来自香港科技大学和蚂蚁集团的研究团队提出了 MagicQuill,这是一个能够快速实现创意想法的集成图像编辑系统。该系统拥有精简但功能强大的界面,只需极少的输入就能进行清晰的编辑操作(如插入元素、擦除对象、更改颜色)。这些交互由多模态大语言模型(MLLM)监控,实时预测编辑意图,从而避免了明确的提示输入。最后,他们应用了强大的扩散先验,并通过精心学习的双分支插件模块进行增强,以精确控制的方式处理编辑请求。实验结果证明了 MagicQuill 在实现高质量图像编辑方面的有效性。
论文链接:
https://arxiv.org/abs/2411.09703
项目地址:
https://magicquill.art/demo/
AI 驱动的材料逆向设计:过去、现在和未来
材料的结构及其相应的性能本质上是晶格、电荷、自旋、对称性和拓扑等多个自由度复杂相互作用的结果。这给材料的逆向设计方法带来了巨大挑战。长期以来,人类通过大量实验探索新材料,并提出相应的理论体系来预测新材料的性能和结构。随着计算能力的提高,研究人员逐渐发展出各种电子结构计算方法,尤其是基于密度泛函理论的电子结构计算方法,以及高通量计算方法。
近年来,计算机科学领域人工智能技术的飞速发展使人们能够有效地表征材料性能与结构之间的隐含关联,从而为功能材料的逆向设计开辟了有效的范式。基于生成模型和判别模型的材料逆向设计取得了重大进展,引起了研究人员的广泛关注。
考虑到这一快速的技术进步,中国人民大学团队在本调查中通过介绍背景、主要发现和主流技术发展路线,回顾了人工智能驱动的材料逆向设计的最新进展。此外,他们还总结了未来发展方向的遗留问题。本调查报告提供了人工智能驱动的材料逆向设计的最新概况,可作为研究人员的有用资源。
论文链接:
https://arxiv.org/abs/2411.09429
FinVision:用于股市预测的多智能体框架
金融交易一直是一项具有挑战性的任务,因为它需要整合来自各种模态的海量数据。传统的深度学习和强化学习方法需要大量的训练数据,通常需要将各种数据类型编码成数字格式供模型输入,这限制了模型行为的可解释性。最近,基于 LLM 的智能体在处理多模态数据方面取得了显著进步,使它们能够执行复杂的多步骤决策任务,同时还能深入了解它们的思维过程。
在这项工作中,来自伊利诺伊大学芝加哥分校的研究团队提出了一种专为金融交易任务设计的多模态多智能体系统。他们的框架采用了一个基于 LLM 的专业智能体团队,每个智能体都擅长处理和解释各种形式的金融数据,如文本新闻报道、蜡烛图(K 线图)和交易信号图。该方法的一个主要特点是集成了反思模块,对历史交易信号及其结果进行分析。这一反思过程有助于增强系统对未来交易情景的决策能力。此外,消融研究表明,视觉反射模块在增强该框架的决策能力方面发挥着至关重要的作用。
论文链接:
https://arxiv.org/abs/2411.08899
综述:智能体的安全、隐私和道德威胁
随着大语言模型(LLMs)的不断发展,基于 transformer 的模型在众多自然语言处理(NLP)任务中取得了突破性进展,从而出现了一系列使用 LLMs 作为控制中枢的智能体。虽然 LLM 在各种任务中取得了成功,但它们也面临着许多安全和隐私威胁,而这些威胁在智能体场景中变得更加严重。为了提高基于 LLM 的应用的可靠性,出现了一系列从不同角度评估和减轻这些风险的研究。
为了帮助研究人员全面了解各种风险,来自浙江大学的研究团队及其合作者收集并分析了这些智能体所面临的不同威胁。为了应对以往分类法在处理跨模块和跨阶段威胁方面的挑战,他们提出了一种基于来源和影响的新型分类框架。此外,他们还确定了基于 LLM 的智能体的六个关键特征,并在此基础上总结了当前的研究进展,分析了其局限性。随后,他们选择了四个具有代表性的智能体作为案例,分析它们在实际使用中可能面临的风险。最后,基于上述分析,他们分别从数据、方法和政策的角度提出了未来的研究方向。
论文链接:
https://arxiv.org/abs/2411.09523
苹果提出切分交叉熵 CCE:减少大词汇量语言模型的损失
随着语言模型越来越大,其词汇量也越来越大。这使得大语言模型(LLM)在训练过程中的内存占用不成比例地转移到了单层上:损失计算中的交叉熵。交叉熵会建立一个对数矩阵,其中包含每一对输入 token 和词汇项的条目,对于小模型而言,其消耗的内存比 LLM 其他部分的总和还要多出一个数量级。
在这项工作中,苹果团队提出的切分交叉熵(CCE)是一种计算交叉熵损失的方法,无需将所有 token 的对数具体化到全局内存中。相反,CCE 只计算正确 token 的对数,并对所有对数的 log-sum-exp 进行快速评估。他们实施了一个自定义内核,在闪存中对词汇进行矩阵乘法和 log-sum-exp 缩减,使得交叉熵计算的全局内存消耗可以忽略不计。这将产生显著效果。
以 Gemma 2 (2B) 模型为例,CCE 将损失计算的内存占用从 24 GB 减少到 1 MB,分类器头的总训练时间内存消耗从 28 GB 减少到 1 GB。为了提高 CCE 的吞吐量,他们利用 softmax 固有的稀疏性,建议跳过梯度计算中对梯度贡献微不足道(即低于数值精度)的元素。实验证明,在不牺牲训练速度或收敛性的情况下,可以显著减少内存消耗。
论文标题:
https://arxiv.org/abs/2411.09009
GitHub 地址:
https://github.com/apple/ml-cross-entropy
整理:李雯靖
如需转载或投稿,请直接在公众号内留言