综述：智能体的安全、隐私和道德威胁；FinVision：用于股市预测的多智能体框架｜大模型日报

学术 2024-11-18 12:13 北京

今日值得关注的大模型前沿论文

MagicQuill：智能交互式图像编辑系统
AI 驱动的材料逆向设计：过去、现在和未来
FinVision：用于股市预测的多智能体框架
综述：智能体的安全、隐私和道德威胁
苹果提出切分交叉熵 CCE：减少大词汇量语言模型的损失
‍

想要第一时间获取每日最新大模型热门论文？
点击阅读原文，查看“2024必读大模型论文”

ps：我们日常会分享日报、周报，后续每月也会出一期月报，敬请期待～

MagicQuill：智能交互式图像编辑系统

图像编辑涉及各种复杂的任务，需要高效、精确的操作技术。在这项工作中，来自香港科技大学和蚂蚁集团的研究团队提出了 MagicQuill，这是一个能够快速实现创意想法的集成图像编辑系统。该系统拥有精简但功能强大的界面，只需极少的输入就能进行清晰的编辑操作（如插入元素、擦除对象、更改颜色）。这些交互由多模态大语言模型（MLLM）监控，实时预测编辑意图，从而避免了明确的提示输入。最后，他们应用了强大的扩散先验，并通过精心学习的双分支插件模块进行增强，以精确控制的方式处理编辑请求。实验结果证明了 MagicQuill 在实现高质量图像编辑方面的有效性。

论文链接：

https://arxiv.org/abs/2411.09703

项目地址：

https://magicquill.art/demo/

AI 驱动的材料逆向设计：过去、现在和未来

材料的结构及其相应的性能本质上是晶格、电荷、自旋、对称性和拓扑等多个自由度复杂相互作用的结果。这给材料的逆向设计方法带来了巨大挑战。长期以来，人类通过大量实验探索新材料，并提出相应的理论体系来预测新材料的性能和结构。随着计算能力的提高，研究人员逐渐发展出各种电子结构计算方法，尤其是基于密度泛函理论的电子结构计算方法，以及高通量计算方法。

近年来，计算机科学领域人工智能技术的飞速发展使人们能够有效地表征材料性能与结构之间的隐含关联，从而为功能材料的逆向设计开辟了有效的范式。基于生成模型和判别模型的材料逆向设计取得了重大进展，引起了研究人员的广泛关注。

考虑到这一快速的技术进步，中国人民大学团队在本调查中通过介绍背景、主要发现和主流技术发展路线，回顾了人工智能驱动的材料逆向设计的最新进展。此外，他们还总结了未来发展方向的遗留问题。本调查报告提供了人工智能驱动的材料逆向设计的最新概况，可作为研究人员的有用资源。

论文链接：

https://arxiv.org/abs/2411.09429

FinVision：用于股市预测的多智能体框架

金融交易一直是一项具有挑战性的任务，因为它需要整合来自各种模态的海量数据。传统的深度学习和强化学习方法需要大量的训练数据，通常需要将各种数据类型编码成数字格式供模型输入，这限制了模型行为的可解释性。最近，基于 LLM 的智能体在处理多模态数据方面取得了显著进步，使它们能够执行复杂的多步骤决策任务，同时还能深入了解它们的思维过程。

在这项工作中，来自伊利诺伊大学芝加哥分校的研究团队提出了一种专为金融交易任务设计的多模态多智能体系统。他们的框架采用了一个基于 LLM 的专业智能体团队，每个智能体都擅长处理和解释各种形式的金融数据，如文本新闻报道、蜡烛图（K 线图）和交易信号图。该方法的一个主要特点是集成了反思模块，对历史交易信号及其结果进行分析。这一反思过程有助于增强系统对未来交易情景的决策能力。此外，消融研究表明，视觉反射模块在增强该框架的决策能力方面发挥着至关重要的作用。

论文链接：

https://arxiv.org/abs/2411.08899

综述：智能体的安全、隐私和道德威胁

随着大语言模型（LLMs）的不断发展，基于 transformer 的模型在众多自然语言处理（NLP）任务中取得了突破性进展，从而出现了一系列使用 LLMs 作为控制中枢的智能体。虽然 LLM 在各种任务中取得了成功，但它们也面临着许多安全和隐私威胁，而这些威胁在智能体场景中变得更加严重。为了提高基于 LLM 的应用的可靠性，出现了一系列从不同角度评估和减轻这些风险的研究。

为了帮助研究人员全面了解各种风险，来自浙江大学的研究团队及其合作者收集并分析了这些智能体所面临的不同威胁。为了应对以往分类法在处理跨模块和跨阶段威胁方面的挑战，他们提出了一种基于来源和影响的新型分类框架。此外，他们还确定了基于 LLM 的智能体的六个关键特征，并在此基础上总结了当前的研究进展，分析了其局限性。随后，他们选择了四个具有代表性的智能体作为案例，分析它们在实际使用中可能面临的风险。最后，基于上述分析，他们分别从数据、方法和政策的角度提出了未来的研究方向。

论文链接：

https://arxiv.org/abs/2411.09523

苹果提出切分交叉熵 CCE：减少大词汇量语言模型的损失

随着语言模型越来越大，其词汇量也越来越大。这使得大语言模型（LLM）在训练过程中的内存占用不成比例地转移到了单层上：损失计算中的交叉熵。交叉熵会建立一个对数矩阵，其中包含每一对输入 token 和词汇项的条目，对于小模型而言，其消耗的内存比 LLM 其他部分的总和还要多出一个数量级。

在这项工作中，苹果团队提出的切分交叉熵（CCE）是一种计算交叉熵损失的方法，无需将所有 token 的对数具体化到全局内存中。相反，CCE 只计算正确 token 的对数，并对所有对数的 log-sum-exp 进行快速评估。他们实施了一个自定义内核，在闪存中对词汇进行矩阵乘法和 log-sum-exp 缩减，使得交叉熵计算的全局内存消耗可以忽略不计。这将产生显著效果。

以 Gemma 2 (2B) 模型为例，CCE 将损失计算的内存占用从 24 GB 减少到 1 MB，分类器头的总训练时间内存消耗从 28 GB 减少到 1 GB。为了提高 CCE 的吞吐量，他们利用 softmax 固有的稀疏性，建议跳过梯度计算中对梯度贡献微不足道（即低于数值精度）的元素。实验证明，在不牺牲训练速度或收敛性的情况下，可以显著减少内存消耗。

论文标题：

https://arxiv.org/abs/2411.09009

GitHub 地址：

https://github.com/apple/ml-cross-entropy

整理：李雯靖

如需转载或投稿，请直接在公众号内留言

http://mp.weixin.qq.com/s?__biz=Mzg4MDE3OTA5NA==&mid=2247593754&idx=2&sn=cd8ce7a686122162d7a35ee3f5d225a0

学术头条

致力于学术传播和科学普及，重点关注AI4Science/大模型等前沿科学进展。

最新文章

谷歌AlphaQubit重磅发布，实时为量子计算机纠错，研究登上Nature

机器人「手转」钢笔，100% 成功率；文继荣团队：通过奖励引导树搜索增强 LLM 推理｜大模型日报

五大建议！OpenAI最强竞对Anthropic：正确的大模型评测应该是怎样的？

大模型后训练新范式，中科院、阿里和小红书团队提出“验证器工程”｜大模型日报

清华、北大团队推出LLaVA-o1：让视觉语言模型逐步推理；快手推出检索框架KuaiFormer｜大模型日报

大揭密！马斯克与 OpenAI 的「混乱分手」内幕：人才争夺、AGI、权力斗争

Mistral 发布开源多模态模型 Pixtral Large，聊天助手 Le Chat 全面对标 ChatGPT

清华姚班校友马腾宇，发布了他的首个多模态嵌入模型：「多模态检索」实现SOTA

综述：智能体的安全、隐私和道德威胁；FinVision：用于股市预测的多智能体框架｜大模型日报

AI反诈“奶奶”上线，24小时花式套路诈骗分子；AMD 全球裁员4%，约1000人｜一周热门

性能提升在即！吴恩达谈 LLM 新方向：优化智能体工作流

国防科技大学推出 AI 材料科学家 MatPilot；Anthropic 提出 LLM 越狱缓解新方法｜大模型日报

深度访谈｜AI 如何改变预测科学？看看统计学家怎么说

AI斩获6枚金牌！华为Kaggle大师级智能体诞生，自主解决数据科学难题

OpenAI官方指南：12条实用建议，手把手教学生用ChatGPT写作

Stability AI出官方教程了，带你轻松玩转Stable Diffusion 3.5

哈佛、MIT提出「精度感知」Scaling Laws；首个金融LLM综合双语基准｜大模型日报

OpenAI首位投资者《时代》刊文：AI将重新定义「人类的意义」

华为科学智能体 Agent K v1.0已达 Kaggle 大师水平；Meta团队提出自一致性偏好优化ScPO｜大模型日报

终于，AlphaFold3 开源了！代码免费下载，可用于非商业用途

OpenAI大改下代大模型方向，scaling law撞墙？AI社区炸锅了

清华、国科大、智谱团队提出LongReward：利用AI反馈改进长文本大语言模型

创纪录！首幅人形机器人绘制作品拍出108万美元；王慧文回归美团，带队探索AI应用｜一周热门

智谱「新清影」是怎样炼成的？CogVideoX+CogSound 技术详解

AI 的「phone use」竟是这样练成的，清华、智谱团队发布 AutoGLM 技术报告

清华、北大团队推出「安卓智能体」训练评估新框架 AndroidLab

Nature重磅：AI化学家再升级！大幅提升实验效率，推动化学合成进入“智能化”新阶段

研究实锤：别让大模型「想」太多，OpenAI o1准确率竟下降36.3%

清华、北大团队推出「安卓智能体」训练评估框架AndroidLab；Meta提出视频生成加速方法AdaCache｜大模型日报

科研人神器！接入5000万篇正版文献，知乎直答「专业搜索」太能打了

Meta 推出全新视频扩散模型 MarDini；周靖人团队：扩散 Transformer 的上下文 LoRA｜大模型日报

NeurIPS 2024｜清华、加州理工重磅研究：强化自训练方法 ReST-MCTS*，让大模型持续“升级”

港大打造 LightRAG：让大模型 RAG 高效又便宜

深夜重磅！ChatGPT可以“AI搜索”了，但并不完美

OpenAI最新研究：「打假高手」大模型事实性基准SimpleQA来了，已开源

小语言模型SLM综述｜大模型论文日报

大模型已过时、小模型SLM才是未来？苹果正在研究这个

超出人类思维的「系统0」：AI正在创造一种新的思维方式吗？

中国AI大模型出海，如何应对美国管制？最新报告给出了5个建议｜附下载链接

Nature封面：“揭穿”一切！Google DeepMind为AI大模型添加了“隐形指纹”

困扰18亿人的“全球干旱”，被AI更准确预测了

OpenAI又有高管走了，还发了篇长文

前OpenAI研究员：我必须离开；a16z创始合伙人：当前AI发展就像“卖大米”｜一周热门

刚刚，智谱推出情感语音模型 GLM-4-Voice，懂你的情绪，人人可用

不止 computer use，AI 的「phone use」也来了

今天，把电脑交给大模型

清华、腾讯团队提出预训练语言模型知识蒸馏框架 MiniPLM｜大模型论文日报

来了！Stability AI 推出 Stable Diffusion 3.5

深夜重磅！Anthropic 推出 Claude 3.5 Sonnet 升级版和 Claude 3.5 Haiku

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉