无需参数访问！CMU用大模型自动优化视觉语言提示词 | CVPR’24

科技 2024-11-05 12:40 北京

林之秋投稿
量子位 | 公众号 QbitAI

视觉语言模型（如 GPT-4o、DALL-E 3）通常拥有数十亿参数，且模型权重不公开，使得传统的白盒优化方法（如反向传播）难以实施。

那么，有没有更轻松的优化方法呢？

就在最近，卡内基梅隆大学（CMU）的研究团队对于这个问题提出了一种创新的“黑盒优化”策略——

通过大语言模型自动调整自然语言提示词，使视觉语言模型在文生图、视觉识别等多个下游任务中获得更好的表现。

这一方法不仅无需触及模型内部参数，还大幅提升了优化的灵活性与速度，让用户即使没有技术背景也能轻松提升模型性能。

该研究已被 CVPR 2024 接收。

如何做到的？

大多数视觉语言模型（如 DALL-E 3、GPT-4o 等）并未公开模型权重或特征嵌入，导致传统依赖反向传播的优化方式不再适用。

不过，这些模型通常向用户开放了自然语言接口，使得通过优化提示词来提升模型表现成为可能。

然而，传统的提示词工程严重依赖工程师的经验和先验知识。

例如，为提升 CLIP 模型的视觉识别效果，OpenAI 花费了一年时间收集了几十种有效的提示词模板（如 “A good photo of a [class]”）。

同样，在使用DALL-E 3和Stable Diffusion等文生图模型时，用户往往也需掌握大量提示词技巧才能生成满意的结果。

那么，有没有替代人类提示词工程师的方法？

有的 CMU 团队提出了一种新策略：用 ChatGPT 等大语言模型自动优化提示词。

像提示词工程师利用反馈改进提示词一样，CMU 的方法将正负反馈交给 ChatGPT，以更高效地调整提示词，具体过程如图所示：

这种优化过程类似于机器学习中的“爬山法”（hill-climbing）策略，不同之处在于大语言模型可以自动分析提示词表现，从正负反馈中找到最优改进方向。

研究团队利用这一特性来更高效地优化提示词。这个过程可以用以下步骤概括：

提示词初始化：收集一批未经优化的初始提示词。
提示词排序：对当前提示词进行表现评分，保留高分提示词，替换低分提示词。
生成新提示词：通过大语言模型，根据提示词的表现生成新的候选提示词。

经过多轮迭代，最终返回得分最高的提示词作为优化结果。

实验结果

通过这一方法，CMU 团队在无需人类提示工程师参与的情况下，在多个小样本视觉识别数据集上取得了最佳准确性，甚至超越了传统的白盒提示词优化方法（如 CoOp）。

此外，该方法在无需了解数据集内容的前提下，自动捕捉到了下游任务的视觉特性并将其融入提示词中，取得了更好的效果。

例如，在食物识别任务中，ChatGPT 自动将提示词调整为识别“多样化的美食和原料”，从而提升了模型的表现。

研究团队还证明了，通过 ChatGPT 黑盒优化得到的提示词不仅适用于单一模型架构，还能在不同模型架构（如 ResNet 和 ViT）之间泛化，并且在多种模型上表现优于白盒优化得到的提示词。

这一系列实验证明，大语言模型能够从提示词的性能反馈中提取出隐含的“梯度”方向，从而实现无需反向传播的模型优化。

在文生图任务中的应用

CMU 团队进一步探索了该方法在生成任务中的应用潜力。

在文本到图像生成（T2I）任务中，ChatGPT 能够自动优化提示词，从而生成更符合用户需求的高质量图像。

例如，对于输入描述“一个动物注视着一个人”，系统可以通过逐步优化提示词来提升生成图像的准确性。

此外，这一方法还适用于提示反演（Prompt Inversion）。

提示反演是一种根据现有图像反推生成模型输入提示词的技术，简单来说，就是通过图像生成能够再现其特征的文本描述（提示词）。

研究团队在复杂的文本到图像任务上进行了测试，结果表明这一方法仅需三轮提示词优化，就能显著提高用户的满意度。

此外，研究团队还指出，提示反演可以帮助用户快速定制特定的图像效果，例如“让这只狗变成站立姿势”或“让背景变成夜景”，从而生成符合特定需求的图像。

CMU 团队表示，提出的黑盒优化范式突破了传统模型调优的限制，不仅在图像分类和生成任务中表现出色，还展示了广泛的应用潜力。

这一方法无需访问模型权重，仅通过“文本梯度”实现精准优化，具备强大的扩展性。

未来，黑盒优化有望应用于实时监控、自动驾驶、智能医疗等复杂动态场景，为多模态模型的调优带来更加灵活高效的解决方案。

团队介绍

团队的一作刘士弘（Shihong Liu）是卡内基梅隆大学的研究生毕业生，曾任机器人研究所研究员。

目前在北美Amazon 工作，负责大型分布式系统的计算和大语言模型驱动的 AI Agent 的开发。

△刘士弘（Shihong Liu）

团队的共同一作林之秋（Zhiqiu Lin）是卡内基梅隆大学的博士研究生，专注于视觉-语言大模型的自动评估与优化。

Zhiqiu Lin在CVPR、NeurIPS、ICML、ECCV等顶级会议上发表了十数篇论文，并曾荣获最佳论文提名和最佳短论文奖等。

△林之秋（Zhiqiu Lin）

Deva Ramanan教授是计算机视觉领域的国际知名学者，现任卡内基梅隆大学教授。

△Deva Ramanan教授

他的研究涵盖计算机视觉、机器学习和人工智能领域，曾获得多项顶级学术荣誉，包括2009年的David Marr奖、2010年的PASCAL VOC终身成就奖、2012年的IEEE PAMI青年研究员奖、2012年《大众科学》评选的“十位杰出科学家”之一、2013年美国国家科学院Kavli Fellow、2018年和2024年的Longuet-Higgins奖，以及因其代表性工作（如COCO数据集）获得的Koenderink奖。

此外，他的论文在CVPR、ECCV和ICCV上多次获得最佳论文提名及荣誉奖。他的研究成果对视觉识别、自动驾驶、和人机交互等应用产生了深远影响，是该领域极具影响力的科学家之一。

CVPR’24论文链接:
https://arxiv.org/abs/2309.05950

论文代码:
https://github.com/shihongl1998/LLM-as-a-blackbox-optimizer

项目网站：
https://llm-can-optimize-vlm.github.io

— 完 —

投稿请发邮件到：

ai@qbitai.com

标题注明【投稿】，告诉我们：

你是谁，从哪来，投稿内容‍

附上论文/项目主页链接，以及联系方式哦

我们会（尽量）及时回复你

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

http://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247756623&idx=5&sn=149f131c341a7d1308af0b7866cec2a9

量子位

追踪人工智能新趋势，关注科技行业新突破

最新文章

“清华AI医院”上线！首批42位AI医生亮相，诊断覆盖300余种疾病

国产4o大模型，秒懂国风李子柒

人生搜索引擎免费用，开源版哈利波特“冥想盆”登GitHub热榜，支持中文

iPad可用AI绘画交互编辑神器火了，网友：颤抖吧PS

多样任务真实数据，大模型在线购物基准Shopping MMLU开源｜NeurIPS&KDD Cup 2024

定档12月11日，MEET2025智能未来大会报名通道已开启！

刚刚，星舰第六次试验成功！猛禽发动机实现“太空重启”，降落过程大秀身姿

2499，AI浓度爆表！戴上这副眼镜，一句话点咖啡/实时翻译/AR导航全搞定

特斯联首款通用智能体发布，实现对物理世界的高维感知

港科大具身机器人团队，连续获亿级融资

ChatGPT付费功能免费用！Mistral把Canvas、Artifact全复制了

Qwen2.5更新百万超长上下文，推理速度4.3倍加速，网友：RAG要过时了

AI自动操作VS Code，自然语言搞定各种配置，来自阿里通义智能计算实验室 | 开源

定档12月11日，MEET2025智能未来大会报名通道已开启！

腾讯AI大牛，被曝投身视频生成创业

北大等发布多模态版o1！首个慢思考VLM将开源，视觉推理超越闭源模型

猫猫运动方程，首次被物理学家破解！ |《美国物理学杂志》正经研究

如祺出行跑进智驾深水区 “数据闭环”为技术迭代提供更优解

智能交互创新赛落幕，哈工大AI智能背诵助手拿下特等奖｜OPPO智能体平台

AI能办专属信用卡了，Agent自己赚钱自己花，OpenAI合作伙伴打造

AI一键解析九大生物医学成像模式，用户只需文字prompt交互，微软UW等新研究登Nature Methods

定档12月11日，MEET2025智能未来大会报名通道已开启！

ChatGPT击败50名人类医生！疾病诊断准确率达90%，OpenAI总裁：人机合作还得加强

打破纪录！中国科学家让薛定谔的猫活了23分钟

视频大模型无损提速：删除多余token，训练时间减少30%，帧率越高效果越好 | NeurIPS

实测腾讯元宝2.0：图文视频啥都能搜，论文绘画全搞定

杨植麟发布Kimi新模型：数学对标o1，中考高考考研成绩全第一

航展附近这场无人机编队表演，竟用了钉钉AI助理出的方案

量化能让大模型“恢复记忆”，删掉的隐私版权内容全回来了，SU哈佛亚马逊最新研究引热议

不做Sora背后：百度的多模态路线是什么？

马斯克新官上任再起诉OpenAI！新证据称Ilya七年前就不放心奥特曼了

人大&港科大揭示大模型重要安全风险漏洞：利用概念激活向量破解大模型的安全对齐｜NeurIPS 2024

多个中国团队斩获EMNLP'24最佳论文！UCLA华人学者中三篇杰出论文，明年顶会落户苏州

谷歌杀回来了！新版Gemini跑分超o1登顶第一，CEO：这才哪到哪儿

ChatGPT深夜更新：Mac版支持“读屏编程”，Windows版全员可用了

AI在《我的世界》PK盖楼，新旧Claude差距过于明显，网友：审美也是智力的一种

最后1天！2024人工智能年度评选，AI时代的行业先锋就等你来

大模型上了火山方舟：数据唯你可见，唯你所用，唯你所有

李飞飞吴佳俊团队新作：推出具身智能决策能力评价基准，o1-preview登顶 | NeurIPS

Scaling Law遭遇瓶颈，OpenAI被曝押注智能体“Operator”

Meta最新触觉机械手登Science子刊封面，操作未知物体精度最高提升94%

大模型“取长补短”新思路入选NeurIPS'24，显著优于现有路由方法，南科大港科大出品

最后2天！2024人工智能年度评选，AI时代的行业先锋就等你来

把Runway、Luma们一锅端了！这款视频模型上“杀手级”功能：一致性魔咒终于打破

Keras之父，离职谷歌

百度打通两大国民产品！六边形AI创作新物种「自由画布」来了

小度为何押注AI眼镜？

今日最热论文：Scaling Law后继乏力，量化也不管用，AI大佬齐刷刷附议

稚晖君后宇树也来玩开源了：机器人操作数据集，采用抱抱脸LeRobot训练测试，网友：泰裤辣！

最后3天！2024人工智能年度评选，AI时代的行业先锋就等你来

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

无需参数访问！CMU用大模型自动优化视觉语言提示词 | CVPR’24

林之秋 投稿量子位 | 公众号 QbitAI

如何做到的？

实验结果

在文生图任务中的应用

团队介绍

△刘士弘（Shihong Liu）

△林之秋（Zhiqiu Lin）

△Deva Ramanan教授

林之秋投稿
量子位 | 公众号 QbitAI