本期为TechBeat人工智能社区第643期线上Talk。
长按识别二维码,一键预约TALK!
GPT-4o、DALL-E 3等模型在图像生成领域取得了令人惊讶的成绩,然而这些视觉语言模型通常拥有数十亿参数,且模型权重不公开,使得传统的白盒优化方法(如反向传播)难以实施。同时,即使这些模型通常向用户开放自然语言接口,传统的提示词工程严重依赖工程师的经验和先验知识。
本次Talk将介绍CMU近期发表在CVPR 2024上的‘Language Models as Black-Box Optimizers for Vision-Language Models’。团队创新性的提出利用大语言模型来有效的自动优化视觉语言模型在多个下游任务中的表现。这一方法不仅无需触及模型内部参数,还大幅提升了优化的灵活性与速度,让用户即使没有技术背景也能轻松提升模型性能。
2. 研究动机:模型权重不透明/人工提示词的难度较高且依赖先验
3. 解决方案:我们设计了一个以hill climbing及大语言模型为核心的自动优化框架,使得视觉语言模型在不依赖参数和人工先验的情况下有效得到改进。
4. 应用与延伸讨论:有关prompt engineering的一些应用思考以及相关的延伸思考。
Talk·预习资料
▼
论文链接:
https://arxiv.org/abs/2309.05950
项目主页:
https://github.com/shihongl1998/LLM-as-a-blackbox-optimizer
Talk·提问交流
▼
Talk·嘉宾介绍
刘士弘
个人主页:
https://www.techbeat.net/grzytrkj?id=42605
长按识别二维码,一键预约TALK!
-The End-
如果你也想成为讲者
▼
关于TechBeat人工智能社区
更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区