首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

视觉语言模型（VLMs）：复合人工智能系统的未来

文摘 2024-11-29 07:40 美国

在这篇文章中，我将带你深入探讨视觉语言模型（VLMs），并解释为什么我认为它们代表了复合人工智能系统的未来发展方向。

首先，我们会从基础概念入手，了解开发用于图像搜索的多模态神经网络的基本原理和训练流程。同时，我会分享这些模型背后的设计原则、技术挑战，以及架构如何实现多模态协同。

最后，我还会展示我们如何利用一个 AI 驱动的搜索产品高效处理图像和文本数据，并探讨引入 VLM 之后所带来的突破性变化。

什么是 VLMs？

近年来，拥有数十亿甚至数百亿参数的大型语言模型（LLMs）早已屡见不鲜。它们广泛应用于各个领域，但研究重心正在向多模态模型（又称“全能模型”）转移。这些模型能够同时理解和处理不同类型的数据，例如文本和图像，为下一代人工智能的能力拓展了更多可能性。

接下来，让我们一步步揭开 VLMs 的神秘面纱吧！

今天的语言驱动型机器学习模型已经相对先进且通用。一个模型可以翻译、总结、识别语音标签等。

我们将讨论分析和解释图像所描绘内容的图像判别模型。在深入了解技术细节之前，考虑这些模型可以解决的问题。以下是一些示例：

顶部左图：通过文本提示，要求模型描述图像内容。
顶部中间图像：要求模型对图像进行解释。
右上角图像：要求模型解读图像并预测遵循标志指示可能发生的情况。
底部图像：这是最复杂的示例，给模型提供了一些数学问题。通过这些例子，可以看出模型任务的范围非常广泛且多样化。

VLMs 是计算机视觉领域的新前沿，能够在零样本和单样本模式下解决各种基本 CV 相关任务（分类、检测、描述）。

LLM 是一种文本模型（在我们的案例中是 YandexGPT），它无法理解图像。图像编码器是一个处理图像的模型（如 CNN 或视觉 Transformer），但它无法理解文本。适配器则作为两者之间的调解者，确保 LLM 和图像编码器能够协作。

整个管道流程相当直接：将图像输入到图像编码器中，通过适配器将图像编码器的输出转换为某种表示形式，并将这种表示集成到 LLM 中。在图像处理的同时，将文本指令转换为标记序列并输入到 LLM 中进行进一步处理。

我们取图像编码器的输出（一个向量、一系列向量或一个张量——取决于架构）并将其转换为一系列向量（标记），然后将其输入到LLM。你可以使用一个简单的 MLP 模型（带有几层）并将其用作适配器，结果可能会相当不错。

首先，请注意，VLMs 并非从头开始训练（尽管我们认为这只是时间问题），而是基于预训练的LLMs和图像编码器构建的。使用这些预训练模型，我们在多模态文本和图像数据上微调我们的 VLM。

为了更快更方便地更新管道，我们引入一个独立的 VLM 块要容易得多。

为了重申上述观点，我们坚信 VLMs 是计算机视觉模型的未来。

VLMs 已经能够解决许多即插即用的难题。稍加微调，它们绝对能够提供最先进的质量。

参考：https://towardsdatascience.com/an-introduction-to-vlms-the-future-of-computer-vision-models-5f5aeaafb282

AI技术研习社

专注分享人工智能、大模型、算法、大数据开发、数据分析领域的技术干货和落地实践！

最新文章

LLMs开发者必看！Pydantic AI代理框架震撼登场！

Long Term Memory：揭开人工智能自我进化的核心秘密！

手把手教你打造通用型LLM智能体，一文读懂核心原理！

3 大智能体开发平台详细对比：FastGPT、Dify和Coze

RAG内容生成革新：STORM与Co-STORM引领智能检索与人类协作

2025年Agents预测：知识研究领域Agent将迎来革命性突破！（附Top 3免费工具推荐）

RAG as a Service：开发者必备的新晋神器！

VLM论文深度解析：揭秘多模态大模型如何联动权重、任务与视觉嵌入

RAGAs评估工具：用指标与LLM优化你的RAG管道性能

视觉语言模型（VLMs）：复合人工智能系统的未来

《LLM 推理必知参数，全网最全解析！》

架构师必修之项目篇：基于ASR+GPT4.0+TTS实现全双工智能语音助手

Mobile-Agent重磅来袭：视觉感知+多模态智能助理，玩手机更高效！

LLM加速全攻略：教你降本增效，提升响应速度的必备技巧！

构建Agent应用：Development Roadmap

检索增强生成（RAG）：解密AI如何融合记忆与搜索

揭秘汽车语音助手：从语音识别到智能回复的全流程解析！

RAG 和 RAU：自然语言处理中检索增强语言模型的调查

RAG 驱动的 NER：构建自定义模型的入门指南

基于BERT的对话意图和槽位联合识别模块

GLM-4-Plus上线：杀进“世界前三”，它真的好用吗？

揭秘RAG背后的人机对话流程：从语音识别到智能生成

揭秘RAG：全方位解析RAG检索中的意图识别，如何助力智能问答

Agent智能大揭秘：企业如何利用AI代理驱动高效增长！

LLMs+SQL：用自然语言轻松搞定数据查询，彻底解锁数据库潜能！

秒懂LLM流式输出的SSE原理！一文带你搞定SSE实现和Python实战案例

RAG实战：打造可扩展的智能文档系统：终极 RAG 管道全解析

RAG工具：FlashRAG用于高效 RAG 研究的 Python 工具包

重磅上线！ChatGPT引入Search功能，秒查秒懂新体验！

RAG评估：RAGChecker重磅发布！精准诊断RAG系统的全新细粒度框架！

RAGFlow重磅开源！基于深度文档理解的智能检索神器！

从零开始，用万行代码打造专属向量数据库！

揭秘RAG神器！如何通过上下文检索与混合搜索打造超强生成效果

IM-RAG：解锁AI内心独白，多轮检索增强生成新突破！

Agent实战：基于大模型的Agent技术框架开发实战

重磅发布！Claude 3.5 Sonnet上线，首个能像人类操作电脑的AI，官方提示词全解密！

多模态RAG-ColPali：使用视觉语言模型实现高效的文档检索

LightRAG：创新双级检索系统，整合图形结构，实现更强大信息检索！

颠覆传统生成方式！Adaptive RAG：实时学习、智能调整的下一代检索增强技术

颠覆传统RAG！Corrective-RAG引入自我反思与自我评估，让文档检索更智能更精准！

国内首部以“生成式人工智能”为应用背景的知识产权标准，诚邀参编！

揭秘Self-RAG：引领大型语言模型生成质量的新潮流！

初识 OpenAI 的 Swarm：轻量级、多智能体系统的探索利器

MemoRAG重磅登场：彻底革新AI问答的长期记忆功能！

颠覆RAG性能！揭秘多头RAG的强大优化秘诀

解锁RAG架构：必知的6种提升AI内容生成的检索增强技术（二）

解锁RAG架构：必知的6种提升AI内容生成的检索增强技术（一）

可控 Text2Image：打造您想要的完美图像生成神器

揭秘RAG多模态应用：Text2Image检索开源项目

揭秘顶级 RAG 技术，不可错过的关键知识！

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉