清华姚班校友马腾宇，发布了他的首个多模态嵌入模型：「多模态检索」实现SOTA

文摘 2024-11-19 18:03 北京

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

清华姚班校友马腾宇和他的团队，推出了自创业以来的首个多模态嵌入模型 voyage-multimodal-3，而且发布即“SOTA”。

据介绍，在对 3 个多模态检索任务（共 20 个数据集）进行评估时，voyage-multimodal-3 比第二名平均高出了 19.63% 的检索准确率。这是为包含丰富视觉和文本的文档提供无缝 RAG 和语义搜索的重要进展。

去年 11 月，已为斯坦福大学助理教授的马腾宇，正式宣布了他的大模型创业项目 Voyage-AI，旨在提供 SOTA 嵌入模型，为企业的智能检索提供超级动力，推动检索增强生成（RAG）和可信赖的大语言模型（LLM）应用的发展。

据 Voyage-AI 官网显示，他们的学术顾问十分豪华，包括斯坦福大学首位红杉讲席教授李飞飞、斯坦福大学教授 Christopher Manning 和斯坦福大学副教授 Christopher Ré 等。9 月，Voyage-AI 完成了 2000 万美元 A 轮融资，总融资额达到 2800 万美元。

据介绍，与现有的多模态嵌入模型不同，voyage-multimodal-3 能够对交错文本和图像进行矢量化处理，并从 PDF、幻灯片、表格、数字等截图中捕捉关键视觉特征，而无需进行复杂的文档解析。

voyage-multimodal-3 支持文本和内容丰富的图像，如文本截图、数字、表格、PDF、幻灯片等。由此产生的矢量可捕捉关键的文本和视觉特征，如字体大小、文本位置、空白等。这消除了基于启发式的文档解析的需要，因为当布局复杂或穿插数字和照片时，启发式文档解析往往难以保证准确性。与处理单一文本或图片输入的现有多模态嵌入模型不同，voyage-multimodal-3 允许交错文本和图片，以实现最大的灵活性。

voyage-multimodal-3 的架构类似于视觉语言 transformers。这使得它与现有的多模态嵌入模型显著不同，包括但不限于 OpenAI CLIP large (clip-vit-large-patch14-336) 和 Cohere multimodal v3 (embed-multimodal-v3.0)）。

在对 20 个多模态检索数据集和 34 个文本检索数据集进行的一组评估中，voyage-multimodal-3：

在表格/图表检索方面，平均分别比 OpenAI CLIP large 和 Cohere multimodal v3 高出 41.44%（提高 2.1 倍）和 43.37%（提高 2.2 倍）；在文档截图检索方面，分别比 OpenAI CLIP large 和 Cohere multimodal v3 高出 26.54% 和 25.84%；在文本到图片检索方面，分别比 OpenAI CLIP large 和 Cohere multimodal v3 高出 6.55% 和 5.86%。
在纯文本数据集方面，分别比 OpenAI v3 large 和 Cohere multimodal/English1 v3 高出 5.13% 和 13.70%。

支持交错文本和图像

所有现有的常用多模态嵌入模型（如 Amazon Titan Multimodal G1、Google Vertex AI multimodal 和 Cohere multimodal v3）都基于 OpenAI 的 CLIP，其通过独立网络处理不同模态的数据。换句话说，图像必须通过视觉塔（vision tower）进行矢量化，而文本必须通过文本塔（text tower）进行矢量化，无法处理交错数据。

相反，voyage-multimodal-3 在同一个 transformer 编码器中直接对两种模态的数据进行矢量化，确保文本和视觉特征都被视为统一表征的一部分，而不是截然不同的组件。这模仿了最新视觉语言模型的架构，只是用于矢量化而非生成。因此，交错文本和图像、文档截图、具有复杂布局的 PDF 文件、带注释的图像等都能以保留视觉信息和文本信息之间上下文关系的方式进行矢量化。

利用截图进行混合模态搜索

由于模态差距（modality gap）这一现象，所有类似 CLIP 的模型在混合模态搜索方面都表现不佳。如下图所示，与“第七十七届国会成员，我向你们致辞......”片段最接近的向量不是其截图，而是其他文本。这导致搜索结果偏向于相同模态的条目；换句话说，在嵌入空间中，文本向量将更接近无关文本，而不是相关图片。

为了从数量上说明这个问题，他们进行了一项涉及混合模态数据的实验。他们创建了两套内容相同的 PyTorch 文档：一套是纯文本（字符串），另一套是屏幕截图。通过将基于文本的文档子集与剩余子集的屏幕截图相结合，他们创建了一系列混合模态数据集。每个数据集代表不同比例的文本和屏幕截图，屏幕截图的比例从 0% 到 100% 不等。然后，他们在这些数据集上评估了各种多模态模型的检索准确性，报告了每个模型在不同截图比例下的归一化折算累积增益（NDCG@10）。

如上图所示，当屏幕截图的比例增加到 90% 时，基于 CLIP 的模型的检索质量就会下降，这凸显了受模态影响的检索偏差。

相比之下，voyage-multimodal-3 不仅在所有比例下都表现更好，而且在所有情况下几乎没有性能下降，这表明矢量真正捕捉到了截图中包含的语义内容。

有了 voyage-multimodal-3，我们就不再需要屏幕解析模型、布局分析或任何其他复杂的文本提取管道；我们可以轻松地将包含纯文本文档和非结构化数据（如 PDF/幻灯片/网页等）的知识库矢量化。屏幕截图就是你所需要的一切。

详细评估结果

数据集。他们在 20 个多模态数据集上对 voyage-multimodal-3 进行了评估，这些数据集涵盖三个不同的任务：表格/图表检索、文档截图检索和文本到图片检索。他们还在一个标准文本检索任务中对 voyage-multimodal-3 进行了评估，该任务涵盖 6 个领域（法律、金融、对话、代码、网络和技术）的 34 个数据集。

在所有数据集中，查询都是文本，而文档可以是图、照片、文本、文档截图或这些内容的组合。对于每项任务，他们都使用之前表现最好的模型作为基准。除了任务名称，他们还在下表中提供了每个任务的相应说明和使用的数据集：

请注意，标准文本检索任务包括用于评估 voyage-3 和 voyage-3-lite 的所有数据集，长上下文和多语言数据集除外。

模型。对于三个多模态任务，他们将 voyage-multimodal-3 与四个可供选择的多模态嵌入模型进行了评估：OpenAI CLIP large（clip-vit-large-patch14-336）、Amazon Titan Multimodal Embeddings G1（amazon.titan-embed-image-v1）、Cohere multimodal v3（embed-multimodal-v3.0）和 SigLIP So400M（siglip-so400m-patch14-384）。他们还评估了 ColQwen2 v0.1（colqwen-v0.1），这是一种后期交互模型，可为每篇文档输出多个嵌入。

对于标准文本检索任务，他们评估了 voyage-multimodal-3 以及 OpenAI v3 large (text-embeddings-3-large)、Cohere multimodal/English1 v3 和 voyage-3。

指标。给定一个查询，他们按余弦相似度检索前 10 个结果，并报告 NDCG@10。

结果

多模态检索。如下图所示，voyage-multimodal-3 的性能分别比 OpenAI CLIP large、Amazon Titan Multimodal G1、Cohere multimodal v3、SigLIP So400M 和 ColQwen2 v0.1 高出：

在表格/图表检索上：41.44%、45.00%、43.37%、20.66% 和 6.14%；
在文档截图检索上：26.54%、37.68%、25.84%、35.62% 和 0.98%；
在标准文本检索上：6.55%、5.16%、5.86%、3.42% 和 10.34%。

如下图所示，voyage-multimodal-3 的性能分别比 OpenAI v3 large 和 Cohere multimodal/English1 v3 高出 5.13% 和 13.70%。voyage-multimodal-3 的性能比 voyage-3 高出 0.05%，因此两者在纯文本文档的检索准确率方面不相上下。

往期精彩文章推荐

关于AI TIME

AI TIME源起于2019年，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，加强思想碰撞，链接全球AI学者、行业专家和爱好者，希望以辩论的形式，探讨人工智能和人类未来之间的矛盾，探索人工智能领域的未来。

迄今为止，AI TIME已经邀请了2000多位海内外讲者，举办了逾700场活动，超800万人次观看。

我知道你

在看

提出观点，表达想法，欢迎

留言

点击 阅读原文 进入直播间！

http://mp.weixin.qq.com/s?__biz=MzIzOTAxOTk3Nw==&mid=2247529302&idx=1&sn=9bc52db0115d893a6ae8f8a20d917802

AI TIME 论道

AI TIME是一群关注人工智能发展，并有思想情怀的青年学者创办的圈子，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，链接全球AI学者，以辩论的形式探讨人工智能领域的未来。

清华姚班校友马腾宇，发布了他的首个多模态嵌入模型：「多模态检索」实现SOTA

明日9点特邀严骏驰教授分享，本周NeurIPS 2024预讲会最新议程请查收

Big Model weekly | 第45期

NeurIPS 2024 | Diff-eRank: 大模型评估的全新视角与方法

NeurIPS 2024 | 标签噪声下图神经网络有了首个综合基准库，还开源

明天11:00 Meta AI 田渊栋博士开讲｜传统符号推理和大模型推理的融合之路

Efficient AIGC｜清华大学NICS-EFC实验室EffAlg团队专场直播

Meta AI 田渊栋博士开讲｜传统符号推理和大模型推理的融合之路

NeurIPS 2024预讲会113位讲者相聚｜11月13日精彩继续

李国齐：原生类脑脉冲通用智能大模型 | NeurIPS 2024 预讲会特邀报告

NeurIPS 2024预讲会113位讲者相聚｜11月12日精彩启动

NeurIPS 2024预讲会 | 浙江大学软件学院专场直播

Big Model weekly | 第44期

NeurIPS 2024 | 香港浸会大学可信机器学习和推理课题组专场直播

NeurIPS 2024预讲会112位讲者相聚｜2场特邀报告+3个团队专场+7个主题方向

今晚19:00直播 | 上亿Token大放送！如何用大模型做好科研？

上亿Token大放送！如何用大模型做好科研？｜11月7日19:00直播

港大打造 LightRAG：让大模型 RAG 高效又便宜

Big Model weekly | 第43期

AgentReview: 利用 LLM Agents 探究同行评审机制

EMNLP2024 | 解锁Apple Intelligence：用AppBench一键评测你的手机智能

论文解读 | ECCV2024 HTCL:用于语义场景补全的分层时序上下文

多模态模型在抽象图表上堪忧，它能充当合格的智能助手么？

今晚19:00 直播 | SIGCOMM 2024 四位一作分享

港大推出「会说话」的推荐系统大模型XRec，从黑盒预测到可解释

SIGCOMM 2024 四位一作分享 | 10月30日19:00

Big Model weekly | 第42期

大模型越狱攻防三部曲：评估、分析与防御

AI的phone use来了，智谱清言上线情感语音模型GLM-4-Voice

NeurIPS 2024 一作讲者招募 | 报名通道持续开放中

《从提示词入门到智能体创造的奥秘》沙龙活动精彩回顾

CNCC 2024 | CCF-智谱大模型创新基金论坛

论文解读 | ECCV2024 一个通用的视频分割框架

仅一行代码，使LLaMA3在知识编辑任务上表现暴涨35%！您确定不来试试嘛？

Big Model weekly | 第41期

论文解读 | ECCV2024 AutoEval-Video：一个用于评估大型视觉-语言模型在开放式视频问答中的自动基准测试

EMNLP 2024预讲会+特邀报告，64位讲者相聚｜10月19日精彩继续

造船！一起创造AI大模型的未来|求职人看过来

EMNLP 2024预讲会+特邀报告，64位讲者相聚｜10月18-19全天直播

从提示词入门到智能体创造的奥秘 | 10月17日线下沙龙报名

分布偏移中的监督算法公平性研究 | 五篇顶会论文专题分享

10月16日专题分享 | 分布偏移中的监督算法公平行研究

从提示词入门到智能体创造的奥秘 | 10月17日线下沙龙报名

Big Model weekly | 第40期

10名科学家Science联名发文：开源大模型被「误解」了

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉