MM-Embed:首个在多模态基准上取得SOTA成果的检索器

文摘   2024-11-29 07:45   福建  

NVIDIA研究人员推出了MM-Embed,这是首个在多模态M-BEIR基准上取得最先进(SOTA)结果的多模态检索器,旨在解决文本和图像之间的检索挑战。该模型采用双编码器架构,通过模态感知的困难负样本挖掘技术,显著提高了检索质量,能够处理复杂的用户查询,支持文本与图像的组合输入。MM-Embed在多项检索任务中表现出色,平均检索准确率达到52.7%,并在MSCOCO数据集上取得73.8%的检索准确率,展示了其在视觉问答和图像检索等应用中的强大能力。


参考:

  1. https://huggingface.co/nvidia/MM-Embed



点个享、点赞在看,你最好看~


Halo咯咯
专注于技术知识整理,包含人工智能、大模型、机器学习、深度学习、大数据等多个领域的技术知识,以及各种开源的内容~
 最新文章