NVIDIA研究人员推出了MM-Embed,这是首个在多模态M-BEIR基准上取得最先进(SOTA)结果的多模态检索器,旨在解决文本和图像之间的检索挑战。该模型采用双编码器架构,通过模态感知的困难负样本挖掘技术,显著提高了检索质量,能够处理复杂的用户查询,支持文本与图像的组合输入。MM-Embed在多项检索任务中表现出色,平均检索准确率达到52.7%,并在MSCOCO数据集上取得73.8%的检索准确率,展示了其在视觉问答和图像检索等应用中的强大能力。
参考:
https://huggingface.co/nvidia/MM-Embed
点个分享、点赞与在看,你最好看~