多模态RAG中的图文Embedding模型及8个图文对数据集

文摘   2024-12-28 12:20   北京  

今天是2024年12月28日,星期六,北京,天气晴。

今天我们来回顾下多模态RAG中的embedding,看有哪些主流的开源模型,然后顺便看看图文对数据集,这个在进行多模态RAG的embedding训练时会用到。

关注技术,并关注应用落地,把技术学扎实,总会有更多的收获。

供各位参考,多思考,多总结,多实践;

一、从多模态RAG看图文embedding

先回顾下典型多模态RAG的实现流程,这个文章(https://blog.csdn.net/Jina_AI/article/details/143454780)举的例子特别好,在这里欧下:

拿到这两个embedding,可以玩出三种花样,分别是text2text embedding(使用文本查询向量搜索描述的文本向量),text2image embedding(使用文本查询向量搜索图片的图像向量),text2 average embedding(使用文本查询向量搜索文本和图像混合向量);

其做的实验,如下:结论也很有趣,混合向量检索评分最高,结合了文本和图像信息的优势。

所以,其中一个重要的点,就是怎么拿到这些更好的embdding,下面看几个。

1、CLIP及OpenCLIP

CLIP是OpenAI提出的一个多模态模型,支持ViT-B/32 和ViT-B/16等底层架构。

OpenCLIP(开源版本)由LAION团队推出,完全开源的 CLIP 替代版本,支持更大的模型(如 ViT-L/14、H/14 等)以及优化架构。其中对应的视觉编码模型是核心。

但是,CLIP主要在短文本描述上进行训练,最长也就77 token,在在文本和文本之间的语义对比上也有不足,缺乏对语义细粒度的理解能力。

地址:https://arxiv.org/abs/2103.00020,https://github.com/openai/CLIP,https://github.com/mlfoundations/open_clip

2、jina-clip

所以,后续有了几个优化的思路。

v2版本支持89种语言的图像检索,能够处理512x512分辨率的图像,提供从64到1024不同维度的输出,以适应不同的存储和处理需求。文本编码器Jina-XLM-RoBERTa和视觉编码器EVA02-L14,通过联合训练创建了对齐的图像和文本表示。

其中,中文image-text-pairs,包括来自LAION-5B 中文子集、Wukong 的中文数据、以及来自COCO、Visual Genome 的翻译图文数据等。

地址:https://arxiv.org/abs/2405.20204,https://huggingface.co/jinaai/jina-clip-v1,https://huggingface.co/jinaai/jina-clip-v2

3、Chinese-CLIP

原始的CLIP模型基于英文图文语料,不能用于中文的图文表征提取场景。Chinese-CLIP以英文CLIP视觉侧参数和中文Roberta参数,作为模型初始化值。 基于大规模原生中文图文数据,实现了CLIP模型的中文化版本

地址:https://arxiv.org/abs/2211.01335,https://github.com/OFA-Sys/Chinese-CLIP,https://huggingface.co/OFA-Sys/chinese-clip-vit-base-patch16,https://modelscope.cn/models/AI-ModelScope/chinese-clip-vit-base-patch16

二、8个多模态图文对中文数据集总结

这块主要参考自https://tianchi.aliyun.com/dataset/145784

1、MUGE:https://tianchi.aliyun.com/muge,https://github.com/MUGE-2021,https://arxiv.org/abs/2103.00823

2、Noah-Wukong:https://wukong-dataset.github.io/wukong-dataset/,https://arxiv.org/pdf/2202.06767.pdf

3、Zero:https://github.com/yuxie11/R2D2,https://arxiv.org/abs/2205.03860

4、WuDaoCorpora-WuDaoMM:https://data.wudaoai.cn/home,https://github.com/BAAI-WuDao/WuDaoMM/,https://arxiv.org/pdf/2203.11480v1.pdf

5、COCO-CN:https://github.com/li-xirong/coco-cn, https://arxiv.org/pdf/1805.08661.pdf

6、Flick8k-CN & Flick30k-CN:https://github.com/weiyuk/fluent-cap,https://arxiv.org/pdf/1708.04390.pdf

7、Product1M:https://github.com/zhanxlin/Product1M,https://arxiv.org/abs/2107.14572

8、AIChallenger:https://tianchi.aliyun.com/dataset/145781,https://arxiv.org/pdf/1711.06475.pdf

总结

本文主要介绍了多模态RAG中的embedding,看有哪些主流的开源模型,然后顺便看看图文对数据集,这些都可以多看看。

参考文献

1、https://blog.csdn.net/Jina_AI/article/details/143454780

2、https://tianchi.aliyun.com/dataset/145784

关于我们

老刘,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。

对大模型&知识图谱&RAG&文档理解感兴趣,并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的,欢迎加入社区,社区持续纳新。

加入会员方式:关注公众号,在后台菜单栏中点击会员社区->会员入群加入


老刘说NLP
老刘,NLP开源爱好者与践行者。主页:https://liuhuanyong.github.io。老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
 最新文章