揭秘RAG多模态应用：Text2Image检索开源项目

文摘 2024-09-29 07:40 美国

以文搜图（Text-to-Image Search）是一种利用文本描述来检索相关图像的技术。基于CLIP（Contrastive Language-Image Pre-training）和Chinese-CLIP模型的以文搜图系统在近年来得到了广泛应用和研究。以下是对这两种模型及其应用的概述。

CLIP模型

CLIP是由OpenAI开发的一种多模态模型，能够将图像和文本映射到同一个潜在向量空间中，从而实现跨模态检索。CLIP模型的核心思想是通过对比学习（contrastive learning）来训练模型，使得相似的图像和文本在向量空间中的距离更近，而不相似的图像和文本距离更远。

CLIP的主要特点

多模态对齐：CLIP能够同时处理图像和文本，将它们映射到同一个向量空间中。
高效检索：通过计算文本和图像向量的相似度，可以快速检索出与文本描述最匹配的图像。
广泛应用：CLIP在图像分类、图像生成、图像检索等多个领域都有应用。

Chinese-CLIP模型

Chinese-CLIP是针对中文数据进行优化的CLIP模型版本。它使用大规模的中文图文对进行训练，能够更好地处理中文文本和图像的匹配任务。

Chinese-CLIP的主要特点

中文优化：专为中文数据设计，能够更准确地理解和处理中文文本。
大规模训练：使用约2亿对中文图文数据进行训练，确保模型在中文环境中的高性能。
多样化应用：适用于中文图文检索、零样本图片分类等任务

构建基于CLIP和Chinese-CLIP的以文搜图系统通常包括以下几个步骤：

数据准备：

收集并清洗图像和对应的文本描述数据。
将图像和文本数据进行预处理，生成嵌入向量。

模型训练：

使用CLIP或Chinese-CLIP模型对图像和文本进行训练，生成图像和文本的嵌入向量。
通过对比学习优化模型，使得相似的图像和文本在向量空间中的距离更近。

索引和检索：

将训练好的图像嵌入向量存储在向量数据库中。
对用户输入的文本查询进行向量化，并计算与数据库中图像嵌入向量的相似度。

返回相似度最高的图像作为检索结果。

from functools import partialimport jsonfrom multiprocessing.pool import ThreadPool as Poolimport gradio as grfrom utils import *

def text2image_gr():    
    examples = [        ["游泳的狗", 20, clip_base, "是"],        ["夜晚盛开的荷花", 20, clip_base, "是"],        ["一个走在公园里的女孩", 20, clip_base, "是"],        ["抱着孩子的男人", 20, clip_base, "是"]    ]
    title = "<h1 align='center'>中文CLIP文到图搜索应用</h1>"
    with gr.Blocks() as demo:        gr.Markdown(title)        gr.Markdown(description)        with gr.Row():            with gr.Column(scale=1):                with gr.Column(scale=2):                    text = gr.Textbox(value="戴着眼镜的猫", label="请填写文本", elem_id=0, interactive=True)                num = gr.components.Slider(minimum=0, maximum=50, step=1, value=8, label="返回图片数（可能被过滤部分）", elem_id=2)                model = gr.components.Radio(label="模型选择", choices=[clip_base, clip_large, clip_large_336],                                            value=clip_base, elem_id=3)                thumbnail = gr.components.Radio(label="是否返回缩略图", choices=[yes, no],                                                value=yes, elem_id=4)                btn = gr.Button("搜索", )            with gr.Column(scale=100):                out = gr.Gallery(label="检索结果为：").style(grid=4, height=200)        inputs = [text, num, model, thumbnail]        btn.click(fn=clip_api, inputs=inputs, outputs=out)        gr.Examples(examples, inputs=inputs)    return demo

if __name__ == "__main__":    with gr.TabbedInterface(            [text2image_gr()],            ["文到图搜索"],    ) as demo:        demo.launch(            enable_queue=True,)

由于Chinese-clip库并没有教程构建自己的数据集，这里为了用Chinese-clip库进行微调，将自己构建的数据进行了对齐，其中

Flickr8K-CN数据集已经给出(数据来源https://github.com/bubbliiiing/clip-pytorch)。

Chinese-clip的图片与文本都有一个id，但是下列给出的数据集并没有id。要用Chinese-clip训练自己构建的数据集，必须满足其库的数据集要求。其中Flickr8K-CN的json文件格式如下，image代表图片的路径，caption代表图片的描述。构建自己的数据库，请使用该库下面的process.ipynb。运行后会生成包含id的图片(base_64格式)、生成包含id的文本。

[  {    "image": "flickr8k-images/2513260012_03d33305cf.jpg",    "caption": [      "A black dog is running after a white dog in the snow .",      "Black dog chasing brown dog through snow",      "Two dogs chase each other across the snowy ground .",      "Two dogs play together in the snow .",      "Two dogs running through a low lying body of water ."    ]  },]

其中利用process.ipynb生成后的文本、图片如下所示。

# 文本形式{"text_id": 1, "text": "在玩滑板的两个女孩。", "image_ids": [1]}# 图片tsv格式id            image1             img的base64格式

经过上述过程，我们已经包含包含图片与文本的tsv、jsonl文件，如下所示。由于训练的时候Chinese-clip这个库需要利用到lmdb数据库，我们需要把下列文件转成其对应的形式。利用如下脚本。

├── train_imgs.tsv      # 图片id & 图片内容├── train_texts.jsonl   # 文本id & 文本内容，连同匹配的图片id列表├── valid_imgs.tsv├── valid_texts.jsonl
# DATAPATH代表你创建的文件夹名字,假如你的文件夹叫Flickr8K-CN。其结构可以如下列所示。Flickr8K-CN  datasets    Flickr8K-CN      ├── train_imgs.tsv      # 图片id & 图片内容      ├── train_texts.jsonl   # 文本id & 文本内容，连同匹配的图片id列表      ├── valid_imgs.tsv      ├── valid_texts.jsonl        lmdb        train          imgs          pair        valid            imgs          pair

# 注意你先需要把Chinese-clip拉取下来，本次Demo是基于Chinese-clip构建的。python cn_clip/preprocess/build_lmdb_dataset.py \    --data_dir ${DATAPATH}/datasets/${dataset_name}    --splits train,valid
# 把DATAPATH换成自己的python cn_clip/preprocess/build_lmdb_dataset.py \    --data_dir Flickr8K-CN/datasets/Flickr8K-CN    --splits train,valid

至此，我们已经把自己的数据集构建成Chinese-clip对应的数据格式，还可以进行模型微调。

项目地址：https://github.com/sugarandgugu/Text2Image-Retrieval

http://mp.weixin.qq.com/s?__biz=MzA4NzA4NjAxOA==&mid=2452971529&idx=1&sn=9d3d56f30255f874a45734feb10f1e7d

AI技术研习社

专注分享人工智能、大模型、算法、大数据开发、数据分析领域的技术干货和落地实践！

最新文章

检索增强生成（RAG）：解密AI如何融合记忆与搜索

揭秘汽车语音助手：从语音识别到智能回复的全流程解析！

RAG 和 RAU：自然语言处理中检索增强语言模型的调查

RAG 驱动的 NER：构建自定义模型的入门指南

基于BERT的对话意图和槽位联合识别模块

GLM-4-Plus上线：杀进“世界前三”，它真的好用吗？

揭秘RAG背后的人机对话流程：从语音识别到智能生成

揭秘RAG：全方位解析RAG检索中的意图识别，如何助力智能问答

Agent智能大揭秘：企业如何利用AI代理驱动高效增长！

LLMs+SQL：用自然语言轻松搞定数据查询，彻底解锁数据库潜能！

秒懂LLM流式输出的SSE原理！一文带你搞定SSE实现和Python实战案例

RAG实战：打造可扩展的智能文档系统：终极 RAG 管道全解析

RAG工具：FlashRAG用于高效 RAG 研究的 Python 工具包

重磅上线！ChatGPT引入Search功能，秒查秒懂新体验！

RAG评估：RAGChecker重磅发布！精准诊断RAG系统的全新细粒度框架！

RAGFlow重磅开源！基于深度文档理解的智能检索神器！

从零开始，用万行代码打造专属向量数据库！

揭秘RAG神器！如何通过上下文检索与混合搜索打造超强生成效果

IM-RAG：解锁AI内心独白，多轮检索增强生成新突破！

Agent实战：基于大模型的Agent技术框架开发实战

重磅发布！Claude 3.5 Sonnet上线，首个能像人类操作电脑的AI，官方提示词全解密！

多模态RAG-ColPali：使用视觉语言模型实现高效的文档检索

LightRAG：创新双级检索系统，整合图形结构，实现更强大信息检索！

颠覆传统生成方式！Adaptive RAG：实时学习、智能调整的下一代检索增强技术

颠覆传统RAG！Corrective-RAG引入自我反思与自我评估，让文档检索更智能更精准！

国内首部以“生成式人工智能”为应用背景的知识产权标准，诚邀参编！

揭秘Self-RAG：引领大型语言模型生成质量的新潮流！

初识 OpenAI 的 Swarm：轻量级、多智能体系统的探索利器

MemoRAG重磅登场：彻底革新AI问答的长期记忆功能！

颠覆RAG性能！揭秘多头RAG的强大优化秘诀

解锁RAG架构：必知的6种提升AI内容生成的检索增强技术（二）

解锁RAG架构：必知的6种提升AI内容生成的检索增强技术（一）

可控 Text2Image：打造您想要的完美图像生成神器

揭秘RAG多模态应用：Text2Image检索开源项目

揭秘顶级 RAG 技术，不可错过的关键知识！

重磅上线！大模型面试题库，助你轻松拿Offer！

零基础快速构建你的LLM Agent框架，掌握AI的未来！

大模型技术揭秘：普通开发者如何轻松快速掌握原理与架构

如何精准计算：大型语言模型（LLM）部署到底需要多少GPU内存？

大模型时代：AI引领企业创新升级的全面爆发

中国金融大模型产业全揭秘：从技术到应用的深度解析

揭秘RAG中的幻觉检测：多种方法全面基准测试，找出最优解！

Autogen快速上手指南：解锁Multi-Agent协作的高效工作流程

揭秘Agent框架：如何打造智能高效的AI应用核心

RAG深度优化：全面掌握多种ReRanker实现方法与技巧

RAG优化神器：rerankers重新排名模型的终极方案，提供轻量级统一API

ChatGPT-5没等到，o1-preview 和 o1-mini强势登场，揭晓它们的独家优势！

大模型时代：解锁自媒体爆款内容运营的秘密武器！

用ClickHouse实现极速向量搜索，性能爆炸提升的秘密！

大模型微调： SFT 经验分享

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉