在Jetson上玩转大模型Day8：多模態搜圖的NanoDB

科技 2024-10-31 08:30 江苏

AI 這個項目是一个CUDA优化的多模态向量数据库，使用CLIP vision Transformer 中的嵌入模型进行txt2img和img2img相似性搜索，實現下面的“以文找圖”與“以圖找圖”的功能，這對現代人來說是一項福音，因爲大部分人總是困擾着，得在一堆圖片中找到所需要的目標，但是文件名能表達的意義有太有限。

這個項目支持'.png', '.jpg', '.jpeg', '.tiff', '.bmp', '.gif'等格式圖片，除了在边缘有效地索引和搜索数据之外，这些矢量数据库还经常与LLM结合使用，用于检索增强生成(RAG)，以完成超出其内置上下文长度（Llama-2模型为4096个token）的长期记忆，并且视觉语言模型也使用相同的嵌入作为输入。

項目最耗時費力的環節，就是啓動多模態大模型對所需要的圖像文件進行全盤的掃描（scan），並建立龐大的向量資料庫（vector DB），在最終執行圖片搜索的功能方面，除了CLI終端指令之外，還提供Web交互模式，便於未來可以開發成工程化的應用。

爲了提高項目的通用性，我們使用COCO圖像字幕數據集中的12萬張圖像進行示範，包括建立向量資料庫的過程。因此我們使用32GB內存的Jetson AGX Orin設備來進行這個示範，讀者可以使用自己的圖片集來進行實驗。

雖然這個應用整合了多項先進的技術，還好在 Jetson AI Lab裏面已經爲我們先弄好一個docker鏡像文件，我們只要執行下面指令就可以開始安裝並啓動：

$ jetson-containers run $(autotag nanodb)

下载完需要的镜像文件之后，就会进入容器执行环境。第一次执行“python -m nanodb”时，因为系统找不到预设所需要的CLIP的ViT-L/14@336px模型，于是调用模型下载功能，自动下载的系统中。

执行到最后的地方，会出现以下信息：

现在就可以开始对我们准备好的图像集进行扫描工作。在容器内的/data目录直接映射到容器外jetson-containers/data目录，因此我们可以在这里创建一个 my_dataset，然后将数据集内容全部复制进去。

注：由于这里牵涉到容器内外的映射，因此 ln -s 这种软链接的方式是会造成错误的。

现在將COCO數據集的train2017.zip複製到my_dataset下，解壓縮到這裏就可以，然後在容器內執行以下指令：

$ time python3 -m nanodb \

--scan /data/my_dataset/train2017 \

--path /data/my_dataset/nanodb \

--autosave --validate

现在系统就开始扫描我们数据集里的 118,287 张图片，如下图所示：

這裏要簡單說明一下nanodb應用的一些重要參數，主要有下面幾個：

--scan：可选地指定一个目录来递归扫描图像，支持'.png', '.jpg', '.jpeg', '.tiff', '.bmp', '.gif'等格式。可以同時使用多個 --scan導入不同的目录。
--path：指定 NanoDB 配置/数据库将保存到或加载的目录，

如果该目录不存在，则会为新数据库创建该目录。
如果那里已经存在 NanoDB，它将首先被加载，并且任何执行的扫描都会添加到该数据库中。
添加图像后，您只需启动 NanoDB 即可--path加载已准备好的数据库。

--autosave：每次扫描后以及每扫描1000张图像后，自动保存NanoDB嵌入向量。
--validate：将根据数据库对每幅图像进行交叉检查，以确认其返回自身（或找到已包含的重复项）

NanoDB可以递归扫描图像目录，计算其CLIP嵌入并以float16格式保存到磁盘。要将内容提取到数据库中，请启动已挂载数据集路径的容器。实际上，只有嵌入向量才保存在NanoDB数据库中。如果您仍想查看图像，则应将图像本身保留在其他地方。索引过程后，原始图像不需要用于搜索/检索，它们仅供人类查看。

建立好向量資料庫之後，就會出現“>”的執行提示符號，我們可以在這裏輸入我們所要問的提示詞，例如“a girl riding a horse”,下面就會列出符號條件的圖片路徑，後面還會顯示相似度（similarity）數字，如下圖。預設會顯示top 8結果，可以使用“--k”參數改變這個設定值。

我們在文章一開頭的地方，看到的是Web界面。現在只要執行以下指令，就能啓動Web交互界面：

$ time python3 -m nanodb \

--path /data/my_dataset/nanodb \

--server --port=8760 （端口號可以自己隨便給）

然後在瀏覽器中輸入http://HOSTNAME:7860?__theme=dark，就能出現以下界面：

在左上角輸入提示詞，例如“reading”，就幫我們找出與讀書有關的圖片。

當我從這些圖片將左上角第二張圖片（坐在公園讀書的人）拉到右上角框內，nanodb會從數據庫中找出與這個張圖片相類似的圖片。

是不是很有趣？這就是nanodb結合多模態大數據模型所實現的功能，可以作爲很多應用的基礎模塊。

http://mp.weixin.qq.com/s?__biz=MjM5NTE3Nzk4MQ==&mid=2651246378&idx=1&sn=a0773ae8193362df0d2da584565f740d

GPUS开发者

在这里，你可以及时了解NVIDIA GPU的行业资讯、最新进展、应用场景和各项功能。还有一些工具、技巧和教程，帮助你利用GPU打造未来的科技。参与GPU世界举办的精彩活动，体验人工智能的未来生活。

最新文章

NVIDIA JetPack 6.1：为边缘AI与机器人开发赋能的全新升级

11月22日其全球AI产业和半导体产业新闻

在Jetson上玩转大模型Day14：NanoLLM开发平台(3)：多模态语音助手

英伟达财报再超预期，展现强劲增长潜力与AI未来愿景

11月21日全球AI产业和半导体产业最新新闻

在Jetson上玩转大模型Day12：NanoLLM开发平台(2)：语音对话助手

Nvidia 计划在 2025 年上半年推出其“Jetson Thor”计算平台

在Jetson上玩转大模型Day12：NanoLLM開發平臺(1)：Python API接口說明

你对生成式AI知多少？进来刷题验证一下！

青春没有售价，DLI课程必须拿下（包过教程）

在Jetson上玩转大模型Day11：SAM2应用

限时免费！NVIDIA 微服务推理优化 AI 模型部署课程火热推出

在Jetson上玩转大模型Day10：OWL-ViT应用

【全攻略】解锁职业新机遇：NVIDIA DLI首次推出认证考试

在Jetson上玩转大模型Day9：建立EffectiveViT测试环境

在Jetson上玩转大模型Day8：多模態搜圖的NanoDB

在Jetson上玩转大模型Day7：執行RAG功能的Jetson Copilot

在Jetson上玩转大模型Day6：Ollama的Webui智能助手

在Jetson上玩转大模型Day5：Ollama指令模式的智能助手

在Jetson上玩转大模型Day4：SDW文生图

在Jetson上玩转大模型Day3：TGW智能助手

在Jetson上玩转大模型Day2：环境搭建

NVIDIA Isaac ROS 3.2亮相ROSCon：生成式AI助力机器人智能提升

在Jetson上玩转大模型：写在前面

参加ASUS IoT线上直播，还有机会获得玩家国度纪念礼品

ASUS Jetson Orin NX边缘AI计算机开箱

如何选择一款适合的NVIDIA Jetson开发套件

NVIDIA Jetson平台助力Instacart，实现超市智能购物无缝体验

NV-CLIP多模态嵌入模型赋能视觉应用：高性能、可扩展、灵活集成

探秘NVIDIA RTX AI：llama.cpp如何让你的Windows PC变身AI超人

JetPack 6.1震撼发布：为NVIDIA Jetson Orin平台注入全新活力！

NVIDIA中国开发者日活动重磅回归，10月苏州线下见

AI领域新宠儿：Phi-3.5系列模型，小身材大智慧，多场景应用无压力

RAG修仙之我在NVIDIA AI-Agent训练营里当小白

免费四天线上集训，NVIDIA AI-AGENT训练营：打造你的LLM-RAG与多模态智能体！

告别昂贵耗时！NVIDIA研发团队推出MimicGen系统革新机器人演示数据收集方式

优秀作品展示RAG技术创建智能对话机器人的无限可能

NVIDIA与Mistral AI合作，Mistral NeMo 12B模型震撼发布

又双叒叕有公司想打破Nvidia垄断？这回让CUDA代码直接编译运行于AMD GPU

AI智能体：超越数据处理，LLM如何赋予其深度推理能力？

一顿火锅钱学一门NVIDIA DLI生成式AI课程

NVIDIA NeMo 发布 T5-TTS：文本转语音技术的重大突破

NVIDIA NIM新技能：教你如何读懂财报，精准捕捉投资机会

免费课程+证书！NVIDIA DLI助你深入了解大型语言模型！

掌握大规模部署RAG工作流，提升企业运营效率——NVIDIA DLI全新课程上线！

在第十届NVIDIA Sky Hackathon中遇见更好的自己：开启生成式AI机器人之旅

RTX AI Toolkit：AI PC时代创业者必备神器

上万Jetson用户可用的AI助理来了，NVIDIA开源Jetson Copilot

NVIDIA Jetson平台服务治好了我的应用开发焦虑

Yolov8物件检测大考验：ASUS NUC 14 Pro能否交出满意答卷？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉