这两年AI应用,已经从传统机器视觉领域,扩展到大语言模型甚至多模态组合的智能应用,从原本单一智能模型的内容生成或推理,提升到多智能体(multi-agents)协作完成复杂任务的层次,
对大部分人来说,进入人工智能应用的最大门槛,首先是需要有一台能够执行AI计算的设备,其次就是花时间去搭建复杂的运行环境,然后再根据前人提供的学习成果去按部就班地操作。
然而,昂贵的设备与快速迭代的技术与模型,让很多人不知从何下手。下图列出近五年较为主流的大模型种类,而HuggingFace所存放的开源模型总数超过80万个,我们根本不可能逐一去尝试与理解。
本系列文章的目的,就是为有志于AI应用开发的技术人员,提供一个最低成本、最丰富生态的开发平台,让大家能在最短时间内掌握各种主流AI应用的基础技能。选择NVIDIA Jetson Orin Nano作为本系列的计算平台,主要原因如下:
成本低廉:
这套不到500美元的掌上型嵌入设备,具有高达40TOPS的算力以及8GB显存,能顺畅地执行绝大部分精简版的开源大语言模型,只要再搭配一片125GB以上NVME SSD存储,就能轻松地尝试大部分先进的AI应用技术。安装轻松:
绝大部分AI技术开发人员,都经历过配置环境的艰辛过程。从最基础的安装GPU驱动、CUDA、CUDNN、TensorRT等执行环境,以及Docker/nv-docker等虚拟运行环境的搭建,都是相当复杂而且繁琐的过程。
NVIDIA为Jetson设备提供的Jetpack安装包,一次性完成上述所有环境的安装与版本匹配,十分轻松。生态丰富:
在Jetson AI Lab里所提供的各项应用资源,包括以下18个主要分类,在深度与广度都非常完整:
本系列文章就是为大家从LLM(生成式AI)、RAG(检索增强生成)、ViT(视觉转换器)等时下最热门的领域中,挑选大约10个项目的内容为大家深入说明,所有项目都使用容器技术调用,减少安装调试的繁琐过程。
以下是本系列内容的简单介绍:
安装AI Lab的jetson-cotainer实验环境
生成式AI:
基于text-generation-webui搭建Web界面智能助手;
基于stable-diffusion-webui搭建Web界面的文生图;
使用Ollama模型管理器快速体验百种大模型;
RAG增强式生成
用Jetson Copilot根据自己的数据需求快速建立私有问答系统;
用NanoDB运行交互式演示,以见证处理多模态数据的矢量数据库的影响;
ViT视觉转换:
建立EffectiveViT测试环境与OWL应用;
创建TAM(Track Anythin Model)应用;
创建SAM(Segment Anythin Model)应用;
互动式多模态整合应用:
NanoLLM综合开发接口
Llamaspeak语音对话助手
Llava优化的多模态交互
Agent Studio多智能体开发
以上这十多个项目的内容,已经囊括时下基于大模型的大部分主流AI应用,只要能按部就班学习就能有所收获,并且可以基于这些技巧去完成自己创意的AI应用项目,这会是非常有趣的过程。
近期活动: