ComfyUI Party:将LLM与图片工作流集成,图片、语音、文本、视觉一体!(graphRAG、ollama)

科技   2024-10-07 20:22   湖南  

🍹 Insight Daily 🪺

Aitrainee | 公众号:AI进修生

Hi,这里是Aitrainee,欢迎阅读本期新文章。

我们正在使用一些Agent平台如FastGPT和Dify,他们注重于快速生成文本内容,知识库问答,提供自定义能力和与现有系统的集成性。

同时,在AI绘画方面,我们原来使用SD,后来使用ComfyUI。虽然ComfyUI被广泛用于将文本转化为图像(文生图),但它实际上是一种生成式AI内容(AIGC)的工具,其功能不仅限于此。它还能够处理文本生成(文生文),因此可以实现多种内容的生成。

Dify中也有提供ComfyUI的集成工具,他是调用Comfy UI的服务。

所以,今天我们介绍ComfyUI LLM Party

这个工具挺酷的,他专注于LLM集成进ComfyUI里面。旨在基于comfyui作为前端,开发一套完整的LLM工作流构建节点,让用户可以快速便捷地构建自己的LLM工作流,并轻松集成到现有的图片工作流中。

该插件在 ComfyUI 中支持绝大多数大语言模型,兼容 OpenAI 格式的 API 调用,并结合 OneAPI 调用几乎所有 LLM API。支持的模型包括通义千问、智谱清言、DeepSeek 和 Kimi。
额外功能有:支持 Ollama 本地模型,模型链节点选项(LLM、VLM-GGUF、LLM-GGUF),以及 VLM 模型的图像识别和提示词反推。
实用工具包括 OpenAI 语音识别与合成、Markdown 转 HTML、HTML 转图片,以及通过飞书机器人发送消息到多个平台。
项目愿景:

1、从最基础的 LLM 多工具调用、角色设定快速搭建自己的专属AI助手、到可以行业落地的词向量RAG、GraphRAG来本地化的管理行业内知识库;

2、从单一的智能体流水线,到复杂的智能体与智能体辐射状交互模式、环形交互模式的构建;

3、从个人用户需要的接入自己的社交APP(QQ、飞书、Discord),到流媒体工作者需要的一站式LLM+TTS+ComfyUI工作流;

4、从普通学生所需要的第一个LLM应用的简单上手起步,到科研工作者们常用的各类参数调试接口,模型适配。

挺酷的,我们图片生成的工作流,一定有许多地方可以和视觉、语音LLM结合,比如:

上下文增强:通过LLM获取用户的意图和上下文,优化生成过程,使生成的图像更符合用户需求。

图像描述生成:使用视觉模型分析生成的图像并自动生成描述,帮助用户理解图像内容,适用于无障碍应用。

又如官方所说的:

可以将任何 ComfyUI 工作流封装到 LLM 工具节点中。您可以让您的 LLM 同时控制多个 ComfyUI 工作流。当您希望它完成某些任务时,它可以根据您的提示选择合适的 ComfyUI 工作流,完成您的任务,并将结果返回给您。

您的提示选择合适的 ComfyUI 工作流”,这在我们Fastgpt、Coze或者Dify 中称为:问题分类或意图识别。

还有一些其他的,比如ComfyUI + GraphRAG,这些就是单纯使用ComfyUI前端实现GraphRAG。

总之,节点式工作流本身就是千变万化的,给ComfyUI引入LLM的支持,会让它更加适合千变万化的场景,创建更多复杂有趣的应用。

看看模型支持部分,基本上再配合One-API,市面上的模型都能支持,生产场景建议使用VLLM做模型加速部署,以API形式接入,而不是直接Hugging Face加载下载的模型,多说一句,ollama也不如Vllm,前者多卡部署大模型如70B的,推理会很慢,生成环境下基本不行。

这个项目包罗万象,一直在兼容各种东西的路上,简单的项目描述也要写上许多字才能尽善尽美。

部署方面总共两步吧

方法一下载较方便,可在ComfyUI中直接安装该插件,之后环境部署就是给你的ComfyUI再添加一些这个插件需要的环境。

快速开始

从教程上来看,上手并不难,但是实际上因为它覆盖的东西非常多,你需要深入的话,相应的你需要掌握很多东西,比如一些搜索引擎啊 searxng、neo4j KG、graphRAG、各种LLM的格式、llama.cpp 啊(这些我都弄过,往期文章有,但不全,有一些并没有去写)

具体你可以参考官方介绍。

此外,如果你不了解 ComfyUI,那么这三个链接会对你很有帮助:

新手入门—从SD过度到ComfyUIhttps://www.bilibili.com/video/BV1D7421N7xN/?p=1&spm_id_from=pageDriver
秋葉aaaki ComfyUI Windows 整合包: https://www.bilibili.com/video/BV1Ew411776J/?p=1&spm_id_from=pageDriver
ComfyUI 官方Github (也包含Windows下一键使用包):https://github.com/comfyanonymous/ComfyUI?tab=readme-ov-file#installing

🌟希望这篇文章对你有帮助,感谢阅读!如果你喜欢这系列文章请以 点赞 / 分享 / 在看 的方式告诉我,以便我用来评估创作方向。


往期推荐



Bolt.new:这款全新免费编码代理太棒了!轻松超越 v0 和 Cursor!(告别 ChatGPT、Claude)

Flux-1.1 Pro 免费体验:AI绘画最先进的模型刚刚问世!(击败 Flux-1、SD-3!)

刚刚!最佳语音识别 Whisper-large-v3-turbo 上线,速度更快(本地安装 + Whisper-web)

Aider(已升级):Aider利用双模型架构做到85% SOTA得分!(架构师/编辑师助你实现编程新高度)

免费工具!如何用Napkins和Llama-3.2快速生成网页应用?

👽Submission:kristjahmez06@gmail.com
参考链接:
[1] github:https://github.com/heshengtao/comfyui_LLM_party

知音难求,自我修炼亦艰

抓住前沿技术的机遇,与我们一起成为创新的超级个体

(把握AIGC时代的个人力量)

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

AI进修生
AI算法工程师 / Prompt工程师 / ROS机器人开发者 | 分享AI动态与算法应用资讯,提升技术效率。
 最新文章