MLX-VLM:让你的Mac秒变AI视觉大师!

旅行   2024-10-22 06:00   北京  

Apple玩家的好消息来了!

Prince Canuma刚刚发布了一个重磅工具包MLX-VLM,让Mac用户也能玩转最新的视觉语言模型(VLM)了!这可不是简单的"玩具",而是一个功能全面的AI视觉助手

MLX-VLM:Mac上的AI视觉利器

MLX-VLM是什么?简单来说,它是一个专为Mac设计的VLM推理和微调包。有了它,你就可以在自己的Mac上运行各种强大的视觉语言模型,无需昂贵的GPU

这个工具包支持多种热门模型,包括:

  • Idefics 2

  • LLaVA(交错版)

  • Qwen2-VL

  • Phi3-Vision

  • Pixtral

最棒的是,它不仅支持单图分析,还能同时处理多张图片,让你轻松完成复杂的视觉推理任务。

功能炫酷,上手超简单

MLX-VLM的使用方法非常灵活。你可以通过命令行、Python脚本,甚至是带有图形界面的Gradio来操作。

比如,想要用命令行生成结果?只需一行代码:

python -m mlx_vlm.generate --model mlx-community/Qwen2-VL-2B-Instruct-4bit --max-tokens 100 --temp 0.0 --image http://images.cocodataset.org/val2017/000000039769.jpg
想要更友好的界面?启动Gradio聊天UI:
python -m mlx_vlm.chat_ui --model mlx-community/Qwen2-VL-2B-Instruct-4bit
对于喜欢coding的朋友,Python脚本使用起来也是超级简单:
import mlx.core as mxfrom mlx_vlm import load, generatefrom mlx_vlm.prompt_utils import apply_chat_templatefrom mlx_vlm.utils import load_config# 加载模型model_path = "mlx-community/Qwen2-VL-2B-Instruct-4bit"model, processor = load(model_path)config = load_config(model_path)# 准备输入image = ["http://images.cocodataset.org/val2017/000000039769.jpg"]prompt = "描述这张图片。"# 应用聊天模板formatted_prompt = apply_chat_template(processor, config, prompt, num_images=len(image))# 生成输出output = generate(model, processor, image, formatted_prompt, verbose=False)print(output)

多图分析:AI视觉的新境界

MLX-VLM的一大亮点是支持多图分析。你可以让AI同时对比、分析多张图片,完成更复杂的视觉任务。

使用方法也很简单,只需稍作修改:

images = ["path/to/image1.jpg", "path/to/image2.jpg"]prompt = "比较这两张图片。"formatted_prompt = apply_chat_template(processor, config, prompt, num_images=len(images))output = generate(model, processor, images, formatted_prompt, verbose=False)print(output)

持续进化:新版本新功能

Prince Canuma还宣布了MLX-VLM v0.1.0的发布,带来了一系列重要更新:

  • 支持LoRA训练

  • 多图生成功能

  • 新增模型:Pixtral、Qwen2-VL、Llama-3.2-Vision和Llava交错版

  • 批处理功能

  • 支持LMStudio

不仅如此,未来还将支持更多模型(如Molmo、Florence 2、Janus)、视频处理和纯语言模型。

深度定制:微调你的AI助手

对于想要进一步定制AI的用户,MLX-VLM还支持LoRA和QLoRA微调。这意味着你可以根据自己的需求,让AI更好地理解和处理特定领域的图像。

Prince Canuma(@Prince_Canuma) 表示:

Just published some really cool MLX VLM cookbooks on how to do:

  • OCR + structured output

  • Object detection

  • Multi-image generation

这些新功能的加入,让MLX-VLM成为了一个全面而强大的AI视觉工具包。

代码仓库:https://github.com/Blaizzy/mlx-vlm


👇

👇

👇

👇

本文同步自知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

  • 每天约监控6000 条消息,可节省约800+ 小时的阅读成本;

  • 每天挖掘出10+ 热门的/新的 github 开源 AI 项目;

  • 每天转译、点评 10+ 热门 arxiv AI 前沿论文。

星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)

  • 一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;

  • 二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。

欢迎你的加入!

AGI Hunt
关注AGI 的沿途风景!
 最新文章