Apple玩家的好消息来了!
Prince Canuma刚刚发布了一个重磅工具包MLX-VLM,让Mac用户也能玩转最新的视觉语言模型(VLM)了!这可不是简单的"玩具",而是一个功能全面的AI视觉助手。
MLX-VLM:Mac上的AI视觉利器
MLX-VLM是什么?简单来说,它是一个专为Mac设计的VLM推理和微调包。有了它,你就可以在自己的Mac上运行各种强大的视觉语言模型,无需昂贵的GPU。
这个工具包支持多种热门模型,包括:
Idefics 2
LLaVA(交错版)
Qwen2-VL
Phi3-Vision
Pixtral
最棒的是,它不仅支持单图分析,还能同时处理多张图片,让你轻松完成复杂的视觉推理任务。
功能炫酷,上手超简单
MLX-VLM的使用方法非常灵活。你可以通过命令行、Python脚本,甚至是带有图形界面的Gradio来操作。
比如,想要用命令行生成结果?只需一行代码:
python -m mlx_vlm.generate --model mlx-community/Qwen2-VL-2B-Instruct-4bit --max-tokens 100 --temp 0.0 --image http://images.cocodataset.org/val2017/000000039769.jpg
想要更友好的界面?启动Gradio聊天UI:
python -m mlx_vlm.chat_ui --model mlx-community/Qwen2-VL-2B-Instruct-4bit
对于喜欢coding的朋友,Python脚本使用起来也是超级简单:
import mlx.core as mx
from mlx_vlm import load, generate
from mlx_vlm.prompt_utils import apply_chat_template
from mlx_vlm.utils import load_config
# 加载模型
model_path = "mlx-community/Qwen2-VL-2B-Instruct-4bit"
model, processor = load(model_path)
config = load_config(model_path)
# 准备输入
image = ["http://images.cocodataset.org/val2017/000000039769.jpg"]
prompt = "描述这张图片。"
# 应用聊天模板
formatted_prompt = apply_chat_template(processor, config, prompt, num_images=len(image))
# 生成输出
output = generate(model, processor, image, formatted_prompt, verbose=False)
print(output)
多图分析:AI视觉的新境界
MLX-VLM的一大亮点是支持多图分析。你可以让AI同时对比、分析多张图片,完成更复杂的视觉任务。
使用方法也很简单,只需稍作修改:
images = ["path/to/image1.jpg", "path/to/image2.jpg"]
prompt = "比较这两张图片。"
formatted_prompt = apply_chat_template(processor, config, prompt, num_images=len(images))
output = generate(model, processor, images, formatted_prompt, verbose=False)
print(output)
持续进化:新版本新功能
Prince Canuma还宣布了MLX-VLM v0.1.0的发布,带来了一系列重要更新:
支持LoRA训练
多图生成功能
新增模型:Pixtral、Qwen2-VL、Llama-3.2-Vision和Llava交错版
批处理功能
支持LMStudio
不仅如此,未来还将支持更多模型(如Molmo、Florence 2、Janus)、视频处理和纯语言模型。
深度定制:微调你的AI助手
对于想要进一步定制AI的用户,MLX-VLM还支持LoRA和QLoRA微调。这意味着你可以根据自己的需求,让AI更好地理解和处理特定领域的图像。
Prince Canuma(@Prince_Canuma) 表示:
Just published some really cool MLX VLM cookbooks on how to do:
OCR + structured output
Object detection
Multi-image generation
这些新功能的加入,让MLX-VLM成为了一个全面而强大的AI视觉工具包。
代码仓库:https://github.com/Blaizzy/mlx-vlm
👇
👇
👇
👇
本文同步自知识星球《AGI Hunt》
星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。
每天约监控6000 条消息,可节省约800+ 小时的阅读成本;
每天挖掘出10+ 热门的/新的 github 开源 AI 项目;
每天转译、点评 10+ 热门 arxiv AI 前沿论文。
星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)
一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;
二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。
欢迎你的加入!