MLX-VLM：让你的Mac秒变AI视觉大师！

旅行 2024-10-22 06:00 北京

Apple玩家的好消息来了！

Prince Canuma刚刚发布了一个重磅工具包MLX-VLM，让Mac用户也能玩转最新的视觉语言模型（VLM）了！这可不是简单的"玩具"，而是一个功能全面的AI视觉助手。

MLX-VLM：Mac上的AI视觉利器

MLX-VLM是什么？简单来说，它是一个专为Mac设计的VLM推理和微调包。有了它，你就可以在自己的Mac上运行各种强大的视觉语言模型，无需昂贵的GPU。

这个工具包支持多种热门模型，包括：

Idefics 2
LLaVA（交错版）
Qwen2-VL
Phi3-Vision
Pixtral

最棒的是，它不仅支持单图分析，还能同时处理多张图片，让你轻松完成复杂的视觉推理任务。

功能炫酷，上手超简单

MLX-VLM的使用方法非常灵活。你可以通过命令行、Python脚本，甚至是带有图形界面的Gradio来操作。

比如，想要用命令行生成结果？只需一行代码：

python -m mlx_vlm.generate --model mlx-community/Qwen2-VL-2B-Instruct-4bit --max-tokens 100 --temp 0.0 --image http://images.cocodataset.org/val2017/000000039769.jpg

想要更友好的界面？启动Gradio聊天UI：

python -m mlx_vlm.chat_ui --model mlx-community/Qwen2-VL-2B-Instruct-4bit

对于喜欢coding的朋友，Python脚本使用起来也是超级简单：

import mlx.core as mxfrom mlx_vlm import load, generatefrom mlx_vlm.prompt_utils import apply_chat_templatefrom mlx_vlm.utils import load_config# 加载模型model_path = "mlx-community/Qwen2-VL-2B-Instruct-4bit"model, processor = load(model_path)config = load_config(model_path)# 准备输入image = ["http://images.cocodataset.org/val2017/000000039769.jpg"]prompt = "描述这张图片。"# 应用聊天模板formatted_prompt = apply_chat_template(processor, config, prompt, num_images=len(image))# 生成输出output = generate(model, processor, image, formatted_prompt, verbose=False)print(output)

多图分析：AI视觉的新境界

MLX-VLM的一大亮点是支持多图分析。你可以让AI同时对比、分析多张图片，完成更复杂的视觉任务。

使用方法也很简单，只需稍作修改：

images = ["path/to/image1.jpg", "path/to/image2.jpg"]prompt = "比较这两张图片。"formatted_prompt = apply_chat_template(processor, config, prompt, num_images=len(images))output = generate(model, processor, images, formatted_prompt, verbose=False)print(output)

持续进化：新版本新功能

Prince Canuma还宣布了MLX-VLM v0.1.0的发布，带来了一系列重要更新：

支持LoRA训练
多图生成功能
新增模型：Pixtral、Qwen2-VL、Llama-3.2-Vision和Llava交错版
批处理功能
支持LMStudio

不仅如此，未来还将支持更多模型（如Molmo、Florence 2、Janus）、视频处理和纯语言模型。

深度定制：微调你的AI助手

对于想要进一步定制AI的用户，MLX-VLM还支持LoRA和QLoRA微调。这意味着你可以根据自己的需求，让AI更好地理解和处理特定领域的图像。

Prince Canuma(@Prince_Canuma) 表示：

Just published some really cool MLX VLM cookbooks on how to do:
OCR + structured output
Object detection
Multi-image generation

这些新功能的加入，让MLX-VLM成为了一个全面而强大的AI视觉工具包。

代码仓库：https://github.com/Blaizzy/mlx-vlm

👇

本文同步自知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容，并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

每天约监控6000 条消息，可节省约800+ 小时的阅读成本；
每天挖掘出10+ 热门的/新的 github 开源 AI 项目；
每天转译、点评 10+ 热门 arxiv AI 前沿论文。

星球非免费。定价99元/年，0.27元/天。(每+100人，+20元。元老福利~）

一是运行有成本，我希望它能自我闭环，这样才能长期稳定运转；
二是对人的挑选，鱼龙混杂不是我想要的，希望找到关注和热爱 AI 的人。

欢迎你的加入！

http://mp.weixin.qq.com/s?__biz=MzA4NzgzMjA4MQ==&mid=2453453510&idx=1&sn=e8df9cf7a3b093f445e404dbdc56a7a6

AGI Hunt

关注AGI 的沿途风景！

最新文章

MLX-VLM：让你的Mac秒变AI视觉大师！

生物界的GPT来了？Basecamp Research获6000万美元融资打造「生物版ChatGPT」

MAID：多文件一键生成ChatGPT提示词的神器！

惊人突破：ChatGPT诊断癌症达96%准确率

Perplexity计划筹资5亿美元，估值将达80亿美元

我如何在两周内全面学习LLMs？【实习求职必读】

重磅！OpenAI前CTO Mira Murati筹资一亿美元创办新公司

Sage：开源版GitHub Copilot，代码库也能聊天了！

特斯拉无线充电机器人，惊艳亮相！

重磅！微软开源1比特推理框架，CPU跑千亿模型，速度起飞

Yann LeCun：驴爬楼梯说明了什么？

SQL+LLM：让数据分析变得更加智能

Anthropic的财务分析师：用AI洞悉数据，一键生成可视化报告

Anthropic新研究揭示模型潜在的「破坏」能力

Omni ocr：「糟糕」PDF一键转结构化数据

重磅！OpenAI 或用「AGI已实现」漏洞与微软决裂

Greg Brockman将于下个月回归OpenAI，但，公司已物是人非！

英特尔联手AMD，x86联盟反击ARM霸权！

OpenAI大门敞开：不懂AI也能加入，只要你敢想敢干！

NotebookLM最新大升级：定制音频概览、后台播放，并推出企业版

Anthropic 的 CEO 认为 AI 将带来乌托邦 —— 但他首先需要数十亿美元

"X is All You Need"的论文标题是怎么爆发的？

为什么Yann LeCun与Sam Altman对AGI 的预测如此不同？

Meta推出CoTracker3：重新定义视频点追踪

Suno 推出新功能：让照片和视频秒变专属歌曲

英伟达深夜偷袭，微调llama3.1直接击败GPT-4o和Claude3.5

刚刚，Mistral发布端侧模型，占据边缘计算之王！

OpenAI Swarm多代理框架 vs CrewAI 和 AutoGen

Andrej Karpathy：1B参数模型足矣！

AI能理解颜色吗？——将色彩进行嵌入的研究

OpenAI「重磅」新研究：你的名字可能影响ChatGPT的回答！

马斯克机器人梦碎？LeCun：Optimus不过是一具华而不实的躯壳

Gladia获1600万美元融资，推实时语音AI引擎

惊人发现！去学习法未能让AI真正「忘记」，它只是学会了「隐藏」

重磅！Anthropic发布超级智能时代的AI安全政策

Google计划用核能前往AGI

AI不如猫？斯坦福AI主任驳LeCun：你太悲观了！

OpenAI O1：正用AI加速AI的研发

普林斯顿大学：限制AI访问将带来负面影响。LeCun：开源终将胜利！

OpenAI的新威胁：前CTO Mira Murati 正挖角内部员工以创办新公司

AlphaCodium突破o1瓶颈：让AI代码生成更接近人类思维

LLM不会推理——1万美金悬赏下，o1在内所有模型均无法反转二叉树？！

谢赛宁：重要的话说三次，表征对齐很重要！！！

Sam Altman的完美花园：OpenAI的未来蓝图？

Cursor 最强对手？AI编程独角兽Poolside获eBay、英伟达融资5亿美元！

OpenAI将推出新模型对抗Anthropic！不是GPT-5

Glean：从OpenAI禁投黑名单到46亿美元估值

PyTorch版AlphaFold 3来了！

AGI倒计时！Anthropic CEO预言2026年到来

OpenAI遭惊天剽窃指控！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉