Mac Mini部署大模型实测

文摘   2025-01-02 06:30   四川  
上上个月,趁着电商政府补贴,在京东入手了一台Mac mini,基本上能比官方便宜1000左右。
既然买了M4的芯片,拿它来写代码或者PS就太浪费了,于是我将它最为了我本地的一个大模型机器,在上面部署了Qwen2.5-7b-Instruct
部署方式的话,目前桌面端流行的是Ollama和LM Studio,推理优化的话还有vllm可以选择。
但是我实际折腾下来,最好的还是Ollama。
LM Studio看起来很多地方还在开发中,对M4的支持总是有些不尽人意,有一些莫名其妙的错误。
vllm的话,还是别在非Linux和GPU环境搞了,各种兼容问题,根本解决不完。
Ollama的话就比较简单了,直接去官方网站下载最新的mac的安装包即可。安装完毕就可以使用ollama命令pull对应的镜像,之后就可以启动model进行推理了。
经过代码实测,ollama的部署也是直接支持OpenAI 接口的。
对于Qwen系列的模型来说,你pull的时候不需要加 -instruct 后缀,它托管的地方自动pull下来的就是instruct版本
启动方式有两种,一种是ollama开机自启之后就会运行,另一种是你退出ollama之后,手动使用 ollama serve 命令。
注意,如果你要在另一台电脑访问你的mac mini启动的 ollama 大模型服务,在执行ollama serve之前,要先设置环境变量:
export OLLAMA_HOST=0.0.0.0:11434
基本上mac mini 跑这个7B系列的模型效果速度都还可以,你本地学习的时候需要频繁调用一些外部接口的话直接使用它就0K了,一般上的对话响应基本是准实时的,响应速度还算得上杠杠的。
下面是我通过langchain的代码调用,可以看到在处理语义理解摘要的时候,它的处理也很快,基本在2秒以内就可以返回,基本上你使用云服务厂商的同等规模参数的模型的响应也就这么快。
如果一直使用循环的方式不断地请求进行推理的话,Mac mini会有发热的现象,但是不是烫手的那种,冬天摸上去就是有点暖和,同时如果你把耳朵靠近它的底盘散热处,能听到小风扇在转。
总体来说还是非常不错的,3000块钱(加上京东的政府补贴)的成本跑一个本地的7b模型,这种性价比哪里找?哈哈哈
参考链接:
https://ollama.com/
https://qwen.readthedocs.io/zh-cn/latest/run_locally/ollama.html

半夏决明
读书,摄影,随笔
 最新文章