无需安装,一个文件本地运行大模型!

科技   2024-11-19 08:30   中国  

今天介绍一个无需安装,无需配置环境,一键在本地运行大模型的项目:llamafile!


将模型和运行环境打包成一个独立的可执行文件。大家无需安装运行环境或依赖库,只需下载这个文件就可以使用!


一个文件能同时支持macOS、Windows、Linux、FreeBSD、OpenBSD、和NetBSD系统,不用担心兼容性。而且资源需求非常低,配置不高的电脑也能流畅运行!



想体验开源大模型,却没有显卡,或者被那些看起来复杂的 python 和 cuda 配置吓到的同学,一定要体验一下这个本地大模型!


模型文件我已经帮大家下载到网盘了,扫码就能获取网盘链接!


扫码下载无需安装,一键运行大模型



下载到本地后,运行方法非常简单。


  • 如果你是Windows 系统


  1. 修改文件名,增加.exe 后缀,如改成llava-v1.5-7b-q4.exe

  2. 双击文件开始对话,或者打开 cmd 或者 terminal 命令行窗口,进入模型所在目录.\llava-v1.5-7b-q4.exe

  3. 浏览器打开 http://127.0.0.1:8080 即可开始聊天


  • 如果你是Linux、Mac 系统


  1. 终端运行(注意 Mac 系统可能需要授权,在【设置】→ 【隐私与安全】点击【仍然打开】进行授权)./llava-v1.5-7b-q4.llamafile

  2. 浏览器打开 http://127.0.0.1:8080 即可开始聊天



这样一个无需环境配置,本地一键启动的大模型就部署好了!


如果是生成文字的话,它的速度比ChatGPT快很多!

此外,模型还支持多模态,大家可以上传图片,让模型来描述内容!




想体验的同学,直接扫码就能获取模型的网盘链接!


扫码下载无需安装,一键运行大模型



  • chatbox 等 gpt 客户端使用设置


选择 openai api,设置 url 为对应的 ip 和端口即可,如下图所示: 



  • python接口调用


#!/usr/bin/env python3
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:8080/v1", # "http://<Your api-server IP>:port"
api_key = "sk-no-key-required"
)
completion = client.chat.completions.create(
model="LLaMA_CPP",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "hello"}
]
)
print(completion.choices[0].message)



  • 可选参数说明


  • -ngl 999 表示模型的多少层放到 GPU 运行,其他在 CPU 运行,如果没有 GPU 则可设置为 -ngl 0 ,默认是 999,也就是全部在 GPU 运行(需要装好驱动和 CUDA 运行环境)。

  • --host 0.0.0.0 web 服务的hostname,如果只需要本地访问可设置为 --host 127.0.0.1 ,默认是0.0.0.0 ,即网络内可通过 ip 访问。

  • --port 8080 web服务端口,默认 8080 ,可通过该参数修改。

  • -t 16 线程数,当 cpu 运行的时候,可根据 cpu 核数设定多少个内核并发运行。

  • 其他参数可以通过 --help 查看。


扫码下载无需安装,一键运行大模型

时序人
专注于时间序列领域下的科研、工业干货分享,紧跟AI+等领域的科技前沿
 最新文章