在 Llama 3.1 构建多种AI应用

文摘 2024-07-26 19:03 美国

最新发布的 Llama 3.1 系列 LLM 是 Meta “迄今为止最强大的模型”^[1]。最大的 405B 模型是第一个达到或超过 GPT-4o 和 Claude 3.5 Sonnet 等 SOTA 闭源模型性能的开源 LLM。虽然 405B 模型对于个人电脑来说可能太大了，但 Meta 已使用它来进一步训练和微调较小的 Llama 3 模型。结果非常惊人！与 Llama 3 8B 相比，Llama 3.1 8B 模型不仅在基准测试分数方面全面大幅提升，而且还支持更长的上下文长度（128k vs 8k）。对于运行 Llama 3 模型的 LlamaEdge 用户，尤其是在 RAG 和 Agent 应用中，升级到 Llama-3.1-8B 有着明显的好处！

本文中，我们将介绍

如何在本地运行 Llama 3.1 8B 模型作为聊天机器人
在你的应用程序或 Agent 中直接替换 OpenAI

我们将使用 LlamaEdge^[2]（Rust + Wasm 技术栈）来开发和部署这个模型的应用程序。无需安装复杂的 Python 包或 C++ 工具链！了解我们选择这项技术的原因^[3]。

在本地运行 Llama-3.1-8B

步骤1：通过以下命令行安装 WasmEdge^[4]。

curl -sSf https://raw.githubusercontent.com/WasmEdge/WasmEdge/master/utils/install_v2.sh | bash -s -- -v 0.13.5

步骤2：下载Meta-Llama-3.1-8B^[5]GGUF文件。由于模型大小为5.73G，下载可能需要一段时间。

curl -LO https://huggingface.co/second-state/Meta-Llama-3.1-8B-Instruct-GGUF/resolve/main/Meta-Llama-3.1-8B-Instruct-Q5_K_M.gguf

步骤 3：下载 LlamaEdge API 服务器应用程序。这是一个跨平台的可移植 Wasm 应用程序，可以在许多 CPU 和 GPU 设备上运行。

curl -LO https://github.com/LlamaEdge/LlamaEdge/releases/latest/download/llama-api-server.wasm

步骤4：下载聊天机器人 UI，以便在浏览器中与Llama-3.1-8B模型进行交互。

curl -LO https://github.com/LlamaEdge/chatbot-ui/releases/latest/download/chatbot-ui.tar.gz
tar xzf chatbot-ui.tar.gz
rm chatbot-ui.tar.gz

接下来，使用以下命令行为 Llama-3.1-8B 模型启动 LlamaEdge API 服务器。

wasmedge --dir .:. --nn-preload default:GGML:AUTO:Meta-Llama-3.1-8B-Instruct-Q5_K_M.gguf \
  llama-api-server.wasm \
  --prompt-template llama-3-chat \
  --ctx-size 32768 \
  --batch-size 128 \
  --model-name llama-3.1-8b-chat

由于个人计算机的 RAM 限制，我们在此使用 32k (32768) 上下文大小，而不是它极限的 128k。如果你的计算机的 RAM 小于 16GB，你可能需要进一步将其调低。

然后用浏览器打开http://localhost:8080开始聊天！

直接可用的 OpenAI 替代

LlamaEdge 是很轻量的，不需要守护程序或 sudo 进程即可运行。它可以轻松嵌入到你自己的应用程序中！通过支持聊天和 embedding 模型，LlamaEdge 可以成为运行本地计算机上的 OpenAI API 替代方案！

接下来，我们将展示如何为 Llama-3.1-8B 模型以及 embedding 模型启动完整的 API 服务器。API 服务器将具有chat/completion 和 embedding 端点。除了上一节中的步骤之外，我们还需要：

步骤 5: 下载 embedding 模型。

curl -LO https://huggingface.co/second-state/Nomic-embed-text-v1.5-Embedding-GGUF/resolve/main/nomic-embed-text-v1.5.f16.gguf

接下来，我们可以使用以下命令行启动带有聊天和 embedding 模型的 LlamaEdge API 服务器。有关更详细的说明，请查看文档启动 LlamaEdge API 服务^[6]。

wasmedge --dir .:. \
    --nn-preload default:GGML:AUTO:Meta-Llama-3.1-8B-Instruct-Q5_K_M.gguf \
    --nn-preload embedding:GGML:AUTO:nomic-embed-text-v1.5.f16.gguf \
    llama-api-server.wasm \
    --model-alias default,embedding \
    --model-name llama-3.1-8b-chat,nomic-embed \
    --prompt-template llama-3-chat,embedding \
    --batch-size 128,8192 \
    --ctx-size 32768,8192

最后，你可以按照这些教程^[7]将 LlamaEdge API 服务器作为 OpenAI 的替代与其他 Agent 框架集成。具体来说，在你的应用或 Agent 配置中使用以下值来替换 OpenAI API。

Config option	Value
Base API URL	http://localhost:8080/v1
Model Name (for LLM)	llama-3.1-8b-chat
Model Name (for Text embedding)	nomic-embed

结语

Meta 继续引领开源 AI 创新。借助 Llama 3.1，它已经赶上了最好的闭源模型。与 Llama 3 模型相比，Llama 3.1 模型在质量和上下文大小方面也显示出显著的改进。最棒的是，所有 Llama 3.1 模型在 LlamaEdge 应用程序上都开箱即用。立即升级到 Llama 3.1！

访问LlamaEdge 文档^[8]了解更多信息。

参考资料

[1]

迄今为止最强大的模型”: https://ai.meta.com/blog/meta-llama-3-1/

[2]

LlamaEdge: https://github.com/second-state/LlamaEdge/

[3]

了解我们选择这项技术的原因: https://www.secondstate.io/articles/fast-llm-inference/

[4]

WasmEdge: https://github.com/WasmEdge/WasmEdge

[5]

Meta-Llama-3.1-8B: https://huggingface.co/second-state/Meta-Llama-3.1-8B-Instruct-GGUF/resolve/main/Meta-Llama-3.1-8B-Instruct-Q5_K_M.gguf?download=true

[6]

启动 LlamaEdge API 服务: https://llamaedge.com/docs/user-guide/openai-api/intro

[7]

这些教程: https://llamaedge.com/docs/category/drop-in-replacement-for-openai

[8]

访问LlamaEdge 文档: https://llamaedge.com/docs/category/drop-in-replacement-for-openai

关于 WasmEdge

WasmEdge 是轻量级、安全、高性能、可扩展、兼容OCI的软件容器与运行环境。目前是 CNCF 沙箱项目。WasmEdge 被应用在 SaaS、云原生，service mesh、边缘计算、边缘云、微服务、流数据处理、LLM 推理等领域。

GitHub：https://github.com/WasmEdge/WasmEdge

官网：https://wasmedge.org/

‍‍Discord 群：https://discord.gg/U4B5sFTkFc

文档：https://wasmedge.org/docs

http://mp.weixin.qq.com/s?__biz=MzI2MjkxNjA2Mg==&mid=2247487307&idx=1&sn=c123bf3273ddfb0403c80db312d7f205

Second State

Rust 函数即服务

在昇腾 910B 上部署轻量级和跨平台大模型 Agent

课程升级、资源加码！万人共学的书生大模型实战营第4期正式起航！

OSC源创会·北京站：高性能计算与大模型推理

RTE 大会报名丨AI 时代新基建：云边端架构和 AI Infra ，RTE2024 技术专场第二弹！

2024年第五届CID参会就在明天！

Rust 群星闪耀！20+ 海内外顶尖 Rust 天团 GOSIM CHINA 2024 相聚北京

开创跨平台的未来！GOSIM CHINA 2024《App 开发》专题论坛重磅揭晓！

打造更安全、去中心化和协作的互联网！GOSIM CHINA 2024《下一代互联网》重磅嘉宾揭晓

Triton & vLLM 联袂呈现 AI 技术盛宴：高效推理框架的应用实践与未来创新

倒计时 2 天，GOSIM CHINA 2024 全日程重磅发布（附参会指南）！

聚焦开源大模型前沿应用，GOSIM CHINA 2024《AI 模型与基础模型》专题论坛重磅揭晓！

ChatGPT开源替代：阿里最新最强大模型千问2.5

在 MacBook 上运行 FLUX.1，可无缝跨平台 | 为假期添加点趣味

Wasm技术浪潮来袭：加入我们的在线课程，掌握WebAssembly的未来

贡献开源拿奖励，再送10份免费课程/认证考试

自建AI编程助手 | 本地 Yi-Coder模型 + Cursor 5分钟写一个网页

议题征集倒计时啦！不能错过的第五届CID大会！

当 Rust 遇到 AI 会擦出什么样的火花|与你相约 RustChinaConf 2024

Mac上运行微软最新Phi-3.5-mini大模型+开发Agent

【福利】来偶遇Linus！KubeCon + CloudNativeCon +开源峰会+ AI_dev China下周三火热开幕

来 RustChinaConf 听听 LlamaEdge 的 Rust 实践

极客与技术，产业与生态，年度开源峰会 2024 GOTC x GOGC 即将开幕

2024 秋季WasmEdge LFX实习机会：大模型、交易机器人等你来

LlamaEdge 支持 tool call！调用外部工具

KubeCon 2024 AI_Dev日程已发布!

本地搭建 AI 服务？一文带你轻松部署 internlm2_5-7b-chat 大模型应用

在 Llama 3.1 构建多种AI应用

简单命令行搭建吴恩达的 LLM Translation Agent，测测开源模型哪家强

《歌手》排名里的 13.8%和13.11%哪个大？ Mathstral：AI数学能力大考验！

在个人电脑一键运行谷歌最新 Gemma-2-9B 大模型

OpenAI 不可用？使用开源模型一键替换 OpenAI API

扫码申请最终用户门票｜2024 年 KubeCon + CloudNativeCon + 开源峰会 + AI_dev 中国大会

阿里巴巴全球数学竞赛是什么难度？让阿里的Qwen2-72B 试一试

2024 年 KubeCon + CloudNativeCon + 开源峰会 + AI_dev 中国大会的精彩阵容出炉！

做大模型时代的开源贡献者，WasmEdge 开源之夏项目等你来

一键运行零一万物新鲜出炉Yi-1.5-9B-Chat大模型

Llama-3-8B 中文版来了，在自己设备上运行试试看吧

Wasm 性能究竟如何 | Arm 上的容器运行时和 WasmEdge 基准测试

本周末来上海 GOTC 现场和 WasmEdge 见面吧

Open Source Summit NA 上的 WebAssembly演讲

KubeCon EU |云计算的未来是什么？

开源之夏2023明天开启报名！欢迎报名 WasmEdge 社区项目

WebAssembly @ KubeCon + CloudNativeCon EU 2023

那些让 ChatGPT review 代码的程序员，后来都怎么样了？

用 Rust 开发 WasmEdge 应用 | 微软 Reactor 活动回顾

社区合作|第二届开源云原生开发者日开启预约！

五分钟创建一个 Serverless ChatGPT GitHub App

活动预告|【欧拉多咖·操作系统研讨会】第九期：面向未来云计算的虚拟化技术

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉