来 RustChinaConf 听听 LlamaEdge 的 Rust 实践

文摘   2024-08-14 18:30   新加坡  

2024Rust中国大会大会为线下会议,将于 9 月 07 日 - 08 日在上海举办。LlamaEdge 开发者将带来 LlamaEdge: 面向开发者的轻量级、跨平台大模型基础设施 的主题分享,敬请期待!

现大会报名链接已就绪,请移步活动行报名:

https://4292817522623.huodongxing.com/event/5757822319111


扫码立即报名

早鸟票现已开放,299元即可获得参会资格。




LlamaEdge 以及其他议题介绍

LlamaEdge: 面向开发者的轻量级、跨平台大模型基础设施

讲师: 刘鑫

讲师简介: LlamaEdge 和 WasmEdge 开源项目 Maintainer

议题简介: LlamaEdge是一种轻量级的、面向大模型推理应用场景的基础软件。在硬件层面,支持多种类型的AI加速器;在操作系统层面,具备跨平台部署的能力;在前端应用集成方面,兼容OpenAI API 规范的同时,支持定制化;在安全性方面,利用沙盒特性提供安全保证。LlamaEdge充分利用Rust + WebAssembly + LLM三大领域的技术优势,面向AGI时代的应用开发和部署需求,协助开发者以最小的代价、最快速的方式构建和部署AI应用。


Coze平台 Rust 实践

讲师: 刘博洋

讲者简介: 前华为云首席信息安全专家,当前在字节跳动Flow部门担任安全架构师

议题简介: Coze平台的认证和访问控制微服务全面使用Rust语言开发,代码总量接近10万行,表现出色。该微服务在性能、覆盖率和稳定性上均表现优异,bug率极低。我们采用了OAS3.0(OpenAPI Specification 3.0)标准来定义API,并使用OpenAPI Generator生成auxm框架的Rust代码,确保实现符合定义。同时,我们引入了wirkmock和testcontainer等技术,大大降低了测试用例的开发成本。通过这些技术的综合运用,Coze平台的认证和访问控制微服务不仅提高了开发效率,还显著提升了系统的可靠性和可维护性。

大模型推理引擎 InfiniLM

讲师: 王豪杰

讲师简介: 王豪杰,清华大学助理研究员,主要在人工智能编译器和高性能计算领域开展研究工作,相关成果发表于OSDI、ATC、PPoPP、SC、PLDI、TC、TPDS等相关领域内顶级国际会议和期刊,获得了ICS 2021最佳学生论文奖和TPDS 2022 最佳论文亚军。曾获清华大学优秀博士学位论文、北京市优秀毕业生、清华大学“水木学者”、清华大学优秀博士后、ACM SIGHPC China优博奖等荣誉,获国家自然科学基金青年科学基金等项目资助,入选北京市青年人才托举工程。

议题简介: 本议题将介绍 GitHub 上的开源大模型推理引擎项目 InfiniLM 及其衍生模块。本项目除少量加速器 DSL 代码外,采用全 Rust 实现,支持在多种加速硬件上实现安全、高效的大模型推理。

基于 Rust 构建企业级工作流和函数引擎的经验分享

讲师: 刘萌

讲者简介: 刘萌,先后从事企业应用/微服务架构、大数据基础设施、网络安全和智能运维等领域的设计和研发,Java、Rust工程师,软件架构师,目前工作的技术领域涉及:数据库内核、低代码开发、微服务基础架构、AI智能体。

议题简介: 为满足企业应用架构对服务编排、API开发、柔性事务等业务能力需求及相关的可观测性、易定制、高性能等质量属性需求,普联软件技术团队基于Rust构建了分布式工作流引擎,并集成V8引擎支持TypeScript在线脚本开发、调测。随着工作流引擎在公司业务开发团队的逐步推广,在iPaaS、API网关、微服务治理、AI智能体、RPA等多个领域得到了广泛应用。工作流引擎以分布式架构为基础,通过工作流定义DSL构建流程DAG,支持基础流程控制类算子、基础功能类算子、TypeScript函数算子、事件响应和任务分发机制等可编排能力,集成GraphQL引擎、规则引擎等开源能力,以高可靠、高性能、可观测为设计目标,为企业应用架构提供了高效、灵活且稳定的技术支撑。

Rust 加速构建边缘 LLM 应用

讲师: 朱震东

讲师简介: 来自足下科技的Rust开发工程师,负责AI工具链相关研发工作,Rustacean

议题简介: Rust加速构建边缘LLM应用,展示了Rust在边缘计算中部署大规模语言模型(LLM)的独特优势。探讨其高性能、快速加载和推理能力,并深入分析为何选择Rust。重点探索Rust从系统语言到应用语言的转变,以及其在AI领域的巨大潜力,特别是在边缘应用中的高效性和便利性。同时分享实际应用中的问题解决方案、遇到的困难与挑战,以及开发过程中的经验,分享开发的见解和实用的建议。

Rust AI 生态与国产硬件适配过程中的启发

讲师: 鲍国庆、石恒

讲者简介: 鲍国庆毕业于悉尼大学计算机科学学院,获信息技术硕士与计算机博士学位,留学前任职于爱奇艺,从事国内早期流媒体技术研发,归国后任燧原科技高级研究员,负责人工智能框架与国产芯片的适配及研发工作,先后入选上海市浦江人才计划、上海市白玉兰青年项目,近期参与了多个知名Rust AI开源项目开发。石恒博士本科毕业于清华大学电子工程系,获英国巴斯大学计算机博士学位,长期从事Rust与国产芯片相关研发工作,现任职于上海交通大学,从事机器学习系统方向的博士后研究工作,入选2022年上海市启明星计划。

议题简介: 近年来,Rust AI 生态发展迅速。以 Huggingface Candle 为代表的 Rust AI 框架在社区中备受关注。Candle 框架全栈采用 Rust 语言开发,与传统的 Python AI 框架如 Pytorch 和 Tensorflow 相比,其整体架构更加精简。Candle 框架除了密集计算算子(如 Matmul 和 Conv)之外,其余均采用极简的微算子(Micro-kernels)。复杂算子的开发可以基于 Rust 语言和 Micro-kernels 任意组合而成。此外,Candle 提供了 Rust 版本的 Transformers 库,使基于 Rust 语言的大模型开发和部署变得简单易行。Candle-core 模块设计为兼容多个硬件平台,方便扩展不同后端及接入国产硬件平台。

在此次分享中,我们将介绍国产硬件平台(燧原 S60)适配 Candle 框架过程中遇到的多种 Rust 特性,包括重编译检查、编译期依赖检查、并行编译、Serde 复杂结构体反序列化、跨 crate feature 选项传递、web service结构体封装、宏扩展、FFI 映射、跨语言调试等。这些语言和编程平台特性极大简化了项目开发难度并提升了开发效率。此次分享将以 Candle 框架为基础,重点介绍 Candle 框架在燧原 GCU 平台的适配情况,以及我们对 Python 知名开源项目 vLLM 并行推理服务在 Rust 平台下的迁移情况(candle-vllm,https://github.com/EricLBuehler/candle-vllm)。

得益于 Rust 的诸多特性,我们已在 Rust 开源项目 candle-vllm(基于 Candle micro-kernels 方案)下实现了与 vLLM + Pytorch(aten 算子库)性能相当的并行推理能力,并支持多个主流大语言模型在 GPU 和国产硬件平台上的推理。

GreptimeDB Edge - 基于 Rust 的嵌入式数据库

讲师:杨颖文

讲师简介:杨颖文。GreptimeDB 核心开发者,现就职于格睿科技

议题简介: GreptimeDB 的设计目标为构建一款可以从边缘端扩展到云上基础设施的时序数据库。过往的宣传中我们重点介绍了 GreptimeDB 在 scale up 方面的经验,而本次分享将重点介绍将 GreptimeDB scale down 到边缘端设备时我们所面临的挑战以及解决方法,包括对 CPU、内存等资源占用方面的优化、针对边缘端数据采集而设计的基于共享内存的 IPC 机制以及适配 Flash 存储所做的擦写性能的优化等等。

关于 WasmEdge


WasmEdge 是轻量级、安全、高性能、可扩展、兼容OCI的软件容器与运行环境。目前是 CNCF 沙箱项目。WasmEdge 被应用在 SaaS、云原生,service mesh、边缘计算、边缘云、微服务、流数据处理、LLM 推理等领域。


GitHub:https://github.com/WasmEdge/WasmEdge

官网:https://wasmedge.org/

‍‍Discord 群:https://discord.gg/U4B5sFTkFc

文档:https://wasmedge.org/docs

Second State
Rust 函数即服务
 最新文章