深入解读 CNCF 推出的云原生 AI 白皮书

文摘 2024-04-23 00:15 北京

2024 年 3 月，在 KubeCon EU 期间，云原生计算基金会（CNCF）发布了首份关于云原生人工智能（CNAI）的详细白皮书^[1] 。这份报告详尽地探讨了将云原生技术与人工智能融合的当前状态、面临的挑战、以及未来的发展方向。本文将对这份白皮书的核心内容进行深入解读。

什么是云原生 AI？

云原生 AI 指的是利用云原生技术原则来构建和部署人工智能应用和工作负载的方法。这包括利用微服务、容器化、声明式 API 和持续集成 / 持续部署（CI/CD）等云原生技术来增强 AI 应用的可扩展性、可复用性和可操作性。

下图展示了云原生 AI 的架构，图片根据该白皮书重新绘制。

云原生 AI 与云原生技术之间的关系

云原生技术提供了一个灵活、可扩展的平台，使得开发和运行 AI 应用变得更加高效。通过容器化和微服务架构，开发人员可以快速迭代和部署 AI 模型，同时保证系统的高可用性和可扩展性。Kubernetes 和其他云原生工具提供了必要的支持，例如资源调度、自动扩缩容和服务发现等。

白皮书中给出了两个例子说明云原生 AI 与云原生技术的关系，即在云原生基础架构上运行 AI：

• Hugging Face Collaborates with Microsoft to launch Hugging Face Model Catalog on Azure^[2]
• OpenAI Scaling Kubernetes to 7,500 nodes^[3]

云原生 AI 的挑战

尽管云原生技术为 AI 应用提供了坚实的基础，但在将 AI 工作负载与云原生平台整合时，仍然存在一些挑战。这些挑战包括数据准备的复杂性、模型训练的资源需求、以及在多租户环境中保持模型的安全性和隔离性。此外，云原生环境中的资源管理和调度对于大规模 AI 应用尤其关键，需要进一步优化以支持高效的模型训练和推理。

云原生 AI 的发展路径

白皮书中提出了几条云原生 AI 的发展路径，包括改进资源调度算法以更好地支持 AI 负载、开发新的服务网格技术以提高 AI 应用的性能和安全性，以及通过开源项目和社区合作来推动云原生 AI 技术的创新和标准化。

云原生 AI 技术景观图

云原生 AI 涉及到多种技术，从容器和微服务到服务网格和无服务器计算。Kubernetes 是部署和管理 AI 应用的关键平台，而 Istio、Envoy 等服务网格技术则提供了强大的流量管理和安全功能。此外，Prometheus 和 Grafana 等监控工具对于维护 AI 应用的性能和可靠性至关重要。

下面是白皮书中给出的云原生 AI 景观图。

General Orchestration

• Kubernetes
• Volcano
• Armada
• Kuberay
• Nvidia NeMo
• Yunikorn
• Kueue
• Flame

Distributed Training

• Kubeflow Training Operator
• Pytorch DDP
• TensorFlow Distributed
• Open MPI
• DeepSpeed
• Megatron
• Horovod
• Apla
• …

ML Serving

• Kserve
• Seldon
• VLLM
• TGT
• Skypilot
• …

CI/CD - Delivery

• Kubeflow Pipelines
• Mlflow
• TFX
• BentoML
• MLRun
• …

Data Science

• Jupyter
• Kubeflow Notebooks
• PyTorch
• TensorFlow
• Apache Zeppelin
• …

Workload Observability

• Prometheus
• Influxdb
• Grafana
• Weights and Biases (wandb)
• OpenTelemetry
• …

AutoML

• Hyperopt
• Optuna
• Kubeflow Katib
• NNI
• …

Governance & Policy

• Kyverno
• Kyverno-JSON
• OPA/Gatekeeper
• StackRox Minder
• …

Data Architecture

• ClickHouse
• Apache Pinot
• Apache Druid
• Cassandra
• ScyllaDB
• Hadoop HDFS
• Apache HBase
• Presto
• Trino
• Apache Spark
• Apache Flink
• Kafka
• Pulsar
• Fluid
• Memcached
• Redis
• Alluxio
• Apache Superset
• …

Vector Databases

• Milvus
• Chroma
• Weaviate
• Quadrant
• Pinecone
• Extensions

• Redis
• Postgres SQL
• ElasticSearch

• …

Model/LLM Observability

• Trulens
• Langfuse
• Deepchecks
• OpenLLMetry
• …

总结

最后，笔者梳理了以下关键观点：

• 开源社区的推动作用：白皮书明确指出开源社区对云原生 AI 进步的推动作用，其中包括通过开源项目和广泛的合作来加速创新和降低成本。
• 云原生技术的重要性：云原生 AI 是按照云原生原则构建和部署的，突出了可重复性和可扩展性的重要性。云原生技术为 AI 应用提供了高效的开发和运行环境，特别是在资源调度和服务可伸缩性方面。
• 存在的挑战：尽管云原生 AI 带来了诸多优势，但在数据准备、模型训练资源需求以及模型安全性和隔离性方面，仍面临不少挑战。
• 未来发展方向：白皮书提出的发展路径包括优化资源调度算法以支持 AI 负载，开发新的服务网格技术以提升性能和安全性，以及利用开源项目和社区合作进一步促进技术创新和标准化。
• 关键技术组件：云原生 AI 涉及的关键技术包括容器、微服务、服务网格和无服务器计算等，其中 Kubernetes 扮演着 AI 应用部署和管理的中心角色，Istio 和 Envoy 等服务网格技术提供了必要的流量管理和安全保障。

有关详情，请下载云原生 AI 白皮书^[4] 。

引用链接

[1] 白皮书: https://www.cncf.io/reports/cloud-native-artificial-intelligence-whitepaper/
[2] Hugging Face Collaborates with Microsoft to launch Hugging Face Model Catalog on Azure: https://huggingface.co/blog/hugging-face-endpoints-on-azure
[3] OpenAI Scaling Kubernetes to 7,500 nodes: https://openai.com/research/scaling-kubernetes-to-7500-nodes
[4] 云原生 AI 白皮书: https://www.cncf.io/reports/cloud-native-artificial-intelligence-whitepaper/

欢迎加入云原生社区或向社区投稿，点击阅读原文了解更多。

http://mp.weixin.qq.com/s?__biz=MzkxNzAyMzA3Nw==&mid=2247484984&idx=1&sn=ad08f19dcbcdda2f2a211f6dd31a755c

云原生SRE

懂点K8S的SRE，关注云原生、DevOps、AI&ChatGPT等技术热点

将 VictoriaLogs 与 Grafana 集成，是时候抛弃 Loki 了！

Kubernetes学习周报（第11期）Golang在 K8S中运行的内存限制; 探索Cilium和Istio实现; 容器分层

Kubernetes学习周报（第10期）如何保持容器运行以调试; ETCD Raft 协议;Kubectl端口转发详解

6 张图带你深入了解 kube-scheduler

Prometheus 3.0 全新的 Dashboard！

Kubernetes学习周报（第9期）: CNI 和网络命名空间；网络插件基准测试；K8S备份解决方案Velero实施指南

K8s 集群巡检

Kubernetes学习周报（第8期）:K8S网络数据包管理之旅；当K8S和 Go 不能很好地协同工作时；K8S探针配置

(文末有福利)巅峰对话 | 直通未来科技前沿，与行业顶级技术专家共话数据库未来

K8s CPU Throttle 优化方案

Kubernetes学习周报（第7期）:K8S容器运行时CRI接口；Kluctl管理集群API；K8S无服务器应用监控

2024 互联网公司时薪排行榜！拼多多、小红书很顶！

Kubernetes系列（一六六）Kubernetes 的 10 大错误&如何专业地排除它们？

Kubernetes学习周报（第六期）:K8S API 实用指南；Etcd灾难恢复方案；K8S Gateway API介绍

卷不动了！去香港工作可以重启人生吗？

Kubernetes学习周报（第五期）: K8S隐藏的“OOM 终止”问题；一个K8S命令引发的悲剧；Cilium的BGP功能

LLM On Kubernetes

大厂边缘组VS小厂核心组，你怎么选？

Kubernetes学习周报（第四期）: K8S中使用 Wireshark；K8S安全清单；如何缩小Docker镜像

什么，这次的项目决定不用K8S了？那该如何上线一个容器服务？

突发，OpenAI API 惨遭封杀：被区别对待了。。

快速搭建自己的多平台镜像站

加入知识星球，共同探索云原生学习之旅！

Kubernetes学习周报（第三期）: Kubernetes 健康检查，如何使用 runc 生成容器

大厂边缘组VS小厂核心组，你怎么选？

Go项目实战之docker开发环境部署

从0开始装一套 KubeVirt 1.2.1

Kubernetes学习周报 : 一周好文推荐，K8s 网络请求分析，多集群 Kubernetes 的 7 个注意事项

Envoy Gateway 概述：使用 Gateway API 的现代 Kubernetes 入口

K8s 多集群编排平台 Karmada 入门

Kubernetes学习周报 : 一周好文推荐

数据库面试题共性问题+参考答案

某某云又挂了？删库跑路？保命的容灾恢复计划就该这么制定！！

eBPF + LLM：实现可观测性智能体的基础设施

深夜炸场，GPT-4o 震撼发布，免费试用！！

克服 Prometheus 单值数据模型的局限性：GreptimeDB 的新路径

加入知识星球，共同探索云原生学习之旅！

Rancher使用实践 - 集群管理

Rancher使用实践 - 用户管理

CoreDNS 概述及运维实践

深入解读 CNI：容器网络接口

深入解读 CNCF 推出的云原生 AI 白皮书

Kubernetes 策略管理引擎 - Kyverno

Etcd 概述及运维实践

奇安信的年终奖，出乎了所有人意料！

借助Rancher平台工具，给你的K8S集群加点安全的料

SCDS in Rancher Manager 2.7 认证，附学习笔记思维导图

记一次 K8s 故障处理

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉