KUBERNETES+大模型：CAST AI解决成本难题

文摘科技 2024-12-02 00:00 江苏

Cast AI 利用其在 Kubernetes 自动化方面的专业知识，使 DevOps 和 AIOps 团队能够找到性能和成本最佳的 AI 模型。

译自Kubernetes + LLMs: Cast AI Solves the Cost Puzzle，作者 Jeffrey Burt。

几年前，Cast AI推出了一个自动化平台，用于管理Kubernetes的运营和成本。鉴于 Kubernetes 和 AI 之间的共生关系，这家成立五年的初创公司也帮助组织及其开发人员管理 AI 运营成本也就不足为奇了。

这家位于佛罗里达州迈阿密的公司并非 AI 新手；其 Kubernetes 平台由机器学习算法驱动。生成式 AI 的快速兴起为 Cast AI 开辟了另一条途径。该供应商在四月推出了其 AI 优化器服务，该服务通过与任何与 OpenAI 兼容的 API 端点集成并识别 LLM（商业和开源）来自动降低部署大型语言模型 (LLM)的成本，从而为最低的推理成本提供最佳性能。

Cast AI 还拥有其 Playground 交互式测试工具，允许开发人员比较 LLM 的性能和成本，然后自定义配置，而无需调整代码。

在最近的KubeCon + CloudNative 北美大会上，Cast AI 推出了 AI Enabler，这是 Playground 的产品化版本，它利用供应商的 Kubernetes 基础设施优化能力将来自组织和 DevOps 人员的查询智能地路由到针对他们正在运行的任务的最佳、最具成本效益的 LLM（再次强调，商业或开源）。

Cast AI 的联合创始人兼首席产品官告诉 The New Stack，使用该工具的初始名称，“Playground 使团队能够揭开 LLM 性能和成本的神秘面纱。它不再是猜测。用户可以直接对模型进行基准测试，了解它们的权衡，并为其特定工作负载做出数据驱动的决策，所有这些都无需编写一行代码。”

成本高昂的 LLMs

Cast AI 的各种工具——包括 AI Optimizer 和现在的 AI Enabler（之前的 Playground）——旨在帮助开发人员掌握生成式 AI 领域，该领域的 LLM 数量及其运行成本正在迅速增长。在一篇博文中，该公司产品营销总监指出，OpenAI 的 LLM 模型的定价页面有 10 页长，至少有 20 种不同的模型，用于不同的用例和定价模型。

鉴于此，开发人员和AIOps团队由于时间紧迫而难以确定哪个模型最适合他们的特定需求，这通常是一项手动工作。然后是运行 LLM 的成本，这需要昂贵的组件，如 Nvidia GPU，并消耗大量能源。根据国际能源署的说法，ChatGPT 查询消耗的电力是谷歌搜索的 10 倍。

成本可能会增加。一家成立两年的 AI 咨询公司的创始人在一篇博文中写道，围绕 LLM 的成本增长速度有多快。指出，虽然自两年前 ChatGPT 发布以来，LLM 一直是生成式 AI 的基础，但成本一直是组织实现其潜力的障碍。

“将 LLM 集成到您的应用程序中的费用范围从按需使用情况的几美分到在云环境中托管单个 LLM 实例的每月 20,000 美元以上不等，” 写道。“此外，还与微调、训练、向量搜索和扩展相关的巨额成本。”

控制成本

Cast AI 的表示，控制这些成本可以使 DevOps 团队充分利用 LLM 的功能。他写道：“一些团队可能没有意识到，使用默认的LLM或依赖单一提供商可能并非所有用例的最佳选择。”“结果，他们经常使用比必要更资源密集且昂贵的模型。他们没有探索其他选项或根据特定需求定制模型，错过了更高效、更经济的解决方案。这可能导致不必要的支出和资源利用效率低下。”

DevOps和MLOps团队负责构建和维护生成式AI工作负载的基础设施，但他们无法透明地了解计算资源、API调用或数据使用的成本，而转向云也无济于事，因为需要考虑数百个具有不同配置、性能和定价的计算实例。Radhakrishnan表示，自动化是关键。

仪表板和Playground

AI Enabler包含一个用于监控成本的仪表板，并创建一个报告，比较使用默认LLM与利用其他模型的支出。该仪表板汇总来自一系列LLM提供商的数据，以更清晰地了解每个LLM的成本。该工具还可以自动选择最佳LLM，无需额外配置。

他写道：“LLM代理智能地选择最优的LLM模型来处理用户查询，确保组织以最低的成本获得最佳性能。”“这种方法通过选择和执行具有较低推理成本的优化LLM来实现最大限度的节省。”

这与该供应商的AI Enabler非常契合，AI Enabler比较LLM并创建基准，开发人员可以使用这些基准来开发最适合其需求的配置，并做出更好的决策，以优化最适合性能和成本的LLM。

使用AI Enabler，DevOps团队可以通过创建比较LLM、提供商和响应的场景来探索其选项，测试路由行为并可视化路由决策，以及配置和调整路由参数。

Gil说：“借助Cast AI Playground，我们将控制权交还给企业。”“通过允许团队并排比较LLM的性能和成本，我们正在帮助他们释放AI的全部潜力，同时确保每一美元都花得其所。”

在Kubernetes中迁移工作负载

在展会上，Cast AI还推出了其商业支持的容器实时迁移功能，该功能能够自动且不间断地迁移有状态和不可中断的工作负载——例如MySQL、PostgreSQL或MongoDB等NoSQL数据库以及AI应用程序——在Kubernetes中。该工具将使组织能够确保持续运行时间，创建更高效的操作并降低基础设施成本。

Radhakrishnan写道：“有状态的工作负载不能简单地停止和重新启动，而不会冒数据丢失或中断的风险。”“这就是为什么Kubernetes最初简化所有工作负载基础设施的承诺未能满足复杂、数据驱动型应用程序的需求。”

Cast AI正在将其新功能与其他自动化工具集成，包括Bin-Packing和Eviction、集群和节点重新平衡、Spot回退、Spot中断ML预测和Spot实例价格漂移重新平衡。

他写道：“运行资源密集型有状态应用程序的组织无法承受停机时间。”“由于没有广泛采用的商业解决方案可以将这些敏感的工作负载迁移到具有成本效益的资源，因此它们最终会在利用率不足且昂贵的节点上运行。”

借助容器实时迁移，组织可以自动将这些工作负载迁移到更少的优化节点中。这确保了资源的最大利用率以及最适合其需求的实例的选择，所有这些都降低了成本。

云云众生s

关注云原生时代的普通人 - 云原生 | 平台工程 | AI

最新文章

在KUBERNETES集群中调试DNS请求流

Kubernetes运行时防御超越eBPF

KUBERNETES+大模型：CAST AI解决成本难题

利用内部开发者门户改善开发者入职

使用SLM和本地LLM进行编码：技巧与建议

通过提示工程为AI智能体添加推理能力

DEVOPS中使用AI：开发人员和运维人员需要了解什么

云原生高昂成本的常见错误及规避方法

Excel高手齐聚拉斯维加斯，展开电子表格大战

您有一个SBOM — 接下来的步骤是什么？

AI与自动化赋能运营卓越

在JUPYTER NOTEBOOK中显示AI生成的图像

向高管推销平台工程的真正方法

让开发者更轻松地使用POSTGRES添加AI应用

使用新的负载均衡策略改进微服务

在拥挤的应用空间中，利用视觉吸引力是获取用户的关键

超越上游优先：Linux内核贡献成熟度模型

WARP是LINUX高级用户的梦想终端

专为系统管理员设计的LINUX发行版SYSLINUXOS

使用Cucumber在Android中实现行为驱动开发

解读开放系统互联模型

构建工作负载，而非基础设施：重新定义K8s平台

OPENNEXT进一步实现NEXT.JS的真正可移植性

AI 测试：更广泛的覆盖范围、更少的错误、新的风险

从承包商到OAUTH：2025年新兴的SDLC威胁

10倍开发者与AI：科技精英程序员会被取代吗？

IT团队在其应用程序生态系统中应关注的5件事

不要相信AI生成的代码中的安全性

Kueue现在可以跨集群调度Kubernetes批处理作业

Kubernetes运行时防御超越eBPF

IT团队在其应用程序生态系统中应关注的5件事

不要相信AI生成的代码中的安全性

KUBERNETES就业市场：平台工程师薪资比DEVOPS工程师高20%

GitHub问题跟踪的新功能——以及对往昔的回忆

为什么基础设施即代码需要云资产管理

API的未来：安全、组合性和AI的经验教训

在内部开发者门户中使用K8SGPT调试K8S

通过Lit和Shoelace了解Web Components的优缺点

Tecton应对下一代生成式AI的重大挑战：个性化

终结跨数据中心复制的合规噩梦

使用KUBERNETES EXPLORER简化K8S故障排除

魔法正在Kubernetes中发生

Pulumi使用原生工具集中管理Kubernetes

NGINX ONE CONSOLE：并非专家专属

AI智能体失控时，谁来负责？

LLo11yPop：英伟达和Grafana正在开发用于可观测性的LLM

ZORIN OS：适合从WINDOWS系统迁移的完美LINUX发行版

Next.js Canary支持部分预渲染以实现更快的网站

大爆炸式迁移 vs. 渐进式迁移：哪种云策略胜出？

微软看到开发者拥抱“范式转变”迈向GENAIOPS

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉