Tetrate和彭博合作开发基于Envoy的AI网关

文摘科技 2024-11-04 00:00 山东

灵活的 Envoy 网关正在成为人工智能网关的新角色。

译自Tetrate, Bloomberg Collaborate on Envoy-Based AI Gateways，作者 Steven J Vaughan-Nichols。

Tetrate和彭博宣布合作创建 AI 网关的开放标准。该计划将基于云原生计算基金会(CNCF) 的Envoy 网关项目，该项目是Kubernetes 网关应用程序编程接口 (API) 的实现。

具体来说，Envoy 网关基于 Envoy 反向代理作为网络网关，允许它引导内部微服务流量并管理进入网络的外部流量。网关每秒可以处理数百万个请求，非常适合高流量场景。它还支持自定义过滤器并具有灵活的架构。这使开发人员能够扩展其功能，而 Tetrate 和彭博正在做的事情正是如此。

他们的合作解决了将大型语言模型 (LLM)有效地集成到企业应用程序中的日益增长的需求。通过扩展 Envoy 网关的功能，该项目将提供一个社区主导的开源解决方案，用于 AI 集成，而不会出现供应商锁定或商业许可限制。

该项目的最初想法源于彭博云原生计算服务的工程团队负责人，也是KServe项目的联合创始人 Dan Sun，他来到 Envoy 社区并概述了他对问题空间的看法以及解决问题的潜在路径。Tetrate 作为 Envoy 上游的主要贡献者，主动表示有兴趣帮助 Sun 和彭博将他们对 Envoy AI 网关 API 的愿景变为现实。

KServe 为服务预测性和生成式机器学习 (ML) 模型提供 Kubernetes自定义资源定义。它旨在通过提供用于 TensorFlow、XGBoost、ScikitLearn、PyTorch 和 Huggingface Transformer/LLM 模型的高抽象接口来解决生产模型服务用例，这些接口使用标准化的数据平面协议。

新 AI 网关的主要功能包括：

针对 LLM 提供商的高可用性路由的应用程序流量管理。
在不同组织级别监控和控制 LLM 使用情况。
用于 LLM 请求的统一接口，具有与多个提供商的后端连接。

Envoy 网关和 KServe 可以一起使用，允许将流量路由到自托管和供应商托管的 LLM。在这种情况下，AI 网关位于顶部，使用 KServe 将开源 LLM 模型流量路由到自托管端点，而供应商托管的模型流量则路由到 AWS Bedrock 或类似的基于云的服务。

Tetrate 创始人 Varun Talwar 在一份声明中补充道：“我们与彭博和 CNCF 的合作旨在设计和交付一个社区主导的完全开源的 AI 网关，该网关由领先的竞争者提供支持，以取代 Kubernetes 入口的传统模型。这是市场需求的解决方案，我们很高兴成为创建它的维护者和贡献者团队的一部分。”

彭博云原生计算服务的工程主管 Steven Bower 表示：“作为一家‘开源优先’的公司，彭博相信开源社区的力量和协作性，可以开发 Web 规模的解决方案，而这种重要的差异使该项目成为其他正在进行的努力的宝贵替代方案。”

CNCF 首席技术官 Chris Aniszczyk 赞扬了该计划，称其证明了 Envoy 的灵活性和云原生生态系统中社区协作的力量。“彭博和 Tetrate 做了我们社区旨在做的事情：将人和组织聚集在一起解决共同的问题。他们使用 Envoy 网关来做到这一点，这仅仅证明了该项目的强大功能和可扩展性。”

要了解有关Envoy AI 网关项目的更多信息，感兴趣的各方可以参加 CNCF 于 2024 年 10 月 17 日举办的即将举行的网络研讨会。小组讨论将邀请来自彭博和 Tetrate 的工程师参加。它将涵盖该项目以及企业 AI 采用和 AI 平台的作用等主题。

因此，很明显，随着公司将 AI 集成到其应用程序中，Envoy 网关将发挥重要作用。

http://mp.weixin.qq.com/s?__biz=MzIzMzcxMTUxOQ==&mid=2247495852&idx=4&sn=e7260fa403b828414a4367fbe21481f2

云云众生s

关注云原生时代的普通人 - 云原生 | 平台工程 | AI

最新文章

使用KUBERNETES EXPLORER简化K8S故障排除

魔法正在Kubernetes中发生

Pulumi使用原生工具集中管理Kubernetes

NGINX ONE CONSOLE：并非专家专属

AI智能体失控时，谁来负责？

LLo11yPop：英伟达和Grafana正在开发用于可观测性的LLM

ZORIN OS：适合从WINDOWS系统迁移的完美LINUX发行版

Next.js Canary支持部分预渲染以实现更快的网站

大爆炸式迁移 vs. 渐进式迁移：哪种云策略胜出？

微软看到开发者拥抱“范式转变”迈向GENAIOPS

将影子API纳入服务目录的管理范围

混合云简化：将您的虚拟机集群进行转型的步骤

K8S CPU REQUEST和LIMIT实际工作原理

KUBERNETES内存REQUEST和LIMIT的实际工作原理

将影子API纳入服务目录的管理范围

Kubernetes的技术历史

提升您的交付速度：ARGO与BUILDPACKS

使用Argo和Buildpacks加速您的交付速度

SSHAMBLE：测试您的服务器是否存在潜在的SSH问题

LINUX：使用SYNCTHING在服务器之间同步文件

架构师的AI数据栈互操作性指南

使用Conda和Ollama开始使用Meta的Llama堆栈

GraphQL-to-REST API Connectors是Apollo的“最伟大的成就”

KUBERNETES与菲律宾停电 – 在TAILSCALE上设置K0S

Cloud Foundry如何与Kubernetes共同发展

高级检索增强生成 (RAG) 技术

向量搜索的秘诀：训练嵌入模型

RIP开源核心—开源万岁

如何修复您的CNCF治理并赚钱

携手社区驱动开源共建未来

英伟达如何使用KUBEVIRT扩展其云服务

OPENTELEMETRY挑战：处理长时间运行的SPAN

为什么PYTHON开发人员应该关心测试

OVHCLOUD如何提升其800个数据库的效率

LLAMA STACK发布，助力开发者构建“代理应用”

GO中的机器学习与PYTHON SIDECAR

如何使用语义路由器和LLM工具构建AI代理

构建一个AI驱动的问答应用程序

AI增强代码的可追溯性：开发者指南

人工智能时代的工程团队技能提升

微软EDGE如何用WEB COMPONENTS替换REACT

代理将GENAI从订单接收者转变为合作者

使用机密虚拟机开始保护去中心化云

你应该知道的编程基本原理

EBPF即将登陆WINDOWS

AI模型应对灾难性遗忘的技术

人工智能代理即将改变您的数字生活

每个开发人员都应该知道的10个JAVASCRIPT SEO技巧

REST在许多API使用场景中仍然优于GRAPHQL

SPACEDRIVE：现代的跨平台文件管理器

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉