LLo11yPop：英伟达和Grafana正在开发用于可观测性的LLM

文摘科技 2024-11-21 06:58 山东

两家公司正在创建多个项目，旨在让工程师更好地了解 AI 模型训练的进展，并解决其他可观察性痛点。

译自LLo11yPop: Nvidia, Grafana Working on LLM for Observability，作者 B Cameron Gain。

纽约——虽然没有正式宣布，但英伟达高级工程经理在ObservabilityCON上的主题演讲中描述了英伟达与Grafana合作的几个 AI 项目。

这些项目包括两家机构开发 AI 训练，以更好地了解模型性能和一致性。另一个项目利用遥测数据为大型语言模型和 AI 应用程序创建可观测性接口。

正如 Erickson 在 9 月 24 日的主题演讲中所述，英伟达依靠 Grafana Cloud 来提供可观测性支持。

@nvidia 的 @AaronErickson 在 #ObservabilityCON 上表示，英伟达依靠 @grafana 来“了解训练过程的遥测数据”。
— BC Gain (@bcamerongain) 2024 年 10 月 3 日

其中一个更有趣的项目——名为LLo11yPop——是一个用于可观测性的 LLM。英伟达正在开发一个 LLM，该 LLM 在 Grafana 的支持下设计，可以用来询问诸如“给我展示一个作业失败的图表”或“昨晚问题的五个最可能原因是什么？”或“哪些集群需要维护？”之类的问题。

Erickson 在主题演讲中告诉与会者：“现在还处于早期阶段，但我们开始使用在不同专业领域训练的多个 LLM 从数据中心获取答案。这是一个令人难以置信的概念，我们对它的可能性感到兴奋。我们相信，随着时间的推移，这种代理以及更多代理的加入，将使我们能够解决各种问题。”

英伟达还与 Grafana 合作开发了一个由 Grafana 主导的用于训练可观测性的应用程序；英伟达是 Grafana Labs 的设计合作伙伴。

Erickson 表示，英伟达作为 Grafana 的客户，“对于我们想要实现的目标至关重要：能够真正了解训练过程的遥测数据。”

“想象一下，你正在尝试构建一个基础模型或对模型进行大规模调整。你需要了解：模型是否收敛？训练是否在进行？在更低级别上，GPU 性能是否稳定？温度是否正常？所有这些对于评估你是否在这些训练运行中进行了良好的投资至关重要。”

此外， Erickson 在主题演讲中表示：“我们的一个关键信念是，除非这个系统以真相为基础，否则它将无法正常工作。LLM 的查询结果必须得到实际数据的支持，例如 Grafana 仪表板中显示的内容。我们知道 LLM 并不完美——它们确实会产生幻觉——因此我们希望利用它们来动态构建仪表板。

“你应该能够提出一个问题，获得一个仪表板链接，然后深入了解全球数据中心的状态，包括我们拥有 GPU 的所有云提供商和大陆。”

Grafana Labs 首席技术官Tom Wilkie告诉我，除了英伟达之外，Grafana 还与几家 AI 公司合作，“推动我们能够使用这两种技术监控、学习和生成的内容的界限。”

“我们目前与英伟达的合作将有助于为运行和监控 GPU 基础设施的人员以及构建和训练在 GPU 上运行的模型的人员提供更有用的可观测性。这项基础工作可以从当今的模型中产生许多更可靠的输出，并且随着模型性能的提高，其准确性和对用户的价值应该会不断提高。”

幕后是什么？

基于英伟达 NIM（英伟达推理微服务）技术的 NIM 检索代理是英伟达正在构建的系统的构建块。NIM 也可以被描述为为大规模 LLM 部署提供优化的推理微服务。

这些代理从 Grafana 等来源收集数据以回答问题。这些问题来自经过训练的分析师代理，他们了解不同应用程序如何在数据中心运行。在使用多 LLM 复合模型的架构设计中，针对 GPU 集群管理的观测代理框架，代理管理观测框架的编排和任务执行。这些由所谓的 OODA 循环进行编排——观察、定向、决策、行动。

“循环驱动代理提出问题，识别问题所在，并采取行动，例如打开 Jira 票证或致电PagerDuty”，Erickson 告诉 The New Stack。

当然，调试至关重要，因为如果没有适当的观测工具，应用程序和网络修复可能需要数周甚至数月的时间，他说。

“如果它们失败，那就是毫无理由地浪费大量资源，”Erickson 说。“这就是为什么拥有这种洞察力非常重要的原因，我们很高兴成为设计合作伙伴，帮助构建这种能力。这种合作使我们能够实现目标，并帮助其他在 GPU 上运行训练作业的客户。”

@nvidia 的 @AaronErickson 回忆起在适当的观测成为现实之前那些可怕的半夜页面，在上周纽约的 #ObservabilityCON 期间。@grafana — BC Gain (@bcamerongain) 2024 年 10 月 3 日

“我们当中谁没有幻觉过？”

在演讲中，Erickson 在担任一家未具名“观测公司”的工程副总裁期间，并没有那么怀旧。

“想象一下，每天早上 6 点醒来，负责帮助你的 CEO 在早上 8 点之前了解前一天晚上发生的事情，”他说。“我的例行公事是阅读 Slack 的回滚，打电话给主管和 [独立贡献者], 并追踪处理事件的人员。

“我必须收集信息，例如哪些客户受到影响，哪些区域受到影响以及可能的根本原因。我们需要所有这些来编写事件报告并通知客户。在六个月的云迁移过程中，这种情况每天都会发生——那段时光并不愉快。”

LLM 并不完美，或者至少现在还不完美。所有 LLM 中频繁出现的幻觉是人们最常提到的失败之一。但同样，人类也会产生幻觉。

“你遇到了一起事件，第二天早上，一位高级领导询问发生了什么，”Erickson 说。“我们当中谁没有幻觉过一点来填补空白？如果你持怀疑态度，问问你的开发人员。这种情况经常发生。

“这启发我思考：使用GPT-4，我们可以将人类问题转换为查询语言，例如PromQL, 或者我们与 Grafana 一起使用的任何东西，来找出昨晚发生了什么。作为一名工程师，这使我能够从一个粗略的想法开始，提出后续问题，并更接近于合理的因果关系——虽然它可能并不完美，但人类也不完美。”

http://mp.weixin.qq.com/s?__biz=MzIzMzcxMTUxOQ==&mid=2247496095&idx=2&sn=fe126fcb0ba6f56026d6a4dbd22f4bfb

云云众生s

关注云原生时代的普通人 - 云原生 | 平台工程 | AI

最新文章

使用KUBERNETES EXPLORER简化K8S故障排除

魔法正在Kubernetes中发生

Pulumi使用原生工具集中管理Kubernetes

NGINX ONE CONSOLE：并非专家专属

AI智能体失控时，谁来负责？

LLo11yPop：英伟达和Grafana正在开发用于可观测性的LLM

ZORIN OS：适合从WINDOWS系统迁移的完美LINUX发行版

Next.js Canary支持部分预渲染以实现更快的网站

大爆炸式迁移 vs. 渐进式迁移：哪种云策略胜出？

微软看到开发者拥抱“范式转变”迈向GENAIOPS

将影子API纳入服务目录的管理范围

混合云简化：将您的虚拟机集群进行转型的步骤

K8S CPU REQUEST和LIMIT实际工作原理

KUBERNETES内存REQUEST和LIMIT的实际工作原理

将影子API纳入服务目录的管理范围

Kubernetes的技术历史

提升您的交付速度：ARGO与BUILDPACKS

使用Argo和Buildpacks加速您的交付速度

SSHAMBLE：测试您的服务器是否存在潜在的SSH问题

LINUX：使用SYNCTHING在服务器之间同步文件

架构师的AI数据栈互操作性指南

使用Conda和Ollama开始使用Meta的Llama堆栈

GraphQL-to-REST API Connectors是Apollo的“最伟大的成就”

KUBERNETES与菲律宾停电 – 在TAILSCALE上设置K0S

Cloud Foundry如何与Kubernetes共同发展

高级检索增强生成 (RAG) 技术

向量搜索的秘诀：训练嵌入模型

RIP开源核心—开源万岁

如何修复您的CNCF治理并赚钱

携手社区驱动开源共建未来

英伟达如何使用KUBEVIRT扩展其云服务

OPENTELEMETRY挑战：处理长时间运行的SPAN

为什么PYTHON开发人员应该关心测试

OVHCLOUD如何提升其800个数据库的效率

LLAMA STACK发布，助力开发者构建“代理应用”

GO中的机器学习与PYTHON SIDECAR

如何使用语义路由器和LLM工具构建AI代理

构建一个AI驱动的问答应用程序

AI增强代码的可追溯性：开发者指南

人工智能时代的工程团队技能提升

微软EDGE如何用WEB COMPONENTS替换REACT

代理将GENAI从订单接收者转变为合作者

使用机密虚拟机开始保护去中心化云

你应该知道的编程基本原理

EBPF即将登陆WINDOWS

AI模型应对灾难性遗忘的技术

人工智能代理即将改变您的数字生活

每个开发人员都应该知道的10个JAVASCRIPT SEO技巧

REST在许多API使用场景中仍然优于GRAPHQL

SPACEDRIVE：现代的跨平台文件管理器

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉