本次 CommunityOverCode Asia 2024 的 AI 专题,将给大家带来 Apache 社区建设和发展的最新资讯和前沿实践,现在就一起来看看吧!
专题介绍
CommunityOverCode Asia 2024
机器学习(ML)是对计算机算法的研究,它可以通过经验和数据的使用来自动改进。机器学习算法基于样本数据(称为训练数据)建立模型,以便在没有明确编程的情况下进行预测或决策。它在工业中有着广泛的应用场景,并发挥着越来越重要的作用。
适合本分论坛的三类 Topic 如下:
聚焦于机器学习的框架和基础库项目,包括 Mxnet,TVM,Mahout,singa,SystemML 等
基于传统 Apache 大数据存储和计算项目在机器学习场景下做特定的优化的,例如 Spark Mlib,FLink ML 等
基于 Apache 项目实现工业场景下的机器学习平台(例如 Airflow + Kafka + Cassandra + Spark 等)
出品人
CommunityOverCode Asia 2024
谭中意
CommunityOverCode Asia 2024
Apache 软件基金会成员,Apache brpc PMC member,资深开源专家。
堵俊平
CommunityOverCode Asia 2024
Datastrato 创始人兼首席执行官,前 LF AI & DATA 主席,Apache 软件基金会成员,Apache Hadoop、YuniKorn、Ozone 等多个项目的 Committer 和项目管理委员会成员,同时也是多个 ASF 项目的导师。
王臣汉
CommunityOverCode Asia 2024
OpenBayes 贝式计算创始人兼 CEO,曾就职于华特迪⼠尼互动媒体集团、AVOS Systems 等世界知名企业,中⽂语义理解基准 CLUE 基⾦会秘书⻓、天津⼤学⻉式计算联合研究中心副主任。
议程亮点
CommunityOverCode Asia 2024
7 月 28 日 14:00 - 17:45
由 LLM(大型语言模型)驱动的数据可以使应用程序更高效、准确和个性化,人工智能已被广泛应用于自然语言处理、推荐系统和数据分析等各种场景,并取得了显著成果。大型模型可以更好地优化数据,而深度优化的数据可以更好地训练大型模型,LLM 和数据相互补充。
在本次演讲中,我们将介绍我们的开源项目 Gravitino 如何构建一个统一的元数据湖,通过 Single Source Of Truth 来管理数据团队和人工智能团队的所有元数据。这不仅填补了人工智能模型元数据管理的空白,还提供了 Java、Python 和 NodeJS 的客户端,使得来自不同部门的数据团队、人工智能团队和业务团队可以使用 Gravitino 在单一的真实数据源中管理他们的元数据。Gravitino 不仅填补了人工智能模型元数据管理的空白,还提供了 Java、Python 和 NodeJS 的客户端,使得来自不同部门的数据团队、人工智能团队和业务团队可以无缝地完成数据 ETL、数据清洗、特征工程、模型训练、模型发布以及应用程序和模型集成的整个过程,加速数据和人工智能的融合。
Gravitino 还提供统一的 IAM 权限管理和对来自多个数据源的异构(结构化/非结构化)数据的统一读写支持,以支持多云环境,使得人工智能团队可以充分利用公有和私有数据中心中的 GPU、存储、云服务等基础设施资源,并降低模型训练的成本和周期。演讲者还将分享小米、唯品会和其他互联网公司如何使用 Gravitino 来解决人工智能模型训练中的问题和挑战。
Xun Liu丨 Datastrato Co-Founder & COO
Xun Liu ,拥有二十年的软件开发经验,过去十年一直在大数据开发领域工作。他是 Apache 软件基金会的成员和孵化器导师,并孵化了 Apache 中的多个开源项目,同时也是 Apache Hadoop 和 Zeppelin 的 Committer 成员之一。Xun Liu 是 Datastrato 的联合创始人兼首席运营官,目前负责公司开源项目 Gravitino 的运营工作。
在当前技术发展趋势中,人工智能中的大型模型已成为推动创新的重要力量。然而,这也导致对这些模型的可观察性和监控需求不断增加。在 Apache 生态系统中,作为新兴的开源项目,OpenTelemetry 提供了标准化的工具和接口,用于跨语言的遥测数据收集和分析,而自动探针注入技术的发展进一步简化了监控系统集成的过程。本主题将深入探讨如何利用 Apache 项目和 OpenTelemetry 以及自动探针注入技术,构建高效、灵活和可扩展的人工智能大型模型可观测性系统。
主题内容包括:
Apache 与人工智能可观测性:讨论 Apache 项目在构建人工智能大型模型可观测性架构方面的贡献,以及 Apache 生态系统如何促进该领域的创新和发展。
OpenTelemetry 的价值和应用:详细介绍 OpenTelemetry 在人工智能大型模型可观测性中的作用,包括如何用于收集、处理和分析遥测数据。
自动探针注入的革命:分析自动探针注入技术如何解决在大规模分布式人工智能系统中集成遥测系统的挑战,使开发人员和运维团队更方便地部署和管理监控工具。
综合策略和最佳实践:分享成功案例,展示如何将 Apache 项目、OpenTelemetry 和自动探针注入相结合,增强大型模型的可观测性,促进系统性能优化和故障诊断。
面对未来的挑战和机遇:讨论人工智能可观测性领域面临的挑战,并探讨 Apache 生态系统和开源社区如何共同推动技术进步和创新。
本主题旨在向参与者展示如何利用 Apache 生态系统中的资源和项目,实现对人工智能大型模型的高效可观测性,进一步支持人工智能应用的稳定性和可靠性,并为开源社区和企业提供实用的见解和策略。
Yanhong Li 丨Observability Research and Development Engineer
我是一名研发工程师,专注于大型模型的可观测性,是阿里云原生应用平台可观测性团队的一员。作为负责大型模型可观测性和 Python Agent 的核心成员,我负责大型模型和 Python Agent 的可观测性的研发工作。在这个领域,我进行了广泛的研究和实践工作,积累了丰富的专业知识,特别是在 Langchain 和 llama-index 等大型模型的可观测性研究方面。
随着数据和人工智能的整合日益紧密,对两者的统一管理成为企业内部面临的挑战。Databricks 通过 Unity Catalog 引入了一种商业产品,通过它可以桥接大数据和人工智能。然而,由于它是专有的,企业难以在内部实施这个解决方案。
在过去的几年中,小米已经统一了表格数据管理的元数据系统,带来了显著的好处。今年,我们将元数据管理扩展到了人工智能数据领域。借助 Gravitino,我们可以在一个统一的系统下管理非表格和表格数据,实现数据+人工智能的统一元数据。
大纲:
1)小米的业务特点和挑战
管理表格数据不仅包括 Hive 和 Iceberg ,还包括 MySQL 和 Oracle 等 OLTP 表。统一管理这些数据类型提高了内部效率。
2)数据 + 人工智能的综合需求
随着大型模型的普及,数据和人工智能的整合越来越受关注。统一的元数据对于整合数据 + 人工智能至关重要。我们将分享小米在数据+人工智能整合方面实施的要素。
3)基于 Gravitino 的统一元数据
小米如何基于 Gravitino 实现数据 + 人工智能的统一元数据管理。
4)基于统一元数据的在线开发平台
利用 Gravitino 强大的引擎插件和 PythonClient ,实现统一开发平台。我们将分享开发人员可以享受的便利性。
5)Gravitino 的未来计划
我们将分享 Gravitino 社区的未来计划。
关于 Gravitino:Gravitino 是由 Datastrato 开源的,正在准备捐赠给 Apache 基金会
Kang Zhou丨Xiaomi,Team Leader of Data Development Platform
小米的高级软件开发工程师,负责大数据平台的开发工作。Apache Kylin、Gravitino 的贡献者。
议题介绍:
本次演讲重点探讨了通过开源大型语言模型(LLM)和 WebAssembly(Wasm)普及 AI,使其变得更加可访问和高效。
推理过程预计消耗了 AI 工作负载中超过 90% 的计算资源。Wasm 不仅降低了 AI 推理成本,还提升了大型语言模型(LLM)的部署和可访问性,使得可以在你的 PC 上编写 LLM 应用,并在各个环境中运行——从边缘设备到云端,从高端服务器到低功耗物联网设备,覆盖 CPU 和 GPU。我们将进行互动演示,展示如何在各种环境中部署开源 LLM,以及如何使用 Wasm 以简单步骤创建无服务器 LLM 应用。
我们还将讨论 Wasm 和 Wasm 运行时如何提供高性能和安全性,使 AI 模型和应用具有可移植性、可访问性、可靠性和安全性。
与会者将学习如何在自己的设备上运行开源 LLM,并将这些技术整合到他们自己的 AI 项目中。
Project Ray 是一个开源的分布式人工智能框架,在人工智能领域有着快速的发展。目前,它即将进入 3.x 开发阶段。Ray 最初是为高性能强化学习而设计的,但已经发展成为一个统一的计算框架,用于扩展人工智能和 Python 工作负载。Ray 也是训练像 ChatGPT 这样的大型语言模型的核心技术。
我们目前的研究工作主要是改进和扩展 Ray 的架构和实现,以适应不同的硬件和软件生态系统,包括对 Ray 的各种可能的重构。这个方向的最新探索是基于 Java 的 RayII.Java 的重新设计和实现,具体内容如下:
1)对当前 Ray 核心的设计和实现进行优缺点分析;
2)Graalvm 为中心的 RayII.Java 的整体思路和架构设计(使用 Python+Java 替代当前 Ray 项目中的 Python+C++ 软件层以及更多内容)以及我们的测试平台;
3)尝试将 RayII.Java 与 DJL 和 H2O 等知名 Java 框架在人工智能领域进行集成;
4)探索在更多异构硬件平台上(如 FPGA 和 NPU 等,目前 Ray 只支持 GPU )通过 RayII.Java 加速 Ray 应用程序的支持。
基于 Flink 和 ClickHouse 的实时数据链路构建 基于 Iceberg 和 Starrocks 的准实时数据链路构建
轨迹链接 调试链接 用户行为画像 用户画像和物品画像
Shapely 值 Tree SHAP 信息增益等
全局特征重要性和排名 多个输入 SKU 的特征重要性比较 在 SPU/产品词/分类下,单个 SKU 特征竞争力的比较
用户行为动态线路分析 推荐系统指标构建
人工智能正在快速发展,并因其出色的语言理解和交互能力而受到认可。将行业专业知识与大型语言模型(LLMs)的潜力相结合,以改变各个行业的方式日益受到关注,引起了技术和行业领域的注意。
演讲者将重点介绍如何使用代理(Agent)、检索增强型生成模型(RAG)、大型语言模型(LLMs)和工作流,来展示将大型语言模型与大数据(如 Apache Spark)相结合,以开发智能代理并解决常见行业挑战的方法。
Trista Pan丨Apache Member & Incubator Mentor, AWS Data Hero, Tencent Cloud TVP
她在大数据和云原生领域的专业知识使她成为全球科技会议上炙手可热的演讲嘉宾。她致力于促进人工智能社区的协作和知识共享,以推动数据基础设施和开源开发领域的发展。
她的论文《Apache ShardingSphere:一个全面的、可插拔的数据分片平台》于 2022 年在 ICDE 上发表。作为第一作者,她撰写了《Apache ShardingSphere 权威指南》一书,该书由 Packt 出版社于 2022 年出版。
扫码购票
CommunityOverCode Asia 2024