Alluxio汤文军:构建大模型时代的高性能AI数据底座

科技   2024-11-13 16:53   北京  
2024年11月8日,由DOIT传媒主办,中国计算机学会信息存储专委会、武汉光电国家研究中心、百易存储研究院支持的2024中国数据与存储峰会在北京新云南皇冠假日酒店开幕。


期间,AI+存储协同发展论坛上,Alluxio解决方案架构师汤文军先生发表技术演讲——Alluxio: 构建大模型时代的高性能AI数据底座,展示如何打造适应大模型需求的高性能AI数据平台。



首先了解一下Alluxio。Alluxio孵化于美国加州大学伯克利分校AMPLab实验室,从诞生之初就专注数据编排和管理领域,旨在帮助企业从复杂的数据管理任务中解放出来。随着云计算的快速发展和多云架构的普及,Alluxio从2019年起逐步扩展业务,涵盖公有云、混合云等多种环境。2022年,伴随AI和大模型的崛起,Alluxio将技术重心转向AI基础设施,为AI计算提供极致的数据加速能力。

目前,Alluxio技术已被广泛应用于全球一线互联网公司,其中全球前十的互联网公司中有九家选择了Alluxio的产品。除互联网领域,Alluxio的技术还在智能制造、智慧医疗、自动驾驶等多个行业中为企业提供高性能的数据访问支持,加速AI计算和数据管理流程。
Alluxio的产品特性

AI平台在数据访问上面临的主要痛点包括:底层存储性能不足,导致GPU利用率低下,增加了运营成本;专用存储虽然性能较好,但成本高昂,不利于成本控制;存储方案复杂,缺乏一体化管理,增加了管理难度;以及随着数据规模的增长,IO压力问题日益严重。这些挑战共同导致了AI平台的效率和成本效益问题。

针对AI平台进行数据访问时面临的挑战和痛点,Alluxio推出了分布式缓存方案,包括六大特点。首先,Alluxio能够透明地支持多种AI计算框架,对用户AI应用无侵入性,并通过自研的高性能FUSE技术,使用户可以像操作本地磁盘一样读写数据,无需感知Alluxio缓存层的存在。其次,Alluxio支持广泛的云基础设施和存储系统,包括公有云、私有云、混合云以及主流的对象存储和HDFS系统,同时利用SSD或RAMFS提供本地IO能力,显著提升数据访问性能。

此外,Alluxio提供统一的全局视图,简化了对多种底层存储系统的管理,降低管理复杂度。它还提供了安全合规、数据隔离等平台层标准能力,确保数据的安全性和合规性。Alluxio的灵活扩展性使其能够适应不断变化的业务需求,保障了长期的适用性和扩展性。通过这些特点,Alluxio旨在解决AI平台在数据访问方面面临的性能瓶颈、成本问题和复杂管理等挑战,提高GPU利用率,降低运营成本,并简化存储管理,帮助企业实现降本增效的目标。

Alluxio通过其分布式缓存方案,还能够为AI的离线训练和在线推理全链路提供显著加速。在模型训练场景中,Alluxio通过无主架构支持超过100亿的对象,有效应对海量小文件的读取需求。它利用本地SSD缓存训练数据,提升计算平台的数据拉取性能,确保GPU利用率达到90%以上。

在模型推理场景中,Alluxio通过client writeback机制,能够透明地将训练后的模型数据同步到底层存储,供在线推理集群使用,显著减少模型部署时间。在线推理集群也可以通过Alluxio快速按需缓存模型数据,进一步降低生产环境的部署时间。

Alluxio AI提供了两种灵活的部署模式以优化AI数据处理和加速。第一种是混合模式,Alluxio与GPU集群混合部署,直接利用GPU节点上的本地SSD磁盘来存储和访问数据。第二种是独立集群模式,适用于那些GPU节点没有多余SSD磁盘用于加速的场景。在这种模式下,可以单独部署一个Alluxio集群,而GPU算力节点通过Alluxio Client直接访问Alluxio集群,实现旁路加速。

X-Cache A1新品发布

本次会上,Alluxio正式发布了最新的高性能缓存一体机产品——X-Cache A1。针对模型训练与推理、自动驾驶、AI制药、金融量化、视频渲染等需求场景,采用业界首创的 Alluxio分布式数据编排系统,在上层计算框架和底层存储系统之间构建分布式缓存层,从而显著提高数据处理效率、GPU 利用率及存储系统访问性能,旨在为行业提供企业级、开箱即用的AI数据底座产品。

Alluxio在AI场景下的解决方案
Alluxio的解决方案在多个行业场景中得到了广泛应用。以下是几个典型的行业案例:

1. 智慧出行

在智慧出行行业,客户需要在多个公有云存储集群中进行数据管理和GPU训练。原有的高性能NAS缓存无法满足大规模并发数据访问需求,导致训练集群的GPU利用率低下。在引入Alluxio方案后,客户通过统一的命名空间实现了多云数据的高效管理,并利用分布式缓存优化了数据访问流程,将GPU利用率从30%提升至90%,整体训练时间缩短了30%以上。

2. AI制药

AI制药场景中,客户原本依赖高成本的NAS进行数据加速,但海量小文件的并发访问导致性能瓶颈。通过Alluxio缓存加速和灵活的SSD资源利用,客户实现了对海量数据的高效读取,同时降低了对NAS的依赖,减少了成本和运维压力,提升了AI训练效率。

3. 大模型训练

某大型AI模型训练场景下,客户使用多种训练集群对接对象存储和HDFS存储。在引入Alluxio后,训练集群的GPU利用率从50%提升至93%,在线推理集群也实现了无缝数据访问,模型上线时间大大缩短。

4. 智算场景

智算平台通常面临多样化算力平台和异构资源的适配挑战。通过Alluxio统一管理广域网下的底层存储,客户实现了异构平台间的数据一致性访问和算力资源的灵活调度,优化了平台计算效率。

5. 机器学习场景

在传统机器学习场景中,客户底层对象存储带宽不足,限制了计算任务的吞吐量。通过Alluxio智能缓存和动态扩展,客户提升了训练速率41%,资源利用率提升2.5倍,显著简化了运维流程。

最后

无论是通过X-Cache A1硬件加速AI场景,还是在智慧出行、AI制药、大模型训练等场景中优化数据流转,Alluxio都展示出其在数据编排和加速领域的独特优势。期待Alluxio未来继续深化技术创新,推动AI和大数据场景下的数据管理和访问效率的提升,助力企业数字化转型。


END


11月8日,2024中国数据与存储峰会于北京圆满落幕,近百位业界专家、多场专题论坛精彩呈现,聚焦数据存储与人工智能等前沿技术及应用实践,共同探讨如何通过数据驱动的创新推动企业数字化转型,敬请关注会后报道。

 敬请关注会后专题

DOIT传媒
百易传媒官方订阅号,专注于数据存储、云计算、服务器、数据中心等技术领域以及行业数字化转型。
 最新文章