快手构建流批一体样本湖,加速AI特征工程

文摘   2024-11-20 18:02   北京  
关于数据湖如何助力AI发展,专家们也展开了激烈的讨论。

靳国卫(主持人):能否请您分享一下对湖仓一体在AI领域助力方面的看法?

邵赛赛:我认为AI的发展可以分为两个阶段:GenAI之前和GenAI之后。在GenAI之前,传统的机器学习工作负载主要依赖于特征工程。在这个阶段,我们通常需要使用宽表来高效存取和更新特征,以便于训练模型。

以腾讯的一个重要业务为例,其数据格式复杂,特征每天都会增加,形成几千列的嵌套表结构。在传统的存储格式(如Protobuf)中,由于其行级结构,查询效率较低,无法有效处理嵌套列的优化。特别是当需要获取特定字段时,必须读取所有数据,这不仅效率低下,还增加了存储和计算的负担。

在2021年或2022年,我们将整个系统从Protobuf格式转换为Apache Iceberg格式。这样的转变使得从行级存储转向列级存储,显著提高了查询性能。Apache Iceberg格式支持可演进的schema,允许我们灵活地增加或删除特征。同时,我们实施了列级生命周期管理,能够跟踪每个列的使用情况,并定期清理不再使用的列。这种治理不仅提高了用户体验,还提升了数据压缩率,从而降低了业务成本。

在进入GenAI时代后,数据的性质发生了变化,更多地涉及非结构化或半结构化数据。在这一阶段,数据湖的格式开始引入了新的变长类型(variant),例如Apache Iceberg和Spark都已支持这种格式。通过这种方式,我们能够更有效地处理半结构化或非结构化数据,提升读取性能。

此外,针对大语言模型(LLM)的需求,构建RAG(Retrieval-Augmented Generation)系统时,我们需要支持向量数据库或向量类型的数据湖格式。一些专为向量设计的数据湖格式(如Lens)能够很好地满足LLM时代的数据需求。

总体来说,数据湖仓一体在AI领域的助力主要体现在特征管理的高效性和对新型数据格式的支持,为GenAI时代带来了新的机遇与挑战。

靳国卫(主持人):感谢老师的分享。张静老师,请您来分享一下快手在机器学习特征支持方面的具体应用。

张静:的。快手目前在AI领域的主要落地方式是通过构建流批一体的样本湖。这个样本湖不仅能存储实时和离线的样本数据,而且能满足多种需求,尤其是在特征工程的场景中。

例如,在进行离线调研时,用户通常会需要灵活地拼接不同的列以评估效果。如果某些特征的效果不理想,用户可以随时删除这些特征,然后再进行新的实验。多个用户可以并行地向同一张表中添加不同的列,以便在快速迭代中找到最优特征。这种灵活性是数据湖提供的一个重要优势。

此外,我们目前正在探索多模态样本的存储。这涉及到如何有效管理非结构化数据。例如,我们引入了变长类型(variant)来更高效地存储数据。这一理念在Delta和Apache Iceberg社区的V3版本中也在讨论,未来可能会引申出更多的应用场景。

另一个重要的方面是API的支持。尤其是Apache Iceberg和Delta Lake这两个产品在AI结合方面布局较早,它们提供了Rust和Python的API,这使得许多用户可以使用Python进行数据访问和处理。Apache Hudi社区也在推出Apache Hudi的RS项目,希望能够给AI方向的从业者在湖上有更好的使用体验。

从腾讯和快手的专家分享来看,数据湖对于AI的支持很重要。那么,数据湖如何做到支持AI呢?

DataFun 数据湖工作坊中,有一个章节全面讲述了数据湖如何进行AI向量计算,支持大模型高效训练与推理。
欢迎扫码咨询:

DataFunSummit
DataFun社区旗下账号,专注于分享大数据、人工智能领域行业峰会信息和嘉宾演讲内容,定期提供资料合集下载。
 最新文章