编译自:https://www.felicis.com/insight/ai-data-infrastructure
自从GPT-4、文心一言、通义千问等大模型引领了人工智能的新时代,已经快过去两年了。众所周知,大模型的核心就是大数据和大算力,那么对于现在已经有的数据基础设施有什么影响呢?
在《The Rise of AI Data Infrastructure》一文中,作者详细描绘了受大模型影响下,现代数据基础设施的全貌。基于该文的阐述,我结合自身的见解与分析,进一步优化了这一架构蓝图。
在整个人工智能基础设施中,分为了五个部分:
• 数据源
• 数据处理
• 数据存储
• 模型训练与推理
• 数据服务
接下来将详述每一个大的部分相比于原先的数据基础设施有什么不同。
数据源
原先的数据基础设施只需要结构化数据,例如存储在关系型数据库的事务数据和存储在数据仓库里的业务数据,在新的人工智能基础设施中,则引进了非结构化数据,主要是web数据和合成数据。
值得注意的是合成数据,它作为一项创新的数据生成技术,通过算法创造而非直接采集现实世界的实例。这种方法提供了一个高效的数据生产途径,尤其在成本控制方面展现出显著优势,相较于传统的真实数据获取、净化及标注流程,合成数据能够在确保数据隐私合规性的前提下大幅缩减开支。
web数据来源于互联网,在之前的大数据中,也处理过类似的数据。Web数据是训练及精调模型的宝贵资源。虽然Web爬取技术并非新兴事物,但如今的挑战在于如何规模化作业,以累积足以支撑大模型训练所需之海量且高质量的数据集。这一趋势下,Epoch AI的一项前瞻性分析预测,科技企业极有可能在2026年至2032年间触及大模型公开训练数据的枯竭点,预示着网络抓取数据作为大型基础模型核心训练素材的角色即将面临转折。
数据处理
获得数据源后,我们将需要获得数据、转换数据并将其移动到目的端以使用数据。在传统的数据处理中,分为批处理和流处理,在机器学习领域也往往被称为特征工程,对进行数据标签化。而在人工智能基础设施中,则需要处理非结构化数据,但是之前的批处理引擎,例如Spark和Flink也是可以处理的。
在这一块,也往往使用Airflow和海豚调度去管理这些数据处理流程。
存储
这块比较值得注意的是向量数据库,用于非结构化数据的AI训练。而数据湖现在几乎是数据存储的标准了,无论是结构化数据还是非结构化数据,无需多言。
模型训练
AI算法依据不同的学习策略,主要采用三种训练模式:监督学习、无监督学习以及强化学习。在监督学习框架下,算法通过学习带有明确标签的训练数据集,逐步掌握从输入到预期输出的映射规律。无监督学习则更像一场自我发现之旅。在这种情境中,算法面对的是未经标注的大规模数据集,它的任务是在没有明确指导的情况下,自主发现数据内部的结构、模式和关联。通过聚类、降维等技术,无监督学习模型能够揭示数据的潜在特征,即便在缺乏明确目标的情况下也能提炼有价值的信息。
对于大模型,“预训练”通常由无监督学习组成,允许模型识别数据集中的模式。然后,使用监督学习对模型进行训练,以优化其性能。定制机器模型通常使用监督学习进行训练。
接下来,这些模型将进行强化学习,也称为 RLHF,即通过人类反馈进行强化学习。顾名思义,该模型生成输出,并从人类那里接收有关如何改进其输出的反馈。
在整个过程中,将不断评估模型,以了解它对给定情况的建模效果如何。它着眼于准确度、精确度、损失最小化、过拟合、欠拟合等变量,以及特定于模型用例的其他统计数据。
最后,这些模型将进行各种最后步骤,包括安全测试、治理和审计,以确保它们生成安全的用户输出,并且没有安全性或合规性问题。
模型推理
对于大模型推理,模型会收到提示,然后对此数据进行标记化和矢量化(也称为预填充)。该数据通过模型运行,为用户生成输出(也称为解码)。
当需要大模型个性化时,这个过程变得更加有趣。如前所述,公司可以将数据存储在矢量数据库中,并使用大模型定制平台将其连接到大模型的矢量数据库。当用户在他们的应用程序中输入提示时,数据也将从公司的向量数据库中提取,以使用大模型生成唯一答案。类似的架构可用于 AI agent,以了解公司或用户环境的上下文,并代表用户采取行动。
在整个过程中,必须对数据进行跟踪和管理,以确保数据安全性、模型质量和合规性,即数据服务。
数据服务
这块是比较常规的,包括数据血缘、数据发现、数据安全这些,这些年基本上已经发展的很完善了。
总结
在大的方面,新的人工智能基础设施相比于传统的数据基础设施并没有什么变化,只是增加了非结构化数据的处理、RAG框架,用于模型训练和推理的数据管理和向量数据库。