大模型时代的数据基础设施

文摘 2024-08-11 10:31 广东

编译自：https://www.felicis.com/insight/ai-data-infrastructure

自从GPT-4、文心一言、通义千问等大模型引领了人工智能的新时代，已经快过去两年了。众所周知，大模型的核心就是大数据和大算力，那么对于现在已经有的数据基础设施有什么影响呢？

在《The Rise of AI Data Infrastructure》一文中，作者详细描绘了受大模型影响下，现代数据基础设施的全貌。基于该文的阐述，我结合自身的见解与分析，进一步优化了这一架构蓝图。

在整个人工智能基础设施中，分为了五个部分：

• 数据源
• 数据处理
• 数据存储
• 模型训练与推理
• 数据服务

接下来将详述每一个大的部分相比于原先的数据基础设施有什么不同。

数据源

原先的数据基础设施只需要结构化数据，例如存储在关系型数据库的事务数据和存储在数据仓库里的业务数据，在新的人工智能基础设施中，则引进了非结构化数据，主要是web数据和合成数据。

值得注意的是合成数据，它作为一项创新的数据生成技术，通过算法创造而非直接采集现实世界的实例。这种方法提供了一个高效的数据生产途径，尤其在成本控制方面展现出显著优势，相较于传统的真实数据获取、净化及标注流程，合成数据能够在确保数据隐私合规性的前提下大幅缩减开支。

web数据来源于互联网，在之前的大数据中，也处理过类似的数据。Web数据是训练及精调模型的宝贵资源。虽然Web爬取技术并非新兴事物，但如今的挑战在于如何规模化作业，以累积足以支撑大模型训练所需之海量且高质量的数据集。这一趋势下，Epoch AI的一项前瞻性分析预测，科技企业极有可能在2026年至2032年间触及大模型公开训练数据的枯竭点，预示着网络抓取数据作为大型基础模型核心训练素材的角色即将面临转折。

数据处理

获得数据源后，我们将需要获得数据、转换数据并将其移动到目的端以使用数据。在传统的数据处理中，分为批处理和流处理，在机器学习领域也往往被称为特征工程，对进行数据标签化。而在人工智能基础设施中，则需要处理非结构化数据，但是之前的批处理引擎，例如Spark和Flink也是可以处理的。

在这一块，也往往使用Airflow和海豚调度去管理这些数据处理流程。

存储

这块比较值得注意的是向量数据库，用于非结构化数据的AI训练。而数据湖现在几乎是数据存储的标准了，无论是结构化数据还是非结构化数据，无需多言。

模型训练

AI算法依据不同的学习策略，主要采用三种训练模式：监督学习、无监督学习以及强化学习。在监督学习框架下，算法通过学习带有明确标签的训练数据集，逐步掌握从输入到预期输出的映射规律。无监督学习则更像一场自我发现之旅。在这种情境中，算法面对的是未经标注的大规模数据集，它的任务是在没有明确指导的情况下，自主发现数据内部的结构、模式和关联。通过聚类、降维等技术，无监督学习模型能够揭示数据的潜在特征，即便在缺乏明确目标的情况下也能提炼有价值的信息。

对于大模型，“预训练”通常由无监督学习组成，允许模型识别数据集中的模式。然后，使用监督学习对模型进行训练，以优化其性能。定制机器模型通常使用监督学习进行训练。

接下来，这些模型将进行强化学习，也称为 RLHF，即通过人类反馈进行强化学习。顾名思义，该模型生成输出，并从人类那里接收有关如何改进其输出的反馈。

在整个过程中，将不断评估模型，以了解它对给定情况的建模效果如何。它着眼于准确度、精确度、损失最小化、过拟合、欠拟合等变量，以及特定于模型用例的其他统计数据。

最后，这些模型将进行各种最后步骤，包括安全测试、治理和审计，以确保它们生成安全的用户输出，并且没有安全性或合规性问题。

模型推理

对于大模型推理，模型会收到提示，然后对此数据进行标记化和矢量化（也称为预填充）。该数据通过模型运行，为用户生成输出（也称为解码）。

当需要大模型个性化时，这个过程变得更加有趣。如前所述，公司可以将数据存储在矢量数据库中，并使用大模型定制平台将其连接到大模型的矢量数据库。当用户在他们的应用程序中输入提示时，数据也将从公司的向量数据库中提取，以使用大模型生成唯一答案。类似的架构可用于 AI agent，以了解公司或用户环境的上下文，并代表用户采取行动。

在整个过程中，必须对数据进行跟踪和管理，以确保数据安全性、模型质量和合规性，即数据服务。

数据服务

这块是比较常规的，包括数据血缘、数据发现、数据安全这些，这些年基本上已经发展的很完善了。

总结

在大的方面，新的人工智能基础设施相比于传统的数据基础设施并没有什么变化，只是增加了非结构化数据的处理、RAG框架，用于模型训练和推理的数据管理和向量数据库。

http://mp.weixin.qq.com/s?__biz=MzIyMjU4MjU0MQ==&mid=2247486376&idx=1&sn=fac6690012cfa158837e3b3dd6e4f176

鸿的笔记

一个程序猿的读书笔记，与你分享好书、好文章和新鲜的观念。期待碰上有趣的你。

最新文章

给大模型找到合适的应用场景-开篇

大模型时代的数据基础设施

聊聊 Snowflake 和 databricks 2024 年度峰会

去体验了一次萝卜快跑

关于AI和数据的一些讨论

英伟达目前还没看到破绽

谈一谈新质生产力

简单聊聊对 GPT-4o 的一些感觉

真没想到谷歌云居然删除了800亿基金所有数据

从 Llama 3 开源说起

数据安全漫谈

一个业务系统是如何变复杂的

GPT-4 能做好数据分析师的工作吗？

AI 对数据工程师的影响

尝鲜 Midjourney V5.1 的绘图效果

AI 时代到来前的一些随想

在使用GPT-4一个月之后的想法：探索人工智能的无限可能

进阶版本：使用 chatgpt 完成一个前端小游戏的制作

不用写一行代码，用 ChatGpt 生成并修改一个前端页面

新的时代：不需要动手写一行代码就完成了任务，每个人都将是超人。

感受下 AI 翻译的魅力

也许未来没有程序员了

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉