从 0 到 1 构建一站式数据开发治理平台

科技 2024-05-26 20:01 浙江

导读火花思维作为在线教育领域的佼佼者，深知数据对于决策和运营的重要性。为进一步释放数据资源的价值，公司从 0 到 1 构建了一站式数据开发治理平台，实现了数据集成、数据开发、数据分析、数据服务等全流程整合，为公司的长远发展奠定了坚实的数据基础。

主要内容包括以下几个部分：

1. 背景

2. 产品简介

3. 关键技术与创新点

4. 实施与运营

5. 成效与收获

6. 总结与展望

背景

火花思维是一家专注于青少年思维训练及综合素质提升的互联网教育企业，产品包含逻辑思维、中文素养、火花编程等。累计学员已超 70 万，遍布全球 100 多个国家和地区。其主要采用直播、真人互动 AI 的方式进行授课，通过将老师的启发引导和动画、游戏、趣味教具等多种方式立体结合，将能力、思维、训练三者互相连接、层层递进，在互动实践中培养孩子的观察思考、逻辑思维以及自主解决问题等核心基础能力。

随着火花思维的业务发展，数据量和数据诉求呈现出爆炸式增长的态势。然而数据使用与管理模式已逐渐出现捉襟见肘，难以支撑企业高效运营与决策支持的核心需求。具体而言，当时我们面临着以下几大突出问题：

数据开放自助程度明显不足，严重制约了数据价值的充分释放；
系统性故障频发，对数据资产的可靠性构成了严重挑战；
ETL 效率低下已成为制约数据处理能力的关键因素。为了解决这些问题，我们需要一个更加高效、智能的数据开发治理平台，以提升数据价值的挖掘能力、保障数据资产的可靠性、优化数据处理效率，并降低技术成本。

在产品建设初期，我们曾考虑过第三方的现有产品。然而，经过深入调研，我们发现了许多问题，最终决定自主研发。首先，当时我们发现市场上的现有产品虽然在基本 SQL 开发、调度配置、任务运维等方面表现出色，但在异源数据集成、DDL 适配、跨云部署等场景存在局限性。其次，我们对第三方产品的迭代速度和稳定性存在担忧。我们需要确保产品能够满足公司数据生产和消费方对大数据的期望，并在使用过程中不会出现重大问题。如果我们纯依赖三方产品的方法论以及售后支持和研发资源，那么会出现“不会用”、“加资源”、“等迭代”等常见矛盾现象。最后，我们认为自主研发将为我们带来更多的机遇和优势。通过自主研发，我们可以更好地把控产品的应用场景、功能矩阵和核心技术，以便更好地满足需求，并根据需求变化及时进行调整和改进。

产品简介

1. 功能介绍

Athena 数据工厂是火花自研的一站式数据开发治理平台，主要为运营、BA、产品、研发、财务、技术支持等多样化角色提供任务开发、任务运维、提数分析、资源管理全方位的产品服务，帮助数据生产者和数据消费者专注于数据价值的挖掘和探索。该平台核心功能主要包含以下几个部分：

离线开发模块：此模块致力于为数据生产者提供高效的数据处理工具。它支持定时及依赖触发的离线任务，任务类型丰富，涵盖 HiveSQL、DorisSQL、Python、Mysql 与 Hive 间的数据交互，以及 Hive 至 ES/MQ、Hive 至 Doris 的数据同步。此外，我们提供了一键 API 生成功能，使得数据消费者能够便捷地通过接口获取所需数据，极大地提升了数据获取的效率。
实时开发模块：基于 Spark 和 Flink 两大引擎，我们构建了准实时/实时任务开发平台。目前，该平台已成功支撑运营分析、指标监控、日志采集、CDC 同步等多元化场景的需求，为用户提供实时数据处理和分析的能力。
运维中心模块：在运维方面，我们提供多维度的看板分析，从任务成功率、及时率、成本等多个角度全面展示数据处理的状况。同时，我们还支持上下游查询、重跑当前及下游、数据回溯、批量下线、任务监控等基础功能，确保数据处理流程的顺畅与高效。
自助提数模块：该功能基于 Hive、Spark 和 Presto 三种引擎，为数据分析师提供了强大的 SQL 交互能力，使他们能够轻松地提取和下载所需数据。此外，我们还特别针对增长业务，提供了用户三方标签的提取和下载功能，满足用户在增长业务场景下的数据需求。
数据地图模块：数据地图作为平台的重要组成部分，为用户提供了详尽的数据资产信息。用户可以通过该模块查看数据目录、明细信息、血缘关系、调度信息、更新记录以及生产逻辑等关键信息，从而更好地理解和利用数据资源。
控制台模块：控制台作为项目管理员和系统管理员的操作后台，具备强大的管理功能。管理员可以通过该模块管理项目成员、数据源、库表权限、队列分配以及敏感信息查询记录等，确保数据的安全性和合规性。

通过该平台可以轻松地完成数据的采集、清洗、加工和分析，提高数据的质量和利用率。同时，平台的可视化操作界面和灵活的配置选项，让用户可以快速上手并进行个性化设置。此外，平台还提供了丰富的数据服务和应用，包括用户标签、数据入湖、数据安全等，这些数据服务和应用可以帮助企业更好地利用和管理数据资源，提高数据的价值和效益。

2. 架构设计

Athena 数据工厂主体架构分为以下几个模块：

交互层：采用了主流的 Vue 框架和 Monaco 插件，为用户提供了简洁直观的数据探查和任务发布界面。用户可以通过简单的操作，轻松地进行标准化 ETL 流程的定义和执行。此外，用户交互层还提供了丰富的可视化功能，使用户能够直观地监控和管理任务的执行情况。交互层还支持多语言界面，方便全球用户使用。
服务层：这些服务包括 SQL 开发套件、集成调试、依赖推荐、元数据管理等。此外，服务层也为各自项目提供了全方位的权限管理和资源管理功能。服务层还提供 API 接口，方便与其他系统进行集成。该层整体采用微服务架构，服务之间的界限和功能清晰，不同模块不同服务，各自按照需求场景选择适合的技术栈和扩展应用，同时，独立部署和运行，这有助于提高开发部署效率以及系统容错性。
引擎层：通过对接各种生态组件，并封装存储计算能力，使得上层应用无需关心过多的技术栈和升级优化。例如，HiveSql 调试在引擎层既支持 Hive On Tez，也支持 SparkSql，并兼容各自的参数优化。这使得用户可以灵活地选择适合自己业务需求的引擎进行数据处理。引擎层还提供了丰富的插件和横向扩展机制，能够根据用户的需求进行定制化开发。引擎层还支持多租户模式，方便多个项目共享数据工厂资源。
组件层：数据工厂的底层组件包括调度引擎所依赖的 Airflow、Python 引擎依赖的腾讯云 SCF 产品 API 等。这些底层组件为数据工厂提供了稳定可靠的运行基础。底层组件还采用了高可用架构，支持容错处理和数据备份，确保数据工厂的稳定运行。底层组件还支持分布式架构，方便水平扩展和性能提升。

3. 使用场景

火花思维大数据计算链路经过多年的发展和演变，已经形成了 T/H+x、分钟级、实时和 AI 四种场景的计算链路，支撑了多方面的数据处理和分析场景。

T/H+x链路：T/H+x 是行业通用的离线计算，主要用于离线数仓、数据报表、应用统计等场景。具体实现方式是通过数据集成组件定时将 Mysql、日志等数据源的数据同步到数仓 ODS 层，其中 80% 的数据会被加工成主题宽表，然后被其他数据生产者利用，按需构建 ADS 应用数据，并最终以数据库表、消息队列或者 API 方式提供数据服务。
分钟级链路：分钟级应用主要针对 OLAP 多维分析场景，通过 FlinkCDC 等方式将数据源数据同步到 OLAP 引擎，然后逐层定时拉宽聚合，最终以 API 方式对外提供数据。早期的 OLAP 引擎主要是 Kudu 和 ClickHouse，现在以 Doris 为主。
实时链路：实时计算链路主要包括以 Spark Streaming 为核心计算栈的定制化数据服务和以 Flink 和 IceBerg 为核心的实时湖仓。其中，Spark Streaming 主要用于历史遗留的 ToC 数据场景，如学员学情报告、CRM 运营数据、用户标签建设等。而 IceBerg 则主要用于解决实时日志流水链路，Flink 则既可以用于构建实时数据报表，也可以用于运营监控统计。
AI 链路：AI 计算链路主要用于训练和推理模型，包括数据预处理、模型训练、模型评估和模型部署等环节。

关键技术与创新点

1. 离线 ETL

在离线开发集成角度，Athena 数据工厂提供了丰富的功能，旨在满足用户在基础数据 ETL 以及分析挖掘领域的多样化需求。该模块的核心能力体现在 Hive、Doris、Python 以及与其他组件的集成上，为用户提供高效、稳定且灵活的数据 ETL 链路。

HiveSQL 作为离线开发任务的重要组成部分，先后经历从 Hive 1.2 到 Hive 3.1 的版本升级。前期主要依赖 Tez 引擎进行数据处理，其中 Tez 0.10 引擎以其更高效的执行计划和资源管理能力，为 HiveSQL 提供了强大的性能支持。随着大数据 ServerLess 技术的演进，在 2023 年完全适配了商业化数据湖计算 DLC SparkSQL，基于存算分离的整体架构使得离线 SQL 在大数据处理上更加灵活和高效。

Doris 计算也是 Athena 数据工厂的一大亮点，其作为一种高性能的分布式 OLAP 引擎，具有快速查询分析和高并发等特性。通过集成 Doris 计算，能够支持用户对海量数据进行分钟级离线运算分析，借助一键 API 功能，满足 CRM 业务数据时效性的高要求。

Python 作为一种通用编程语言，在数据开发领域也发挥着重要作用。在 AI 大模型“肆孽”的当下，Athena 选择 Python 3.10 版本支持用户编写离线数据处理任务，利用云函数 Python 丰富的库和 MB 级内存资源管控能力，重点处理 SQL 不易甚至不能解决的场景，实现复杂的数据分析和处理逻辑，使得用户可以更加灵活地处理数据，提高开发效率。

在与其他组件的集成方面，比如 Mysql<->Hive 的集成任务，Athena 依赖 Sqoop 集成工具进行数据传输和同步。我们还通过异步监听 Mysql 的 DDL 变化，实现了数仓 ODS 层的字段新增、删除以及 Comment 变化的适配，以及在用户交互中实现自动建表、字段同名映射等功能。分库分表合并则利用 CDC 模式实现。对于 Hive 与其他组件的集成，我们则依赖 DataX 这一强大的数据交换平台。DataX 支持多种数据源之间的数据交换，包括 Hive、ES、MQ 等。目前，为了积极拥抱弹性计算，我们根据火花数据的特有使用场景，通过二次开发改造 Seatunel，计划在第二季度彻底替换 Sqoop 和 DataX。

2. 调度系统

Athena 数据工厂的底层调度组件，正是基于业界知名的 Airflow 2.0 构建而成。Airflow 作为一个灵活且可扩展的分布式工作流调度系统，早已在大数据领域赢得了广泛的应用。它不仅能够高效地调度各种数据处理任务，还具备丰富的 API 支持，使得开发者能够轻松集成各种功能，满足复杂的业务需求。

在我们的调度系统中，除了支持任务启停、依赖绑定、失败重试、重跑上下游等基础功能外，我们还通过深度整合调度系统元数据和 Athena 数据工厂元数据，实现了更为精细化的调度管理。这使得我们能够实时掌握任务的运行状态，及时发现并解决问题，确保数据处理的稳定性和准确性。

3. 实时计算

Athena 数据工厂的实时计算模块功能主要支持 Spark Jar、Flink Jar 以及 Flink SQL 三种开发任务。

在 Flink SQL 方面，它已经成为非大数据用户的首选。Flink SQL 以其简洁易懂的语法和强大的实时处理能力，受到了广大用户的青睐。目前，我们的平台已经支持 Kafka、RocketMQ、Mysql、Doris、Elasticsearch、Hive、Hudi、Iceberg 等众多 Connector。这些 Connector 的存在，使得 Flink SQL 能够轻松接入各种数据源，实现数据的实时采集、处理和输出。

在 Jar 任务方面，无论是 Spark Jar 还是 Flink Jar，它们都以公司 GitLab 的仓库地址为基准。这意味着，开发人员可以将自己的 Jar 包上传到公司代码仓库，并通过Athena 轻松实现打包、部署和运行。这种集成方式不仅提高了开发效率，还确保了 Jar 包的版本管理和安全性。

今年，我们的实时计算底层也计划基于 Oceanus 弹性伸缩进行改造。根据业务需求的变化，我们可以自动化调整计算资源，实现动态计算能力的弹性伸缩。通过合理的资源调度和容错机制，我们能够确保实时计算任务的稳定性和可靠性。

4. 监控预警

在任务级别的监控方面，Athena 数据工厂能够实时监控任务的执行状态，包括是否成功、失败或超时。这些监控项是确保任务稳定运行的关键指标。一旦任务失败或超时，平台会立即触发预警机制，通过飞书群或飞书个人等方式通知相关人员，以便及时介入处理。

除了任务级别的监控，Athena 数据工厂还提供了表级别的监控功能。这包括主键唯一性检查、双端对比以及表行数校验等。主键唯一性检查能够确保表中数据的唯一性，防止重复数据的出现；双端对比则能够对不同数据源之间的数据进行比对，确保数据的一致性；表行数校验则可以检查表中数据的数量是否正确，防止数据丢失或异常增多。这些表级别的监控项能够全面保障数据的质量和准确性。此外，Athena 数据工厂还支持字段级别的监控。这包括空值检查、异常值监控、求和、均值、极值等。空值检查能够发现数据中的缺失值，确保数据的完整性；异常值监控则可以识别并报警异常数据，防止其对后续分析造成影响；求和、均值和极值等统计指标则能够帮助我们了解数据的分布情况，为后续的数据处理和分析提供重要参考。

Athena 数据工厂的监控程序与监控任务是紧密绑定的。这种一体化的设计不仅方便了用户对监控任务的管理和维护，还能够实现任务与监控的成本核算。通过监控程序，我们可以清晰了解每个监控任务的资源消耗情况，为成本控制和资源优化提供了有力支持。

实施与运营

1. 演进历程

Athena 数据工厂于 2021 年底正常上线，初期目标就是将以 Azkaban 和 Crontab 上的 HiveSQl 和 Sqoop 脚本全部迁移至数据工厂，让数据仓库、数据服务和 BA 自助的脚本能够在各自项目空间下有序地依赖执行。

2021 年 11 月，Athena 数据工厂迈出了坚实的第一步，v1.0 版本的上线标志着它正式踏入数据开发领域。这个版本以离线开发、调度配置、任务运维三大核心功能为基础，为用户提供了稳定可靠的数据开发平台。
仅仅三个月后，2022 年 2 月，我们成功完成了数据仓库的 HiveSQL 和 mysql<->hive 相关任务的全量迁移，这标志着 Athena 数据工厂在支撑火花思维基础数据处理能力上迈出了重要的一步。
同年 4 月，我们又实现了 Hadoop 集群从依赖社区自建到商业化 EMR 的顺利迁移，这一变革极大地提升了基础组件的稳定性和性能。
2022 年 7 月，Athena 数据工厂再次迎来重大更新，新增了 Doris 引擎和 SparkSQL 引擎，为用户提供了更多样化的数据处理引擎的选择。此外，上线一键 API 生成功能，方便数据生产者通过 API 通道分享数据。
同年 10 月，我们整合了原《大数据实时开发平台》至 Athena 数据工厂，构建了独立的实时开发模块，以满足用户对于实时数据处理的需求。
进入 2023 年，Athena 数据工厂的迭代速度更是加快。3 月实现表级别血缘关系解析以及整合公司 GitLab 实现版本管理，并基于此上线依赖推荐、跨周期依赖、数据回溯、BI 建模血缘跟踪等辅助开发能力。
6 月，成功实现了离线开发和自主提数的 SQL 引擎对商业化 ServerLess 的适配，进一步提升了数据处理效率。
8 月推出了字段级血缘关系以及数据监控功能，为用户提供了更加精细化的数据管理和质量保证。同时，基于 HiveMeta 实现表资产生命周期治理能力。
2023 年 11 月，基于腾讯云云函数产品，我们推出了 Python 开发模块，为 BA、算法、研发等角色提供了解决 SQL 无法实现或较难实现场景的全新功能。
到了 2024 年 1 月，我们再次进行了一次重大的技术革新，适配 Hdfs 迁移至 COS，实现了用户无感的存算分离，为各项目空间提供了更加灵活和高效的数据存储和计算服务。

2. 日常运营

Athena 数据工厂的日常运营在 2023 年 3 月前后经历了两个阶段，每个阶段都有其独特的运营策略与特点。在 2023 年 3 月之前，我们采用的是项目制的运营模式。每个项目都建立了专门的运营群，并配备了专业的运营人员。这些运营人员不仅具备丰富的数据开发经验和深厚的技术功底，还擅长与用户沟通，能够迅速把握用户需求并提供相应的解决方案。他们会在群里积极回答用户的问题，提供细致的解答和培训，确保用户能够顺利使用我们的产品。同时，他们还会根据用户的反馈和需求，不断优化我们的产品和服务，持续提升用户体验。

然而，随着用户数量的不断增加和项目规模的扩大，我们意识到这种项目制的运营模式存在一些问题。比如，不同项目之间的信息交流不畅，导致一些共性问题无法得到及时解决；同时，运营人员的工作负担也逐渐加重，难以保证服务质量和效率。因此，在 2023 年 3 月之后，我们对产品运营模式进行了调整，建立了《大数据服务中心》千人话题群。该话题群将所有用户集中在一起，方便他们之间的交流和互动。同时，我们实施了轮岗机制，由 Athena 数据工厂的产品、研发、测试多方人员轮流担任值班人员，负责解答群内用户的问题，不仅提高了服务效率，还确保了问题的专业性和准确性。为了确保值班人员能够准时上线并积极参与群聊，我们还引入了机器人提醒功能。机器人会在每天下午 18 点定时提醒值班人员上线，并在群里积极回答用户的问题。通过这种方式，我们确保了服务的及时性和连续性。

成效与收获

1. 释放自助能力

我们一直秉持着“生产力改变生产关系”的原则，致力于提供便捷、高效的数据开发工具和服务，帮助公司各部门、各角色更加自主地开展数据分析和应用，实现公司数据自助开放的整体策略目标紧密相连。

从数据层面来看，Athena 数据工厂每日承载的离线任务运行实例数量已达到约2 万个，它表明我们的平台已经能够稳定、高效地处理大量的数据任务，为公司的数据分析和应用提供了强有力的支持。同时，内部用户数量也达到了约 470 人，MAU 约 130，这说明已经得到了广泛的认可和使用。由 BA、运营、产品、研发等非大数据角色发起的新增任务占比高达 92%。这一数据不仅凸显了 Athena 数据工厂在跨角色数据开发方面的广泛应用，更体现了平台在推动公司内部数据自主开放方面的卓越成效。

具体来说，仅在 2023 年非大数据角色通过 Athena 数据工厂新增的任务数量就达到了 2700+ 个（忽略数据资产生命周期治理）。从更宏观的视角来看，结合数据需求迭代频率，Athena 数据工厂实际上在 2023 年支撑了公司内部的 3000+ 个数据需求。这意味着，Athena 数据工厂已改变公司数据诉求供需关系，为增长和变化预留了足够的空间，更为公司提供了一个稳定、可靠的数据基础设施，使得公司能够更加自信地面对未来的数据挑战，实现数据价值最大化。

2. 提升可靠性

事前检查：在任务上线之前，Athena 数据工厂会进行强逻辑的检查，以确保数据任务的稳定、正确产出。这些检查规则包括脚本语法、调度配置、资源权限等多方面的检查，可以避免数据上线后出现错误和异常，从根本上降低值班人员起夜率。
事中预警：在数据生产和消费过程中，平台会进行实时监控，并提供丰富的预警机制。当数据出现异常或达到预警阈值时，平台会及时发出预警信号，通知相关人员进行处理。这样就可以及时发现和解决数据异常，避免数据丢失和错误，保证数据的可靠性和稳定性。
事后复盘：故障发生后，QA 同学利用 GPT 依据 5why 分析法构建了复盘机器人，带领故障干洗人对 SLA 问题进行深度引导分析，找到根本解决方法，并预防类似问题的再次发生。

3. 优化 ETL 效率

自从调度任务迁移至 Athena 数据工厂后，通过分析 ETL 任务的执行数据，从多方面提升了整体运行性能，天调度 SQL 任务 24 年 3 月同比 23 年 3 月增加 107%，单平均任务运行时长降低 48%。这主要得益于三个方面的改进：

DAG 优化：首先，通过分析 Airflow 节点资源利用率，结合各类型任务 Client 执行所需的 CPU 和内存资源，合理分配整体 Pool 和 Worker Pool 的阈值，实现执行节点任务吞吐最大化。其次，由于各类型 DAG 运行周期交叉，最典型的就是天调度 DAG 与零散 DAG 的交叉，会发生调度资源、算力资源甚至 IO 资源竞抢，通过分析统计各 DAG 任务重要性和影响度，以及任务特征，合理分配各DAG 的 Pool 大小，实现整体资源利用最大化。最后，根据单 DAG 上依赖模型和各任务自身特点，动态调整各 SLA 等级的任务权重，让重依赖、重保障的任务尽早运行，从而实现更高效的任务执行。
慢任务优化：治理团队投入最大的精力就是识别优化慢 SQL，而慢 SQL 最常见的场景就是两种：（1）数据扫描量大，要么忘记加分区限制要么读取分区太多；（2）通常是嵌套 With as 较多临时查询的任务，导致解析计划中某一个或几个Reduce 卡住，但写 SQL 的人员优先满足计算口径，而忽略数据倾斜或笛卡尔问题。由于目前底层 SQL 算力引擎已弹性，故在基线保障和成本控制的背景下，优先解决慢任务是效果最佳的治理手段，也是持续保障任务平均执行效率和性能的最佳实践。
组件优化：无论是 SQL 任务或是集成任务，都会依赖其他组件，而很多时候，随着数据量或读写压力的增加，组件出现性能瓶颈，而在任务角度观察是整体运行变慢或夯死，这时候就可以通过多维分析任务运行数据，观测拐点的任务特征，结合干系组件的性能监控波动，识别并对症下药。例如：JournalNode、RDBS 以及磁盘故障等。

4. 降低成本

Athena 数据工厂通过底层技术的优化进一步降低了综合技术成本。近两年，我们将hive 底层引擎先进行了 tez 升级后切换至 Spark，存储从 HDFS 迁移到 COS，今年3 月天调度单任务计算成本同比去年降低 29%。而这些切换过程中，我们充分利用了 Athena 数据工厂对底层的隔离和封装能力，降低技术升级对用户的影响，甚至部分迁移工作对用户无感。

在 Athena 数据工厂上线前，BA 和研发人员面临着繁琐且耗时的数据任务上线发布流程。他们需要通过一套基础配置工具，历经八个步骤才能完成整个操作。这包括编写配置文件和 SQL、上传代码、配置依赖、构建任务、部署任务和发布任务等。每一步都需要手动操作，稍有不慎就可能导致错误或异常情况，进一步增加了解决问题的难度和时间成本。然而，使用 Athena 数据工厂后，这一切得到了彻底的改变。据调查统计，每个数据任务的上线发布过程至少可以节省 3 小时以上的时间。

总结与展望

1. 经验教训

在 Athena 数据工厂构建过程中，我们积累了许多宝贵的经验教训。以下是一些关键的点：

注重目标用户体验：我们深刻认识到用户体验是平台成功的关键因素。在平台建设前期，团队投入了大量的时间与精力，组织数次产品 MVP 功能调研问卷，对目标用户群体进行了深入的调研，明确了他们的需求和期望。这不仅帮助我们确定了平台需要实现的核心功能，还让我们能够避免在设计过程中添加不必要的功能和复杂性，确保平台始终保持简洁、直观和易于使用的特性。此外，为了进一步优化用户体验，产品上线首年每月进行 Top3 用户测试和反馈收集，倾听用户的声音，并根据他们的反馈对平台进行了持续改进。
选择合适的技术栈：选择合适的技术栈对于平台的成功同样至关重要。在选择技术栈时，我们充分考虑了平台规模、性能需求、可扩展性以及维护成本等因素。我们进行了深入的技术调研和评估，与业内专家进行了充分的沟通和交流，最终选择了既符合平台需求又具有前瞻性的技术组合。
构建可扩展的架构：在构建平台的过程中，我们还特别注重架构的可扩展性。我们深知，随着业务的发展和数据的增长，平台的架构必须能够轻松应对未来的挑战。因此，我们采用了分布式系统、微服务架构等技术手段，确保平台能够灵活地扩展和适应新的需求。这种可扩展的架构不仅提高了平台的性能和稳定性，还为我们后续的维护和升级带来了极大的便利。
学习和不断改进：产品构建是一个不断学习和改进的过程。在产品的开发、测试、上线和运营等各个阶段，我们都保持高度的敏感性和警觉性，不断反思和评估平台的性能、用户需求反馈。虽然我们暂未建立成熟的“数据飞轮”，但积极收集和分析数据，通过数据驱动的方式发现平台存在的问题和不足，并制定相应的改进措施。这种持续改进的态度不仅帮助我们不断优化平台的功能和用户体验，还让我们能够紧跟行业发展的步伐，保持平台的竞争力和创新性。

2. 未来迭代

对于用户自助开发过程中的代码调试和报错任务，提供基于 AI 的分析协助能力。利用大语言模型，我们能够快速准确地理解用户的问题，并提供有针对性的解决方案。这种智能化的分析协助能力不仅可以提高用户的工作效率，还可以减少用户的焦虑和压力，提升他们的使用体验。
优化可观测能力，解决大任务等对稳定性和性能带来的系统性负面影响。持续评估和优化计算资源的性能，确保它们在处理大量数据时高效运行。定期进行基准测试和性能评估，以确定计算资源的瓶颈和潜在优化机会。利用性能监控工具和指标来实时监测计算资源的使用情况，并及时采取措施解决性能问题。同时，优化计算资源的配置，例如调整 CPU、内存、存储等参数，以提高资源利用率和性能。
将核心功能和底层引擎容器化，这样可以实现资源的动态分配和管理，提高系统的灵活性和可扩展性。同时，可以更轻松地部署和管理应用程序，提高资源利用率和效率，降低成本，并确保系统的稳定性和可靠性。同时，要开始在架构层次思考低成本支持跨平台和云原生应用，这可以提高系统的灵活性和可扩展性，同时降低开发和维护成本。

结语：通过对一站式数据开发治理平台的构建与实践，火花思维成功提升了数据管理效率，优化了数据利用价值，为公司发展注入了新的活力。未来，随着技术的不断进步和业务的持续拓展，公司将继续深化数据治理与开发工作，为在线教育行业数据驱动的创新发展贡献更多力量。