80%的 AI 项目将因数据工程师太少而失败!

科技   2025-01-11 11:53   美国  

近期,一份来自RAND研究机构的报告引发了业界广泛关注:高达80%的AI项目以失败告终,这个比例整整是普通IT项目失败率的两倍。更值得关注的是,报告特别指出数据工程师的缺失或不足是导致失败的关键因素之一。
这个发现并非空穴来风。在一些技术社区,已经有大量数据工程师和数据科学家分享了他们在实践中遇到的类似困境。通过分析这些真实案例和一线从业者的反馈,我们可以更清晰地看到AI项目失败背后的深层原因,以及数据工程在其中扮演的关键角色。

一、数据工程对AI项目的至关重要性

在信息系统领域有一个经典说法:“数据是石油,数据工程是开采与输送管道。” AI模型要想发挥最大效益,前提是有源源不断、质量可靠的数据输入。就像油井和炼油厂之间需要可靠管道运输,没有坚实的数据工程能力,再好的模型也缺少原料或原料劣质,最终难以获得成功。

在机器学习的经典框架中,数据工程占据了80%的工作量,而模型训练只占20%。虽然深度学习、AIGC跟传统的机器学习在数据工程方面的投入有些细微不同,数据工程自动化能力的提升也在努力降低这个比例,但总体上看,一个AI项目在数据工程上的投入比例仍然非常高,因为以下的一些数据处理环节对AI项目仍是不可或缺的:

数据采集与整合:AI项目通常需要整合来自不同来源、不同格式的数据。数据工程师需要设计和实施数据采集策略,构建数据湖或数据仓库,将异构数据整合到统一的平台。

数据清洗与预处理:原始数据往往存在缺失值、异常值、重复数据等问题。数据工程师需要运用各种技术和工具,对数据进行清洗、转换、规范化,使其符合模型训练的要求。

特征工程:特征工程是将原始数据转换为模型可理解的特征的过程,直接影响模型的性能,如文本分词与嵌入、图像处理与标注、时序数据补全与修正等。数据工程师需要与数据科学家合作,理解业务逻辑,提取、构建、选择有价值的特征。

数据存储与管理:AI项目通常涉及海量数据,数据工程师需要选择合适的数据存储方案(如关系型数据库、NoSQL数据库、分布式文件系统等),设计数据模型,优化数据存储和访问性能。

数据安全与合规:数据安全和隐私保护至关重要。数据工程师需要实施数据加密、访问控制等安全措施,确保数据符合相关法律法规(如GDPR)的要求。

构建和维护数据管道:数据工程师负责构建和维护数据管道,自动化数据的流转过程,确保数据的及时性和准确性。这需要熟悉各种ETL工具、工作流引擎等。

规模化与性能优化:随着数据量的增长和模型复杂度的提高,数据工程师需要对数据处理流程进行规模化和性能优化,确保系统能够高效稳定地运行。

下面是一个因数据工程而失败的典型案例:

某金融机构计划做一个风控 AI 模型,用来识别信用卡交易欺诈。他们招募了数名顶尖的算法人才,声势浩大地准备在半年内上线。但在项目过程中发现,实际掌握的交易流水数据并不完善,并且由于历史原因,数据库中存在诸多不一致字段,甚至出现同一条数据在不同的数据仓库里描述不一致的情况。

项目团队想让数据工程师做一个可以归总不同系统数据、同时又能做实时更新的管道。但公司高层此时却反对增加预算,说"你们能不能找个开源工具凑合一下?别浪费时间,大不了数据科学家做点数据清洗就好了,重点是算法要出彩。"结果导致数据工程师寥寥数人,且分身乏术,一个人要兼顾多个工作。最后,这个"依赖算法大杀器来识别欺诈"的项目花费了半年多,模型准确率迟迟上不去,离预期甚远。公司管理层认为投入产出不成比例,就把该项目砍掉了。数据科学家转头走人,数据工程师也因得不到应有的支持而选择离职,整个项目仅留下了一堆未完善的文档和一台闲置的 GPU 服务器。

二、AI 项目因数据工程不足而失败的四大原因
这些年来,结合我的经历和观察,我对AI项目失败的原因也有了一些思考。
1、 AI 项目的数据需求日益复杂

随着大模型、生成式AI、深度学习等技术不断升级,模型对数据的要求确实不仅是"数量够多",还需要"高质量"、"覆盖全面"、"更新及时"等。在企业级应用中,我看到数据通常要经过"清洗"、"特征提取"、"跨系统整合"、"实时/离线同步"等繁琐操作。如果没有专业的数据工程师来搭建和维护数据管道,这些环节都会变成AI模型的隐患:

数据质量参差不齐,"Garbage In, Garbage Out"这句老话在AI时代依然适用。数据流处理效率低下必然会拖累模型的迭代和实时推理,这一点我在实践中深有体会。

此外,特征工程难以合理实现,不同数据源语义难以整合的问题也常常困扰着团队。更要命的是,一旦上游数据源断供或变更,模型训练和推理随时面临中断的风险。

说到这里,我想起别人跟我讲的一个趣事:某数据科学家直接把数十亿行数据往笔记本(notebook)里一股脑地加载,结果可想而知 - 内存爆炸、系统宕机,最后不得不向数据工程师求助,用分布式方式来分批处理数据。

这个例子生动地说明,AI的背后必须有稳健、灵活的数据管道撑腰,而这正是数据工程师的职责所在。

2、数据工程师流失带来的知识和文档断层

在我看来,如果把企业比作一台精密的机器,那么数据工程师就是负责维护数据管道的关键工程师。一旦核心数据工程师离职,而企业又没有完善的知识传承机制,就会导致数据字典、业务逻辑、ETL流程等关键信息的断层,如同机器的关键部件丢失,后果不堪设想。

现实中,许多企业为了赶进度或节省成本,在项目初期往往忽视了文档建设和知识交接,结果导致核心人员离职后,整个数据管道都可能陷入瘫痪。对于AI项目而言,这种风险尤其突出。事实上,AI模型的效果严重依赖于数据的时效性和准确性,如果长期无法获取核心数据,模型就如同无源之水,无本之木。

"公司里最懂业务数据的人离职后,没有留下任何文档或注释,我们花了几个月的时间重新定位可靠数据源,并耗费大量精力去理解之前的数据处理逻辑。"这种"恐怖故事",在数据领域并不鲜见。

3、管理层对数据工程的价值认知不足

从我的观察来看,数据工程确实是"基础建设",和修公路、铺电线一样,短期内可能看不到显著回报。对一些不懂技术的管理者来说,这种投入既不"显山露水",也不够抢眼,常常被忽视。不少企业领导更关心"模型何时上线""能不能做得惊艳",却不愿意花钱在数据管道、数据质量监控等方面。

在实际操作中,看到这种"不愿意投资"的观念往往造成连锁反应:团队规模不足、数据平台性能不够、安全合规体系缺失。等到需要做大规模数据或大模型应用时才发现基础不牢,结果只能草草收场或无限期拖延。

4、业务场景缺失与"为了AI而AI"
有的AI项目之所以失败,不仅是因为缺乏数据工程师,还因为它根本没有明确的业务场景。不少公司看到AI很火,就立刻喊"我们也要做AI!"但要解决什么具体问题,却没人能说清楚。
在这种情况下,管理层往往也不会提供足够的数据工程资源。因为他们压根不知道这个AI要实现什么价值。结果项目就沦为"面子工程",投入和产出严重失衡,最后只能被叫停。而从逻辑上看,如果一个项目的目标并不聚焦、路线不明确,那么数据工程师再强大,也无法让 AI 项目成功落地。
三、数据工程师短缺背后的深层次原因
1、人才生态:供需失衡
当"数据科学"成为热门概念,大量人才涌向"数据科学家"或"机器学习工程师"岗位,真正愿意做"底层"数据工程工作的人相对有限。同时,一些企业只愿意给数据工程师开与普通后端工程师类似的薪资,却要求他们熟悉云平台、大数据处理、分布式计算等多种技能。
因此,许多经验丰富的高水平数据工程师要价更高,但不少公司又不愿意给出匹配的薪酬和发展空间,导致供需错位更为严重。本质上讲,"并非真的没有数据工程师在市场上,而是公司往往不想花钱或开出足够的待遇来吸引人才"。
2、行业风向:对"AI 科学家"的过度聚光
随着媒体和资本对 AI、机器学习、深度学习的宣传,大众普遍对数据科学和机器学习工程师抱有极高的期待和敬畏。企业往往也更愿意展示自己雇佣的"顶尖科学家"团队,在宣传材料中凸显"颠覆式创新",而不太会提及支持这些模型的底层基础设施到底由谁搭建。这种文化和风向上的偏见,使得"数据工程"一直处在相对"苦劳却少有功劳"的边缘地位。
然而,越来越多的业界声音已经开始指出:如果没有扎实的地基,建筑再漂亮也会倒塌。AI行业发展到今天,对数据工程的需求只会越来越高,需要越来越专业的人才去解决大规模数据处理、数据质量、数据可追溯、实时计算、可视化监控等系统性问题。行业的风向或许在变,但还需要时间和大量教育投入。
3、组织文化与项目管理的短视
很多人把 AI 项目的失败简单归因为"项目缺乏技术能力",但往往在更高层次,真正的原因可能是企业自身的文化和项目管理模式。不少公司更注重短期的财务回报或市场噱头,而不愿意脚踏实地地做长期建设。他们也缺乏对"数据工程师"专业内涵的认识,更不会在组织架构和激励机制上给出合理的支持。
在AI项目中,类似"我们领导好像对数据工程不感兴趣,他只问'模型做出来了吗?什么时候能上线?'"之类的言论屡见不鲜。这种急功近利的心态 很容易导致在关键的底层建设阶段就熄火,一旦企业发现"数据没想象中那么简单"、"经费要远超预期"就立刻喊停,而不是寻求更合理的迭代方式。结果就是一次又一次的项目浪费,最终让高层也愈发对 AI 心灰意冷。
4、对数据治理的忽视
基于我多年的行业经验,数据治理(Data Governance)确实是数据工程体系中的重要一环,它涉及到数据标准、质量、元数据管理、安全与隐私、数据生命周期管理等方面。但在很多公司里,这块工作并不受重视,也不设专门的团队或预算去推进。结果就是一个又一个烟囱式的数据孤岛,重复、冗余,甚至没有文档和元数据的管理。
我始终认为,AI要真正发挥力量,需要在一个"可治理、可追溯、可重用"的数据环境中运行。在实践中我发现,如果数据治理完全缺失,AI项目势必会消耗大量精力在"打补丁"上,并且一旦业务场景升级或要做数据回溯,就会面临巨大的技术债和知识断层。我想强调的是,"数据治理"与"数据工程"息息相关,它们共同决定了企业的数据可用性和数据资产沉淀的水平。
四、如何解决数据工程师短缺的问题?
1、树立正确观念:数据工程是 AI 的"地基"

企业管理层需要真切地认识到,数据工程是AI项目的根基,绝不是可有可无的配角。就像盖房子离不开稳固的地基,AI项目也离不开可靠的数据管道,有几个关键点值得注意:

① 在宣传和汇报中突出数据工程的贡献,减少"只吹嘘模型算法"的做法。

② 在招聘和岗位描述中明确数据工程师对企业战略的重要性。

③ 定期举办内部培训或分享会,让资深数据工程师向管理层、业务部门介绍他们的工作内容和价值。

2、强化组织和团队结构:让数据工程与数据科学并重
基于我的观察,要让企业内数据工程与数据科学形成良性循环,需要从组织结构和团队协作模式上进行优化:
① 设立专门的 Data Engineering 团队或部门:不要把数据工程师分散到不同的业务部门或项目组里,更要避免让他们同时承担无关的后端开发和运维工作,保证他们有足够的时间和资源专注于数据相关任务。
② 建立 DataOps / MLOps 流程:让数据工程师、数据科学家、运维人员一起协作,从数据获取、数据处理、模型开发、模型部署到监控反馈,形成完善的流水线,减少部门间扯皮。
③ 鼓励跨职能合作:在实际项目中,让数据工程师全流程参与需求分析、架构设计和方案评审,与数据科学家共同定义需要怎样的数据、怎样的特征,以及对数据质量、时效性的要求。
3、加大对数据工程师的培养与激励
很多数据工程师离职的原因之一,是看不到晋升通道或个人发展的空间。企业应建立多层次的激励制度:

① 专业职级通道:让数据工程师在技术线也能晋升到高级、资深、专家级别,而不是只能通过转型管理或转型数据科学家来获取更好的薪资与地位。

② 经济激励和股权激励:对于在关键AI项目中做出重大贡献的数据工程师,应给予奖金、期权或其他形式的激励,体现他们的重要价值。

③ 持续培训和学习机会:为数据工程师提供学习新技术的资源,如实时流处理、Lakehouse架构、云原生等,提升他们的职业成就感。

4、完善数据治理和文档体系
一个健康的 AI 项目团队应该具备较好的数据治理能力,包括:
① 建立统一的数据标准、元数据管理平台,让所有人对数据字段、口径、权限等有清晰认知。

② 对关键的数据管道配置自动化监控和告警,保证数据质量与稳定性。

③ 强调文档化文化,每次数据流程或管道的变更都要及时记录和审查,减少"关键员工离职带走关键知识"的风险。

④ 通过版本控制和规范化流程(DataOps),让数据工程师的工作更加可追溯和可持续地迭代。

曾经听一位数据科学家吐槽:"我同时当着数据科学家和数据工程师的角色,因为公司没有文档,也缺少专业工程师队伍,只能自己摸索整个流程。"这种情况在业内并不罕见,但显然不是长久之计。
5、业务驱动,明确价值:减少"为了AI而AI"
任何技术最终都要落地到实际业务场景中,创造价值。要让AI项目可持续发展,就必须在立项之初明确要解决的业务问题,并评估所需的技术、数据和资源投入。

① 如果一个项目只是为了"跟风 AI",没有清晰的业务目标,就很难获得管理层的长期支持。

② 如果没有足够的数据场景或业务场景,数据工程投入也会显得浪费,从而进一步打击团队信心。

只有让数据工程师和数据科学家都清楚项目的业务目标,明确哪些数据最关键,哪些环节最能带来价值,才能把有限的资源用在刀刃上。
6、技术实践:寻找适合团队的工具和架构
在实践层面,数据工程师需要考虑如何搭建灵活、高效、可维护的数据管道与基础设施,在面对大规模、多源异构数据时保证效率和质量。当前业界已经有不少成熟的技术栈可供参考,如:

① ETL/ELT 工具:如 Airflow、dbt、Talend、Data Factory、DataWorks 等,可实现可视化流程编排和自动化任务调度。

② 分布式计算和存储:如 Spark、Hive、Hadoop、Delta Lake、Iceberg、Hudi 等,适合大规模批处理和近实时分析。

③ 实时流处理:如 Kafka、Flink、Kinesis 等,满足低延时的数据传输和计算需求。

④ 数据编排和容器化:如 Kubernetes、Docker 等,使数据服务具备弹性伸缩和更高可移植性。

⑤ 云平台服务:AWS、Azure、阿里云等都提供数据湖、数据仓库、数据可视化等一整套管理方案。根据企业规模、业务需求灵活选用。

⑥ MLOps 平台:如 MLflow、Kubeflow、SageMaker 等,将模型研发与数据管道集成,在持续迭代中管理模型版本、数据漂移、自动化部署等。

关键是要与团队能力和业务需求相匹配,并提供充分的学习支持和维护投入,才能让技术工具真正发挥作用,而不是空摆在那。
五、结语
"80% 的 AI 项目会失败"并不意味着AI毫无价值,也不代表数据工程不足是唯一原因。它提醒我们:AI落地远比宣传中来得复杂,需要在技术与基础建设上双管齐下,也需要业务价值和企业文化的同步支持。只有当数据工程被重视、被投入足够资源,AI 项目才能拥有稳固的地基,从而真正创造长期的商业价值。

    公众号推送规则变了,如果您想及时收到推送,麻烦右下角点个在看或者把本号置顶

与数据同行
专注于普及数据管理、数据治理、数据技术、数据智能及数字化转型等领域的专业知识,分享业界专家的实践经验和思考!
 最新文章