解析ESIS|TCL华星光电曹煦林:AI驱动下的制造型企业数据治理

文摘   2025-01-02 10:53   安徽  

关注我们 获取更多行业资讯 

ESIS 2024第三届中国电子半导体数智峰会以“智驭新质潮·数创未来芯”为主题,聚焦大数据、AI、5G、区块链、云计算、RPA、中台建设物联网、智能制造、供应链等前沿技术,共同探讨数字化、智能化趋势下电子半导体产业的发展和创新。

在本次大会上我们非常荣幸邀请到TCL华星光电IT平台能力中心总监曹煦林先生做主题分享。


曹煦林

TCL华星光电 IT平台能力中心总监



AI驱动下的制造型企业数据治理


各位来宾、各位同仁:

上午好!我今天分享的数据治理话题其实不是一个新鲜话题,老生常谈罢了。为什么在现在的整个制造业中,因为我们属于面板制造业,跟上午分享的京东方、天马都是同一个行业,我分享的主题为什么要谈数据治理呢?因为现在处于 AI 时代、大数据时代。

制造型企业数据治理的背景

数据治理工作展开的整个背景,从我的个人经验来讲,这里面列了几条,包括数据战略、数据质量、数据标准以及数据的安全风险。但是实际上在整个制造行业,特别是像泛半导体行业,制造业的出发点是数据质量。以前数据治理工作很不受重视,因为数据治理本身是数据的一项基础性工作,你可以理解为像我们 IT 有基础设施,有做网络、做服务器、做数据中心的,数据治理就是相当于数据的INFRA工作。

以前驱动是什么?据我了解,数据治理很多是通过 BI 驱动的,我们做很多的分析报表,做很多的看板、驾驶舱,发现数据质量有问题,数据标准需要拉通,才去做具体工作,而这个工作是很繁琐而且容易得罪人的。但是在这几年,特别是华星,现在慢慢有了驱动点,因为 BI 做了很多年,我们也有了自己的大数据平台、数据中台,包括现在也有自己的 AI 中台以及很多 AI 应用。2018 年开始我们做了很多 AI 应用,比如面板行业比较常见的视觉检测、质量校验、制造性能人效提升等。

AI大模型行业应用痛点之一:数据问题

目前,我们在数据质量方面发现,在进行自己垂直领域大模型训练时也发现了很多数据问题,且涉及诸多主题。甚至在很多面板行业,其对设备较为注重,然而设备这块的自动化设备数据我们发现都存在不少问题。到今天,我们在与公司领导沟通时认为,我们现在发现AI要做数据治理的驱动点。

我给大家分享的是信通院的数据,我们可以看到,在做整个大模型 AI 训练时,我们会发现数据获取成本以及数据质量是存在一定问题的,特别是通用数据,其实是遇到了一些瓶颈,因为现在很多数据已经出现了数据近亲繁殖现象,即反复使用,导致训练模型的准确率越来越成问题,这就是我们所说的行业通用数据的情况。

我们现在企业本身关注的是第三部分,即整个企业私有数据部分,这里面其实也存在获取成本问题,因为我们很多像设备数据是通过传感器、IOT 平台获取的。实际上,由于华星于 2009 年建厂,很多设备是老化设备,数据采集存在较大问题,包括已知通信协议都不支持,整个获取成本比较高。从整个集团建厂的角度来看,数据质量的横向拉通也存在问题。

所以这里面面临两个问题:

第一,训练 AI 大模型本身对数据要求比较高。

第二,数据在供给和获取方面存在问题。

制造型企业数据治理解决的内部业务痛点

我们整个传统业务的痛点,具体体现在四个方面,即数据不可知、不可信、不可用、不可联,包括我们所理解的数据孤岛现象,数据的真实性等情况都存在一系列问题。

大家知道,我们在数据治理方面,不是一个严格意义上的 IT 问题,它不仅仅是 IT 问题,而是业务、IT 和数据三者相结合的。数据治理存在困难,因为我是 IT 出身,负责整个华星光电平台建设,这里面包括数据湖、数据中台、大数据、AI 中台以及一些 AI 创新性应用。但是以我自己之前多年的经验来看,如果数据治理没有一个顶层设计,没有业务部门的领导或者负责人支持,根本很难开展下去。一旦开展,我们会发现数据治理本质上会增加业务的工作量,大家可以理解吧?因为我们做数据采集时,要让业务部门填各种各样的数据,还要做数据确权,有数据的 Owner 以及数据审批流程等等。

我们常说一句话,业务部门才是数据真正的 Owner,大家想必已经很理解了,但是真正贯彻下去时,业务部门会说什么呢?我平常有很多质量方面的事情要做,你还让我管数据。很多公司实际上虽然成立了数据管理组织,但却形同虚设,我们也不可避免地会出现类似情况。所以如何跟我们的管理层高管讲数据治理的价值呢?我们刚才讲了两个驱动因素,他们看到了 BI 的价值,看到了 AI 的价值,但是如果数据底层没有做好,数据质量不过关,就难以维系,如同空中楼阁。

数据治理的价值:统一企业数据价值链路

我当时跟华星企业的领导讲,我们要做 “汇通管用评”,即数据汇聚、数据标准拉通以及质量管理拉通等等。管,是要把数据真正当作数据资产来管理,后面我们会做一些相关分享。用,类似于 AI 应用、数据分析应用。最后还有一个评,为什么要有这个 “评” 呢?大家知道,在行业里面我们有国家数据标准像 DCMM,DCMM 里面有数据管理的五个等级的成熟度评估,这也为我们提供了一种方法论,即怎么判断数据治理工作做得好不好,处于什么等级,我们可以做一个这样的评估,而且这个评估其实也可以在我们的数据资产管理平台上落地实现。

数据治理如何赋能业务实现价值

下面讲几个可能更多是方法论方面的业务场景。数据治理如何实现整个价值呢?数据治理也好、数据平台也好,我们说的数据中台都是为数据运营服务的,整个数据全生命周期管理,包括数据管理的整个标准、管理质量,元数据、主数据、数据安全等等,都是核心部分,全部为数据价值变现服务。

业务场景一:构建数据治理体系

第一步还是要构建数据治理体系。业界里面像行业 DMA(音)包括 DGI,像 IBM、埃森哲等大体上都是一致的,我们还是要建体系,建完体系后要去建立相关组织,华星光电也成立了相关组织,包括数据的确权、确责,从数据管家、数据工程师,甚至像数据建模流程都已经在系统里面实现了审批。

业务场景1.1:设计数据治理组织及数据文化推广

我们说整个数据相关组织分工,如何做到大家联动,我们叫 “四位一体”。数据所有者就是所说的数据 Owner,即业务部门;数据管理者就是我们公司会成立横向拉通的部门,很多公司的数据管理者向 CDO 汇报或并不属于 IT,在华星,我们属于数字化变革、数字化转型办公室;数据开发者就是 IT 部门,这不难理解;数据使用者其实就是所有的业务部门。

在管理思维方面,数据管理部门是整个数据管理规则制度的守护者,那么数据 Owner 要对数据产生的质量负责,并且要配合这方面工作。

业务场景1.2:构建数据治理流程与管理制度

整个流程以及我们相关的数据管理规范制度大家都很理解,但是这里面有一个问题,我们之前的数据管理的制度很多是处于 IT 的范畴,并没有对业务形成限制,所以存在一个误区,就是原数据的管理办法。原数据管理办法更多是针对技术原数据,我们对于表的定义、字段定义,大家知道可以做数据回溯,这些我们都做了,但是说实话,IT 方面我们还是比较好约束的,最难的是业务部门。

所以我们的数据质量管理办法一定要针对业务和 IT 两方面,否则很容易变成 IT 自己的事情,在这方面我们也走过很多弯路,所以做得也不是特别好,不过管理制度还是要继续推进。

我们通常说数据治理是什么,它的难点是什么,如果你发现像华星,我们总部在深圳,在深圳有六家工厂,后来陆续在武汉、广州、苏州等地开展业务,大概有 11 家工厂,我们之前是一个工厂一个工厂单点建设的,隔几年就会有新的工厂,包括我们最新收购了 LG 工厂,我们会发现工厂和工厂之间的业务标准很难拉通,包含我们现在常说的人机料法环各个环节都有,我们要去整合整个业务,从集团产品研发到供应链,再到制造,最后到营销,最后返回到公司运营层面,横向数据链拉通才是数据治理的重点。

指标体系我们也要进一步展开,指标体系化我们是做什么呢?大家可以看到右边我们其实也是类似于参照华为的流程体系,关于流程和数据的关系,我来讲一讲我的理解,流程是什么?流程是管道,数据是留存在管道里的水或者血液,因为企业内部数据是基于流程、基于 IT 系统产生的,所以我们会按照从现金到回款的 IPD 研发、LTC、IC 集成供应链、IFS 制造、IFS 财务等体系来建设一级指标、二级指标、三级指标、四级指标,按照从上至下的金字塔原理进行复核建设。

业务场景三--数据质量管理

关于质量管理,我们不展开来讲,大家也很好理解,其实质量在 100 年里都没有什么太大变化,遵循 PDCA 循环,数据质量也是如此。我们会在华星从几个维度来衡量数据质量,即数据六性:完整性、一致性、唯一性、有效性、及时性等等,通过不同指标来衡量。

业务场景四--数据安全管理

安全的话做什么事情?做四个方面,我们以前做 IT 开发讲 4A 数据,对于 4A,第一要认证,认证要分类分级,包括数据冷热都要做;第二要做授权,明确公司什么部门看什么样的数据;第三是设置访问权限;第四是数据审计。

业务场景五--构建企业数据运营模式

还有一点是数据运营,在很多公司里面,我把数据运营这块跟数据治理放在一起,这里面数据展开运营有几个原则:

数据原则。什么意思?这可能是所有公司,其实包括高层领导都建议我们要去看系统数据。今天在华星,我们每天早上公司高管会有晨会,每天八点钟,已经好几年不看 PPT 了,直接看 BI 报表,看各个方面,比如产能、良率、库存、订单,主要是从这四个大维度来看。所以高层重视是很重要的,刚刚讲过这个案例。

业务分析。要具体问题具体解决,实现闭环。

最后我讲几个案例,华星的具体案例。从数据治理的历程来看,华星数据治理项目,刚刚大家如果回顾我之前讲的数据治理,就会知道还是需要一个顶层设计的,但不要局限于顶层设计,华星已经走过了这段路。大概在 2018 年到 2019 年,当时我们请了专业的咨询公司公司名称我就不透露了,他们帮我们做了顶层设计。具体表现在那时候还没有成立公司的数据管理组织,主要是要搭组织、建流程、做平台、定标准、培能力,很好地帮我们做了总结。

除了这个之外,我们还做了数据资产盘点,上线了数据资产管理平台,对数据治理相关管理规范制度进行了规划,同时还选了两个主题域:

物料。

供应商,就是跟采购相关的主数据,对供应商的主数据做专项治理,这就是我们当时的整个项目背景。

这页图是当时设计的整个蓝图,分享给大家。数据治理因为我做这块工作大概有 8 - 10 年了,包括在前东家也在做,数据治理整个固化的支撑其实就是四个方面:

组织。要有组织,明确谁来做这个事。

制度。

流程。

技术,也就是 IT,要有平台。

制度跟流程概念是不一样的,我澄清一下,大家知道制度是什么?像管理制度、奖惩制度、考勤制度等,如果没有这种奖惩制度,数据治理是很难做的。我之前在前东家,因为整个公司级的数据治理都是我负责,我会做什么呢?我会出红黑榜,红黑榜是针对业务部门而不是 IT 部门的,因为业务部门是数据的 owner,哪个部门数据质量做得好不好,我们会在季度大会上呈现,直接呈现在董事长面前,落后到后两名的部门要整改,如果不知道怎么整改可以找我,我会跟他们讲具体的落地方法,带着团队告诉他们和 IT 同事一起去看,有些问题不仅仅是业务问题,也有 IT 问题,我们要一起去解决数据问题。这就是我们所说的管理制度。

第三,流程方面,刚刚也讲了数据是基于业务流程产生的,所以如果企业业务流程不做变革,没有梳理清楚,数据的质量就无从谈起,所以这是整个过程中的关键所在。

技术与平台方面我主要讲两个,一个是数据湖,或者很多企业做的数据中台,我们优先做数据湖,因为本身在数据湖里面就要做数据清洗建模,用最新标准落地,包括我们现在做 AI 大模型训练,特别是垂直领域的模型训练,数据从哪里来?就是从数据湖里面来,因为数据湖已经经过数据清洗,而且适用最新数据标准,如果看原系统数据,会发现很多不一致的地方。

第二我们重点说一下数据资产管理平台。今天在华星,数据资产管理平台已经成为公司数据的一个 portal,也就是唯一入口,你可以看到企业数据的所有相关信息,就像数据图书馆一样,可以查询到它的所有相关信息,比如说指标,可以查到每一个指标的一级指标的指标定义、指标的公式、指标的来源、指标的取数原则、指标的责任部门,你也可以查到主数据在哪里,它的后台其实就是数据湖。

这里面我们有数据资产目录,刚才讲到这是最基础的功能,还包括血缘分析、数据质量管控等。目前来讲,数据质量管控已经不是由 IT 来做这个数据质量了,而是由业务自定义数据质量库存后台代码自动生成,这是自主生成的,比如说一致性是可以配置的,这个平台也是基于我们 TCL 集团内部自研的。

关于设计资产的整个价值就不讲了,大家都比较容易理解。这里我可能分享一下我们的数据运营相关内容,即自助分析模型转型。因为在几年前,我在华星团队,跟大家分享一下也没关系,大家都是同行,我们当时大数据团队大概有将近 60 号人,到去年只剩下一半了,原因是什么呢?因为业务部门自己开发报表了,我们 BI 的人很少,我们已经为他们提供了工具,60%-70% 的报表都是业务部门自己开发的,我们只能开发一些比较复杂的,像大屏、驾驶舱、看板等,更多是备好数据就行了。所以现在整个报表模式已经从由 IT 主导转为由业务分析主导,而且我们现在还要更进一步,因为现在有了 AI+BI,也就是说现在领导的目标很简单,我原来还要拖拉拽去生成报表,但是现在不需要了,能不能我说一段话你就给我出一个报表,这就是我们正在努力的 AI+BI 方向,不过现在还没有实现,如果到了那个时候,所有 IT 报表分析人员可能就不需要了,只需要做好数据的抽取、做好数据的数仓就可以了。

最后一页还是讲一下 AI 相关案例,我们前面几位嘉宾讲到我们产品所在的整个制造业有 know-how,我们怎么找到 AI 场景呢?是因为我们基于工业场景的 know-how 才能找到,但是光有数据不行,我们还要有数据治理。所以除了算法、算力可以用钱砸,但是数据这个东西不仅仅是用钱就能解决的,我为什么这么说呢?你的算力可以通过 GPU 找乙方买,算法现在也有很多途径,哪怕高薪聘请也可以,但是数据治理工作,不好意思,一定要甲方兢兢业业地去做,而且不是一年两年就能完成的,这是一项艰苦而又艰巨,并且可能领导还不太认可的工作。

所以今天看华星现在做的几个项目,像智慧星盘,我具体不介绍了,大家想象一下这是什么项目,它是一个可以可视化,同时可以反控制造域的项目。

第二是良率,华星良率整个情况我觉得业界是最好的,我们有专业的良率系统 YMS,但是我们在 YMS 基础上现在做了很多大模型分析,包括良率多模态的分析,我们现在讲的大模型是多模态的。

智慧红眼,知识库大家都很理解,这些会触发什么呢?会触发设备的主数据管理治理、BOM 研发主数据、财务等等这是我们要做的专项数据,现在数据治理已经不像之前说的大体系,做专项就好了,针对有什么需要我们再做什么。

数据治理成功要点总结

最后几个总结:

一、高层重视。

二、执行。

三、资源到位。

谢谢大家。


END


#关于我们#


信息侠是专业从事数字化领域高端会议策划、组织和运营以及行业资源整合对接的平台机构。致力于为客户搭建高效、专业的创新交流平台,业务形态以行业峰会、专题沙龙、参观走访、国内外研学、企事业单位数字化转型培训及需求服务对接等模式。行业涵盖全国制造业、金融、汽车、医药、电子半导体、新能源、西部金融、家用电器等。长期以来,与各行业主管机构、协会、学会等社会团体密切合作,组织开展多场次、多行业数字化交流活动,旨在加强行业交流、促进供需对接、推动行业数字化发展与创新!

大会精彩回顾

ESIS

智驭新质潮·数创未来芯|ESIS 2024第三届中国电子半导体数智峰会圆满落幕,智领电子半导体新纪元!

你的每一个“在看”我都当成喜欢

信息侠微报
搭平台 聚共识 谋发展
 最新文章