一文读懂:生成式人工智能对数据治理的影响

学术   2024-12-15 17:47   上海  

已结课!最后的最大优惠!扫码立享!


来源:数据信任与治理
仅供学习,如有侵权,请联系删除!

引言


随着人工智能和机器学习技术不断推动各行各业的变革,深刻改变了我们的生活和工作方式,有效的数据治理的重要性愈加突出。随着生成式人工智能(Generative AI,下称“生成式AI”)的出现,企业在管理数据资产时既面临着新的机遇和挑战。本文将探讨数据治理与生成式AI的交叉点,分析传统数据治理模式及其演变,以适应生成式AI的需求。

本文根据英国IBM于2024年10月发布的“Impact on Data Governance with Generative AI”一文进行了翻译和整理,以下为文章的核心内容。



什么是数据治理
数据治理是一个应用框架,它将管理、业务、技术流程和技术相结合,确保数据的准确性、可靠性和安全性。数据治理涵盖了从数据创建到最终处置的整个生命周期,旨在了解其意义、控制其使用并提升其质量。通过建立对数据的信任,数据治理使组织能够做出明智的决策、遵守相关法律法规并维护数据安全。要实现这些目标,组织需要制定内部数据标准或政策,明确数据的收集、存储、访问、处理和处置流程。
商业利益
企业在加强 “数据驱动”方面面临的最大挑战包括:
  • 数据缺乏信任。
  • 难以找到和访问目标数据。
  • 各种解决方案各自为政,导致业务成本重复。
  • 数据来源缺乏可追溯性。
  • 缺乏合适的技能(如:数据科学、架构等)。

当数据具备一致性、可访问性,并得到妥善管理时,企业就能实现最大的商业利益。相反,若未能有效管理数据,包括了解数据的质量、历史、合规性、安全性以及用户同意等方面,风险就会增加。这些活动构成了数据治理,它不仅能够提高效率和生产力,还能确保数据的可信度,从而助力企业获得更好的商业利益。

数据治理的目的
数据治理的主要目的是实现以下目标:
共同理解:为跨组织团队提供一个有生命力的框架,确保团队对数据的定义、数据拥有者以及数据处理方式有共同的理解。
高质量数据:提供符合高度完整性、准确性和一致性指标的高质量数据。
数据剖析:根据数据的准确性、一致性、统计内容和时效性等因素了解数据。
隐私与合规:政策、标准和程序推动技术和操作行为,确保系统符合政府和行业法规对敏感数据和隐私的要求,如《通用数据保护法》(GDPR)、《美国健康保险便携性和责任法案》(HIPAA)、《支付卡行业数据安全标准》(PCI DSS)、《新兴人工智能法规》等。不遵守这些法规会对企业造成严重影响。
促进反馈和改进:提供机制以获取人工和技术层面的反馈,改进流程、政策、标准和技术控制,从而不断提升数据的质量和安全性。
降低运营成本:数据治理可以减少数据处理和存储的高昂成本,避免数据集和数据工作流程的重复,并推动系统建设采用统一标准,进而降低系统的总体运营成本。
支持高级分析和AI的使用:确保数据的高质量,以支持高级数据分析、机器学习和生成式AI计划。通过建立数据的信任,提升分析和模型的信任度,推动模型的广泛应用。
监控人工智能的使用:对机器学习和生成式AI的应用进行有效监控,能够及时发现可能导致声誉损害、错误行为、不当建议或合规问题的风险。数据治理在监控和应对这些问题方面发挥着关键作用,帮助在问题发生前或发生时做出及时反应。
组织数据治理
必须认识到,各组织在运营模式、目的等方面存在很大差异。因此,所采用的数据治理模式也会有很大不同,某些组织可能会更加注重某些特定要素,而对其他要素的发展则相对薄弱,甚至可能完全不发展。
虽然各组织采用的数据管理方式各不相同,仍然存在一些共同特点,这通常被称为“传统数据管理”,如下图所示。

数据治理管理
从执行角度来看,数据治理需要扎根于信息治理委员会(Information Governance Council,下称“IGC”)中的高层领导,并通过日常的数据战略委员会(Data Strategy Board,下称“DSB”)来落地实施。通常,高级责任管官(Senior Responsible Officer,下称“SRO”),如首席数据官(Chief Data Office,下称“CDO”)或首席信息官(Chief Information Office,下称“CIO”),作为董事会重要组成成员,最终负责组织内的数据使用、保护和管理工作。
由DSB支持的IGC是唯一的数据管理机构,负责制定、通知、监控、执行、创建、更新和废止与数据相关的政策、程序、标准和技术控制,确保这些措施能够满足业务需求。
信息管理委员会
IGC由CIO领导,负责发起、批准和推动战略性信息计划和政策。该委员会的主要职责是确保数据治理在组织内的使命得以实现。
数据战略委员会
DSB负责处理与数据有关的日常问题,并对这些问题做出回应。DSB根据信息治理委员会制定的战略目标,负责实施和监督组织内的信息管理任务,确保数据治理目标的顺利推进。
IGC和DSB代表
IGCDSB将有适当的代表,从用户、业务、数据、安全和技术等角度提供意见。这些代表通常包括以下角色:
首席架构师:首席架构师负责监督组织平台的架构、工程设计以及相关支持工作。高级和初级架构师在数据管理中也发挥着重要作用,尤其是在数据保管人角色中。首席架构师确保架构设计、组件选择和最佳实践遵循统一的标准。
数据所有者:数据所有者通常由高级管理人员或决策者担任,负责根据其掌握的信息做出数据相关的决策。数据所有者决策的目标是满足特定业务职能或更广泛的组织需求。虽然数据所有者通常不参与数据的日常管理,但他们会将相关的操作职责委托给数据管理员。数据所有者的责任不能完全下放。
数据管理员:数据管理员负责数据的管理,包括维护数据的质量、定义和语义,以及协调不同业务部门之间的数据标准和业务规则。数据管理员按照数据所有者的委托,处理与数据相关的具体事务。
数据保管人:数据保管人通常属于技术团队,他们与数据所有者、数据管理员及数据安全团队紧密合作,负责定义数据安全和访问控制程序,管理数据的访问权限,确保数据的日常处置(如云数据存储管理),并提供备份和灾难恢复功能。
平台和数据安全:IGC通常会有首席安全官的代表,DSB则有高级安全主管的代表。这些安全专家将从安全角度为整体数据治理框架提供支持,确保各种安全方法和相关标准得到遵守。在DSB层面,他们负责安全团队的日常工作,确保合规性并处理任何安全事件。
应用数据治理
数据治理的政策、标准和程序决定了整个数据平台的设计、数据存储和数据处理流程,涵盖了从设计到运行,再到退役的各个阶段。
以下将介绍如何通过数据治理技术控制(由政策、标准和程序定义)来提高数据信任。
这些控制措施不仅适用于数据平台的设计和构建,还适用于数据整个生命周期。
平台设计、工程与部署
如今,平台的应用程序、应用代码、基础设施等几乎每个组件都可以通过脚本进行部署和配置。脚本、代码以及其他工件可以作为资产进行存储和版本管理。
DevOps工具使得自动化、可重复的解决方案部署、更新和测试成为可能。通过遵循标准和策略,并借助反馈机制进行创建、审查和修订,可以将这些资产提升至完全支持组织数据治理目标的数据治理状态。
平台安全
数据安全贯穿整个平台的设计和生命周期管理,包括静态数据和在线数据的加密、强大的基于角色的访问控制模型等。在数据治理框架下,平台和数据的安全标准、政策和程序对架构师、支持团队、安全团队等的设计、运营和监控行为进行指导和控制,确保组织的整体数据安全得到有效保障。
数据治理技术控制
嵌入数据平台的治理技术控制可以帮助监控数据流动、记录并提供对数据技术元数据的访问、监控、提升数据质量、跟踪数据处理等。平台数据治理技术控制通常包含以下形式
数据流向:跟踪数据流动路径和数据处理的相关指标。
数据质量:根据一组预定义的规则对数据进行质量检查。
数据剖析:生成描述数据本身的统计指标。
业务术语表:存储用于描述数据及其处理过程的业务术语和定义列表。
数据目录:保存有关字段、数据类型、描述以及其他元数据(如所有者、位置等)的列表。
质量校正:通过算法纠正数据中的错误。
数据转换:执行数据格式转换或进行轻量级数据值转换的基本算法。
数据标记:在数据摄取时为特定数据集添加标记,以便后续进行回滚、转换或删除。标记内容可以包括摄取时间、数据所有者、数据源、管道、安全凭证等信息。
需要注意的是,实际部署的具体内容会根据使用场景和组织的数据处理需求有所不同。
数据生命周期管理
数据生命周期管理(Data Life Cycle Management,下称“DLM)涵盖了数据从创建、收集、存储、处理、共享到使用的各个阶段。数据的状态可能会因不同事件发生变化,例如:要求销毁数据、将数据迁移到不同的系统、使用权限到期,或仅仅是数据通过摄取管道或处理操作的一部分而发生变化。
数据的状态可以通过其在平台中的物理位置、数据目录中的属性、特定的数据标签等进行识别。每个阶段的处理需要根据数据治理策略和程序的规定进行,以确保数据能够顺利进入下一个状态。
数据治理确保数据在整个生命周期中的各个阶段都得到适当的管理,并执行DLM,确保平台的设计、升级和销毁符合相关要求。
平台监控
平台监控为支持团队提供了早期预警机制,帮助预测数据和处理过程中可能出现的问题,优化平台的运行、容量和需求管理,并有效控制费用。通过使用数据治理平台技术控制进行数据监控,如果源提供商未能遵循质量规则,或者平台在早期阶段出现问题,系统会向数据保管员发出警报。数据保管员将进行调查,并根据需要对标准、流程和程序进行反馈和调整,以确保平台的稳定和合规性。
传统数据治理需要改变什么? 
多年来,传统数据治理发挥了良好的作用,但是,但随着生成式AI的发展,它需要做出一些调整和扩展。传统数据治理具有以下特点:
主要关注结构化数据:传统数据治理系统主要聚焦于结构化数据的管理。然而,为了支持生成式AI,数据治理需要扩展到支持非结构化数据,如图像、视频、音频和文本等大规模数据。这要求数据治理框架能够处理并管理不同类型的数据。
缺乏对模型管理和模型历史的支持:传统数据治理对于模型的管理和模型历史记录(包括生成过程、配置、流程、数据源、模型评估和测试等)的支持相对有限。生成式AI模型涉及复杂的数据处理过程,需要清晰的模型谱系或树状结构,以追溯每个模型的生成和演变过程。
数据准备步骤的追踪不足:传统数据治理通常依靠DLM、数据谱系和代码版本控制来追踪数据准备步骤。然而,传统方式可能未能充分记录每个步骤的详细信息,特别是在生成式AI模型的开发过程中。这些步骤可能在模型中引入不必要的人工制品,或者存在数据质量问题。因此,数据治理需要更好地记录和追踪每个数据准备步骤的详细信息,包括代码、处理顺序和使用的数据。
什么是生成式AI?
生成式AI是人工智能的一种,它可以根据用户的提示或请求创建原创内容,如文本、图像、视频、音频或软件代码。生成式AI依赖于被称为深度学习模型的机器学习模型,这些模型模拟了人脑的学习和决策过程。其工作原理是通过识别和编码大量数据中的模式和关系,利用这些信息理解用户的自然语言请求或问题,并根据这些理解生成相关的新内容。
训练生成式AI模型

训练一个生成式AI模型,第一步是建立一个深度学习模型或基础模型,并在大量数据的基础上进行训练。对这些数据进行摄取、准备和标准化,以构建一个包含参数、计算和数据的神经网络。

传统平台主要关注结构化数据,而生成式AI则侧重于处理多模态数据。这意味着,数据治理的范围必须涵盖支持多模态数据的政策、流程和程序,特别是对于非结构化数据(如文本、图像、视频、音频等)。这给数据质量检查、数据剖析、数据历史/起源追踪等工作带来了新的维度。

例如,在采用新的事实检查技术时,可能需要进行多源验证。此外,数据治理还可以提高模型输出的可解释性,帮助追溯模型的创建过程(包括使用的数据和生成步骤),并识别影响输出结果的关键因素。

这些多模态数据最终可能存在于不同的环境中,比如嵌入或编码在模型本身中,但基础模型也可以使用其他外部数据来扩展其能力,从而为特定组织量身定制输出或提供新的专业领域应用。

调控

为了提高模型的准确性,需要根据具体任务进行调整,常用的方法包括微调和强化学习与人工反馈相结合的方式。

微调是指基于任务的需求,使用特定标注的数据来训练模型,使其能够更好地应对预计的提问或提示类型,并对模型进行改进,以便生成符合期望格式和内容的正确答案。

强化学习则通过人类用户对生成内容的评价来进行反馈,模型可以利用这些反馈进行再训练,从而不断优化自己的回应。

数据治理在这一过程中起着重要作用,确保数据集、元数据以及人类或系统的反馈能够正确地记录和反映模型的历史变化和脉络,确保模型调整过程的透明性和可追溯性。

监控与更新
生成式人工智能模型(与所有机器学习模型一样)需要持续监控系统和用户反馈,以定义和评估性能指标,并确定合适的阈值或更新频率。
外部事件,如监管变化或消费者行为的变化,可能导致用于构建模型的某些数据集失效,从而需要进行更新。数据治理维护的模型和DLM也可能成为触发模型更新或其他行动的因素。
数据治理还可以为企业选择和使用的模型类型提供指导。例如,核心基础模型的制作成本非常高(从1000万到1亿英镑不等),而检索增强生成(Retrieval Augmentation Generation,下称“RAG”)模型则可以在较小、集中的数据集上进行训练,从而扩展基础模型,提供更准确的响应,并且成本更低。RAG模型还更容易进行调整,以确保组织的时效性,且这一过程可以通过数据治理进行全面追踪。
RedHat的InstructLab提供了一种非常有效的方法来增强生成式AI模型。InstructLab为模型开发者提供了必要的基础设施资源,使他们能够定期为开源授权模型创建更新,而不是每次都重建或重新训练整个模型。这种方法能够将新技能整合进模型中,大大节省了时间和成本,确保了组织的时效性,而这一切也可以通过数据治理进行全程追踪。
传统数据治理的转变
那么,传统的数据治理应该如何调整呢?简而言之,在创建和更新模型的过程中,必须确保对各个环节的透明度和可追溯性,同时结合监控机制,确保合规性,并准确地返回结果。
数据治理管理
数据治理管理部门(如IGG和DSB)需要为数据准备、培训、调整、合规性以及模型的创建和更新生命周期制定政策、程序和标准。这些政策和标准应考虑到数据的变化、模型所处环境的变化以及其他外部因素,从而在出现变化时能够做出与以往不同的响应。
此外,数据治理管理的反馈机制应进行更新,以确保在制定政策、程序和标准时,能够有效利用新技术控制手段来监控模型和人工反馈。这样不仅可以提高模型的准确性,还能增强其可信度,降低业务风险。
在企业内部,还应指派一位SRO作为指定的模型所有者,负责模型的生成、运行和所有相关事务。模型所有者将是信息治理委员会或数据战略委员会的成员,参与决策和监督模型管理工作。
模型所有者
与传统机器学习模型不同,生成式AI模型通过利用知识来创建内容、提供建议,甚至做出决策。生成式人工智能模型的模型所有者在这一过程中起着至关重要的作用,他们将负责如何管理和调整模型,以确保其能够提供最佳结果,同时保护组织免受法律风险和声誉损害。
更新后的传统数据治理框架
随着机器学习和生成式AI技术的应用,传统数据治理框架需要进行演化,以纳入这些新技术带来的变化和新增的要素。下图展示了这一更新后的数据治理模型。

可以使用以下类型的数据治理控制,以利用并扩展传统框架中的已有控制,并添加新的控制:
模型版本控制
为了建立信任并确保模型的合规性和可追溯性,模型代码、数据准备代码、测试数据以及用于训练模型的数据源应该全部纳入版本控制。这样可以确保在整个开发和应用过程中,每一个版本都能够准确追溯,任何修改和更新都能被清晰记录,确保模型的透明度和可审计性。
模型生命周期管理
数据治理模型生命周期管理可以帮助跟踪模型的整个生命周期,并将其分配到不同的阶段,如模型建议、模型设计、数据准备、模型构建、模型训练与调整、模型测试、模型部署、部署后测试、模型再训练与调整以及最终的模型销毁等。
生成式AI模型与其他数字资产的一个重要区别在于,它的“知识”具有时效性。比如,一张数字照片不会过时,始终如实地反映当时拍摄的场景。照片的目的也不会随时间变化而改变。然而,生成式AI模型需要不断更新和刷新,以保持其时效性。这些模型可能受到诸如监管变化、未能达到新的性能指标、用户反馈、业务需求变化等因素的影响,从而推动模型进入不同的生命周期阶段,比如再训练、调整,甚至是销毁。
模型指标和评估
在模型的测试和执行过程中,应根据IGC和DSB商定的既定指标进行评估,主要目的是衡量模型的性能、公平性和稳定性。以下是用于监测生成式AI模型的一些关键指标:
数据漂移:数据漂移指的是目标变量(关键输入数据)或输入特征的统计属性随着时间的推移发生变化。通过将模型输出与历史数据进行对比(使用设定的指标),我们可以判断结果是否仍然符合预期的历史数据。如果发现差异,则可能是由于数据漂移引起的,表明模型需要调整。
模型性能:模型性能指标是在模型训练过程中使用数据集或测试数据集设定的,用来评估模型的有效性。在模型的整个生命周期内,基于这些指标对模型进行持续评估,确保模型能够按照预期运行。
模型公平性:模型公平性指标确保模型在做出预测时,不会引入或延续任何形式的偏见或歧视。
模型可解释性:模型可解释性指的是能够清晰解释和说明模型如何得出特定输出结果的能力。
反馈:用户反馈等信息需要被及时捕捉并纳入模型评估过程中,为上述指标的变化提供证据。
模型合规性
如今,生成式AI模型被广泛应用于检查文档是否符合法规要求,以及执行其他需要根据政府、行业或其他机构法规进行验证的任务。
随着法律法规的不断变化,许多大型组织都面临着遵守各种不同法规的影响。保持对法规变化的跟踪,并及时更新合规性要求,是确保合规的关键。
虽然许多合规性检查仍是手动执行,但现在已经有一些支持自动合规性检查的工具。这些工具能够识别和执行最新的法规,并帮助确保组织遵循相关法律要求。
自动化的合规性工具可以在数据治理框架中记录法规变更,并根据需要触发模型更新,确保组织能及时响应法规变化。此外,还需要制定合规性衡量标准,以便在模型未达到合规要求时进行标记和调整。
模型风险管理
随着我们对AI和机器学习模型的依赖越来越高,这些模型的复杂性和风险也随之增加。
数据治理工具可以帮助最大限度地减少隐私侵犯、版权问题,以及由于不正确的数据导致的错误、误导性或偏差输出。
此外,数据管理工具可以与测试和监控工具结合使用,在特定指标(如人为反馈、模型公平性、偏差、数据漂移等)超出容忍范围时设置警报。这样,组织可以及时收到通知,并根据需要对模型进行重新训练或更新,以纠正潜在问题。
模型文档
提高透明度有助于增强对模型验证过程的信任,并且支持人工智能的可解释性,尤其是在面对监管者、审计师和消费者时。
"生成式AI护照"这一概念并不夸张,它实际上是为每个模型提供一个详细的“家谱”,记录模型所使用的数据来源、处理流程及其演变过程。
扩展传统数据治理功能
为了支持多模态数据,传统的数据治理功能,如数据标记、数据转换、数据沿袭、数据分析、数据质量和数据目录,将得到扩展。这意味着需要结合新类型的数据源元数据、更详细的数据分析结果(例如情绪分析、特征检测等),并能够处理大规模的数据集。
数据转换和数据质量
在数据准备和生成过程中,数据转换和质量需要更加谨慎地处理,以确保内容变化不会影响数据和模型输出的准确性。每个处理步骤、数据管道、处理代码和测试都需要被记录。这些记录将成为模型版本控制、模型评估、文档化以及数据沿袭的关键组成部分。
平台监控
现有的监控体系也需要更新,以便能够使用模型指标(包括用户反馈等相关反馈)持续评估模型性能。
注意:训练数据的规模(有时达到数PB)意味着,从实践角度追踪每个数据集的变化可能会非常困难且成本高昂。然而,随着诉讼和版权问题的增多,公众对于模型的透明度、偏见检测、声誉保护和严格的模型验证提出了更高要求。因此,生成式AI的工具包将不可避免地需要具备这种透明度功能。
数据和生成式人工智能的怀疑论者
数据治理的一个关键职能是与数据使用者和相关社区进行沟通。在传统的数据治理模式中,这一职能通常通过提供数据质量报告、数据分析和数据沿袭记录来体现,帮助显示数据的状态及其来源。
然而,在生成式AI的环境下,这一角色变得尤为重要,因为生成式AI不仅由工具、创建者和顾问使用,甚至有时还参与决策过程。因此,数据治理委员会和模型所有者需要与对生成式AI持怀疑态度的各方进行沟通,并明确指出哪些场景中不应使用生成式人工智能。同时,他们还需要根据当前输出提供主动反馈(无论是人工还是技术性反馈),并提出改进建议。
生成式AI作为解决方案的一部分
生成式AI不仅为组织提供了以前无法实现的机会,利用其数据创造新的价值,它还可以成为解决方案的一部分,帮助自动化许多常规的流程,否则这些流程将完全依赖人工输入。企业级数据治理的一个主要障碍是,由于时间承诺和组织结构的变化,导致用户采纳效率低下,因此,尽可能利用自动化的好处是非常有意义的。
生成式AI可以支持数据治理的多个关键领域,具体而言:
数据质量:自动化数据质量检查,识别错误并根据预定义规则验证数据的准确性。
数据编目和元数据管理:自动化数据目录的创建和管理,便于发现、访问和理解数据资产,并确保其持续更新。
自动化的优势在于,它能够减少人工工作量,从而释放资源用于更具战略性的活动,提升数据质量和一致性,帮助企业做出更明智的决策,并确保符合监管要求,从而降低不合规风险。
IBM一直在支持组织利用生成式AI来自动化数据治理流程,之前这些流程只能由人工执行。通过减少整理和更新图像文件元数据的时间,生成式人工智能不仅大幅节省了时间,还使得这项工作在大规模企业中变得更为高效和可持续。

结论

如今,我们生活在一个充满不确定性的时代,许多生成式AI模型建立在未经充分验证的数据集上,这些模型的生成和调整过程缺乏透明度,导致出现偏见、准确性不足等问题。遗憾的是,由于缺乏合适的指标,真实的模型状态往往不为人知,从而给消费者带来风险,这可能对消费组织的声誉和运营产生负面影响。

为了应对这些挑战,市场上已经涌现出一些有效的工具。例如,IBM Watsonx.data Governance 提供了强大的数据治理功能,能够有效解决模型风险、合规性以及模型生命周期管理问题。

此外,RedHat的InstructLab进一步降低了生成式AI模型的成本和更新周期,使得这些模型能够保持业务的时效性。在强大的数据治理框架的支持下,企业能够更好地增强对生成式AI技术的信任和可控性。

除了工具的应用,数据治理框架本身也需要不断发展,以应对本文所描述的挑战。

那么,您的企业准备好迎接这些变革了吗?

原文来源:
1. Mark Restall ,Impact on Data Governance with Generative AI – Part Onehttps://www.ibm.com/blogs/think/uk-en/impact-on-data-governance-with-generative-ai/。
2.  Mark Restall ,Impact on Data Governance with generative AI – Part Twohttps://www.ibm.com/blogs/think/uk-en/impact-on-data-governance-with-generative-ai-part-two/。

。。。。。。



全部AI及数据中译本及资讯请加入

数据法盟
何渊老师主理的数据法盟DPOHUB:一个只关注数据隐私和数据安全的数据合规权威平台; 一个整合法律、技术及媒体的专业数据法生态体; 一个制造干货、相互赋能及塑造职业品牌的数据法共同体。 合作官微:heguilvshi
 最新文章