三、数据准备阶段
数据分析通常基于多张数据表的综合分析,有大量数据表连接、聚合的工作,在加上数据质量问题杂多,涉及到大量的边界检查与处理,大模型可以一定程度降低数据准备的工作。
1、数据集的智能整合
以行业数据模型为基础,大数据平台提供基于图搜索技术的语义查询模型,以友好的方式支撑设备管理分析。以风电机组为例,当叶片发生断裂事故后,整机制造商的运维主管想要查看并确认是否为叶片批次问题(即和当前风机使用同一叶片厂商的风机的近期机舱加速度是否正常),查询路径如图1所示。有了图语义模型的支持,应用开发者无须编写复杂的表间关联语句,将大大降低应用开发的工作量。
图1 风电机组查询示例
查询路径有两个来源,1)用户可以给定查询路径,在如下图所示的领域模型中,用户给出查询路径和初始的查询条件,两个实体间关联关系由领域模型实现,用GraphQL等图查询语言表达,2)大模型自动生成查询路径,并转化为图查询语句。
另外,大模型也可以对生成的数据集进行自动描述。从数据源抽取关键业务语义信息(例如,覆盖多少口井,数据的起止日期,有多少有效数据),并抽取关键的数据质量处理函数描述,交由大模型生成数据集的描述,以方便后续利用时更深入了解该数据集。
2、数据处理流图和说明文档生成
在开发之前通常有数据流图设计。但在开发过程中,数据分析师通常会对数据处理逻辑做更新,造成实际的数据流图与设计图并不完全一致。过去通常在项目验收前要求数据分析师去更新实际的数据流图。
有了大模型之后,有可能结合代码注释,从函数代码提取处理步骤描述,形成一个函数的处理逻辑流程图,撰写算法文档。更宏观一层,从数据库表读写语句中分析每个分析函数的输入和输出的数据表,把多个分析函数的输入、输出和数据表关联起来形成数据流图。
四、模型建立阶段
因为存在大量丰富的机器学习算法库和各种效率工具(例如,AutoML等),模型建立在一般机器学习项目并不是瓶颈,这里不再论述。大模型有可能从类似项目代码中自动生成代码框架,也可以辅助模型试验过程管理(让探索更条理化)。
五、模型评价阶段
针对模型评价,机器学习领域有明确的评价方法、指标和工具,具体项目中通常也有明确的业务角度的评价方法,从而,研发期模型评价阶段对大模型没有特别需求。在部署后的运维阶段,大模型可以对模型的运行性能(计算时间、内存占用量等)、模型指标进行即席解读,降低运维工作量。
六、模型部署阶段
到了“模型部署”阶段,这些信息都明确了,但相对于基于历史数据的批量分析,部署阶段通常采用在线增量分析(流计算、批计算、微批计算),前后执行(以下简称为批次)间存在依赖。
1、在线增量逻辑的修改需求识别
将离线逻辑改成在线逻辑关键在于构建合适的状态量,去有效的表征过去的信息。状态量有3种情况:
1)累积量,例如,大风持续时长,当前的累计量可以作为状态量传给下一次计算。
2)跃变型,通常是类别变量或低频更新的参数,例如磨煤机的负荷状态可以作为状态变量供下次在线迭代计算。抽油机有泵调整时候,会在机采数据表中插入一条记录,在下次更新之前可以一直沿用该参数。
3)事件型(或则Interval变量),例如,修井措施的任务的起止时间,它在选择基准功图、修井效果后评估中是重要的参考量。
在线增量逻辑的修改需求的智能识别有2种途径:
1)根据数据分析程序输出的数据表的说明文档,大模型可以将上面3种情况描述作为提示语,发现潜在需要改写的状态量。
2)针对跃变量和时间型,可以采用基于1.3节数据处理流图的规则检查方式,一般来说这些变量的时间频度比待加工的数据表的要低,例如,合并后的表是每口井的日数据,而输入数据表中的措施、清防蜡等记录是不定期的,通常间隔3个月至上。可以统计实体主键(除时间字段之外其他业务主键)下表的更新频度,更新频度比输出表低的表就是潜在需要修改的表。第两种方法可以结合起来,第一种方法的效果依赖于数据表说明文档的质量,第二种方法受限于数据流图的质量。
2、前端界面与分析模型的关联识别
很多分析模型有对应的应用界面。当应用界面出现异常或疑问后,通常会被问到“该页面或控件的数据来自于哪个分析模型?”。1.3节讨论了如何将分析任务与数据表关联起来,同样的逻辑可以将应用界面与数据表关联起来,基于应用前后端的代码,可以分析数据表-后端Restful API的关系,通过前端与后端API的关系最终将前端界面与数据表关联起来。
七、总结
CRISP-DM是一个过程方法,交代清楚了数据分析中的活动(应该做什么),文献给出一些关键活动或任务背后的形式化分析方法,如表1所示。本文讨论各个环节中大模型的潜在应用场景。
表1 敏捷分析的过程模型
从前面的讨论来看,自动化工具目前仍不现实,但大模型(结合规则模型)可以以助手工具的形式提升数据分析效率。根据不同的问题,指导方法作用在不同层面,
1)理念或实指导思想层面的方法,对于复杂事情的思考维度统一认识和做法,例如麦肯锡金字塔原理。
2)过程方法(例如CRISP-DM),将一件复杂的事情分解为步骤,对于关键步骤有具体指导原则,这样让事情执行更条理;
3)内容层面的方法,提供具体的参考内容,让过程变得更有效;
4)工具层面的方法,结合自动化工具,进一步提高活动效率。本文尝试讨论工具层面的方法,即大模型在哪些环节有可能形成一些效率工具。