图1 CRISP-DM过程方法
一、业务理解阶段
1、系统动力学模型的自动生成
2、领域模型的自动生成
①领域文档驱动:包括论文、报告、书籍、记录等,这些内容以文本形式存在,大模型可以从中抽取关键的概念(本地)、事件、约束及其关系;也可以将给定领域的参考模型作为上下文进行分析;
②数据驱动:样例数据及其数据库说明文档,可以基于规则的形式提取表对象关系,作为大模型的上下文。
1)文档驱动;
2)样例数据驱动;
3)数据库E-R图转化得来(部分参考样例数据统计结果)。
1)将物理主键(或称为代理主键)替换为业务主键,例如稠油井转轮周期表,每口井每个小层有一套连续的转轮周期编号,但在数据库中用一个物理主键而不是3个业务主键的组合来标识记录的唯一性,在面向数据分析的领域模型中,应该用业务主键来表达唯一性,这样更容易业务概念理解;
2)对于存在父类、子类的关系,如果层次关系不是重点,可以将父类的属性分别合并到子类,在领域模型中,消除父类,自己用子类,这样更方便后续数据集关联操作。例如,人工功图是抽油井生产测试的一种,测试任务号、测试类型、井名、测试日期等所有测试任务的公共属性存在生产测试表中,人工功图数据表中仅有测试任务号和人工功图的特定属性,在功图诊断课题中,只需要人工功图一种生产测试,没有必要保留生产测试这一层对象,可以将井名、测试日期等属性加入人工功图中;
3)根据领域问题,有些对象根据类别变量可以转为两个类。例如,SAGD生产数据库中,I井与P井在同一张数据表中,只不过注汽日报表中只有I井的记录,生产日报中大部分是P井的记录,但在SAGD注汽分析中,I井与P井是两个独立的领域模型。
二、数据理解阶段
在数据理解阶段,一方面是根据业务理解去理解数据,识别数据质量问题,明确数据准备的内容;另外一方面是通过数据探索,发现业务理解中的不足,进一步加深数据理解。数据理解是一个数据操作与业务假设双轮驱动的过程,大模型在本阶段应用中也需要与基于规则的数据操作过程融合。
1、 数据源的智能识别
业务理解阶段从业务、机理角度,将数据分析课题的相关变量,这些变量在数据系统的确切位置有时候也成为数据收集活动时的重点任务。有时候一个业务变量在多张表中存在,需要确定不同表中数据的完整度、更新度,以确定应该采用哪张表。例如,抽油机的理论最大、最小载荷是功图诊断的重要参考量,二者在井下作业、人工功图等表中都存在,但经过历史数据统计,井下作业数据表记录只覆盖了50%的井,并且该数据是设计阶段还是完工阶段填写的尚不确定,而人工功图数据表几乎覆盖了所有井,该数据是经过专家审核的,具有较高的可信度。
如果存在大量应用设计文档语料、数据库字典文档,大模型可以自动发现业务理解阶段变量所在数据库表和字段。这些问题在很多类似的分析或应用开发中都会碰到,可以通过大模型或自然语言处理技术发现类似的情形。
2、假设的自动检验
3、基于领域模型的数据质量检查
4、数据质量案例的智能总结
(未完待续,数据准备、模型建立、模型评价、模型部署敬请期待!)