​揭开大模型泡沫真相,Smartbi AIChat白泽提供精准洞察技术落地方案

科技   2024-11-05 18:16   广东  

智能BI遇瓶颈

复杂业务无法精准洞察

近年来,虽然大模型在生成式AI领域发展迅猛,但在一些专业度高、应用复杂的行业,人们觉得它的价格和价值之间差距太大,形成了泡沫。比如,很多引入智能问答式BI的企业就很失望,因为投入的成本和实际落地效果并不匹配。

这些智能问答式BI产品通常依赖NL2SQL技术,用户能够快速地构建系统并回答简单问题,也确实降低了分析门槛。不过,人们发现,在面对复杂的业务需求时,它根本无法灵活和准确地提供洞察。


为什么会产生这样的问题呢?那我们就要从NL2SQL执行问句的过程来着手分析。输入问句“看一下2023年一线城市的收入和同比增长情况”,过程如下:

1.自然语言理解和意图识别。对问句进行NLP处理,识别关键字和实体。例如“2023年”“一线城市”“收入”“同比增长”,以确认用户意图是获取北京、上海、广州和深圳等城市在2023年的销售额及其同比增长数据。

2.数据库映射。将关键词映射到数据库中相关表的相应字段,进行筛选条件、计算、表关系等逻辑关系理解匹配,转化为结构化信息,形成映射对象。例如:

【2023年】:可能对应日期表的year字段;

【一线城市】大模型理解为"北京", "上海", "广州", "深圳",并对应区域表的city字段;

【收入】对应销售事实表的销售额数值字段;

【同比增长】需提取2023和2022年的数据计算获得。

3.生成SQL语句。将所有映射和逻辑关系整合在一起,生成完整的SQL查询语句。

4.执行和呈现。执行生成的SQL语句,结果验证后以图表等形式清晰呈现给用户。

整个过程中,任何环节出错都可能导致结果不准确,特别是NL2SQL本身的局限性,常让我们达不到预期效果。

1、理解不准确

大模型就像一个新入职的员工,虽懂得通识和SQL,但对公司业务不了解。例如,它把“一线城市”理解为“北京”“上海”“广州”和“深圳”,但实际却包含"杭州"。遇到更复杂的业务逻辑,比如“最厉害的销售”,就更加懵逼了。

2、映射和生成SQL不准确

SQL语句比较灵活,而人们日常表述比较随意,难以精确映射到SQL语句上。比如,它将“收入”当作销售额,但数据库中可能指不同字段。

其次,传统方式以“表”为核心,表数量众多且结构复杂,数据质量堪忧,尤其存在指标口径不一致的问题。而大模型对业务结构的理解有限,因此当多个表中有相似指标时,它常常无法准确地选择表和字段。

处理多表查询时,大模型难以抓住用户意图并得到正确的表关系。尤其是多事实表查询,它无法判断不同聚合粒度下的关联关系,往往错误地直接在事实表之间使用左连接或右连接,导致SQL JOIN语句错误,结果缺失。

3、扩展性和灵活性受限

在面对灵活多变的复杂业务需求时,SQL语句需要不断地修改扩展,或是根本无法应对。比如:年累计同比、异常检测、归因预测等需求,往往需要借助特定的函数、逻辑或算法来实现,仅靠NL2SQL技术无法满足。

此外,NL2SQL系统也很难识别用户身份并动态调整SQL语句,难以实现不同用户的数据权限控制。

因此,一些智能问答BI产品引入语义层,并采用NL2DSL技术,将自然语言转换为特定领域语言,以减少SQL的灵活性,实现精准查询。但是,由于大模型无法直接支持DSL,需频繁进行微调和适配,训练成本太高,且无法泛化,会限制智能问答BI产品在多个行业的快速应用。


白泽AI显神通

融合创新技术破解难题

我们发现要打破泡沫,实现智能BI的精准洞察,关键在于降低训练成本的同时,提高对各种复杂业务场景的准确性。而要解决准确性问题,智能BI厂商需要脚踏实地,把卓越的BI能力和先进的AI能力结合,这就是白泽技术方案的核心理念。

白泽AI基于指标模型获得统一可信的全域数据结合全面的RAG增强LLM在业务理解、映射、SQL生成的准确性,同时借助AI Agent灵活扩展分析能力。通过不断的反思优化,白泽越用越聪明,越用越准确。


数据模型:务必夯实数据基础

大模型确实让数据分析变得更简单,但如果只是将一堆不良数据交给它,期望自动得出正确答案,这既不现实也不负责任。就像高楼大厦需要坚实的地基一样,我们应从数据治理着手,构建统一高质的数据基础,才能实现智能BI的准确洞察。那么,如何打造高品质的数据呢?

1、基于数据模型打造“高动力数据引擎”

传统方式通常以“表”为 核心,数据分散在各个数据集,管理混乱且口径不一致,严重影响数据效率和用户信心。

我们的数据模型将管理方式从“表”升级为“指标”,它具备一体化多维建模能力,不仅解决了多源异构数据整合、口径不一致等问题,还大幅提升数据准备效率,为白泽这部“智能汽车”提供强劲的“数据动力引擎”!

数据模型能够整合多种数据集,包括线上和线下的数据,甚至可以跨数据库整合。这使得所有查询结果都能统一,形成一致的数据。

它支持多种模型类型,如星型模型、雪花模型,尤其可以通过维度建模来生成星座模型,轻松应对各种复杂的数据结构和业务需求,比如多事实表关联查询。

数据模型还具备强大的计算能力,支持SQL计算、ETL分布式计算和MDX计算,能快速处理各种复杂计算,如同比、环比分析、时间智能分析和TopN分析。

此外,基于数据模型,还能轻松地配置数据权限,实现金融级别数据管控,确保数据绝对安全。


2、基于指标模型高效构建自增长指标体系

为简化数据模型的构建,我们可以通过指标模型,在可视化界面中通过向导式的操作统一构建和管理整个指标体系,确保口径一致。同时,指标模型还能承接和整合行业Know-How,帮助企业更好地对接战略目标。

深度解读 | 中国企业为什么需要以指标为核心的ABI平台?

白泽AI引入数据模型/指标模型,就像原来不懂业务逻辑和元数据信息的新员工,一跃成为业务专家,还可能拥有决策管理层的视角。但是,只接入数据模型/指标模型是不够的,这意味着需要花费高成本进行大量的训练,无法实现通用,因此,我们引入检索增强生成RAG技术。


全面RAG

私域数据精准匹配

RAG 技术通过构建高效的数据模型和向量数据库,有效提升数据库的精准匹配和 DSL 转换能力,实现泛化。

首先,我们使用Embedding技术,将数据模型中的指标、维度等元数据信息嵌入到向量数据库中。

接着,结合同义词、知识库、示例、规则等提升理解,同时利用BERT模型等技术在向量数据库中查找最匹配的指标、维度和表名。

最后,白泽利用大模型将匹配到的元素转换为DSL,自动生成符合规范的查询语句或代码片段。

通过全面的RAG,等于为大模型配备了企业元数据和行业知识等信息,使其能够精准匹配和转换私域业务数据。无需反复训练,大模型就能胜任多行业的业务需求,如同一位通晓各行各业的专家。


AI Agent

高级分析灵活处理

基于数据模型的RAG可以保证用户单个查询的准确性,却没法满足多个数据集融合、归因预测等高级分析需求。为此,白泽引入了AI Agent智能体,为其增添了思考、规则、分解、协调、决策、反思等多重能力。


AI Agent模拟人类的反思过程,通过用户反馈和历史数据分析,不断调整策略和优化流程,提升准确性;它还能记住并存储用户的偏好和上下文,突破大模型的上下文限制,更准确地理解长文本和复杂对话;它借助Python可以融合Smartbi本身数据分析能力,灵活处理多数据集融合、归因预测等任务,不受单一算法局限。

在这些技术的支持下,白泽在处理类似“看看2023年一线城市的收入和同比增长情况”问句时,能准确理解、精准匹配和转换。

1、通过RAG与数据模型技术,为大模型注入企业元数据和行业知识,从而精准理解和匹配【2023年】、【收入】等对应的数据库信息。

2、针对【一线城市】的定义,利用知识库配置确保与业务实际相符。

3、面对“同期增长”这种复杂计算,通过AI Agent将任务下压到高效处理时间智能计算的数据模型执行,显著减少计算时间。


白泽AI真落地

复杂业务场景轻松驾驭

白泽AI不仅能精准实现诸如多轮对话、图形展示等常见场景,还能驾驭时间智能计算、多事实表查询、归因预测等多种复杂的业务场景。目前,初次使用即可达到 80-90% 的准确度,且不会产生数据错误或权限漏洞。稍微进行 RAG 微调,准确率进一步提升,在特定场景下可达 99%。

下面,我们来演示一个多事实表关联查询的示例。

比如问句“2024年1月4日,现金资产超过1万且贷款金额少于1万的客户的学历、总资产和总负债情况”,它涉及客户维、日期维、资产事实表、债务事实多个事实表和维表。

如使用NL2SQL方式,最难的就是判断表关系。它往往会强行把资产事实表、债务事实表进行关联,生成错误的SQL语句。

而我们的白泽AI则拥有数据模型,可以以维度建模的方式生成星座模型。这里我们通过共享“客户维”“日期维”等维表,将“资产事实表”“债务事实表”“客户事实表”等多张事实表构建为星座模型。

图:数据模型

通过一键构建AI图谱,将数据模型的指标度量等元数据嵌入向量数据库,并结合同义词、知识库、示例等,使大模型实现自然语言与结构化信息之间的精准转换。

图:构建AI图谱

因此,面对上面问句,AI Agent的规划器通过全面的RAG技术,准确实现上下文语义理解与数据的映射匹配,进而制定出一个包含多项子任务的执行计划:

1、找到客户表和资产事实表及其关联关系,查询2024年1月4日现金资产超过1万的客户,形成小表。

2、找到客户表和债务事实表及其关联关系,查询2024年1月4日贷款资产超过1万的客户,形成小表。

3、查询客户事实表中的教育程度,形成小表。

4、根据实际情况,合并所有数据

5、根据聚合粒度计算总资产和总负债

6、选择列,输出查询结果


在子任务中,白泽借助星座数据模型,通过“客户信息表”维表关联“资产事实表”“债务事实表”,动态构建出三张小表,基于小表就能很轻松地在不同聚合粒度输出准确的SQL查询和结果。
白泽AI凭借独特的数据模型、全面的RAG和AI Agent智能体,已从新员工成长为具备项目经理思维的业务专家。他能有效规划和执行,同时具备创新能力,通过自我反思实现持续成长。在快速变化的商业环境中,白泽AI不仅提高了决策的效率和准确性,还为企业带来了深远的洞察力,助力企业在竞争中脱颖而出。


—END—

相关阅读
Smartbi AIChat新品发布会吴华夫演讲实录
大模型撬动数据新质生产力,我们重新解构了智能BI
智能BI新突破,看思迈特新品背后的第二增长曲线!
新品解读 | Smartbi AIChat白泽,新一代智能BI平台
从简单分析到智能问数,Smartbi AIChat让数据回归业务
揭秘铁三角共振力量,Smartbi AIChat白泽如何跃升为行业翘楚?



👇点击阅读原文,立即体验AI新品


思迈特Smartbi
思迈特软件作为国内商业智能BI厂商和AI应用厂商,始终坚持BI产品的研发和创新,致力于为企业客户提供一站式商业智能解决方案,目前已经获得金融、制造、医疗、零售、教育等行业5000+家头部客户的认可
 最新文章