近年来,虽然大模型在生成式AI领域发展迅猛,但在一些专业度高、应用复杂的行业,人们觉得它的价格和价值之间差距太大,形成了泡沫。比如,初期阶段,一些引入智能问答式BI的企业因高昂的投入成本与实际应用效果不完全匹配而感到失望。这些智能问答式BI产品通常依赖NL2SQL技术,用户能够快速地构建系统并回答简单问题,也确实降低了分析门槛。不过,人们发现,在面对复杂的业务需求时,它根本无法灵活和准确地提供洞察。为什么会产生这样的问题呢?那我们就要从NL2SQL执行问句的过程来着手分析。输入问句“看一下2023年一线城市的收入和同比增长情况”,过程如下:1.自然语言理解和意图识别。对问句进行NLP处理,识别关键字和实体。例如“2023年”、“一线城市”、“收入”和“同比增长”,以确认用户意图是获取北京、上海、广州和深圳等城市在2023年的销售额及其同比增长数据。2.数据库映射。将关键词映射到数据库中相关表的相应字段,进行筛选条件、计算、表关系等逻辑关系理解匹配,转化为结构化信息,形成映射对象。例如:【2023年】:可能对应日期表的year字段;
【一线城市】大模型理解为"北京", "上海", "广州", "深圳",并对应区域表的city字段;
【同比增长】需提取2023和2022年的数据计算获得。
3.生成SQL语句。将所有映射和逻辑关系整合在一起,生成完整的SQL查询语句。4.执行和呈现。执行生成的SQL语句,结果验证后以图表等形式清晰呈现给用户。整个过程中,任何环节出错都可能导致结果不准确,特别是NL2SQL本身的局限性,常让我们达不到预期效果。大模型就像一个新入职的员工,虽懂得通识和SQL,但对公司业务不了解。例如,它把“一线城市”理解为“北京”、“上海”、“广州”和“深圳”,但实际却包含"杭州"。遇到更复杂的业务逻辑,比如“最厉害的销售”,就更加懵逼了。SQL语句比较灵活,而人们日常表述比较随意,难以精确映射到SQL语句上。比如,它将“收入”当作销售额,但数据库中可能指不同字段。其次,传统方式以“表”为核心,表数量众多且结构复杂,数据质量堪忧,尤其存在指标口径不一致的问题。而大模型对业务结构的理解有限,因此当多个表中有相似指标时,它常常无法准确地选择表和字段。处理多表查询时,大模型难以抓住用户意图并得到正确的表关系。尤其是多事实表查询,它无法判断不同聚合粒度下的关联关系,往往错误地直接在事实表之间使用左连接或右连接,导致SQL JOIN语句错误,结果缺失。在面对灵活多变的复杂业务需求时,SQL语句需要不断地修改扩展,或是根本无法应对。比如:年累计同比、异常检测、归因预测等需求,往往需要借助特定的函数、逻辑或算法来实现,仅靠NL2SQL技术无法满足。此外,NL2SQL系统也很难识别用户身份并动态调整SQL语句,难以实现不同用户的数据权限控制。因此,一些智能问答BI产品引入语义层,并采用NL2DSL技术,将自然语言转换为特定领域语言,以减少SQL的灵活性,实现精准查询。但是,由于大模型无法直接支持DSL,需频繁进行微调和适配,训练成本太高,且无法泛化,会限制智能问答BI产品在多个行业的快速应用。我们发现要打破泡沫,实现智能BI的精准洞察,关键在于降低训练成本的同时,提高对各种复杂业务场景的准确性。而要解决准确性问题,智能BI厂商需要脚踏实地,把卓越的BI能力和先进的AI能力结合,这正是Smartbi AIChat(中文名:白泽)技术方案的核心理念。白泽AI基于指标模型获得统一可信的全域数据,结合全面的RAG增强LLM在业务理解、映射、SQL生成的准确性,同时借助AI Agent灵活扩展分析能力。通过不断的反思优化,白泽越用越聪明,越用越准确。我们以证券行业为例,来看下股票分析师面对海量数据,如何借助白泽智能BI解决复杂业务场景下的数据分析问题?
过去,股票分析师在处理数据分析时,依赖传统BI或自助BI工具进行数据提取、报表生成及可视化展示等。在高速运转的证券市场,股票分析师每天都面临着大量的数据分析需求,寻找关键数据变得异常繁琐,需求的紧迫性和多变性更是对分析师的挑战。
传统的数据报表取数或者自助分析方式往往需要消耗大量的时间和精力,单一个问题就可能需要做一个新的数据报表或看板,分析效率大打折扣。其功能上的不足可能导致分析师无法及时捕捉市场动态,影响投资策略的精准性与时效性。
通过白泽AI对话不仅能直接快速获取需要的数据,并且还支持异常数据分析和数据预测等,帮助分析师洞察未来趋势,轻松实现精准高效数据分析。
尽管大模型的加持确实让数据分析变得更简单,但如果只是将一堆不良数据交给它,期望自动得出正确答案,这既不现实也不负责任。就像高楼大厦需要坚实的地基一样,我们应从数据治理着手,构建统一高质的数据基础,才能实现智能BI的准确洞察。那么,如何打造高品质的数据呢?
1、基于数据模型打造“高动力数据引擎”
传统方式通常以“表”为 核心,数据分散在各个数据集,管理混乱且口径不一致,严重影响数据效率和用户信心。我们的数据模型将管理方式从“表”升级为“指标”,它具备一体化多维建模能力,不仅解决了多源异构数据整合、口径不一致等问题,还大幅提升数据准备效率,为白泽这部“智能汽车”提供强劲的“数据动力引擎”!数据模型能够整合多种数据集,包括线上和线下的数据,甚至可以跨数据库整合。这使得所有查询结果都能统一,形成一致的数据。它支持多种模型类型,如星型模型、雪花模型,尤其可以通过维度建模来生成星座模型,轻松应对各种复杂的数据结构和业务需求,比如多事实表关联查询。数据模型还具备强大的计算能力,支持SQL计算、ETL分布式计算和MDX计算,能快速处理各种复杂计算,如同比、环比分析、时间智能分析和TopN分析。此外,基于数据模型,还能轻松地配置数据权限,实现金融级别数据管控,确保数据绝对安全。
2、基于指标模型高效构建自增长指标体系
为简化数据模型的构建,我们可以通过指标模型,在可视化界面中通过向导式的操作统一构建和管理整个指标体系,确保口径一致。同时,指标模型还能承接和整合行业Know-How,帮助企业更好地对接战略目标。白泽AI引入数据模型/指标模型,就像原来不懂业务逻辑和元数据信息的新员工,一跃成为业务专家,还可能拥有决策管理层的视角。但是,只接入数据模型/指标模型是不够的,这意味着需要花费高成本进行大量的训练,无法实现通用,因此,我们引入检索增强生成RAG技术。扫码/长按下方二维码即可申请试用Smartbi AIChat
全面RAG
私域数据精准匹配
RAG 技术通过构建高效的数据模型和向量数据库,有效提升数据库的精准匹配和 DSL 转换能力,实现泛化。首先,我们使用Embedding技术,将数据模型中的指标、维度等元数据信息嵌入到向量数据库中。接着,结合同义词、知识库、示例、规则等提升理解,同时利用BERT模型等技术在向量数据库中查找最匹配的指标、维度和表名。最后,白泽利用大模型将匹配到的元素转换为DSL,自动生成符合规范的查询语句或代码片段。通过全面的RAG,等于为大模型配备了企业元数据和行业知识等信息,使其能够精准匹配和转换私域业务数据。无需反复训练,大模型就能胜任多行业的业务需求,如同一位通晓各行各业的专家。AI Agent
高级分析灵活处理
基于数据模型的RAG可以保证用户单个查询的准确性,却没法满足多个数据集融合、归因预测等高级分析需求。为此,白泽引入了AI Agent智能体,为其增添了思考、规则、分解、协调、决策、反思等多重能力。AI Agent模拟人类的反思过程,通过用户反馈和历史数据分析,不断调整策略和优化流程,提升准确性;它还能记住并存储用户的偏好和上下文,突破大模型的上下文限制,更准确地理解长文本和复杂对话;它借助Python可以融合Smartbi本身数据分析能力,灵活处理多数据集融合、归因预测等任务,不受单一算法局限。在这些技术的支持下,白泽在处理类似“看看2023年一线城市的收入和同比增长情况”问句时,能准确理解、精准匹配和转换。1、通过RAG与数据模型技术,为大模型注入企业元数据和行业知识,从而精准理解和匹配【2023年】、【收入】等对应的数据库信息。2、针对【一线城市】的定义,利用知识库配置确保与业务实际相符。3、面对“同期增长”这种复杂计算,通过AI Agent将任务下压到高效处理时间智能计算的数据模型执行,显著减少计算时间。复杂业务场景轻松驾驭
特定场景下准确率可达99%
白泽AI不仅能精准实现诸如多轮对话、图形展示等常见场景,还能驾驭时间智能计算、多事实表查询、归因预测等多种复杂的业务场景。目前,初次使用即可达到 80-90% 的准确度,且不会产生数据错误或权限漏洞。稍微进行 RAG 微调,准确率进一步提升,在特定场景下可达 99%。
比如问句“2024年1月4日,现金资产超过1万且贷款金额少于1万的客户的学历、总资产和总负债情况”,它涉及客户维、日期维、资产事实表、债务事实多个事实表和维表。如使用NL2SQL方式,最难的就是判断表关系。它往往会强行把资产事实表、债务事实表进行关联,生成错误的SQL语句。而我们的白泽AI则拥有数据模型,可以以维度建模的方式生成星座模型。这里我们通过共享“客户维”“日期维”等维表,将“资产事实表”“债务事实表”“客户事实表”等多张事实表构建为星座模型。图:数据模型
通过一键构建AI图谱,将数据模型的指标度量等元数据嵌入向量数据库,并结合同义词、知识库、示例等,使大模型实现自然语言与结构化信息之间的精准转换。图:构建AI图谱
因此,面对上面问句,AI Agent的规划器通过全面的RAG技术,准确实现上下文语义理解与数据的映射匹配,进而制定出一个包含多项子任务的执行计划:1、找到客户表和资产事实表及其关联关系,查询2024年1月4日现金资产超过1万的客户,形成小表。
2、找到客户表和债务事实表及其关联关系,查询2024年1月4日贷款资产超过1万的客户,形成小表。
3、查询客户事实表中的教育程度,形成小表。
4、根据实际情况,合并所有数据
5、根据聚合粒度计算总资产和总负债
6、选择列,输出查询结果
在子任务中,白泽借助星座数据模型,通过“客户信息表”维表关联“资产事实表”和“债务事实表”,动态构建出三张小表,基于小表就能很轻松地在不同聚合粒度输出准确的SQL查询和结果。
白泽AI凭借独特的数据模型、全面的RAG和AI Agent智能体,已从新员工成长为具备项目经理思维的业务专家。他能有效规划和执行,同时具备创新能力,通过自我反思实现持续成长。在快速变化的商业环境中,白泽AI不仅提高了决策的效率和准确性,还为企业带来了深远的洞察力,助力企业在竞争中脱颖而出。扫码/长按下方二维码即可申请试用Smartbi AIChat
广州思迈特软件有限公司(简称“思迈特软件”,英文名Smartbi)创立于2011年,专注于商业智能与大数据分析软件及服务,是国内领先的商业智能BI和AI应用厂商。公司旗下已形成电子表格软件、一站式ABI平台、智慧数据运营平台及白泽智能BI平台(SmartbiAIChat白泽)四大产品矩阵,覆盖企业从传统BI到自助BI,再到智能BI的三个应用阶段,满足企业不同阶段的数智化需求。