火山引擎基于大模型 ChatBI 的演进与实践

文摘   2024-11-22 13:00   北京  

导读 今天分享的主题是火山引擎 DataWind ChatBI 基于大模型的演进与实践。

主要介绍:

1. 背景与趋势

2. 火山引擎 DataWind 在 AI+BI 的探索与落地

3. 火山引擎 DataWind 在抖音集团内部推广与商业化场景

4. 总结与展望

分享嘉宾|刘然 火山引擎 DataWind资深产品专家

编辑整理|王振甲

内容校对|李瑶

出品社区|DataFun


01

背景与趋势

1. BI 平台演进 - 全面进入智能化

在探讨火山引擎 BI 工具的发展历程时,可以清晰地划分为几个关键阶段,这些阶段亦与市面上主流 BI 工具的演进过程相吻合。

最初,传统 BI 工具主要聚焦于报表平台,由业务方提出需求,产研团队作为数据的主要生产者,负责制造简单的报表,以辅助经营仪表盘的制作。这一阶段的生产过程相对原始,成本较高,主要服务于一线业务和决策层,提供聚合性数据的定向查看。

随后,BI 工具进入全民数据分析时代,即第二阶段。此阶段,业务方和数据分析师对数据的生产准备、看板制作及数据分析产生了强烈诉求,自助分析的概念应运而生。这一阶段标志着自助 BI 的普及,全民数据分析成为主流。

进入第三阶段,当数据生产、加工及简单的数据呈现不再是瓶颈时,基于 AI 能力、自动化及智能化的数据分析、提取及加工需求变得愈发重要。这一阶段,归因能力、基于数据的智能洞察与决策能力,以及分析助手等功能的诉求逐渐增强。火山引擎的 BI 平台正是在这三个阶段的逐步演进中,不断成熟与发展。

2. 火山引擎 DataWind 企业级 BI 平台建设历程

DataWind 是火山引擎推出的 BI 平台。在建设初始阶段,DataWind 主要聚焦于 MVP 产品路径的构建,致力于满足研发者、分析师、一线业务及日常协同办公等多方面的需求。具体而言,它涵盖了搜索查询、可视化查询、仪表盘搭建、数据协同及数据集构建等核心功能,为平台的后续发展奠定了坚实的基础。

随着基础能力的逐步完善,DataWind 平台迈入了第二个发展阶段。在这一阶段,平台开始关注数据隔离、智能归因及移动端能力等更高层次的需求。项目中心的建立、智能归因系统的引入以及移动端多端能力的提升,不仅满足了经营者及一线业务人员在移动端查看数据的迫切需求,也进一步增强了平台的决策支持能力。

如今,DataWind 正经历着创新与突破的关键时期。平台不仅补全了可视化建模的能力,还在近年来逐步拓展了洞察决策、归因分析以及结合大模型构筑的 copilot 等前沿能力。这些创新不仅提升了平台的智能化水平,也为其在未来的发展中注入了新的活力。

3. 产品能力矩阵

DataWind 展现了一个全面且强大的能力矩阵。其核心价值体现在“零门槛、全自助、强协调、强协作”上,旨在使业务用户能够轻松学习并高效运用该工具。

DataWind 巧妙融合了当前先进的大模型技术,从而实现了 BI 与 AI 的深度融合,为用户提供了洞察决策与交互式分析等高级功能。特别是智能归因预警及数据协同办公等功能。

4. 服务于抖音集团内部业务的数据产品

DataWind 在抖音集团内部是极为关键的数据产品工具之一,其用户规模庞大覆盖了集团内 500 余条业务,为超过 80% 的日常业务用户提供服务。此外,DataWind 在性能上表现出色,能够实现秒级的数据查询。

02

火山引擎 AI+BI 的探索与落地

文章第二部分将重点探讨火山引擎 DataWind 如何与大模型或 AI 能力相结合,以推动其在多个场景中的探索与落地。从业务闭环分析和决策的视角出发,详细阐述 DataWind 在大模型结合上的探索路径。

1. DataWind AI+BI 探索路径

整个数据生产与分析链路被清晰地划分为几个阶段。

首先,数据生产阶段,主要由产品研发团队负责数据准备。随后,数据进入分析阶段,由分析师或运营团队进行数据加工、分析与洞察。对于一线业务团队而言,他们可能不具备数据加工或分析能力,但可以通过临时查询获得核心数据相关 KPI,进行定性或定向的分析。然而,这些查询结果往往不足以指导业务决策,因此需要对加工或查询后的数据进行深入洞察,以辅助业务发展与决策。

DataWind 紧密配合这一业务分析与数据使用链路,通过融入大模型技术,旨在提升整个分析闭环链路的效率并降低成本。在上述四个层次中,每一层都加入了大模型的加持,以实现这一目标。

2. 智能数据洞察的大模型能力矩阵

从产品架构的视角来看,DataWind 与大模型的结合展现出了全新的发展方向。在数据准备阶段,该工具充分利用大模型的能力,实现了指标维度的智能识别、描述备注的自动填充以及字段表达式的智能生成。此外,针对研发视角的数据准备工作,火山引擎 BI 工具还提供了 SQL 自动生成、SQL 自动解释、SQL 优化,以及 SQL 一键修复等功能。

在分析师、运营及产品研发的视角,DataWind 在分析功能上投入了大量精力。在可视化查询方面,该工具配备了字段式表达式的生成、二次分析的能力,以及自然语言对话查询、临时查询等便捷功能。用户还可以轻松切换数据集、图表类型,并享受一键美化图表以及智能推荐相应工作的服务。

面向一线业务、运营和分析师,以及管理层决策者,提供了仪表盘探索分析的功能,包括智能生成仪表盘、数据自动解读等。针对移动办公需求,ChatBI 与办公软件也深度集成,如配合飞书提供了基于 IM 的对话查询、多轮追问等分析能力。此外,DataWind 还结合了多端能力,除了移动端外,还支持数据大屏、数字孪生等多种工具。在数据大屏中,同样配备了智能分析和智能语音交互的能力,为用户提供了更加全面的数据支持。

DataWind 与大模型的结合场景已经探索了 20+copilot 能力,全面覆盖了 BI 工具的生产链路,显著提升了用户的生产效率。

3. 数据分析与消费

  • 在分析与消费领域,该工具面向一线业务、分析师、管理层以及企业用户,提供了丰富的功能。

  • 对于一线业务人员,提供了 AI 洞察、数据解读以及图表数据探索等功能,帮助他们更深入地理解数据。

  • 对于分析师,智能仪表盘的自动生成、图表的智能美化、二次分析及表达式生成等能力,可以大大提升他们的工作效率。

  • 管理层则可以通过 ChatBI 移动端、智能体以及移动驾驶舱,随时随地掌握企业运营状况。

  • 针对企业形象宣传的需求,DataWind 还提供了智能语音大屏,以直观、生动的方式展示企业实力与形象。

DataWind 提供的仪表盘,通过集成大模型的能力,实现了数据的智能解读。在仪表盘上,各个图标组件均可通过点击数据解读功能,迅速获得对当前数据的深度分析,包括折线图的高点、低点、波峰、波谷及移动值等,为一线业务团队提供了便捷的数据监控与分析手段。

需要明确的是,此处的数据解读并非传统意义上的归因分析,而是对数据的直观呈现与初步理解。若系统提供的数据解读无法满足特定业务需求,DataWind 还配备了自定义数据解读功能,允许业务团队根据自身需求配置解读思路,实现千人千面的数据解读效果。

此外,DataWind 仪表盘还融入了 AI 问答能力,针对图表背后的完整数据集,允许用户通过自然语言的方式询问更细颗粒度的数据,从而降低了数据提取的难度。这种自然语言的交互方式,更符合一线业务人员的常规使用习惯,提高了数据使用的便捷性。

为确保数据提取的准确性和可信度,DataWind 还提供了多种辅助手段,如经典BI 的胶囊位验证方式,以及查看原始 SQL 和数据集的功能。

DataWind 通过集成大模型的能力,为报表的解读与探索提供了全新的解决方案,不仅提高了数据使用的便捷性,还确保了数据的准确性和可信度。

针对一线业务人员的另一重要场景为 AI 查询,这一独立模块专为满足一线业务人员对数据的深度探索与自定义分析需求而设计。与仪表盘基于图表本身的询问不同,AI 查询模块允许资深业务人员或决策者对公司内部数据进行临时性的深入探索。

用户只需进入 AI 查询模块,选择相应的数据集,即可通过自然语言进行多轮对话,轻松获取所需的数据结果。这种完全基于自然语言的交互方式,极大地降低了数据查询的门槛,使得业务人员能够更便捷地与系统进行交互。

此外,DataWind 还注重细节工作,如提供数据集的常用字段等辅助性信息,以帮助用户更好地理解和使用数据。这些措施旨在消除用户与陌生系统或数据集之间的交互障碍,提升整体的数据使用体验。

在介绍了针对一线业务人员所提供的两大能力后,接下来介绍为分析师群体所配备的能力。

对于分析师而言,构建仪表盘是其日常工作的核心部分,而 DataWind 平台则为此提供了智能生成仪表盘的功能。用户仅需通过自然语言描述所需仪表盘的类型、分析思路及布局要求,系统便能据此智能生成一份初始化的仪表盘模板,极大地提升了工作效率。

值得注意的是,尽管大模型在智能生成过程中展现出强大的能力,但仍难以确保百分之百的准确性。因此,DataWind 平台还提供了二次调教的功能,允许用户对生成的仪表盘进行细致的调整与优化,以确保数据的准确性和分析的精准性。这一功能不仅彰显了 DataWind 平台对用户需求的深刻理解,也体现了其在技术层面的卓越实力。

分析师在进行 BI 数据分析时,常受限于数据集本身的颗粒度和明细程度。若数据集过于明细,分析师可能仅能通过 BI 系统获取当前分析所需的部分数据,而难以在后链路中完成自定义字段的添加、数据的聚合与加工等长尾工作。这往往导致分析师需要向产研或中台团队提出需求,请求对数据进行二次加工,导致工作效率受到影响,也无法及时响应业务人员的需求。

为解决这一问题,DataWind 推出了二次分析大模型能力。分析师在完成可视化查询后,可基于当前结果,通过自然语言与大模型进行对话,由大模型完成后续的数据加工工作。例如,若原始数据集中仅有销售额字段,分析师可要求大模型生成月销售额占比的衍生字段。大模型将基于当前结果直接生成该衍生字段,从而极大地简化了分析师的工作流程。

这一功能大大提高了分析师的工作效率,解决了其在长尾需求分析中所面临的痛点。分析师无需再将数据下载至 Excel 中进行加工,而是可以直接在系统中完成所有分析工作。

分析师在运用 BI 工具时,常需构建计算字段以满足特定分析需求。然而,随着 BI 工具功能的日益丰富和函数表达式的增多,构建自定义字段的学习成本也随之增加。为解决这一问题,DataWind 引入了结合大模型的能力。

通过自然语言与大模型进行对话,分析师可以便捷地获取构建所需字段的函数表达式建议。大模型能够根据分析师的需求,智能推荐合适的函数,从而极大地降低了学习成本,提升了生产效率。这一功能虽然看似简单,但在实际应用场景中却具有高频次的使用价值。

在探讨完分析师角色后,接下来是管理层的应用场景。

首先,DataWind 与飞书实现了深度集成,为移动端配备了 ChatBI 功能。在飞书平台内,用户可以激活 DataWind ChatBI 机器人,通过自然语言问询的方式获取所需数据结果。该功能支持多轮问答及常规图形切换,用户点击图表或获取结果后,可进一步查看详情。此外,DataWind 还提供了查看原始 SQL、配置及辅助信息的能力,以增强数据的可信度。这些功能设计充分满足了管理层及有移动办公需求的一线业务人员在出差或无法使用电脑时,快速获取所需数据的场景需求。

未来,大模型的能力不再是简单的“指标和维度”,而是“问题与答案”。DataWind 团队近期也在进行相关探索,并孵化了一款“智能体”产品,与 ChatBI 有着本质区别。

在 ChatBI 场景中,用户需基于单数据集进行自然语言问答,而在智能体中,用户则直接与智能体对话,无需关注数据集的选择。用户提出问题后,智能体会从业务链路中所有数据库表中获取相关数据,给出答案。此外,智能体还提供推荐问题、答案收藏及推送等功能,使用户能更便捷地获取所需信息。

智能体的产品形态脱离了数据集本身的概念,构建了完整的业务域。作为核心或垂类业务方,用户无需单独指定某个数据库表,而是直接基于业务问题进行问答。这一发展初步实现了向“问题与答案”方向迭代和演进的目标,为业务方和决策者提供了更为便捷、高效的数据查询方式。

针对政企客户及企业宣发与形象推广需求,BI 系统能提供大屏与数字孪生等先进功能。在此场景下,DataWind 探索并融入了大模型能力,使得用户能够与大屏进行自然语言对话,即时输出相关数据。此外,用户还能通过交互获取更多信息内容,增强了场景的互动性和智能化水平。

4. 数据生产与加工

在探讨完数据消费之后,接下来看一下数据生产和加工领域,大模型功能的演进与孵化。在数据生产和加工过程中主要聚焦于三个关键角色:数据研发、分析师,以及业务合作伙伴。

对于数据研发人员而言,常规的数据生产工作通常依赖于 SQL 分析和 SQL 平台的能力。为了进一步提升效率,DataWind 结合了大模型技术,孵化了一系列自动化工具,包括一键 SQL 优化、自动生成 SQL、一键为 SQL 生成注释,以及针对 SQL 错误的一键诊断和一键修复功能。由于 SQL 本身具备工具化和语法规范的特点,与大模型技术的结合显得尤为契合,从而实现了高准确率的自动化处理。

在完成数据生产后,为了满足业务需求,分析师还需进行数据的二次分析和深度聚合。为此,DataWind 也配备了相应的二次分析能力,确保数据研发人员或分析师在编写 SQL 后,能够对数据进行进一步的校验和深度挖掘,以保障数据的准确性和可用性,从而满足业务方的需求。

在数据生产和加工领域,结合大模型的能力,DataWind 推出了数据快速加工助手,即数据准备助手。该助手能够自动识别加工后的数据集中的维度和指标,并实现一键描述与备注填充,这一功能虽看似细微,实则作用显著。鉴于导入的数据底表、数据库表及数据集常含英文字段,为便于业务方更好地理解库表含义,大模型在识别维度、指标并进行智能填充时,会将其转译为中文。

不仅如此,大模型还能基于语义理解,为包含复杂表达式的字段(如 CASE WHEN、IF ELSE 等)构建业务描述,从而助力用户准确理解字段所表达的业务含义。这些业务描述在前端数据消费环节,还能作为大模型语义的补充,进一步优化字段召回,提升准确率,形成了一个闭环优化与反馈机制。

在数据探索与准备的范畴中,知识库管理占据着举足轻重的地位。尤其在 BI 的商业化应用中,知识库与行业术语的黑话成为大模型与 BI 结合的一大挑战。众多客户反馈,他们期望能依据行业特有的描述与问答模式,更有效地获取相关数据。然而,目前的技术尚不支持直接导入文档以供大模型自主学习并高效运用行业知识。

我们发现,在提供完全泛化的文案内容时,大模型的召回准确率反而有所下降。实践表明,大模型在有限且规则明确的知识体系内,尤其是经过配置化的知识语料训练后,能更好地响应客户的查询。因此,DataWind 引入了知识管理能力,针对数据集中的核心业务字段构建同义词,并补充业务场景描述,以增强大模型对行业术语及特殊词汇的识别能力。

5. 数据决策与洞察

在 BI 生态中,为管理层量身定制的移动驾驶舱功能助手是一大亮点。通过移动驾驶舱,管理层能够享有更加自由灵活的数据访问体验。其中所呈现的数据均为经过前置配置的核心数据,旨在满足管理层对数据严肃性与严谨性的要求。相较于泛化的分析工作,移动驾驶舱更侧重于核心数据的提取与移动监测,为管理层提供精准、高效的数据支持。

结合大模型技术,移动驾驶舱能够调取丰富的信息与知识,完美契合管理层日常办公的需求。它不仅展示了核心指标数据,还集成了会议纪要、结论以及市场信息和舆情,为管理层提供了一个全面、深度的视角。因此,这款管理工具是面向管理层精心孵化,并与大模型深度结合的产物,旨在提升管理层的决策效率与质量。

决策和洞察功能的第二块是数据洞察与归因。提供了三种归因方式:

  • 维度归因:对指标的变化,在各维度上进行拆解,并给出定量的贡献解释。这里引入了定基法、加权占比法等算法。

  • 指标归因:将复合指标或计算指标拆解成因子指标来看其贡献度。

  • 异动分析:结合时序预测算法,对指标进行自动探查。

结合这三种归因能力,还提供了更加全面的指标分析树的能力。

下图展示了归因报告的样例。

DataWind 分析助手的整体架构如下图所示。收到一个自然语言的用户提问后,首先会经过初步的内容审查和拦截,下一步是生成 prompt,提交给大模型,大模型返回 SQL 和回答,再经过第二轮审计,最终服务于不同分析场景。

大模型为 BI 带来了两大优势,一是数据开发提效,二是数据消费扩大。

火山引擎 DataWind 分析助手的显著优势在于:

  • 首先,得益于大量复杂场景与大规模用户的实践打磨,作为内部最大的数据产品工具,其用户体量庞大,为分析助手在客户侧的使用提供了丰富的验证机会,促使其逐步迭代并趋向成熟。

  • 其次,火山引擎拥有豆包大模型的知识储备,模型迭代与优化进程可控,且得到了全力投入与支持。

  • 此外,火山引擎在算法工程、大模型应用及数据应用方面亦具备显著实力,通过工程化层面的深入工作,确保了数据的高准确性。

  • 最后,火山引擎持续进行超饱和的高质量投入,其数据运营团队中超过一半的产研力量在 2023 年至 2024 年间全力投入到分析助手的孵化与迭代中,未来还将加大投入。

因此,火山引擎 DataWind 有信心将大模型与 BI 的结合推向行业领先地位。

03

DataWind 外部实践场景

1. 某全球化消费电子品牌

某全球化消费电子品牌面临旧 BI 平台 AI 能力不足、难以结合新技术、无法实现高速演进、业务自助分析难以实现以及缺乏高效整合型 BI 平台等问题。DataWind 凭借其优势能力,成功满足了该品牌的需求。首先,DataWind 与飞书实现了强联动协同,提升了工作效率。其次,DataWind 提供了低门槛的可视化能力和敏捷的即席分析,满足了业务的正常使用需求。此外,DataWind 当时正孵化的 ChatBI 能力也引起客户的兴趣,符合其使用理念。因此,该品牌选择了 DataWind 作为 BI 承载工具。

业务场景中,财务部门对数据的分析需求尤为突出,因其对数据要求严谨且分析视角多维。然而,财务人员虽专业于数据,却在描述需求时显得琐碎,难以精准表达,同时其底表明细复杂,构建模型与数据集颇具挑战。在此情境下,ChatBI 能力显现出显著优势,其分析视角多样、数据建模灵活、适应分析思路多变的特点,恰好满足了财务部门的需求。此外,ChatBI 还能很好地融入财务数据分发及与飞书等工具的协同办公场景中。

同样,行政与 HR 部门也面临类似挑战,数据琐碎、分析思路多样,导致中台部门难以准确理解和实现其需求。因此,Chat BI 与分析助手同样成为了这些部门的理想选择。

针对 HR 人事考勤部门的痛点,该客户发现考勤点众多且场景分散,难以向数据分析部门准确传达需求以生成完整报表。而通过引入分析助手,HR 团队能够基于原始考勤数据,高效地进行统计分析,精确掌握员工在不同场景下的平均出勤情况。这一解决方案完美契合了分析助手的能力,有效解决了客户的实际问题。

2. 某汽车企业

下面介绍的是一个汽车行业客户,聚焦在移动驾驶舱场景。近年来,汽车行业竞争激烈,每家汽车厂商除了关注自身核心数据以外,还会关注公共舆情、市场动态以及竞争对手的市场数据。移动驾驶舱首先可以满足管理层数据盯盘和移动办公的需求,还可以提供公域信息中的相关数据,同时还提供定期总结,完美解决了客户需求,为其降本增效、紧跟市场动态提供了助力。

3. 某电商平台

第三个 B 端案例是某电商平台。在 DataWind 大模型分析助手的能力加持下,客户工作效率得到了大幅提升。

4. 某内容平台

最后是一个内容平台客户案例。DataWind ChatBI 移动办公的能力,很好地满足了创作者运营团队随时随地获取信息的需求,帮助他们及时识别运营机会与方向,为精细化运营奠定了基础。

04

总结与展望

在探讨 ChatBI 或 AI+BI 的未来发展方向与趋势时,有几个关键点值得关注。

  • 首先,垂类场景的深度挖掘将成为重要趋势。随着 BI 厂商与大模型结合能力的不断探索,市场逐渐认识到,在部分场景下,大模型加 BI 的准确率难以完全满足高预期。因此,针对复杂泛化问题的解决方案将趋向于收敛于具体的垂类场景,高效满足用户实际痛点将成为产品竞争力的关键。另外,跨表构建业务主题分析域将成为重要课题。初期 AI+BI 能力多基于单表问询进行孵化,但这并不符合业务实际应用场景。未来,跨表构建垂类主题域,实现问题与答案的紧密结合,或将成为大模型的发展方向。

  • 第二,指标的治理与应用将是提升大模型应用效率的重要手段。在实际应用中,原始数据往往较为混乱,大模型难以直接进行数据治理和加工。因此,用户和供应商需共同解决数据复杂度问题,以更好地应用大模型服务于业务。

  • 第三,深化 AI 能力将成为核心竞争力。数据分析领域 BI 的普及带动了 AI 能力的普及,未来 AI 能力需在生产、取数、决策洞察等全方位闭环解决业务全场景问题,才能构筑 AI+BI 产品的竞争力。

  • 最后,多边系统协同驱动企业数据飞轮也是必然的发展趋势。AI+BI 需具备更好的开放集成能力,与企业办公软件或场景深度结合与集成,而不仅仅局限于独立的数据工具。

以上就是本次分享的内容,谢谢大家。


分享嘉宾

INTRODUCTION


刘然

火山引擎

DataWind资深产品专家

负责火山引擎 BI 产品团队工作,在数据产品领域工作 10 年以上,有金融、教育、电商等多个行业的从业经验

往期推荐


AI改变工作:一天内打造专属于你自己的RAG

京东数据架构解析:供应链效率提升与决策优化策略

大模型推理之显存优化探索实践

蚂蚁集团、网商银行统一动态纠偏框架,非随机缺失问题优化新视角

大模型时代下的私有数据安全与利用

独家专访李飞飞爱徒,斯坦福AI博士,a16z投资千万美元,AI视频月收入飞涨200%

对话Nvidia黄仁勋:机器学习不仅是关于软件,而是涉及整个数据管道;机器学习的飞轮效应是最重要的

李彦宏:大模型幻觉基本消除,这是只靠想法就能赚钱时代

百度沧海·存储统一技术底座架构演进

抖音集团数据血缘深度应用:架构、指标与优化实践

点个在看你最好看

SPRING HAS ARRIVED

DataFunTalk
专注于大数据、人工智能技术应用的分享与交流。致力于成就百万数据科学家。定期组织技术分享直播,并整理大数据、推荐/搜索算法、广告算法、NLP 自然语言处理算法、智能风控、自动驾驶、机器学习/深度学习等技术应用文章。
 最新文章