解密腾讯云ChatBI:智能数据分析的未来

企业   2024-06-06 19:07   四川  

近期,在GIAC及腾讯技术开放日现场,小编有幸采访了腾讯云大数据应用产品中心总经理陈凡凡。陈总详细解答了我们提出的多个大数据领域问题,进一步向我们揭示了这款基于大模型的新一代智能商业分析解决方案的独特之处。


1、陈总您好,很高兴能采访到您,请简单介绍一下自己以及您的从业经历。

陈凡凡:您好,我目前在腾讯云负责云上大数据应用产品的工作,包括我们这次即将推出的产品——腾讯云BI智能助手ChatBI。我2011年加入腾讯,一直从事ToB业务的相关工作,参与过互动广告、一部手机游云南、央视频等平台产品规划和研发等工作。

2、请您为我们详细解读一下ChatBI的设计理念及其在当前商业智能领域中的意义?

陈凡凡:非常荣幸能够分享我们的想法。ChatBI的设计理念源于对当前数据分析流程的深度洞察。我们认为,数据分析不应仅限于数据科学家或技术人员,而应成为每个业务人员的工具。想象一下,如果我们能够像和朋友聊天一样与数据分析工具进行交流,那会是多么轻松愉快的事情。这就是ChatBI背后的核心理念——将复杂的数据分析流程变得简单、直观,就像日常对话一样。

因此,我们开发了ChatBI,它通过自然语言处理和大型语言模型,使得用户能够以最自然的方式——即对话——来获取他们所需的数据洞察。在当前BI领域,ChatBI代表了一种从复杂到简单、从技术驱动到业务驱动的转变。

3、您提到ChatBI通过自然语言处理简化了数据分析过程,ChatBI在技术实现上面临了哪些挑战?

陈凡凡:ChatBI技术在实现过程中面临多种挑战,这些挑战源于自然语言的复杂性、数据分析的专业性以及系统设计的综合性。以下是ChatBI技术面临的主要技术挑战点:

口语化输入理解:用户在与ChatBI交互时,倾向于使用口语化、非结构化的语言表达查询需求。这增加了理解用户意图的难度,因为口语化表达往往含糊且歧义较多。如用户往往会进行“赚了多少钱”等较为口语化的表达,此时需要ChatBI能理解含义并查询数据表中的“利润”字段;

业务领域知识缺失:ChatBI需要理解特定行业的术语和概念,缺乏这一领域的知识会导致误解用户意图,生成不准确的数据分析结果。如用户会咨询到:2023年12月份大订单有多少单?这里的大订单在用户的业务场景里代表订单金额在1万元以上的订单,才是大订单。

NL2SQL:在智能问数的过程中,核心能力在于将用户非结构化的自然语言输入转换为数据库层面的可执行结构化查询语句(SQL),不同数据库在SQL层面也有较大的差异。

4、针对这些挑战,ChatBI采取了哪些技术方案来应对?

陈凡凡:我们在腾讯混元大模型的基础上,微调训练除了大数据领域的专有模型,让大数据模型处理这些和数据交互的复杂逻辑,同时针对这些挑战,我们通过以下几个方面去解决:

意图识别:ChatBI的意图识别模块会分析用户的输入,我们经过大量的数据训练,当用户提出问题时,模型可以根据问题识别用户想要进行的数据分析类型,还是一些闲聊,针对数据分析类问题会持续对话,非数据类分析会提示用户和数据分析无关等。

意图澄清:当用户以自然语言提出问题时,ChatBI首先借助大语言模型进行词法分析、句法分析和语义分析等步骤,来理解用户的查询意图。这包括识别关键词、实体(如日期、数值)、以及问题的具体需求(比如求和、比较等),当用户问题过于模糊时,还会触发对意图的追问,让用户补充问题内容。如咨询一个问题:腾讯云BI收入多少,这里模型会考虑到缺失时间这个关键指标,会触发用户补充信息的对话,让用户输入时间

查询转换:理解了用户的查询意图之后,ChatBI会将自然语言查询转换为数据库层面的可执行结构化查询语句(SQL)。这一过程可能涉及到复杂的逻辑和多步骤的查询构建。

结果生成:执行SQL查询后,ChatBI会获取数据库返回的结果,并将其转化为图表、报告等形式的可视化数据,以便用户直观地理解分析结果。

交互式反馈:如果用户对结果有疑问或需要进一步的分析,ChatBI可以继续通过对话形式提供交互式反馈和深入分析。

5、用户在使用ChatBI的时候,经常会问到一些业务相关的问题,这里如何才能让ChatBI能力理解这些业务知识并做出回答?

陈凡凡:大模型在回答问题的时候,很难对用户的业务知识有充分的理解,这里我们借助RAG增强检索能力,提前给大模型找到关键知识,让大模型基于这些知识回答,就可以给出准确的回答了,具体实现方案:

知识准备:首选,用户根据自己的业务场景,在我们ChatBI平台上,导入excel方式或手动录入一些业务场景知识,如某个指标的定义,专业术语的业务定义,我们会把这些知识内容通过向量转换的方式存入到向量数据库中。

上下文融合:当用户发起问题的时候,ChatBI检索知识库信息随后与用户的原始查询一起被送入生成模型。在这个过程中,模型学习如何将检索到的外部信息与用户的查询上下文结合起来,以生成更加准确和丰富的回答。

生成输出:最后,基于融合了检索信息和用户查询的上下文,大模型生成回答或执行任务。这种生成机制不仅能够提供准确的信息,还能够保证回答的连贯性和逻辑性,特别适合于需要结合大量背景知识进行分析的复杂任务。

6、大数据领域模型是如何训练出来的?

陈凡凡:我们是在腾讯混元大语言模型的基础上,进行微调训练得到的大数据领域模型,模型构建是一个多层次、多维度的复杂过程,我们通过以下几点实现:

多源数据整合:在基座模型的基础上,训练数据的收集涵盖了大数据领域的各个方面,文档数据如大数据技术文档、iwiki等,让大模型对大数据概念和技术有了深入理解;代码数据帮助大模型理解编程逻辑和软件架构,而运维数据则让大模型理解实际运行环境中的系统性能和稳定性信息。

 领域知识深化:任务诊断分析数据和专家经验数据的加入,使得大模型能够学习到大数据任务执行过程中的深层逻辑和决策过程。这些数据不仅包含了具体的操作步骤,还蕴含了专家在面对复杂问题时的思考方式和解决策略,极大地丰富了大模型的知识库。

BI业务场景数据:我们训练大模型理解BI,了解BI的维度指标,以及BI里的复杂计算逻辑,如同比、环比、下转等,同时训练大模型根据BI的指令生成不同的图表出来,这样当用户自然语言输入一个问题的时候,可以转换成BI的指令,调用BI的现用能力输出一个可视化图表出来。

7、在安全性方面,ChatBI有哪些特别的考虑?

陈凡凡:安全是我们团队特别重视的一项,我们公司也把数据安全放在第一位。我们设计了一种安全的读取机制,该机制在数据处理时不直接读取用户的原始数据值。这种设计遵循最小必要原则,即模型只获取完成分析所必需的最少信息。具体来说:

表头信息获取:ChatBI仅使用数据表的表头信息来进行大模型分析,而不是敏感的数据内容。

SQL下发执行:分析过程生成的SQL语句会直接下发到用户的数据库中,由数据库在本地执行查询,确保客户数据不离开其原始存储环境。

图表生成:数据库查询的结果直接用于生成图表和报告,而不会暴露原始数据。

访问控制:实施严格的访问控制机制,只有授权用户才能访问数据,并且所有访问都记录在案,以便于事后审计。

8、ChatBI的出现会对数据分析行业哪些影响,会让数据分析师失业吗?

陈凡凡:首先ChatBI的出现不会让数据分析师失业,ChatBI可以提升数据分析师的工作效率,ChatBI通过自动化和简化数据分析流程,使得从提出问题到获得答案的时间大幅缩短。这提高了整个行业的工作效率,让数据分析师能够更快地响应业务需求。另外,会降低使用者门槛,由于ChatBI允许用户通过自然语言进行交互,这降低了进行数据分析所需的技术门槛。非技术背景的业务用户也能够轻松地获取数据洞察,从而使得数据分析更加普及。

9、请介绍一下腾讯云大数据未来的发展方向,包括技术更新、新产品推出或市场扩展等计划。

陈凡凡:我们腾讯云大数据致力于提供一个轻快、易用的智能大数据平台,助力企业实现数字化转型。竞争优势在于其强大的技术基础、深厚的行业经验、以及与腾讯生态的深度整合。我们会持续深耕自研,通过提供云原生数据仓库TCHouse、一站式开发治理平台WeData和数据湖仓一体化智能引擎TBDS,腾讯云BI等,满足不同行业客户对大数据服务的多样化需求。

腾讯云大数据未来将继续加大技术创新和产品迭代的力度,以保持其在市场的竞争力。技术更新方面,将继续探索Data+AI,优化数据处理的效率和智能化水平。


参考阅读


技术原创及架构实践文章,欢迎通过公众号菜单「联系我们」进行投稿


高可用架构
高可用架构公众号。
 最新文章