4月16日,腾讯游戏数据团队 x StarRocks 共同举办了一场主题为「当 AI 遇上 SQL」的线上 Meetup 活动。活动中,腾讯游戏和 StarRocks 的专家讲师们探讨了AI 编写 SQL 技术的现状和挑战,也分享了一些在 AI-SQL 效果优化和应用方面的技术能力和实践经验:
随着大型语言模型(LLM)的普及,NL2SQL 技术的门槛显著降低。然而,如何更好地将大模型落地到数据分析场景中仍然是一个关键问题。 经过一年的打磨,腾讯游戏采用大型语言模型让自然语言生成SQL的一次性准确率提升到了 89%,这大大提高了数据工作的效率。 此外,镜舟数据库推出全新的 AutoMV 技术,根据查询历史自动推荐和合并物化视图,实现了查询透明加速,显著提升了查询性能,同时降低了开发成本。
本文总结了技术交流活动的关键内容和视频资料,感谢社区每一位小伙伴的支持和参与,未来我们也会继续与大家分享更多优质的内容!
议题一:如何提升自然语言生成 SQL 的准确性和性能?开源代码 Demo 演示
分享人:赵恒 StarRocks TSC member
NL2SQL 技术的流行降低了将大型语言模型(LLM)应用于数据分析场景的门槛,但在实际落地中仍存在一些挑战。
指标需求描述不清晰:自然语言的限制和人思维的非结构化特点可能导致指标需求描述不够准确。 输入信息不足:表结构不清晰、数据维度不明确等问题可能导致输入信息不充分。 LLM 生成的 SQL 不准确:模型的泛化能力不足、预训练数据不足等原因可能导致生成的 SQL 不够准确。 LLM 对底层数据库语法不理解:LLM 可能缺乏对底层数据库语法的理解,导致生成的 SQL 存在问题。
在指标需求描述阶段提供结构化建议,推荐使用规范的指标描述方式,并利用已有指标来增进对公司内部术语的理解。 提供 Schema-linking 和 Join candidate 推断,将此部分独立放在知识库或知识图谱中处理,降低 LLM 选错的风险。 通过自有数据集进行 fine-tuning,可以采用简单的微调方法,如 Qlora,或者考虑使用自定义的 Reward Modeling 模型进行更高级别的微调。 对生成的 SQL 进行语法改写,确保与底层数据库的语法一致;在 prompt 中提供相关函数建议;如果 SQL 执行出错,进行二次修改。
为了更好地理解,本部分提供了开源 Demo 演示。展示如何使用 SSB 数据集首先进行语言自然描述,然后生成 NL2SQL,最后利用 StarRocks 物化视图进行透明加速。
议题二:腾讯游戏在 AI+湖仓一体的实践
分享人:刘岩 腾讯游戏数据技术负责人
腾讯游戏是全球领先的游戏开发和运营商,其数据团队拥有十余年、700+ 款大型游戏的数据工作沉淀,在日益复杂的业务环境下,腾讯游戏数据团队每年需处理超过 3 万个数据提取需求,SQL 编写需要耗费大量时间和精力,提升效率成为了一个关键问题。
AI 生成 SQL 自助化的解决方案,是一个可行的方向,然而目前该技术在实际业务场景中依然面临诸多挑战,如数据资产信息不完备导致大模型对需求的理解有歧义等。
针对这一问题,腾讯游戏运用 AI 技术、结合 StarRocks 湖仓一体架构的能力,将传统数据中台升级为新一代的 AI 数据资产体系。这一体系不仅可以低成本治理和迭代,也更容易被人和 AI 理解,在此基础上,腾讯游戏构建了分层迭代数据资产、专有模型、通用大语言模型及 Agent 多智体协同的系统技术架构,借助AI能力推出数据提取工具,实现用户自助使用资产解决数据需求,大幅降低数据的使用门槛,提升了工作效率。
这套工具方案目前在腾讯游戏业务中已取得显著成效,用户自助交付率提升 70%,资产复用率由 70% 提升至 77%,且结果交付的一次准确率从 51.2% 提升并稳定在 89% 的水平,让 AI 生成 SQL 在实际业务场景中能够被用起来,让资产、AI、人能够协同进化,让工具越用越好用。
议题三:StarRocks AutoMV
分享人:冉攀峰 StarRocks Committer/镜舟科技资深工程师
数据仓库环境中的应用程序经常基于多个大表执行复杂查询,通常涉及多表之间数十亿行数据的关联和聚合。处理此类查询通常会大量消耗系统资源和时间,造成极高的查询成本。但是,通过 StarRocks 中的异步物化视图,可以解决这些问题。
尽管异步物化视图在提高查询性能方面表现出明显优势,但在实际生产中仍然面临一些挑战。例如,需要有经验丰富的数据架构师进行数仓分层,并有专业经验的物化视图专家来设计 MV schema。
为了克服这些挑战,镜舟基于 StarRocks 开发了 AutoMV 技术,它具有以下优势:
简化数仓分层设计; 推荐 MV schema; 提升收益成本比; 结合未来的 auto tuning 技术和 AI 技术,使用户能够专注于领域问题本身,而不是数据分析、架构或平台的细节。
AutoMV 技术分为 L2 到 L5 不同级别,随着智能化水平的提高,人工干预越来越少。当前,AutoMV 技术主要处于 L2 阶段,具体特性包括:
从复杂 SQL 中提取 SPJG pattern,支持对 SPJG pattern 创建 MV; 基于规则和成本的 MV 合并/剪枝算法,MV 收益排序输出; 支持单表和多表,包括本地表、Iceberg、Hive 表。
AutoMV 技术已经成功应用于透明加速、指标平台、GenAI 融合等场景。
总的来说,物化视图是一种面向预计算的通用加速技术,而 AutoMV 则提升了物化视图使用的智能化水平,使数据分析能够像水、煤和电一样普遍适用。
如果你对 MV 感兴趣,欢迎加入我们的“StarRocks 物化视图小组”。扫码添加小助手,回复关键字“物化视图”即可加入!👇🏻
关于 StarRocks
Linux 基金会项目 StarRocks 是新一代极速全场景 MPP 数据库,遵循 Apache 2.0 开源协议。
面世三年来,StarRocks 致力于帮助企业构建极速统一的湖仓分析新范式,是实现数字化转型和降本增效的关键基础设施。目前,全球 360 家以上市值超过 70 亿元人民币的顶尖企业选择用 StarRocks 来构建新一代数据分析能力,这些企业包括腾讯、携程、平安银行、中原银行、中信建投、招商证券、大润发、百草味、顺丰、京东物流、TCL、OPPO 等。StarRocks 也已经和全球云计算领导者亚马逊云、阿里云、腾讯云等达成战略合作关系。
StarRocks 全球开源社区也正飞速成长。目前,StarRocks 的 GitHub star 数已达 7800,吸引了超过 330 位贡献者和数十家国内外行业头部企业参与共建,用户社区也有过万人的规模。凭借其卓越的表现,StarRocks 荣获了全球著名科技媒体 InfoWorld 颁发的 2023 BOSSIE Award 最佳开源软件奖项。