导读 本文将分享喜马拉雅基于大模型 ChatBI 的实践探索,文中将重点介绍关于准确性和大模型幻觉等问题的解决方案。
1. 背景介绍
2. 产品架构介绍
3. 落地实践
4. 未来展望
分享嘉宾|陈叶超 喜马拉雅 数据平台负责人
编辑整理|薛明慧
内容校对|李瑶
出品社区|DataFun
背景介绍
产品架构
2. 产品结构
模型接入层:借助公司的大模型平台,接入了 embedding 模型、商用文本模型、自研文本模型和自研音频模型等。
数据集和知识管理能力层:大模型生成 SQL 的准确性至关重要,而准确性非常依赖于 prompt 上下文,知识处理就是为了更好地表达上下文。在这一层,使大模型学习数据库中的表信息、业务知识、专业词汇、规则和一些 SQL 方言,可以更好理解 prompt,从而做出更为准确的回答。
工具能力层:提供了解决用户问题要使用的工具,包括检索增强、会话记忆、DB 查询、语法检查、权限校验等工具。同时为了保证质量,我们还构建了一套自动测试评估体系,以及反馈和日志追踪体系。
智能体能力层:包括意图识别、智能改写、智能选择数据集、NL2SQL、智能问数、数据绘图、指标口径查询、分析总结和 SQL 自动纠错等智能体。
产品能力:基于上述大模型、Agent 和工具的能力,产品提供了智能选表、智能问数、智能问指标、单表问答、多轮问答、联表查询、智能绘图、分析总结等功能。
产品形态:通过钉钉机器人、网页版和开放 API 接口提供给用户使用。
3. 智能问数发布流程
落地实践
1. 人是怎么写 SQL 的?
2. 大模型推理优化
Prompt Engineering:为大模型提供好的角色、指令和上下文; RAG:为大模型提供更加精准的知识,限定上下文输入,解决模型幻觉等问题; Fine-Tuning:指令遵循等; RAG+Fine-Tuning; 智能体 Agent:将复杂的工作规划为多智能体的结构,对各部分分别进行优化,从而提升整体效率; 大模型迭代升级。
3. 上线效果
未来展望
分享嘉宾
INTRODUCTION
陈叶超
喜马拉雅
数据平台负责人
目前在喜马拉雅负责 Data Infra、数据引擎、数据平台和架构相关工作。10 年以上大数据平台架构相关实践经验。
点个在看你最好看
SPRING HAS ARRIVED