OceanBase城市交流会×讯飞开源:科大讯飞、京东方、游卡等实战分享

科技   2024-11-12 18:30   浙江  

11 月 6 日 OceanBase 城市交流会联合讯飞开源,以“未来已来:AI 与数据库融合实践及设计思路”为主题的交流会圆满结束,邀请科大讯飞、京东方、游卡、AskTable、某制造业企业、OceanBase 等多个行业的技术专家,共同探讨 AI 技术如何与数据库系统相结合,开启 SQL+AI 的实践。


交流会现场人流涌动,除应邀前来的用户以外,还有不少新面孔参与其中,大家带来各行各业的宝贵经验,围绕数据库与 AI 融合等话题展开热情的交流与讨论。话不多说,快来看干货分享吧!




OceanBase 在科大讯飞的落地实践


科大讯飞技术中心数据库方向负责人李梦嘉详细介绍了公司在数据库选型、运维及应用实践方面的宝贵经验。他特别强调公司在分层运维、业务端的 HTAP 需求、多模数据支持以及运维过程中的数据迁移和可视化运维等方面的重视。通过三个具体的应用场景——大规模数据统计分析、分布式数据库的数据聚合以及 Redis 选型替换,详细阐述了数据处理与管理挑战及其解决方案。



一、科大讯飞数据库选型需求


  • 业务侧:为了支持 HTAP 混合负载,并简化技术栈,科大讯飞希望找到一个既能替代传统 TP+AP 两套系统又能支持列存和行列混存的解决方案,以保证良好的查询性能。此外,还期望该方案能够提供 NoSQL 功能,如 HBase、Redis 或向量存储检索等,实现真正的多模型支持。
  • 运维侧:需要寻找一个强大而灵活的数据迁移工具,该工具不仅能够跨越不同的数据库集群进行平滑迁移,还应具备强大的数据一致性校验功能,确保数据迁移的准确性和安全性。并且还需要一个能够提供从创建到销毁全程管理服务的数据库平台,支持通过 web 运维数据库,包括安装部署、升级、备份恢复等功能,以及支持集群巡检、故障分析、SQL 优化建议等功能,使得日常运维工作更加简便高效,即“白屏化”运维。


面对以上需求,科大讯飞选择了引入 OceanBase 数据库作为解决方案。这一决策不仅帮助解决了现有系统的性能瓶颈问题,同时也为未来业务扩展奠定了坚实的基础。以下是采用 OceanBase 后的具体改进措施及其成果:


  • 增强 HTAP 能力:将原本分散在多个 MySQL 和 MongoDB 集群中的数据整合至 OceanBase 中,显著提升了统计报表查询速度,OLAP 性能提高了 7 至 40 倍,同时保持了秒级响应时间,减少了对现有业务流程的影响。
  • OMS 数据整合方案:面对数据量快速增长带来的存储压力,采用了水平分割技术来拆解大型数据库集群。结合中间件技术的应用,实现了负载均衡管理,有效缓解了单点故障风险以及资源利用率不均的问题。针对由分库分表引起的数据分布不均难题,开发了一套高效的数据整合机制。提高了系统的兼容性,并支持数据的一致性校验及快速恢复功能。此外,还构建了一套全面的监控体系以确保系统稳定运行。
  • 采用 OBKV-Redis 实现多模能力:使用完全兼容 Redis 协议的 OBKV-Redis 克服了传统 Redis 内存限制的问题。通过持久化存储 key 值并对热 key 进行底层优化,大幅提高了内存利用率;借助 OBServer 的强大多线程处理能力,避免了单线程阻塞情况的发生。经过测试验证,在读写性能方面表现出色,P99 延迟控制在 10 毫秒内。


二、OceanBase 运维经验总结


  • OceanBase 版本推荐:对于涉及大规模在线 DDL 操作的新用户,建议使用最新长期支持版(例如 4.2.1 或 4.2.5)。
  • DDL 操作优化:OceanBase 将 DDL 分为在线(不锁表)和离线(临时表交换)两种模式,前者几乎不影响业务连续性,后者则通过数据同步来减少对业务的影响。
  • 查询效率优化:利用 Hint 指导优化器,当默认优化器未能选取最优路径时,可以通过添加特定提示来强制采用某种执行方案,如调整连接顺序或启用并行处理等。


京东方在数字化转型中的数据库挑战及升级策略


随着制造业加速迈向数字化转型,作为行业领头羊的京东方,在推动国产升级过程中面临了诸多挑战。在分享会上,京东方数据库技术专家王丁丁详细介绍了公司在应对硬件老化、软件 Bug 以及高昂升级成本等问题时所采取的措施,并提出了有效解决数据库选型和运维管理难题的策略。



一、京东方数据库需求与挑战


  • 多模态数据库需求:在数字化转型过程中,京东方需要处理包括图数据、时序数据在内的多种类型信息,这要求其数据库系统能够支持多模态数据处理能力。然而,传统的单一关系型数据库已无法满足这种多样化的需求。
  • 国产升级:面对不断增长的成本压力及未来业务扩展的不确定性,京东方开始探索采用国产数据库作为解决方案之一。这不仅是出于经济考虑,也是为了提高技术自主性,减少对外部供应商的依赖。


二、智能制造数据中台的数据同步需求及痛点


  • 实时与离线数据同步:确保生产现场的数据能够及时准确地传输至集团数据中心是实现高效运营管理的前提条件。
  • 现有 GP 数据库的高运维成本:替换为更灵活高效的分布式数据库成为必然选择。
  • 硬件老化问题:老旧设备不仅维护困难,还可能导致软件升级受阻,进而影响到正常业务运行。


王丁丁指出数据库选型的重要性及其周边系统的影响,所以正确选择数据库平台对于整个 IT 架构至关重要,因为它直接决定了其他相关系统的选型。考虑到许多应用程序都需要与 MaxCompute 等大数据处理工具进行交互,因此保证迁移过程中的兼容性和稳定性显得尤为重要,关键诉求如下:


  • 迁移方法与路径:确保平滑迁移,减少停机时间。
  • 风险评估与管理:确保迁移过程的安全性和可靠性。
  • 用户体验与性能提升:新系统需提升性能且不改变操作体验。
  • 应用代码兼容与优化:确保无缝衔接现有系统。
面对以上诉求,王丁丁也分享了京东方在当前数据库系统的解决方案:
  • 计划逐步向 OceanBase 过渡,利用其强大的横向扩展能力和优异的事务处理性能。
  • 时序数据库需求,针对大量传感器产生的连续流式数据,需构建专门的存储方案以应对高并发读写请求。


迁移后数据库生命周期管理,结合 EMCC 工具集的经验,涵盖了从部署到监控诊断等多个环节。我们还利用社区资源进一步强化系统监控能力,例如采用开源工具 Zabbix 进行监控。此外,通过构建以 OceanBase 为核心的生态系统,打造了一条完整的上下游产业链,旨在降低总拥有成本并提高运营效率。


总之,面对日益复杂的市场环境和技术变革,京东方致力于寻找最适合自身发展的数据库解决方案。通过对国内外各种产品的深入研究对比,最终倾向于选用像 OceanBase 这样具有强大实力且符合长远规划目标的产品。


游卡的数据库转型之旅:从 MySQL 到 OceanBase


杭州游卡公共支持中心运维部负责人俞振佳分享游卡作为国内最早的卡牌游戏研发者之一,以《三国杀》为核心 IP,并涉足桌游展会策划、活动制作及剧本杀发行等多个领域;随着业务的不断扩展和技术需求的增长,开始探索使用 OceanBase 作为新的数据库解决方案。



原有数据库架构主要采用传统的主从+容灾模式,具有以下局限性:


  • 主环境设在杭州的核心机房;
  • 容灾环境位于上海;
  • 业务部署则基于阿里云平台;
  • 离线备份存放在江苏,并通过专线连接云端业务与核心数据库;
  • 混合云部署策略拥有多个 MySQL 集群来满足不同项目的特定需求。


尽管 MySQL 在许多场景下表现出色,但随着业务规模的扩大,业务在高可用性、可扩容性以及资源利用率等方面遇到了瓶颈,比如大表性能问题、高昂的扩容成本等。经过对市场上多种产品的调研后,游卡最终决定采用 OceanBase 作为分布式数据库方案,以解决这些挑战。


在实施过程中,分享如下挑战与经验:


  • 内存瓶颈:初次部署 OceanBase 时,由于对系统内存需求估计不足,出现了内存瓶颈的问题。因此建议,在部署 OceanBase 时至少分配 512GB 甚至更大的内存空间,以保证系统的高效运行。
  • OceanBase 分布式特点:新架构中,我们将地域 A 原有的主节点转变为其中一个 OceanBase 集群,并在地域 B 增设了一个单点 OBServer 作为容灾。利用 OceanBase 的分布式特性并通过 OBProxy 行连接实现高可用,同时借助 OMS 工具将历史数据同步至地域 B 的一个低成本 OceanBase 集群中。虽然看起来比原架构更复杂,但实际上更加灵活且高效。
  • 降低运维门槛:OceanBase 不仅降低了数据库运维的技术门槛,而且简化了许多管理工作流程。例如,无需专业 DBA 也能管理大规模数据库集群;常用的操作如慢日志分析、监控备份管理等均可通过统一简洁的 OCP 界面完成,极大提高了操作便捷性和集中度。
  • 高效数据迁移:OceanBase 提供了高效的 OMS 工具支持快速迁移。我们曾在 23 小时内成功迁移了 20TB 的数据量,相比 MySQL 的传统方法,效率提升了至少两倍以上。
  • 高可用性及其他功能亮点:OceanBase 提供的 OBProxy 产品能够轻松实现数据库高可用,并且 ODC 开发者工具生态不仅方便开发人员使用,还具备协同工作能力,同时 OceanBase Agent 组件使得监控数据可以无缝集成到 Promethues 等现有监控体系中。


目前,包括《三国杀》系列的行为日志、内部 CMDB 系统等多个关键项目均已迁移到 OceanBase 上。实际应用表明,OceanBase 在存储压缩率、计算资源利用率等方面均优于传统数据库解决方案,为游卡带来了显著的成本节省和性能提升。



企业级 SaaS 在 IoT 场景下的实践


某制造业企业数据库工程师赵恩东,在本次分享中详细介绍了其所在公司在物联网(IoT)领域的 SaaS 应用经验。讨论涵盖了 IoT 业务的独特特征、面临的主要挑战以及如何通过迁移至 OceanBase 分布式数据库系统来克服这些问题。





IoT 业务拥有几个显著的特点。首先,随着 5G 技术的广泛采用以及带宽的持续增长,边缘设备的数据传输能力得到了极大增强。这一变化不仅提高了数据上报的速度与实时性要求,同时也对存储系统的即时响应能力提出了更高标准。其次,接入网络的设备数量正在以指数速度增加,这对后端数据处理系统构成了巨大挑战。


此外,现代传感器技术的进步使得收集更多类型且更加精细化的数据成为可能。因此,从智能家居到工业自动化,IoT 的应用范围已经扩展到了几乎所有行业,极大地促进了各行各业的发展与创新。


起初,公司采用的是 MySQL 以及内部自研的一些存储解决方案来支撑其业务需求。然而,随着业务规模不断扩大,这些传统架构开始暴露出一系列问题:


  • 并发写入性能不足
  • 资源隔离机制缺失导致资源分配不均
  • 无法实现在线扩容
  • 存储成本居高不下


面对上述挑战,团队决定探索新的数据库方案——OceanBase。经过深入调研与评估,最终确定该产品具备以下几个优势:


  • 原生支持分布式架构
  • 强大的资源隔离功能
  • 兼容 MySQL 语法减少迁移难度
  • 易于管理和维护


💡 重要业务案例分析


动物体温监测项目:该项目需持续接收并处理来自百万级别 IoT 终端的生物体征信息,随后基于此向用户发送健康警报。使用 OceanBase 并通过优化表结构设计与查询逻辑显著提升了系统处理高并发写入的能力。


实时告警通知服务:另一个典型案例是为用户提供实时告警信息推送的服务。同样面临着极高的并发写入需求以及快速响应的要求。借助 OceanBase 强大的写入能力和灵活的查询优化策略,不仅保证了消息传递的即时性,同时也大幅提升了用户体验满意度。


💡 运维工具支持


为了进一步简化日常运维管理工作,公司还引入了一系列围绕 OceanBase 构建的专业工具:


  • OCP:提供全方位的监控管理能力,包括但不限于资源调度、故障诊断、安全审计等。
  • ODC:作为图形化界面客户端,极大地方便了开发者或 DBA 执行各种数据操作任务。
  • OMS:专用于数据库迁移场景,支持无缝迁移的同时还能自动完成数据一致性校验工作。


尽管整体迁移过程较为顺利,但在实施过程中也遇到了一些具体的技术难题,比如:


  • 数据膨胀:发现某些表因存储 JSON 格式的大字段而产生了严重的空间浪费问题。为此,采取了将这部分数据迁移至对象存储系统的方法予以缓解。
  • 分区表与小表 JOIN 产生分布式事务问题:当执行涉及大型数据集之间的联接操作时,如果其中一个大表(分区表)和一个小表 JOIN 时,由于大表是分区表可能与小表不在同一个服务器上也就产生了分布式执行计划,有时候查询数据量较大时候可能会导致 SQL 性能不佳,可以通过修改小表属性为复制表,小表将会在每个 OBServer 上都存在一份,这样就会避免了分布式事务,从而提高 SQL 性能。


接下来,公司计划进一步加强与 OceanBase 的合作关系,考虑升级至最新版本 4.0,并深入研究复杂查询优化等高级特性。同时希望 OceanBase 能在控制数据膨胀等方面提供更多改进措施,并增强 OCP 平台对于细粒度运维的支持力度。此外,开放对第三方工具如 phpMyAdmin 的支持也是一个值得探讨的方向。


科大讯飞向量数据库技术选型与落地实践 


科大讯飞检索平台负责人李鑫博深入探讨了向量数据库在星火大模型落地方面的经验。星火大模型在 RAG,知识库场景上大量使用了向量数据库,当前向量数据库已经成为星火大模型最基础的一个技术能力。


星火大模型的早期阶段,对向量数据库的技术选型较为仓促,在使用过程中出现了集群不稳定等问题。针对落地过程中遇到的这些问题, 星火技术团队思考了当前出现这些问题的原因并提出了对应的解决手段。



一、面临的挑战


  • 稳定性挑战:相比较传统数据库向量数据库架构复杂,依赖繁多,技术迭代快,单一团队难以承接数据库的运维工作。最佳实践难以实施, 业务使用不当会导致性能变差,集群不稳定。
  • 效果与性能挑战:商业化与开源混用场景,向量检索引擎不同,如何保障检索效果满足业务诉求。业务的诉求如何与向量检索引擎的参数/类型关联起来。
  • 成本挑战: 向量数据库机器成本高,降本压力下,如何能够帮业务节省成本。
  • 定制性需求: 如何满足业务提出的容灾,扩容,平滑升级,平滑扩容等诉求。


二、解决方案


1. 平台化运维
  • 分层治理,组建专家技术团队,把向量数据库拆分成多个子的模块,由不同的专家团队进行技术运维。
  • 组织技术交流,培养用户的使用习惯并交流运维经验。
  • 监控数据收集和日志信息聚合,以便于异常检查与告警。
2. 建设向量建设平台
  • 建设向量检索服务,双向解耦业务与向量数据库。一方面使定制更灵活, 另一方面给后续扩展留下可能。
  • 支持冷热数据分离,复用资源等方式有效控制成本。
3. 前瞻探索
  • 调研集群滚动升级方案,以满足平滑升级诉求。
  • 结合 K8S 技术,实现向量数据库的弹性伸缩,提高资源利用率。


目前向量检索服务已经承接了星火 70% 的业务,每日服务了数以亿级的星火用户请求,已经成为星火大模型最基础的能力。当前向量检索平台仍在处于初期阶段,许多功能与规划仍在不断地完善中。后续也会持续关注行业最新动态和技术发展趋势,不断优化现有架构和服务模式,力求在保证高质量服务的同时降低整体运营成本。此外,还将加强与开源社区及其他合作伙伴的合作关系,共同推动技术创新与发展。


AI 时代下的数据库发展趋势与向量数据库的应用


OceanBase 高级技术专家蔡飞志分享随着 AI 和 AIGC 的兴起,数据量与数据消费急剧增长,对数据库处理及分析能力提出了更高要求。非结构化数据(如图像、视频和文本)的比例不断增加,需要增强数据处理和消费能力;向量嵌入技术成为解决这一问题的关键手段。



一、未来数据分析与向量数据库的发展趋势


未来数据分析不仅局限于格式化的表格数据,还将处理大量非结构化数据。随着这一趋势,通用数据库开始集成向量检索能力,以提高对复杂数据的处理效率。向量检索基于实体在高维空间的映射,解决数据表示与高效检索的问题。完备的向量数据库应具备存储、计算和检索向量类型的功能。目前,包括 Redis、Elasticsearch 和 PostgreSQL 在内的多个数据库、NoSQL 系统已支持向量检索,表明该技术正逐渐成为数据分析领域的一个重要发展方向。


二、OceanBase 数据库增强向量处理能力


面对大数据量挑战,OceanBase 数据库通过在其关系型数据库引擎上增加向量类型与索引,实现了对向量数据的高效处理。


  • 向量能力:OceanBase 在其关系型数据库引擎中增加了向量类型与索引,支持 HNSW、IVF、DSAN 等算法以及常见距离计算方法。
  • 访问接口:提供 MySQL 协议兼容接口,并支持 Python 等主流语言客户端。
  • 架构优势:充分利用分布式架构特性,实现水平垂直扩展、多分区及强一致性事务处理。
  • 性能表现:VSAG 算法在 90%和 99%召回率下优于同类技术,采用查询剪枝、类型量化和内存预取等优化策略保证高性能。


三、向量索引助力多场景 AI 应用优化


  • 检索增强生成:将文本转化为向量存储,通过 RAG 的方式,增强大模型的应用范围。
  • 多模态搜索:支持文本、图片和音频识别等多模态检索,拓宽应用范围。
  • 智能推荐:结合空间检索、标量过滤与向量检索,提升系统查询的效率。


目前,OceanBase 数据库向量能力仍在探索阶段,希望在接下来可以和更多企业或产品线有更多应用合作,共同发掘 AI 应用的新场景。



大模型与数据库检索的探索实践


AskTable 的架构师崔京,分享了他在数据库领域的多年经验,重点强调了利用大模型和 AI 技术使非技术人员能够便捷地从数据库中获取信息的重要性。他介绍了 AskTable 如何通过技术创新来实现这一目标,特别是在企业临时数据查询方面遇到的挑战及其解决方案。



一、企业临时数据查询的挑战


  • 灵活性不足:无法支持随时随地的手机查询,且现有报表难以应对多变需求,零散查询仍需数据分析师支持。
  • 技能要求高:执行复杂的 SQL 编写任务不仅需要对业务有深入理解,还需要具备一定的技术能力。


AskTable 利用自然语言处理(NLP)技术,将用户的自然语言问题转换成准确的 SQL 查询语句,极大地降低了数据查询的技术门槛。


二、具体实现步骤


  • 预处理阶段:提取关键词、进行语义消歧和问题改写,确保问题理解准确无误。
  • 权限概念:引入权限概念,确保用户查询的数据符合其访问权限,防止越权访问。
  • 元数据抽取与存储:从 OceanBase 等数据库中提取表结构及其他重要元数据信息,并将其保存到一个既支持传统 SQL 查询也兼容 JSON 格式以及向量模型的新一代数据库中,以支持更加灵活高效的查询模式。
  • SQL 生成与执行:生成符合用户需求和权限要求的 SQL 查询语句,并执行查询,获取结果。
  • 结果展示:支持多种展示方式,如 Markdown 文本、图表展示以及 Excel 下载,满足不同需求,增强数据使用灵活性和便捷性。


除了基础的数据查询功能外,AskTable 还致力于为企业提供全面的数据分析与管理服务。这包括但不限于业绩完成率计算、身份验证、人口统计数据整理等功能。此外,它还支持多种主流数据库类型,并为用户提供免费试用的机会,以便于评估其私有化部署的效果。


总之,通过持续探索 AI 与大数据技术融合的新方法,AskTable 正致力于消除传统数据库管理中存在的障碍,让更多的人能够享受到更加高效且易于使用的数据服务体验。



Ask Me Anything


在与大家的交流环节中,OceanBase 开源生态总经理封仲淹分享了 OceanBase 的开源理念及其未来的发展趋势,并对现场用户提出的问题给予了详细的解答。


OceanBase 的开源理念是“开放共享,共创共赢”。我们致力于与用户携手合作,共同实现双赢。我们的希望真正解决用户面临的问题,并为用户创造更多价值。同时,我们也希望通过持续收集用户的宝贵反馈,不断优化和提升产品性能,为用户带来更好的产品体验。


自 OceanBase 开源以来已超过三年时间。在以科大讯飞、携程、快手等公司为代表的广大用户的信任和支持之下,不断迭代产品版本,扩展产品功能。根据最新统计数据,社区版集群数量从年初的 5000 个增长到了约 26000 个,这表明用户我们产品的认可度正持续提高。OceanBase 团队也将在开源道路上持续投入资源与关注,与开源用户同行。


关于数据库行业的未来发展,目前的趋势是向融合方向前进。例如 Oracle 最新的版本不仅支持单机和分布式部署,还集成了强大的 TP 与 AP 能力,以及向量化技术与机器学习模型等功能。同样地,OceanBase 也在致力于开发一个既能适应单机环境也能满足分布式需求、既适用于 TP 也适合 AP 应用场景的综合性数据库解决方案。最近发布的 4.3.3 版本已经加入了向量化操作的支持,并正式进入 GA 阶段。


最后,针对 OceanBase 是否计划像 Oracle 那样内置浮动 IP 和任务分发功能的问题,答案是我们确实有一个名为 OBProxy 的组件来实现这些功能。不过,对于社区版而言,目前还是依赖于各家公司自身的基础设施配置,如 F5 或 HAProxy 等。未来,我们将继续优化 OBProxy 的设计,使其更加轻量级、无状态化,从而提高整体性能与易用性。


本次交流会不仅展示了各行业在 AI 与数据库融合方面的最新成果,也为大家带来了丰富的实战经验和前沿技术。让我们期待更多创新技术的涌现,共同推动数据库领域的发展!下一站广州,我们再见!❤️




💥下期精彩预告:11月23日,OceanBase 社区联合网易游戏,在广州举办“OceanBase 城市交流会:AI 时代的数据栈建设探索与跨行业应用实践”。



本期交流会邀请网易游戏、三维家、CVTE、石基大商、某海外金融机构、OceanBase 等资深技术专家带来他们所在领域内的成功案例分析。同时,很多社区小伙伴期待的“AI 动手实战营”也会和大家见面,OceanBase 培训专家手把手带您探索分布式数据库的能力,现场上手体验一个学习主题,感受 OceanBase 向量检索,加速 AI 应用落地背后的技术!扫描下方二维码早鸟报名!🤝



往期推荐

▼ 点击「阅读原文」,观看交流会完整视频

OceanBase
OceanBase专注原生分布式数据库研发,自研分布式技术,在普通的PC服务器上实现了金融级的高可用,拥有企业版、OB Cloud、社区版三大产品,已助力多个行业的千余家客户实现关键业务系统升级。OceanBase官方公众号,感谢您的关注。
 最新文章