导读 随着数据量的爆炸性增长,现代企业在数据存储、处理与分析上面临巨大挑战。在 IT 架构中,数据仓库承担着企业中关键的数据存储和分析任务,如果不能高效运作,必将导致成本飙升和决策效率低下。因此数据仓库的降本增效是企业IT部门持续的命题。
1. 问题与挑战
2. 解决方案
3. 架构红利
4. 技术红利
5. 生态红利
6. 融合红利
7. 案例实践
8. 结语
问题与挑战
1. 显性成本挑战
硬件成本:代表了部署数据仓库软件的所需的硬件成本,包括计算资源成本(CPU)与存储资源成本(磁盘、存储集群)。毫无疑问数据仓库涉及 TB 甚至 PB 级数据的存储与分析,对硬件的要求颇高。 性能成本:单位能效不高,导致在完成任务或处理数据时,需要配备更多的资源以弥补这一不足。一方面,在计算能效上,需要增加更多的高性能计算单元或优化现有的计算能力,以确保在合理的时间内完成复杂的计算任务,避免处理速度的滞后;另一方面在存储能效上,需要部署更大容量的存储设备以应对日益增长的数据量,同时减少能耗,提高数据存储和检索的效率。
2. 隐性成本挑战
运维成本:代表了运维数据仓库的人力与时间成本。 数据仓库作为极其复杂的软件产品,对运维人员的专业要求和精力消耗本身极高。如果在数据系统中运行多款组件,如 ClickHouse、Elasticsearch、GreenPlum... 则会让复杂性指数级增加,运维人员的技能要求也指数级增加。 迁移成本:代表了从旧的数据仓库或分析型数据库迁移到 ByteHouse 的人力与时间成本; 数据仓库之前的语法,架构差异通常极大,搬迁数据难于搬家,带来了极高的替换成本。
02
解决方案
1. 关于 ByteHouse
2. 四招直击“降本之痛”
架构红利:ByteHouse 采用独特的存算分离架构,实现了资源的高效利用和灵活扩展。这一架构解决了传统数据仓库在计算和存储资源上的紧耦合问题,使企业能够根据实际需求独立扩展计算或存储资源,从而避免了资源浪费。 技术红利:在计算层面,ByteHouse 自研的查询优化器提升了多表查询性能,点查优化技术则提高了系统的并发性能。在存储层面,通过共享对象存储、存储分级、数据压缩等极致优化,ByteHouse 进一步降低了存储成本。 生态红利:ByteHouse 支持丰富的上下游生态,包括数据导入、加工工具、调度工具、BI 工具以及语言 Driver 和开发工具等。同时,与 ClickHouse、MySQL 生态完全兼容,降低了用户数据迁移的门槛和额外成本。 融合红利:ByteHouse 融合了实时查询、聚合查询、人群圈选、文本检索等各类场景,简化了企业的技术栈管理,降低了运维成本。此外,在湖仓融合方面,ByteHouse 支持业界常见数据湖的外表连接方式,能实现多种外表和 ByteHouse 内表的联邦查询,进一步提高了分析效率并降低了数据冗余存储和转换成本。
03
架构红利
1. 资源利用率的瓶颈
灵活的伸缩能力,因为计算资源和存储是分离的,它们可以根据需求,对计算或存储资源独立扩展。 无尽的可扩展性。由于数据是在存储层中共享的,理论上可以横向扩展以利用尽可能多的计算资源。 对于集群管理者来说更加友好,因为他们不需要担心数据一致性、数据副本和数据收费问题;所有这些都可以委托给云服务提供的数据存储层来实现,如对象存储或 HDFS。
2. 基于存算分离的关键特性
1. 计算隔离,按需购买
2. 弹性计费,自动启停
3. 按需扩展,无损弹性
04
技术红利
1. 计算技术优势
(1)多表查询性能优化
语法支持:ClickHouse/ANSI/MySQL; Join 优化:Join-Reorder,bucket join,Runtime filter ; Filter 下推:多层嵌套下推。支持下推 join 子查询; 分布式计划优化:将这单机版计划和分布式计划两个阶段融合在一起,在整个 CBO 寻求最优解的过程中寻求最优解。
(2)点查性能优化
支持预先注册查询模板,避免对模版 sql 的分析和优化的开销; 支持使用 unique 引擎生成的内存中唯一键索引; 优化 TopN 类型 SQL 模式(select column from {} where condition order by column limit 10; ),使数据读取量更少,查询更快:
2. 存储技术优势
(1)对象存储,优化成本
(2)存储分级,温冷隔离
(3)数据压缩,极致优化
05
生态红利
1. 多元化生态
2. ClickHouse 生态兼容
3. MySQL 生态兼容
06
融合红利
1. 多技术栈融合
2. 统一运维
3. 湖仓融合
07
案例实践
1. 抖音集团广告集群上云业务:QPS 提升 35%,成本降低 60%
业务背景:
解决方案:
最终效果:
2. 抖音集团行为分析业务:仅需运维 1 套系统,100T 数据查询只要 5 秒
业务背景:
解决方案:
最终效果:
3. 某头部游戏企业迁移案例:QPS 提升 200%,成本降低 30%
业务背景:
解决方案:
最终效果: