前言
COSCon'24 第九届中国开源年会暨开源社十周年嘉年华,将于 2024 年 11 月 2-3 日 在中关村国家自主创新示范区会议中心举办。
报名信息
⏰ 大会时间:2024 年 11 月 2-3 日,上午为主论坛,下午为开源大数据分论坛
📍 大会地点:北京•中关村国家自主创新示范区会议中心-颐和厅
🙌🏻 会议报名:扫描下方二维码 或 浏览器内打开下方链接
https://www.bagevent.com/event/8921634?discountCode=kysmem
论坛议程介绍
论坛联合出品人
议题介绍
11月2日
分享主题:Apache Doris 3.0: 面向云原生的湖仓一体解决方案
内容简介:将介绍 Apache Doris 最新发布的 3.0 版本中的全新特性,以及如何利用 Doris 助力湖仓一体解决方案。
分享主题:FlinkCDC 中的 schema evolution 和 transform 特性介绍
内容简介:在 FlinkCDC 3.0中,基于 YAML 配置支持了强大的数据同步功能,提供了多种的表结构演进策略,提升了在不同场景下应对表结构变更事件的容错性,并且通过 transform 模块支持在同步过程中对数据进行灵活的加工处理。在本次分享中,将对这两个特性的设计与实现进行介绍。
分享主题:Dinky 助力企业高效应用实时计算与数据湖仓
内容简介:本议题将分享 Dinky 开源实时计算平台如何为企业使用新一代大数据技术助力,降低门槛及运维成本。一、背景 本章节讲解实时流计算出现的背景及企业当前的痛点。二、项目介绍 本章节讲解项目出现的起因、社区发展的状况、平台的核心能力及优势、生态应用架构。三、流计算应用 本章节以技术组件的角度讲解在 FlinkSQL、FlinkJar、FlinkCEP、FlinkCDC 的应用建设情况。四、湖仓应用 本章节讲解在整库入湖入仓、数据湖自优化、湖仓计算的应用分享。五、交流规划 本章节讲解Dinky的未来规划与社区动向。
分享主题:SQL优化之美
内容简介:大数据SQL优化案例分享。
分享主题:Blaze:快手自研Spark向量化引擎从生产实践到社区开源
内容简介:Spark是当前业界大数据离线计算领域最主要的系统,向量化是前沿的性能优化技术,快手通过自研的Blaze引擎,将向量化技术与Spark结合,大规模落地到生产环境,取得显著线上收益,目前项目已经在社区开源。本次分享将介绍向量化技术原理和业界应用、Blaze引擎研发以及社区开源计划和未来规划。
分享主题:Apache Pulsar:存算分离助力降本增效
内容简介:Apache Pulsar是一个云原生的分布式存算分离架构的消息队列和流数据平台。其存算分离架构具有高资源利用率,高自动化运维等特性。本议题聚焦Apache Pulsar在社区以及各大公司的实践案例,重点介绍其架构优势以及与其他消息队列的对比。
分享主题:究竟什么是大数据时代
内容简介:大数据时代下的过去和现在。
11月3日
分享主题:基于 Apache Doris 构建湖仓一体化新四大体系
内容简介:使用 Apache Doris 构建简洁、高效、可靠的湖仓一体化架构的四种体系方案演进和设计。
分享主题:极速、弹性、开放——字节云原生数据仓库 ByConity
内容简介:云原生数据仓库是最能体现云的低成本、可扩展、免运维、便于协作等特点的应用实践,字节跳动在这个方向也做了诸多探索。ByConity 是字节开源的基于存算分离架构的云原生数据仓库,本议题主要介绍 ByConity 的设计初衷、功能特性和社区发展等。
分享主题:Cloudberry Database:基于 PostgreSQL 和 Greenplum 的下一代 MPP 数据库
内容简介:分享 Cloudberry Database 项目的演进历史、关键功能和应用场景,以及如何基于 Cloudberry Database 构建企业数据平台底座,并介绍后续 Cloudberry Database 社区发展路线图。
分享主题:KWDB 多模数据库——构建 AIoT 2.0 时代的新型数据底座
内容简介:本次分享将重点围绕数据库架构演进、AIoT 2.0 时代的数据管理挑战,解构 KWDB 新“融合”系统面向场景的架构创新及产业实践;探讨如何利用“多模一库”的能力,构建更高效、更易用、更可靠的新一代物联数据底座,真正助力用户解决实际场景问题,沉淀数据资产、激活数据价值,从容应对万物互联的时代新纪元。
分享主题:TiDB 在大数据场景的产品演进及最佳实践
内容简介:探索开源 HTAP 数据库 TiDB 的十年演进,如何通过持续的工程化创新,在实时数仓和大数据领域提供强大的分析和处理能力,并分享其在实际应用中的行业成功案例和最佳实践。
分享主题:Apache TsFile:物联网时序数据文件新基建
内容简介:时序数据即时间序列数据,其来源多元、数据量庞大,广泛应用于物联网、智能制造、金融分析等领域。在数据驱动的当下,时序数据的重要性不言而喻。尽管时序数据如此普遍且重要,但长期以来,时序数据的管理都缺乏标准化的文件格式。Apache TsFile 是一种专门用于时序数据管理的文件格式,完美的填补了时序数据领域的这项市场空白。
分享主题:从TP到AP,OceanBase OLAP核心技术详解
内容简介:OceanBase 始创于 2010 年,是完全自主研发的企业级原生分布式关系型数据库,连续多年稳定支撑双 11,凭借高性能和高可用真正实现应用无限扩展和服务永远在线 ,致力于为企业核心系统提供稳定可靠的数据底座。OceanBase 从 4.0 版本开始,强化 AP 分析能力,加入列存副本和向量化查询执行引擎,在大数据分析场景有着非常不错的性能,本次分享也会带来 OceanBase AP 能力的介绍。