开源之夏是由中科院软件所“开源软件供应链点亮计划”发起并长期支持的一项暑期开源活动,旨在鼓励在校学生积极参与开源软件的开发维护,培养和发掘更多优秀的开发者,促进优秀开源软件社区的蓬勃发展,助力开源软件供应链建设。
本届开源之夏携手 168 家顶尖开源社区,带来 560 余个精心准备的开源项目任务。其中基础难度项目 181 个,进阶难度项目 385 个,涵盖操作系统、编译器、RISC-V、人工智能、大数据、分布式、云原生等诸多热门技术领域。
在当今的 AI 时代下,大数据基础软件需要支持复杂的数据处理和分析以满足日益增长的数据量和实时性需求。湖仓一体架构结合了数据湖的灵活性和数据仓库的高性能,实现数据的统一存储、处理和分析。
作为极速统一的云原生湖仓,StarRocks 引入了实时数据集成、主键模型、极速湖仓分析和物化视图等先进技术,提供了一个理想的平台,让同学们可以在实战中学习这些核心技术,为未来的学习和职业生涯积累宝贵的经验。
2024 年开源之夏,StarRocks 社区提供了两个项目供同学们认领,涵盖从基础到进阶的难度,适合不同阶段的实战练习。通过参与 StarRocks 社区的项目,你将获得:
🤝 与顶尖开发者合作:得到一对一的专业指导,与全球顶尖的开源项目开发者进行深入交流,拓宽人脉,提高技术。
StarRocks 是一款高性能分析型数据库,使用向量化、MPP 架构、CBO、智能物化视图、可实时更新的列式存储引擎等技术实现多维、实时、高并发的数据分析。StarRocks 既支持从各类实时和离线的数据源高效导入数据,也支持直接分析数据湖上各种格式的数据。
StarRocks 兼容 MySQL 协议,可使用 MySQL 客户端和常用 BI 工具对接。同时 StarRocks 具备水平扩展,高可用、高可靠、易运维等特性。广泛应用于实时数仓、OLAP 报表、数据湖分析等场景。
截至今日,StarRocks 已被全球超过 360 家市值 70 亿人民币以上的头部企业采用,开源社区聚集超过 350 多位贡献者,社群用户过万人。目前 StarRocks 在 GitHub 星数已超 8000 个。StarRocks 也是全球顶级基金会 Linux Foundation 旗下的开源项目。
开源协议:Apache License 2.0
社区邮箱:community@starrocks.com
官网地址:https://www.mirrorship.cn/zh-CN/community
社区项目主仓库:https://github.com/StarRocks/starrocks
加入我们,共探现代大数据技术的奇妙世界!期待在 StarRocks 社区与你相遇!
报名要求:本活动面向年满 18 周岁在校学生
StarRocks 开源之夏 2024 任务详情
任务一(基础难度):Spark StarRocks Connector
为了提高数据导入的效率和减少 I/O 放大的问题,我们提出了一种改进方案:先将数据批量写入一个中间暂存区域(Stage)。在这个暂存区域中,所有数据被累积起来,直到收集完毕。随后,再执行一个统一的批量导入操作,将整个暂存区的数据一次性导入到 StarRocks。这种方法预期能够显著减少数据版本的数量,从而降低 I/O 开销,并提升整体的数据导入性能。
本项目计划在 StarRocks Spark Connector 中实现这一优化方案,并通过实际测试来验证其对性能的具体提升效果。通过实施这一改进,我们期望能够为大规模数据分析工作提供更加高效、稳定的数据导入体验。
项目产出要求:
在 Connector 中实现 Stage 优化,验证效果,并贡献到开源社区
项目技术要求:
导师:李鹏飞 lipengfei@starrocks.com
任务二(进阶难度):StarRocks 支持 Arrow Flight SQL
项目描述:
现代分析型处理系统普遍采用列式存储作为其核心存储架构,这一设计显著提升了数据压缩效率和系统的整体吞吐量。然而,这些系统经常使用基于行的 JDBC/ODBC 作为通信协议,与列式存储架构之间存在效率不匹配的问题。JDBC/ODBC 协议要求在客户端和服务器端之间进行不必要的行列格式转换,导致性能损耗。
为了解决这一效率瓶颈,Apache Arrow Flight 应运而生。Flight 是基于 RPC 框架构建的,专为 SQL 数据库设计的高效通信协议可以支持直接以列式格式传输数据。此外,基于 Flight RPC 框架,它还能进行并行的数据传输,充分利用多核能力,大幅提升数据传输速度。
项目产出要求:
项目技术要求:
导师:夏德军 xiadejun@starrocks.com
欢迎各位同学报名参 StarRocks 项目 ,与广大的 StarRocks 社区伙伴们携手共建极速统一的湖仓分析新范式!
无论是技术上的疑问还是项目中的挑战,如果你遇到任何问题,别担心!扫描下方二维码加入“开源之夏 2024 x StarRocks 活动群”,我们将为你提供最大程度的帮助和指导。
往期选手专访:社区对话 | 开源之夏学生孙印政:在 StarRocks 社区留下属于自己的印记
关于 StarRocks
StarRocks 全球开源社区也正飞速成长。目前,StarRocks 的 GitHub star 数已达 8000,吸引了超过 330 位贡献者和数十家国内外行业头部企业参与共建,用户社区也有过万人的规模。凭借其卓越的表现,StarRocks 荣获了全球著名科技媒体 InfoWorld 颁发的 2023 BOSSIE Award 最佳开源软件奖项。