StarRocks 邀请你一起探索数据边界,开启开源之夏 2024 之旅!

文摘   2024-05-16 19:10   北京  

开源之夏是由中科院软件所“开源软件供应链点亮计划”发起并长期支持的一项暑期开源活动,旨在鼓励在校学生积极参与开源软件的开发维护,培养和发掘更多优秀的开发者,促进优秀开源软件社区的蓬勃发展,助力开源软件供应链建设。


本届开源之夏携手 168 家顶尖开源社区,带来 560 余个精心准备的开源项目任务。其中基础难度项目 181 个,进阶难度项目 385 个,涵盖操作系统、编译器、RISC-V、人工智能、大数据、分布式、云原生等诸多热门技术领域。


在当今的 AI 时代下,大数据基础软件需要支持复杂的数据处理和分析以满足日益增长的数据量和实时性需求。湖仓一体架构结合了数据湖的灵活性和数据仓库的高性能,实现数据的统一存储、处理和分析。

作为极速统一的云原生湖仓,StarRocks 引入了实时数据集成、主键模型、极速湖仓分析和物化视图等先进技术,提供了一个理想的平台,让同学们可以在实战中学习这些核心技术,为未来的学习和职业生涯积累宝贵的经验。

2024 年开源之夏,StarRocks 社区提供了两个项目供同学们认领,涵盖从基础到进阶的难度,适合不同阶段的实战练习。通过参与 StarRocks 社区的项目,你将获得:

🔍 先进的大数据知识:在实战项目中深入了解大数据技术的最新发展。
🌐 全方位提升专业技能:适合不同基础的学生,由经验丰富的导师提供指导,帮助你在未来职业道路上奠定坚实的基础。
🏆 丰富奖励与专属礼品:成功结项者不仅可以获得最高 12000 元的奖金和证书,还可获得 StarRocks 社区专属的精美礼品。

🤝 与顶尖开发者合作:得到一对一的专业指导,与全球顶尖的开源项目开发者进行深入交流,拓宽人脉,提高技术。

StarRocks 社区简介

StarRocks 是一款高性能分析型数据库,使用向量化、MPP 架构、CBO、智能物化视图、可实时更新的列式存储引擎等技术实现多维、实时、高并发的数据分析。StarRocks 既支持从各类实时和离线的数据源高效导入数据,也支持直接分析数据湖上各种格式的数据。


StarRocks 兼容 MySQL 协议,可使用 MySQL 客户端和常用 BI 工具对接。同时 StarRocks 具备水平扩展,高可用、高可靠、易运维等特性。广泛应用于实时数仓、OLAP 报表、数据湖分析等场景。


截至今日,StarRocks 已被全球超过 360 家市值 70 亿人民币以上的头部企业采用,开源社区聚集超过 350 多位贡献者,社群用户过万人。目前 StarRocks 在 GitHub 星数已超 8000 个。StarRocks 也是全球顶级基金会 Linux Foundation 旗下的开源项目。


开源协议Apache License 2.0

社区邮箱:community@starrocks.com

官网地址:https://www.mirrorship.cn/zh-CN/community

社区项目主仓库:https://github.com/StarRocks/starrocks

加入我们,共探现代大数据技术的奇妙世界!期待在 StarRocks 社区与你相遇!


报名方式:扫描上方「海报左侧二维码」报名或复制链接到浏览器打开https://summer-ospp.ac.cn/org/orgdetail/fbddcc44-29d8-407b-abc4-13dcaf02d662?lang=zh
报名指南及注意事项:https://summer-ospp.ac.cn/help/student/

报名要求:本活动面向年满 18 周岁在校学生



StarRocks 开源之夏 2024 任务详情


任务一(基础难度):Spark StarRocks Connector

项目描述:
StarRocks Spark Connector 是一款专门设计用于将数据从 Hive、数据湖等数据源高效迁移至 StarRocks 分析型数据库的工具。目前,该连接器采用分批次处理机制,利用 StarRocks Stream Load 功能将数据逐批写入 StarRocks。然而,在面对高并发和大规模数据量的场景时,这种分批写入策略可能会在 StarRocks 中触发大量数据版本生成,这对于那些更适合整体批量操作的应用场景并不理想。特别是当涉及主键模型的部分列更新时,这种方法可能导致显著的I/O 开销增加。

为了提高数据导入的效率和减少 I/O 放大的问题,我们提出了一种改进方案:先将数据批量写入一个中间暂存区域(Stage)。在这个暂存区域中,所有数据被累积起来,直到收集完毕。随后,再执行一个统一的批量导入操作,将整个暂存区的数据一次性导入到 StarRocks。这种方法预期能够显著减少数据版本的数量,从而降低 I/O 开销,并提升整体的数据导入性能。

本项目计划在 StarRocks Spark Connector 中实现这一优化方案,并通过实际测试来验证其对性能的具体提升效果。通过实施这一改进,我们期望能够为大规模数据分析工作提供更加高效、稳定的数据导入体验。


项目产出要求:

在 Connector 中实现 Stage 优化,验证效果,并贡献到开源社区


项目技术要求:

熟悉 Java 语言,有一定的数据库基础


导师:李鹏飞 lipengfei@starrocks.com




任务二(进阶难度):StarRocks 支持 Arrow Flight SQL

项目描述:

现代分析型处理系统普遍采用列式存储作为其核心存储架构,这一设计显著提升了数据压缩效率和系统的整体吞吐量。然而,这些系统经常使用基于行的 JDBC/ODBC 作为通信协议,与列式存储架构之间存在效率不匹配的问题。JDBC/ODBC 协议要求在客户端和服务器端之间进行不必要的行列格式转换,导致性能损耗。


为了解决这一效率瓶颈,Apache Arrow Flight 应运而生。Flight 是基于 RPC 框架构建的,专为 SQL 数据库设计的高效通信协议可以支持直接以列式格式传输数据。此外,基于 Flight RPC 框架,它还能进行并行的数据传输,充分利用多核能力,大幅提升数据传输速度。


项目产出要求

在 StarRocks 上实现 Flight SQL 通讯协议,能够基于 ADBC Driver 执行基本的登录、查询、写入等操作。


项目技术要求:

熟练使用 Java/C++ 语言进行开发,了解网络编程和数据库的一些基本原理。


导师:夏德军 xiadejun@starrocks.com


欢迎各位同学报名参 StarRocks 项目 ,与广大的 StarRocks 社区伙伴们携手共建极速统一的湖仓分析新范式!

无论是技术上的疑问还是项目中的挑战,如果你遇到任何问题,别担心!扫描下方二维码加入“开源之夏 2024 x StarRocks 活动群”,我们将为你提供最大程度的帮助和指导。

往期选手专访:社区对话 | 开源之夏学生孙印政:在 StarRocks 社区留下属于自己的印记

关于 StarRocks 

Linux 基金会项目 StarRocks 是新一代极速全场景 MPP 数据库,遵循 Apache 2.0 开源协议。
面世三年来,StarRocks 致力于帮助企业构建极速统一的湖仓分析新范式,是实现数字化转型和降本增效的关键基础设施。目前,全球 360 家以上市值超过 70 亿元人民币的顶尖企业选择用 StarRocks 来构建新一代数据分析能力,这些企业包括腾讯、携程、平安银行、中原银行、中信建投、招商证券、大润发、百草味、顺丰、京东物流、TCL、OPPO 等。StarRocks 也已经和全球云计算领导者亚马逊云、阿里云、腾讯云等达成战略合作关系。

StarRocks 全球开源社区也正飞速成长。目前,StarRocks 的 GitHub star 数已达 8000,吸引了超过 330 位贡献者和数十家国内外行业头部企业参与共建,用户社区也有过万人的规模。凭借其卓越的表现,StarRocks 荣获了全球著名科技媒体 InfoWorld 颁发的 2023 BOSSIE Award 最佳开源软件奖项。

金融:中信建投中原银行 | 申万宏源 | 平安银行 | 中欧财富


互联网:微信|小红书|网易邮箱|滴滴|美团餐饮SaaS | B站|携程 | 同程旅行|360|58同城|芒果TV|得物 |贝壳|汽车之家欢聚集团腾讯


游戏:腾讯游戏|波克城市37手游 | 游族网络


新经济:蔚来汽车|理想汽车|顺丰|京东物流跨越速运 | 大润发华润万家TCL |万物新生 | 百草味 | 多点 DMALL 酷开科技


StarRocks 技术内幕:极速湖仓神器:物化视图存算分离,兼顾降本与增效   |实时更新与极速查询如何兼得Query Cache,一招搞定高并发资源隔离大数据自动管理查询原理浅析易用性全面提升

StarRocks
StarRocks 是 Linux 基金会旗下的开源项目,专注于打造世界顶级的分析型数据库,以帮助企业建立“极速统一”的湖仓新范式。目前, StarRocks 已成功帮助全球数百家大型企业构建新一代数据分析能力。
 最新文章