恭喜!Apache StreamPark 社区喜迎新晋 Committer

文摘   科技   2022-12-19 16:00   北京  


StreamPark[1] 于 9 月 1日正式通过投票加入 Apache 孵化器, 目前正在准备第一个Apache 版本的发布事宜,  从 8 月准备孵化事宜到现在期间, 新增了 30 余位贡献者, 贡献了包括文档翻译, 官网制作, bug 修复和新功能开发等目前累计贡献者已达 90 余位, GitHub Star 从 2k 上升至 2.8k, 更是数次登上 Github Trending 榜单,  这一切,都离不开背后默默付出的贡献者们,感谢所有参与的贡献者们







喜迎新晋 Committer




很高兴向大家宣布,社区又迎来了一位新晋 committer,来自联通数科的穆纯进, 纯进积极参与项目的沟通讨论,在项目的布道, 开发测试方面做出了积极的贡献,  得到 PPMC 和导师们的一致认可和肯定经过投票被正式提名为 StreamPark 的 Committer恭喜纯进 ! 让我们一睹新晋  Committer 的风采: 



01

请输入副标题


PROFILE

穆纯进

联通数科实时计算团队负责人



非常荣幸被提名为 Apache StreamPark 的 Committer,感谢社区小伙伴们的帮助,感谢社区的认可。


主要贡献

目前主要贡献:

  1.  优化了 YARN RM 连接数过高的问题
    解决了大量 Flink 作业下对 YARN ResourceManager 连接数过高的问题,在
    获取 Flink 作业状态、Checkpoint 等信息的性能方面有了很大的提升。

  2. 贡献了变量管理功能
    将 Flink 作业依赖的 Kafka、HBase 等组件的连接信息使用变量统一管理起来,当创建 Flink Jar 和 Flink SQL 作业时可以使用定义好的变量进行填充,同时可以方便查看某个组件被哪些作业使用。

  3. 修复 Bug 和测试工作
    修复了一些 StreamPark 存在的 Bug 以及做了大量测试工作保障了新版本的功能完善和运行稳定。

  4. 分享 Apache StreamPark 的生产实践
    在 Flink Forward Asia 2022 顶级盛会上分享 Apache StreamPark 在联通生产上的深度应用实践以及对社区贡献。


[联通Flink实时计算平台化运维实践]

结缘社区

初次接触 StreamPark 是因为公众号的文章,随后在使用 StreamPark 的过程中,发现很容易上手,不需要太多学习成本,再就是平台很轻量,没有多余累赘的东西。

借助开源社区的能力赋能生产是目前比较流行的趋势,在选型 StreamPark 之前,我们也做了大量的调研,调研的平台或功能不完善,或与其他非实时计算的功能耦合较多平台较重,或没有经过企业实际生产环境的验证,之所以选型 StreamPark 主要是因为功能完善、轻量、专注,而且在之前已经有了生产环境验证,稳定性也得到了保障,因此借助 StreamPark 开源的能力,解决了我们实时计算生产环境的诸多问题,整体运维效率和运维质量都有很大提升,研发团队走出了管理、运维泥沼,幸福指数大大提升。


深度实践

联通的实时计算平台每天处理 2.3万亿规模的数据,支撑了 30 多个内部和外部组织下用户使用,支撑了 10000+ 的数据服务订阅,Flink 作业包括 Flink Jar 和 Flink SQL,作业数量 500+,在使用 StreamPark 之前我们遇到了巨大的挑战,具体可以查看文章 StreamX 在联通数科万亿级实时计算中的生产实践。目前 StreamPark 在我们的生产环境已经运行了8个多月的时间,解决了大量 Flink 作业管理的难题,简化了运维流程,大大减低了故障率和业务投诉率。

在深度使用 StreamPark 的过程中,我们也发现了一些问题,并且将生产管理中遇到的Bug 和新的 Feature 提交给了社区。


社区印象

目前社区还是很活跃,越来越多的用户在使用或者在体验 StreamPark 中,贡献者有来自一线互联网公司以及二三线的互联网和传统企业,涉及的行业也较多,实时计算是大势所趋,故面向实时计算的 StreamPark 是一个很有潜力的项目。

寄语

StreamPark 刚刚加入 Apache 孵化器,很年轻、很有发展潜力,未来还有很长的路要走,期待新的小伙伴能加入进来!一起促进社区的发展,为我们共同的目标进行平等的沟通协作,来感受社区乐于分享的氛围与 StreamPark 社区共同成长。最后祝 Apache StreamPark 能够早日从 Apahce 孵化器毕业,帮助更多的开发者去解决他们的难题


什么是 StreamPark


StreamPark 原名 StreamX,是一个简单易用的流处理应用开发框架和操作管理平台。于 2019 年由个人组织 streamxhub 创建,并于 2021年 4 月在 GitHub 上开源,2022 年 8 月改名为 StreamPark,随后 9 月 1 号通过投票正式成为 Apache 开源软件基金会的孵化项目

StreamPark 初衷是让流处理更简单,在实时处理领域 Apache Spark 和 Apache Flink 是一个伟大的进步,尤其是 Apache Flink 被普遍认为是下一代大数据流计算引擎, 我们在使用 Flink & Spark 时发现从编程模型, 参数配置到运维管理都有很多可以抽象共用的地方, 我们将一些好的经验固化下来并结合业内的最佳实践, 通过不断努力终于诞生了今天的框架 — StreamPark , 其规范了项目的配置, 鼓励函数式编程, 定义了最佳的编程方式, 提供了一系列开箱即用的 Connectors 和一套快速开发的脚手架, 使用 StreamPark 开发,可以极大降低学习成本和开发门槛, 让开发者只用关心最核心的业务。

另一方面,在实时作业部署管理方面, 没有针对 Flink & Spark 作业的专业管理平台,这是企业在实践中会遇到的一道坎。StreamPark 提供专业的作业管理平台,包括但不限于作业开发、调试、交互式查询、部署、操作、运维、实时数仓等。

目前 StreamPark 只支持 Apache Flink 和 Apache Spark后续计划支持更多引擎



   加 入 我 们   




进入 Apache 孵化器意味着 StreamPark 距离成为顶级的开源社区产品更近一步, 也是万里长征的第一步我们时刻保持开发者谦逊朴素的本质认真学习和遵循「The Apache Way」秉承更加兼容并包的心态迎接更多的机遇与挑战。诚挚欢迎更多的贡献者参与到社区建设中来


项目地址

https://github.com/apache/incubator-streampark


提交问题和建议:

https://github.com/apache/incubator-streampark/issues


贡献代码:

https://github.com/apache/incubator-streampark/pulls


订阅社区开发邮件列表 :

dev@streampark.apache.org [2] 



社区沟通:

参考资料

[1] StreamPark: https://github.com/apache/incubator-streampark

[2] dev@streampark.apache.org: mailto:dev@streampark.apache.org

Apache StreamPark
Apache StreamPark(Incubating) 让流处理更简单, Flink & Spark 流处理极速开发框架, 流批一体一站式大数据实时平台。
 最新文章