AllData X Dinky 技术架构分享纪要

文摘   科技   2024-05-29 17:52   广东  

🔥🔥 AllData X Dinky社区Meetup主要介绍AllData全新会员商业版功能以及技术架构、应用场景,同时我们邀请了开源优秀项目Dinky社区PMC高岩老师做Dinky架构分享,让参与者有机会与优秀开源项目嘉宾老师互动交流,后续会做更多的可定义数据中台的技术Meetup分享。

 AllData 

✨开源项目:https://github.com/alldatacenter/alldata
✨官方文档:https://alldata.readthedocs.io
✨社区文档:https://docs.qq.com/doc/DVHlkSEtvVXVCdEFo

 Dinky 
✨开源项目:https://github.com/DataLinkDC/dinky
✨官方文档:https://www.dinky.org.cn
✨社区文档:https://www.dinky.org.cn/docs/next/get_started/overview









AllData2.0架构设计



AllData大数据中台创始人详细介绍了数据中台的2.0版本架构,包括对传统央企和轻量级行业公司的需求分析。

他强调了项目的可插拔性和可定义性,以及未来对更多开源框架的集成能力。AllData大数据中台创始人分享了团队的组成和资源,包括技术团队的商业化考虑和社区运营的投入。他还提到了团队在开源社区的一些合作和经验。
AllData大数据中台创始人讨论了项目调研的过程,包括对国内外开源开源组件的调研和对未来商业化的考虑。他提到了团队在选型时考虑的因素,如品牌号召力、社区运营和开源项目的集成性。

会议还进行数据中台2.0版本的人架构分享。最后会议将总结经验教训,提取社区反馈和意见,以期使项目做得更好。





开源大数据组件的调研选型


主要讲述了团队在开源框架研究方面的背景和成果,提到了一些开源项目和数据平台。
同时,介绍了团队在技术架构设计方面的思考和尝试。会议还分享了AllData 2.0新版架构集成开源大数据组件的实际案例,通过DataVinesDinkyDataSophon大数据开源项目集成作为案例,分享大数据开源组件集成建设经验,包括无界Wujie开源框架-腾讯前端团队开发的开源框架以及后端可插拔服务“唯一框架”。
最后分享了一个关于数据中台的项目AllData,讲述了一个在2019年完成并已运行5年以上的项目。





数据中台转型与挑战


主要讲述了行业背景下的增长趋势放缓,以及数据中台的问题。讲者提到,行业增长放缓,市场规模达到百亿级别。2023年市场规模为183亿。同时,数据中台面临效率低下、数据量问题、集群资源等问题。
讲者认为,基于现有技术和产品,未来需要解决转型问题,如DataOps加AI支撑。此外,讲者还提到了客户画像和需求场景,如传统央企、轻量级证券公司等。








速集成与商业化



在未来五年或十年内,如果其他外国软件或国内开源项目出现,我们可以提供一套框架快速集成到我们的平台上,以便快速进行数据迁移和任务重叠组件的选型。我们希望这些框架能用于调研未来的框架,以满足不同产品的需求。
此外,我们团队致力于将数据中台做得更好,目前有80%的资源投入到开发上,还有销售经理、法务、财务等职位在做其他事情。我们的团队是一群人,致力于把这件事做好。






AllData项目难度与挑战 


主要讲述了Github数一数二的数据中台开源项目、同行产品调研,以及如何在这个领域进行交流。

会议提到,国内的大数据开发和产品团队在开源环境中的时间相对较慢,因为国内的大数据架构师或专家通常都在兼职,没有专门从事社区项目。

此外,会议还提到了一个公司组织,这个组织是为了满足项目需求而建立的,同时也需要维护下去。最后,会议提到了一些常用的开源组件,如Hybrid Olap、实时开发等。



数据中台设与微服务架构

介绍了一个集成了数百个数据源的现代数据栈(Modern Data Stack)框架,也就是AllData 2.0架构框架,该框架旨在为用户提供一条龙的产品,包括数据采集、存储、计算、报表展示、数据服务和MLOPS等技术平台,挖掘出数据内在的价值。

技术架构设计方面,使用了一个最新的图,分别描述数据中台和数据平台两部分。此外,还介绍了框架中的一些功能,如消息能力、微服务、加载引擎等。

最后,提到了未来的一个架构,包括无界Wujie微前端框架、数据中台系统、数据服务等。





团队未来工作规划


主要讲述了团队在开发过程中的一些工作内容和未来计划。

首先,团队会先关注开源社区和商业化公司,并在各大B站、视频号和公众号上分享相关内容。其次,团队会持续进行架构优化和测试,以提高基础平台和大数据平台的稳定性。此外,团队还会分享一些典型案例,如可插拔架构案例,介绍如何提高效率和效率。最后,会议还提到了数据质量和数据管理的重要性,以及未来可能的发展方向。







集成开源组件案例







企业内部技术应用与新架构介绍

主要介绍了企业级生产流程中的生产系统,包括新版商业版2.0架构,保留很多原有功能,全新优化和升级产品功能效果、UI等。同时,提到了开源图、源码等内容,以及数据平台的功能。
此外,还介绍了项目系统和新的架构图,并分享了工作流和系统使用体验。最后,提到了与多个开源社区的开源生态合作,希望未来能一起创造生态,提升项目功能。总的来说,会议对开源项目AllData架构设计进行了全面的探讨,包括项目的技术架构、团队资源、调研选型、案例分析以及AllData平台的技术架构分享。

会议强调了项目的可插拔性和可定义性,以及团队在在开源社区的合作和经验。通过这次讨论,与会者对大数据中台的未来发展方向和潜在挑战有了更深入的了解
















Dinky定位与功能




主要讲述了集成性系统和工具箱的概念,以及如何通过开源软件和社区项目来满足用户需求。会议还提到了一个开源数据实时开发中台框架,该框架在数据质量方面有很多功能,包括数据目录、元数据等。此外,会议还邀请了一个社区的PMC高岩老师分享Dinky平台的平台使用架构和技术架构。

高岩老师对Dinky平台的技术架构进行了分享,包括1.0版本的定位、功能更新以及与0.7.x版本的差异。他提到了平台的新功能,如自动提示补全、在线调试、权限管理、资源管理和监控告警等。














Dinky的发展历程与功能介绍





主要介绍了Dinky的定位功能、发展历程、功能模块以及开发平台。Dinky是一个开箱式的一站式实时计算平台,以Apple Flink为基础,为Flink提供了一套开发平台。2021年,Flink发展,但当时没有适合Flink开发界面的工具,因此Dinky以学习项目形式在个人仓库开源。

2022年,Dinky更名为Dinky,并开始做轻量化平台。此外,还介绍了Dinky的数据开发功能,包括自动提示补全、参数自动补全、在线调试等。最后,介绍了Dinky的资源管理、监控报警等功能。










Flink SQL生成功能与运维管理优化


主要介绍了Flink SQL生成功能,包括Flink web UI、任务重启功能、监控功能、catalog管理、实时打印表数据、CDC同步、语法扩展、数据监控功能等
这些功能的实现可以提高工作效率,降低工作量。例如,通过Flink web UI可以直接查看数据,任务重启功能可以自动创建保存点,监控功能可以实时查看任务情况,catalog管理可以通过执行DLL来减少手写界面语句。此外,还介绍了语法扩展、实时打印表数据、CDC同步、数据监控功能等。




作业提交流程与平台拓展方式








主要介绍了任务提交的过程。

用户通过API提交任务,根据任务类型到达不同的算类,最后构建一个job。在构建完成后,会进行语法解析,检测circle是否正确。如果任务执行成功,会创建deployment,将作业放到线程池中,不断获取任务状态。在任务完成后,会删除集群,并请求Dinky进行任务状态更新。这样就可以保证在任务执行过程中,能够准确获取任务的完成状态。





Dinky1.0告警流程与权限管理优化





主要讨论了Dinky1.0告警流程、权限管理、多版本支持、调度功能以及资源包使用等问题。Dinky1.0引入个性化定制告警规则,使任务触发检测流程更加方便。权限管理将细分到租户级别,以便更细化地进行权限划分,多版本支持。调度功能将融入Dinky自身调度,实现批任务调度。资源包使用方面,可以通过注册中心上传Jar包,并在搜索中使用RS资源。
此外,还讨论了日志处理问题,包括任务销毁前会等待信息获取,然后让集群销毁。







Dinky1.1规划







大数据商业驱动引擎
奥零数据科技公司拥有核心产品AllData可定义数据中台,提供多样开源大数据组件模板,快速搭建极致性价比的数据中台。开源项目:https://github.com/alldatacenter/alldata