基于DolphinScheduler的调度流程梳理及落地实践

科技科技 2023-08-23 18:20 上海

目录

01 背景

02 主流调度引擎

03 DolphinScheduler核心概念及调度过程

04 开发实践

01‍

背景‍‍

随着数据中台概念及相关技术逐渐成熟、落地，不断有企业将其应用到自身业务中，将原本分散的各系统数据进行整合、分析，挖掘数据价值，为业务发展提供了更多可能。但伴随数据量不断累积，业务中操作大数据的场景越来越多，那么如何高效安全的处理大数据业务？

大数据业务一般包含对数据的Extract(提取)、Transform(转换)、Load(加载) 等步骤,（简称ETL），具体执行时，可分解为多个任务（Shell、Spark、Flink、Hive等）分别执行的，各个任务之间存在依赖关系，同一个任务可能被多条业务引用。最基本的处理方式是为每个任务充足执行时间，按照预留时间，定时执行下一条任务。但在企业应用场景中，每天定时执行的操作数据量大，这种处理方法存在因前置任务执行超时，导致整个业务执行失败的风险，严重时会给企业造成难以弥补的损失。因此，对企业而言，拥有一个安全高效的调度引擎系统至关重要。

02‍

主流调度引擎‍

目前主流调度引擎有Apache Oozie、Apache Airflow、Apache DophinScheduler，对比下三者的优缺点：

Apache Oozie只用于管理Hadoop中Hive、Sqoop、Spark、Shell、MR等任务的调度引擎，支持任务类型自定义，任务执行时支持暂停、停止、恢复等操作，支持RestfApi、JavaApi调用；配置调度任务复杂繁琐，不支持可视化任务流程定义，调度任务时可能会出现死锁。

Apache Airflow 使用Python语言编写，支持Python、Bash、HTTP、Mysql等任务及任务类型自定义，不支持可视化DAG任务作业流创建，不支持任务暂停、恢复、补数等操作，Scheduler单线程解析、调度任务,任务过载会卡死服务器，支持高可用但受限于Scheduler易发生单点故障。

Apache DolphinScheduler 旨在解决数据处理过程中复杂的依赖问题，支持Shell、MR、Spark、Hive、Flink等10余种任务类型，支持任务类型自定义，可实现在Web端可视化开发设计任务流程，支持跨语言、多租户、高可用，任务执行时支持暂停、停止、恢复、补数等操作，可查看任务执行信息，支持任务执行日志查看下载，Master、Worker服务支持动态上下线。

显而易见，Apache DolphinScheduler是一款优秀的调度引擎工具。普元数据治理运营平台（DWS）目前便接入了Apache DolphinScheduler 调度系统，远期会集成其他优秀的调度引擎系统。

03‍‍

DolphinScheduler

核心概念及调度过程

为更好的了解DolphinScheduler ,先介绍其核心概念：

Task（任务）：调度执行的最小单元，包含Shell、Spark、Flink、Sql、MR等多种类型。可设置任务执行优先级、任务执行参数、超时告警、超时失败；

Process（作业流）：由任务以有向无环图形式构成，执行时解析作业流为多个任务，可设置作业流优先级，作业执行全局参数、超时告警；

Command（待调度指令）：作业流经手动调度或定时调度生成的数据，存储在数据库中；

Instance（实例）：作业流、任务执行后，会生成相应的实例，记录执行时作业流、任务的状态及执行内容，任务实例可查看下载日志；

Master（调度服务）：提供对作业流手动调度、定时调度、超时告警、任务容错、任务执行监控等功能；

Worker（运行服务）：解析作业流，识别任务类型，调用对应任务类型的逻辑，生成作业流、任务实例；

Alert（告警服务）：可通过Email、FTP、微信等多种方式，通知作业流、任务执行结果。

DolphinScheduler 通过DAG（有向无环图）创建任务、作业流，存在Master、Worker、Web、Alert等模块。先通过Web界面创建任务、以DAG形式组成作业流，落地到数据库，而后Web调度该作业流，生成Command数据。Master监听到数据库的Command表有新数据，解析后交由Worker选择对应的任务类型执行，执行完成后，由Alert通知任务执行结果。

下面具体展示下调度任务的创建、被调度执行的过程：

1. 根据具体业务需求，创建ETL Task，组合Task生成Process落库；

2. 手动调度或定时调度生成Command；

3. Master监听读取Command记录，动态分配至Worker；

4. Worker执行完成后，生成Task Instance、Process Instance落库；

5. 告警模块监听Instance，通过Email、FTP等发送任务执行结果。

04‍‍

数据开发实践‍‍‍‍‍‍‍‍‍

普元数据治理运营平台（DWS）将ETL作业流构建与调度引擎剥离，采用多引擎模式，区分开发、测试、生产环境。为实现此目标，对DolphinScheduler 调度平台做如下改造：

1. 定制开发了PDI-JOB、PDI-TRANS任务类型,用以支持从开源ETL工具Kettle迁移的JOB、Trans模型运行；

2. 将DolphinScheduler 表ID关联改造为CODE关联，保证切换调度引擎时，历史数据顺利迁移；

3. 适配Kingbase、DM、GBase等多款国产数据库，为信创事业增砖添瓦。

以上内容是本人在数据治理运营平台建设过程中对调度引擎的一些浅见，欢迎留言交流讨论。

关于作者：曾亮，普元高级工程师，负责普元数据治理运营平台作业调度模块研发，元数据管理平台开发维护等。

EAWorld

加速企业数字化转型

最新文章

【上海沙龙】汇聚信通院、航天科技集团等专家共研数据治理体系

演讲实录｜李书超：搭建数据产品体系，推动数据高效流通

一文读懂全要素数据资产梳理的路径和方法

数据空间赋能：构建未来数据资源的创新框架（附PPT+视频）

普元开源OBS仓颉版客户端，相较于Java实现桶创建接口平均响应时长缩小46.8%

直播预告 |【仓颉社区】第23期Workshop

技术革新与职业发展：Java开发者的AI赋能与架构新篇章

仓颉原生S3客户端探索｜相较Java性能提升38%

以全要素数据资产连接为核心的数据治理与运营

【案例+PPT】普元信息臧一超：海量数据下“流批一体”的数据平台演进路线

体验AI驱动的软件开发 | 普元低代码社区版安装流程

普元信息顾伟：用更简单的方式来建设数据中台

金融科技降本增效的利器：数字化科技运营体系

金融级低代码的三种应用场景和六个特色能力建设

雷军：小米汽车50万以内有对手吗？；北京程序员年收入中位数超60万元；为裁员，从CBD搬进秦岭山区办公？回应来了 | EA周报

雷军回应致敬车企引争议；马斯克回应特斯拉机器人“攻击”工程师；谷歌被曝3万员工将面临被AI取代 | EA周报

揭秘AIGC如何助力金融行业软件开发：从需求分析到系统运营

年底iPhone 15价格再度跳水超千元；雷军：我特别担心大家不买小米汽车；消息称字节跳动2023年销售额超腾讯 | EA周报

东方甄选CEO道歉；董明珠再提孟羽童：只想用格力平台去当网红；刘强东内网回应员工提问：不会躺平 | EA周报

深度：数据驱动与治理模式变革

谷歌Gemini刚发就惹质疑：效果视频疑似剪辑；苹果故意降低iPhone性能，被判赔偿7万韩元；小米手机内核已开源 | EA周报

低代码开发与精细化IT管控体系变革

雷军回应小米没有核心技术、被称组装厂；马云内网回应拼多多市值一度超阿里：谁都牛过；月薪两万，大厂疯抢AI数据标注员 | EA周报

普元低代码平台年度上新：驱动企业核心系统智能生产

抖音回应测试付费短视频；李开复：我们取之开源也贡献开源；多个APP未收到苹果叫停摇一摇通知 | EA周报

【含福利】详解数据治理和低代码开发驱动的制造企业核心系统三大变革

余承东公开回应与何小鹏AEB之战：就是个小Case；停止向45岁以上骑手派单？美团辟谣；又一家知名外企宣布退出中国 | EA周报

零代码+分布式微服务架构打造新一代一站式服务集成平台

雷军亲自回应小米14发烫问题；阿姨在云栖大会现场招女婿，要求大模型从业人员；ChatGPT真实参数只有200亿 | EA周报

福特向工会妥协给员工涨薪：每小时293人民币；富士康被查；国家数据局正式揭牌 | EA周报

苹果承认存在烧屏问题，但拒绝召回；英伟达显卡全网断货，最高涨至 5 万元；AI 耗电相当于一个国家年用电量 | EA周报

华为5.5G手机或明年上半年商用； “iPhone被曝夜间自动关机”冲上热搜；OpenAI CEO称套壳者必死 | EA周报

华为回应卫星电话造假；任正非：苹果是华为的老师；波兰一公司聘请人工智能 CEO：24 小时待命，全年无休 | EA周报

网易回应员工因抑郁症轻生，暂未发现“HR威胁”相关动机；ChatGPT可在七分钟内开发出软件，平均成本不到1美元 | EA周报

iPhone信号差或在2025年解决；李彦宏：卷大模型没意义，卷应用机会更大；茅台工作人员：擅自添加茅台售卖是侵权 | EA周报

科大讯飞刘庆峰：华为GPU能力可对标英伟达A100；科技五巨头入门工程师平均年薪报告；戴尔PC中国出货量暴跌52% | EA周报

金融客户敏感信息的“精细化管控”新范式

基于DolphinScheduler的调度流程梳理及落地实践

印度用本土操作系统“玛雅”取代Windows；微软高管称程序员等岗位十年内被 AI 淘汰；中国成iPhone最大市场 |EA周报

58集团被曝大量售卖简历，一年牟利超200万；杭州新东方遭网红举报全面停课；社恐有救了?社恐药股价一夜暴涨近677% |EA周报

“邪恶版 ChatGPT ”降临，为黑客而生；韩国超导低温学会：LK-99不是常温超导体；苹果被评为美国最糟糕雇主 | EA周报

苹果回应遭开发者集体诉讼：没有垄断行为；俞敏洪称鼓励儿子实习每天工作18个小时吃苦；任正非：华为需要盯着做事的干部 | EA周报

首期PTech Day普元技术开放日，尽在728！

唯品会1.2亿租楼，300元每月租给员工；比亚迪否认通报批评员工到点下班；谷歌软件工程师基本年薪达71.8万美元 | EA周报

微信称不会推出「已读」功能；闲鱼被曝暗藏色情陪聊服务；ChatGPT上线最强应用「代码解释器」 | EA周报

Stability AI CEO：5 年内，人类程序员将不复存在；马斯克回应限流推特：我这是在为世界做一件好事 | EA周报

来自商业银行公司部老总在行长会上的发言

ChatGPT涉嫌信息盗窃，遭索赔30亿美元；清华大学否认80%毕业生出国；3名员工盗公司游戏代码半年赚了1.5亿 | EA周报

马斯克和扎克伯格线上约架，被母亲及时取消；诺基亚借专利「封杀」国产手机欧洲市场；长城汽车称理想汽车是“微博之王” | EA周报

继调查小米之后，印度要求中国手机品牌高管为印籍；丰田手把手教经销商诋毁纯电；5月打工人每周平均工作48.6小时 | EA周报

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉