首先申明,本试卷的考生不是数据工程师,数据分析师或数据科学家,而是数据团队的专业管理者,这类管理者包括且不限于数据团队的组长、主管、总监、经理等等。
数据团队管理者的使命不是去写代码,而是基于自己的专业能力和管理能力,为团队提供足够的技术指导和帮助,在关键时刻给出明智的决策,高效的完成公司安排的任务。
如果阿里的数据技术条线的管理者来做这张试卷,我认为合适的是P7/P8/P9的人。
所有的试题都来自于我工作中碰到的实际问题,这些题目没有标准答案(有标准答案的找chatgpt就可以了),你只要觉得自己可以很好的解决这些问题,直接打满分,如果只能解决部分,那就根据你能解决问题的程度打分。本试卷总分150分,60分合格,90分良好,120分优良,140分优秀。
不同的数据团队管理者可能在专业上各有侧重,因此有些题目答不好很正常。如果你的得分特别低,并不代表你实际干的不好,可能你的某个长板特别长,或者环境使然,或者你有得力的助手,帮你解决了本应要你解决的问题。
要承认,一个对技术一窍不通的管理者,也可以带领一只数据团队创造出优秀的业绩,只要天使+地利+人和都全了。
但你还是要设想一下,假如你哪天突然离开了公司的平台(当然这种可能性很小),空降到一个创业公司的数据团队,你这个leader是否还能经受住专业的考验?或者说,你是否真的在专业管理上经得起一位专业面试官的挑战?
一、数据架构题(35分)
1、(5分)你对当前主流的数据技术的优缺点有充分的理解,包括但不限于数据仓库、数据湖、湖仓一体、流体一体、存算分离、数据网格、数据编织等等,你知道当前公司的数据平台的运行情况和与业务的匹配程度,你知道什么时候需要升级,了解升级的代价和效益有多大。
考核点:考察数据管理者数据技术的掌控能力和规划能力。
2、(5分)你们准备启动一个数据中台迁移项目,下属跟你汇报迁移方案,你发现架构图上有四套ETL工具,跟你原有的印象不符,你马上指出架构图上的问题,下属解释画错了,的确只有3套,请问你对自己管理的数据平台系统架构,是否了然于胸,包括知道有多少数据库,每个数据库用来干什么,每个数据库的端到端数据流向怎么样,技术架构是否清楚,包括用的什么技术栈,为什么要采用这个技术栈等等。
考核点:考察数据管理者的系统架构、技术架构能力。
3、(5分)你们正在实施一个新的重要数据源的采集,下属跑过来说当前数据平台存储不够了,由于数据量太大,短期扩容也无法解决,你能够给出多少种扩容的思路?假如只能采取删除存量数据腾挪空间的方法,你是否能清晰的判断当前存储的各种数据源的重要程度,存储周期,然后给出调整建议?
考核点:考察数据管理者对数据全生命周期管理的能力。
4、(5分)你的下属跑过来,说发现1个月前某运维人员不小心删除了某张重要的数据表,然后说这张表无法恢复了(回收站到期也删除了),你是否有能力对这个表删除后的潜在业务影响有大致的判断,或者你们有成熟的方法和系统来快速评估业务影响程度?为了防止表被误删,你们采取了哪些有效的措施?
考核点:考察数据管理者对各类数据资产重要程度的判断能力。
5、(5分)领导安排你的团队紧急做一个数据分析,这个数据分析的核心是要找到合适的数据源,你的下属跟你汇报当前没有合适的数据源,无法做这个分析,你在多大程度上能给出具体的指导?
考核点:考察数据管理者对公司数据资产掌控程度。
6、(5分)公司规划部组织会议,要求讨论各部门的ETL工具是否要统一收敛的问题,你是否对各部门的ETL功能和运行情况有所了解,你能否结合业务、技术要素有理有据的说清楚在公司实施ETL集约化的优缺点,并且能给出演进路线?
考核点:考察数据管理者数据技术的规划能力。
7、(5分)假如贵公司需要对流数据进行实时多维分析,请评估当前贵公司的数据平台是否支持?如果不支持,你觉得当前有哪些好的技术解决方案?如果要引入新的技术栈,你觉得该如何跟现有生态进行很好的整合,比如工具链的适配改造?
考核点:考察数据管理者数据技术能力。
二、数据治理题(40分)
1、(5分)你的数据平台汇通了多少个部门的数据(每个部门的汇通比例超过的30%才算汇通),你跟多少个部门分管数据的领导有过深入沟通,你们是否保持了一定的信任关系?这些部门是否可以从你的数据平台无阻碍的获得数据?你是否在推动公司高层支持数据汇通工作做出过努力?
考核点:考察数据管理者的企业级数据治理能力,包括顶层审计,机制流程、组织保障、平台工具等,如果某个部门的数据对于应用的价值不大,可以不作为基数。
2、(5分)你们要进行各部门数据的统一汇聚,首先需要梳理清楚各部门的数据资产,你能否依托企业数据治理保障体系确保各部门能够充分参与进来,带头制定符合企业实际的数据资产梳理的方法,包括制定数据梳理的模版,明确模版填写的标准,建立数据资产填写的审核机制等等?在数据资产梳理期间,你能否能够带领团队及时解决各部门在梳理中的问题,通过定期联系会议制定等形式确保梳理按照既定的计划进行?
考核点:同上。
3、(5分)根据公司要求,你能够迅速组织起一只企业级数据治理团队,通过学习快速理解和掌握业界主流的数据治理理论和方法,并能充分利用既有的优势,发现公司在数据运营中存在的痛点问题,比如跨跨域数据汇通、数据共享和开放、数据安全防护、企业数据一致性等等,给出适合本企业的数据治理切入点,通过持续迭代的方式不断推进数据治理的深入。
考核点:同上。
4、(5分)由于上游系统割接,导致你们的数据仓库某重要数据缺失,严重影响下游重要应用,你是如何解决问题的?你能否与外部门进行充分沟通,了解外部门面临的实际困难?你能否协同外部门找到折中的解决方案,建立协同保障体系,从而确保类似的问题不再发生?
考核点:同上。
5、(5分)为了确保核心数据的及时性和准确性,你是否建立了核心数据的数据质量标准,并围绕核心数据建立了一套流程保障体系,核心数据的发布及时性达到多少?除了核心数据,其他重要数据、一般数据的数据质量标准是否已经制定?他们的保障体系完备度如何?
考核点:同上。
6、(5分)详细的解释你们的数据平台的数据安全管控策略?是否制定了公司级的数据安全管理办法和相关细则?是否有数据分类分级,怎么分的,请举例?数据访问控制策略如何?加密和脱敏用在什么场景?如何开展数据审计,有哪些核心数据审计策略?有没有数据安全的应急响应策略?有多少人能访问公司敏感数据,除了常规策略,针对这批人如何精细化管控数据访问?
考核点:同上。
7、(5分)你是否实施过主数据管理?你们的主数据管理组织保障体系如何,你们是哪个部门来牵头主数据管理项目,你觉得有什么缺点和优点?你们采用了什么主数据架构,集中式、分布式、混合式的优缺点如何?你们是否建立了主数据管理的流程,这个流程运行的如何,主要的挑战是什么?
考核点:同上。
8、(5分)你们是否建立了数据共享与开放的相关制度和流程?是否采用了分类分级的数据开放流程?是否有统一的数据开放平台?跨域数据开放的比例有多高?数据开放的速度如何,分钟、小时、天或者周?如果某些部门不愿意开放自己的数据,是否有升级的流程来解决?
考核点:同上。
三、数据运营题(30分)
1、(10分)你是否已经建立了以数据为核心的指标体系,每天你能看到如下几类指标,数据运维指标(及时性,准确性、投诉解决率等)、数据运营指标(数据资产量、新增数据资产量、数据订阅量,开放及时性等)、关键系统运营指标(数据管理平台访问量、标签库访问量等等)、数据应用指标(推荐次数、成功率等)、数据开发指标(新增取数量、取数及时率等)。
考核点:考察数据管理者的数据运营能力。
2、(5分)下属跑过来跟你讲,现在各部门的取数需求太多,而现有的人手不足,各个部门抱怨很大,针对这类问题,你是怎么解决的?你是否系统化研究过应对策略,已经采取了哪些措施,还有哪些措施没有用,为什么不用?
考核点:考察数据管理者综合管理能力,包括技术手段、制度手段、组织手段、流程手段、沟通手段等等,用到3种以上60分,如果由于客观原因实施失败,也得60分,关键是要作为,不作为不得分。
3、(5分)你正参加一个公司会议,有其他部门领导跟你讲今天某报表到现在还没出来,你马上打电话给运维负责人问怎么回事,运维负责人说正在处理故障,你说尽快先修复故障。在故障解决后,你是怎么做的?你是否召开了故障分析会?你是否关注当前的故障升级流程是否正常?如果发现故障升级流程没问题,你是否会考虑对该报表的重要级别做出调整,从而配套对应的运维保障流程,确保在此类重要报表发生故障时,你不是最后一个知道的人?
考核点:考察数据管理者的运维管理能力。
4、(5分)公司有上级领导来调研,你是否总是努力去争取数据团队成果的展示机会,比如数据地图的大屏,你是否总是能够通过可视化、PPT汇报的形式让上级理解你们在数据资产管理上做出的努力,从而争取到最大的资源支持?
考核点:考察数据管理者的成果展示能力。
5、(5分) 你是否对数据管理领域的相关概念有深刻的理解?你是否总是能用业务化的语言向上级诠释清楚这些概念的内涵和价值?你是否擅长用业务语言阐明数据管理工作的价值?在部门或公司的报告中,数据管理工作是否有一席之地?相对于OLTP,OLAP的篇幅是一半对一半,还是差的很远?
考核点:考察数据管理者的成果展示能力。
6、(5分)你是否建立了统一的数据资源管理平台、数据采集平台、数据开发平台、数据开放平台?相关的管理要求是否都已经集成到了相关平台中,确保没有“两张皮”现象,比如自动数据资源纳管、自动数据入湖、自动代码审计、自动上线发布、自动安全审核?是否有专门的产品团队来优化这些平台?这些平台的目标用户纳管率达到多少?
考核点:考察数据管理者数据平台的运营能力。
四、数据应用题(35分)
1、(10分)你是否非常重视参加行业和公司的各种会议,包括但不限于工作会议、战略会议、经分会议、规划会议、研讨会议等?你是否会深入研究行业和公司的各种报告,用以指导和发现自己团队数据工作的切入点?你是否会采取调研、需求分析等手段来支持新的数据驱动业务机会的捕捉?你平时会花多少时间在反思和谋划未来的数据工作上?
考核点:考察数据管理者的业务把控力。
2、(5分)公司市场竞争激烈,市场部领导找到你,希望构建一套竞争应对的模型体系,你是否能迅速组织起一只数据模型团队,参与到市场部的项目组中。你能否亲自进行建模方案的把关,建立起以周甚至更短时间为单位的模型迭代机制?你门的模型是否经常能对业务直接产生影响,比如在短时间内让客户流失率下降10个百分点?你们是否得到过业务部门在公司大会上的表扬?
考核点:考察数据管理者的业务支持能力。
3、(5分) 下属正在为业务部门构建一个营销模型,你参与了这个模型的评审,在这个过程中,你能否在数据源的选择、特征变量的删选、业务规则或者算法的优化上给出具体的建议?这些建议是基于你对数据资产更深的理解、业务更深刻的认识、算法的性价比的权衡基础上给出的。你是否能对模型的发布渠道,产品的策略,试点资源的保障方面提出建议?你们开发的模型能真正成功的比例是多少?
考核点:考察数据管理者的模型能力。
4、(5分) 大模型来了,你的参与度如何?你是否研究了大模型的特点和短板,以更全局和业务化的视角,找到可以切入的应用场景,比如数据字典,分级分类等,在你的带领下,你门的团队是否已经熟悉了大模型的技术栈,为后续的大模型应用建设奠定了坚实的基础?你觉得chatBI是否是个伪需求,为什么?
考核点:考察数据管理者的产品创新能力。
5、(5分) 公司给你们布置了一个数据分析任务,你能在多大程度上给予团队在数据分析上的指导?你是否足够理解公司的业务,对数据分析的业务目标有清晰的理解?你是否对业务指标有足够的敏感性,一眼就能发现不合理之处?你是否知道数据分析的基本方法论,包括指标的设计、维度的选择、比较的方法等等?你们团队提交的数据分析报告是否总是逻辑严谨、结论清晰,有没有受到过高层表扬?
考核点:考察数据管理者的数据分析能力。
6、(5分) 你知道当前国内外有哪些主流的BI工具?你对当前的BI工具怎么看?你们公司内部使用BI工具的多吗?如果很少,你觉得是为什么,相比国内,为什么国外的商业BI工具这么流行?自己定制化和买商业工具的优缺点是什么?你对BI的未来怎么看,增强分析和大模型在BI上有哪些相对靠谱的能力增强?
考核点:考察数据管理者的商业分析软件评估能力。
五、数据使命题(10分)
1、(10分) 你是真的热爱数据管理工作,把它当成一份事业,还是仅仅作为一份工作,一个谋生的手段?你有没有想过,在公司的平台上留下你的痕迹(代码、方法论等等)?没有多大现实个人利益的事情,你有多大的驱动力主动去做,比如培养年轻人、技术欠债、长效机制等?
考核点:考察数据管理者的价值观。
最后,本试卷只是一家之言,如果你考到了合适的分数,我认为你至少在当下这个领域拿到了饭票。如果你觉得有些扯谈,那就忽略吧,数据管理本身是一门实践的学问,只要能搞定数据驱动业务,以上的考题都是浮云。