数仓面试中3个常考的SQL数据分析题

科技 2024-11-25 08:13 北京

在数据类岗位招聘过程中，经常会考察求职者的SQL能力，这里整理了3个常考的SQL数据分析题，按照由简单到复杂排序，一起来测试一下你掌握了么？

PS：以下SQL代码在MySQL8.0及其以上版本运行。

题目1：找出每个部门工资第二高的员工

现有一张公司员工信息表employee，表中包含如下4个字段。

employee_id（员工ID）：VARCHAR。
employee_name（员工姓名）：VARCHAR。
employee_salary（员工薪资）：INT。
department（员工所属部门ID）：VARCHAR。

employee表的数据如下表所示。

还有一张部门信息表department，表中包含如下两个字段。

department_id（部门ID）：VARCHAR。
department_name（部门名称）：VARCHAR。

department表的数据如下表所示。

数据导入的代码如下：

DROP TABLE IF EXISTS employee;CREATE TABLE employee(employee_id VARCHAR(8),employee_name VARCHAR(8),employee_salary INT(8),department VARCHAR(8))ENGINE = InnoDBDEFAULT CHARSET = utf8;INSERT INTOemployee (employee_id,employee_name,employee_salary,department) VALUE ('a001','Bob',7000,'b1')     ,('a002','Jack',9000,'b1')     ,('a003','Alice',8000,'b2')     ,('a004','Ben',5000,'b2')     ,('a005','Candy',4000,'b2')     ,('a006','Allen',5000,'b2')     ,('a007','Linda',10000,'b3');

DROP TABLE IF EXISTS department;CREATE TABLE department(department_id VARCHAR(8),department_name VARCHAR(8))ENGINE = InnoDBDEFAULT CHARSET = utf8;INSERT INTOdepartment (department_id,department_name) VALUE ('b1','Sales')     ,('b2','IT')     ,('b3','Product');

问题：查询每个部门薪资第二高的员工信息。

输出内容包括：

employee_id（员工ID）
employee_name（员工姓名）
employee_salary（员工薪资）
department_id（员工所属部门名称）

结果样例如下图所示。

可供参考的解题思路：使用窗口函数根据部门ID分组，在组内按照员工薪资降序排列并记为ranking，然后将该处理后的表和部门信息表进行内连接，从而把部门名称关联进来，最后在连接后的表上使用ranking=2作为薪资第二高的条件进行WHERE筛选，选择需要的列，即可得到结果。

涉及知识点：窗口函数、子查询、多表连接。

本题的SQL代码如下，供读者参考：

SELECT  a.employee_id       ,a.employee_name       ,a.employee_salary       ,b.department_idFROM (    SELECT  *           ,RANK() OVER (PARTITION BY department ORDER BY employee_salary DESC) AS ranking    FROM employee ) AS aINNER JOIN department AS bON a.department = b.department_idWHERE a.ranking = 2;

题目2：网站登录时间间隔统计

现有一张网站登录情况表login_info，该表记录了所有用户的网站登录信息，包含如下两个字段。

user_id（用户ID）：VARCHAR。
login_time（用户登录日期）：DATE。

login_info表的数据如下表所示。

数据导入的代码如下：

DROP TABLE IF EXISTS login_info;CREATE TABLE login_info(user_id VARCHAR(8),login_time DATE)ENGINE = InnoDBDEFAULT CHARSET = utf8;INSERT INTOlogin_info (user_id,login_time) VALUE ('a001','2021-01-01'),('b001','2021-01-01'),('a001','2021-01-03'),('a001','2021-01-06'),('a001','2021-01-07'),('b001','2021-01-07'),('a001','2021-01-08'),('a001','2021-01-09'),('b001','2021-01-09'),('b001','2021-01-10'),('b001','2021-01-15'),('a001','2021-01-16'),('a001','2021-01-18'),('a001','2021-01-19'),('b001','2021-01-20'),('a001','2021-01-23');

问题：计算每个用户登录日期间隔小于5天的次数。

输出内容包括：

user_id（用户ID）
num（用户登录日期间隔小于5天的次数）

结果样例如下图所示。

可供参考的解题思路：本题考查LEAD()函数在处理时间间隔问题上的使用方法，观察内层的查询部分，使用LEAD()函数在原有的login_time字段的基础上创造一列新的时间字段（即该用户下一次登录日期），内层查询代码如下：

SELECT  user_id
       ,login_time
       ,LEAD(login_time,1) OVER (PARTITION BY user_id ORDER BY login_time) AS next_login_time
FROM login_info;

查询结果如下图所示。

在上图中可以发现，经过LEAD()函数处理后，数据会根据user_id字段分组后按照login_time字段排序。经过内层的处理后，只需在外层筛选出next_login_time与login_time字段的日期差小于5天的数据，即最终统计的目标数据，这里使用了TIMESTAMPDIFF(DAY, login_time, next_login_time)计算日期差，最后分组聚合统计不同user_id的记录个数，即每个用户登录日期间隔小于5天的次数。

涉及知识点：窗口函数、子查询、分组聚合、时间函数。

本题的SQL代码如下，供读者参考：

SELECT  a.user_id       ,COUNT(*) AS numFROM (    SELECT  user_id           ,login_time           ,LEAD(login_time,1) OVER (PARTITION BY user_id ORDER BY login_time) AS next_login_time    FROM login_info) AS aWHERE TIMESTAMPDIFF(DAY, login_time, next_login_time) < 5 GROUP BY user_id;

题目3：用户购买渠道分析

现有一张用户购买信息表purchase_channel，该表记录了用户在某购物平台的购物信息，该购物平台具有网页端（web）和手机端（app）两种访问方式，表中包含如下4个字段。

user_id（用户ID）：VARCHAR。
channel（用户购买渠道）：VARCHAR。
purchase_date（购买日期）：DATE。
purchase_amount（购买金额）：INT。

purchase_channel表的数据如下表所示。

数据导入代码如下：

DROP TABLE IF EXISTS purchase_channel;CREATE TABLE purchase_channel(user_id VARCHAR(8),channel VARCHAR(8),purchase_date DATE,purchase_amount INT(8))ENGINE = InnoDBDEFAULT CHARSET = utf8;INSERT INTOpurchase_channel (user_id,channel,purchase_date,purchase_amount) VALUE ('a001','app','2021-03-14',200)     ,('a001','web','2021-03-14',100)     ,('a002','app','2021-03-14',400)     ,('a001','web','2021-03-15',3000)     ,('a002','app','2021-03-15',900)     ,('a003','app','2021-03-15',1000);

问题：查询每天仅使用手机端的用户、仅使用网页端的用户和同时使用网页端和手机端（both）的不同用户人数和总购物金额，并且即使某天某渠道没有用户的购买信息，也需要展示。

输出内容包括：

purchase_date（日期）

channel（购买渠道）

sum_amount（总购买金额）

total_users（不同用户人数）

结果样例如下图所示。

可供参考的解题思路：根据用户ID和日期进行分组，通过统计用户在各购买渠道购物的记录个数来判断某用户在某日期购物时采用的访问方式（web、app和both）。其中，web和app可以通过一个SELECT语句查询，both则可以通过另一个SELECT语句查询。将两部分使用UNION连接在一起，并将以上部分作为子查询内部，在子查询外部统计不同购买日期、购买渠道的总购买金额和总购买用户。

本部分SQL代码如下：

SELECT  purchase_date        ,channel        ,SUM(sum_amount) sum_amount        ,SUM(total_users) total_usersFROM (    SELECT  purchase_date            ,MIN(channel) channel            ,SUM(purchase_amount) sum_amount            ,COUNT(DISTINCT user_id) total_users    FROM purchase_channel    GROUP BY  purchase_date             ,user_id    HAVING COUNT(DISTINCT channel) = 1 UNION    SELECT  purchase_date            ,'both' channel            ,SUM(purchase_amount) sum_amount            ,COUNT(DISTINCT user_id) total_users    FROM purchase_channel    GROUP BY  purchase_date             ,user_id    HAVING COUNT(DISTINCT channel) > 1 ) cGROUP BY  purchase_date         ,channel;

本部分输出结果如下图所示。

上述部分似乎已经完成了本题要求，但仔细观察就会发现，题目要求即使某天某渠道没有用户的购买信息，也需要展示。而想要展示更全的信息，则考虑使用最全的信息（所有日期和3个渠道的笛卡尔积）与刚查询出的结果数据表进行LEFT JOIN连接，即可得到两张表根据日期和渠道进行连接的结果。

涉及知识点：UNION、分组聚合、数据去重。

本题的SQL代码如下，供读者参考：

SELECT  t1.purchase_date       ,t1.channel       ,t2.sum_amount       ,t2.total_usersFROM (    SELECT  DISTINCT a.purchase_date            ,b.channel    FROM purchase_channel a,     (        SELECT  "app" AS channel         UNION        SELECT  "web" AS channel         UNION        SELECT  "both" AS channel     ) b) t1LEFT JOIN (SELECT purchase_date,channel,SUM(sum_amount) sum_amount,SUM(total_users) total_usersFROM (SELECT  purchase_date            ,MIN(channel) channel            ,SUM(purchase_amount) sum_amount            ,COUNT(DISTINCT user_id) total_users    FROM purchase_channel    GROUP BY  purchase_date,user_id    HAVING COUNT(DISTINCT channel) = 1     UNION    SELECT  purchase_date            ,'both' channel            ,SUM(purchase_amount) sum_amount            ,COUNT(DISTINCT user_id) total_users    FROM purchase_channel    GROUP BY  purchase_date,user_id    HAVING COUNT(DISTINCT channel) > 1)c GROUP BY purchase_date, channel) t2ON t1.purchase_date = t2.purchase_date AND t1.channel = t2.channel;

这些题目你做出了么？

--END--

非常欢迎大家加我个人微信，有关大数据的问题我们在群内一起讨论

长按上方扫码二维码，加我微信，拉你进群

五分钟学大数据

大数据领域原创技术号，专注于大数据研究，包括 Hadoop、Flink、Spark、Kafka、Hive、HBase 等，深入大数据技术原理，数据仓库，数据治理，前沿大数据技术

最新文章

大数据岗位回暖了？

基于Flink建设实时数仓

现在可能是找大数据工作的好机会！

几道Spark面试必问题-附答案解析

75k，确实可以封神了

深入剖析HDFS 3.0版本EC技术，节省一半存储但拥有三副本机制相同的容错能力

最容易出错的 HiveSQL 详解

大数据保姆级教程更新

数据仓库之数据质量建设（深度好文）

美团外卖实时数仓建设实践

数仓面试中3个常考的SQL数据分析题

超全大数据保姆级教程更新

为数据仓库设计一个完美的指标体系

大数据架构平台搭建指南及数据仓库演进

数据指标体系建设方法 (干货建议收藏)

Spark底层执行原理详细解析

超万字的BI数字化转型案例《2024企业敏捷经营实践合集》

阿里数据仓库架构与模型设计

优质大数据学习面试提高资料(超全)

数仓之路：数仓中的问题与解决方案

字节跳动大裁员的背后。。。

超全大数据技术宝典更新

超全面数仓建设规范指南（建议收藏）

SeaTunnel 与 DataX 、Sqoop、Flume、Flink CDC 对比

实时数仓分层架构超全解决方案

大数据星球重磅更新

如何避免数仓模型“烟囱式”建设

最强大数据群聊开放+最新大数据面试宝典

一文读懂Hive底层数据存储格式（好文收藏）

数据仓库架构落地版

应届生炒到66.8w年薪，真心建议冲冲这个新兴领域！

百万字大数据精华知识库：面试宝典、实战项目、专家答疑，全方位提升你的大数据技能栈！

数据开发流程规范及数据监控

40+指标银行BI指标体系！万字详述银行实现全面自助分析

取代后端岗，中国又一新兴岗位在崛起！这才是程序员未来5年最好的就业方向！

数据仓库：详解维度建模之事实表

探索超全大数据知识库：百万字秘籍助你掌握大数据核心技能

2024企业级BI平台白皮书（附下载）

进字节了！46k*15薪！

超全面的大数据知识库，包含大数据组件、数仓、大数据项目、最新面试题等

五万字 | Flink知识体系保姆级总结

PDF | 五万字Flink保姆级总结PDF文档获取

数仓中指标-标签，维度-度量，自然键-代理键等常见的概念术语解析

超1000000字的大数据知识库又双叒更新了

超全面的数据指标体系搭建（附赠15个行业数据指标体系）

大数据之数据治理体系全面指南

年薪没25W全额退！算法工程师培养计划出台

分享一个可写到简历的高价值有亮点的大数据项目

升维：用数据重塑企业经营的“不二法门”

详解大厂实时数仓建设

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉