说下 10 个高级的 SQL 查询技巧

科技 2024-08-14 11:51 浙江

来源：
towardsdatascience.com/ten-advanced-sql-concepts-you-should-know-for-data-science-interviews-4d7015ec74b0

随着数据量持续增长，对合格数据专业人员的需求也会增长。具体而言，对SQL流利的专业人士的需求日益增长，而不仅仅是在初级层面。

因此，Stratascratch的创始人Nathan Rosidi以及我觉得我认为10个最重要和相关的中级到高级SQL概念。

那个说，我们走了！

1.常见表表达式（CTEs）

如果您想要查询子查询，那就是CTEs施展身手的时候 - CTEs基本上创建了一个临时表。

使用常用表表达式（CTEs）是模块化和分解代码的好方法，与您将文章分解为几个段落的方式相同。

请在Where子句中使用子查询进行以下查询。

SELECT
    name,
    salary
FROM
    People
WHERE
        NAME IN ( SELECT DISTINCT NAME FROM population WHERE country = "Canada" AND city = "Toronto" )
  AND salary >= (
    SELECT
        AVG( salary )
    FROM
        salaries
    WHERE
        gender = "Female")

这似乎似乎难以理解，但如果在查询中有许多子查询，那么怎么样？这就是CTEs发挥作用的地方。

with toronto_ppl as (
    SELECT DISTINCT name
    FROM population
    WHERE country = "Canada"
      AND city = "Toronto"
)
   , avg_female_salary as (
        SELECT AVG(salary) as avgSalary
        FROM salaries
        WHERE gender = "Female"
    )
SELECT name
     , salary
FROM People
WHERE name in (SELECT DISTINCT FROM toronto_ppl)
  AND salary >= (SELECT avgSalary FROM avg_female_salary)

现在很清楚，Where子句是在多伦多的名称中过滤。如果您注意到，CTE很有用，因为您可以将代码分解为较小的块，但它们也很有用，因为它允许您为每个CTE分配变量名称（即toronto_ppl和avg_female_salary）

同样，CTEs允许您完成更高级的技术，如创建递归表。

2.递归CTEs.

递归CTE是引用自己的CTE，就像Python中的递归函数一样。递归CTE尤其有用，它涉及查询组织结构图，文件系统，网页之间的链接图等的分层数据，尤其有用。

递归CTE有3个部分：

锚构件：返回CTE的基本结果的初始查询
递归成员：引用CTE的递归查询。这是所有与锚构件的联盟
停止递归构件的终止条件

以下是获取每个员工ID的管理器ID的递归CTE的示例：

with org_structure as (
    SELECT id
         , manager_id
    FROM staff_members
    WHERE manager_id IS NULL
    UNION ALL
    SELECT sm.id
         , sm.manager_id
    FROM staff_members sm
             INNER JOIN org_structure os
                        ON os.id = sm.manager_id

3.临时函数

如果您想了解有关临时函数的更多信息，请检查此项，但知道如何编写临时功能是重要的原因：

它允许您将代码的块分解为较小的代码块
它适用于写入清洁代码
它可以防止重复，并允许您重用类似于使用Python中的函数的代码。

考虑以下示例：

SELECT name
     , CASE WHEN tenure < 1 THEN "analyst"
            WHEN tenure BETWEEN 1 and 3 THEN "associate"
            WHEN tenure BETWEEN 3 and 5 THEN "senior"
            WHEN tenure > 5 THEN "vp"
            ELSE "n/a"
        END AS seniority
FROM employees

相反，您可以利用临时函数来捕获案例子句。

CREATE TEMPORARY FUNCTION get_seniority(tenure INT64) AS (
   CASE WHEN tenure < 1 THEN "analyst"
        WHEN tenure BETWEEN 1 and 3 THEN "associate"
        WHEN tenure BETWEEN 3 and 5 THEN "senior"
        WHEN tenure > 5 THEN "vp"
        ELSE "n/a"
   END
);
SELECT name
     , get_seniority(tenure) as seniority
FROM employees

通过临时函数，查询本身更简单，更可读，您可以重复使用资历函数！

4.使用CASE WHEN枢转数据

您很可能会看到许多要求在陈述时使用CASE WHEN的问题，这只是因为它是一种多功能的概念。如果要根据其他变量分配某个值或类，则允许您编写复杂的条件语句。

较少众所周知，它还允许您枢转数据。例如，如果您有一个月列，并且您希望为每个月创建一个单个列，则可以使用语句追溯数据的情况。

示例问题：编写SQL查询以重新格式化表，以便每个月有一个收入列。

Initial table:
+------+---------+-------+
| id   | revenue | month |
+------+---------+-------+
| 1    | 8000    | Jan   |
| 2    | 9000    | Jan   |
| 3    | 10000   | Feb   |
| 1    | 7000    | Feb   |
| 1    | 6000    | Mar   |
+------+---------+-------+

Result table:
+------+-------------+-------------+-------------+-----+-----------+
| id   | Jan_Revenue | Feb_Revenue | Mar_Revenue | ... | Dec_Revenue |
+------+-------------+-------------+-------------+-----+-----------+
| 1    | 8000        | 7000        | 6000        | ... | null        |
| 2    | 9000        | null        | null        | ... | null        |
| 3    | null        | 10000       | null        | ... | null        |
+------+-------------+-------------+-------------+-----+-----------+

5.EXCEPT vs NOT IN

除了几乎不相同的操作。它们都用来比较两个查询/表之间的行。所说，这两个人之间存在微妙的细微差别。

首先，除了过滤删除重复并返回不同的行与不在中的不同行。

同样，除了在查询/表中相同数量的列，其中不再与每个查询/表比较单个列。

6.自联结

一个SQL表自行连接自己。你可能会认为没有用，但你会感到惊讶的是这是多么常见。在许多现实生活中，数据存储在一个大型表中而不是许多较小的表中。在这种情况下，可能需要自我连接来解决独特的问题。

让我们来看看一个例子。

示例问题：给定下面的员工表，写出一个SQL查询，了解员工的工资，这些员工比其管理人员工资更多。对于上表来说，Joe是唯一一个比他的经理工资更多的员工。

+----+-------+--------+-----------+
| Id | Name  | Salary | ManagerId |
+----+-------+--------+-----------+
| 1  | Joe   | 70000  | 3         |
| 2  | Henry | 80000  | 4         |
| 3  | Sam   | 60000  | NULL      |
| 4  | Max   | 90000  | NULL      |
+----+-------+--------+-----------+Answer:
SELECT
    a.Name as Employee
FROM
    Employee as a
        JOIN Employee as b on a.ManagerID = b.Id
WHERE a.Salary > b.Salary

7.Rank vs Dense Rank vs Row Number

它是一个非常常见的应用，对行和价值进行排名。以下是公司经常使用排名的一些例子：

按购物，利润等数量排名最高值的客户
排名销售数量的顶级产品
以最大的销售排名顶级国家
排名在观看的分钟数，不同观众的数量等观看的顶级视频。

在SQL中，您可以使用几种方式将“等级”分配给行，我们将使用示例进行探索。考虑以下Query和结果：

SELECT Name
     , GPA
     , ROW_NUMBER() OVER (ORDER BY GPA desc)
 , RANK() OVER (ORDER BY GPA desc)
 , DENSE_RANK() OVER (ORDER BY GPA desc)
FROM student_grades

图片

ROW_NUMBER（）返回每行开始的唯一编号。当存在关系时（例如，BOB vs Carrie），ROW_NUMBER（）如果未定义第二条标准，则任意分配数字。

Rank（）返回从1开始的每行的唯一编号，除了有关系时，等级（）将分配相同的数字。同样，差距将遵循重复的等级。

dense_rank（）类似于等级（），除了重复等级后没有间隙。请注意，使用dense_rank（），Daniel排名第3，而不是第4位（）。

8.计算Delta值

另一个常见应用程序是将不同时期的值进行比较。例如，本月和上个月的销售之间的三角洲是什么？或者本月和本月去年这个月是什么？

在将不同时段的值进行比较以计算Deltas时，这是Lead（）和LAG（）发挥作用时。

这是一些例子：

# Comparing each month's sales to last month
SELECT month
       , sales
       , sales - LAG(sales, 1) OVER (ORDER BY month)
FROM monthly_sales
# Comparing each month's sales to the same month last year
SELECT month
        , sales
        , sales - LAG(sales, 12) OVER (ORDER BY month)
FROM monthly_sales

9.计算运行总数

如果你知道关于row_number（）和lag（）/ lead（），这可能对您来说可能不会惊喜。但如果你没有，这可能是最有用的窗口功能之一，特别是当您想要可视化增长！

使用具有SUM（）的窗口函数，我们可以计算运行总数。请参阅下面的示例：

SELECT Month
        , Revenue
        , SUM(Revenue) OVER (ORDER BY Month) AS Cumulative
FROM monthly_revenue

10.日期时间操纵

您应该肯定会期望某种涉及日期时间数据的SQL问题。例如，您可能需要将数据分组组或将可变格式从DD-MM-Yyyy转换为简单的月份。YYYY-MM-DD 的黑锅，你要清楚。

您应该知道的一些功能是：

提炼
日元
date_add，date_sub.
date_trunc.

示例问题：给定天气表，写一个SQL查询，以查找与其上一个（昨天）日期相比的温度较高的所有日期的ID。

+---------+------------------+------------------+
| Id(INT) | RecordDate(DATE) | Temperature(INT) |
+---------+------------------+------------------+
|       1 |       2015-01-01 |               10 |
|       2 |       2015-01-02 |               25 |
|       3 |       2015-01-03 |               20 |
|       4 |       2015-01-04 |               30 |
+---------+------------------+------------------+Answer:
SELECT
    a.Id
FROM
    Weather a,
    Weather b
WHERE
    a.Temperature > b.Temperature
  AND DATEDIFF(a.RecordDate, b.RecordDate) = 1

推荐阅读点击标题可跳转

1、“列数已达上限”：史上最烂代码库的“绝命”一击

2、区区 1 万张表就把 MySQL 给整崩溃了

3、图解 SQL 的执行顺序，优雅

http://mp.weixin.qq.com/s?__biz=MzA5ODM5MDU3MA==&mid=2650890457&idx=1&sn=659bda33f6466cb29d7689355de98da4

数据分析与开发

「数据分析与开发」分享数据分析与开发相关技术文章、教程、工具

最新文章

裁员了，很严重，大家做好准备吧！

为什么数据库连接很消耗资源？被问根本答不出来……

离谱！裁员裁出新高度了。。

低级失误导致 Elasticsearch 仓库 404，7万多 star 一夜清空，网友：只是手滑了？！

字节回应大模型训练被实习生攻击

取代数据岗，某司从业人员已集体转行....

千万级数据的全表 update 正确姿势

京东：MySQL 中的 distinct 和 group by 哪个效率更高？太刁钻！

发现一款JSON可视化工具神器，惊艳了！

突发！上交所系统被买崩了？股票交易量火爆挤瘫系统，IT 部门天塌了！

开源 9 年后，词频数据库 wordfreq 宣布停止更新，创始人：网上全是垃圾，OpenAI 和谷歌要为此付出代价

离谱，一边在裁员，一边在高薪招人！

又“刑”了！搞瘫公司三千多工作电脑，不给 500 万就删 IT 账户，网友：快乐的员工谁干这事儿啊

“神仙外企”、“IT养老院”前员工忆往昔：曾经是乌托邦、工资多得花不完只能买房

3个完美替代 Navicat 的工具，香！

3 年后，Elasticsearch 再次开源

IBM中国研发部彻底关闭！3分钟会议千人被裁，赔偿N+3

不要再在 pandas 循环中使用 loc/iloc 了！

拒绝背锅！39 岁失业后，我写出了一个超一万亿使用量的数据库

全体数据从业者请做好随时失业的准备！

说下 10 个高级的 SQL 查询技巧

多人同时导出 Excel 干崩服务器！新来的阿里大佬给出的解决方案太优雅了！

“列数已达上限”：史上最烂代码库的“绝命”一击

40+指标银行BI指标体系！万字详述银行实现全面自助分析

区区 1 万张表就把 MySQL 给整崩溃了

取代数据岗，某司数据从业人员已集体转行....

图解 SQL 的执行顺序，优雅

MySQL 9.0“创新版”已支持向量，为何甲骨文却“偷偷摸摸”地宣布？

OpenAI 突然收购实时分析数据公司，传统数据库厂商：快来，OpenAI 又带我们玩了

被全球最大用户弃用！曾经的数据库霸主 HBase 正在消亡

“鸭子数据库”DuckDB正式发布1.0稳定版：C++引擎代码超30万行、百万级月下载量

Pandas 常用操作图解

Tabby，一个 5 万星标的终端工具

使用sklearn高效进行数据挖掘！

离谱！一边裁员，一边高薪招人！

五分钟看懂 MySQL 编解码原理

如何使用 sklearn 优雅地进行数据挖掘？

多人同时导出 Excel 干崩服务器！新来的阿里大佬给出的解决方案太优雅了！

数据库表设计的18条军规

面试官：MySQL 上亿大表，如何深度优化？

换掉ES！Redis官方搜索引擎来了，效率大幅提升

我试了试用 SQL查 Linux日志，好用到飞起

13 秒插入 30 万条数据，批量插入正确的姿势！

AI编程语言Mojo正式开源标准库，宣称比Python快9万倍

深信服：开除 42 人、1 人被刑事立案

Redis只能做缓存？太out了！

公司新来一个技术总监：谁再在 SQL 中写 in 和 not in，直接走人！

被问懵了，加密后的数据如何进行模糊查询？

开源 Redis 的生命将就此终结？Redis 之父回应分叉浪潮：未来谁能领先，各凭本事！

微软开抢年收入上亿美元的 Redis 饭碗？开源性能遥遥领先的 Garnet：无需修改，Redis 客户端可直接接入

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉