Stata数据处理：rangejoin-范围数据合并

文摘 2024-10-05 22:00 山西

👇 连享会 · 推文导航 | www.lianxh.cn

🍎 Stata：Stata基础 | Stata绘图 | Stata程序 | Stata新命令
📘 论文：数据处理 | 结果输出 | 论文写作 | 数据分享
💹 计量：回归分析 | 交乘项-调节 | IV-GMM | 时间序列 | 面板数据 | 空间计量 | Probit-Logit | 分位数回归
⛳ 专题：SFA-DEA | 生存分析 | 爬虫 | 机器学习 | 文本分析
🔃 因果：DID | RDD | 因果推断 | 合成控制法 | PSM-Matching
🔨 工具：工具软件 | Markdown | Python-R-Stata
🎧 课程：最新专题 | 计量专题 | 关于连享会

🍓 课程推荐：2024 机器学习与因果推断专题
主讲老师：司继春 (上海对外经贸大学) ；张宏亮（浙江大学）
课程时间：2024 年 11 月 9-10 日；16-17日
课程咨询：王老师 18903405450（微信）

课程特色 · 2024机器学习与因果推断：

懂原理、会应用。本次课程邀请了两位老师合作讲授，目的在于最大限度地实现理论与应用的有机结合。为期四天的课程，分成两个部分：第一部分讲解常用的机器学习算法和适用条件，以及文本分析和大语言模型；第二部分通过精讲 4-6 篇发表于 Top 期刊的论文，帮助大家理解各类机器学习算法的应用场景，以及它们与传统因果推断方法的巧妙结合。
以 Top 期刊论文为范例。目前多数人的困惑是不清楚如何将传统因果推断方法与机器学习结合起来。事实上，即便是 MIT 和 Harvard 的大牛们也都在「摸着石头过河」。为此，通过论文精讲和复现来学习这部分内容或许是目前最有效的方式了。张宏亮老师此前在浙江大学按照这一模式教授了「因果推断和机器学习」课程，效果甚佳：学生们能够逐渐建立起研究设计的理念，并在构造识别策略时适当地嵌入机器学习方法。

温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码，直达原文：

作者： 郭思媛 (中南财经政法大学)
邮箱： siyuanguo2020@163.com

1. 命令简介

在数据处理和分析的过程中，经常会遇到需要将不同的数据集进行合并的情况，而这些数据集之间的键值并非总是完全匹配。这时，Stata 的 rangejoin 命令可以派上用场。rangejoin 是一个强大的工具，专门用于在给定范围内进行数据合并，特别适用于那些具有范围关系的变量匹配。

与传统的 merge 或 joinby 命令不同，rangejoin 能够在上下限范围内灵活匹配数据。这意味着，用户可以通过指定某个变量的范围，实现精确的数据合并，而不仅仅局限于对所有变量的精确匹配。这种灵活性使得 rangejoin 在处理区间数据、日期匹配等复杂场景时，尤其有用。

2. 主要功能

rangejoin 命令的核心功能是将一个数据集中的每一行与另一个数据集中符合某个范围条件的观察值进行匹配。它非常适合处理需要按区间、日期或数值范围进行合并的数据。其基本原理包括以下几个步骤：

确定主数据集和从属数据集中的合并键值 (key variable)。
定义从属数据集中的范围变量 (range variable)，并设定上下限。
在给定的范围内查找匹配的行，将这些行与主数据集中的相应行合并。

下面用伪代码简要说明 rangejoin 的工作机制：

对于主数据集中的每一行：
    查找从属数据集中满足范围条件的所有行
    将匹配的行合并到主数据集中

rangejoin 的这种灵活匹配方式尤其适合用于数据分析中存在模糊匹配需求的场景，例如区间估计、时间跨度匹配或地理范围合并等。

3. 使用情境

3.1 `rangejoin` 命令的适用场景

rangejoin 命令特别适用于处理具有范围关系的数据集，这类数据的匹配通常不仅限于一个具体的值，而是基于某个区间范围内的数据进行合并。常见的应用场景包括以下几类：

时间段匹配：例如，将一个数据集中记录的事件与另一个数据集中的特定时间范围匹配。这在处理财务数据或事件研究时非常有用。
价格区间或年龄段：当需要将某一价格、年龄或其他连续变量的区间与另一个数据集的单个值匹配时，rangejoin 可以方便地实现这一需求。
地理位置范围：比如在空间分析中，匹配两个数据集之间的距离范围，以研究邻近效应。

rangejoin 的这种灵活匹配方式，使得它在处理诸如经济数据、人口统计数据、事件记录等具有模糊匹配需求的数据集时非常有效。

3.2 安装和基本语法

要使用 rangejoin，首先需要从 Stata 的 SSC 网站安装该命令及其依赖工具 rangestat。安装的命令如下：

ssc install rangejoin, replace 
ssc install rangestat, replace  // 依赖命令

rangestat 是 rangejoin 的核心依赖项，在安装 rangejoin 时会自动处理这些依赖。安装完成后，就可以在数据合并过程中应用 rangejoin。

基本语法

rangejoin 的语法相对简单灵活，允许用户根据数据集的实际需求自定义匹配条件。其基本格式如下：

rangejoin main_var min_var max_var 
          using other_dataset.dta, 
          by(group_var) suffix(_suffix)

main_var 是主数据集中的关键变量，用于匹配从属数据集的范围。
min_var 和 max_var 分别定义从属数据集中用于匹配的下限和上限，这些变量可以是常数，也可以是变量。
using other_dataset.dta 指定要合并的从属数据集。
by(group_var) 是可选项，用于在组内进行匹配。如果数据集有明确的分组变量，可以通过 by 进行更精确的范围匹配。
suffix(_suffix) 是可选项，允许为合并后的新变量指定后缀，以避免与主数据集中已有变量同名的冲突。

3.3 与其他命令的对比

rangejoin 的最大特点是支持基于范围的匹配，这在 Stata 的其他常用数据合并命令中并不常见。下面将 rangejoin 与其他几种常用合并命令进行对比：

merge：merge 命令仅支持基于具体键值的精确匹配，不适用于需要基于区间进行合并的情况。如果数据合并是基于范围的，merge 无法胜任。
mergemany：这个命令扩展了 merge 的功能，允许一次性合并多个数据集，但仍然局限于精确匹配。
joinby：与 merge 类似，joinby 允许一个键值匹配多个行，但并不支持基于范围的匹配。
append：append 命令不进行匹配，仅用于将一个数据集附加到另一个数据集的末尾，与 rangejoin 的功能完全不同。

通过以上对比可以发现，rangejoin 是 Stata 中为数不多能够处理范围匹配的命令，非常适合处理连续性或区间性变量的合并需求。

3.4 `rangejoin` 的优势和局限

使用优势

rangejoin 的优势主要体现在其灵活的范围匹配功能上：

支持范围匹配：与其他命令不同，rangejoin 允许在特定范围内进行数据合并，尤其适用于时间段、价格区间等情况，极大增强了数据处理的灵活性。
灵活的自定义功能：通过自定义匹配条件和后缀设置，用户可以避免变量命名冲突，并根据需要调整合并后的数据结构。

使用局限

尽管 rangejoin 有其独特的优势，但在某些场景下仍然存在一定的局限性：

效率问题：当处理大规模数据集时，基于范围的匹配可能导致较高的计算复杂度。尤其是在范围较宽或数据量庞大的情况下，合并过程可能会显得较慢。
适用场景有限：rangejoin 仅适用于具有明确范围关系的数据集，对于一般性的精确匹配，传统的 merge 等命令仍然是更好的选择。

总结来说，rangejoin 适合在特定场景下使用，特别是那些需要基于范围进行匹配的数据分析任务。

4. Stata 实现

在下面的四个示例中，我们通过 rangejoin 命令展示了如何根据不同的范围条件进行数据合并。

4.1 示例 1：车辆价格区间匹配

首先，使用 Stata 自带的 auto 数据集来进行演示。我们会将车辆的价格划分为不同的区间，并通过价格范围将数据集进行匹配。

4.1.1 加载数据并准备

我们先加载 auto 数据集，并创建一个包含价格区间信息的辅助数据集 price_ranges：

* 加载 auto 数据集
sysuse auto, clear
* 保存 auto_temp 数据集
save auto_temp.dta, replace

* 创建 price_ranges 数据集，定义价格区间
clear
input str10 range_name min_price max_price
"低价" 0 5000
"中价" 5001 10000
"高价" 10001 20000
end
* 保存 price_ranges 数据集
save price_ranges.dta, replace

可以看到，auto_temp 数据集包含了不同车辆及其价格，而 price_ranges 数据集则定义了三个价格区间：低价、中价和高价。

4.1.2 使用 rangejoin 命令合并数据

为了使用 rangejoin，我们需要首先安装这个命令以及依赖的 rangestat 命令：

* 安装 rangejoin 和 rangestat
ssc install rangestat, replace
ssc install rangejoin, replace

* 根据价格范围进行数据匹配
rangejoin price min_price max_price using auto_temp.dta

4.1.3 结果展示

我们可以通过 list 命令来查看匹配后的部分结果：

* 检查匹配后的数据
list make price range_name min_price max_price in 1/10

通过上面的代码，rangejoin 成功将每辆车的价格划分到相应的价格区间，匹配了对应的价格区间名称。以下是匹配后的数据截图展示：

合并后数据示例

4.2 示例 2：国内外车辆价格匹配

在这个例子中，我们使用 Stata 的 auto 数据集，展示如何根据价格范围和修理评级 (rep78) 匹配国内和国外的车辆。国内车辆和国外车辆的价格相差不超过 1000 美元时，视为匹配成功。

* 加载并保存国外车数据
sysuse auto, clear
keep if foreign
save "foreign_cars.dta"
sort rep78 price

* 加载国内车数据并进行匹配
sysuse auto, clear
drop if foreign
rangejoin price -1000 1000 using "foreign_cars.dta", by(rep78)
gen pdiff = price - price_U
sort rep78 make price_U
list make price rep78 make_U price_U pdiff, sepby(rep78 make)

该示例通过价格和修理评级将国内车与国外车进行了匹配，并计算了它们的价格差异。

4.3 示例 3：客户房价匹配

假设我们有一组客户，他们对房屋价格有各自的需求范围。我们可以使用 rangejoin 命令来将客户的需求与实际房屋价格进行匹配。

* 房屋数据
clear
input house asking
1 111
2 222
3 333
4 444
5 555
6 666
end
save "house_asking.dta"

* 客户价格需求范围
clear
input str5 name low high
Peter 300 500
Paul  400 600
Mary  600 700
end

* 进行数据匹配
rangejoin asking low high using "house_asking.dta"
sort name house
list, sepby(name)

通过这个例子，我们将客户的价格需求与房屋的实际价格进行匹配，方便客户根据价格需求筛选合适的房源。

4.4 示例 4：按 ZIP 代码匹配房价

在上一个例子的基础上，我们加入 ZIP 代码的条件，进一步限定匹配条件，使得客户只能匹配到特定区域内的房屋。

* 房屋数据，包含 ZIP 代码
clear
input house asking zip
1 111 48101
2 222 48101
3 333 48101
4 444 48101
5 555 48103
6 666 48103
end
save "house_asking.dta"

* 客户需求范围，按 ZIP 代码匹配
clear
input str5 name low high zip
Peter 300 500 48103
Paul  400 600 48103
Mary  600 700 48101
end

* 进行按 ZIP 代码的匹配
rangejoin asking low high using "house_asking.dta", by(zip)
sort name house
list, sepby(name)

这个例子展示了如何根据价格和 ZIP 代码将客户与房屋进行匹配，确保只匹配到同一区域内的房屋。

5. 总结

rangejoin 命令是 Stata 中一个非常强大的工具，尤其适用于需要根据范围条件来合并数据的场景。无论是在价格匹配、客户需求筛选，还是根据地理位置进行匹配，rangejoin 都能帮助我们高效、准确地进行数据处理。通过设置合适的范围条件，用户可以灵活地应用于各种数据整合任务，极大地提升数据处理的效率和准确性。

6. 相关推文

Note：产生如下推文列表的 Stata 命令为：
lianxh 合并
安装最新版 lianxh 命令：
ssc install lianxh, replace

刘欣妍, 2020, Stata：数据合并与匹配-merge-reclink, 连享会 No.461.
左祥太, 2021, Stata 数据标签和合并, 连享会 No.756.
左祥太, 2021, Stata数据处理：快速合并与编码-encodefrom, 连享会 No.767.
张弛, 2024, Stata：numdate-超好用的日期转换函数, 连享会 No.1345.
李原, 2024, Stata：合并具有不同国家代码的数据集, 连享会 No.1360.
祖丽胡玛尔·热合曼, 2023, Stata：排序、种子值和随机数——为何每次的结果都不同？, 连享会 No.1314.
谢作翰, 2021, Stata小白系列之二：数据拆分与合并, 连享会 No.719.
谢作翰, 连玉君, 2020, Stata小白系列之二：数据拆分与合并, 连享会 No.312.
连享会, 2020, multimport : 一次性导入并合并多个文件, 连享会 No.228.
连玉君, 2020, Stata: 如何快速合并 3500 个无规则命名的数据文件？, 连享会 No.227.
鞠瑶蕾, 2023, Stata：多对多合并-merge-joinby, 连享会 No.1255.