Stata2R：那些 R 中的 _N 和 _n 替代技巧

文摘 2024-11-05 22:00 中国

👇 连享会 · 推文导航 | www.lianxh.cn

🍎 Stata：Stata基础 | Stata绘图 | Stata程序 | Stata新命令
📘 论文：数据处理 | 结果输出 | 论文写作 | 数据分享
💹 计量：回归分析 | 交乘项-调节 | IV-GMM | 时间序列 | 面板数据 | 空间计量 | Probit-Logit | 分位数回归
⛳ 专题：SFA-DEA | 生存分析 | 爬虫 | 机器学习 | 文本分析
🔃 因果：DID | RDD | 因果推断 | 合成控制法 | PSM-Matching
🔨 工具：工具软件 | Markdown | Python-R-Stata
🎧 课程：最新专题 | 计量专题 | 关于连享会

🍓 课程推荐：2024 机器学习与因果推断专题
主讲老师：司继春 (上海对外经贸大学) ；张宏亮（浙江大学）
课程时间：2024 年 11 月 9-10 日；16-17日
课程咨询：王老师 18903405450（微信）

课程特色 · 2024机器学习与因果推断：

懂原理、会应用。本次课程邀请了两位老师合作讲授，目的在于最大限度地实现理论与应用的有机结合。为期四天的课程，分成两个部分：第一部分讲解常用的机器学习算法和适用条件，以及文本分析和大语言模型；第二部分通过精讲 4-6 篇发表于 Top 期刊的论文，帮助大家理解各类机器学习算法的应用场景，以及它们与传统因果推断方法的巧妙结合。
以 Top 期刊论文为范例。目前多数人的困惑是不清楚如何将传统因果推断方法与机器学习结合起来。事实上，即便是 MIT 和 Harvard 的大牛们也都在「摸着石头过河」。为此，通过论文精讲和复现来学习这部分内容或许是目前最有效的方式了。张宏亮老师此前在浙江大学按照这一模式教授了「因果推断和机器学习」课程，效果甚佳：学生们能够逐渐建立起研究设计的理念，并在构造识别策略时适当地嵌入机器学习方法。

温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码，直达原文：

作者： 连玉君 (中山大学)
邮箱： arlionn@163.com

1. 简介

在 Stata 中，_N 和 _n 能够帮助用户轻松获取数据集的总行数或当前行号，在进行分组统计分析、产生滞后项、差分项等数据分析任务中，是非常重要的工具。R 虽然没有完全相同的内置变量，但我们可以通过 dplyr 包的功能来模拟 _N 和 _n。本文将通过示例展示如何在 R 中进行类似的操作，包括滞后变量、前向变量、分组统计、滚动窗口计算等。

本文旨在为那些已有 Stata 基础，又想学学 R 语言的用户提供一些实现 _N 和 _n 功能的替代方案。

2. Stata 中的 `_n` 和 `_N`

在此前的推文 Stata编程：_n 和 _N 有啥区别？中，我们详细介绍了 Stata 中的 _n 和 _N。这里作简要回顾：

_n：表示当前观测的行号，常用于排序、筛选当前行数据等。
_N：表示当前数据集的总行数，适合用于计算总观测数或标记数据范围。

Stata 使用示例

在 sysuse auto 数据集上，可以通过 _n 和 _N 进行如下操作：

sysuse auto, clear

// 1. 标记前 10 行数据
gen first_10 = (_n <= 10)

// 2. 计算总数，并在最后一行显示
gen total = (price == price[_N])

// 3. 创建滞后变量和差分
sort make
gen lag_price = price[_n-1]
gen diff_price = price - price[_n-1]

// 4. 分组统计每个行业的总人数
bysort industry: gen count_ind = _N

3. R 中的实现示例

3.1 R 中的总观测数：模拟 `_N`

在 R 中，可以用 nrow() 或 dplyr 中的 n() 来获取数据框的总行数，类似于 _N。

df <- data.frame(x = c(1, 2, 3, 4, 5))
n_total <- nrow(df)
print(n_total)

对应的 Stata 实现：

sysuse auto, clear
di _N  // 打印总行数

3.2 R 中的行号：模拟 `_n`

可以用 row_number() 在 R 中生成行号，模拟 _n 的效果：

library(dplyr)
df <- df %>% mutate(n = row_number())
print(df)

对应的 Stata 实现：

sysuse auto, clear
gen n = _n
list make n if n <= 10  // 列出前 10 行及其行号

3.3 滞后变量、前向变量和差分

在 R 中，使用 dplyr::lag() 和 dplyr::lead() 函数实现滞后和前向变量，并结合 mutate() 生成差分：

df <- data.frame(id = 1:10, value = c(10, 15, 18, 25, 27, 32, 40, 50, 58, 60))
df <- df %>%
  mutate(
    lag_value = lag(value),            
    lead_value = lead(value),          
    diff_value = value - lag(value)    
  )
print(df)

对应的 Stata 实现代码：

sysuse auto, clear
sort make
gen lag_value = price[_n-1]
gen lead_value = price[_n+1]
gen diff_value = price - price[_n-1]

3.4 分组统计：模拟 Stata 中的 `bysort`

在 R 中，可以使用 group_by() 结合 mutate() 模拟 Stata 的 bysort。例如，统计每个行业的总人数：

df <- data.frame(industry = c("A", "A", "B", "B", "B", "C"), value = 1:6)
df <- df %>%
  group_by(industry) %>%
  mutate(count_ind = n()) %>%
  ungroup()
print(df)

输出结果：

# A tibble: 6 x 3
    industry value count_ind
    <chr>    <int>     <int>
1   A            1         2
2   A            2         2
3   B            3         3
4   B            4         3
5   B            5         3
6   C            6         1

对应的 Stata 实现：

sysuse auto, clear
bysort industry: gen count_ind = _N

4. R 中的高级用法

4.1 滚动平均

使用 zoo 包中的 rollmean() 可以方便地实现滚动窗口操作，例如计算移动平均：

library(zoo)

df <- data.frame(value = c(10, 20, 30, 40, 50))
df <- df %>%
  mutate(roll_mean_3 = rollmean(value, 3, fill = NA, align = "right"))
print(df)

输出结果：

  value roll_mean_3
1    10          NA
2    20          NA
3    30          20
4    40          30
5    50          40

4.2 排名和分位数计算

通过 dplyr 中的 min_rank() 和 ntile() 可以生成组内排名和分位数：

df <- data.frame(group = rep(1:2, each = 5), value = c(5, 15, 10, 25, 20, 8, 18, 12, 22, 30))
df <- df %>%
  group_by(group) %>%
  mutate(
    rank = min_rank(value),          # 组内排名
    quantile = ntile(value, 4)       # 组内四分位数
  ) %>%
  ungroup()
print(df)

输出结果：

# A tibble: 10 x 4
     group value  rank quantile
     <dbl> <dbl> <int>    <int>
 1       1     5     1        1
 2       1    15     3        2
 3       1    10     2        1
 4       1    25     5        4
 5       1    20     4        3
 6       2     8     1        1
 7       2    18     3        2
 8       2    12     2        1
 9       2    22     4        3
10       2    30     5        4

对应的 Stata 实现：

sysuse auto, clear
bysort group: gen rank = _n
bysort group (value): gen quantile = ceil(4 * _n / _N)  // 生成分位数

4.3 组间差异的计算

在分组计算后，可以通过 left_join() 将组均值合并到原数据集，并计算观测值与组均值的差异：

df <- data.frame(group = rep(1:2, each = 5), value = c(5, 15, 10, 25, 20, 8, 18, 12, 22, 30))

group_means <- df %>%
  group_by(group) %>%
  summarize(mean_value = mean(value))

df <- df %>%
  left_join(group_means, by = "group") %>%
  mutate(diff_from_mean = value - mean_value)
print(df)

输出结果：

# A tibble: 10 x 5
   group value mean_value diff_from_mean
   <dbl> <dbl>      <dbl>          <dbl>
 1     1     5         15           -10
 2     1    15         15             0
 3     1    10         15            -5
 4     1    25         15            10
 5     1    20         15             5
 6     2     8         18           -10
 7     2    18         18             0
 8     2    12         18            -6
 9     2    22         18             4
10     2    30         18            12

对应的 Stata 实现：

sysuse auto, clear
bysort group: egen mean_value = mean(value)
gen diff_from_mean = value - mean_value

5. 总结

本文介绍了 R 如何通过 dplyr 包实现类似 Stata 中 _N 和 _n 的操作。我们比较了两者在总观测数、行号、滞后变量、差分、分组统计、排名和分位数、滚动平均等方面的实现方法。尽管 R 没有完全相同的内置变量，但 dplyr 提供了灵活的数据操作工具。

6. 参考资料和相关推文

Note：产生如下推文列表的 Stata 命令为：
lianxh
安装最新版 lianxh 命令：
ssc install lianxh, replace

R for Data Science - Garrett Grolemund & Hadley Wickham
梁淑珍, 2022, Stata编程：_n 和 _N 有啥区别？, 连享会 No.1052.
于颂阳, 2020, Stata: 获取分组回归系数的三种方式, 连享会 No.37.
云锋, 2020, sumup：快速呈现分组统计量, 连享会 No.65.
侯新烁, 2020, Stata数据处理：用-astile-快速创建分组, 连享会 No.324.
胡雨霄, 2018, statsby: 不用循环语句的循环, 连享会 No.108.
袁子晴, 2021, forest-森林图：分组回归系数可视化, 连享会 No.651.
连享会, 2020, Stata：runby - 一切皆可分组计算！, 连享会 No.229.
连玉君, 2020, Stata: 如何检验分组回归后的组间系数差异？, 连享会 No.19.

🍓 课程推荐：2024 机器学习与因果推断专题
主讲老师：司继春 (上海对外经贸大学) ；张宏亮（浙江大学）
课程时间：2024 年 11 月 9-10 日；16-17日
课程咨询：王老师 18903405450（微信）

尊敬的老师 / 亲爱的同学们：

连享会致力于不断优化和丰富课程内容，以确保每位学员都能获得最有价值的学习体验。为了更精准地满足您的学习需求，我们诚挚地邀请您参与到我们的课程规划中来。请您在下面的问卷中，分享您 感兴趣的学习主题或您希望深入了解的知识领域 。您的每一条建议都是我们宝贵的资源，将直接影响到我们课程的改进和创新。我们期待您的反馈，因为您的参与和支持是我们不断前进的动力。感谢您抽出宝贵时间，与我们共同塑造更加精彩的学习旅程！https://www.wjx.cn/vm/YgPfdsJ.aspx# 再次感谢大家宝贵的意见！

New！ Stata 搜索神器：lianxh 和 songbl GIF 动图介绍
搜：推文、数据分享、期刊论文、重现代码 ……
👉 安装：
. ssc install lianxh
. ssc install songbl
👉 使用：
. lianxh DID 倍分法
. songbl all

🍏 关于我们

连享会 ( www.lianxh.cn，推文列表) 由中山大学连玉君老师团队创办，定期分享实证分析经验。
直通车： 👉【百度一下：连享会】即可直达连享会主页。亦可进一步添加「知乎」,「b 站」,「面板数据」,「公开课」等关键词细化搜索。

http://mp.weixin.qq.com/s?__biz=Mzk0MDI1NTgyOQ==&mid=2247580926&idx=1&sn=e2cbd9cfd0546176e8b25eb3474420f1

连享会

连玉君老师团队分享，主页：lianxh.cn。白话计量，代码实操；学术路上，与君同行。

最新文章

vgets：VAR模型设定和筛选-T240

CCC-GARCH：常值条件相关系数模型

TVP-VAR：时变参数向量自回归模型

调节效应是否需要考虑对控制变量交乘？

medsem-中介效应：基于结构方程模型SEM的中介效应分析

Stata：因果中介分析大比拼-T323

Stata：合成控制法介绍-synth2

严格外生性假设检验方法与应用

IV-面板内生性：严格外生性如何检验？

RDD断点回归：多个断点多个分配变量如何处理

Stata+R：一文读懂精确断点回归-RDD

RDD：离散变量可以作为断点回归的分配变量吗？

Stata：一行代码绘制平行趋势图-eventdd

Stata：事件研究法的稳健有效估计量-did_imputation

DID最新进展：异质性处理条件下的双向固定效应DID估计量 (TWFEDD)

Stata：IV估计新方法-ivreg2m

Stata：无需工具变量的IV估计-kinkyreg-

ivreghdfe-高维固定效应IV估计：错误信息处理-817 lines skipped

异质性分析！异质性分析！

FE！FE！面板固定效应模型：你用对了吗

Stata绘图：面板数据可视化-panelview

Stata：系数稳定性分析 - psacalc

Stata：堆叠回归及组间差异联合检验

控制变量越多越好吗？

Stata：输出LaTeX表格

Stata结果输出：用esttab命令绘制LaTeX表格

Stata：定制论文中表1-table1

Stata：R-squared有用吗？

Stata小白编程：暂元及macrolists命令

Stata：投资组合有效边界

Stata：通过数据框进行数据横向合并-framerge

Stata绘图：一套高效绘图命令-plottabs

Stata绘图：COVID-19数据可视化-山脊图

Stata：手动计算置信区间

Stata数据处理：缺失值类型及应对方法

Stata数据处理：缺失值填充-autofill-carryforward

明天开课！连享会：机器学习与因果推断

交乘项困惑：交互模型中的控制变量如何选择？

Stata：一文读懂事件研究法Event Study

Stata：事件研究法的编程实现

用因子模型克服遗漏变量偏误：论文复现和解读

距离开课仅余1天！机器学习与因果推断

连玉君Stata33讲：面板数据模型简介-FE和RE有何区别？

Stata-Python交互：如何安装Python宏包

从 Stata 到 R：如何使用 tag() 和 if_else() 标记分组中的首个观测

Stata错误信息-stacktrace not available：安装路径中不要包含中文字符和空格

聊聊Stata中的profile文件-第二季

Stata2R：那些 R 中的 _N 和 _n 替代技巧

距离开课仅余3天！机器学习与因果推断

Stata：自己动手做组间系数差异检验-bootstrap-bdiff

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

Stata2R：那些 R 中的 _N 和 _n 替代技巧

1. 简介

2. Stata 中的 _n 和 _N

3. R 中的实现示例

3.1 R 中的总观测数：模拟 _N

3.2 R 中的行号：模拟 _n

3.3 滞后变量、前向变量和差分

3.4 分组统计：模拟 Stata 中的 bysort

4. R 中的高级用法

4.1 滚动平均

4.2 排名和分位数计算

4.3 组间差异的计算

5. 总结

6. 参考资料和相关推文

🍏 关于我们

2. Stata 中的 `_n` 和 `_N`

3.1 R 中的总观测数：模拟 `_N`

3.2 R 中的行号：模拟 `_n`

3.4 分组统计：模拟 Stata 中的 `bysort`