Stata小白系列之三:数据标签与排序

文摘   教育   2024-10-03 22:00   中国  

👇 连享会 · 推文导航 | www.lianxh.cn

🍓 课程推荐:2024 机器学习与因果推断专题
主讲老师:司继春 (上海对外经贸大学) ;张宏亮(浙江大学)
课程时间:2024 年 11 月 9-10 日 ;16-17日
课程咨询:王老师 18903405450(微信)

 课程特色 · 2024机器学习与因果推断

  • 懂原理、会应用。本次课程邀请了两位老师合作讲授,目的在于最大限度地实现理论与应用的有机结合。为期四天的课程,分成两个部分:第一部分讲解常用的机器学习算法和适用条件,以及文本分析和大语言模型;第二部分通过精讲 4-6 篇发表于 Top 期刊的论文,帮助大家理解各类机器学习算法的应用场景,以及它们与传统因果推断方法的巧妙结合。
  • 以 Top 期刊论文为范例。目前多数人的困惑是不清楚如何将传统因果推断方法与机器学习结合起来。事实上,即便是 MIT 和 Harvard 的大牛们也都在「摸着石头过河」。为此,通过论文精讲和复现来学习这部分内容或许是目前最有效的方式了。张宏亮老师此前在浙江大学按照这一模式教授了「因果推断和机器学习」课程,效果甚佳:学生们能够逐渐建立起研究设计的理念,并在构造识别策略时适当地嵌入机器学习方法。


作者:谢作翰 |  连玉君 | (知乎 | 简书 | 码云)

编者按:从本期开始,Stata 连享会将推出「Stata 小白系列」推文,介绍数据导入、命令语法等 Stata 入门知识,以帮助各位尽快掌握 Stata 的基本操作。需要注意的是,本文所有数据可通过 lxhget xzhstata.pkg, replace 命令获取。


目录

  • 1. 数据标签

    • 1.1 为数据添加标签

    • 1.2 为变量添加标签

    • 1.3 为数值添加标签

  • 2. 数据排序

  • 3. 相关推文



1. 数据标签

为了让用户更加清楚地了解数据的来源、变量的含义、观测值的解释等相关内容,Stata 可以为数据、变量、观测值添加标签。最常用的标签方法有三类:一是为数据库添加标签,二是为变量添加标签,三是为观测值添加标签。

1.1 为数据添加标签

命令:label data ["label"]

在这个命令语句中,label data 是为数据库添加标签的命令语句,["label"] 代表所要添加的标签的内容。

1.2 为变量添加标签

命令:label variable varname ["label"]

label variable 是为变量添加标签的命令语句, varname 代表所要添加标签的变量名称,["label"] 代表所要添加的标签的内容。

1.3 为数值添加标签

对于数值型的分类变量,单纯通过数值很难判断其含义,例如用 0 和 1 区分性别,但是很难区分 0 是代表男性还是女性,这时如果给数值添加标签,就方便用户理解了。

为数值添加标签是通过两步来完成的,第一步是定义数值标签:

label define lblname # "label" [# "label" ...] [, add modify replace
nofix]

说明:label define 是定义数值标签的命令语句,lblname 代表所要定义的数值标签的名称,# 代表所要定义的数值,"label" 代表所要添加的标签的内容。需要注意的是 options 的内容,其中 add 的作用是添加标签内容,modify 的作用是对已存在的标签内容做修改,nofix 的作用是要求 Stata 不为标签的内容而改变原变量的存储容量。

第二步是将所定义的数据标签与相关变量结合:

label values varname [lblname] [, nofix]

在这个命令语句中,label values 是将定义的数据标签与相关变量结合的语句, varname 代表将要添加标签的变量名称,[lblname]代表刚刚定义的数据标签名称。

. sysuse auto.dta, clear
. label data "1978年美国汽车产业的横截面数据"
. label variable make "品牌"
. label variable mpg "每加仑油行使里程数"
. label define foreignlabel 0 "国内" 1 "国外"
. label values foreign foreignlabel
. des

Contains data from D:\Program\Stata17\ado\base/a/auto.dta
Observations: 74 1978年美国汽车产业的横截面数据
Variables: 12 13 Apr 2020 17:45
(_dta has notes)
---------------------------------------------------------------------
Variable Storage Display Value
name type format label Variable label
---------------------------------------------------------------------
make str18 %-18s 品牌
price int %8.0gc Price
mpg int %8.0g 每加仑油行使里程数
rep78 int %8.0g Repair record 1978
headroom float %6.1f Headroom (in.)
trunk int %8.0g Trunk space (cu. ft.)
weight int %8.0gc Weight (lbs.)
length int %8.0g Length (in.)
turn int %8.0g Turn circle (ft.)
displacement int %8.0g Displacement (cu. in.)
gear_ratio float %6.2f Gear ratio
foreign byte %8.0g foreignlabel
Car origin
---------------------------------------------------------------------
Sorted by: foreign
Note: Dataset has changed since last saved.

. label list
foreignlabel:
0 国内
1 国外
origin:
0 Domestic
1 Foreign

2. 数据排序

为了处理数据的方便,有时需要对数据进行排序处理,排序的命令有主要有两个:sort 命令和 gsort 命令。

*命令语法
sort varlist [in] [, stable]

在这个命令语句中,sort 是基本命令,varlist 代表将要进行排序的变量名称,[in] 代表排序的范围,[, stable] 的含义是如果两个观测值相同,其顺序保持与原数据相同。

*命令语法
gsort [+|-] varname [[+|-] varname ...] [, generate(newvar) mfirst]

其中需要说明的内容有两点:

  • [+] 表示按升序排列,是 Stata 默认的排列方式,[-] 表示按降序排列;
  • generate(newvar) 表示排序之后生成新的变量,mfirst 表示将缺失值排在最前面。

将 auto.dta 数据文件中的观测值按变量 price 由小到大排列,这个操作可以通过以下命令完成:

. sysuse auto.dta, clear
. sort price

. *或者
. gsort + price

3. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh 标签 编程, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

  • 专题:Stata教程
    • Stata编程:暂元,local!暂元,local!
    • 普林斯顿Stata教程(三) - Stata编程
  • 专题:数据处理
    • Stata:elabel命令-强大的标签管理工具
  • 专题:Stata绘图
    • Stata绘图:重新定义坐标轴刻度标签
  • 专题:Stata程序
    • Stata小白编程:暂元及macrolists命令
    • Stata小白编程:步步为营-以阶乘计算为例
  • 专题:回归分析
    • Stata:事件研究法的编程实现

🍓 课程推荐:2024 机器学习与因果推断专题
主讲老师:司继春 (上海对外经贸大学) ;张宏亮(浙江大学)
课程时间:2024 年 11 月 9-10 日 ;16-17日
课程咨询:王老师 18903405450(微信)

尊敬的老师 / 亲爱的同学们:

连享会致力于不断优化和丰富课程内容,以确保每位学员都能获得最有价值的学习体验。为了更精准地满足您的学习需求,我们诚挚地邀请您参与到我们的课程规划中来。请您在下面的问卷中,分享您 感兴趣的学习主题或您希望深入了解的知识领域 。您的每一条建议都是我们宝贵的资源,将直接影响到我们课程的改进和创新。我们期待您的反馈,因为您的参与和支持是我们不断前进的动力。感谢您抽出宝贵时间,与我们共同塑造更加精彩的学习旅程!https://www.wjx.cn/vm/YgPfdsJ.aspx# 再次感谢大家宝贵的意见!

New! Stata 搜索神器:lianxh 和 songbl  GIF 动图介绍
搜: 推文、数据分享、期刊论文、重现代码 ……
👉 安装:
  . ssc install lianxh
  . ssc install songbl
👉  使用:
  . lianxh DID 倍分法
  . songbl all

🍏 关于我们

  • 连享会 ( www.lianxh.cn,推文列表) 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 直通车: 👉【百度一下: 连享会】即可直达连享会主页。亦可进一步添加 「知乎」,「b 站」,「面板数据」,「公开课」 等关键词细化搜索。

连享会
连玉君老师团队分享,主页:lianxh.cn。白话计量,代码实操;学术路上,与君同行。
 最新文章