钱能买来快乐吗？用Stata完成量化论文全流程示例

教育 2025-02-04 20:30 黑龙江

来点方法

♪

Method

量化研究已经逐渐成为社会科学研究的主流，其重要地位无需赘述。

好的选题+严谨的模型+熟练的软件操作=一篇好的论文

对于Stata的操作而言，市场上的书籍、课程等琳琅满目，而本文侧重于如何使用Stata完成一篇量化论文的数据处理，满满的干货，相信各位读者尤其是初学者如果能够操作一遍，一定会对Stata的运用有所掌握。

本文从数据清理、描述性统计、循环命令的使用、双变量分析、因子分析、线性回归、Logistic回归、表格输出等方面详细地介绍Stata的使用。

跑一个模型对于看似十分简单，的确也十分简单，只需要一行命令，但是“跑模型”的功夫尽在“模型”前。

在这里，我们利用CGSS2015数据，假定来研究“钱能买来快乐吗？”即收入对主观幸福感的影响

01 打开数据

方法1：通过命令方式

use "D: cgss2015_14.dta", clear

方法2：窗口点击（更推荐，不用写路径）

点击菜单栏第一个文件夹的标志，然后打开数据

点击后会在屏幕上出现一行命令，可以将其复制到do文件中，便于下次使用

02 查看数据/变量

例如：我们最关心的两个变量一个是收入，一个是主观幸福感，我们可以先查看一下变量的基本情况

tab a36

sum a8a

03 数据/变量管理

熟悉stata或者是量化研究处理流程的读者可能清楚，跑一个模型可能在这一步需要花费很大的力气，在这里我们将详细地来进行操作示范

*几个常用命令：gen recode rename replace

*Part ONE 基本人口学变量处理

社会科学的研究中基本人口学变量是必不可少的，本部分的命令也可以复制到以后的其他研究中使用，事半功倍！

*性别

gen gender=a2 //生成一个新变量gender，gender这个变量就是原来的a2变量

*年龄

gen age=2015-a301 //生成一个新变量age，这个变量为2015减去出生年

*民族

gen nation=a4

replace nation=. if nation<0 //在stata中用.或者空格来表示缺失值，这样软件就能识别出，否则将会代入计算

recode nation (1=1 "汉族")(else=0 "少数民族"),gen(newnation)

*教育程度

gen edu=a7a

replace edu=. if edu<0

recode edu(1 2 3=1 "小学及以下")(4=2 "初中")(5 6 7 8=3 "高中（专）")(else=4 "大专及以上"),gen(newedu)

*政治面貌

gen party=0

replace party=1 if a10==4

replace party=. if a10<0

*户口

gen hukou= a18

recode hukou (1=0 "农业户口")(7=. )(else=1 "非农户口"),gen(urban) //将没有户口处理为缺失值

global population gender age newnation newedu party urban

/*定义全局宏，用处就是将上述所有人口学变量定义为population，在接下来的回归时就不

需要每个变量都敲一遍，通过输入$population就可以*/

*PART TWO 自变量处理

*我们的研究问题是：钱能不能买来快乐？我们用个人全年总收入测量“钱”，相关处理如下：

gen income=a8a

replace income=. if income<0

/*在回归分析中有一个重要的假定，就是变量要服从正态分布，我们可以通过直方图的形式

来观察变量是否服从正太分布，具体命令如下：*/

hist income, percent normal title("收入分布")

/*做完图之后我们发现，收入这个变量呈现明显的左偏的分布态势，根据统计学原理，

针对左偏的变量我们一般采用取对数的形式来纠正，命令如下：*/

gen lnincome=log(income+1)

/*生成收入对数变量，选择收入+1的原因是，对数运算的数学原理中不允许出现0，而收入

变量中有0值，为了让这些0收入的样本进入，我们将其+1，这也不会对最后的结果产生较大影响*/

hist lnincome, percent normal title("收入对数分布") //调整之后收入对数是符合正态分布的

*PART THREE 因变量处理

*我们的研究问题是：钱能不能买来快乐？我们用主观幸福感测量“快乐”，相关处理如下：

gen happy=a36

replace happy=. if happy<0

*PART FOUR 控制变量

在研究中除了要控制基本的人口学变量之外，还要控制一些混杂因素，正常情况下，控制变量的选择要依照理论，这里仅为了方法上的展示，我们拟控制如下变量：个人能力和社会阶层这两个变量

*个人能力

/*我们拟采用CGSS问卷中的：您觉得自己的以下能力是什么水平？（问卷P11）进行测量

主要包括四个方面：听普通话、说普通话、听英语、说英语等能力，对于这四个题目我们

可以通过一个循环命令来解决，不需要繁琐的写很多命令，具体如下：*/

forvalue i=49/52{

replace a`i'=. if a`i'<0

}

另外的一个问题，如果我们把这四个问题都放入模型会产生严重的多重共线性问题，

为了避免这一问题，我们可以用因子分析的方法解决，具体如下：

factor a49-a52

rotate

predict f1

rename f1 ability //将f1这个因子得分变量重命名为ability

*社会阶层

gen

replace class=. if class<0

global var class ability

04 回归分析

*PART ONE 一般线性回归

reg happy lnincome //reg是线性回归的命令，后面第一个变量是因变量，其余顺序无要求

reg happy lnincome $population $var //人口学变量和控制变量均利用全局宏简写

*PART TWO Logistic回归

ologit happy income //ologit是序次logistic回归的命令，后面第一个变量是因变量，其余顺序无要求

ologit happy income $population $var

可以看出，回归分析只是一行命令而已，真正的工作是在第三步：数据/变量管理中

05 表格输出

经过一些列的数据分析后，到底如何将结果变成可以直接贴在论文的图表呢？

在这里介绍几个命令，可以将描述性统计以及回归分析的表格直接输入到word中。

*PART ONE 描述性表格输出

ssc install asdoc, replace //安装外部命令，用于表格输出

asdoc sum income lnincome happy $population $var, ///

stat(N mean sd p25 p75) fs(12) dec(2) ///

save(summary1.doc)

stat表示需要输出的描述性统计变量，具体而言，

stat(N mean sd p25 p75) 表示输出的统计变量为样本数、算术平均数、标准差、t 值、1% 分位数、99% 分位数，fs(#) 为 Font size 的缩写，表示字号大小为 # 镑，dec(#) 为 Decimal points 的缩写，表示输出结果保留到小数点后 # 位

输出的结果如下图：

/*以下命令只能用于Stata15.0以上版本

ssc install sum2docx,replace

sum2docx income lnincome happy $population $var ///

using table1.docx,append obs mean(%9.2f) ///

sd min(%9.0g) median(%9.0g) max(%9.0g) ///

title("表1：描述性统计")

shellout table1.docx

*PART TWO 回归表格输出

*方法一：利用outreg2命令

ssc install outreg2,replace //安装外部命令，用于表格输出

reg happy lnincome

est sto m1 //将这个模型保存为m1

reg happy lnincome $population $var

est sto m2 //将这个模型保存为m2

outreg2 [m1 m2] using "d:\", excel dec(3) alpha(0.001, 0.01, 0.05)

/*将m1和m2共同输出到表格中，保存到d盘，dec（3）指保留三位小数，alpaha（）指显著性水平*/

*方法二：

findit ettab

reg happy lnincome

est sto m1 //将这个模型保存为m1

reg happy lnincome $population $var

est sto m2 //将这个模型保存为m2

esttab m1 m2 using result.rtf,se r2 mtitle star(+ 0.1 * 0.05 ** 0.01)
/*m1和m2共同输出到表格中，输出包括标准误，r平方，和显著性水平,保存位置为当前cd的位置*/

点亮在看👇

量化研究方法

以量化之思想认识世界，体会量化之美。

推荐账号，扫码关注

最新文章

DeepSeek科研应用直播主题月：带你窥见科研变革的引擎与机遇

论文速读：logistic回归变量筛选及回归方法选择实例分析

平台化运作的整体性政府——基于城市运行“一网统管”的个案研究

科研人的福利！DeepSeek 带你开启疯狂逆袭！

研究生在家如何提高文献阅读效率？

风笑天：“作为过程的文献回顾”和“作为结果的文献回顾”

1 元解锁 DeepSeek 科研密码，开启 AI 科研新征程！

你的论文，有什么“贡献”？

少谈些理论，多描述些问题

理解复杂系统：堵车时，第一辆车在干嘛？

北大教授的方法课：30讲带你搞懂实证研究

DeepSeek锐评所有英文经济学TOP刊

在线调查的抽样方法及注意事项

C刊主编分享：众多C刊论文都采用的写作理论！

乔晓春：规范科学的社会科学研究，如何用数据说话

史上很全的，统计学常用的数据分析方法大总结

告别恐惧：文科生易懂的结构方程模型课程来啦！

钱能买来快乐吗？用Stata完成量化论文全流程示例

什么是数据的中心化处理？一定要进行中心化处理吗？（附SPSS具体步骤）

救命！这个共写营治好了我的论文“恐惧症”

大数据舆情情感分析，如何提取情感并使用什么样的工具？

清华大学博导的方法课：21讲带你玩转CGSS数据库

博士在读就发UTD是一种什么样的感受？

从相亲说起：关于决策树要知道的那些事儿

硕博研究生常看的13个微信公众号

“数字生命”和社会学的方向

量化研究的十个迷思

这么快就能搞定文献综述？AI工具有点东西

杨晓光：与复杂共存顺势而为——从复杂性看社会系统管理

一个合格的硕士论文，实证分析部分至少要做到

AI助力科研：论文写作全流程智能指南

经典论文推荐：相关向量机是什么？

因果关系到底存不存在：反事实和平行宇宙

学术论文创新点：田野民族志方法的理论与应用

大数据时代的社会学研究

社会学书单 | 社会学本科四年要看多少本书？

论文写作中常用的107个研究方法（含详细解释）

怎样改进你的数据呈现方式

如果你是读量化研究的硕博，那你将主要经历……

干货 | 神仙打架的统计学发展史

如果像这样做实证研究, 你不可能至今还发不了经济研究

亲身验证 | 3年发8篇C刊，有了这本模型手册发论文也不难！

共线性问题就是同语反复

教授收到学生的调查问卷，回复：无从下手！

清华大学博导的方法课：21讲带你玩转CGSS数据库

优秀论文深度剖析：问卷数据建模之前的工作

教授收到博士生的调查问卷，回复：又一份令人无从下手的失败问卷

亲身验证 | 3年发8篇C刊，有了这本模型手册发论文也不难！

复旦大学教授 | 我国计算社会科学的发展现状与未来展望

如何快速识别一篇论文的研究方法是否科学严谨？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉